Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f675b8e523776045fff07cc6069a11f316b731b88040c14db9f32fd2ee4cb3fc
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c7ebbcad844382cb0827a7b1f134dbcd4d34137f17f88cff4f0916eb189ebf5
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f144ad0e0078ea0e907fff1577dca201e23acfe6b187950b4207828616263df7
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:7112a496d5fcae5f50cfea78f1f333eab9ed1e0c59313fd80a7a7bc132bf69da
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ea5ca8f53b6619679b02cad3a488679df060e795c7845edb2fadcfae284f3c6
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:8017e33ea602d361b2a15d6086fc895939152bd60dd6cf18b54db9895e8fa4ab
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71aead7baaa7488a46b28b54b870b312346cd6aeaefc2ee1bca37b7b3c220410
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b44a3e9c1fc45b6852fc5241f9ff5cc13d8e2ff6074f9df68b4d097ed706134
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d47c1fa7dbfc22211ae4d9ef6a93950aecd82aa0597b76b6088d58ab8cebfce
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecc2212000c5fe210e90809b2e44ab52cdbe049455449ffbb43a7aee4a0f7198
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b2ebcfed4a6ec05a623903e4f7a5369ae2dc76493e6791d714d19397c077eb8
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e14dfa71bc73ec24ac571cc78cf5e1386575d6b3eadffbdf1fdb4f7ef2266da
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5346e91abc6e958cbd6a5b276aa1375688bf66b327a1cf44856c6f64608dfbed
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d60546e3c3ddce8d7a69cf9166934de67859396cc08b7574b96d474577977c98
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15d4b2668fb0f0c7aceb12510a0e81b0ac44e7c44b8fc9b9bc407ca80b2baea3
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bae454cfbbeef253a90b9291e2fe802fd4eab12a25818000192a303e71359d4
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7af657b557210fae0ffbaec36878ba97d5823ecb77a0293ffe43fc6e4f3d427b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:13cdfb0ba0b39344ffb7c51f008a9525a0099ba731e0b27df1e92d8952acacbf
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f09a374443c7d9aedad0fa8df337669a31b68e237c3859c2041ae01b1833bccc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b00b812fe39f4d94693255c049b0abd4bfba391cf4f816905b3d288faf6ee1ba
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e720f588174a5fb5674a6cf224f79a363e3703e591c74fb40c50cb44c49746c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8934e21fbebe2892e28c801cf4e90276a2f5fc0d5159b41c7d9ebdd5b89cbbbd
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b312f3be5f5d1b5587804f12a8f6902d1233a4020e9562b05c089db1693ddd6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:c08fecc49906d862bfc6e72f4697782e40b17c8a512b907777ac3c47be4f8aa5
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d6685944070ce9823634f48aac861b22b93e0dde51040bec01d339ab13515a2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:007a009d54f5cc96725c131dafb54cc883f16e2aa322b400a09312dd7b22f98b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6188118811881188,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.701,
       "eval_steps_per_second": 0.186,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.529363226867794e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7425742574257426,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.701,
       "eval_steps_per_second": 0.186,
       "step": 500
+    },
+    {
+      "epoch": 0.620049504950495,
+      "grad_norm": 3.656219244003296,
+      "learning_rate": 7.5826446215003695e-06,
+      "loss": 0.1701,
+      "step": 501
+    },
+    {
+      "epoch": 0.6212871287128713,
+      "grad_norm": 3.9823882579803467,
+      "learning_rate": 7.5407358254056995e-06,
+      "loss": 0.1759,
+      "step": 502
+    },
+    {
+      "epoch": 0.6225247524752475,
+      "grad_norm": 5.238447666168213,
+      "learning_rate": 7.4988729528587445e-06,
+      "loss": 0.2084,
+      "step": 503
+    },
+    {
+      "epoch": 0.6237623762376238,
+      "grad_norm": 5.870246887207031,
+      "learning_rate": 7.45705678559399e-06,
+      "loss": 0.2592,
+      "step": 504
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 6.469812393188477,
+      "learning_rate": 7.415288104473774e-06,
+      "loss": 0.2664,
+      "step": 505
+    },
+    {
+      "epoch": 0.6262376237623762,
+      "grad_norm": 4.086902141571045,
+      "learning_rate": 7.373567689473683e-06,
+      "loss": 0.123,
+      "step": 506
+    },
+    {
+      "epoch": 0.6274752475247525,
+      "grad_norm": 4.265713691711426,
+      "learning_rate": 7.3318963196679904e-06,
+      "loss": 0.1567,
+      "step": 507
+    },
+    {
+      "epoch": 0.6287128712871287,
+      "grad_norm": 5.820674419403076,
+      "learning_rate": 7.290274773215131e-06,
+      "loss": 0.2661,
+      "step": 508
+    },
+    {
+      "epoch": 0.629950495049505,
+      "grad_norm": 3.3316519260406494,
+      "learning_rate": 7.248703827343142e-06,
+      "loss": 0.1827,
+      "step": 509
+    },
+    {
+      "epoch": 0.6311881188118812,
+      "grad_norm": 6.632443428039551,
+      "learning_rate": 7.207184258335163e-06,
+      "loss": 0.2486,
+      "step": 510
+    },
+    {
+      "epoch": 0.6324257425742574,
+      "grad_norm": 5.278284072875977,
+      "learning_rate": 7.1657168415149396e-06,
+      "loss": 0.205,
+      "step": 511
+    },
+    {
+      "epoch": 0.6336633663366337,
+      "grad_norm": 7.767988204956055,
+      "learning_rate": 7.124302351232337e-06,
+      "loss": 0.1912,
+      "step": 512
+    },
+    {
+      "epoch": 0.6349009900990099,
+      "grad_norm": 4.862364292144775,
+      "learning_rate": 7.0829415608489e-06,
+      "loss": 0.2028,
+      "step": 513
+    },
+    {
+      "epoch": 0.6361386138613861,
+      "grad_norm": 4.547641754150391,
+      "learning_rate": 7.041635242723386e-06,
+      "loss": 0.182,
+      "step": 514
+    },
+    {
+      "epoch": 0.6373762376237624,
+      "grad_norm": 4.835113048553467,
+      "learning_rate": 7.000384168197354e-06,
+      "loss": 0.2437,
+      "step": 515
+    },
+    {
+      "epoch": 0.6386138613861386,
+      "grad_norm": 4.105000019073486,
+      "learning_rate": 6.9591891075807705e-06,
+      "loss": 0.1998,
+      "step": 516
+    },
+    {
+      "epoch": 0.6398514851485149,
+      "grad_norm": 4.884759902954102,
+      "learning_rate": 6.918050830137608e-06,
+      "loss": 0.2597,
+      "step": 517
+    },
+    {
+      "epoch": 0.6410891089108911,
+      "grad_norm": 5.189384460449219,
+      "learning_rate": 6.876970104071483e-06,
+      "loss": 0.2485,
+      "step": 518
+    },
+    {
+      "epoch": 0.6423267326732673,
+      "grad_norm": 4.154090881347656,
+      "learning_rate": 6.8359476965113295e-06,
+      "loss": 0.179,
+      "step": 519
+    },
+    {
+      "epoch": 0.6435643564356436,
+      "grad_norm": 5.2503437995910645,
+      "learning_rate": 6.7949843734970475e-06,
+      "loss": 0.2046,
+      "step": 520
+    },
+    {
+      "epoch": 0.6435643564356436,
+      "eval_accuracy": 0.8647450110864745,
+      "eval_f1": 0.7252252252252253,
+      "eval_loss": 0.29431188106536865,
+      "eval_precision": 0.8429319371727748,
+      "eval_recall": 0.6363636363636364,
+      "eval_runtime": 49.3715,
+      "eval_samples_per_second": 5.59,
+      "eval_steps_per_second": 0.182,
+      "step": 520
+    },
+    {
+      "epoch": 0.6448019801980198,
+      "grad_norm": 3.8733835220336914,
+      "learning_rate": 6.754080899965208e-06,
+      "loss": 0.2034,
+      "step": 521
+    },
+    {
+      "epoch": 0.6460396039603961,
+      "grad_norm": 3.805725574493408,
+      "learning_rate": 6.713238039734788e-06,
+      "loss": 0.151,
+      "step": 522
+    },
+    {
+      "epoch": 0.6472772277227723,
+      "grad_norm": 3.7677907943725586,
+      "learning_rate": 6.67245655549287e-06,
+      "loss": 0.1466,
+      "step": 523
+    },
+    {
+      "epoch": 0.6485148514851485,
+      "grad_norm": 3.6880476474761963,
+      "learning_rate": 6.631737208780433e-06,
+      "loss": 0.1986,
+      "step": 524
+    },
+    {
+      "epoch": 0.6497524752475248,
+      "grad_norm": 4.416601657867432,
+      "learning_rate": 6.5910807599781135e-06,
+      "loss": 0.2105,
+      "step": 525
+    },
+    {
+      "epoch": 0.650990099009901,
+      "grad_norm": 3.7478973865509033,
+      "learning_rate": 6.550487968292013e-06,
+      "loss": 0.1534,
+      "step": 526
+    },
+    {
+      "epoch": 0.6522277227722773,
+      "grad_norm": 5.128391742706299,
+      "learning_rate": 6.509959591739522e-06,
+      "loss": 0.2103,
+      "step": 527
+    },
+    {
+      "epoch": 0.6534653465346535,
+      "grad_norm": 5.070952415466309,
+      "learning_rate": 6.469496387135158e-06,
+      "loss": 0.1674,
+      "step": 528
+    },
+    {
+      "epoch": 0.6547029702970297,
+      "grad_norm": 4.714488983154297,
+      "learning_rate": 6.429099110076436e-06,
+      "loss": 0.221,
+      "step": 529
+    },
+    {
+      "epoch": 0.655940594059406,
+      "grad_norm": 5.199388027191162,
+      "learning_rate": 6.388768514929768e-06,
+      "loss": 0.2027,
+      "step": 530
+    },
+    {
+      "epoch": 0.6571782178217822,
+      "grad_norm": 5.243039608001709,
+      "learning_rate": 6.3485053548163644e-06,
+      "loss": 0.2347,
+      "step": 531
+    },
+    {
+      "epoch": 0.6584158415841584,
+      "grad_norm": 6.204155445098877,
+      "learning_rate": 6.308310381598168e-06,
+      "loss": 0.1924,
+      "step": 532
+    },
+    {
+      "epoch": 0.6596534653465347,
+      "grad_norm": 4.144034385681152,
+      "learning_rate": 6.2681843458638345e-06,
+      "loss": 0.2338,
+      "step": 533
+    },
+    {
+      "epoch": 0.6608910891089109,
+      "grad_norm": 3.8708503246307373,
+      "learning_rate": 6.2281279969146855e-06,
+      "loss": 0.1827,
+      "step": 534
+    },
+    {
+      "epoch": 0.6621287128712872,
+      "grad_norm": 4.874747276306152,
+      "learning_rate": 6.18814208275075e-06,
+      "loss": 0.2345,
+      "step": 535
+    },
+    {
+      "epoch": 0.6633663366336634,
+      "grad_norm": 3.9638774394989014,
+      "learning_rate": 6.148227350056763e-06,
+      "loss": 0.173,
+      "step": 536
+    },
+    {
+      "epoch": 0.6646039603960396,
+      "grad_norm": 3.154224395751953,
+      "learning_rate": 6.10838454418825e-06,
+      "loss": 0.1253,
+      "step": 537
+    },
+    {
+      "epoch": 0.6658415841584159,
+      "grad_norm": 3.55877947807312,
+      "learning_rate": 6.068614409157591e-06,
+      "loss": 0.1708,
+      "step": 538
+    },
+    {
+      "epoch": 0.6670792079207921,
+      "grad_norm": 3.995196580886841,
+      "learning_rate": 6.0289176876201385e-06,
+      "loss": 0.1969,
+      "step": 539
+    },
+    {
+      "epoch": 0.6683168316831684,
+      "grad_norm": 3.824521064758301,
+      "learning_rate": 5.989295120860334e-06,
+      "loss": 0.1548,
+      "step": 540
+    },
+    {
+      "epoch": 0.6683168316831684,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_f1": 0.7223476297968398,
+      "eval_loss": 0.3003367483615875,
+      "eval_precision": 0.8421052631578947,
+      "eval_recall": 0.6324110671936759,
+      "eval_runtime": 49.5296,
+      "eval_samples_per_second": 5.572,
+      "eval_steps_per_second": 0.182,
+      "step": 540
+    },
+    {
+      "epoch": 0.6695544554455446,
+      "grad_norm": 5.372792720794678,
+      "learning_rate": 5.94974744877789e-06,
+      "loss": 0.179,
+      "step": 541
+    },
+    {
+      "epoch": 0.6707920792079208,
+      "grad_norm": 4.743022441864014,
+      "learning_rate": 5.910275409873942e-06,
+      "loss": 0.1794,
+      "step": 542
+    },
+    {
+      "epoch": 0.6720297029702971,
+      "grad_norm": 3.996967315673828,
+      "learning_rate": 5.870879741237285e-06,
+      "loss": 0.1525,
+      "step": 543
+    },
+    {
+      "epoch": 0.6732673267326733,
+      "grad_norm": 7.0855207443237305,
+      "learning_rate": 5.831561178530602e-06,
+      "loss": 0.2256,
+      "step": 544
+    },
+    {
+      "epoch": 0.6745049504950495,
+      "grad_norm": 7.199305057525635,
+      "learning_rate": 5.792320455976714e-06,
+      "loss": 0.2125,
+      "step": 545
+    },
+    {
+      "epoch": 0.6757425742574258,
+      "grad_norm": 5.01775598526001,
+      "learning_rate": 5.753158306344882e-06,
+      "loss": 0.1781,
+      "step": 546
+    },
+    {
+      "epoch": 0.676980198019802,
+      "grad_norm": 3.7600646018981934,
+      "learning_rate": 5.7140754609371255e-06,
+      "loss": 0.2278,
+      "step": 547
+    },
+    {
+      "epoch": 0.6782178217821783,
+      "grad_norm": 5.047920227050781,
+      "learning_rate": 5.675072649574551e-06,
+      "loss": 0.2191,
+      "step": 548
+    },
+    {
+      "epoch": 0.6794554455445545,
+      "grad_norm": 5.662668228149414,
+      "learning_rate": 5.636150600583747e-06,
+      "loss": 0.1901,
+      "step": 549
+    },
+    {
+      "epoch": 0.6806930693069307,
+      "grad_norm": 4.518259525299072,
+      "learning_rate": 5.597310040783161e-06,
+      "loss": 0.2264,
+      "step": 550
+    },
+    {
+      "epoch": 0.681930693069307,
+      "grad_norm": 4.768115043640137,
+      "learning_rate": 5.558551695469532e-06,
+      "loss": 0.2532,
+      "step": 551
+    },
+    {
+      "epoch": 0.6831683168316832,
+      "grad_norm": 4.239420413970947,
+      "learning_rate": 5.519876288404367e-06,
+      "loss": 0.2236,
+      "step": 552
+    },
+    {
+      "epoch": 0.6844059405940595,
+      "grad_norm": 4.318198204040527,
+      "learning_rate": 5.481284541800391e-06,
+      "loss": 0.2504,
+      "step": 553
+    },
+    {
+      "epoch": 0.6856435643564357,
+      "grad_norm": 4.004321575164795,
+      "learning_rate": 5.44277717630809e-06,
+      "loss": 0.1704,
+      "step": 554
+    },
+    {
+      "epoch": 0.6868811881188119,
+      "grad_norm": 6.967254161834717,
+      "learning_rate": 5.404354911002243e-06,
+      "loss": 0.2201,
+      "step": 555
+    },
+    {
+      "epoch": 0.6881188118811881,
+      "grad_norm": 3.623018980026245,
+      "learning_rate": 5.3660184633684895e-06,
+      "loss": 0.1477,
+      "step": 556
+    },
+    {
+      "epoch": 0.6893564356435643,
+      "grad_norm": 4.345696926116943,
+      "learning_rate": 5.3277685492899345e-06,
+      "loss": 0.2465,
+      "step": 557
+    },
+    {
+      "epoch": 0.6905940594059405,
+      "grad_norm": 4.71245813369751,
+      "learning_rate": 5.289605883033793e-06,
+      "loss": 0.1864,
+      "step": 558
+    },
+    {
+      "epoch": 0.6918316831683168,
+      "grad_norm": 5.07157039642334,
+      "learning_rate": 5.251531177238029e-06,
+      "loss": 0.1596,
+      "step": 559
+    },
+    {
+      "epoch": 0.693069306930693,
+      "grad_norm": 3.7650375366210938,
+      "learning_rate": 5.213545142898061e-06,
+      "loss": 0.1626,
+      "step": 560
+    },
+    {
+      "epoch": 0.693069306930693,
+      "eval_accuracy": 0.8625277161862528,
+      "eval_f1": 0.7129629629629629,
+      "eval_loss": 0.2982478439807892,
+      "eval_precision": 0.8603351955307262,
+      "eval_recall": 0.6086956521739131,
+      "eval_runtime": 48.9768,
+      "eval_samples_per_second": 5.635,
+      "eval_steps_per_second": 0.184,
+      "step": 560
+    },
+    {
+      "epoch": 0.6943069306930693,
+      "grad_norm": 5.199242115020752,
+      "learning_rate": 5.175648489353493e-06,
+      "loss": 0.1277,
+      "step": 561
+    },
+    {
+      "epoch": 0.6955445544554455,
+      "grad_norm": 4.108044624328613,
+      "learning_rate": 5.137841924274851e-06,
+      "loss": 0.2117,
+      "step": 562
+    },
+    {
+      "epoch": 0.6967821782178217,
+      "grad_norm": 5.149396896362305,
+      "learning_rate": 5.100126153650379e-06,
+      "loss": 0.1769,
+      "step": 563
+    },
+    {
+      "epoch": 0.698019801980198,
+      "grad_norm": 3.721707820892334,
+      "learning_rate": 5.0625018817728496e-06,
+      "loss": 0.1764,
+      "step": 564
+    },
+    {
+      "epoch": 0.6992574257425742,
+      "grad_norm": 5.771122932434082,
+      "learning_rate": 5.024969811226419e-06,
+      "loss": 0.2841,
+      "step": 565
+    },
+    {
+      "epoch": 0.7004950495049505,
+      "grad_norm": 6.165885925292969,
+      "learning_rate": 4.98753064287351e-06,
+      "loss": 0.2048,
+      "step": 566
+    },
+    {
+      "epoch": 0.7017326732673267,
+      "grad_norm": 3.664384126663208,
+      "learning_rate": 4.950185075841706e-06,
+      "loss": 0.14,
+      "step": 567
+    },
+    {
+      "epoch": 0.7029702970297029,
+      "grad_norm": 6.110241889953613,
+      "learning_rate": 4.912933807510714e-06,
+      "loss": 0.2553,
+      "step": 568
+    },
+    {
+      "epoch": 0.7042079207920792,
+      "grad_norm": 4.46115255355835,
+      "learning_rate": 4.875777533499339e-06,
+      "loss": 0.1871,
+      "step": 569
+    },
+    {
+      "epoch": 0.7054455445544554,
+      "grad_norm": 5.189129829406738,
+      "learning_rate": 4.838716947652485e-06,
+      "loss": 0.1922,
+      "step": 570
+    },
+    {
+      "epoch": 0.7066831683168316,
+      "grad_norm": 3.854255437850952,
+      "learning_rate": 4.801752742028214e-06,
+      "loss": 0.1823,
+      "step": 571
+    },
+    {
+      "epoch": 0.7079207920792079,
+      "grad_norm": 4.2072319984436035,
+      "learning_rate": 4.7648856068848e-06,
+      "loss": 0.1776,
+      "step": 572
+    },
+    {
+      "epoch": 0.7091584158415841,
+      "grad_norm": 3.298652172088623,
+      "learning_rate": 4.728116230667859e-06,
+      "loss": 0.2089,
+      "step": 573
+    },
+    {
+      "epoch": 0.7103960396039604,
+      "grad_norm": 4.39929723739624,
+      "learning_rate": 4.691445299997491e-06,
+      "loss": 0.19,
+      "step": 574
+    },
+    {
+      "epoch": 0.7116336633663366,
+      "grad_norm": 4.1644110679626465,
+      "learning_rate": 4.654873499655449e-06,
+      "loss": 0.1932,
+      "step": 575
+    },
+    {
+      "epoch": 0.7128712871287128,
+      "grad_norm": 6.846812725067139,
+      "learning_rate": 4.618401512572351e-06,
+      "loss": 0.2762,
+      "step": 576
+    },
+    {
+      "epoch": 0.7141089108910891,
+      "grad_norm": 6.345206260681152,
+      "learning_rate": 4.582030019814948e-06,
+      "loss": 0.249,
+      "step": 577
+    },
+    {
+      "epoch": 0.7153465346534653,
+      "grad_norm": 4.541729927062988,
+      "learning_rate": 4.5457597005733774e-06,
+      "loss": 0.199,
+      "step": 578
+    },
+    {
+      "epoch": 0.7165841584158416,
+      "grad_norm": 5.228466510772705,
+      "learning_rate": 4.5095912321484946e-06,
+      "loss": 0.1622,
+      "step": 579
+    },
+    {
+      "epoch": 0.7178217821782178,
+      "grad_norm": 4.646934509277344,
+      "learning_rate": 4.4735252899392335e-06,
+      "loss": 0.2065,
+      "step": 580
+    },
+    {
+      "epoch": 0.7178217821782178,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_f1": 0.7308533916849015,
+      "eval_loss": 0.28770458698272705,
+      "eval_precision": 0.8186274509803921,
+      "eval_recall": 0.6600790513833992,
+      "eval_runtime": 48.9708,
+      "eval_samples_per_second": 5.636,
+      "eval_steps_per_second": 0.184,
+      "step": 580
+    },
+    {
+      "epoch": 0.719059405940594,
+      "grad_norm": 5.637617588043213,
+      "learning_rate": 4.437562547429971e-06,
+      "loss": 0.2249,
+      "step": 581
+    },
+    {
+      "epoch": 0.7202970297029703,
+      "grad_norm": 3.387362480163574,
+      "learning_rate": 4.4017036761779785e-06,
+      "loss": 0.1965,
+      "step": 582
+    },
+    {
+      "epoch": 0.7215346534653465,
+      "grad_norm": 4.963772773742676,
+      "learning_rate": 4.365949345800856e-06,
+      "loss": 0.1589,
+      "step": 583
+    },
+    {
+      "epoch": 0.7227722772277227,
+      "grad_norm": 8.057557106018066,
+      "learning_rate": 4.3303002239640424e-06,
+      "loss": 0.2567,
+      "step": 584
+    },
+    {
+      "epoch": 0.724009900990099,
+      "grad_norm": 4.3113789558410645,
+      "learning_rate": 4.294756976368351e-06,
+      "loss": 0.2492,
+      "step": 585
+    },
+    {
+      "epoch": 0.7252475247524752,
+      "grad_norm": 6.69741153717041,
+      "learning_rate": 4.259320266737522e-06,
+      "loss": 0.2378,
+      "step": 586
+    },
+    {
+      "epoch": 0.7264851485148515,
+      "grad_norm": 5.994034290313721,
+      "learning_rate": 4.223990756805841e-06,
+      "loss": 0.2038,
+      "step": 587
+    },
+    {
+      "epoch": 0.7277227722772277,
+      "grad_norm": 6.540597915649414,
+      "learning_rate": 4.1887691063057865e-06,
+      "loss": 0.1929,
+      "step": 588
+    },
+    {
+      "epoch": 0.7289603960396039,
+      "grad_norm": 4.549102783203125,
+      "learning_rate": 4.153655972955695e-06,
+      "loss": 0.2153,
+      "step": 589
+    },
+    {
+      "epoch": 0.7301980198019802,
+      "grad_norm": 5.070977210998535,
+      "learning_rate": 4.118652012447486e-06,
+      "loss": 0.1908,
+      "step": 590
+    },
+    {
+      "epoch": 0.7314356435643564,
+      "grad_norm": 3.0591437816619873,
+      "learning_rate": 4.0837578784344225e-06,
+      "loss": 0.1806,
+      "step": 591
+    },
+    {
+      "epoch": 0.7326732673267327,
+      "grad_norm": 3.303514003753662,
+      "learning_rate": 4.048974222518905e-06,
+      "loss": 0.1859,
+      "step": 592
+    },
+    {
+      "epoch": 0.7339108910891089,
+      "grad_norm": 3.909907817840576,
+      "learning_rate": 4.01430169424029e-06,
+      "loss": 0.2238,
+      "step": 593
+    },
+    {
+      "epoch": 0.7351485148514851,
+      "grad_norm": 5.40861701965332,
+      "learning_rate": 3.97974094106278e-06,
+      "loss": 0.1768,
+      "step": 594
+    },
+    {
+      "epoch": 0.7363861386138614,
+      "grad_norm": 4.427615165710449,
+      "learning_rate": 3.945292608363312e-06,
+      "loss": 0.2324,
+      "step": 595
+    },
+    {
+      "epoch": 0.7376237623762376,
+      "grad_norm": 3.793356418609619,
+      "learning_rate": 3.9109573394195336e-06,
+      "loss": 0.1758,
+      "step": 596
+    },
+    {
+      "epoch": 0.7388613861386139,
+      "grad_norm": 3.278257369995117,
+      "learning_rate": 3.876735775397759e-06,
+      "loss": 0.1133,
+      "step": 597
+    },
+    {
+      "epoch": 0.7400990099009901,
+      "grad_norm": 3.4571950435638428,
+      "learning_rate": 3.842628555341018e-06,
+      "loss": 0.1381,
+      "step": 598
+    },
+    {
+      "epoch": 0.7413366336633663,
+      "grad_norm": 7.060393810272217,
+      "learning_rate": 3.8086363161571194e-06,
+      "loss": 0.2736,
+      "step": 599
+    },
+    {
+      "epoch": 0.7425742574257426,
+      "grad_norm": 3.590026617050171,
+      "learning_rate": 3.7747596926067485e-06,
+      "loss": 0.1423,
+      "step": 600
+    },
+    {
+      "epoch": 0.7425742574257426,
+      "eval_accuracy": 0.8603104212860311,
+      "eval_f1": 0.7014218009478673,
+      "eval_loss": 0.30313166975975037,
+      "eval_precision": 0.8757396449704142,
+      "eval_recall": 0.5849802371541502,
+      "eval_runtime": 50.2279,
+      "eval_samples_per_second": 5.495,
+      "eval_steps_per_second": 0.179,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8390793736473805e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null