Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee6fb7682ac2960073f7f7f514a487e812e315d44419de7236d03c8ab15aadb0
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:d23824b3f642ae1c179f034608cd4b9f408d94d0f7fcb6cf1a4e20079b004e8c
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88e008363e8993235e6eb2af6c9a5ff56f447d8bdc2cf16eca2f0422b1ede8c6
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:be21c5803484f0c4c0b0b4a16dbac528d0b5af1bd54d4586f3265080760294dc
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b477d5172b476bbf9b578ef9878ce39658de519ce36fd3743830da1d68fefd
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:10500e9d5fe4432017d4802187cbc53c3d8e66cefb65b9df41e5b265ac7d3904
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:145633610b9b152b0d2cfc8f1f6615f8471936dfa77ce591ae7e2e811ac751bb
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd93fdfd38d485f3348d1401133ef3b5e8b9f318176a54d6a3de17e87a0cc244
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:265e64cfbd04131bffb2a5617a8c2c4c2ea31a7fad0d26e752c26ca24a5c050c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d2d7f1f9c14930a0fe7b92e49a1a38aedb2f9b0b32cf2680ed384f5ea215db8
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a960df6918c81f11623085f85ea94df1837af4b8f4267a1629fb6bab5c469523
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:15f402b6d71f018c886c5b84826d5e72c63f77c6a19da8dfa4d1d2ae32c239cb
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5862dd9e056331bb039021a6505bb7a3f1fa98b8a9f5c3fda8a0888d65d5b053
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:be1fa2d26d651df333ec36a0c11ff0a77d307383f8747a1e9b552d6a8c33f7d8
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc9bd789414240ee2b44965c46a333328df7f9fce29ffffe29646f97e82894b8
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1880f07905fc31b9ac52835ef69014867a49aee88680a57b62a19264452b89c6
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c60c3492b6f46efa4d46f08722f1ca59fb0c21715cf617886bb5ba859c7d9d5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a59db3724fd4bbce6ad60141d8e9b678e2c788fb1955c6c880b0f571d42b391
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8b3388ef358d7f5f11e1879a04d7711953bb9f05b7b304558dfcff8e1df0bd0
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bf84d01b70a9160a4096ae20f0ffd66ca31c1e463be8b3c7a205beb67b59d79
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7c4655d165a45ceaebd2333d540d7ca911eb47056d42042ac402dbf7a3b1875
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fe1aa7e3e5012afa45a34124a8768ba80f30f03a36c3082e890c6fec80f5130
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:076dbf8750dbf683323b1e43171b411204fb0c6b72da57c223dae871c8d1c08e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7971cf1ed3ade754f5376f0be2af02ca9956ac66a79f39ece9d08be9961f719f
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5b83b9e4abe0e439076bc90dc25d49fcd5d4c81c9c012e6730d7f022accf132
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e43838c246602506a97d56d7f86c5c26c0b2b1f2b549429b3935fd043d6ac6c6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.46382189239332094,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.71,
       "eval_steps_per_second": 0.186,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5957678843389542e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5565862708719852,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.71,
       "eval_steps_per_second": 0.186,
       "step": 500
+    },
+    {
+      "epoch": 0.4647495361781076,
+      "grad_norm": 4.0140509605407715,
+      "learning_rate": 1.2935759535959528e-05,
+      "loss": 0.2093,
+      "step": 501
+    },
+    {
+      "epoch": 0.46567717996289426,
+      "grad_norm": 2.7800872325897217,
+      "learning_rate": 1.2904783772807534e-05,
+      "loss": 0.1333,
+      "step": 502
+    },
+    {
+      "epoch": 0.46660482374768086,
+      "grad_norm": 4.866140842437744,
+      "learning_rate": 1.2873777539848284e-05,
+      "loss": 0.2078,
+      "step": 503
+    },
+    {
+      "epoch": 0.4675324675324675,
+      "grad_norm": 4.730177879333496,
+      "learning_rate": 1.2842741162322487e-05,
+      "loss": 0.1834,
+      "step": 504
+    },
+    {
+      "epoch": 0.4684601113172542,
+      "grad_norm": 3.826939582824707,
+      "learning_rate": 1.2811674965787058e-05,
+      "loss": 0.1712,
+      "step": 505
+    },
+    {
+      "epoch": 0.46938775510204084,
+      "grad_norm": 16.19306755065918,
+      "learning_rate": 1.2780579276111702e-05,
+      "loss": 0.2195,
+      "step": 506
+    },
+    {
+      "epoch": 0.47031539888682744,
+      "grad_norm": 4.020465850830078,
+      "learning_rate": 1.2749454419475486e-05,
+      "loss": 0.1387,
+      "step": 507
+    },
+    {
+      "epoch": 0.4712430426716141,
+      "grad_norm": 3.083519697189331,
+      "learning_rate": 1.2718300722363431e-05,
+      "loss": 0.1595,
+      "step": 508
+    },
+    {
+      "epoch": 0.47217068645640076,
+      "grad_norm": 3.982968807220459,
+      "learning_rate": 1.2687118511563075e-05,
+      "loss": 0.1304,
+      "step": 509
+    },
+    {
+      "epoch": 0.47309833024118736,
+      "grad_norm": 4.213962554931641,
+      "learning_rate": 1.2655908114161053e-05,
+      "loss": 0.1269,
+      "step": 510
+    },
+    {
+      "epoch": 0.474025974025974,
+      "grad_norm": 3.9727156162261963,
+      "learning_rate": 1.2624669857539669e-05,
+      "loss": 0.1327,
+      "step": 511
+    },
+    {
+      "epoch": 0.4749536178107607,
+      "grad_norm": 4.792732238769531,
+      "learning_rate": 1.2593404069373452e-05,
+      "loss": 0.1782,
+      "step": 512
+    },
+    {
+      "epoch": 0.47588126159554733,
+      "grad_norm": 3.0668811798095703,
+      "learning_rate": 1.2562111077625723e-05,
+      "loss": 0.1568,
+      "step": 513
+    },
+    {
+      "epoch": 0.47680890538033394,
+      "grad_norm": 4.204139709472656,
+      "learning_rate": 1.2530791210545163e-05,
+      "loss": 0.149,
+      "step": 514
+    },
+    {
+      "epoch": 0.4777365491651206,
+      "grad_norm": 4.396578788757324,
+      "learning_rate": 1.2499444796662354e-05,
+      "loss": 0.1943,
+      "step": 515
+    },
+    {
+      "epoch": 0.47866419294990725,
+      "grad_norm": 8.477376937866211,
+      "learning_rate": 1.2468072164786342e-05,
+      "loss": 0.3153,
+      "step": 516
+    },
+    {
+      "epoch": 0.47959183673469385,
+      "grad_norm": 4.493762016296387,
+      "learning_rate": 1.2436673644001196e-05,
+      "loss": 0.2028,
+      "step": 517
+    },
+    {
+      "epoch": 0.4805194805194805,
+      "grad_norm": 3.7687320709228516,
+      "learning_rate": 1.2405249563662539e-05,
+      "loss": 0.1834,
+      "step": 518
+    },
+    {
+      "epoch": 0.48144712430426717,
+      "grad_norm": 5.828054428100586,
+      "learning_rate": 1.23738002533941e-05,
+      "loss": 0.1587,
+      "step": 519
+    },
+    {
+      "epoch": 0.48237476808905383,
+      "grad_norm": 4.38277006149292,
+      "learning_rate": 1.2342326043084268e-05,
+      "loss": 0.1809,
+      "step": 520
+    },
+    {
+      "epoch": 0.48237476808905383,
+      "eval_accuracy": 0.8458980044345898,
+      "eval_f1": 0.6584766584766585,
+      "eval_loss": 0.3318649232387543,
+      "eval_precision": 0.8701298701298701,
+      "eval_recall": 0.5296442687747036,
+      "eval_runtime": 46.7049,
+      "eval_samples_per_second": 5.909,
+      "eval_steps_per_second": 0.193,
+      "step": 520
+    },
+    {
+      "epoch": 0.48330241187384043,
+      "grad_norm": 4.514082908630371,
+      "learning_rate": 1.2310827262882614e-05,
+      "loss": 0.1759,
+      "step": 521
+    },
+    {
+      "epoch": 0.4842300556586271,
+      "grad_norm": 3.4471170902252197,
+      "learning_rate": 1.2279304243196438e-05,
+      "loss": 0.1364,
+      "step": 522
+    },
+    {
+      "epoch": 0.48515769944341375,
+      "grad_norm": 2.6771576404571533,
+      "learning_rate": 1.2247757314687296e-05,
+      "loss": 0.146,
+      "step": 523
+    },
+    {
+      "epoch": 0.48608534322820035,
+      "grad_norm": 3.6538710594177246,
+      "learning_rate": 1.2216186808267544e-05,
+      "loss": 0.2009,
+      "step": 524
+    },
+    {
+      "epoch": 0.487012987012987,
+      "grad_norm": 4.4636149406433105,
+      "learning_rate": 1.2184593055096853e-05,
+      "loss": 0.1474,
+      "step": 525
+    },
+    {
+      "epoch": 0.48794063079777367,
+      "grad_norm": 5.249742031097412,
+      "learning_rate": 1.215297638657875e-05,
+      "loss": 0.1564,
+      "step": 526
+    },
+    {
+      "epoch": 0.48886827458256027,
+      "grad_norm": 6.001680850982666,
+      "learning_rate": 1.2121337134357121e-05,
+      "loss": 0.1718,
+      "step": 527
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 6.546911716461182,
+      "learning_rate": 1.2089675630312755e-05,
+      "loss": 0.2193,
+      "step": 528
+    },
+    {
+      "epoch": 0.4907235621521336,
+      "grad_norm": 2.6112513542175293,
+      "learning_rate": 1.2057992206559837e-05,
+      "loss": 0.1295,
+      "step": 529
+    },
+    {
+      "epoch": 0.49165120593692024,
+      "grad_norm": 3.9656717777252197,
+      "learning_rate": 1.2026287195442503e-05,
+      "loss": 0.1707,
+      "step": 530
+    },
+    {
+      "epoch": 0.49257884972170685,
+      "grad_norm": 3.8426477909088135,
+      "learning_rate": 1.199456092953131e-05,
+      "loss": 0.1768,
+      "step": 531
+    },
+    {
+      "epoch": 0.4935064935064935,
+      "grad_norm": 3.001831531524658,
+      "learning_rate": 1.1962813741619777e-05,
+      "loss": 0.1839,
+      "step": 532
+    },
+    {
+      "epoch": 0.49443413729128016,
+      "grad_norm": 5.149347305297852,
+      "learning_rate": 1.1931045964720882e-05,
+      "loss": 0.2559,
+      "step": 533
+    },
+    {
+      "epoch": 0.49536178107606677,
+      "grad_norm": 3.0468552112579346,
+      "learning_rate": 1.189925793206357e-05,
+      "loss": 0.1408,
+      "step": 534
+    },
+    {
+      "epoch": 0.4962894248608534,
+      "grad_norm": 4.5860490798950195,
+      "learning_rate": 1.1867449977089264e-05,
+      "loss": 0.1945,
+      "step": 535
+    },
+    {
+      "epoch": 0.4972170686456401,
+      "grad_norm": 3.8901429176330566,
+      "learning_rate": 1.1835622433448361e-05,
+      "loss": 0.2126,
+      "step": 536
+    },
+    {
+      "epoch": 0.49814471243042674,
+      "grad_norm": 4.597271919250488,
+      "learning_rate": 1.1803775634996735e-05,
+      "loss": 0.1977,
+      "step": 537
+    },
+    {
+      "epoch": 0.49907235621521334,
+      "grad_norm": 3.079770803451538,
+      "learning_rate": 1.177190991579223e-05,
+      "loss": 0.1758,
+      "step": 538
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 4.214216709136963,
+      "learning_rate": 1.174002561009116e-05,
+      "loss": 0.141,
+      "step": 539
+    },
+    {
+      "epoch": 0.5009276437847866,
+      "grad_norm": 5.213557243347168,
+      "learning_rate": 1.1708123052344803e-05,
+      "loss": 0.1605,
+      "step": 540
+    },
+    {
+      "epoch": 0.5009276437847866,
+      "eval_accuracy": 0.8614190687361419,
+      "eval_f1": 0.7072599531615925,
+      "eval_loss": 0.30164089798927307,
+      "eval_precision": 0.867816091954023,
+      "eval_recall": 0.5968379446640316,
+      "eval_runtime": 47.208,
+      "eval_samples_per_second": 5.846,
+      "eval_steps_per_second": 0.191,
+      "step": 540
+    },
+    {
+      "epoch": 0.5018552875695733,
+      "grad_norm": 2.1639671325683594,
+      "learning_rate": 1.1676202577195901e-05,
+      "loss": 0.0809,
+      "step": 541
+    },
+    {
+      "epoch": 0.5027829313543599,
+      "grad_norm": 4.442990303039551,
+      "learning_rate": 1.164426451947513e-05,
+      "loss": 0.1677,
+      "step": 542
+    },
+    {
+      "epoch": 0.5037105751391465,
+      "grad_norm": 3.968435049057007,
+      "learning_rate": 1.1612309214197599e-05,
+      "loss": 0.2114,
+      "step": 543
+    },
+    {
+      "epoch": 0.5046382189239332,
+      "grad_norm": 9.67383098602295,
+      "learning_rate": 1.1580336996559343e-05,
+      "loss": 0.2159,
+      "step": 544
+    },
+    {
+      "epoch": 0.5055658627087198,
+      "grad_norm": 3.427710771560669,
+      "learning_rate": 1.1548348201933799e-05,
+      "loss": 0.0846,
+      "step": 545
+    },
+    {
+      "epoch": 0.5064935064935064,
+      "grad_norm": 3.03241229057312,
+      "learning_rate": 1.151634316586828e-05,
+      "loss": 0.1195,
+      "step": 546
+    },
+    {
+      "epoch": 0.5074211502782932,
+      "grad_norm": 5.138626575469971,
+      "learning_rate": 1.1484322224080474e-05,
+      "loss": 0.1542,
+      "step": 547
+    },
+    {
+      "epoch": 0.5083487940630798,
+      "grad_norm": 4.37513542175293,
+      "learning_rate": 1.1452285712454905e-05,
+      "loss": 0.2118,
+      "step": 548
+    },
+    {
+      "epoch": 0.5092764378478665,
+      "grad_norm": 4.746356010437012,
+      "learning_rate": 1.1420233967039423e-05,
+      "loss": 0.1456,
+      "step": 549
+    },
+    {
+      "epoch": 0.5102040816326531,
+      "grad_norm": 5.190648555755615,
+      "learning_rate": 1.138816732404167e-05,
+      "loss": 0.1921,
+      "step": 550
+    },
+    {
+      "epoch": 0.5111317254174397,
+      "grad_norm": 3.955061197280884,
+      "learning_rate": 1.1356086119825553e-05,
+      "loss": 0.1964,
+      "step": 551
+    },
+    {
+      "epoch": 0.5120593692022264,
+      "grad_norm": 7.773352146148682,
+      "learning_rate": 1.1323990690907734e-05,
+      "loss": 0.2178,
+      "step": 552
+    },
+    {
+      "epoch": 0.512987012987013,
+      "grad_norm": 3.211651563644409,
+      "learning_rate": 1.1291881373954066e-05,
+      "loss": 0.1859,
+      "step": 553
+    },
+    {
+      "epoch": 0.5139146567717996,
+      "grad_norm": 3.536742687225342,
+      "learning_rate": 1.1259758505776092e-05,
+      "loss": 0.1949,
+      "step": 554
+    },
+    {
+      "epoch": 0.5148423005565863,
+      "grad_norm": 4.817080974578857,
+      "learning_rate": 1.1227622423327501e-05,
+      "loss": 0.2482,
+      "step": 555
+    },
+    {
+      "epoch": 0.5157699443413729,
+      "grad_norm": 4.828971862792969,
+      "learning_rate": 1.119547346370059e-05,
+      "loss": 0.216,
+      "step": 556
+    },
+    {
+      "epoch": 0.5166975881261595,
+      "grad_norm": 4.580413818359375,
+      "learning_rate": 1.1163311964122733e-05,
+      "loss": 0.2267,
+      "step": 557
+    },
+    {
+      "epoch": 0.5176252319109462,
+      "grad_norm": 2.9997427463531494,
+      "learning_rate": 1.1131138261952845e-05,
+      "loss": 0.1556,
+      "step": 558
+    },
+    {
+      "epoch": 0.5185528756957328,
+      "grad_norm": 2.876847982406616,
+      "learning_rate": 1.109895269467783e-05,
+      "loss": 0.1551,
+      "step": 559
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 6.003294467926025,
+      "learning_rate": 1.1066755599909065e-05,
+      "loss": 0.2123,
+      "step": 560
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "eval_accuracy": 0.8603104212860311,
+      "eval_f1": 0.7136363636363636,
+      "eval_loss": 0.2982672452926636,
+      "eval_precision": 0.839572192513369,
+      "eval_recall": 0.6205533596837944,
+      "eval_runtime": 48.6549,
+      "eval_samples_per_second": 5.673,
+      "eval_steps_per_second": 0.185,
+      "step": 560
+    },
+    {
+      "epoch": 0.5204081632653061,
+      "grad_norm": 3.7513365745544434,
+      "learning_rate": 1.1034547315378838e-05,
+      "loss": 0.1808,
+      "step": 561
+    },
+    {
+      "epoch": 0.5213358070500927,
+      "grad_norm": 2.755664110183716,
+      "learning_rate": 1.1002328178936813e-05,
+      "loss": 0.1272,
+      "step": 562
+    },
+    {
+      "epoch": 0.5222634508348795,
+      "grad_norm": 6.458003520965576,
+      "learning_rate": 1.0970098528546482e-05,
+      "loss": 0.161,
+      "step": 563
+    },
+    {
+      "epoch": 0.5231910946196661,
+      "grad_norm": 3.156869649887085,
+      "learning_rate": 1.0937858702281631e-05,
+      "loss": 0.1423,
+      "step": 564
+    },
+    {
+      "epoch": 0.5241187384044527,
+      "grad_norm": 4.826041221618652,
+      "learning_rate": 1.090560903832278e-05,
+      "loss": 0.1717,
+      "step": 565
+    },
+    {
+      "epoch": 0.5250463821892394,
+      "grad_norm": 2.8493692874908447,
+      "learning_rate": 1.087334987495364e-05,
+      "loss": 0.147,
+      "step": 566
+    },
+    {
+      "epoch": 0.525974025974026,
+      "grad_norm": 3.3068854808807373,
+      "learning_rate": 1.0841081550557577e-05,
+      "loss": 0.1084,
+      "step": 567
+    },
+    {
+      "epoch": 0.5269016697588126,
+      "grad_norm": 3.908871650695801,
+      "learning_rate": 1.0808804403614044e-05,
+      "loss": 0.1484,
+      "step": 568
+    },
+    {
+      "epoch": 0.5278293135435993,
+      "grad_norm": 3.8984129428863525,
+      "learning_rate": 1.0776518772695035e-05,
+      "loss": 0.1883,
+      "step": 569
+    },
+    {
+      "epoch": 0.5287569573283859,
+      "grad_norm": 3.58467960357666,
+      "learning_rate": 1.0744224996461541e-05,
+      "loss": 0.1238,
+      "step": 570
+    },
+    {
+      "epoch": 0.5296846011131725,
+      "grad_norm": 5.206255912780762,
+      "learning_rate": 1.0711923413659995e-05,
+      "loss": 0.2008,
+      "step": 571
+    },
+    {
+      "epoch": 0.5306122448979592,
+      "grad_norm": 2.4864425659179688,
+      "learning_rate": 1.0679614363118718e-05,
+      "loss": 0.1181,
+      "step": 572
+    },
+    {
+      "epoch": 0.5315398886827458,
+      "grad_norm": 3.949312686920166,
+      "learning_rate": 1.0647298183744359e-05,
+      "loss": 0.1927,
+      "step": 573
+    },
+    {
+      "epoch": 0.5324675324675324,
+      "grad_norm": 6.005074501037598,
+      "learning_rate": 1.061497521451835e-05,
+      "loss": 0.1936,
+      "step": 574
+    },
+    {
+      "epoch": 0.5333951762523191,
+      "grad_norm": 4.429588317871094,
+      "learning_rate": 1.0582645794493337e-05,
+      "loss": 0.2031,
+      "step": 575
+    },
+    {
+      "epoch": 0.5343228200371057,
+      "grad_norm": 4.36995792388916,
+      "learning_rate": 1.055031026278965e-05,
+      "loss": 0.1846,
+      "step": 576
+    },
+    {
+      "epoch": 0.5352504638218923,
+      "grad_norm": 4.059164524078369,
+      "learning_rate": 1.0517968958591705e-05,
+      "loss": 0.1681,
+      "step": 577
+    },
+    {
+      "epoch": 0.536178107606679,
+      "grad_norm": 4.211386203765869,
+      "learning_rate": 1.0485622221144485e-05,
+      "loss": 0.1296,
+      "step": 578
+    },
+    {
+      "epoch": 0.5371057513914657,
+      "grad_norm": 4.114365100860596,
+      "learning_rate": 1.0453270389749956e-05,
+      "loss": 0.164,
+      "step": 579
+    },
+    {
+      "epoch": 0.5380333951762524,
+      "grad_norm": 7.943957805633545,
+      "learning_rate": 1.0420913803763522e-05,
+      "loss": 0.2279,
+      "step": 580
+    },
+    {
+      "epoch": 0.5380333951762524,
+      "eval_accuracy": 0.8558758314855875,
+      "eval_f1": 0.7018348623853211,
+      "eval_loss": 0.30458346009254456,
+      "eval_precision": 0.8360655737704918,
+      "eval_recall": 0.6047430830039525,
+      "eval_runtime": 46.8877,
+      "eval_samples_per_second": 5.886,
+      "eval_steps_per_second": 0.192,
+      "step": 580
+    },
+    {
+      "epoch": 0.538961038961039,
+      "grad_norm": 7.277109146118164,
+      "learning_rate": 1.0388552802590461e-05,
+      "loss": 0.0867,
+      "step": 581
+    },
+    {
+      "epoch": 0.5398886827458256,
+      "grad_norm": 3.722276449203491,
+      "learning_rate": 1.0356187725682359e-05,
+      "loss": 0.1233,
+      "step": 582
+    },
+    {
+      "epoch": 0.5408163265306123,
+      "grad_norm": 4.75911283493042,
+      "learning_rate": 1.0323818912533561e-05,
+      "loss": 0.2018,
+      "step": 583
+    },
+    {
+      "epoch": 0.5417439703153989,
+      "grad_norm": 5.309391498565674,
+      "learning_rate": 1.0291446702677598e-05,
+      "loss": 0.1853,
+      "step": 584
+    },
+    {
+      "epoch": 0.5426716141001855,
+      "grad_norm": 3.6361756324768066,
+      "learning_rate": 1.0259071435683636e-05,
+      "loss": 0.1594,
+      "step": 585
+    },
+    {
+      "epoch": 0.5435992578849722,
+      "grad_norm": 8.379057884216309,
+      "learning_rate": 1.02266934511529e-05,
+      "loss": 0.1496,
+      "step": 586
+    },
+    {
+      "epoch": 0.5445269016697588,
+      "grad_norm": 6.6115593910217285,
+      "learning_rate": 1.0194313088715135e-05,
+      "loss": 0.1887,
+      "step": 587
+    },
+    {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 3.5273900032043457,
+      "learning_rate": 1.0161930688025018e-05,
+      "loss": 0.1549,
+      "step": 588
+    },
+    {
+      "epoch": 0.5463821892393321,
+      "grad_norm": 4.194179058074951,
+      "learning_rate": 1.0129546588758605e-05,
+      "loss": 0.1748,
+      "step": 589
+    },
+    {
+      "epoch": 0.5473098330241187,
+      "grad_norm": 3.131457805633545,
+      "learning_rate": 1.0097161130609774e-05,
+      "loss": 0.1319,
+      "step": 590
+    },
+    {
+      "epoch": 0.5482374768089053,
+      "grad_norm": 4.083921909332275,
+      "learning_rate": 1.0064774653286662e-05,
+      "loss": 0.1759,
+      "step": 591
+    },
+    {
+      "epoch": 0.549165120593692,
+      "grad_norm": 3.384917736053467,
+      "learning_rate": 1.003238749650809e-05,
+      "loss": 0.1434,
+      "step": 592
+    },
+    {
+      "epoch": 0.5500927643784786,
+      "grad_norm": 2.5680859088897705,
+      "learning_rate": 1e-05,
+      "loss": 0.1626,
+      "step": 593
+    },
+    {
+      "epoch": 0.5510204081632653,
+      "grad_norm": 3.510484457015991,
+      "learning_rate": 9.967612503491915e-06,
+      "loss": 0.1701,
+      "step": 594
+    },
+    {
+      "epoch": 0.551948051948052,
+      "grad_norm": 5.625200271606445,
+      "learning_rate": 9.935225346713341e-06,
+      "loss": 0.1486,
+      "step": 595
+    },
+    {
+      "epoch": 0.5528756957328386,
+      "grad_norm": 5.352198123931885,
+      "learning_rate": 9.90283886939023e-06,
+      "loss": 0.1158,
+      "step": 596
+    },
+    {
+      "epoch": 0.5538033395176253,
+      "grad_norm": 3.0487513542175293,
+      "learning_rate": 9.870453411241399e-06,
+      "loss": 0.1339,
+      "step": 597
+    },
+    {
+      "epoch": 0.5547309833024119,
+      "grad_norm": 3.2191503047943115,
+      "learning_rate": 9.838069311974986e-06,
+      "loss": 0.1147,
+      "step": 598
+    },
+    {
+      "epoch": 0.5556586270871985,
+      "grad_norm": 4.020503520965576,
+      "learning_rate": 9.805686911284867e-06,
+      "loss": 0.1163,
+      "step": 599
+    },
+    {
+      "epoch": 0.5565862708719852,
+      "grad_norm": 6.643052101135254,
+      "learning_rate": 9.773306548847102e-06,
+      "loss": 0.2224,
+      "step": 600
+    },
+    {
+      "epoch": 0.5565862708719852,
+      "eval_accuracy": 0.8381374722838137,
+      "eval_f1": 0.6313131313131313,
+      "eval_loss": 0.3394555449485779,
+      "eval_precision": 0.8741258741258742,
+      "eval_recall": 0.49407114624505927,
+      "eval_runtime": 48.1127,
+      "eval_samples_per_second": 5.737,
+      "eval_steps_per_second": 0.187,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.915741517465518e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null