Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:622bc81f8f68315981230410a5af9295ce13d9d2442cda4d2e0c1394ab643b63
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:35f51831b2b098cdce1336c36fdb466a2549cbaa1f8a57f3dfb51b4a2a5bf371
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4466298f59f74f2396af30cc6846b03c5e2c475c68f597a2280900b5ef9f6822
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:a789181143a79739789063cd00a232ab9f16e3bca19ecdc66bcebfc70abdf7f0
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb65453e41ba57df1e49499b4515f11a2109e747a8b475018fb820ed8547d1eb
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b06c737fb3780906c6db6f49888f41e1ff147cd36f721e2ec559502e5722dcf
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bf652736c23d5ec500d53e4354bd3773109f926f1b4b0d4d59aa2ea69aef069
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:95524888ea03dc8db342a6452b79ac2dc498646d4c1397845f5c61de5e72a273
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:376356308c6e8d10bb682cfb1a0b4946d89136884ead7b05403c587b67da24d4
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:405be8d53a873909641aaba4d30e01e797a1e6db0878263ef451a17ff9e941b9
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0094cac6a81cd2cfbebec1f49ccdb27974dfa74431cee11fdad66a765c1d98d2
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4da83fa371fc825b162abc2365a97c78bdd6c68b3c8715678d0f9f6a05017b53
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:040531dc57ed33e37cbfe9dcd7e1112c382584100f1bc640594960230566b736
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda0931130711d5820d481d7b5cc9a36c4df6219fb59d6ebb68f7ab10a011c4b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ab6e917dda4050ac4d807b0d9a1f67dc38eb806edecf6d4ff9f2b2d5e86f777
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d48786f7f9663e086296dbd832d3f41b07c50d093d8d13185ba7c06b778eba15
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d599ef6d880da0407794d2d1e47f232e539d56e142a25747095b9788a64b4a0d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad1d2ce7a6ea45f3182b7421bc96713b2844cd0ec18a52bec861802d753d23df
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed7e2cf1c59b7e3fc4655862d319e154ce50df93b4a979d06081d1b6dff38468
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bde33c3dc9d4b5847aa5e82a41ef1d715b6cab5c6f68c90d9c12b98c9395b5a1
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc1fa1da948f84f37dc872f4ee1aeeca7ef28ae0f1d1cc77d8a981b0bf8135cd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcb9b1e0f74c5f2631e58aded928e5d64789892339a1cd1a1bb054b2a8717bf3
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86ac5d5301adaa867d76938d6c3a2f107900c1dc4d17da3726a78980838f397d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e93d6940d870db9ebba78cee7722d0384b494610e71e7f8b2e22bb0fd8e406ed
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d661a2f97e83bfd63aa735702d498a3c1b7836c17a4de8072ad7a10523a2471c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a024530de56227bb3ef9eb28b732e8ef3d765c77ebd0a0c5bc59f62e1682f1a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12552301255230125,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 5.193,
       "eval_steps_per_second": 0.169,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.634801281282867e+16,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2510460251046025,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.193,
       "eval_steps_per_second": 0.169,
       "step": 100
+    },
+    {
+      "epoch": 0.12677824267782425,
+      "grad_norm": 3.9941301345825195,
+      "learning_rate": 1.9957579575884978e-05,
+      "loss": 0.3364,
+      "step": 101
+    },
+    {
+      "epoch": 0.1280334728033473,
+      "grad_norm": 3.4411442279815674,
+      "learning_rate": 1.995344655617815e-05,
+      "loss": 0.3481,
+      "step": 102
+    },
+    {
+      "epoch": 0.1292887029288703,
+      "grad_norm": 3.1757569313049316,
+      "learning_rate": 1.9949121913975275e-05,
+      "loss": 0.3447,
+      "step": 103
+    },
+    {
+      "epoch": 0.1305439330543933,
+      "grad_norm": 5.263054847717285,
+      "learning_rate": 1.994460573253382e-05,
+      "loss": 0.3705,
+      "step": 104
+    },
+    {
+      "epoch": 0.13179916317991633,
+      "grad_norm": 4.291073322296143,
+      "learning_rate": 1.9939898098798736e-05,
+      "loss": 0.349,
+      "step": 105
+    },
+    {
+      "epoch": 0.13305439330543933,
+      "grad_norm": 4.688785076141357,
+      "learning_rate": 1.9934999103400797e-05,
+      "loss": 0.2573,
+      "step": 106
+    },
+    {
+      "epoch": 0.13430962343096234,
+      "grad_norm": 3.483659505844116,
+      "learning_rate": 1.992990884065484e-05,
+      "loss": 0.2812,
+      "step": 107
+    },
+    {
+      "epoch": 0.13556485355648534,
+      "grad_norm": 5.222522258758545,
+      "learning_rate": 1.9924627408557963e-05,
+      "loss": 0.3208,
+      "step": 108
+    },
+    {
+      "epoch": 0.13682008368200838,
+      "grad_norm": 3.1946051120758057,
+      "learning_rate": 1.991915490878763e-05,
+      "loss": 0.4041,
+      "step": 109
+    },
+    {
+      "epoch": 0.13807531380753138,
+      "grad_norm": 2.834019899368286,
+      "learning_rate": 1.9913491446699715e-05,
+      "loss": 0.2989,
+      "step": 110
+    },
+    {
+      "epoch": 0.13933054393305438,
+      "grad_norm": 4.4058380126953125,
+      "learning_rate": 1.9907637131326475e-05,
+      "loss": 0.3247,
+      "step": 111
+    },
+    {
+      "epoch": 0.14058577405857742,
+      "grad_norm": 4.437101364135742,
+      "learning_rate": 1.9901592075374447e-05,
+      "loss": 0.3487,
+      "step": 112
+    },
+    {
+      "epoch": 0.14184100418410042,
+      "grad_norm": 3.1267802715301514,
+      "learning_rate": 1.989535639522229e-05,
+      "loss": 0.2741,
+      "step": 113
+    },
+    {
+      "epoch": 0.14309623430962343,
+      "grad_norm": 3.8325576782226562,
+      "learning_rate": 1.988893021091853e-05,
+      "loss": 0.385,
+      "step": 114
+    },
+    {
+      "epoch": 0.14435146443514643,
+      "grad_norm": 4.569618225097656,
+      "learning_rate": 1.9882313646179247e-05,
+      "loss": 0.3595,
+      "step": 115
+    },
+    {
+      "epoch": 0.14560669456066946,
+      "grad_norm": 5.401278972625732,
+      "learning_rate": 1.9875506828385723e-05,
+      "loss": 0.2875,
+      "step": 116
+    },
+    {
+      "epoch": 0.14686192468619247,
+      "grad_norm": 3.8402180671691895,
+      "learning_rate": 1.9868509888581945e-05,
+      "loss": 0.3079,
+      "step": 117
+    },
+    {
+      "epoch": 0.14811715481171547,
+      "grad_norm": 3.5551564693450928,
+      "learning_rate": 1.986132296147212e-05,
+      "loss": 0.3157,
+      "step": 118
+    },
+    {
+      "epoch": 0.1493723849372385,
+      "grad_norm": 9.136929512023926,
+      "learning_rate": 1.9853946185418056e-05,
+      "loss": 0.4209,
+      "step": 119
+    },
+    {
+      "epoch": 0.1506276150627615,
+      "grad_norm": 3.290203332901001,
+      "learning_rate": 1.9846379702436518e-05,
+      "loss": 0.2959,
+      "step": 120
+    },
+    {
+      "epoch": 0.1506276150627615,
+      "eval_accuracy": 0.8211920529801324,
+      "eval_f1": 0.6197183098591549,
+      "eval_loss": 0.37509337067604065,
+      "eval_precision": 0.7674418604651163,
+      "eval_recall": 0.5196850393700787,
+      "eval_runtime": 52.5731,
+      "eval_samples_per_second": 5.269,
+      "eval_steps_per_second": 0.171,
+      "step": 120
+    },
+    {
+      "epoch": 0.15188284518828452,
+      "grad_norm": 4.515352725982666,
+      "learning_rate": 1.983862365819648e-05,
+      "loss": 0.3283,
+      "step": 121
+    },
+    {
+      "epoch": 0.15313807531380752,
+      "grad_norm": 3.97063946723938,
+      "learning_rate": 1.9830678202016324e-05,
+      "loss": 0.3505,
+      "step": 122
+    },
+    {
+      "epoch": 0.15439330543933055,
+      "grad_norm": 4.553818225860596,
+      "learning_rate": 1.982254348686097e-05,
+      "loss": 0.313,
+      "step": 123
+    },
+    {
+      "epoch": 0.15564853556485356,
+      "grad_norm": 3.5846359729766846,
+      "learning_rate": 1.981421966933893e-05,
+      "loss": 0.35,
+      "step": 124
+    },
+    {
+      "epoch": 0.15690376569037656,
+      "grad_norm": 5.479614734649658,
+      "learning_rate": 1.9805706909699283e-05,
+      "loss": 0.3134,
+      "step": 125
+    },
+    {
+      "epoch": 0.1581589958158996,
+      "grad_norm": 3.6926157474517822,
+      "learning_rate": 1.9797005371828603e-05,
+      "loss": 0.3659,
+      "step": 126
+    },
+    {
+      "epoch": 0.1594142259414226,
+      "grad_norm": 4.4174957275390625,
+      "learning_rate": 1.97881152232478e-05,
+      "loss": 0.3069,
+      "step": 127
+    },
+    {
+      "epoch": 0.1606694560669456,
+      "grad_norm": 2.855861186981201,
+      "learning_rate": 1.9779036635108892e-05,
+      "loss": 0.2748,
+      "step": 128
+    },
+    {
+      "epoch": 0.1619246861924686,
+      "grad_norm": 3.4113943576812744,
+      "learning_rate": 1.976976978219171e-05,
+      "loss": 0.2942,
+      "step": 129
+    },
+    {
+      "epoch": 0.16317991631799164,
+      "grad_norm": 2.8706114292144775,
+      "learning_rate": 1.9760314842900537e-05,
+      "loss": 0.26,
+      "step": 130
+    },
+    {
+      "epoch": 0.16443514644351465,
+      "grad_norm": 3.3289883136749268,
+      "learning_rate": 1.975067199926067e-05,
+      "loss": 0.2942,
+      "step": 131
+    },
+    {
+      "epoch": 0.16569037656903765,
+      "grad_norm": 3.1963343620300293,
+      "learning_rate": 1.9740841436914917e-05,
+      "loss": 0.3404,
+      "step": 132
+    },
+    {
+      "epoch": 0.16694560669456068,
+      "grad_norm": 4.106410026550293,
+      "learning_rate": 1.9730823345120024e-05,
+      "loss": 0.3645,
+      "step": 133
+    },
+    {
+      "epoch": 0.1682008368200837,
+      "grad_norm": 3.587475299835205,
+      "learning_rate": 1.9720617916743022e-05,
+      "loss": 0.2905,
+      "step": 134
+    },
+    {
+      "epoch": 0.1694560669456067,
+      "grad_norm": 4.643335819244385,
+      "learning_rate": 1.971022534825754e-05,
+      "loss": 0.3199,
+      "step": 135
+    },
+    {
+      "epoch": 0.1707112970711297,
+      "grad_norm": 3.8745625019073486,
+      "learning_rate": 1.9699645839739987e-05,
+      "loss": 0.3276,
+      "step": 136
+    },
+    {
+      "epoch": 0.17196652719665273,
+      "grad_norm": 4.443915367126465,
+      "learning_rate": 1.9688879594865726e-05,
+      "loss": 0.1989,
+      "step": 137
+    },
+    {
+      "epoch": 0.17322175732217573,
+      "grad_norm": 3.165154218673706,
+      "learning_rate": 1.9677926820905143e-05,
+      "loss": 0.2877,
+      "step": 138
+    },
+    {
+      "epoch": 0.17447698744769874,
+      "grad_norm": 3.396127462387085,
+      "learning_rate": 1.9666787728719664e-05,
+      "loss": 0.2869,
+      "step": 139
+    },
+    {
+      "epoch": 0.17573221757322174,
+      "grad_norm": 4.032714366912842,
+      "learning_rate": 1.9655462532757677e-05,
+      "loss": 0.336,
+      "step": 140
+    },
+    {
+      "epoch": 0.17573221757322174,
+      "eval_accuracy": 0.8278145695364238,
+      "eval_f1": 0.6060606060606061,
+      "eval_loss": 0.3764040172100067,
+      "eval_precision": 0.8450704225352113,
+      "eval_recall": 0.47244094488188976,
+      "eval_runtime": 52.6872,
+      "eval_samples_per_second": 5.257,
+      "eval_steps_per_second": 0.171,
+      "step": 140
+    },
+    {
+      "epoch": 0.17698744769874478,
+      "grad_norm": 2.6727371215820312,
+      "learning_rate": 1.9643951451050428e-05,
+      "loss": 0.2636,
+      "step": 141
+    },
+    {
+      "epoch": 0.17824267782426778,
+      "grad_norm": 3.8816864490509033,
+      "learning_rate": 1.9632254705207813e-05,
+      "loss": 0.3208,
+      "step": 142
+    },
+    {
+      "epoch": 0.17949790794979079,
+      "grad_norm": 3.4616892337799072,
+      "learning_rate": 1.9620372520414098e-05,
+      "loss": 0.3218,
+      "step": 143
+    },
+    {
+      "epoch": 0.18075313807531382,
+      "grad_norm": 4.056252479553223,
+      "learning_rate": 1.9608305125423608e-05,
+      "loss": 0.2844,
+      "step": 144
+    },
+    {
+      "epoch": 0.18200836820083682,
+      "grad_norm": 5.902234077453613,
+      "learning_rate": 1.9596052752556308e-05,
+      "loss": 0.2497,
+      "step": 145
+    },
+    {
+      "epoch": 0.18326359832635983,
+      "grad_norm": 4.0488996505737305,
+      "learning_rate": 1.958361563769333e-05,
+      "loss": 0.2764,
+      "step": 146
+    },
+    {
+      "epoch": 0.18451882845188283,
+      "grad_norm": 4.619633197784424,
+      "learning_rate": 1.957099402027244e-05,
+      "loss": 0.3775,
+      "step": 147
+    },
+    {
+      "epoch": 0.18577405857740587,
+      "grad_norm": 4.491790294647217,
+      "learning_rate": 1.9558188143283425e-05,
+      "loss": 0.4185,
+      "step": 148
+    },
+    {
+      "epoch": 0.18702928870292887,
+      "grad_norm": 9.393437385559082,
+      "learning_rate": 1.954519825326341e-05,
+      "loss": 0.292,
+      "step": 149
+    },
+    {
+      "epoch": 0.18828451882845187,
+      "grad_norm": 9.774816513061523,
+      "learning_rate": 1.9532024600292115e-05,
+      "loss": 0.341,
+      "step": 150
+    },
+    {
+      "epoch": 0.1895397489539749,
+      "grad_norm": 9.051419258117676,
+      "learning_rate": 1.9518667437987045e-05,
+      "loss": 0.3125,
+      "step": 151
+    },
+    {
+      "epoch": 0.1907949790794979,
+      "grad_norm": 4.726169586181641,
+      "learning_rate": 1.9505127023498603e-05,
+      "loss": 0.3283,
+      "step": 152
+    },
+    {
+      "epoch": 0.19205020920502092,
+      "grad_norm": 3.818352222442627,
+      "learning_rate": 1.9491403617505134e-05,
+      "loss": 0.2696,
+      "step": 153
+    },
+    {
+      "epoch": 0.19330543933054392,
+      "grad_norm": 4.901086330413818,
+      "learning_rate": 1.9477497484207922e-05,
+      "loss": 0.2927,
+      "step": 154
+    },
+    {
+      "epoch": 0.19456066945606695,
+      "grad_norm": 2.7958414554595947,
+      "learning_rate": 1.9463408891326088e-05,
+      "loss": 0.2544,
+      "step": 155
+    },
+    {
+      "epoch": 0.19581589958158996,
+      "grad_norm": 3.541666030883789,
+      "learning_rate": 1.9449138110091444e-05,
+      "loss": 0.2723,
+      "step": 156
+    },
+    {
+      "epoch": 0.19707112970711296,
+      "grad_norm": 4.369930744171143,
+      "learning_rate": 1.9434685415243267e-05,
+      "loss": 0.3121,
+      "step": 157
+    },
+    {
+      "epoch": 0.198326359832636,
+      "grad_norm": 4.061751842498779,
+      "learning_rate": 1.9420051085023006e-05,
+      "loss": 0.3238,
+      "step": 158
+    },
+    {
+      "epoch": 0.199581589958159,
+      "grad_norm": 5.1077446937561035,
+      "learning_rate": 1.940523540116895e-05,
+      "loss": 0.2935,
+      "step": 159
+    },
+    {
+      "epoch": 0.200836820083682,
+      "grad_norm": 3.7316763401031494,
+      "learning_rate": 1.9390238648910765e-05,
+      "loss": 0.3239,
+      "step": 160
+    },
+    {
+      "epoch": 0.200836820083682,
+      "eval_accuracy": 0.8200883002207505,
+      "eval_f1": 0.5788113695090439,
+      "eval_loss": 0.3607686161994934,
+      "eval_precision": 0.8421052631578947,
+      "eval_recall": 0.4409448818897638,
+      "eval_runtime": 53.735,
+      "eval_samples_per_second": 5.155,
+      "eval_steps_per_second": 0.167,
+      "step": 160
+    },
+    {
+      "epoch": 0.202092050209205,
+      "grad_norm": 4.719494819641113,
+      "learning_rate": 1.9375061116964032e-05,
+      "loss": 0.3164,
+      "step": 161
+    },
+    {
+      "epoch": 0.20334728033472804,
+      "grad_norm": 3.245194435119629,
+      "learning_rate": 1.935970309752469e-05,
+      "loss": 0.2923,
+      "step": 162
+    },
+    {
+      "epoch": 0.20460251046025105,
+      "grad_norm": 4.244296550750732,
+      "learning_rate": 1.9344164886263375e-05,
+      "loss": 0.2891,
+      "step": 163
+    },
+    {
+      "epoch": 0.20585774058577405,
+      "grad_norm": 5.457589149475098,
+      "learning_rate": 1.932844678231977e-05,
+      "loss": 0.3057,
+      "step": 164
+    },
+    {
+      "epoch": 0.20711297071129708,
+      "grad_norm": 4.439499378204346,
+      "learning_rate": 1.9312549088296838e-05,
+      "loss": 0.2107,
+      "step": 165
+    },
+    {
+      "epoch": 0.2083682008368201,
+      "grad_norm": 5.0200653076171875,
+      "learning_rate": 1.929647211025497e-05,
+      "loss": 0.2859,
+      "step": 166
+    },
+    {
+      "epoch": 0.2096234309623431,
+      "grad_norm": 3.7708117961883545,
+      "learning_rate": 1.9280216157706113e-05,
+      "loss": 0.2816,
+      "step": 167
+    },
+    {
+      "epoch": 0.2108786610878661,
+      "grad_norm": 3.947610855102539,
+      "learning_rate": 1.9263781543607817e-05,
+      "loss": 0.2431,
+      "step": 168
+    },
+    {
+      "epoch": 0.21213389121338913,
+      "grad_norm": 3.28195858001709,
+      "learning_rate": 1.9247168584357195e-05,
+      "loss": 0.296,
+      "step": 169
+    },
+    {
+      "epoch": 0.21338912133891214,
+      "grad_norm": 3.6983871459960938,
+      "learning_rate": 1.923037759978484e-05,
+      "loss": 0.3003,
+      "step": 170
+    },
+    {
+      "epoch": 0.21464435146443514,
+      "grad_norm": 4.456281661987305,
+      "learning_rate": 1.921340891314867e-05,
+      "loss": 0.2493,
+      "step": 171
+    },
+    {
+      "epoch": 0.21589958158995817,
+      "grad_norm": 3.2370941638946533,
+      "learning_rate": 1.9196262851127695e-05,
+      "loss": 0.2353,
+      "step": 172
+    },
+    {
+      "epoch": 0.21715481171548118,
+      "grad_norm": 2.977496862411499,
+      "learning_rate": 1.9178939743815735e-05,
+      "loss": 0.3062,
+      "step": 173
+    },
+    {
+      "epoch": 0.21841004184100418,
+      "grad_norm": 5.293909072875977,
+      "learning_rate": 1.9161439924715063e-05,
+      "loss": 0.2646,
+      "step": 174
+    },
+    {
+      "epoch": 0.2196652719665272,
+      "grad_norm": 3.4083428382873535,
+      "learning_rate": 1.9143763730729987e-05,
+      "loss": 0.2305,
+      "step": 175
+    },
+    {
+      "epoch": 0.22092050209205022,
+      "grad_norm": 2.7759830951690674,
+      "learning_rate": 1.9125911502160365e-05,
+      "loss": 0.2554,
+      "step": 176
+    },
+    {
+      "epoch": 0.22217573221757322,
+      "grad_norm": 3.9626009464263916,
+      "learning_rate": 1.9107883582695043e-05,
+      "loss": 0.2789,
+      "step": 177
+    },
+    {
+      "epoch": 0.22343096234309623,
+      "grad_norm": 3.340153932571411,
+      "learning_rate": 1.9089680319405252e-05,
+      "loss": 0.2874,
+      "step": 178
+    },
+    {
+      "epoch": 0.22468619246861923,
+      "grad_norm": 3.277308702468872,
+      "learning_rate": 1.9071302062737915e-05,
+      "loss": 0.1978,
+      "step": 179
+    },
+    {
+      "epoch": 0.22594142259414227,
+      "grad_norm": 5.420035362243652,
+      "learning_rate": 1.905274916650891e-05,
+      "loss": 0.2767,
+      "step": 180
+    },
+    {
+      "epoch": 0.22594142259414227,
+      "eval_accuracy": 0.8543046357615894,
+      "eval_f1": 0.7066666666666667,
+      "eval_loss": 0.3361983299255371,
+      "eval_precision": 0.8112244897959183,
+      "eval_recall": 0.6259842519685039,
+      "eval_runtime": 51.9639,
+      "eval_samples_per_second": 5.331,
+      "eval_steps_per_second": 0.173,
+      "step": 180
+    },
+    {
+      "epoch": 0.22719665271966527,
+      "grad_norm": 6.328350067138672,
+      "learning_rate": 1.903402198789625e-05,
+      "loss": 0.3489,
+      "step": 181
+    },
+    {
+      "epoch": 0.22845188284518828,
+      "grad_norm": 3.141185760498047,
+      "learning_rate": 1.9015120887433215e-05,
+      "loss": 0.3043,
+      "step": 182
+    },
+    {
+      "epoch": 0.2297071129707113,
+      "grad_norm": 3.633781909942627,
+      "learning_rate": 1.8996046229001407e-05,
+      "loss": 0.3081,
+      "step": 183
+    },
+    {
+      "epoch": 0.2309623430962343,
+      "grad_norm": 3.6458773612976074,
+      "learning_rate": 1.897679837982373e-05,
+      "loss": 0.2259,
+      "step": 184
+    },
+    {
+      "epoch": 0.23221757322175732,
+      "grad_norm": 7.069568634033203,
+      "learning_rate": 1.895737771045736e-05,
+      "loss": 0.347,
+      "step": 185
+    },
+    {
+      "epoch": 0.23347280334728032,
+      "grad_norm": 5.888752460479736,
+      "learning_rate": 1.8937784594786562e-05,
+      "loss": 0.2361,
+      "step": 186
+    },
+    {
+      "epoch": 0.23472803347280335,
+      "grad_norm": 3.553389072418213,
+      "learning_rate": 1.8918019410015527e-05,
+      "loss": 0.2504,
+      "step": 187
+    },
+    {
+      "epoch": 0.23598326359832636,
+      "grad_norm": 3.6231913566589355,
+      "learning_rate": 1.8898082536661097e-05,
+      "loss": 0.2558,
+      "step": 188
+    },
+    {
+      "epoch": 0.23723849372384936,
+      "grad_norm": 3.3635237216949463,
+      "learning_rate": 1.887797435854543e-05,
+      "loss": 0.2867,
+      "step": 189
+    },
+    {
+      "epoch": 0.2384937238493724,
+      "grad_norm": 4.0168538093566895,
+      "learning_rate": 1.885769526278865e-05,
+      "loss": 0.3195,
+      "step": 190
+    },
+    {
+      "epoch": 0.2397489539748954,
+      "grad_norm": 4.260074615478516,
+      "learning_rate": 1.8837245639801332e-05,
+      "loss": 0.2861,
+      "step": 191
+    },
+    {
+      "epoch": 0.2410041841004184,
+      "grad_norm": 3.299710988998413,
+      "learning_rate": 1.8816625883277044e-05,
+      "loss": 0.2454,
+      "step": 192
+    },
+    {
+      "epoch": 0.2422594142259414,
+      "grad_norm": 4.68196439743042,
+      "learning_rate": 1.8795836390184727e-05,
+      "loss": 0.2976,
+      "step": 193
+    },
+    {
+      "epoch": 0.24351464435146444,
+      "grad_norm": 4.414516925811768,
+      "learning_rate": 1.8774877560761082e-05,
+      "loss": 0.2814,
+      "step": 194
+    },
+    {
+      "epoch": 0.24476987447698745,
+      "grad_norm": 4.108029365539551,
+      "learning_rate": 1.8753749798502845e-05,
+      "loss": 0.2478,
+      "step": 195
+    },
+    {
+      "epoch": 0.24602510460251045,
+      "grad_norm": 3.553065061569214,
+      "learning_rate": 1.8732453510159025e-05,
+      "loss": 0.2221,
+      "step": 196
+    },
+    {
+      "epoch": 0.24728033472803349,
+      "grad_norm": 3.1897339820861816,
+      "learning_rate": 1.871098910572308e-05,
+      "loss": 0.3001,
+      "step": 197
+    },
+    {
+      "epoch": 0.2485355648535565,
+      "grad_norm": 4.416936874389648,
+      "learning_rate": 1.8689356998425007e-05,
+      "loss": 0.3109,
+      "step": 198
+    },
+    {
+      "epoch": 0.2497907949790795,
+      "grad_norm": 3.162482976913452,
+      "learning_rate": 1.8667557604723404e-05,
+      "loss": 0.3104,
+      "step": 199
+    },
+    {
+      "epoch": 0.2510460251046025,
+      "grad_norm": 3.864384651184082,
+      "learning_rate": 1.864559134429745e-05,
+      "loss": 0.276,
+      "step": 200
+    },
+    {
+      "epoch": 0.2510460251046025,
+      "eval_accuracy": 0.8388520971302428,
+      "eval_f1": 0.6439024390243903,
+      "eval_loss": 0.3405630886554718,
+      "eval_precision": 0.8461538461538461,
+      "eval_recall": 0.5196850393700787,
+      "eval_runtime": 52.2841,
+      "eval_samples_per_second": 5.298,
+      "eval_steps_per_second": 0.172,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.32374373582766e+16,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null