Training in progress, step 900, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68eb5ed2e06aaf8ccf51155c64c6d00bc22fb8856e437e0118b64ceffe8a67cb
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeb8e62aebef304af7f29719c0fad923798eb330385aeb4124ebe5905d2f7893
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed69f0ff9655bfaab7272f6ad7c0ae7dd2a7e69609ff879b264ac67fb89fa9f1
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:925451c7a47e11cfdf5d3e79ff8e1d1616fa31bfbe9fd4dd921a8d07495100a5
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bbd790913cc32d61c035f94711e5213bc995991b0da5ce1e10cae6c207d6aff
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:80aebfaa38d8fd15efc2f80ca22db9271add0dfa1df7cd1b9ec3a6cafcc1e980
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47ee402b977d2bcdbecf23c2cac2e41b1eece5636309269bebeeddbf9c83f8d2
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e93ab70baf5fb3f49fc902766d3981884a3c59e7111a93ea08d704b5eaca5524
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3d4686b220e210f4828731ecf8026fe744b87154e9a5102165f52041740b6ac
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1f8093292209f6718d35e0ccd016f16652167381bf80627ae426fc0a96d439c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff71901f9fc3dd0a0169fd09f191b1474c7af397ce776f7c375bb3b28eb7bd0a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f14ea077a90622e6b4dc501a0231b02a369eb0516f972a2f1408a934b610f29
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bd67655dcdb83e7ff22694d01a9823713b17e32ab4a1e5c80da2d423d2c37fc
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:716d166395b1d3204d4c7983923c858c7814b0e98a579025f7d5396f16ff6dbc
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bebb458ab33cd9a17efd02365cbba8cf0457b1be88b705a8de29ec92988fadf4
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f369ee493042be075f560b3402758308791790a6b19967c254c943ef54144890
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:930942e93c4300034c378c60f4a0dab9ede67a9d39a6de67496fcfc48b953599
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d70614fd7a6e0bc09ddffd7fa93961bcf9eea5616a951374e008e680df41fe5
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07bfe832d1e9096039f344c8603706dbf51d8a2520da53b6fb91c2a831e3c65c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:53ddb89813eac5e34cc35dc1ec465872bcd28d173f301c7ce65f1667e4d5f404
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f806da0a270ca93d00536c431b16e74277199f672ba1a254a8c26faa0eba661b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbbf9a445428ea3735d412cb42b094a0445cbab134f49cd9d71dd69330ce45b5
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a4acd0e09a01d2645011aa7cce0fbe01327e6aa40a58caa03b7a2ab1d8edd4a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe5328f1346602824c30aa9cc75535e926a4d8ce4ca9da88e40f8ce89791ebde
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:044d30e23b739bee6ba5f240459efac0778a387063ea9930d3e3133b74846187
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed607b5799c4b3e2659af93e02b0fa11a91a2ab37a2feec0e0666f1663f216c4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7421150278293135,
   "eval_steps": 20,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6099,6 +6099,766 @@
       "eval_samples_per_second": 5.805,
       "eval_steps_per_second": 0.189,
       "step": 800
     }
   ],
   "logging_steps": 1,
@@ -6118,7 +6878,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5585969473467187e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8348794063079777,
   "eval_steps": 20,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.805,
       "eval_steps_per_second": 0.189,
       "step": 800
+    },
+    {
+      "epoch": 0.7430426716141002,
+      "grad_norm": 3.8346760272979736,
+      "learning_rate": 3.7614852762326303e-06,
+      "loss": 0.1511,
+      "step": 801
+    },
+    {
+      "epoch": 0.7439703153988868,
+      "grad_norm": 3.3582327365875244,
+      "learning_rate": 3.736205777078381e-06,
+      "loss": 0.099,
+      "step": 802
+    },
+    {
+      "epoch": 0.7448979591836735,
+      "grad_norm": 4.043883323669434,
+      "learning_rate": 3.7109919821615546e-06,
+      "loss": 0.1684,
+      "step": 803
+    },
+    {
+      "epoch": 0.7458256029684601,
+      "grad_norm": 4.061108112335205,
+      "learning_rate": 3.685844155962931e-06,
+      "loss": 0.1874,
+      "step": 804
+    },
+    {
+      "epoch": 0.7467532467532467,
+      "grad_norm": 2.596107244491577,
+      "learning_rate": 3.6607625622713005e-06,
+      "loss": 0.1146,
+      "step": 805
+    },
+    {
+      "epoch": 0.7476808905380334,
+      "grad_norm": 3.7484891414642334,
+      "learning_rate": 3.63574746418072e-06,
+      "loss": 0.1027,
+      "step": 806
+    },
+    {
+      "epoch": 0.74860853432282,
+      "grad_norm": 4.787120342254639,
+      "learning_rate": 3.610799124087725e-06,
+      "loss": 0.2284,
+      "step": 807
+    },
+    {
+      "epoch": 0.7495361781076066,
+      "grad_norm": 3.2740108966827393,
+      "learning_rate": 3.585917803688603e-06,
+      "loss": 0.126,
+      "step": 808
+    },
+    {
+      "epoch": 0.7504638218923934,
+      "grad_norm": 3.000568389892578,
+      "learning_rate": 3.5611037639766267e-06,
+      "loss": 0.1258,
+      "step": 809
+    },
+    {
+      "epoch": 0.75139146567718,
+      "grad_norm": 3.994319200515747,
+      "learning_rate": 3.536357265239333e-06,
+      "loss": 0.2042,
+      "step": 810
+    },
+    {
+      "epoch": 0.7523191094619666,
+      "grad_norm": 3.8152012825012207,
+      "learning_rate": 3.511678567055786e-06,
+      "loss": 0.147,
+      "step": 811
+    },
+    {
+      "epoch": 0.7532467532467533,
+      "grad_norm": 3.8970158100128174,
+      "learning_rate": 3.487067928293848e-06,
+      "loss": 0.142,
+      "step": 812
+    },
+    {
+      "epoch": 0.7541743970315399,
+      "grad_norm": 4.383775234222412,
+      "learning_rate": 3.4625256071074776e-06,
+      "loss": 0.1752,
+      "step": 813
+    },
+    {
+      "epoch": 0.7551020408163265,
+      "grad_norm": 3.43391489982605,
+      "learning_rate": 3.4380518609340076e-06,
+      "loss": 0.1207,
+      "step": 814
+    },
+    {
+      "epoch": 0.7560296846011132,
+      "grad_norm": 3.767289161682129,
+      "learning_rate": 3.413646946491458e-06,
+      "loss": 0.1301,
+      "step": 815
+    },
+    {
+      "epoch": 0.7569573283858998,
+      "grad_norm": 3.6454761028289795,
+      "learning_rate": 3.3893111197758276e-06,
+      "loss": 0.1729,
+      "step": 816
+    },
+    {
+      "epoch": 0.7578849721706865,
+      "grad_norm": 4.36724328994751,
+      "learning_rate": 3.3650446360584276e-06,
+      "loss": 0.1707,
+      "step": 817
+    },
+    {
+      "epoch": 0.7588126159554731,
+      "grad_norm": 2.9927897453308105,
+      "learning_rate": 3.3408477498831917e-06,
+      "loss": 0.112,
+      "step": 818
+    },
+    {
+      "epoch": 0.7597402597402597,
+      "grad_norm": 4.448176860809326,
+      "learning_rate": 3.3167207150640003e-06,
+      "loss": 0.1064,
+      "step": 819
+    },
+    {
+      "epoch": 0.7606679035250464,
+      "grad_norm": 6.467900276184082,
+      "learning_rate": 3.2926637846820366e-06,
+      "loss": 0.249,
+      "step": 820
+    },
+    {
+      "epoch": 0.7606679035250464,
+      "eval_accuracy": 0.8592017738359202,
+      "eval_f1": 0.6997635933806147,
+      "eval_loss": 0.3030702769756317,
+      "eval_precision": 0.8705882352941177,
+      "eval_recall": 0.5849802371541502,
+      "eval_runtime": 47.6515,
+      "eval_samples_per_second": 5.792,
+      "eval_steps_per_second": 0.189,
+      "step": 820
+    },
+    {
+      "epoch": 0.761595547309833,
+      "grad_norm": 3.21474027633667,
+      "learning_rate": 3.268677211083109e-06,
+      "loss": 0.1103,
+      "step": 821
+    },
+    {
+      "epoch": 0.7625231910946196,
+      "grad_norm": 3.8230926990509033,
+      "learning_rate": 3.2447612458750365e-06,
+      "loss": 0.1608,
+      "step": 822
+    },
+    {
+      "epoch": 0.7634508348794063,
+      "grad_norm": 4.736266136169434,
+      "learning_rate": 3.2209161399249677e-06,
+      "loss": 0.1549,
+      "step": 823
+    },
+    {
+      "epoch": 0.764378478664193,
+      "grad_norm": 5.4161481857299805,
+      "learning_rate": 3.197142143356787e-06,
+      "loss": 0.1905,
+      "step": 824
+    },
+    {
+      "epoch": 0.7653061224489796,
+      "grad_norm": 3.857360601425171,
+      "learning_rate": 3.1734395055484623e-06,
+      "loss": 0.1287,
+      "step": 825
+    },
+    {
+      "epoch": 0.7662337662337663,
+      "grad_norm": 4.246245861053467,
+      "learning_rate": 3.1498084751294523e-06,
+      "loss": 0.1751,
+      "step": 826
+    },
+    {
+      "epoch": 0.7671614100185529,
+      "grad_norm": 4.21674108505249,
+      "learning_rate": 3.126249299978086e-06,
+      "loss": 0.1593,
+      "step": 827
+    },
+    {
+      "epoch": 0.7680890538033395,
+      "grad_norm": 3.7095324993133545,
+      "learning_rate": 3.1027622272189572e-06,
+      "loss": 0.1384,
+      "step": 828
+    },
+    {
+      "epoch": 0.7690166975881262,
+      "grad_norm": 6.3794965744018555,
+      "learning_rate": 3.0793475032203513e-06,
+      "loss": 0.1583,
+      "step": 829
+    },
+    {
+      "epoch": 0.7699443413729128,
+      "grad_norm": 3.0277578830718994,
+      "learning_rate": 3.0560053735916372e-06,
+      "loss": 0.1043,
+      "step": 830
+    },
+    {
+      "epoch": 0.7708719851576994,
+      "grad_norm": 5.117831707000732,
+      "learning_rate": 3.032736083180716e-06,
+      "loss": 0.15,
+      "step": 831
+    },
+    {
+      "epoch": 0.7717996289424861,
+      "grad_norm": 2.76505184173584,
+      "learning_rate": 3.009539876071427e-06,
+      "loss": 0.0558,
+      "step": 832
+    },
+    {
+      "epoch": 0.7727272727272727,
+      "grad_norm": 4.057276725769043,
+      "learning_rate": 2.9864169955810085e-06,
+      "loss": 0.1391,
+      "step": 833
+    },
+    {
+      "epoch": 0.7736549165120594,
+      "grad_norm": 3.700852870941162,
+      "learning_rate": 2.9633676842575386e-06,
+      "loss": 0.1721,
+      "step": 834
+    },
+    {
+      "epoch": 0.774582560296846,
+      "grad_norm": 4.1468939781188965,
+      "learning_rate": 2.940392183877382e-06,
+      "loss": 0.1866,
+      "step": 835
+    },
+    {
+      "epoch": 0.7755102040816326,
+      "grad_norm": 3.1190547943115234,
+      "learning_rate": 2.9174907354426696e-06,
+      "loss": 0.1292,
+      "step": 836
+    },
+    {
+      "epoch": 0.7764378478664193,
+      "grad_norm": 3.0235095024108887,
+      "learning_rate": 2.8946635791787546e-06,
+      "loss": 0.0629,
+      "step": 837
+    },
+    {
+      "epoch": 0.7773654916512059,
+      "grad_norm": 3.435035467147827,
+      "learning_rate": 2.8719109545317102e-06,
+      "loss": 0.1064,
+      "step": 838
+    },
+    {
+      "epoch": 0.7782931354359925,
+      "grad_norm": 5.368072986602783,
+      "learning_rate": 2.849233100165795e-06,
+      "loss": 0.1662,
+      "step": 839
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "grad_norm": 4.488304615020752,
+      "learning_rate": 2.8266302539609747e-06,
+      "loss": 0.2033,
+      "step": 840
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "eval_accuracy": 0.8592017738359202,
+      "eval_f1": 0.6983372921615202,
+      "eval_loss": 0.30760514736175537,
+      "eval_precision": 0.875,
+      "eval_recall": 0.5810276679841897,
+      "eval_runtime": 47.6262,
+      "eval_samples_per_second": 5.795,
+      "eval_steps_per_second": 0.189,
+      "step": 840
+    },
+    {
+      "epoch": 0.7801484230055659,
+      "grad_norm": 4.42378044128418,
+      "learning_rate": 2.8041026530104144e-06,
+      "loss": 0.1223,
+      "step": 841
+    },
+    {
+      "epoch": 0.7810760667903525,
+      "grad_norm": 3.143146514892578,
+      "learning_rate": 2.78165053361798e-06,
+      "loss": 0.1408,
+      "step": 842
+    },
+    {
+      "epoch": 0.7820037105751392,
+      "grad_norm": 3.8427817821502686,
+      "learning_rate": 2.759274131295787e-06,
+      "loss": 0.0995,
+      "step": 843
+    },
+    {
+      "epoch": 0.7829313543599258,
+      "grad_norm": 4.896306991577148,
+      "learning_rate": 2.736973680761702e-06,
+      "loss": 0.1621,
+      "step": 844
+    },
+    {
+      "epoch": 0.7838589981447124,
+      "grad_norm": 5.344152450561523,
+      "learning_rate": 2.714749415936904e-06,
+      "loss": 0.1749,
+      "step": 845
+    },
+    {
+      "epoch": 0.7847866419294991,
+      "grad_norm": 4.093927383422852,
+      "learning_rate": 2.692601569943407e-06,
+      "loss": 0.1716,
+      "step": 846
+    },
+    {
+      "epoch": 0.7857142857142857,
+      "grad_norm": 3.3568267822265625,
+      "learning_rate": 2.670530375101641e-06,
+      "loss": 0.1658,
+      "step": 847
+    },
+    {
+      "epoch": 0.7866419294990723,
+      "grad_norm": 3.3225290775299072,
+      "learning_rate": 2.648536062927999e-06,
+      "loss": 0.1358,
+      "step": 848
+    },
+    {
+      "epoch": 0.787569573283859,
+      "grad_norm": 4.490353584289551,
+      "learning_rate": 2.6266188641324e-06,
+      "loss": 0.1178,
+      "step": 849
+    },
+    {
+      "epoch": 0.7884972170686456,
+      "grad_norm": 3.4706945419311523,
+      "learning_rate": 2.604779008615895e-06,
+      "loss": 0.0946,
+      "step": 850
+    },
+    {
+      "epoch": 0.7894248608534323,
+      "grad_norm": 5.027894020080566,
+      "learning_rate": 2.583016725468226e-06,
+      "loss": 0.1434,
+      "step": 851
+    },
+    {
+      "epoch": 0.7903525046382189,
+      "grad_norm": 4.010559558868408,
+      "learning_rate": 2.5613322429654573e-06,
+      "loss": 0.158,
+      "step": 852
+    },
+    {
+      "epoch": 0.7912801484230055,
+      "grad_norm": 6.057810306549072,
+      "learning_rate": 2.5397257885675396e-06,
+      "loss": 0.1912,
+      "step": 853
+    },
+    {
+      "epoch": 0.7922077922077922,
+      "grad_norm": 5.5663371086120605,
+      "learning_rate": 2.5181975889159615e-06,
+      "loss": 0.2398,
+      "step": 854
+    },
+    {
+      "epoch": 0.7931354359925789,
+      "grad_norm": 2.8672025203704834,
+      "learning_rate": 2.496747869831345e-06,
+      "loss": 0.0944,
+      "step": 855
+    },
+    {
+      "epoch": 0.7940630797773655,
+      "grad_norm": 4.048581123352051,
+      "learning_rate": 2.475376856311097e-06,
+      "loss": 0.1603,
+      "step": 856
+    },
+    {
+      "epoch": 0.7949907235621522,
+      "grad_norm": 5.737659931182861,
+      "learning_rate": 2.4540847725270376e-06,
+      "loss": 0.1366,
+      "step": 857
+    },
+    {
+      "epoch": 0.7959183673469388,
+      "grad_norm": 4.4261155128479,
+      "learning_rate": 2.432871841823047e-06,
+      "loss": 0.1939,
+      "step": 858
+    },
+    {
+      "epoch": 0.7968460111317254,
+      "grad_norm": 5.629834175109863,
+      "learning_rate": 2.411738286712735e-06,
+      "loss": 0.2281,
+      "step": 859
+    },
+    {
+      "epoch": 0.7977736549165121,
+      "grad_norm": 3.919034004211426,
+      "learning_rate": 2.390684328877089e-06,
+      "loss": 0.1418,
+      "step": 860
+    },
+    {
+      "epoch": 0.7977736549165121,
+      "eval_accuracy": 0.8614190687361419,
+      "eval_f1": 0.7072599531615925,
+      "eval_loss": 0.29977986216545105,
+      "eval_precision": 0.867816091954023,
+      "eval_recall": 0.5968379446640316,
+      "eval_runtime": 47.4113,
+      "eval_samples_per_second": 5.821,
+      "eval_steps_per_second": 0.19,
+      "step": 860
+    },
+    {
+      "epoch": 0.7987012987012987,
+      "grad_norm": 7.607851982116699,
+      "learning_rate": 2.36971018916217e-06,
+      "loss": 0.187,
+      "step": 861
+    },
+    {
+      "epoch": 0.7996289424860853,
+      "grad_norm": 3.1179118156433105,
+      "learning_rate": 2.3488160875767717e-06,
+      "loss": 0.1326,
+      "step": 862
+    },
+    {
+      "epoch": 0.800556586270872,
+      "grad_norm": 3.8754749298095703,
+      "learning_rate": 2.328002243290138e-06,
+      "loss": 0.1497,
+      "step": 863
+    },
+    {
+      "epoch": 0.8014842300556586,
+      "grad_norm": 4.216552734375,
+      "learning_rate": 2.307268874629649e-06,
+      "loss": 0.1259,
+      "step": 864
+    },
+    {
+      "epoch": 0.8024118738404453,
+      "grad_norm": 5.980984210968018,
+      "learning_rate": 2.2866161990785228e-06,
+      "loss": 0.1778,
+      "step": 865
+    },
+    {
+      "epoch": 0.8033395176252319,
+      "grad_norm": 4.638891220092773,
+      "learning_rate": 2.266044433273562e-06,
+      "loss": 0.2258,
+      "step": 866
+    },
+    {
+      "epoch": 0.8042671614100185,
+      "grad_norm": 3.3244616985321045,
+      "learning_rate": 2.245553793002849e-06,
+      "loss": 0.1215,
+      "step": 867
+    },
+    {
+      "epoch": 0.8051948051948052,
+      "grad_norm": 6.757506370544434,
+      "learning_rate": 2.2251444932035094e-06,
+      "loss": 0.159,
+      "step": 868
+    },
+    {
+      "epoch": 0.8061224489795918,
+      "grad_norm": 5.527317523956299,
+      "learning_rate": 2.204816747959434e-06,
+      "loss": 0.1025,
+      "step": 869
+    },
+    {
+      "epoch": 0.8070500927643784,
+      "grad_norm": 3.5259664058685303,
+      "learning_rate": 2.184570770499056e-06,
+      "loss": 0.1522,
+      "step": 870
+    },
+    {
+      "epoch": 0.8079777365491652,
+      "grad_norm": 4.936224937438965,
+      "learning_rate": 2.1644067731931005e-06,
+      "loss": 0.1679,
+      "step": 871
+    },
+    {
+      "epoch": 0.8089053803339518,
+      "grad_norm": 4.338299751281738,
+      "learning_rate": 2.1443249675523536e-06,
+      "loss": 0.1705,
+      "step": 872
+    },
+    {
+      "epoch": 0.8098330241187384,
+      "grad_norm": 3.631812334060669,
+      "learning_rate": 2.124325564225458e-06,
+      "loss": 0.1034,
+      "step": 873
+    },
+    {
+      "epoch": 0.8107606679035251,
+      "grad_norm": 3.276409864425659,
+      "learning_rate": 2.1044087729966856e-06,
+      "loss": 0.1486,
+      "step": 874
+    },
+    {
+      "epoch": 0.8116883116883117,
+      "grad_norm": 5.677032947540283,
+      "learning_rate": 2.0845748027837585e-06,
+      "loss": 0.2155,
+      "step": 875
+    },
+    {
+      "epoch": 0.8126159554730983,
+      "grad_norm": 6.064774036407471,
+      "learning_rate": 2.064823861635633e-06,
+      "loss": 0.1773,
+      "step": 876
+    },
+    {
+      "epoch": 0.813543599257885,
+      "grad_norm": 3.783052444458008,
+      "learning_rate": 2.0451561567303378e-06,
+      "loss": 0.1696,
+      "step": 877
+    },
+    {
+      "epoch": 0.8144712430426716,
+      "grad_norm": 3.9778928756713867,
+      "learning_rate": 2.025571894372794e-06,
+      "loss": 0.0916,
+      "step": 878
+    },
+    {
+      "epoch": 0.8153988868274582,
+      "grad_norm": 3.2632224559783936,
+      "learning_rate": 2.0060712799926407e-06,
+      "loss": 0.1004,
+      "step": 879
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 5.624824047088623,
+      "learning_rate": 1.9866545181421016e-06,
+      "loss": 0.1826,
+      "step": 880
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_accuracy": 0.8625277161862528,
+      "eval_f1": 0.7089201877934272,
+      "eval_loss": 0.30142825841903687,
+      "eval_precision": 0.8728323699421965,
+      "eval_recall": 0.5968379446640316,
+      "eval_runtime": 47.5017,
+      "eval_samples_per_second": 5.81,
+      "eval_steps_per_second": 0.189,
+      "step": 880
+    },
+    {
+      "epoch": 0.8172541743970315,
+      "grad_norm": 5.620955944061279,
+      "learning_rate": 1.967321812493813e-06,
+      "loss": 0.159,
+      "step": 881
+    },
+    {
+      "epoch": 0.8181818181818182,
+      "grad_norm": 3.5917294025421143,
+      "learning_rate": 1.9480733658387175e-06,
+      "loss": 0.1544,
+      "step": 882
+    },
+    {
+      "epoch": 0.8191094619666048,
+      "grad_norm": 4.478516101837158,
+      "learning_rate": 1.9289093800839067e-06,
+      "loss": 0.1835,
+      "step": 883
+    },
+    {
+      "epoch": 0.8200371057513914,
+      "grad_norm": 5.72329044342041,
+      "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.181,
+      "step": 884
+    },
+    {
+      "epoch": 0.8209647495361782,
+      "grad_norm": 4.014090538024902,
+      "learning_rate": 1.8908355944716516e-06,
+      "loss": 0.123,
+      "step": 885
+    },
+    {
+      "epoch": 0.8218923933209648,
+      "grad_norm": 3.9502549171447754,
+      "learning_rate": 1.8719261939902023e-06,
+      "loss": 0.1675,
+      "step": 886
+    },
+    {
+      "epoch": 0.8228200371057514,
+      "grad_norm": 3.701931953430176,
+      "learning_rate": 1.8531020531568377e-06,
+      "loss": 0.1297,
+      "step": 887
+    },
+    {
+      "epoch": 0.8237476808905381,
+      "grad_norm": 4.026066303253174,
+      "learning_rate": 1.8343633694278895e-06,
+      "loss": 0.1366,
+      "step": 888
+    },
+    {
+      "epoch": 0.8246753246753247,
+      "grad_norm": 4.122823715209961,
+      "learning_rate": 1.8157103393632869e-06,
+      "loss": 0.1819,
+      "step": 889
+    },
+    {
+      "epoch": 0.8256029684601113,
+      "grad_norm": 4.512097358703613,
+      "learning_rate": 1.7971431586244814e-06,
+      "loss": 0.2281,
+      "step": 890
+    },
+    {
+      "epoch": 0.826530612244898,
+      "grad_norm": 3.6927201747894287,
+      "learning_rate": 1.7786620219724205e-06,
+      "loss": 0.0749,
+      "step": 891
+    },
+    {
+      "epoch": 0.8274582560296846,
+      "grad_norm": 5.3355207443237305,
+      "learning_rate": 1.7602671232654755e-06,
+      "loss": 0.1781,
+      "step": 892
+    },
+    {
+      "epoch": 0.8283858998144712,
+      "grad_norm": 3.310504674911499,
+      "learning_rate": 1.7419586554574364e-06,
+      "loss": 0.0927,
+      "step": 893
+    },
+    {
+      "epoch": 0.8293135435992579,
+      "grad_norm": 3.6718716621398926,
+      "learning_rate": 1.723736810595461e-06,
+      "loss": 0.159,
+      "step": 894
+    },
+    {
+      "epoch": 0.8302411873840445,
+      "grad_norm": 4.083915710449219,
+      "learning_rate": 1.7056017798180824e-06,
+      "loss": 0.1516,
+      "step": 895
+    },
+    {
+      "epoch": 0.8311688311688312,
+      "grad_norm": 8.39147663116455,
+      "learning_rate": 1.687553753353195e-06,
+      "loss": 0.1548,
+      "step": 896
+    },
+    {
+      "epoch": 0.8320964749536178,
+      "grad_norm": 3.83030366897583,
+      "learning_rate": 1.669592920516049e-06,
+      "loss": 0.1613,
+      "step": 897
+    },
+    {
+      "epoch": 0.8330241187384044,
+      "grad_norm": 3.559238910675049,
+      "learning_rate": 1.6517194697072903e-06,
+      "loss": 0.1193,
+      "step": 898
+    },
+    {
+      "epoch": 0.8339517625231911,
+      "grad_norm": 4.015861511230469,
+      "learning_rate": 1.633933588410952e-06,
+      "loss": 0.1383,
+      "step": 899
+    },
+    {
+      "epoch": 0.8348794063079777,
+      "grad_norm": 4.48312520980835,
+      "learning_rate": 1.6162354631925203e-06,
+      "loss": 0.1538,
+      "step": 900
+    },
+    {
+      "epoch": 0.8348794063079777,
+      "eval_accuracy": 0.8614190687361419,
+      "eval_f1": 0.7016706443914081,
+      "eval_loss": 0.3091951012611389,
+      "eval_precision": 0.8855421686746988,
+      "eval_recall": 0.5810276679841897,
+      "eval_runtime": 47.4361,
+      "eval_samples_per_second": 5.818,
+      "eval_steps_per_second": 0.19,
+      "step": 900
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.8777892777715302e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null