Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b25a1e2c53b75599076cb6d6fd1857506ef4b6ac7784425822df2ef48781558
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0ba6fb33cfa34a3a19c1c859523ba5b8ee34e4ce14cd7ee85604eeb2a478122
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:506afc9b93ebc7f63cc1b3b5708b8defde0806cf9607b26885c46ce2009d72f8
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:af5a9ded1ac1ad15369c22168c9bdc24120369b807b0236304fc238cd01770cd
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b345a56b70a32d18af648554ef1104bd9d0a34f1d1e4e1faa790b9e0e647fc5f
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:aac30f6108157475f0f5a525a5d713d9caa83e68412d6e9feee34fa1c788d678
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:338d5c145f9b668e0efb195681abd213c08975bf33dafe4116ec17bf2dbb4db5
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:39a8a076cc77e594caeb9e94a5de64b7a427c01ec5dd10b1dbe76fa77717e2cd
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb1a3f0e62cda38d84605dcd5372725de3379507ae887967f2443005c3792748
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:28d745959ce06db61825f40fb63ea63b9e62f268815aaab31b17f3705247564b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58c8c061e035966d524a8ae26d80b7b01b0719017ad2832d13f060b90a01dd3b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c5600d73cdd63622761d1592bb37fa01c39c9bcc957af85fe4bd2e4cd01fabc
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5b842bf48600db62730c2f959a7922d76f8299355557886bb65da3ef624fbb7
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:be56560930f7a89d468b530340537eec5b918174080267a8cc6186d4978acf89
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e570b00b72533f7c7d7931f91793dad7441b0b77e61a0e6d15f86d1448f0f5c1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:851b0a400aa71d9fc3d83e0e2570f4bbeaf98efc2e51c1f18c4d64aa51f39304
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e4ead7a9090a756b7fd44dcd84a0128fc3e073a0556a840016ee79c554e0b80
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:805afa176b455b67a891f7c63c255879dd3a372d6c9fa2140f3c0a2149d52710
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45746def86d7a8510cabcc16531091de91eaf8f9bdd39d725096005db8ee2a1a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:656385b8033d1cc9de4c8239cf888e2d83a5db8f95016de71e971858eab1c195
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6f6f333666bf8e00dd613a01077ed8920391e394339b3ae8687718cf5f788c2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a4775b283f1cbab74e1bfc47bfbe045632e0a9c46d8f354762f3216e862bf61
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:111993f0c7702ea7b86533de3410a44aff0126390ec01a74930984eb2b182a72
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ecbc04b6bcc44f7032a40edb9b3c06e3acf5ba0f1fb508b9a44802995aad5b9
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a104c065133d085f18edd3e5b4057dbd861eb3e31968053f10edac0d68e4236e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:88d5a351fddcb4718730dd82c69354176cd179de4c82fa6d41e0282fb5e2ab11
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.28735632183908044,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 6.352,
       "eval_steps_per_second": 0.24,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1415830310813696e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5747126436781609,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.352,
       "eval_steps_per_second": 0.24,
       "step": 100
+    },
+    {
+      "epoch": 0.29022988505747127,
+      "grad_norm": 2.5615780353546143,
+      "learning_rate": 1.7884911347740556e-05,
+      "loss": 0.3328,
+      "step": 101
+    },
+    {
+      "epoch": 0.29310344827586204,
+      "grad_norm": 2.6771366596221924,
+      "learning_rate": 1.782278280813882e-05,
+      "loss": 0.3584,
+      "step": 102
+    },
+    {
+      "epoch": 0.2959770114942529,
+      "grad_norm": 2.411428451538086,
+      "learning_rate": 1.775986619145697e-05,
+      "loss": 0.3463,
+      "step": 103
+    },
+    {
+      "epoch": 0.2988505747126437,
+      "grad_norm": 1.991093397140503,
+      "learning_rate": 1.7696167835994927e-05,
+      "loss": 0.2636,
+      "step": 104
+    },
+    {
+      "epoch": 0.3017241379310345,
+      "grad_norm": 2.979641914367676,
+      "learning_rate": 1.7631694158805945e-05,
+      "loss": 0.2833,
+      "step": 105
+    },
+    {
+      "epoch": 0.3045977011494253,
+      "grad_norm": 2.2680490016937256,
+      "learning_rate": 1.7566451655050197e-05,
+      "loss": 0.2915,
+      "step": 106
+    },
+    {
+      "epoch": 0.3074712643678161,
+      "grad_norm": 2.6766483783721924,
+      "learning_rate": 1.7500446897340408e-05,
+      "loss": 0.3172,
+      "step": 107
+    },
+    {
+      "epoch": 0.3103448275862069,
+      "grad_norm": 2.766521692276001,
+      "learning_rate": 1.7433686535079736e-05,
+      "loss": 0.3347,
+      "step": 108
+    },
+    {
+      "epoch": 0.3132183908045977,
+      "grad_norm": 2.0438175201416016,
+      "learning_rate": 1.736617729379191e-05,
+      "loss": 0.3315,
+      "step": 109
+    },
+    {
+      "epoch": 0.3160919540229885,
+      "grad_norm": 2.5706722736358643,
+      "learning_rate": 1.7297925974443675e-05,
+      "loss": 0.2903,
+      "step": 110
+    },
+    {
+      "epoch": 0.31896551724137934,
+      "grad_norm": 6.830801010131836,
+      "learning_rate": 1.7228939452759666e-05,
+      "loss": 0.372,
+      "step": 111
+    },
+    {
+      "epoch": 0.3218390804597701,
+      "grad_norm": 2.375408411026001,
+      "learning_rate": 1.7159224678529734e-05,
+      "loss": 0.2875,
+      "step": 112
+    },
+    {
+      "epoch": 0.32471264367816094,
+      "grad_norm": 2.542205572128296,
+      "learning_rate": 1.7088788674908817e-05,
+      "loss": 0.3327,
+      "step": 113
+    },
+    {
+      "epoch": 0.3275862068965517,
+      "grad_norm": 2.645517587661743,
+      "learning_rate": 1.7017638537709426e-05,
+      "loss": 0.3225,
+      "step": 114
+    },
+    {
+      "epoch": 0.33045977011494254,
+      "grad_norm": 3.9527246952056885,
+      "learning_rate": 1.6945781434686783e-05,
+      "loss": 0.3683,
+      "step": 115
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 3.478126049041748,
+      "learning_rate": 1.6873224604816753e-05,
+      "loss": 0.3448,
+      "step": 116
+    },
+    {
+      "epoch": 0.33620689655172414,
+      "grad_norm": 4.451388359069824,
+      "learning_rate": 1.679997535756657e-05,
+      "loss": 0.2846,
+      "step": 117
+    },
+    {
+      "epoch": 0.3390804597701149,
+      "grad_norm": 2.1524624824523926,
+      "learning_rate": 1.672604107215848e-05,
+      "loss": 0.273,
+      "step": 118
+    },
+    {
+      "epoch": 0.34195402298850575,
+      "grad_norm": 2.950127601623535,
+      "learning_rate": 1.6651429196826337e-05,
+      "loss": 0.3886,
+      "step": 119
+    },
+    {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 3.5067648887634277,
+      "learning_rate": 1.6576147248065268e-05,
+      "loss": 0.3822,
+      "step": 120
+    },
+    {
+      "epoch": 0.3448275862068966,
+      "eval_accuracy": 0.8514851485148515,
+      "eval_f1": 0.7297297297297297,
+      "eval_loss": 0.35510221123695374,
+      "eval_precision": 0.6982758620689655,
+      "eval_recall": 0.7641509433962265,
+      "eval_runtime": 16.7999,
+      "eval_samples_per_second": 6.31,
+      "eval_steps_per_second": 0.238,
+      "step": 120
+    },
+    {
+      "epoch": 0.34770114942528735,
+      "grad_norm": 4.016488552093506,
+      "learning_rate": 1.6500202809874446e-05,
+      "loss": 0.3354,
+      "step": 121
+    },
+    {
+      "epoch": 0.3505747126436782,
+      "grad_norm": 2.8852052688598633,
+      "learning_rate": 1.6423603532993074e-05,
+      "loss": 0.3143,
+      "step": 122
+    },
+    {
+      "epoch": 0.35344827586206895,
+      "grad_norm": 3.2638821601867676,
+      "learning_rate": 1.634635713412964e-05,
+      "loss": 0.3273,
+      "step": 123
+    },
+    {
+      "epoch": 0.3563218390804598,
+      "grad_norm": 2.6508638858795166,
+      "learning_rate": 1.626847139518452e-05,
+      "loss": 0.3539,
+      "step": 124
+    },
+    {
+      "epoch": 0.35919540229885055,
+      "grad_norm": 3.1945559978485107,
+      "learning_rate": 1.618995416246601e-05,
+      "loss": 0.3577,
+      "step": 125
+    },
+    {
+      "epoch": 0.3620689655172414,
+      "grad_norm": 3.6181535720825195,
+      "learning_rate": 1.6110813345899914e-05,
+      "loss": 0.3194,
+      "step": 126
+    },
+    {
+      "epoch": 0.3649425287356322,
+      "grad_norm": 3.1202199459075928,
+      "learning_rate": 1.6031056918232642e-05,
+      "loss": 0.3014,
+      "step": 127
+    },
+    {
+      "epoch": 0.367816091954023,
+      "grad_norm": 3.069596529006958,
+      "learning_rate": 1.595069291422807e-05,
+      "loss": 0.2934,
+      "step": 128
+    },
+    {
+      "epoch": 0.3706896551724138,
+      "grad_norm": 2.2219157218933105,
+      "learning_rate": 1.586972942985807e-05,
+      "loss": 0.2801,
+      "step": 129
+    },
+    {
+      "epoch": 0.3735632183908046,
+      "grad_norm": 2.305501699447632,
+      "learning_rate": 1.5788174621486936e-05,
+      "loss": 0.2895,
+      "step": 130
+    },
+    {
+      "epoch": 0.3764367816091954,
+      "grad_norm": 2.0006630420684814,
+      "learning_rate": 1.570603670504969e-05,
+      "loss": 0.2614,
+      "step": 131
+    },
+    {
+      "epoch": 0.3793103448275862,
+      "grad_norm": 2.4915575981140137,
+      "learning_rate": 1.5623323955224404e-05,
+      "loss": 0.3215,
+      "step": 132
+    },
+    {
+      "epoch": 0.382183908045977,
+      "grad_norm": 2.3519020080566406,
+      "learning_rate": 1.5540044704598588e-05,
+      "loss": 0.291,
+      "step": 133
+    },
+    {
+      "epoch": 0.3850574712643678,
+      "grad_norm": 2.4606783390045166,
+      "learning_rate": 1.5456207342829777e-05,
+      "loss": 0.3641,
+      "step": 134
+    },
+    {
+      "epoch": 0.3879310344827586,
+      "grad_norm": 2.4096121788024902,
+      "learning_rate": 1.5371820315800316e-05,
+      "loss": 0.3071,
+      "step": 135
+    },
+    {
+      "epoch": 0.39080459770114945,
+      "grad_norm": 2.9145760536193848,
+      "learning_rate": 1.5286892124766546e-05,
+      "loss": 0.2811,
+      "step": 136
+    },
+    {
+      "epoch": 0.3936781609195402,
+      "grad_norm": 1.954529881477356,
+      "learning_rate": 1.5201431325502332e-05,
+      "loss": 0.3137,
+      "step": 137
+    },
+    {
+      "epoch": 0.39655172413793105,
+      "grad_norm": 3.2401654720306396,
+      "learning_rate": 1.5115446527437193e-05,
+      "loss": 0.3052,
+      "step": 138
+    },
+    {
+      "epoch": 0.3994252873563218,
+      "grad_norm": 1.9580965042114258,
+      "learning_rate": 1.5028946392788934e-05,
+      "loss": 0.2898,
+      "step": 139
+    },
+    {
+      "epoch": 0.40229885057471265,
+      "grad_norm": 3.239868640899658,
+      "learning_rate": 1.4941939635691036e-05,
+      "loss": 0.3955,
+      "step": 140
+    },
+    {
+      "epoch": 0.40229885057471265,
+      "eval_accuracy": 0.8589108910891089,
+      "eval_f1": 0.7135678391959799,
+      "eval_loss": 0.34418779611587524,
+      "eval_precision": 0.7634408602150538,
+      "eval_recall": 0.6698113207547169,
+      "eval_runtime": 16.4081,
+      "eval_samples_per_second": 6.46,
+      "eval_steps_per_second": 0.244,
+      "step": 140
+    },
+    {
+      "epoch": 0.4051724137931034,
+      "grad_norm": 4.790642738342285,
+      "learning_rate": 1.4854435021314766e-05,
+      "loss": 0.3939,
+      "step": 141
+    },
+    {
+      "epoch": 0.40804597701149425,
+      "grad_norm": 1.9184012413024902,
+      "learning_rate": 1.4766441364986162e-05,
+      "loss": 0.2496,
+      "step": 142
+    },
+    {
+      "epoch": 0.4109195402298851,
+      "grad_norm": 3.910475969314575,
+      "learning_rate": 1.467796753129797e-05,
+      "loss": 0.3206,
+      "step": 143
+    },
+    {
+      "epoch": 0.41379310344827586,
+      "grad_norm": 5.272514820098877,
+      "learning_rate": 1.4589022433216616e-05,
+      "loss": 0.3299,
+      "step": 144
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 4.5233941078186035,
+      "learning_rate": 1.4499615031184297e-05,
+      "loss": 0.3089,
+      "step": 145
+    },
+    {
+      "epoch": 0.41954022988505746,
+      "grad_norm": 3.6632847785949707,
+      "learning_rate": 1.4409754332216303e-05,
+      "loss": 0.3436,
+      "step": 146
+    },
+    {
+      "epoch": 0.4224137931034483,
+      "grad_norm": 2.548621892929077,
+      "learning_rate": 1.431944938899363e-05,
+      "loss": 0.3434,
+      "step": 147
+    },
+    {
+      "epoch": 0.42528735632183906,
+      "grad_norm": 2.903876304626465,
+      "learning_rate": 1.4228709298950998e-05,
+      "loss": 0.2672,
+      "step": 148
+    },
+    {
+      "epoch": 0.4281609195402299,
+      "grad_norm": 4.375998020172119,
+      "learning_rate": 1.4137543203360382e-05,
+      "loss": 0.2741,
+      "step": 149
+    },
+    {
+      "epoch": 0.43103448275862066,
+      "grad_norm": 4.29938268661499,
+      "learning_rate": 1.4045960286410093e-05,
+      "loss": 0.3264,
+      "step": 150
+    },
+    {
+      "epoch": 0.4339080459770115,
+      "grad_norm": 2.3729660511016846,
+      "learning_rate": 1.395396977427955e-05,
+      "loss": 0.3135,
+      "step": 151
+    },
+    {
+      "epoch": 0.4367816091954023,
+      "grad_norm": 4.978923797607422,
+      "learning_rate": 1.3861580934209832e-05,
+      "loss": 0.3174,
+      "step": 152
+    },
+    {
+      "epoch": 0.4396551724137931,
+      "grad_norm": 2.483069658279419,
+      "learning_rate": 1.376880307357009e-05,
+      "loss": 0.2683,
+      "step": 153
+    },
+    {
+      "epoch": 0.4425287356321839,
+      "grad_norm": 2.2193140983581543,
+      "learning_rate": 1.3675645538919884e-05,
+      "loss": 0.257,
+      "step": 154
+    },
+    {
+      "epoch": 0.4454022988505747,
+      "grad_norm": 2.5293915271759033,
+      "learning_rate": 1.3582117715067628e-05,
+      "loss": 0.3204,
+      "step": 155
+    },
+    {
+      "epoch": 0.4482758620689655,
+      "grad_norm": 5.482168674468994,
+      "learning_rate": 1.3488229024125142e-05,
+      "loss": 0.3334,
+      "step": 156
+    },
+    {
+      "epoch": 0.4511494252873563,
+      "grad_norm": 3.027650833129883,
+      "learning_rate": 1.3393988924558445e-05,
+      "loss": 0.2637,
+      "step": 157
+    },
+    {
+      "epoch": 0.4540229885057471,
+      "grad_norm": 5.8336262702941895,
+      "learning_rate": 1.3299406910234917e-05,
+      "loss": 0.3285,
+      "step": 158
+    },
+    {
+      "epoch": 0.45689655172413796,
+      "grad_norm": 3.0736873149871826,
+      "learning_rate": 1.3204492509466862e-05,
+      "loss": 0.3032,
+      "step": 159
+    },
+    {
+      "epoch": 0.45977011494252873,
+      "grad_norm": 4.618353366851807,
+      "learning_rate": 1.3109255284051615e-05,
+      "loss": 0.34,
+      "step": 160
+    },
+    {
+      "epoch": 0.45977011494252873,
+      "eval_accuracy": 0.8613861386138614,
+      "eval_f1": 0.7431192660550459,
+      "eval_loss": 0.3399461805820465,
+      "eval_precision": 0.7232142857142857,
+      "eval_recall": 0.7641509433962265,
+      "eval_runtime": 16.589,
+      "eval_samples_per_second": 6.39,
+      "eval_steps_per_second": 0.241,
+      "step": 160
+    },
+    {
+      "epoch": 0.46264367816091956,
+      "grad_norm": 1.9849704504013062,
+      "learning_rate": 1.3013704828308276e-05,
+      "loss": 0.2715,
+      "step": 161
+    },
+    {
+      "epoch": 0.46551724137931033,
+      "grad_norm": 3.116058111190796,
+      "learning_rate": 1.2917850768111171e-05,
+      "loss": 0.3093,
+      "step": 162
+    },
+    {
+      "epoch": 0.46839080459770116,
+      "grad_norm": 3.0582470893859863,
+      "learning_rate": 1.282170275992012e-05,
+      "loss": 0.3502,
+      "step": 163
+    },
+    {
+      "epoch": 0.47126436781609193,
+      "grad_norm": 5.603944301605225,
+      "learning_rate": 1.2725270489807637e-05,
+      "loss": 0.3453,
+      "step": 164
+    },
+    {
+      "epoch": 0.47413793103448276,
+      "grad_norm": 3.758445978164673,
+      "learning_rate": 1.2628563672483147e-05,
+      "loss": 0.3542,
+      "step": 165
+    },
+    {
+      "epoch": 0.47701149425287354,
+      "grad_norm": 2.5959854125976562,
+      "learning_rate": 1.2531592050314308e-05,
+      "loss": 0.3346,
+      "step": 166
+    },
+    {
+      "epoch": 0.47988505747126436,
+      "grad_norm": 2.4197230339050293,
+      "learning_rate": 1.2434365392345553e-05,
+      "loss": 0.2817,
+      "step": 167
+    },
+    {
+      "epoch": 0.4827586206896552,
+      "grad_norm": 2.748478412628174,
+      "learning_rate": 1.2336893493313946e-05,
+      "loss": 0.3511,
+      "step": 168
+    },
+    {
+      "epoch": 0.48563218390804597,
+      "grad_norm": 3.117748975753784,
+      "learning_rate": 1.223918617266245e-05,
+      "loss": 0.3724,
+      "step": 169
+    },
+    {
+      "epoch": 0.4885057471264368,
+      "grad_norm": 2.6176235675811768,
+      "learning_rate": 1.2141253273550698e-05,
+      "loss": 0.3454,
+      "step": 170
+    },
+    {
+      "epoch": 0.49137931034482757,
+      "grad_norm": 2.648324966430664,
+      "learning_rate": 1.2043104661863386e-05,
+      "loss": 0.2713,
+      "step": 171
+    },
+    {
+      "epoch": 0.4942528735632184,
+      "grad_norm": 2.6428864002227783,
+      "learning_rate": 1.1944750225216363e-05,
+      "loss": 0.2618,
+      "step": 172
+    },
+    {
+      "epoch": 0.49712643678160917,
+      "grad_norm": 2.6188530921936035,
+      "learning_rate": 1.1846199871960557e-05,
+      "loss": 0.3443,
+      "step": 173
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.8425047397613525,
+      "learning_rate": 1.1747463530183781e-05,
+      "loss": 0.3323,
+      "step": 174
+    },
+    {
+      "epoch": 0.5028735632183908,
+      "grad_norm": 3.0745861530303955,
+      "learning_rate": 1.1648551146710557e-05,
+      "loss": 0.2854,
+      "step": 175
+    },
+    {
+      "epoch": 0.5057471264367817,
+      "grad_norm": 3.5819411277770996,
+      "learning_rate": 1.1549472686100079e-05,
+      "loss": 0.3851,
+      "step": 176
+    },
+    {
+      "epoch": 0.5086206896551724,
+      "grad_norm": 2.7981903553009033,
+      "learning_rate": 1.145023812964237e-05,
+      "loss": 0.288,
+      "step": 177
+    },
+    {
+      "epoch": 0.5114942528735632,
+      "grad_norm": 2.600273847579956,
+      "learning_rate": 1.1350857474352734e-05,
+      "loss": 0.2982,
+      "step": 178
+    },
+    {
+      "epoch": 0.514367816091954,
+      "grad_norm": 2.207815170288086,
+      "learning_rate": 1.1251340731964664e-05,
+      "loss": 0.2697,
+      "step": 179
+    },
+    {
+      "epoch": 0.5172413793103449,
+      "grad_norm": 3.180569887161255,
+      "learning_rate": 1.1151697927921242e-05,
+      "loss": 0.2897,
+      "step": 180
+    },
+    {
+      "epoch": 0.5172413793103449,
+      "eval_accuracy": 0.8613861386138614,
+      "eval_f1": 0.7333333333333333,
+      "eval_loss": 0.3244224786758423,
+      "eval_precision": 0.7403846153846154,
+      "eval_recall": 0.7264150943396226,
+      "eval_runtime": 16.4883,
+      "eval_samples_per_second": 6.429,
+      "eval_steps_per_second": 0.243,
+      "step": 180
+    },
+    {
+      "epoch": 0.5201149425287356,
+      "grad_norm": 4.220306396484375,
+      "learning_rate": 1.1051939100365154e-05,
+      "loss": 0.254,
+      "step": 181
+    },
+    {
+      "epoch": 0.5229885057471264,
+      "grad_norm": 2.567113161087036,
+      "learning_rate": 1.0952074299127451e-05,
+      "loss": 0.2826,
+      "step": 182
+    },
+    {
+      "epoch": 0.5258620689655172,
+      "grad_norm": 2.881145715713501,
+      "learning_rate": 1.0852113584715103e-05,
+      "loss": 0.2882,
+      "step": 183
+    },
+    {
+      "epoch": 0.5287356321839081,
+      "grad_norm": 2.523293972015381,
+      "learning_rate": 1.0752067027297486e-05,
+      "loss": 0.3224,
+      "step": 184
+    },
+    {
+      "epoch": 0.5316091954022989,
+      "grad_norm": 3.2287135124206543,
+      "learning_rate": 1.065194470569193e-05,
+      "loss": 0.3054,
+      "step": 185
+    },
+    {
+      "epoch": 0.5344827586206896,
+      "grad_norm": 2.670992851257324,
+      "learning_rate": 1.0551756706348331e-05,
+      "loss": 0.3404,
+      "step": 186
+    },
+    {
+      "epoch": 0.5373563218390804,
+      "grad_norm": 2.8072383403778076,
+      "learning_rate": 1.0451513122333042e-05,
+      "loss": 0.3289,
+      "step": 187
+    },
+    {
+      "epoch": 0.5402298850574713,
+      "grad_norm": 2.7612991333007812,
+      "learning_rate": 1.035122405231209e-05,
+      "loss": 0.2705,
+      "step": 188
+    },
+    {
+      "epoch": 0.5431034482758621,
+      "grad_norm": 3.2553176879882812,
+      "learning_rate": 1.0250899599533833e-05,
+      "loss": 0.3088,
+      "step": 189
+    },
+    {
+      "epoch": 0.5459770114942529,
+      "grad_norm": 3.1975409984588623,
+      "learning_rate": 1.0150549870811108e-05,
+      "loss": 0.4086,
+      "step": 190
+    },
+    {
+      "epoch": 0.5488505747126436,
+      "grad_norm": 3.0886051654815674,
+      "learning_rate": 1.0050184975503104e-05,
+      "loss": 0.3177,
+      "step": 191
+    },
+    {
+      "epoch": 0.5517241379310345,
+      "grad_norm": 4.40545654296875,
+      "learning_rate": 9.949815024496901e-06,
+      "loss": 0.346,
+      "step": 192
+    },
+    {
+      "epoch": 0.5545977011494253,
+      "grad_norm": 4.658652305603027,
+      "learning_rate": 9.849450129188895e-06,
+      "loss": 0.2821,
+      "step": 193
+    },
+    {
+      "epoch": 0.5574712643678161,
+      "grad_norm": 7.797382831573486,
+      "learning_rate": 9.74910040046617e-06,
+      "loss": 0.3194,
+      "step": 194
+    },
+    {
+      "epoch": 0.5603448275862069,
+      "grad_norm": 3.3024234771728516,
+      "learning_rate": 9.648775947687914e-06,
+      "loss": 0.2912,
+      "step": 195
+    },
+    {
+      "epoch": 0.5632183908045977,
+      "grad_norm": 2.7685601711273193,
+      "learning_rate": 9.548486877666963e-06,
+      "loss": 0.3019,
+      "step": 196
+    },
+    {
+      "epoch": 0.5660919540229885,
+      "grad_norm": 3.0222320556640625,
+      "learning_rate": 9.448243293651676e-06,
+      "loss": 0.2963,
+      "step": 197
+    },
+    {
+      "epoch": 0.5689655172413793,
+      "grad_norm": 3.1808133125305176,
+      "learning_rate": 9.348055294308074e-06,
+      "loss": 0.3107,
+      "step": 198
+    },
+    {
+      "epoch": 0.5718390804597702,
+      "grad_norm": 2.3709192276000977,
+      "learning_rate": 9.247932972702514e-06,
+      "loss": 0.294,
+      "step": 199
+    },
+    {
+      "epoch": 0.5747126436781609,
+      "grad_norm": 2.9564688205718994,
+      "learning_rate": 9.147886415284903e-06,
+      "loss": 0.2599,
+      "step": 200
+    },
+    {
+      "epoch": 0.5747126436781609,
+      "eval_accuracy": 0.8638613861386139,
+      "eval_f1": 0.7417840375586855,
+      "eval_loss": 0.32250022888183594,
+      "eval_precision": 0.7383177570093458,
+      "eval_recall": 0.7452830188679245,
+      "eval_runtime": 16.3331,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.245,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.331748017661542e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null