Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:852d0491768962159e9cf88b44bad53b90c67ec56b3259dda59b35fa4d58340b
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:534c42076a246c6da5a00ffd44149115e4d50f42ee2ee4186468f5798dbb1ccf
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c42bd6b8cea8979480d0fb89a5cd66a1d2c8532be449c1f70e8fb2bcc6293c
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:a663829a3b941a4048ffcc2de6e0512c94c579c7a489c3e009cf30a2a53e694d
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d33cdd9773d6b5b9f63cec9c92b40470a60e53c9c721f450e0aeee7038e84ef
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:edb36318fb7a6485a66f873289f77615fb974210ae47a75c352e9d4d2d4426d8
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6db6d22295dde123b105030b1c1e0d2fa0bc92137a932c162902793e53ba67a6
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6802368c5f12cbf6130a30d93da9380768ce9f37bbb6bd21b02b9e602182fbcd
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2375b2f858b1e0569c01e57396909efec2e70bc24162d03ac637df0a853425a1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7a755e47d66d671add11d66f6099b1dd83a6c13121c2ef15fdfdde9a3177177
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32a951bd3b1e27cebdc97a8729f9df801c8f7375c9e159eec8725cf095c441d2
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb3edd1ccbdea3e3f2d56cd3a4646f38afe7ca93815da1414f65fe03b9b673a2
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ceea8c55c71ce41ecc992f85dee4a157c40d57e6bca33a39317b2210eacb7b16
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4599060b53a4939dd8f840249e269e7830878980b2cf9fafb1b39f1203aaa960
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0d21c76cb9b2dd01a5910d2e1f299fad7351e387c000db9a72c79bc799508d6
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e02bfd751b50b769ac97d99b9a8385f2091de1188f94cbd07e5f93afeae257da
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1354281929c4028b95bc5eef091554bd272c91e14f2a311bf59109a32cca99a8
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:51118da612b8171b6675abc2602bed7ce97edefe29a8f466ea28ed45a226a206
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5afb4b23b654c95d4606f9532d2a8fae8e22c559b0e7e486e0c9a27958ebdf91
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:62710a98a3c7bb382ced086930b4b07cc7dc4c19e47a9f58b3464ec46167033a
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff392158ebdefac397be55eca50280a7d914d9a89e3c6e5725a4b1017bc95158
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e4c5366934a63a65595c9de33e3c7b09bdf1751d64db6f76892cbdd781442b1
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a44bc7efc80a256bee5010496ff76cf7a2ae3338c63a27d285d369f5ad63f54
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:f747b50387c790da0638d4436a970217188c80f6b7d2d6cc099b8ddf28c5197c
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02a4a397f4545a6634eb1d91b5d81363c9e5f9c9127f994c54b1dbbb2266f2b3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81a95c7d38a4c117734641266299d17605df7b45470c7b744f36bacf620813f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0847457627118644,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 5.861,
       "eval_steps_per_second": 0.201,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0886959446491136e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1694915254237288,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.861,
       "eval_steps_per_second": 0.201,
       "step": 100
+    },
+    {
+      "epoch": 0.08559322033898305,
+      "grad_norm": 3.773057222366333,
+      "learning_rate": 1.711864406779661e-05,
+      "loss": 0.1186,
+      "step": 101
+    },
+    {
+      "epoch": 0.08644067796610169,
+      "grad_norm": 1.8200677633285522,
+      "learning_rate": 1.728813559322034e-05,
+      "loss": 0.0917,
+      "step": 102
+    },
+    {
+      "epoch": 0.08728813559322034,
+      "grad_norm": 5.035698890686035,
+      "learning_rate": 1.745762711864407e-05,
+      "loss": 0.1199,
+      "step": 103
+    },
+    {
+      "epoch": 0.08813559322033898,
+      "grad_norm": 4.666184425354004,
+      "learning_rate": 1.76271186440678e-05,
+      "loss": 0.1286,
+      "step": 104
+    },
+    {
+      "epoch": 0.08898305084745763,
+      "grad_norm": 2.4662208557128906,
+      "learning_rate": 1.7796610169491526e-05,
+      "loss": 0.0845,
+      "step": 105
+    },
+    {
+      "epoch": 0.08983050847457627,
+      "grad_norm": 2.8939261436462402,
+      "learning_rate": 1.7966101694915256e-05,
+      "loss": 0.0989,
+      "step": 106
+    },
+    {
+      "epoch": 0.09067796610169492,
+      "grad_norm": 4.854353904724121,
+      "learning_rate": 1.8135593220338986e-05,
+      "loss": 0.1092,
+      "step": 107
+    },
+    {
+      "epoch": 0.09152542372881356,
+      "grad_norm": 3.3702521324157715,
+      "learning_rate": 1.8305084745762713e-05,
+      "loss": 0.1564,
+      "step": 108
+    },
+    {
+      "epoch": 0.0923728813559322,
+      "grad_norm": 4.387780666351318,
+      "learning_rate": 1.8474576271186443e-05,
+      "loss": 0.1399,
+      "step": 109
+    },
+    {
+      "epoch": 0.09322033898305085,
+      "grad_norm": 4.5151495933532715,
+      "learning_rate": 1.864406779661017e-05,
+      "loss": 0.0979,
+      "step": 110
+    },
+    {
+      "epoch": 0.0940677966101695,
+      "grad_norm": 3.65556001663208,
+      "learning_rate": 1.88135593220339e-05,
+      "loss": 0.1338,
+      "step": 111
+    },
+    {
+      "epoch": 0.09491525423728814,
+      "grad_norm": 2.1862547397613525,
+      "learning_rate": 1.898305084745763e-05,
+      "loss": 0.0791,
+      "step": 112
+    },
+    {
+      "epoch": 0.09576271186440678,
+      "grad_norm": 5.004955291748047,
+      "learning_rate": 1.9152542372881357e-05,
+      "loss": 0.0972,
+      "step": 113
+    },
+    {
+      "epoch": 0.09661016949152543,
+      "grad_norm": 3.057615041732788,
+      "learning_rate": 1.9322033898305087e-05,
+      "loss": 0.0611,
+      "step": 114
+    },
+    {
+      "epoch": 0.09745762711864407,
+      "grad_norm": 5.858815670013428,
+      "learning_rate": 1.9491525423728814e-05,
+      "loss": 0.1005,
+      "step": 115
+    },
+    {
+      "epoch": 0.09830508474576272,
+      "grad_norm": 3.9090657234191895,
+      "learning_rate": 1.9661016949152545e-05,
+      "loss": 0.1294,
+      "step": 116
+    },
+    {
+      "epoch": 0.09915254237288136,
+      "grad_norm": 2.838143825531006,
+      "learning_rate": 1.9830508474576275e-05,
+      "loss": 0.089,
+      "step": 117
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 6.167634963989258,
+      "learning_rate": 2e-05,
+      "loss": 0.1497,
+      "step": 118
+    },
+    {
+      "epoch": 0.10084745762711865,
+      "grad_norm": 2.7352752685546875,
+      "learning_rate": 1.9999956245734325e-05,
+      "loss": 0.0708,
+      "step": 119
+    },
+    {
+      "epoch": 0.1016949152542373,
+      "grad_norm": 5.203207969665527,
+      "learning_rate": 1.9999824983320176e-05,
+      "loss": 0.0971,
+      "step": 120
+    },
+    {
+      "epoch": 0.1016949152542373,
+      "eval_accuracy": 0.9914893617021276,
+      "eval_f1": 0.9846938775510204,
+      "eval_loss": 0.04216673597693443,
+      "eval_precision": 0.9747474747474747,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 50.369,
+      "eval_samples_per_second": 5.797,
+      "eval_steps_per_second": 0.199,
+      "step": 120
+    },
+    {
+      "epoch": 0.10254237288135593,
+      "grad_norm": 3.716186046600342,
+      "learning_rate": 1.999960621390622e-05,
+      "loss": 0.0875,
+      "step": 121
+    },
+    {
+      "epoch": 0.10338983050847457,
+      "grad_norm": 3.5088372230529785,
+      "learning_rate": 1.9999299939406875e-05,
+      "loss": 0.0642,
+      "step": 122
+    },
+    {
+      "epoch": 0.10423728813559321,
+      "grad_norm": 3.1328420639038086,
+      "learning_rate": 1.9998906162502298e-05,
+      "loss": 0.0559,
+      "step": 123
+    },
+    {
+      "epoch": 0.10508474576271186,
+      "grad_norm": 1.2235671281814575,
+      "learning_rate": 1.9998424886638382e-05,
+      "loss": 0.0267,
+      "step": 124
+    },
+    {
+      "epoch": 0.1059322033898305,
+      "grad_norm": 2.749112129211426,
+      "learning_rate": 1.9997856116026692e-05,
+      "loss": 0.0547,
+      "step": 125
+    },
+    {
+      "epoch": 0.10677966101694915,
+      "grad_norm": 1.985463261604309,
+      "learning_rate": 1.999719985564446e-05,
+      "loss": 0.0422,
+      "step": 126
+    },
+    {
+      "epoch": 0.10762711864406779,
+      "grad_norm": 1.806302785873413,
+      "learning_rate": 1.999645611123453e-05,
+      "loss": 0.0311,
+      "step": 127
+    },
+    {
+      "epoch": 0.10847457627118644,
+      "grad_norm": 1.514439582824707,
+      "learning_rate": 1.9995624889305286e-05,
+      "loss": 0.0303,
+      "step": 128
+    },
+    {
+      "epoch": 0.10932203389830508,
+      "grad_norm": 4.151468276977539,
+      "learning_rate": 1.9994706197130645e-05,
+      "loss": 0.0615,
+      "step": 129
+    },
+    {
+      "epoch": 0.11016949152542373,
+      "grad_norm": 4.021677494049072,
+      "learning_rate": 1.9993700042749937e-05,
+      "loss": 0.0374,
+      "step": 130
+    },
+    {
+      "epoch": 0.11101694915254237,
+      "grad_norm": 4.167133331298828,
+      "learning_rate": 1.9992606434967877e-05,
+      "loss": 0.0969,
+      "step": 131
+    },
+    {
+      "epoch": 0.11186440677966102,
+      "grad_norm": 2.3483352661132812,
+      "learning_rate": 1.9991425383354462e-05,
+      "loss": 0.0587,
+      "step": 132
+    },
+    {
+      "epoch": 0.11271186440677966,
+      "grad_norm": 3.196880340576172,
+      "learning_rate": 1.99901568982449e-05,
+      "loss": 0.0665,
+      "step": 133
+    },
+    {
+      "epoch": 0.1135593220338983,
+      "grad_norm": 1.4003562927246094,
+      "learning_rate": 1.998880099073952e-05,
+      "loss": 0.0287,
+      "step": 134
+    },
+    {
+      "epoch": 0.11440677966101695,
+      "grad_norm": 6.164405822753906,
+      "learning_rate": 1.9987357672703674e-05,
+      "loss": 0.0557,
+      "step": 135
+    },
+    {
+      "epoch": 0.1152542372881356,
+      "grad_norm": 4.226889133453369,
+      "learning_rate": 1.998582695676762e-05,
+      "loss": 0.0575,
+      "step": 136
+    },
+    {
+      "epoch": 0.11610169491525424,
+      "grad_norm": 3.4632186889648438,
+      "learning_rate": 1.9984208856326433e-05,
+      "loss": 0.0405,
+      "step": 137
+    },
+    {
+      "epoch": 0.11694915254237288,
+      "grad_norm": 1.7408661842346191,
+      "learning_rate": 1.9982503385539865e-05,
+      "loss": 0.0208,
+      "step": 138
+    },
+    {
+      "epoch": 0.11779661016949153,
+      "grad_norm": 4.273019790649414,
+      "learning_rate": 1.9980710559332248e-05,
+      "loss": 0.0439,
+      "step": 139
+    },
+    {
+      "epoch": 0.11864406779661017,
+      "grad_norm": 2.678131341934204,
+      "learning_rate": 1.9978830393392338e-05,
+      "loss": 0.0478,
+      "step": 140
+    },
+    {
+      "epoch": 0.11864406779661017,
+      "eval_accuracy": 0.9985815602836879,
+      "eval_f1": 0.9974160206718347,
+      "eval_loss": 0.0119753647595644,
+      "eval_precision": 1.0,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 49.8796,
+      "eval_samples_per_second": 5.854,
+      "eval_steps_per_second": 0.2,
+      "step": 140
+    },
+    {
+      "epoch": 0.11949152542372882,
+      "grad_norm": 3.534904718399048,
+      "learning_rate": 1.997686290417319e-05,
+      "loss": 0.0676,
+      "step": 141
+    },
+    {
+      "epoch": 0.12033898305084746,
+      "grad_norm": 2.0324580669403076,
+      "learning_rate": 1.9974808108892017e-05,
+      "loss": 0.0522,
+      "step": 142
+    },
+    {
+      "epoch": 0.1211864406779661,
+      "grad_norm": 1.198857069015503,
+      "learning_rate": 1.9972666025530027e-05,
+      "loss": 0.0296,
+      "step": 143
+    },
+    {
+      "epoch": 0.12203389830508475,
+      "grad_norm": 3.2384731769561768,
+      "learning_rate": 1.9970436672832276e-05,
+      "loss": 0.0295,
+      "step": 144
+    },
+    {
+      "epoch": 0.1228813559322034,
+      "grad_norm": 2.0026895999908447,
+      "learning_rate": 1.9968120070307503e-05,
+      "loss": 0.0426,
+      "step": 145
+    },
+    {
+      "epoch": 0.12372881355932204,
+      "grad_norm": 0.9530765414237976,
+      "learning_rate": 1.996571623822796e-05,
+      "loss": 0.0192,
+      "step": 146
+    },
+    {
+      "epoch": 0.12457627118644068,
+      "grad_norm": 4.019771575927734,
+      "learning_rate": 1.9963225197629223e-05,
+      "loss": 0.0693,
+      "step": 147
+    },
+    {
+      "epoch": 0.12542372881355932,
+      "grad_norm": 2.6940274238586426,
+      "learning_rate": 1.9960646970310027e-05,
+      "loss": 0.032,
+      "step": 148
+    },
+    {
+      "epoch": 0.12627118644067797,
+      "grad_norm": 1.5307412147521973,
+      "learning_rate": 1.995798157883206e-05,
+      "loss": 0.0238,
+      "step": 149
+    },
+    {
+      "epoch": 0.1271186440677966,
+      "grad_norm": 2.437249183654785,
+      "learning_rate": 1.995522904651977e-05,
+      "loss": 0.0348,
+      "step": 150
+    },
+    {
+      "epoch": 0.12796610169491526,
+      "grad_norm": 1.985588550567627,
+      "learning_rate": 1.995238939746016e-05,
+      "loss": 0.0441,
+      "step": 151
+    },
+    {
+      "epoch": 0.1288135593220339,
+      "grad_norm": 1.3132153749465942,
+      "learning_rate": 1.9949462656502588e-05,
+      "loss": 0.0146,
+      "step": 152
+    },
+    {
+      "epoch": 0.12966101694915255,
+      "grad_norm": 2.7921226024627686,
+      "learning_rate": 1.994644884925853e-05,
+      "loss": 0.0445,
+      "step": 153
+    },
+    {
+      "epoch": 0.13050847457627118,
+      "grad_norm": 4.007246017456055,
+      "learning_rate": 1.9943348002101374e-05,
+      "loss": 0.0593,
+      "step": 154
+    },
+    {
+      "epoch": 0.13135593220338984,
+      "grad_norm": 5.683608531951904,
+      "learning_rate": 1.9940160142166172e-05,
+      "loss": 0.0705,
+      "step": 155
+    },
+    {
+      "epoch": 0.13220338983050847,
+      "grad_norm": 3.090878963470459,
+      "learning_rate": 1.9936885297349426e-05,
+      "loss": 0.0516,
+      "step": 156
+    },
+    {
+      "epoch": 0.13305084745762713,
+      "grad_norm": 1.8990111351013184,
+      "learning_rate": 1.993352349630882e-05,
+      "loss": 0.0218,
+      "step": 157
+    },
+    {
+      "epoch": 0.13389830508474576,
+      "grad_norm": 2.009877920150757,
+      "learning_rate": 1.9930074768462974e-05,
+      "loss": 0.0294,
+      "step": 158
+    },
+    {
+      "epoch": 0.13474576271186442,
+      "grad_norm": 5.6568193435668945,
+      "learning_rate": 1.992653914399121e-05,
+      "loss": 0.0532,
+      "step": 159
+    },
+    {
+      "epoch": 0.13559322033898305,
+      "grad_norm": 1.7055613994598389,
+      "learning_rate": 1.992291665383325e-05,
+      "loss": 0.0373,
+      "step": 160
+    },
+    {
+      "epoch": 0.13559322033898305,
+      "eval_accuracy": 0.9985815602836879,
+      "eval_f1": 0.9974160206718347,
+      "eval_loss": 0.009858837351202965,
+      "eval_precision": 1.0,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 49.8997,
+      "eval_samples_per_second": 5.852,
+      "eval_steps_per_second": 0.2,
+      "step": 160
+    },
+    {
+      "epoch": 0.13644067796610168,
+      "grad_norm": 4.821517467498779,
+      "learning_rate": 1.9919207329688974e-05,
+      "loss": 0.0473,
+      "step": 161
+    },
+    {
+      "epoch": 0.13728813559322034,
+      "grad_norm": 3.094421863555908,
+      "learning_rate": 1.9915411204018137e-05,
+      "loss": 0.0347,
+      "step": 162
+    },
+    {
+      "epoch": 0.13813559322033897,
+      "grad_norm": 2.942777156829834,
+      "learning_rate": 1.9911528310040073e-05,
+      "loss": 0.0534,
+      "step": 163
+    },
+    {
+      "epoch": 0.13898305084745763,
+      "grad_norm": 1.5976642370224,
+      "learning_rate": 1.990755868173342e-05,
+      "loss": 0.0214,
+      "step": 164
+    },
+    {
+      "epoch": 0.13983050847457626,
+      "grad_norm": 1.8799856901168823,
+      "learning_rate": 1.9903502353835812e-05,
+      "loss": 0.0335,
+      "step": 165
+    },
+    {
+      "epoch": 0.14067796610169492,
+      "grad_norm": 1.2853425741195679,
+      "learning_rate": 1.989935936184358e-05,
+      "loss": 0.0168,
+      "step": 166
+    },
+    {
+      "epoch": 0.14152542372881355,
+      "grad_norm": 0.8122027516365051,
+      "learning_rate": 1.9895129742011434e-05,
+      "loss": 0.0137,
+      "step": 167
+    },
+    {
+      "epoch": 0.1423728813559322,
+      "grad_norm": 3.085028886795044,
+      "learning_rate": 1.989081353135216e-05,
+      "loss": 0.0671,
+      "step": 168
+    },
+    {
+      "epoch": 0.14322033898305084,
+      "grad_norm": 2.514724016189575,
+      "learning_rate": 1.9886410767636284e-05,
+      "loss": 0.0641,
+      "step": 169
+    },
+    {
+      "epoch": 0.1440677966101695,
+      "grad_norm": 1.2149631977081299,
+      "learning_rate": 1.9881921489391738e-05,
+      "loss": 0.024,
+      "step": 170
+    },
+    {
+      "epoch": 0.14491525423728813,
+      "grad_norm": 4.677899360656738,
+      "learning_rate": 1.9877345735903546e-05,
+      "loss": 0.0553,
+      "step": 171
+    },
+    {
+      "epoch": 0.14576271186440679,
+      "grad_norm": 0.9889124631881714,
+      "learning_rate": 1.9872683547213446e-05,
+      "loss": 0.025,
+      "step": 172
+    },
+    {
+      "epoch": 0.14661016949152542,
+      "grad_norm": 1.9920752048492432,
+      "learning_rate": 1.9867934964119575e-05,
+      "loss": 0.0254,
+      "step": 173
+    },
+    {
+      "epoch": 0.14745762711864407,
+      "grad_norm": 1.7707115411758423,
+      "learning_rate": 1.986310002817608e-05,
+      "loss": 0.0258,
+      "step": 174
+    },
+    {
+      "epoch": 0.1483050847457627,
+      "grad_norm": 1.0819811820983887,
+      "learning_rate": 1.9858178781692777e-05,
+      "loss": 0.021,
+      "step": 175
+    },
+    {
+      "epoch": 0.14915254237288136,
+      "grad_norm": 1.0780267715454102,
+      "learning_rate": 1.985317126773477e-05,
+      "loss": 0.0194,
+      "step": 176
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.7838480472564697,
+      "learning_rate": 1.9848077530122083e-05,
+      "loss": 0.0543,
+      "step": 177
+    },
+    {
+      "epoch": 0.15084745762711865,
+      "grad_norm": 1.6005308628082275,
+      "learning_rate": 1.984289761342926e-05,
+      "loss": 0.0216,
+      "step": 178
+    },
+    {
+      "epoch": 0.15169491525423728,
+      "grad_norm": 1.7227445840835571,
+      "learning_rate": 1.9837631562984995e-05,
+      "loss": 0.0232,
+      "step": 179
+    },
+    {
+      "epoch": 0.15254237288135594,
+      "grad_norm": 2.9609763622283936,
+      "learning_rate": 1.983227942487172e-05,
+      "loss": 0.0357,
+      "step": 180
+    },
+    {
+      "epoch": 0.15254237288135594,
+      "eval_accuracy": 0.9971631205673759,
+      "eval_f1": 0.9948453608247423,
+      "eval_loss": 0.007280215620994568,
+      "eval_precision": 0.9948453608247423,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 50.033,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 0.2,
+      "step": 180
+    },
+    {
+      "epoch": 0.15338983050847457,
+      "grad_norm": 1.3586597442626953,
+      "learning_rate": 1.982684124592521e-05,
+      "loss": 0.0248,
+      "step": 181
+    },
+    {
+      "epoch": 0.15423728813559323,
+      "grad_norm": 2.4621241092681885,
+      "learning_rate": 1.9821317073734173e-05,
+      "loss": 0.0244,
+      "step": 182
+    },
+    {
+      "epoch": 0.15508474576271186,
+      "grad_norm": 1.4555177688598633,
+      "learning_rate": 1.9815706956639824e-05,
+      "loss": 0.0252,
+      "step": 183
+    },
+    {
+      "epoch": 0.15593220338983052,
+      "grad_norm": 3.31247878074646,
+      "learning_rate": 1.981001094373548e-05,
+      "loss": 0.029,
+      "step": 184
+    },
+    {
+      "epoch": 0.15677966101694915,
+      "grad_norm": 1.3305749893188477,
+      "learning_rate": 1.9804229084866103e-05,
+      "loss": 0.0071,
+      "step": 185
+    },
+    {
+      "epoch": 0.1576271186440678,
+      "grad_norm": 2.1134912967681885,
+      "learning_rate": 1.9798361430627898e-05,
+      "loss": 0.0223,
+      "step": 186
+    },
+    {
+      "epoch": 0.15847457627118644,
+      "grad_norm": 2.255300521850586,
+      "learning_rate": 1.979240803236785e-05,
+      "loss": 0.0165,
+      "step": 187
+    },
+    {
+      "epoch": 0.15932203389830507,
+      "grad_norm": 1.72796630859375,
+      "learning_rate": 1.9786368942183262e-05,
+      "loss": 0.0216,
+      "step": 188
+    },
+    {
+      "epoch": 0.16016949152542373,
+      "grad_norm": 3.4896645545959473,
+      "learning_rate": 1.9780244212921333e-05,
+      "loss": 0.0188,
+      "step": 189
+    },
+    {
+      "epoch": 0.16101694915254236,
+      "grad_norm": 8.25186538696289,
+      "learning_rate": 1.9774033898178668e-05,
+      "loss": 0.0585,
+      "step": 190
+    },
+    {
+      "epoch": 0.16186440677966102,
+      "grad_norm": 2.215669870376587,
+      "learning_rate": 1.9767738052300816e-05,
+      "loss": 0.015,
+      "step": 191
+    },
+    {
+      "epoch": 0.16271186440677965,
+      "grad_norm": 1.952848196029663,
+      "learning_rate": 1.9761356730381806e-05,
+      "loss": 0.023,
+      "step": 192
+    },
+    {
+      "epoch": 0.1635593220338983,
+      "grad_norm": 2.2259209156036377,
+      "learning_rate": 1.975488998826364e-05,
+      "loss": 0.0186,
+      "step": 193
+    },
+    {
+      "epoch": 0.16440677966101694,
+      "grad_norm": 2.9435532093048096,
+      "learning_rate": 1.974833788253584e-05,
+      "loss": 0.0237,
+      "step": 194
+    },
+    {
+      "epoch": 0.1652542372881356,
+      "grad_norm": 3.2941129207611084,
+      "learning_rate": 1.9741700470534904e-05,
+      "loss": 0.0168,
+      "step": 195
+    },
+    {
+      "epoch": 0.16610169491525423,
+      "grad_norm": 2.563314437866211,
+      "learning_rate": 1.9734977810343868e-05,
+      "loss": 0.0245,
+      "step": 196
+    },
+    {
+      "epoch": 0.1669491525423729,
+      "grad_norm": 5.807168006896973,
+      "learning_rate": 1.9728169960791736e-05,
+      "loss": 0.0526,
+      "step": 197
+    },
+    {
+      "epoch": 0.16779661016949152,
+      "grad_norm": 2.7468652725219727,
+      "learning_rate": 1.9721276981452995e-05,
+      "loss": 0.03,
+      "step": 198
+    },
+    {
+      "epoch": 0.16864406779661018,
+      "grad_norm": 7.025511741638184,
+      "learning_rate": 1.97142989326471e-05,
+      "loss": 0.0794,
+      "step": 199
+    },
+    {
+      "epoch": 0.1694915254237288,
+      "grad_norm": 1.384521722793579,
+      "learning_rate": 1.9707235875437932e-05,
+      "loss": 0.0147,
+      "step": 200
+    },
+    {
+      "epoch": 0.1694915254237288,
+      "eval_accuracy": 0.9985815602836879,
+      "eval_f1": 0.9974160206718347,
+      "eval_loss": 0.010543613694608212,
+      "eval_precision": 1.0,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 50.7835,
+      "eval_samples_per_second": 5.75,
+      "eval_steps_per_second": 0.197,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.207084150810214e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null