Training in progress, step 6300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9532cf3853865f83aa4b1512fed11a043caac16c7c7a479336cb00c08c47445f
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:b28a8c69423684ee4c64da8962a7bfc59ba0c98b1b135f97d468efb2d682b7f3
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac0306f8cd79071439fb2e032b6a794dfe130b78d3f6139dacf123dfc6184db8
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:256356e5f5f129661266fd2ec5986d64e8a618f50386558442d8fd5e211f9d75
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8952265544fc4294d6fa38bb32c8013d07436ac0fa10a7ef59f2d03aaf69a899
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4400418753cdae533886a325d8574dc0fd9e84c371d8423f3b0575671aff9b5
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74cac162bd00e61ab073a6b6fa81138d15f540573e2730c348646239c0af2746
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6d0003531b8a67ee8629b1863a22b3c8772704ff5ae56a9428b25b3f9af27ca
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f9fd3ffa5c298f49aa683a89f30a3b293edf8a4bf04e3e2e1304208647e606
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d59b6204db24eaafdf19a89c40f08932737a129af907b8fa01e86a38e864b7b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b62917f83638a2302f8bdb8e4696e57f59c8864664078b94923b1e2952d78862
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a488e42a6c1233774282544efdbb895b44374f17a7953d74ea138b797268fdd1
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dddadf1f078604529c0f4d51b0dfabc290ef123390e4b641aa10c7584948cc1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a157099efd1a2813560e813b422c6d600f68c33a2bb205d7f3a61370a041b79
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21fb7db76e3758690c774743f26cd5ccb3de7c9e9ec9421fb6347ba964f73792
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd7f94bcc3a523e515db8e62f1b61f8f766e6f97044ede3fb1d022d6fec18097
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ebcdd9cb3a00187b7caf8ccddabd7425b6b74eafab1a8a7e286f4cf2c1e0dc5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f80073c48585f31ea8d8b021958a20a34c2dfc7e8e8ec02b7ace68d8369bd89d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3802beb66fc35db4df22557b4497b6a8fdfdf3e582059b4fe079309c7d84ad1a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae3b6324078ae2ab8d58a5fe3558de31400b69d699a72fa9072c4fd896d7f841
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61d911caf90f35f3e5e63bf349703d8ac88e88dcfb0f587f0a27fb4ec2d5b04b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:eeb00a30bd3348fef7fa7a0dc88bf9a7a5a32f4484761a26220beef20b2e2ee5
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4faf604ceb02aaa7b878afc6f9935dd3d58f0bba74657b78471494e5a2ee20b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:95a2a891e4d47fc182ed74e57aef0f749cc61efcda057957b66e209db024a9f5
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:529be97fb31f3c3cb5a6124f64514f96e9dc11d13d1ad58796326c25a10ede28
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f98eaae48265d25e6b8b613f21a112d74712c3c7822c1f5228bd295d2e702437
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9147915898192549,
   "eval_steps": 20,
-  "global_step": 6200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -47139,6 +47139,766 @@
       "eval_samples_per_second": 5.842,
       "eval_steps_per_second": 0.201,
       "step": 6200
     }
   ],
   "logging_steps": 1,
@@ -47158,7 +47918,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9099781569372488e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9295462928808558,
   "eval_steps": 20,
+  "global_step": 6300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.842,
       "eval_steps_per_second": 0.201,
       "step": 6200
+    },
+    {
+      "epoch": 0.9149391368498709,
+      "grad_norm": 1.5670089721679688,
+      "learning_rate": 4.369273406291519e-07,
+      "loss": 0.0568,
+      "step": 6201
+    },
+    {
+      "epoch": 0.9150866838804869,
+      "grad_norm": 1.30291748046875,
+      "learning_rate": 4.354226460843414e-07,
+      "loss": 0.0265,
+      "step": 6202
+    },
+    {
+      "epoch": 0.9152342309111029,
+      "grad_norm": 1.8413887023925781,
+      "learning_rate": 4.339204892861215e-07,
+      "loss": 0.0398,
+      "step": 6203
+    },
+    {
+      "epoch": 0.9153817779417189,
+      "grad_norm": 2.272320032119751,
+      "learning_rate": 4.3242087063305684e-07,
+      "loss": 0.1022,
+      "step": 6204
+    },
+    {
+      "epoch": 0.915529324972335,
+      "grad_norm": 2.3131356239318848,
+      "learning_rate": 4.3092379052303457e-07,
+      "loss": 0.0353,
+      "step": 6205
+    },
+    {
+      "epoch": 0.9156768720029509,
+      "grad_norm": 4.904222011566162,
+      "learning_rate": 4.294292493532737e-07,
+      "loss": 0.0836,
+      "step": 6206
+    },
+    {
+      "epoch": 0.9158244190335669,
+      "grad_norm": 1.8545290231704712,
+      "learning_rate": 4.2793724752031807e-07,
+      "loss": 0.0445,
+      "step": 6207
+    },
+    {
+      "epoch": 0.915971966064183,
+      "grad_norm": 4.446885585784912,
+      "learning_rate": 4.264477854200366e-07,
+      "loss": 0.065,
+      "step": 6208
+    },
+    {
+      "epoch": 0.916119513094799,
+      "grad_norm": 0.9898476004600525,
+      "learning_rate": 4.24960863447621e-07,
+      "loss": 0.0215,
+      "step": 6209
+    },
+    {
+      "epoch": 0.9162670601254149,
+      "grad_norm": 2.3899457454681396,
+      "learning_rate": 4.2347648199759784e-07,
+      "loss": 0.0282,
+      "step": 6210
+    },
+    {
+      "epoch": 0.916414607156031,
+      "grad_norm": 1.5149897336959839,
+      "learning_rate": 4.219946414638132e-07,
+      "loss": 0.0236,
+      "step": 6211
+    },
+    {
+      "epoch": 0.916562154186647,
+      "grad_norm": 2.0021674633026123,
+      "learning_rate": 4.205153422394381e-07,
+      "loss": 0.0429,
+      "step": 6212
+    },
+    {
+      "epoch": 0.916709701217263,
+      "grad_norm": 3.0172886848449707,
+      "learning_rate": 4.1903858471697424e-07,
+      "loss": 0.0445,
+      "step": 6213
+    },
+    {
+      "epoch": 0.9168572482478791,
+      "grad_norm": 4.3301310539245605,
+      "learning_rate": 4.175643692882436e-07,
+      "loss": 0.1072,
+      "step": 6214
+    },
+    {
+      "epoch": 0.917004795278495,
+      "grad_norm": 3.8663575649261475,
+      "learning_rate": 4.160926963443979e-07,
+      "loss": 0.0675,
+      "step": 6215
+    },
+    {
+      "epoch": 0.917152342309111,
+      "grad_norm": 1.8558573722839355,
+      "learning_rate": 4.1462356627591236e-07,
+      "loss": 0.0268,
+      "step": 6216
+    },
+    {
+      "epoch": 0.9172998893397271,
+      "grad_norm": 1.4661530256271362,
+      "learning_rate": 4.131569794725876e-07,
+      "loss": 0.0256,
+      "step": 6217
+    },
+    {
+      "epoch": 0.9174474363703431,
+      "grad_norm": 1.4858981370925903,
+      "learning_rate": 4.1169293632355114e-07,
+      "loss": 0.0414,
+      "step": 6218
+    },
+    {
+      "epoch": 0.917594983400959,
+      "grad_norm": 4.485099792480469,
+      "learning_rate": 4.1023143721725e-07,
+      "loss": 0.0801,
+      "step": 6219
+    },
+    {
+      "epoch": 0.917742530431575,
+      "grad_norm": 3.052419662475586,
+      "learning_rate": 4.0877248254146404e-07,
+      "loss": 0.0737,
+      "step": 6220
+    },
+    {
+      "epoch": 0.917742530431575,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.05517810955643654,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.2014,
+      "eval_samples_per_second": 5.797,
+      "eval_steps_per_second": 0.199,
+      "step": 6220
+    },
+    {
+      "epoch": 0.9178900774621911,
+      "grad_norm": 2.319796562194824,
+      "learning_rate": 4.0731607268329477e-07,
+      "loss": 0.0639,
+      "step": 6221
+    },
+    {
+      "epoch": 0.9180376244928071,
+      "grad_norm": 2.6878068447113037,
+      "learning_rate": 4.058622080291652e-07,
+      "loss": 0.0571,
+      "step": 6222
+    },
+    {
+      "epoch": 0.918185171523423,
+      "grad_norm": 2.0226361751556396,
+      "learning_rate": 4.0441088896482574e-07,
+      "loss": 0.0681,
+      "step": 6223
+    },
+    {
+      "epoch": 0.9183327185540391,
+      "grad_norm": 1.9138096570968628,
+      "learning_rate": 4.029621158753538e-07,
+      "loss": 0.0566,
+      "step": 6224
+    },
+    {
+      "epoch": 0.9184802655846551,
+      "grad_norm": 2.777580976486206,
+      "learning_rate": 4.015158891451476e-07,
+      "loss": 0.0417,
+      "step": 6225
+    },
+    {
+      "epoch": 0.9186278126152712,
+      "grad_norm": 1.0402213335037231,
+      "learning_rate": 4.000722091579301e-07,
+      "loss": 0.0174,
+      "step": 6226
+    },
+    {
+      "epoch": 0.9187753596458871,
+      "grad_norm": 3.61226749420166,
+      "learning_rate": 3.986310762967527e-07,
+      "loss": 0.0224,
+      "step": 6227
+    },
+    {
+      "epoch": 0.9189229066765031,
+      "grad_norm": 1.522729516029358,
+      "learning_rate": 3.971924909439828e-07,
+      "loss": 0.052,
+      "step": 6228
+    },
+    {
+      "epoch": 0.9190704537071192,
+      "grad_norm": 3.099111557006836,
+      "learning_rate": 3.9575645348132074e-07,
+      "loss": 0.1204,
+      "step": 6229
+    },
+    {
+      "epoch": 0.9192180007377352,
+      "grad_norm": 1.7007861137390137,
+      "learning_rate": 3.943229642897861e-07,
+      "loss": 0.0405,
+      "step": 6230
+    },
+    {
+      "epoch": 0.9193655477683511,
+      "grad_norm": 5.425076484680176,
+      "learning_rate": 3.9289202374972247e-07,
+      "loss": 0.1331,
+      "step": 6231
+    },
+    {
+      "epoch": 0.9195130947989671,
+      "grad_norm": 3.1894729137420654,
+      "learning_rate": 3.9146363224079943e-07,
+      "loss": 0.1074,
+      "step": 6232
+    },
+    {
+      "epoch": 0.9196606418295832,
+      "grad_norm": 4.616338729858398,
+      "learning_rate": 3.90037790142006e-07,
+      "loss": 0.0738,
+      "step": 6233
+    },
+    {
+      "epoch": 0.9198081888601992,
+      "grad_norm": 2.9994616508483887,
+      "learning_rate": 3.886144978316586e-07,
+      "loss": 0.1025,
+      "step": 6234
+    },
+    {
+      "epoch": 0.9199557358908153,
+      "grad_norm": 3.527212142944336,
+      "learning_rate": 3.8719375568739834e-07,
+      "loss": 0.0572,
+      "step": 6235
+    },
+    {
+      "epoch": 0.9201032829214312,
+      "grad_norm": 1.8691866397857666,
+      "learning_rate": 3.8577556408618487e-07,
+      "loss": 0.0501,
+      "step": 6236
+    },
+    {
+      "epoch": 0.9202508299520472,
+      "grad_norm": 3.163731813430786,
+      "learning_rate": 3.8435992340430383e-07,
+      "loss": 0.0944,
+      "step": 6237
+    },
+    {
+      "epoch": 0.9203983769826632,
+      "grad_norm": 2.161836862564087,
+      "learning_rate": 3.829468340173637e-07,
+      "loss": 0.0457,
+      "step": 6238
+    },
+    {
+      "epoch": 0.9205459240132793,
+      "grad_norm": 3.0532407760620117,
+      "learning_rate": 3.8153629630029666e-07,
+      "loss": 0.0415,
+      "step": 6239
+    },
+    {
+      "epoch": 0.9206934710438952,
+      "grad_norm": 2.5379703044891357,
+      "learning_rate": 3.80128310627359e-07,
+      "loss": 0.042,
+      "step": 6240
+    },
+    {
+      "epoch": 0.9206934710438952,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.0559084378182888,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.6899,
+      "eval_samples_per_second": 5.856,
+      "eval_steps_per_second": 0.201,
+      "step": 6240
+    },
+    {
+      "epoch": 0.9208410180745112,
+      "grad_norm": 2.550798177719116,
+      "learning_rate": 3.787228773721252e-07,
+      "loss": 0.1024,
+      "step": 6241
+    },
+    {
+      "epoch": 0.9209885651051273,
+      "grad_norm": 5.740802764892578,
+      "learning_rate": 3.773199969074959e-07,
+      "loss": 0.0571,
+      "step": 6242
+    },
+    {
+      "epoch": 0.9211361121357433,
+      "grad_norm": 3.259659767150879,
+      "learning_rate": 3.759196696056955e-07,
+      "loss": 0.0458,
+      "step": 6243
+    },
+    {
+      "epoch": 0.9212836591663592,
+      "grad_norm": 1.5455894470214844,
+      "learning_rate": 3.7452189583827017e-07,
+      "loss": 0.0435,
+      "step": 6244
+    },
+    {
+      "epoch": 0.9214312061969753,
+      "grad_norm": 3.3945140838623047,
+      "learning_rate": 3.731266759760854e-07,
+      "loss": 0.1067,
+      "step": 6245
+    },
+    {
+      "epoch": 0.9215787532275913,
+      "grad_norm": 2.3547747135162354,
+      "learning_rate": 3.717340103893341e-07,
+      "loss": 0.0584,
+      "step": 6246
+    },
+    {
+      "epoch": 0.9217263002582073,
+      "grad_norm": 1.9721163511276245,
+      "learning_rate": 3.7034389944752613e-07,
+      "loss": 0.0601,
+      "step": 6247
+    },
+    {
+      "epoch": 0.9218738472888233,
+      "grad_norm": 4.440569877624512,
+      "learning_rate": 3.689563435194976e-07,
+      "loss": 0.1317,
+      "step": 6248
+    },
+    {
+      "epoch": 0.9220213943194393,
+      "grad_norm": 1.7474677562713623,
+      "learning_rate": 3.6757134297340735e-07,
+      "loss": 0.044,
+      "step": 6249
+    },
+    {
+      "epoch": 0.9221689413500553,
+      "grad_norm": 1.8465862274169922,
+      "learning_rate": 3.661888981767314e-07,
+      "loss": 0.0436,
+      "step": 6250
+    },
+    {
+      "epoch": 0.9223164883806714,
+      "grad_norm": 1.5237339735031128,
+      "learning_rate": 3.6480900949627306e-07,
+      "loss": 0.0412,
+      "step": 6251
+    },
+    {
+      "epoch": 0.9224640354112873,
+      "grad_norm": 4.066259384155273,
+      "learning_rate": 3.6343167729815164e-07,
+      "loss": 0.0675,
+      "step": 6252
+    },
+    {
+      "epoch": 0.9226115824419033,
+      "grad_norm": 1.155721664428711,
+      "learning_rate": 3.6205690194781487e-07,
+      "loss": 0.0208,
+      "step": 6253
+    },
+    {
+      "epoch": 0.9227591294725194,
+      "grad_norm": 2.956277370452881,
+      "learning_rate": 3.606846838100264e-07,
+      "loss": 0.0557,
+      "step": 6254
+    },
+    {
+      "epoch": 0.9229066765031354,
+      "grad_norm": 2.8474464416503906,
+      "learning_rate": 3.5931502324887624e-07,
+      "loss": 0.1175,
+      "step": 6255
+    },
+    {
+      "epoch": 0.9230542235337513,
+      "grad_norm": 0.9943166971206665,
+      "learning_rate": 3.579479206277692e-07,
+      "loss": 0.0091,
+      "step": 6256
+    },
+    {
+      "epoch": 0.9232017705643674,
+      "grad_norm": 2.0411195755004883,
+      "learning_rate": 3.565833763094373e-07,
+      "loss": 0.0226,
+      "step": 6257
+    },
+    {
+      "epoch": 0.9233493175949834,
+      "grad_norm": 3.972092390060425,
+      "learning_rate": 3.552213906559343e-07,
+      "loss": 0.0739,
+      "step": 6258
+    },
+    {
+      "epoch": 0.9234968646255994,
+      "grad_norm": 2.7468929290771484,
+      "learning_rate": 3.538619640286278e-07,
+      "loss": 0.1084,
+      "step": 6259
+    },
+    {
+      "epoch": 0.9236444116562155,
+      "grad_norm": 3.2310478687286377,
+      "learning_rate": 3.52505096788216e-07,
+      "loss": 0.0505,
+      "step": 6260
+    },
+    {
+      "epoch": 0.9236444116562155,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05572787672281265,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 51.4965,
+      "eval_samples_per_second": 5.651,
+      "eval_steps_per_second": 0.194,
+      "step": 6260
+    },
+    {
+      "epoch": 0.9237919586868314,
+      "grad_norm": 2.4628522396087646,
+      "learning_rate": 3.5115078929470856e-07,
+      "loss": 0.1245,
+      "step": 6261
+    },
+    {
+      "epoch": 0.9239395057174474,
+      "grad_norm": 2.1519012451171875,
+      "learning_rate": 3.4979904190744486e-07,
+      "loss": 0.0936,
+      "step": 6262
+    },
+    {
+      "epoch": 0.9240870527480635,
+      "grad_norm": 1.2964609861373901,
+      "learning_rate": 3.48449854985079e-07,
+      "loss": 0.0132,
+      "step": 6263
+    },
+    {
+      "epoch": 0.9242345997786795,
+      "grad_norm": 1.963150143623352,
+      "learning_rate": 3.471032288855869e-07,
+      "loss": 0.0431,
+      "step": 6264
+    },
+    {
+      "epoch": 0.9243821468092954,
+      "grad_norm": 2.247939109802246,
+      "learning_rate": 3.457591639662672e-07,
+      "loss": 0.0297,
+      "step": 6265
+    },
+    {
+      "epoch": 0.9245296938399115,
+      "grad_norm": 1.91328763961792,
+      "learning_rate": 3.444176605837368e-07,
+      "loss": 0.0626,
+      "step": 6266
+    },
+    {
+      "epoch": 0.9246772408705275,
+      "grad_norm": 2.5009827613830566,
+      "learning_rate": 3.430787190939322e-07,
+      "loss": 0.0545,
+      "step": 6267
+    },
+    {
+      "epoch": 0.9248247879011435,
+      "grad_norm": 0.9863361120223999,
+      "learning_rate": 3.4174233985211467e-07,
+      "loss": 0.0193,
+      "step": 6268
+    },
+    {
+      "epoch": 0.9249723349317595,
+      "grad_norm": 1.2787401676177979,
+      "learning_rate": 3.4040852321285954e-07,
+      "loss": 0.0104,
+      "step": 6269
+    },
+    {
+      "epoch": 0.9251198819623755,
+      "grad_norm": 2.8463070392608643,
+      "learning_rate": 3.39077269530067e-07,
+      "loss": 0.0565,
+      "step": 6270
+    },
+    {
+      "epoch": 0.9252674289929915,
+      "grad_norm": 2.008657217025757,
+      "learning_rate": 3.3774857915695346e-07,
+      "loss": 0.0718,
+      "step": 6271
+    },
+    {
+      "epoch": 0.9254149760236076,
+      "grad_norm": 0.9314476251602173,
+      "learning_rate": 3.364224524460602e-07,
+      "loss": 0.0236,
+      "step": 6272
+    },
+    {
+      "epoch": 0.9255625230542235,
+      "grad_norm": 2.7881734371185303,
+      "learning_rate": 3.3509888974924243e-07,
+      "loss": 0.0565,
+      "step": 6273
+    },
+    {
+      "epoch": 0.9257100700848395,
+      "grad_norm": 3.7052223682403564,
+      "learning_rate": 3.3377789141768035e-07,
+      "loss": 0.0528,
+      "step": 6274
+    },
+    {
+      "epoch": 0.9258576171154556,
+      "grad_norm": 1.0346524715423584,
+      "learning_rate": 3.324594578018681e-07,
+      "loss": 0.0221,
+      "step": 6275
+    },
+    {
+      "epoch": 0.9260051641460716,
+      "grad_norm": 1.8550926446914673,
+      "learning_rate": 3.3114358925162573e-07,
+      "loss": 0.0368,
+      "step": 6276
+    },
+    {
+      "epoch": 0.9261527111766875,
+      "grad_norm": 4.289306163787842,
+      "learning_rate": 3.298302861160885e-07,
+      "loss": 0.0772,
+      "step": 6277
+    },
+    {
+      "epoch": 0.9263002582073036,
+      "grad_norm": 3.7169032096862793,
+      "learning_rate": 3.2851954874371095e-07,
+      "loss": 0.116,
+      "step": 6278
+    },
+    {
+      "epoch": 0.9264478052379196,
+      "grad_norm": 1.6580818891525269,
+      "learning_rate": 3.272113774822694e-07,
+      "loss": 0.0495,
+      "step": 6279
+    },
+    {
+      "epoch": 0.9265953522685356,
+      "grad_norm": 2.004760980606079,
+      "learning_rate": 3.2590577267885726e-07,
+      "loss": 0.0424,
+      "step": 6280
+    },
+    {
+      "epoch": 0.9265953522685356,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.05522174760699272,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 52.1889,
+      "eval_samples_per_second": 5.576,
+      "eval_steps_per_second": 0.192,
+      "step": 6280
+    },
+    {
+      "epoch": 0.9267428992991517,
+      "grad_norm": 2.8334689140319824,
+      "learning_rate": 3.2460273467988635e-07,
+      "loss": 0.0398,
+      "step": 6281
+    },
+    {
+      "epoch": 0.9268904463297676,
+      "grad_norm": 0.9800840616226196,
+      "learning_rate": 3.233022638310901e-07,
+      "loss": 0.0199,
+      "step": 6282
+    },
+    {
+      "epoch": 0.9270379933603836,
+      "grad_norm": 1.883017897605896,
+      "learning_rate": 3.2200436047752026e-07,
+      "loss": 0.0243,
+      "step": 6283
+    },
+    {
+      "epoch": 0.9271855403909997,
+      "grad_norm": 3.470026731491089,
+      "learning_rate": 3.207090249635436e-07,
+      "loss": 0.0418,
+      "step": 6284
+    },
+    {
+      "epoch": 0.9273330874216157,
+      "grad_norm": 3.9536657333374023,
+      "learning_rate": 3.194162576328508e-07,
+      "loss": 0.1209,
+      "step": 6285
+    },
+    {
+      "epoch": 0.9274806344522316,
+      "grad_norm": 1.0981996059417725,
+      "learning_rate": 3.181260588284485e-07,
+      "loss": 0.0188,
+      "step": 6286
+    },
+    {
+      "epoch": 0.9276281814828476,
+      "grad_norm": 13.924962997436523,
+      "learning_rate": 3.168384288926596e-07,
+      "loss": 0.1309,
+      "step": 6287
+    },
+    {
+      "epoch": 0.9277757285134637,
+      "grad_norm": 1.7328006029129028,
+      "learning_rate": 3.155533681671319e-07,
+      "loss": 0.0376,
+      "step": 6288
+    },
+    {
+      "epoch": 0.9279232755440797,
+      "grad_norm": 7.636415481567383,
+      "learning_rate": 3.1427087699282375e-07,
+      "loss": 0.0774,
+      "step": 6289
+    },
+    {
+      "epoch": 0.9280708225746956,
+      "grad_norm": 2.2514214515686035,
+      "learning_rate": 3.1299095571001745e-07,
+      "loss": 0.1002,
+      "step": 6290
+    },
+    {
+      "epoch": 0.9282183696053117,
+      "grad_norm": 2.580007314682007,
+      "learning_rate": 3.1171360465831245e-07,
+      "loss": 0.066,
+      "step": 6291
+    },
+    {
+      "epoch": 0.9283659166359277,
+      "grad_norm": 4.111058712005615,
+      "learning_rate": 3.104388241766232e-07,
+      "loss": 0.1297,
+      "step": 6292
+    },
+    {
+      "epoch": 0.9285134636665437,
+      "grad_norm": 2.8205816745758057,
+      "learning_rate": 3.091666146031858e-07,
+      "loss": 0.0468,
+      "step": 6293
+    },
+    {
+      "epoch": 0.9286610106971597,
+      "grad_norm": 1.6066216230392456,
+      "learning_rate": 3.0789697627555124e-07,
+      "loss": 0.0386,
+      "step": 6294
+    },
+    {
+      "epoch": 0.9288085577277757,
+      "grad_norm": 2.5085225105285645,
+      "learning_rate": 3.0662990953058803e-07,
+      "loss": 0.0928,
+      "step": 6295
+    },
+    {
+      "epoch": 0.9289561047583917,
+      "grad_norm": 1.2958418130874634,
+      "learning_rate": 3.0536541470448824e-07,
+      "loss": 0.0261,
+      "step": 6296
+    },
+    {
+      "epoch": 0.9291036517890078,
+      "grad_norm": 1.3905576467514038,
+      "learning_rate": 3.041034921327557e-07,
+      "loss": 0.0206,
+      "step": 6297
+    },
+    {
+      "epoch": 0.9292511988196237,
+      "grad_norm": 2.7028305530548096,
+      "learning_rate": 3.028441421502115e-07,
+      "loss": 0.0687,
+      "step": 6298
+    },
+    {
+      "epoch": 0.9293987458502397,
+      "grad_norm": 2.6002049446105957,
+      "learning_rate": 3.015873650909984e-07,
+      "loss": 0.0873,
+      "step": 6299
+    },
+    {
+      "epoch": 0.9295462928808558,
+      "grad_norm": 2.208272695541382,
+      "learning_rate": 3.003331612885718e-07,
+      "loss": 0.0506,
+      "step": 6300
+    },
+    {
+      "epoch": 0.9295462928808558,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05601061135530472,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.1847,
+      "eval_samples_per_second": 5.799,
+      "eval_steps_per_second": 0.199,
+      "step": 6300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9408628309913764e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null