Training in progress, step 34605, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +656 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:055db62e7afaf72547d8020ffa4c60d79b2df7d5d99747310e09d238a4ba1fa7
 size 368988278

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9964a1a24656f4a90b748a0d19a5c15f9373211cfeeb8598c8bdac5b70bf7fe
 size 368988278

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c57ff1606838ae93b0606705e53592c3c93bfa3a777074b3409ef82ed78e848
 size 1107079290

 version https://git-lfs.github.com/spec/v1
+oid sha256:507be84a97a2ba7522e34ce2a578a239f9ad03fbfe2399c46a9b1d5e76cdcb68
 size 1107079290

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a2fbcd26bac3ea7dc02fc9ede5b8a1914ca51611473722a11a969e1f26ac0ee
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5f18f2e1ac96b2a7568111293c1bcd8d35880ccf3f2819600a270caeb99015d
+size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66d97b511d2fdb8061e5bf72c139923941c148260fac1caedd654028da6986c1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcff98006be86afc3f75b37d6113fdf5b62db51c94b6f68b33f555f4ac346822
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3839473129eb8c438ab312370daa55eb10a0790f33d38fc5eaa24859b54b0d1f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f220fd74a6757e167d014f721e96b7e5710e8f5c97f48c9fe6d72e19ebbbd65c
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5088a0d34c7015afe60457fbb3f0a4740839369017a42ea4b3250322c2d63ceb
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:21565575b5db0aa139865ffb0d9df6ceb55078dc7b218f601419cc3d7b873134
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9cac0eb25286b75549fa2030810940adf357064a83facaf5c58ebe37190b6ac
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:487a03a3b6c36091572b8fbb74add1eb3c753efe5ab0eee791c8d03f495e5c98
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0a57d29811122d52bd53f81af680412b91dde1cd2a12fa885d8a54388be8e2d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f8c6e22cfd0b3668705becc42fb2c443ef5e4cfe38d4ba5e3dfdc565094143
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c90ab29b255eaf920ecc1cba0b586e426f8e2db67b44a65576693f84178a04f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:379eebc7ccebea3c24281c6604242d09589a64d4774ea37b6d5cf6e7bbece645
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4efbfa3cfb1bb8fb9c3380e65959a8b4eaf3bceb0507a26ffba1a3e4636ddb1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3668b553f323a1aa5806c5d8feff7c926f6116dc2b7f961e9746634c8e825c0
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4460050461ccd15ef821d88f33ca8aec62edc9562663da8bad202acbfef43bd7
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:8199a654ab4fa9a6ef354ce8db82e82a6447b8c307bd6b0f26113c9bdf05dcf1
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8669079560477666,
   "eval_steps": 3000,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4287,6 +4287,658 @@
       "eval_samples_per_second": 2664.65,
       "eval_steps_per_second": 41.636,
       "step": 30000
     }
   ],
   "logging_steps": 50,
@@ -4301,12 +4953,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.238481846114714e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9999783273010988,
   "eval_steps": 3000,
+  "global_step": 34605,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2664.65,
       "eval_steps_per_second": 41.636,
       "step": 30000
+    },
+    {
+      "epoch": 0.8683528026411795,
+      "grad_norm": 21.8125,
+      "learning_rate": 1.3568061550687207e-07,
+      "loss": 15.327,
+      "step": 30050
+    },
+    {
+      "epoch": 0.8697976492345925,
+      "grad_norm": 22.8125,
+      "learning_rate": 1.3590637360255738e-07,
+      "loss": 15.3229,
+      "step": 30100
+    },
+    {
+      "epoch": 0.8712424958280055,
+      "grad_norm": 23.671875,
+      "learning_rate": 1.361321316982427e-07,
+      "loss": 15.3576,
+      "step": 30150
+    },
+    {
+      "epoch": 0.8726873424214184,
+      "grad_norm": 22.609375,
+      "learning_rate": 1.36357889793928e-07,
+      "loss": 15.3539,
+      "step": 30200
+    },
+    {
+      "epoch": 0.8741321890148314,
+      "grad_norm": 20.65625,
+      "learning_rate": 1.365836478896133e-07,
+      "loss": 15.2693,
+      "step": 30250
+    },
+    {
+      "epoch": 0.8755770356082443,
+      "grad_norm": 22.5625,
+      "learning_rate": 1.3680940598529864e-07,
+      "loss": 15.4018,
+      "step": 30300
+    },
+    {
+      "epoch": 0.8770218822016572,
+      "grad_norm": 19.875,
+      "learning_rate": 1.3703516408098394e-07,
+      "loss": 15.4242,
+      "step": 30350
+    },
+    {
+      "epoch": 0.8784667287950702,
+      "grad_norm": 27.234375,
+      "learning_rate": 1.3726092217666924e-07,
+      "loss": 15.3294,
+      "step": 30400
+    },
+    {
+      "epoch": 0.8799115753884831,
+      "grad_norm": 23.375,
+      "learning_rate": 1.3748668027235455e-07,
+      "loss": 15.3841,
+      "step": 30450
+    },
+    {
+      "epoch": 0.8813564219818961,
+      "grad_norm": 23.125,
+      "learning_rate": 1.3771243836803988e-07,
+      "loss": 15.3368,
+      "step": 30500
+    },
+    {
+      "epoch": 0.882801268575309,
+      "grad_norm": 23.171875,
+      "learning_rate": 1.3793819646372518e-07,
+      "loss": 15.343,
+      "step": 30550
+    },
+    {
+      "epoch": 0.884246115168722,
+      "grad_norm": 29.78125,
+      "learning_rate": 1.3816395455941048e-07,
+      "loss": 15.3782,
+      "step": 30600
+    },
+    {
+      "epoch": 0.8856909617621349,
+      "grad_norm": 22.453125,
+      "learning_rate": 1.383897126550958e-07,
+      "loss": 15.4537,
+      "step": 30650
+    },
+    {
+      "epoch": 0.8871358083555478,
+      "grad_norm": 21.265625,
+      "learning_rate": 1.386154707507811e-07,
+      "loss": 15.4048,
+      "step": 30700
+    },
+    {
+      "epoch": 0.8885806549489608,
+      "grad_norm": 24.25,
+      "learning_rate": 1.3884122884646644e-07,
+      "loss": 15.3433,
+      "step": 30750
+    },
+    {
+      "epoch": 0.8900255015423737,
+      "grad_norm": 25.1875,
+      "learning_rate": 1.3906698694215174e-07,
+      "loss": 15.3141,
+      "step": 30800
+    },
+    {
+      "epoch": 0.8914703481357866,
+      "grad_norm": 24.25,
+      "learning_rate": 1.3929274503783704e-07,
+      "loss": 15.2703,
+      "step": 30850
+    },
+    {
+      "epoch": 0.8929151947291997,
+      "grad_norm": 22.3125,
+      "learning_rate": 1.3951850313352237e-07,
+      "loss": 15.4022,
+      "step": 30900
+    },
+    {
+      "epoch": 0.8943600413226126,
+      "grad_norm": 19.859375,
+      "learning_rate": 1.3974426122920768e-07,
+      "loss": 15.2936,
+      "step": 30950
+    },
+    {
+      "epoch": 0.8958048879160255,
+      "grad_norm": 20.5,
+      "learning_rate": 1.39970019324893e-07,
+      "loss": 15.3219,
+      "step": 31000
+    },
+    {
+      "epoch": 0.8972497345094385,
+      "grad_norm": 21.71875,
+      "learning_rate": 1.4019577742057828e-07,
+      "loss": 15.2468,
+      "step": 31050
+    },
+    {
+      "epoch": 0.8986945811028514,
+      "grad_norm": 23.421875,
+      "learning_rate": 1.4042153551626358e-07,
+      "loss": 15.2591,
+      "step": 31100
+    },
+    {
+      "epoch": 0.9001394276962643,
+      "grad_norm": 23.09375,
+      "learning_rate": 1.406472936119489e-07,
+      "loss": 15.3318,
+      "step": 31150
+    },
+    {
+      "epoch": 0.9015842742896772,
+      "grad_norm": 24.09375,
+      "learning_rate": 1.4087305170763421e-07,
+      "loss": 15.2105,
+      "step": 31200
+    },
+    {
+      "epoch": 0.9030291208830903,
+      "grad_norm": 22.671875,
+      "learning_rate": 1.4109880980331954e-07,
+      "loss": 15.2557,
+      "step": 31250
+    },
+    {
+      "epoch": 0.9044739674765032,
+      "grad_norm": 22.0625,
+      "learning_rate": 1.4132456789900484e-07,
+      "loss": 15.4014,
+      "step": 31300
+    },
+    {
+      "epoch": 0.9059188140699161,
+      "grad_norm": 21.796875,
+      "learning_rate": 1.4155032599469017e-07,
+      "loss": 15.2382,
+      "step": 31350
+    },
+    {
+      "epoch": 0.9073636606633291,
+      "grad_norm": 24.5,
+      "learning_rate": 1.4177608409037548e-07,
+      "loss": 15.395,
+      "step": 31400
+    },
+    {
+      "epoch": 0.908808507256742,
+      "grad_norm": 21.828125,
+      "learning_rate": 1.4200184218606078e-07,
+      "loss": 15.2785,
+      "step": 31450
+    },
+    {
+      "epoch": 0.9102533538501549,
+      "grad_norm": 22.5625,
+      "learning_rate": 1.422276002817461e-07,
+      "loss": 15.2983,
+      "step": 31500
+    },
+    {
+      "epoch": 0.9116982004435679,
+      "grad_norm": 21.328125,
+      "learning_rate": 1.424533583774314e-07,
+      "loss": 15.382,
+      "step": 31550
+    },
+    {
+      "epoch": 0.9131430470369809,
+      "grad_norm": 21.3125,
+      "learning_rate": 1.4267911647311674e-07,
+      "loss": 15.2084,
+      "step": 31600
+    },
+    {
+      "epoch": 0.9145878936303938,
+      "grad_norm": 22.6875,
+      "learning_rate": 1.4290487456880204e-07,
+      "loss": 15.2803,
+      "step": 31650
+    },
+    {
+      "epoch": 0.9160327402238068,
+      "grad_norm": 20.953125,
+      "learning_rate": 1.4313063266448734e-07,
+      "loss": 15.3734,
+      "step": 31700
+    },
+    {
+      "epoch": 0.9174775868172197,
+      "grad_norm": 22.765625,
+      "learning_rate": 1.4335639076017265e-07,
+      "loss": 15.3248,
+      "step": 31750
+    },
+    {
+      "epoch": 0.9189224334106326,
+      "grad_norm": 21.640625,
+      "learning_rate": 1.4358214885585795e-07,
+      "loss": 15.2958,
+      "step": 31800
+    },
+    {
+      "epoch": 0.9203672800040456,
+      "grad_norm": 21.53125,
+      "learning_rate": 1.4380790695154328e-07,
+      "loss": 15.2854,
+      "step": 31850
+    },
+    {
+      "epoch": 0.9218121265974585,
+      "grad_norm": 21.265625,
+      "learning_rate": 1.4403366504722858e-07,
+      "loss": 15.2983,
+      "step": 31900
+    },
+    {
+      "epoch": 0.9232569731908714,
+      "grad_norm": 26.265625,
+      "learning_rate": 1.4425942314291388e-07,
+      "loss": 15.1967,
+      "step": 31950
+    },
+    {
+      "epoch": 0.9247018197842845,
+      "grad_norm": 21.078125,
+      "learning_rate": 1.444851812385992e-07,
+      "loss": 15.2861,
+      "step": 32000
+    },
+    {
+      "epoch": 0.9261466663776974,
+      "grad_norm": 22.53125,
+      "learning_rate": 1.447109393342845e-07,
+      "loss": 15.203,
+      "step": 32050
+    },
+    {
+      "epoch": 0.9275915129711103,
+      "grad_norm": 20.46875,
+      "learning_rate": 1.4493669742996984e-07,
+      "loss": 15.3343,
+      "step": 32100
+    },
+    {
+      "epoch": 0.9290363595645232,
+      "grad_norm": 21.5625,
+      "learning_rate": 1.4516245552565514e-07,
+      "loss": 15.1377,
+      "step": 32150
+    },
+    {
+      "epoch": 0.9304812061579362,
+      "grad_norm": 23.609375,
+      "learning_rate": 1.4538821362134047e-07,
+      "loss": 15.267,
+      "step": 32200
+    },
+    {
+      "epoch": 0.9319260527513491,
+      "grad_norm": 22.59375,
+      "learning_rate": 1.4561397171702577e-07,
+      "loss": 15.3935,
+      "step": 32250
+    },
+    {
+      "epoch": 0.933370899344762,
+      "grad_norm": 23.90625,
+      "learning_rate": 1.4583972981271108e-07,
+      "loss": 15.2605,
+      "step": 32300
+    },
+    {
+      "epoch": 0.9348157459381751,
+      "grad_norm": 23.171875,
+      "learning_rate": 1.460654879083964e-07,
+      "loss": 15.2479,
+      "step": 32350
+    },
+    {
+      "epoch": 0.936260592531588,
+      "grad_norm": 22.734375,
+      "learning_rate": 1.4629124600408168e-07,
+      "loss": 15.1586,
+      "step": 32400
+    },
+    {
+      "epoch": 0.9377054391250009,
+      "grad_norm": 22.078125,
+      "learning_rate": 1.46517004099767e-07,
+      "loss": 15.2709,
+      "step": 32450
+    },
+    {
+      "epoch": 0.9391502857184139,
+      "grad_norm": 20.484375,
+      "learning_rate": 1.467427621954523e-07,
+      "loss": 15.3932,
+      "step": 32500
+    },
+    {
+      "epoch": 0.9405951323118268,
+      "grad_norm": 20.171875,
+      "learning_rate": 1.4696852029113762e-07,
+      "loss": 15.3021,
+      "step": 32550
+    },
+    {
+      "epoch": 0.9420399789052397,
+      "grad_norm": 20.375,
+      "learning_rate": 1.4719427838682294e-07,
+      "loss": 15.3676,
+      "step": 32600
+    },
+    {
+      "epoch": 0.9434848254986526,
+      "grad_norm": 18.40625,
+      "learning_rate": 1.4742003648250825e-07,
+      "loss": 15.225,
+      "step": 32650
+    },
+    {
+      "epoch": 0.9449296720920656,
+      "grad_norm": 22.921875,
+      "learning_rate": 1.4764579457819357e-07,
+      "loss": 15.2833,
+      "step": 32700
+    },
+    {
+      "epoch": 0.9463745186854786,
+      "grad_norm": 21.359375,
+      "learning_rate": 1.4787155267387888e-07,
+      "loss": 15.2648,
+      "step": 32750
+    },
+    {
+      "epoch": 0.9478193652788915,
+      "grad_norm": 18.03125,
+      "learning_rate": 1.480973107695642e-07,
+      "loss": 15.1701,
+      "step": 32800
+    },
+    {
+      "epoch": 0.9492642118723045,
+      "grad_norm": 20.734375,
+      "learning_rate": 1.483230688652495e-07,
+      "loss": 15.3169,
+      "step": 32850
+    },
+    {
+      "epoch": 0.9507090584657174,
+      "grad_norm": 30.40625,
+      "learning_rate": 1.485488269609348e-07,
+      "loss": 15.1193,
+      "step": 32900
+    },
+    {
+      "epoch": 0.9521539050591303,
+      "grad_norm": 18.96875,
+      "learning_rate": 1.4877458505662014e-07,
+      "loss": 15.1477,
+      "step": 32950
+    },
+    {
+      "epoch": 0.9535987516525433,
+      "grad_norm": 22.125,
+      "learning_rate": 1.4900034315230544e-07,
+      "loss": 15.1363,
+      "step": 33000
+    },
+    {
+      "epoch": 0.9535987516525433,
+      "eval_loss": 1.9005507230758667,
+      "eval_runtime": 343.9939,
+      "eval_samples_per_second": 2710.903,
+      "eval_steps_per_second": 42.358,
+      "step": 33000
+    },
+    {
+      "epoch": 0.9550435982459562,
+      "grad_norm": 20.171875,
+      "learning_rate": 1.4922610124799077e-07,
+      "loss": 15.2704,
+      "step": 33050
+    },
+    {
+      "epoch": 0.9564884448393692,
+      "grad_norm": 25.21875,
+      "learning_rate": 1.4945185934367605e-07,
+      "loss": 15.2413,
+      "step": 33100
+    },
+    {
+      "epoch": 0.9579332914327822,
+      "grad_norm": 20.984375,
+      "learning_rate": 1.4967761743936135e-07,
+      "loss": 15.0358,
+      "step": 33150
+    },
+    {
+      "epoch": 0.9593781380261951,
+      "grad_norm": 22.65625,
+      "learning_rate": 1.4990337553504668e-07,
+      "loss": 15.148,
+      "step": 33200
+    },
+    {
+      "epoch": 0.960822984619608,
+      "grad_norm": 24.671875,
+      "learning_rate": 1.5012913363073198e-07,
+      "loss": 15.0575,
+      "step": 33250
+    },
+    {
+      "epoch": 0.962267831213021,
+      "grad_norm": 21.28125,
+      "learning_rate": 1.503548917264173e-07,
+      "loss": 15.1119,
+      "step": 33300
+    },
+    {
+      "epoch": 0.9637126778064339,
+      "grad_norm": 24.21875,
+      "learning_rate": 1.505806498221026e-07,
+      "loss": 15.21,
+      "step": 33350
+    },
+    {
+      "epoch": 0.9651575243998468,
+      "grad_norm": 21.6875,
+      "learning_rate": 1.5080640791778791e-07,
+      "loss": 15.1355,
+      "step": 33400
+    },
+    {
+      "epoch": 0.9666023709932597,
+      "grad_norm": 24.390625,
+      "learning_rate": 1.5103216601347324e-07,
+      "loss": 15.2218,
+      "step": 33450
+    },
+    {
+      "epoch": 0.9680472175866728,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5125792410915854e-07,
+      "loss": 15.1256,
+      "step": 33500
+    },
+    {
+      "epoch": 0.9694920641800857,
+      "grad_norm": 19.984375,
+      "learning_rate": 1.5148368220484387e-07,
+      "loss": 15.1171,
+      "step": 33550
+    },
+    {
+      "epoch": 0.9709369107734986,
+      "grad_norm": 19.640625,
+      "learning_rate": 1.5170944030052918e-07,
+      "loss": 15.0999,
+      "step": 33600
+    },
+    {
+      "epoch": 0.9723817573669116,
+      "grad_norm": 24.265625,
+      "learning_rate": 1.519351983962145e-07,
+      "loss": 15.2255,
+      "step": 33650
+    },
+    {
+      "epoch": 0.9738266039603245,
+      "grad_norm": 25.546875,
+      "learning_rate": 1.521609564918998e-07,
+      "loss": 15.0743,
+      "step": 33700
+    },
+    {
+      "epoch": 0.9752714505537374,
+      "grad_norm": 21.578125,
+      "learning_rate": 1.5238671458758508e-07,
+      "loss": 15.145,
+      "step": 33750
+    },
+    {
+      "epoch": 0.9767162971471504,
+      "grad_norm": 24.46875,
+      "learning_rate": 1.526124726832704e-07,
+      "loss": 15.2408,
+      "step": 33800
+    },
+    {
+      "epoch": 0.9781611437405634,
+      "grad_norm": 21.984375,
+      "learning_rate": 1.5283823077895571e-07,
+      "loss": 15.1413,
+      "step": 33850
+    },
+    {
+      "epoch": 0.9796059903339763,
+      "grad_norm": 21.828125,
+      "learning_rate": 1.5306398887464104e-07,
+      "loss": 15.1452,
+      "step": 33900
+    },
+    {
+      "epoch": 0.9810508369273893,
+      "grad_norm": 22.125,
+      "learning_rate": 1.5328974697032635e-07,
+      "loss": 15.1786,
+      "step": 33950
+    },
+    {
+      "epoch": 0.9824956835208022,
+      "grad_norm": 27.046875,
+      "learning_rate": 1.5351550506601165e-07,
+      "loss": 15.069,
+      "step": 34000
+    },
+    {
+      "epoch": 0.9839405301142151,
+      "grad_norm": 21.65625,
+      "learning_rate": 1.5374126316169698e-07,
+      "loss": 15.1776,
+      "step": 34050
+    },
+    {
+      "epoch": 0.985385376707628,
+      "grad_norm": 21.953125,
+      "learning_rate": 1.5396702125738228e-07,
+      "loss": 15.1561,
+      "step": 34100
+    },
+    {
+      "epoch": 0.986830223301041,
+      "grad_norm": 25.75,
+      "learning_rate": 1.541927793530676e-07,
+      "loss": 15.2242,
+      "step": 34150
+    },
+    {
+      "epoch": 0.9882750698944539,
+      "grad_norm": 23.484375,
+      "learning_rate": 1.544185374487529e-07,
+      "loss": 15.1583,
+      "step": 34200
+    },
+    {
+      "epoch": 0.989719916487867,
+      "grad_norm": 27.984375,
+      "learning_rate": 1.546442955444382e-07,
+      "loss": 15.1159,
+      "step": 34250
+    },
+    {
+      "epoch": 0.9911647630812799,
+      "grad_norm": 21.34375,
+      "learning_rate": 1.5487005364012354e-07,
+      "loss": 15.0641,
+      "step": 34300
+    },
+    {
+      "epoch": 0.9926096096746928,
+      "grad_norm": 20.25,
+      "learning_rate": 1.5509581173580884e-07,
+      "loss": 15.139,
+      "step": 34350
+    },
+    {
+      "epoch": 0.9940544562681057,
+      "grad_norm": 21.640625,
+      "learning_rate": 1.5532156983149415e-07,
+      "loss": 15.0966,
+      "step": 34400
+    },
+    {
+      "epoch": 0.9954993028615187,
+      "grad_norm": 22.125,
+      "learning_rate": 1.5554732792717945e-07,
+      "loss": 15.1072,
+      "step": 34450
+    },
+    {
+      "epoch": 0.9969441494549316,
+      "grad_norm": 21.859375,
+      "learning_rate": 1.5577308602286478e-07,
+      "loss": 15.1392,
+      "step": 34500
+    },
+    {
+      "epoch": 0.9983889960483445,
+      "grad_norm": 21.703125,
+      "learning_rate": 1.5599884411855008e-07,
+      "loss": 15.2097,
+      "step": 34550
+    },
+    {
+      "epoch": 0.9998338426417576,
+      "grad_norm": 23.140625,
+      "learning_rate": 1.5622460221423538e-07,
+      "loss": 15.0667,
+      "step": 34600
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.042588809533587e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null