Training in progress, step 11838, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08019f8dd515e2b7dd1e16b7ad39ac1098307f1c6ab16b9ed965910d0892bc77
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b44b5dec3eb521e4966741844bbf6502227d6ed08a1303474080332dfbe45e5
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fe73ae0629191b3874b216e4c6336651d3274bf403ab0a26100f714397a9f08
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:6886cac9d99b59f70ddb2a5a11358ca7a3e8d9f6f65ffabbc7d41be6c68dc0f9
 size 318646859

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:116f0b85bffdc97adeb264e8dbd65d6acc7d514e82a48ea5ea50bd5091784a48
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b172ef1a2b23540cb3d53eed9b6dcd9ee9e06553bb8c4f5a46142cb0fe60689
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9428957594188208,
   "eval_steps": 500,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8249,6 +8249,237 @@
       "eval_samples_per_second": 273.376,
       "eval_steps_per_second": 5.741,
       "step": 11500
     }
   ],
   "logging_steps": 10,
@@ -8263,12 +8494,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.846232536325816e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 11838,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 273.376,
       "eval_steps_per_second": 5.741,
       "step": 11500
+    },
+    {
+      "epoch": 1.9445852339922283,
+      "grad_norm": 0.4365793466567993,
+      "learning_rate": 8.270650415620584e-07,
+      "loss": 4.29614372253418,
+      "step": 11510
+    },
+    {
+      "epoch": 1.9462747085656362,
+      "grad_norm": 0.43951302766799927,
+      "learning_rate": 7.775944524542055e-07,
+      "loss": 4.270536422729492,
+      "step": 11520
+    },
+    {
+      "epoch": 1.9479641831390437,
+      "grad_norm": 0.45033299922943115,
+      "learning_rate": 7.296455308872406e-07,
+      "loss": 4.282721710205078,
+      "step": 11530
+    },
+    {
+      "epoch": 1.9496536577124515,
+      "grad_norm": 0.43896329402923584,
+      "learning_rate": 6.832187658113441e-07,
+      "loss": 4.2960052490234375,
+      "step": 11540
+    },
+    {
+      "epoch": 1.9513431322858592,
+      "grad_norm": 0.44476914405822754,
+      "learning_rate": 6.383146306547626e-07,
+      "loss": 4.30328483581543,
+      "step": 11550
+    },
+    {
+      "epoch": 1.9530326068592667,
+      "grad_norm": 0.4521080553531647,
+      "learning_rate": 5.949335833189628e-07,
+      "loss": 4.327355575561524,
+      "step": 11560
+    },
+    {
+      "epoch": 1.9547220814326745,
+      "grad_norm": 0.4513733983039856,
+      "learning_rate": 5.530760661741018e-07,
+      "loss": 4.302740859985351,
+      "step": 11570
+    },
+    {
+      "epoch": 1.9564115560060822,
+      "grad_norm": 0.4388287663459778,
+      "learning_rate": 5.127425060543478e-07,
+      "loss": 4.277825546264649,
+      "step": 11580
+    },
+    {
+      "epoch": 1.9581010305794897,
+      "grad_norm": 0.44225117564201355,
+      "learning_rate": 4.7393331425364943e-07,
+      "loss": 4.280667877197265,
+      "step": 11590
+    },
+    {
+      "epoch": 1.9597905051528974,
+      "grad_norm": 0.44035524129867554,
+      "learning_rate": 4.3664888652144017e-07,
+      "loss": 4.278044891357422,
+      "step": 11600
+    },
+    {
+      "epoch": 1.9614799797263052,
+      "grad_norm": 0.44098883867263794,
+      "learning_rate": 4.008896030587072e-07,
+      "loss": 4.268376159667969,
+      "step": 11610
+    },
+    {
+      "epoch": 1.9631694542997127,
+      "grad_norm": 0.43533217906951904,
+      "learning_rate": 3.6665582851406195e-07,
+      "loss": 4.295290756225586,
+      "step": 11620
+    },
+    {
+      "epoch": 1.9648589288731204,
+      "grad_norm": 0.45106539130210876,
+      "learning_rate": 3.3394791198000927e-07,
+      "loss": 4.281253051757813,
+      "step": 11630
+    },
+    {
+      "epoch": 1.9665484034465281,
+      "grad_norm": 0.44754281640052795,
+      "learning_rate": 3.027661869893672e-07,
+      "loss": 4.281909942626953,
+      "step": 11640
+    },
+    {
+      "epoch": 1.9682378780199357,
+      "grad_norm": 0.438475638628006,
+      "learning_rate": 2.731109715119861e-07,
+      "loss": 4.280799484252929,
+      "step": 11650
+    },
+    {
+      "epoch": 1.9699273525933436,
+      "grad_norm": 0.44646841287612915,
+      "learning_rate": 2.4498256795135173e-07,
+      "loss": 4.306585693359375,
+      "step": 11660
+    },
+    {
+      "epoch": 1.9716168271667511,
+      "grad_norm": 0.4341582953929901,
+      "learning_rate": 2.183812631415871e-07,
+      "loss": 4.274542617797851,
+      "step": 11670
+    },
+    {
+      "epoch": 1.9733063017401589,
+      "grad_norm": 0.4331877827644348,
+      "learning_rate": 1.933073283445219e-07,
+      "loss": 4.2908935546875,
+      "step": 11680
+    },
+    {
+      "epoch": 1.9749957763135666,
+      "grad_norm": 0.447518914937973,
+      "learning_rate": 1.697610192469112e-07,
+      "loss": 4.3111217498779295,
+      "step": 11690
+    },
+    {
+      "epoch": 1.976685250886974,
+      "grad_norm": 0.44273945689201355,
+      "learning_rate": 1.4774257595783766e-07,
+      "loss": 4.300546264648437,
+      "step": 11700
+    },
+    {
+      "epoch": 1.9783747254603818,
+      "grad_norm": 0.45125117897987366,
+      "learning_rate": 1.272522230062467e-07,
+      "loss": 4.289936828613281,
+      "step": 11710
+    },
+    {
+      "epoch": 1.9800642000337896,
+      "grad_norm": 0.43694615364074707,
+      "learning_rate": 1.0829016933869838e-07,
+      "loss": 4.289299392700196,
+      "step": 11720
+    },
+    {
+      "epoch": 1.981753674607197,
+      "grad_norm": 0.44341588020324707,
+      "learning_rate": 9.085660831715247e-08,
+      "loss": 4.297845458984375,
+      "step": 11730
+    },
+    {
+      "epoch": 1.9834431491806048,
+      "grad_norm": 0.446321576833725,
+      "learning_rate": 7.495171771710328e-08,
+      "loss": 4.293007659912109,
+      "step": 11740
+    },
+    {
+      "epoch": 1.9851326237540126,
+      "grad_norm": 0.44870322942733765,
+      "learning_rate": 6.057565972568123e-08,
+      "loss": 4.291889190673828,
+      "step": 11750
+    },
+    {
+      "epoch": 1.98682209832742,
+      "grad_norm": 0.44810283184051514,
+      "learning_rate": 4.772858094005405e-08,
+      "loss": 4.299283981323242,
+      "step": 11760
+    },
+    {
+      "epoch": 1.9885115729008278,
+      "grad_norm": 0.44559845328330994,
+      "learning_rate": 3.641061236591136e-08,
+      "loss": 4.282249832153321,
+      "step": 11770
+    },
+    {
+      "epoch": 1.9902010474742355,
+      "grad_norm": 0.4399174153804779,
+      "learning_rate": 2.6621869416099118e-08,
+      "loss": 4.288850021362305,
+      "step": 11780
+    },
+    {
+      "epoch": 1.991890522047643,
+      "grad_norm": 0.4408097267150879,
+      "learning_rate": 1.8362451909520458e-08,
+      "loss": 4.286129760742187,
+      "step": 11790
+    },
+    {
+      "epoch": 1.993579996621051,
+      "grad_norm": 0.44703418016433716,
+      "learning_rate": 1.16324440700033e-08,
+      "loss": 4.295662307739258,
+      "step": 11800
+    },
+    {
+      "epoch": 1.9952694711944585,
+      "grad_norm": 0.45136868953704834,
+      "learning_rate": 6.431914525567572e-09,
+      "loss": 4.288112640380859,
+      "step": 11810
+    },
+    {
+      "epoch": 1.996958945767866,
+      "grad_norm": 0.4494999647140503,
+      "learning_rate": 2.760916307625871e-09,
+      "loss": 4.304160308837891,
+      "step": 11820
+    },
+    {
+      "epoch": 1.998648420341274,
+      "grad_norm": 0.4357486665248871,
+      "learning_rate": 6.194868504838524e-10,
+      "loss": 4.277233123779297,
+      "step": 11830
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.959258038224814e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null