Training in progress, step 49000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83040a9f33c98136e5fdace56390e4f45897e63e4e108ccbd4b366bd299ccd64
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d2189cc3a98b2403601c139a530c8e21835cb6237e1f4942ace6213b73fce5f
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:437a042365907c8955a2fc7d892d047bacaeaffa159edfba16e54b9aa6d50132
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec0537d11321458817927ebac3e783711d3aa86865e3823d0bc93d1e41dfc5d1
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3179ff7b9a01d9e9850f6d8ae042cb4934a5fc48309149cb50bc43cd37884f1d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:02dd1579b4e4c484590ab9c87fcdb4df0578497bcab5d7d028a086e5a9506abe
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de67d78be185ea67aa4ca20dcc37ca7f9d17d76246f8cfa3148b96b4fc56902c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:85feca9ffa4367dad07b4142308894db505807fd169bd3aedff12898c8f097e0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.228961207770371,
   "eval_steps": 500,
-  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8552,11 +8552,189 @@
       "eval_steps_per_second": 23.129,
       "num_input_tokens_seen": 12582907456,
       "step": 48000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 12582907456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8571,7 +8749,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3660505536567706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23373123293225373,
   "eval_steps": 500,
+  "global_step": 49000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.129,
       "num_input_tokens_seen": 12582907456,
       "step": 48000
+    },
+    {
+      "epoch": 0.22919970902846512,
+      "grad_norm": 0.20247948169708252,
+      "learning_rate": 0.001,
+      "loss": 2.6122,
+      "num_input_tokens_seen": 12596014656,
+      "step": 48050
+    },
+    {
+      "epoch": 0.22943821028655925,
+      "grad_norm": 0.20237554609775543,
+      "learning_rate": 0.001,
+      "loss": 2.6235,
+      "num_input_tokens_seen": 12609121856,
+      "step": 48100
+    },
+    {
+      "epoch": 0.2296767115446534,
+      "grad_norm": 0.19862660765647888,
+      "learning_rate": 0.001,
+      "loss": 2.6264,
+      "num_input_tokens_seen": 12622229056,
+      "step": 48150
+    },
+    {
+      "epoch": 0.22991521280274754,
+      "grad_norm": 0.20839153230190277,
+      "learning_rate": 0.001,
+      "loss": 2.5915,
+      "num_input_tokens_seen": 12635336256,
+      "step": 48200
+    },
+    {
+      "epoch": 0.23015371406084167,
+      "grad_norm": 0.19385166466236115,
+      "learning_rate": 0.001,
+      "loss": 2.5979,
+      "num_input_tokens_seen": 12648443456,
+      "step": 48250
+    },
+    {
+      "epoch": 0.2303922153189358,
+      "grad_norm": 0.197597935795784,
+      "learning_rate": 0.001,
+      "loss": 2.6093,
+      "num_input_tokens_seen": 12661550656,
+      "step": 48300
+    },
+    {
+      "epoch": 0.23063071657702994,
+      "grad_norm": 0.20289985835552216,
+      "learning_rate": 0.001,
+      "loss": 2.6039,
+      "num_input_tokens_seen": 12674657856,
+      "step": 48350
+    },
+    {
+      "epoch": 0.23086921783512407,
+      "grad_norm": 0.1986515372991562,
+      "learning_rate": 0.001,
+      "loss": 2.6048,
+      "num_input_tokens_seen": 12687765056,
+      "step": 48400
+    },
+    {
+      "epoch": 0.23110771909321823,
+      "grad_norm": 0.19720982015132904,
+      "learning_rate": 0.001,
+      "loss": 2.6171,
+      "num_input_tokens_seen": 12700872256,
+      "step": 48450
+    },
+    {
+      "epoch": 0.23134622035131236,
+      "grad_norm": 0.24635523557662964,
+      "learning_rate": 0.001,
+      "loss": 2.6242,
+      "num_input_tokens_seen": 12713979456,
+      "step": 48500
+    },
+    {
+      "epoch": 0.23134622035131236,
+      "eval_loss": 2.495468854904175,
+      "eval_runtime": 53.4259,
+      "eval_samples_per_second": 93.588,
+      "eval_steps_per_second": 23.397,
+      "num_input_tokens_seen": 12713979456,
+      "step": 48500
+    },
+    {
+      "epoch": 0.2315847216094065,
+      "grad_norm": 0.5883195996284485,
+      "learning_rate": 0.001,
+      "loss": 2.6399,
+      "num_input_tokens_seen": 12727086656,
+      "step": 48550
+    },
+    {
+      "epoch": 0.23182322286750062,
+      "grad_norm": 0.20890024304389954,
+      "learning_rate": 0.001,
+      "loss": 2.6325,
+      "num_input_tokens_seen": 12740193856,
+      "step": 48600
+    },
+    {
+      "epoch": 0.23206172412559475,
+      "grad_norm": 0.21251678466796875,
+      "learning_rate": 0.001,
+      "loss": 2.6233,
+      "num_input_tokens_seen": 12753301056,
+      "step": 48650
+    },
+    {
+      "epoch": 0.23230022538368889,
+      "grad_norm": 0.20996986329555511,
+      "learning_rate": 0.001,
+      "loss": 2.6174,
+      "num_input_tokens_seen": 12766408256,
+      "step": 48700
+    },
+    {
+      "epoch": 0.23253872664178304,
+      "grad_norm": 0.23039382696151733,
+      "learning_rate": 0.001,
+      "loss": 2.6305,
+      "num_input_tokens_seen": 12779515456,
+      "step": 48750
+    },
+    {
+      "epoch": 0.23277722789987718,
+      "grad_norm": 0.23922136425971985,
+      "learning_rate": 0.001,
+      "loss": 2.6108,
+      "num_input_tokens_seen": 12792622656,
+      "step": 48800
+    },
+    {
+      "epoch": 0.2330157291579713,
+      "grad_norm": 0.22746366262435913,
+      "learning_rate": 0.001,
+      "loss": 2.6219,
+      "num_input_tokens_seen": 12805729856,
+      "step": 48850
+    },
+    {
+      "epoch": 0.23325423041606544,
+      "grad_norm": 0.22131897509098053,
+      "learning_rate": 0.001,
+      "loss": 2.6205,
+      "num_input_tokens_seen": 12818837056,
+      "step": 48900
+    },
+    {
+      "epoch": 0.23349273167415957,
+      "grad_norm": 0.25431814789772034,
+      "learning_rate": 0.001,
+      "loss": 2.6252,
+      "num_input_tokens_seen": 12831944256,
+      "step": 48950
+    },
+    {
+      "epoch": 0.23373123293225373,
+      "grad_norm": 0.2622738778591156,
+      "learning_rate": 0.001,
+      "loss": 2.6288,
+      "num_input_tokens_seen": 12845051456,
+      "step": 49000
+    },
+    {
+      "epoch": 0.23373123293225373,
+      "eval_loss": 2.498055934906006,
+      "eval_runtime": 53.8861,
+      "eval_samples_per_second": 92.788,
+      "eval_steps_per_second": 23.197,
+      "num_input_tokens_seen": 12845051456,
+      "step": 49000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 12845051456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.4361766321822106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null