Training in progress, step 57000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75a54732bc39e58afccb21a46f57190dd49c2ae00c7fd73b4d8434827934d2aa
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:c12b0497c316584eab0a6471e97deaea6b6c97411924d2517f029fde79d3b1c2
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da1643d7c66b6de7210d626427e81524686db0e0650499f03aeaee61e640ca95
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e51e859ffdf4b3059a027d7764e0788d882ec9bf060bed69c183a774f7373cd
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f1d7953b9adf97d81c8d5df7c90f2cd3786e196584c751d3c25ee459604bb2b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b80a94302b027aba469e721f259f7cea336e0f08145beaf0eef00eec23f3459c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56dc1edb3d2e4264095d54347eab2555bc17fb9d10875074bfbbaaa6e5eeeb69
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:25aca1947c52853a475b5e869ec5722620ca13248105b9ec208f0e66ff7cf239
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2671214090654328,
   "eval_steps": 500,
-  "global_step": 56000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9976,11 +9976,189 @@
       "eval_steps_per_second": 23.416,
       "num_input_tokens_seen": 14680059456,
       "step": 56000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 14680059456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9995,7 +10173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9270591818602906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.27189143422731554,
   "eval_steps": 500,
+  "global_step": 57000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.416,
       "num_input_tokens_seen": 14680059456,
       "step": 56000
+    },
+    {
+      "epoch": 0.26735991032352696,
+      "grad_norm": 0.22615984082221985,
+      "learning_rate": 0.0009999685283773503,
+      "loss": 2.5961,
+      "num_input_tokens_seen": 14693166656,
+      "step": 56050
+    },
+    {
+      "epoch": 0.2675984115816211,
+      "grad_norm": 0.2738794982433319,
+      "learning_rate": 0.0009998741174712534,
+      "loss": 2.612,
+      "num_input_tokens_seen": 14706273856,
+      "step": 56100
+    },
+    {
+      "epoch": 0.2678369128397152,
+      "grad_norm": 0.23470066487789154,
+      "learning_rate": 0.0009997167791667668,
+      "loss": 2.6071,
+      "num_input_tokens_seen": 14719381056,
+      "step": 56150
+    },
+    {
+      "epoch": 0.2680754140978094,
+      "grad_norm": 0.23558543622493744,
+      "learning_rate": 0.0009994965332706573,
+      "loss": 2.5956,
+      "num_input_tokens_seen": 14732488256,
+      "step": 56200
+    },
+    {
+      "epoch": 0.2683139153559035,
+      "grad_norm": 0.2274416983127594,
+      "learning_rate": 0.0009992134075089082,
+      "loss": 2.5873,
+      "num_input_tokens_seen": 14745595456,
+      "step": 56250
+    },
+    {
+      "epoch": 0.26855241661399765,
+      "grad_norm": 0.21609161794185638,
+      "learning_rate": 0.000998867437523228,
+      "loss": 2.6043,
+      "num_input_tokens_seen": 14758702656,
+      "step": 56300
+    },
+    {
+      "epoch": 0.26879091787209175,
+      "grad_norm": 0.2368565797805786,
+      "learning_rate": 0.000998458666866564,
+      "loss": 2.5952,
+      "num_input_tokens_seen": 14771809856,
+      "step": 56350
+    },
+    {
+      "epoch": 0.2690294191301859,
+      "grad_norm": 0.22180891036987305,
+      "learning_rate": 0.0009979871469976197,
+      "loss": 2.5934,
+      "num_input_tokens_seen": 14784917056,
+      "step": 56400
+    },
+    {
+      "epoch": 0.26926792038828007,
+      "grad_norm": 0.3060019910335541,
+      "learning_rate": 0.0009974529372743762,
+      "loss": 2.6224,
+      "num_input_tokens_seen": 14798024256,
+      "step": 56450
+    },
+    {
+      "epoch": 0.2695064216463742,
+      "grad_norm": 0.2387322634458542,
+      "learning_rate": 0.0009968561049466214,
+      "loss": 2.5905,
+      "num_input_tokens_seen": 14811131456,
+      "step": 56500
+    },
+    {
+      "epoch": 0.2695064216463742,
+      "eval_loss": 2.4835996627807617,
+      "eval_runtime": 53.8478,
+      "eval_samples_per_second": 92.854,
+      "eval_steps_per_second": 23.214,
+      "num_input_tokens_seen": 14811131456,
+      "step": 56500
+    },
+    {
+      "epoch": 0.26974492290446833,
+      "grad_norm": 0.22091372311115265,
+      "learning_rate": 0.0009961967251474822,
+      "loss": 2.6139,
+      "num_input_tokens_seen": 14824238656,
+      "step": 56550
+    },
+    {
+      "epoch": 0.26998342416256244,
+      "grad_norm": 0.2304680198431015,
+      "learning_rate": 0.0009954748808839674,
+      "loss": 2.6167,
+      "num_input_tokens_seen": 14837345856,
+      "step": 56600
+    },
+    {
+      "epoch": 0.2702219254206566,
+      "grad_norm": 0.19777421653270721,
+      "learning_rate": 0.0009946906630265184,
+      "loss": 2.6082,
+      "num_input_tokens_seen": 14850453056,
+      "step": 56650
+    },
+    {
+      "epoch": 0.27046042667875075,
+      "grad_norm": 0.2113979458808899,
+      "learning_rate": 0.0009938441702975688,
+      "loss": 2.5981,
+      "num_input_tokens_seen": 14863560256,
+      "step": 56700
+    },
+    {
+      "epoch": 0.27069892793684486,
+      "grad_norm": 0.19911637902259827,
+      "learning_rate": 0.0009929355092591179,
+      "loss": 2.5904,
+      "num_input_tokens_seen": 14876667456,
+      "step": 56750
+    },
+    {
+      "epoch": 0.270937429194939,
+      "grad_norm": 0.20081694424152374,
+      "learning_rate": 0.0009919647942993148,
+      "loss": 2.6012,
+      "num_input_tokens_seen": 14889774656,
+      "step": 56800
+    },
+    {
+      "epoch": 0.2711759304530331,
+      "grad_norm": 0.22752800583839417,
+      "learning_rate": 0.0009909321476180592,
+      "loss": 2.6017,
+      "num_input_tokens_seen": 14902881856,
+      "step": 56850
+    },
+    {
+      "epoch": 0.2714144317111273,
+      "grad_norm": 0.23174402117729187,
+      "learning_rate": 0.0009898376992116178,
+      "loss": 2.6012,
+      "num_input_tokens_seen": 14915989056,
+      "step": 56900
+    },
+    {
+      "epoch": 0.27165293296922144,
+      "grad_norm": 0.22149533033370972,
+      "learning_rate": 0.0009886815868562597,
+      "loss": 2.5881,
+      "num_input_tokens_seen": 14929096256,
+      "step": 56950
+    },
+    {
+      "epoch": 0.27189143422731554,
+      "grad_norm": 0.22576771676540375,
+      "learning_rate": 0.0009874639560909118,
+      "loss": 2.6021,
+      "num_input_tokens_seen": 14942203456,
+      "step": 57000
+    },
+    {
+      "epoch": 0.27189143422731554,
+      "eval_loss": 2.482896566390991,
+      "eval_runtime": 53.3773,
+      "eval_samples_per_second": 93.673,
+      "eval_steps_per_second": 23.418,
+      "num_input_tokens_seen": 14942203456,
+      "step": 57000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 14942203456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.9971852603857306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null