Training in progress, step 24000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b09b714fd1dab9349e276a2d1d64f33fa5004406d993d6a429a5d969766a4711
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:54c2b1dc0ce252890792fa50a7ced2b1884b184496f8709b1df62b942e4f6173
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c41cb06b8dbe81630708c3aba06b43b83a86488a65bdb7921cf7d53205761b4
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:6caaef1143ab01dc77c2601e1c5bde16b77c55e497c5f13366c2442c28ab6fac
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e51d5acf7af721ddb096287cdb18fed327f0e9b8f18a038e8c92ad3d7c982961
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eb9e5f9b752984653e9c2f4587df901a2cc5f64a95a0121fadf8e7c7c268621
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d95e34f92e07ac3fca3b42c6f704d96b3191058ad871fb9d07f6b2779013efbe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:06f0f3181677433703f6860ec173100c1f71e33282413595313e7174a82f6998
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5052189945867432,
   "eval_steps": 500,
-  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4102,11 +4102,189 @@
       "eval_steps_per_second": 18.892,
       "num_input_tokens_seen": 24117244160,
       "step": 23000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 24117244160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -4121,7 +4299,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3734947280285204e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5271850378296451,
   "eval_steps": 500,
+  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.892,
       "num_input_tokens_seen": 24117244160,
       "step": 23000
+    },
+    {
+      "epoch": 0.5063172967488883,
+      "grad_norm": 0.15117652714252472,
+      "learning_rate": 0.001,
+      "loss": 2.696,
+      "num_input_tokens_seen": 24169672960,
+      "step": 23050
+    },
+    {
+      "epoch": 0.5074155989110334,
+      "grad_norm": 0.15605470538139343,
+      "learning_rate": 0.001,
+      "loss": 2.6918,
+      "num_input_tokens_seen": 24222101760,
+      "step": 23100
+    },
+    {
+      "epoch": 0.5085139010731785,
+      "grad_norm": 0.17503651976585388,
+      "learning_rate": 0.001,
+      "loss": 2.688,
+      "num_input_tokens_seen": 24274530560,
+      "step": 23150
+    },
+    {
+      "epoch": 0.5096122032353236,
+      "grad_norm": 0.1622135490179062,
+      "learning_rate": 0.001,
+      "loss": 2.6949,
+      "num_input_tokens_seen": 24326959360,
+      "step": 23200
+    },
+    {
+      "epoch": 0.5107105053974687,
+      "grad_norm": 0.1331271231174469,
+      "learning_rate": 0.001,
+      "loss": 2.6876,
+      "num_input_tokens_seen": 24379388160,
+      "step": 23250
+    },
+    {
+      "epoch": 0.5118088075596138,
+      "grad_norm": 0.14365510642528534,
+      "learning_rate": 0.001,
+      "loss": 2.7027,
+      "num_input_tokens_seen": 24431816960,
+      "step": 23300
+    },
+    {
+      "epoch": 0.5129071097217589,
+      "grad_norm": 0.13621902465820312,
+      "learning_rate": 0.001,
+      "loss": 2.6946,
+      "num_input_tokens_seen": 24484245760,
+      "step": 23350
+    },
+    {
+      "epoch": 0.5140054118839039,
+      "grad_norm": 0.12506547570228577,
+      "learning_rate": 0.001,
+      "loss": 2.6864,
+      "num_input_tokens_seen": 24536674560,
+      "step": 23400
+    },
+    {
+      "epoch": 0.515103714046049,
+      "grad_norm": 0.12824128568172455,
+      "learning_rate": 0.001,
+      "loss": 2.6871,
+      "num_input_tokens_seen": 24589103360,
+      "step": 23450
+    },
+    {
+      "epoch": 0.5162020162081942,
+      "grad_norm": 0.14310036599636078,
+      "learning_rate": 0.001,
+      "loss": 2.6936,
+      "num_input_tokens_seen": 24641532160,
+      "step": 23500
+    },
+    {
+      "epoch": 0.5162020162081942,
+      "eval_loss": 2.592362880706787,
+      "eval_runtime": 66.663,
+      "eval_samples_per_second": 75.004,
+      "eval_steps_per_second": 18.751,
+      "num_input_tokens_seen": 24641532160,
+      "step": 23500
+    },
+    {
+      "epoch": 0.5173003183703393,
+      "grad_norm": 0.1362077295780182,
+      "learning_rate": 0.001,
+      "loss": 2.6924,
+      "num_input_tokens_seen": 24693960960,
+      "step": 23550
+    },
+    {
+      "epoch": 0.5183986205324843,
+      "grad_norm": 0.13662473857402802,
+      "learning_rate": 0.001,
+      "loss": 2.6972,
+      "num_input_tokens_seen": 24746389760,
+      "step": 23600
+    },
+    {
+      "epoch": 0.5194969226946294,
+      "grad_norm": 0.12603560090065002,
+      "learning_rate": 0.001,
+      "loss": 2.6908,
+      "num_input_tokens_seen": 24798818560,
+      "step": 23650
+    },
+    {
+      "epoch": 0.5205952248567746,
+      "grad_norm": 0.16597150266170502,
+      "learning_rate": 0.001,
+      "loss": 2.6882,
+      "num_input_tokens_seen": 24851247360,
+      "step": 23700
+    },
+    {
+      "epoch": 0.5216935270189196,
+      "grad_norm": 0.13665246963500977,
+      "learning_rate": 0.001,
+      "loss": 2.6958,
+      "num_input_tokens_seen": 24903676160,
+      "step": 23750
+    },
+    {
+      "epoch": 0.5227918291810647,
+      "grad_norm": 0.14349523186683655,
+      "learning_rate": 0.001,
+      "loss": 2.6874,
+      "num_input_tokens_seen": 24956104960,
+      "step": 23800
+    },
+    {
+      "epoch": 0.5238901313432098,
+      "grad_norm": 0.15857954323291779,
+      "learning_rate": 0.001,
+      "loss": 2.6882,
+      "num_input_tokens_seen": 25008533760,
+      "step": 23850
+    },
+    {
+      "epoch": 0.524988433505355,
+      "grad_norm": 0.15056300163269043,
+      "learning_rate": 0.001,
+      "loss": 2.694,
+      "num_input_tokens_seen": 25060962560,
+      "step": 23900
+    },
+    {
+      "epoch": 0.5260867356675,
+      "grad_norm": 0.12861080467700958,
+      "learning_rate": 0.001,
+      "loss": 2.6899,
+      "num_input_tokens_seen": 25113391360,
+      "step": 23950
+    },
+    {
+      "epoch": 0.5271850378296451,
+      "grad_norm": 0.14443258941173553,
+      "learning_rate": 0.001,
+      "loss": 2.6929,
+      "num_input_tokens_seen": 25165820160,
+      "step": 24000
+    },
+    {
+      "epoch": 0.5271850378296451,
+      "eval_loss": 2.5910630226135254,
+      "eval_runtime": 66.9014,
+      "eval_samples_per_second": 74.737,
+      "eval_steps_per_second": 18.684,
+      "num_input_tokens_seen": 25165820160,
+      "step": 24000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 25165820160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.4332118996250132e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null