Training in progress, step 67000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6627f46453f0eddcb5503378a89a14a6529d63c8f3e731e04b523860ef73959
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b6d95b7e811d1f68b64bc7cb8a6aa2be60af9ae27cf26bbdeedecc87fc96939
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55adb983e10ce2c91d34635b0e2c61b12341302e3599339214fbe162d24db56d
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:4764d7e2e901d9dd421188980b44c73e20159a2b530b5e58e042540dbd4ca383
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5506f8ab70fc0520e3fcff77fee663d3576573119296fd847d8ec1a26a45a3cf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2f0aa502d64898ee3e50486c039d0e2439e7552237090a80d559862b18540a7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d828325c04baaeca4bef8dd14dbbff2a89fb26da8a22793521965c92d2ced694
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8f163bf0d684bb1f1d6d058d310158a309f623a594242fc874446ccea1105f8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.44394892569404854,
   "eval_steps": 500,
-  "global_step": 66000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11756,11 +11756,189 @@
       "eval_steps_per_second": 23.459,
       "num_input_tokens_seen": 17301504000,
       "step": 66000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17301504000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11775,7 +11953,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.62832118267904e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4506754245682008,
   "eval_steps": 500,
+  "global_step": 67000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.459,
       "num_input_tokens_seen": 17301504000,
       "step": 66000
+    },
+    {
+      "epoch": 0.4442852506377562,
+      "grad_norm": 0.14435406029224396,
+      "learning_rate": 0.0001429927009743659,
+      "loss": 2.9718,
+      "num_input_tokens_seen": 17314611200,
+      "step": 66050
+    },
+    {
+      "epoch": 0.4446215755814638,
+      "grad_norm": 0.1603071242570877,
+      "learning_rate": 0.0001395732016485406,
+      "loss": 2.9731,
+      "num_input_tokens_seen": 17327718400,
+      "step": 66100
+    },
+    {
+      "epoch": 0.4449579005251714,
+      "grad_norm": 0.14310726523399353,
+      "learning_rate": 0.00013618844100771256,
+      "loss": 2.9665,
+      "num_input_tokens_seen": 17340825600,
+      "step": 66150
+    },
+    {
+      "epoch": 0.44529422546887903,
+      "grad_norm": 0.276594340801239,
+      "learning_rate": 0.00013283874528215734,
+      "loss": 2.9711,
+      "num_input_tokens_seen": 17353932800,
+      "step": 66200
+    },
+    {
+      "epoch": 0.44563055041258665,
+      "grad_norm": 0.1535540074110031,
+      "learning_rate": 0.00012952443732252057,
+      "loss": 2.9693,
+      "num_input_tokens_seen": 17367040000,
+      "step": 66250
+    },
+    {
+      "epoch": 0.44596687535629426,
+      "grad_norm": 0.15807458758354187,
+      "learning_rate": 0.00012624583656870153,
+      "loss": 2.9754,
+      "num_input_tokens_seen": 17380147200,
+      "step": 66300
+    },
+    {
+      "epoch": 0.44630320030000187,
+      "grad_norm": 0.14477893710136414,
+      "learning_rate": 0.00012300325901906528,
+      "loss": 2.9735,
+      "num_input_tokens_seen": 17393254400,
+      "step": 66350
+    },
+    {
+      "epoch": 0.4466395252437095,
+      "grad_norm": 0.14505073428153992,
+      "learning_rate": 0.00011979701719998454,
+      "loss": 2.9783,
+      "num_input_tokens_seen": 17406361600,
+      "step": 66400
+    },
+    {
+      "epoch": 0.4469758501874171,
+      "grad_norm": 0.15850161015987396,
+      "learning_rate": 0.00011662742013571926,
+      "loss": 2.967,
+      "num_input_tokens_seen": 17419468800,
+      "step": 66450
+    },
+    {
+      "epoch": 0.4473121751311247,
+      "grad_norm": 0.14653578400611877,
+      "learning_rate": 0.00011349477331863151,
+      "loss": 2.9651,
+      "num_input_tokens_seen": 17432576000,
+      "step": 66500
+    },
+    {
+      "epoch": 0.4473121751311247,
+      "eval_loss": 2.8710148334503174,
+      "eval_runtime": 53.2889,
+      "eval_samples_per_second": 93.828,
+      "eval_steps_per_second": 23.457,
+      "num_input_tokens_seen": 17432576000,
+      "step": 66500
+    },
+    {
+      "epoch": 0.4476485000748323,
+      "grad_norm": 0.15636616945266724,
+      "learning_rate": 0.00011039937867974164,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17445683200,
+      "step": 66550
+    },
+    {
+      "epoch": 0.4479848250185399,
+      "grad_norm": 0.14427579939365387,
+      "learning_rate": 0.00010734153455962764,
+      "loss": 2.9594,
+      "num_input_tokens_seen": 17458790400,
+      "step": 66600
+    },
+    {
+      "epoch": 0.44832114996224753,
+      "grad_norm": 0.15148353576660156,
+      "learning_rate": 0.00010432153567966984,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 17471897600,
+      "step": 66650
+    },
+    {
+      "epoch": 0.44865747490595514,
+      "grad_norm": 0.1541094332933426,
+      "learning_rate": 0.0001013396731136465,
+      "loss": 2.9685,
+      "num_input_tokens_seen": 17485004800,
+      "step": 66700
+    },
+    {
+      "epoch": 0.44899379984966276,
+      "grad_norm": 0.14267295598983765,
+      "learning_rate": 9.839623425967759e-05,
+      "loss": 2.9728,
+      "num_input_tokens_seen": 17498112000,
+      "step": 66750
+    },
+    {
+      "epoch": 0.44933012479337037,
+      "grad_norm": 0.1437918245792389,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.9752,
+      "num_input_tokens_seen": 17511219200,
+      "step": 66800
+    },
+    {
+      "epoch": 0.449666449737078,
+      "grad_norm": 0.1517232209444046,
+      "learning_rate": 9.262575873625529e-05,
+      "loss": 2.9729,
+      "num_input_tokens_seen": 17524326400,
+      "step": 66850
+    },
+    {
+      "epoch": 0.4500027746807856,
+      "grad_norm": 0.15286608040332794,
+      "learning_rate": 8.979927823724321e-05,
+      "loss": 2.9687,
+      "num_input_tokens_seen": 17537433600,
+      "step": 66900
+    },
+    {
+      "epoch": 0.4503390996244932,
+      "grad_norm": 0.14875057339668274,
+      "learning_rate": 8.70123337375635e-05,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17550540800,
+      "step": 66950
+    },
+    {
+      "epoch": 0.4506754245682008,
+      "grad_norm": 0.1493612825870514,
+      "learning_rate": 8.426519384872733e-05,
+      "loss": 2.9704,
+      "num_input_tokens_seen": 17563648000,
+      "step": 67000
+    },
+    {
+      "epoch": 0.4506754245682008,
+      "eval_loss": 2.869231939315796,
+      "eval_runtime": 53.2491,
+      "eval_samples_per_second": 93.898,
+      "eval_steps_per_second": 23.475,
+      "num_input_tokens_seen": 17563648000,
+      "step": 67000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17563648000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.69844726120448e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null