Training in progress, step 29000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:598ec2e422397aad641d528881e643db9612147d6333b5c66a69998965ce9656
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:496d2b46e7c0c2d415917c3f430a70a0aac599fe885f35c60cc3199532b41d7a
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:593d98fe7868eb09c1f3193111558b84e18bf0affb6cefd648708d4d1cba6ae6
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5a0ef03792604564acfd0823f03cfd37314bbc8a8eb68b05d8de1d1cfee687a
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2954868f3cacffad4686728c7094ccb6fc0d9e0b5adf1b06d98602d6248bf938
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:782fee7d7309ad00bf19a629f420a995596231f63b5af04a7f7244e077883f2d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06d5fef101c9d39d51795e2426ebd97ece14c40eab5611cbd021ffd2d11b16ce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6038c3966e5acd5e329cd1d75f036dea625d34bb913a8f0d05452e8d1784e0ba
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6150492108012526,
   "eval_steps": 500,
-  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4992,11 +4992,189 @@
       "eval_steps_per_second": 18.847,
       "num_input_tokens_seen": 29360124160,
       "step": 28000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 29360124160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5011,7 +5189,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6720805860109844e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6370152540441545,
   "eval_steps": 500,
+  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.847,
       "num_input_tokens_seen": 29360124160,
       "step": 28000
+    },
+    {
+      "epoch": 0.6161475129633978,
+      "grad_norm": 0.13857993483543396,
+      "learning_rate": 0.001,
+      "loss": 2.677,
+      "num_input_tokens_seen": 29412552960,
+      "step": 28050
+    },
+    {
+      "epoch": 0.6172458151255428,
+      "grad_norm": 0.14276473224163055,
+      "learning_rate": 0.001,
+      "loss": 2.6669,
+      "num_input_tokens_seen": 29464981760,
+      "step": 28100
+    },
+    {
+      "epoch": 0.6183441172876879,
+      "grad_norm": 0.1536131203174591,
+      "learning_rate": 0.001,
+      "loss": 2.6757,
+      "num_input_tokens_seen": 29517410560,
+      "step": 28150
+    },
+    {
+      "epoch": 0.619442419449833,
+      "grad_norm": 0.15733414888381958,
+      "learning_rate": 0.001,
+      "loss": 2.6735,
+      "num_input_tokens_seen": 29569839360,
+      "step": 28200
+    },
+    {
+      "epoch": 0.620540721611978,
+      "grad_norm": 0.14553523063659668,
+      "learning_rate": 0.001,
+      "loss": 2.6683,
+      "num_input_tokens_seen": 29622268160,
+      "step": 28250
+    },
+    {
+      "epoch": 0.6216390237741232,
+      "grad_norm": 0.15685459971427917,
+      "learning_rate": 0.001,
+      "loss": 2.6692,
+      "num_input_tokens_seen": 29674696960,
+      "step": 28300
+    },
+    {
+      "epoch": 0.6227373259362683,
+      "grad_norm": 0.16553767025470734,
+      "learning_rate": 0.001,
+      "loss": 2.6778,
+      "num_input_tokens_seen": 29727125760,
+      "step": 28350
+    },
+    {
+      "epoch": 0.6238356280984134,
+      "grad_norm": 0.1619853973388672,
+      "learning_rate": 0.001,
+      "loss": 2.6807,
+      "num_input_tokens_seen": 29779554560,
+      "step": 28400
+    },
+    {
+      "epoch": 0.6249339302605584,
+      "grad_norm": 0.12794817984104156,
+      "learning_rate": 0.001,
+      "loss": 2.6776,
+      "num_input_tokens_seen": 29831983360,
+      "step": 28450
+    },
+    {
+      "epoch": 0.6260322324227036,
+      "grad_norm": 0.17001128196716309,
+      "learning_rate": 0.001,
+      "loss": 2.6797,
+      "num_input_tokens_seen": 29884412160,
+      "step": 28500
+    },
+    {
+      "epoch": 0.6260322324227036,
+      "eval_loss": 2.5728061199188232,
+      "eval_runtime": 66.7752,
+      "eval_samples_per_second": 74.878,
+      "eval_steps_per_second": 18.72,
+      "num_input_tokens_seen": 29884412160,
+      "step": 28500
+    },
+    {
+      "epoch": 0.6271305345848487,
+      "grad_norm": 0.12936875224113464,
+      "learning_rate": 0.001,
+      "loss": 2.6677,
+      "num_input_tokens_seen": 29936840960,
+      "step": 28550
+    },
+    {
+      "epoch": 0.6282288367469937,
+      "grad_norm": 0.14839358627796173,
+      "learning_rate": 0.001,
+      "loss": 2.6681,
+      "num_input_tokens_seen": 29989269760,
+      "step": 28600
+    },
+    {
+      "epoch": 0.6293271389091388,
+      "grad_norm": 0.1526126265525818,
+      "learning_rate": 0.001,
+      "loss": 2.6711,
+      "num_input_tokens_seen": 30041698560,
+      "step": 28650
+    },
+    {
+      "epoch": 0.630425441071284,
+      "grad_norm": 11.806962013244629,
+      "learning_rate": 0.001,
+      "loss": 2.7543,
+      "num_input_tokens_seen": 30094127360,
+      "step": 28700
+    },
+    {
+      "epoch": 0.631523743233429,
+      "grad_norm": 0.13446328043937683,
+      "learning_rate": 0.001,
+      "loss": 2.9466,
+      "num_input_tokens_seen": 30146556160,
+      "step": 28750
+    },
+    {
+      "epoch": 0.6326220453955741,
+      "grad_norm": 0.1319582760334015,
+      "learning_rate": 0.001,
+      "loss": 2.7002,
+      "num_input_tokens_seen": 30198984960,
+      "step": 28800
+    },
+    {
+      "epoch": 0.6337203475577192,
+      "grad_norm": 0.13955356180667877,
+      "learning_rate": 0.001,
+      "loss": 2.6814,
+      "num_input_tokens_seen": 30251413760,
+      "step": 28850
+    },
+    {
+      "epoch": 0.6348186497198643,
+      "grad_norm": 0.1295064240694046,
+      "learning_rate": 0.001,
+      "loss": 2.676,
+      "num_input_tokens_seen": 30303842560,
+      "step": 28900
+    },
+    {
+      "epoch": 0.6359169518820094,
+      "grad_norm": 0.1440495401620865,
+      "learning_rate": 0.001,
+      "loss": 2.6778,
+      "num_input_tokens_seen": 30356271360,
+      "step": 28950
+    },
+    {
+      "epoch": 0.6370152540441545,
+      "grad_norm": 0.13806115090847015,
+      "learning_rate": 0.001,
+      "loss": 2.6712,
+      "num_input_tokens_seen": 30408700160,
+      "step": 29000
+    },
+    {
+      "epoch": 0.6370152540441545,
+      "eval_loss": 2.576237440109253,
+      "eval_runtime": 66.9761,
+      "eval_samples_per_second": 74.653,
+      "eval_steps_per_second": 18.663,
+      "num_input_tokens_seen": 30408700160,
+      "step": 29000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 30408700160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.7317977576074772e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null