Training in progress, step 30000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:496d2b46e7c0c2d415917c3f430a70a0aac599fe885f35c60cc3199532b41d7a
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9965fcf14e783e7e1d55074ea2afa9a825c414e7bb1e05e788c2b6e78b01e868
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5a0ef03792604564acfd0823f03cfd37314bbc8a8eb68b05d8de1d1cfee687a
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44a1859e7ded3de3d773c5abac76c0fc5f7c6f4fc38577dfe331b1a4c391ab7
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:782fee7d7309ad00bf19a629f420a995596231f63b5af04a7f7244e077883f2d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc95bdc35ebe00877717681894afcd7d44f457b0583fea8b14d22f39dd179eb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6038c3966e5acd5e329cd1d75f036dea625d34bb913a8f0d05452e8d1784e0ba
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d0c8a94ae7b3402d9f6c538decfc8292fd64108bb86fd10da3f27734428bf0b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6370152540441545,
   "eval_steps": 500,
-  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5170,11 +5170,189 @@
       "eval_steps_per_second": 18.663,
       "num_input_tokens_seen": 30408700160,
       "step": 29000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 30408700160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5189,7 +5367,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7317977576074772e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6589812972870563,
   "eval_steps": 500,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.663,
       "num_input_tokens_seen": 30408700160,
       "step": 29000
+    },
+    {
+      "epoch": 0.6381135562062996,
+      "grad_norm": 0.13853897154331207,
+      "learning_rate": 0.001,
+      "loss": 2.6719,
+      "num_input_tokens_seen": 30461128960,
+      "step": 29050
+    },
+    {
+      "epoch": 0.6392118583684446,
+      "grad_norm": 0.14228977262973785,
+      "learning_rate": 0.001,
+      "loss": 2.6788,
+      "num_input_tokens_seen": 30513557760,
+      "step": 29100
+    },
+    {
+      "epoch": 0.6403101605305898,
+      "grad_norm": 0.13464143872261047,
+      "learning_rate": 0.001,
+      "loss": 2.6743,
+      "num_input_tokens_seen": 30565986560,
+      "step": 29150
+    },
+    {
+      "epoch": 0.6414084626927349,
+      "grad_norm": 0.15960821509361267,
+      "learning_rate": 0.001,
+      "loss": 2.6729,
+      "num_input_tokens_seen": 30618415360,
+      "step": 29200
+    },
+    {
+      "epoch": 0.64250676485488,
+      "grad_norm": 0.13830585777759552,
+      "learning_rate": 0.001,
+      "loss": 2.6723,
+      "num_input_tokens_seen": 30670844160,
+      "step": 29250
+    },
+    {
+      "epoch": 0.643605067017025,
+      "grad_norm": 0.14440728724002838,
+      "learning_rate": 0.001,
+      "loss": 2.664,
+      "num_input_tokens_seen": 30723272960,
+      "step": 29300
+    },
+    {
+      "epoch": 0.6447033691791701,
+      "grad_norm": 0.14259463548660278,
+      "learning_rate": 0.001,
+      "loss": 2.6675,
+      "num_input_tokens_seen": 30775701760,
+      "step": 29350
+    },
+    {
+      "epoch": 0.6458016713413153,
+      "grad_norm": 0.1462564468383789,
+      "learning_rate": 0.001,
+      "loss": 2.6671,
+      "num_input_tokens_seen": 30828130560,
+      "step": 29400
+    },
+    {
+      "epoch": 0.6468999735034603,
+      "grad_norm": 0.1443469077348709,
+      "learning_rate": 0.001,
+      "loss": 2.6667,
+      "num_input_tokens_seen": 30880559360,
+      "step": 29450
+    },
+    {
+      "epoch": 0.6479982756656054,
+      "grad_norm": 0.143255814909935,
+      "learning_rate": 0.001,
+      "loss": 2.6652,
+      "num_input_tokens_seen": 30932988160,
+      "step": 29500
+    },
+    {
+      "epoch": 0.6479982756656054,
+      "eval_loss": 2.569544792175293,
+      "eval_runtime": 66.8674,
+      "eval_samples_per_second": 74.775,
+      "eval_steps_per_second": 18.694,
+      "num_input_tokens_seen": 30932988160,
+      "step": 29500
+    },
+    {
+      "epoch": 0.6490965778277505,
+      "grad_norm": 0.15149758756160736,
+      "learning_rate": 0.001,
+      "loss": 2.6681,
+      "num_input_tokens_seen": 30985416960,
+      "step": 29550
+    },
+    {
+      "epoch": 0.6501948799898957,
+      "grad_norm": 0.15703468024730682,
+      "learning_rate": 0.001,
+      "loss": 2.6681,
+      "num_input_tokens_seen": 31037845760,
+      "step": 29600
+    },
+    {
+      "epoch": 0.6512931821520407,
+      "grad_norm": 0.14332515001296997,
+      "learning_rate": 0.001,
+      "loss": 2.6622,
+      "num_input_tokens_seen": 31090274560,
+      "step": 29650
+    },
+    {
+      "epoch": 0.6523914843141858,
+      "grad_norm": 0.13763870298862457,
+      "learning_rate": 0.001,
+      "loss": 2.6724,
+      "num_input_tokens_seen": 31142703360,
+      "step": 29700
+    },
+    {
+      "epoch": 0.6534897864763309,
+      "grad_norm": 0.11858976632356644,
+      "learning_rate": 0.001,
+      "loss": 2.6743,
+      "num_input_tokens_seen": 31195132160,
+      "step": 29750
+    },
+    {
+      "epoch": 0.654588088638476,
+      "grad_norm": 0.15627937018871307,
+      "learning_rate": 0.001,
+      "loss": 2.6653,
+      "num_input_tokens_seen": 31247560960,
+      "step": 29800
+    },
+    {
+      "epoch": 0.6556863908006211,
+      "grad_norm": 0.15052759647369385,
+      "learning_rate": 0.001,
+      "loss": 2.6684,
+      "num_input_tokens_seen": 31299989760,
+      "step": 29850
+    },
+    {
+      "epoch": 0.6567846929627662,
+      "grad_norm": 0.1648450791835785,
+      "learning_rate": 0.001,
+      "loss": 2.6783,
+      "num_input_tokens_seen": 31352418560,
+      "step": 29900
+    },
+    {
+      "epoch": 0.6578829951249113,
+      "grad_norm": 0.13318586349487305,
+      "learning_rate": 0.001,
+      "loss": 2.6712,
+      "num_input_tokens_seen": 31404847360,
+      "step": 29950
+    },
+    {
+      "epoch": 0.6589812972870563,
+      "grad_norm": 0.1517287641763687,
+      "learning_rate": 0.001,
+      "loss": 2.6688,
+      "num_input_tokens_seen": 31457276160,
+      "step": 30000
+    },
+    {
+      "epoch": 0.6589812972870563,
+      "eval_loss": 2.5676708221435547,
+      "eval_runtime": 66.0876,
+      "eval_samples_per_second": 75.657,
+      "eval_steps_per_second": 18.914,
+      "num_input_tokens_seen": 31457276160,
+      "step": 30000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 31457276160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.79151492920397e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null