Training in progress, step 23000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b81985a8a1ebad5f960997d908e43f8d285835abd4645a1ad5e8d86d7a91e976
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09b714fd1dab9349e276a2d1d64f33fa5004406d993d6a429a5d969766a4711
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e989ff28ea16b1edbb8530fe11c0f4057d65c6350ad0a17cbf0a4960b2cb6ea
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c41cb06b8dbe81630708c3aba06b43b83a86488a65bdb7921cf7d53205761b4
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ec14043d0cb9b7579fdf9075af0f9a31a2393b8ca68497f0e5375a4fe1a3cf9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e51d5acf7af721ddb096287cdb18fed327f0e9b8f18a038e8c92ad3d7c982961
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ce6ab6f335eafbbff78f85b703b750b35d8b96e0da89ad49a445d3e07ab4df8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d95e34f92e07ac3fca3b42c6f704d96b3191058ad871fb9d07f6b2779013efbe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.48325295134384133,
   "eval_steps": 500,
-  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3924,11 +3924,189 @@
       "eval_steps_per_second": 19.24,
       "num_input_tokens_seen": 23068672000,
       "step": 22000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 23068672000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -3943,7 +4121,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3137777751228416e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5052189945867432,
   "eval_steps": 500,
+  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.24,
       "num_input_tokens_seen": 23068672000,
       "step": 22000
+    },
+    {
+      "epoch": 0.48435125350598646,
+      "grad_norm": 0.15728288888931274,
+      "learning_rate": 0.001,
+      "loss": 2.703,
+      "num_input_tokens_seen": 23121100800,
+      "step": 22050
+    },
+    {
+      "epoch": 0.4854495556681315,
+      "grad_norm": 0.13599443435668945,
+      "learning_rate": 0.001,
+      "loss": 2.6984,
+      "num_input_tokens_seen": 23173529600,
+      "step": 22100
+    },
+    {
+      "epoch": 0.4865478578302766,
+      "grad_norm": 0.25702551007270813,
+      "learning_rate": 0.001,
+      "loss": 2.9388,
+      "num_input_tokens_seen": 23225958400,
+      "step": 22150
+    },
+    {
+      "epoch": 0.4876461599924217,
+      "grad_norm": 0.12942279875278473,
+      "learning_rate": 0.001,
+      "loss": 2.7568,
+      "num_input_tokens_seen": 23278383360,
+      "step": 22200
+    },
+    {
+      "epoch": 0.4887444621545668,
+      "grad_norm": 0.12908817827701569,
+      "learning_rate": 0.001,
+      "loss": 2.7195,
+      "num_input_tokens_seen": 23330812160,
+      "step": 22250
+    },
+    {
+      "epoch": 0.4898427643167119,
+      "grad_norm": 0.1351587176322937,
+      "learning_rate": 0.001,
+      "loss": 2.7155,
+      "num_input_tokens_seen": 23383240960,
+      "step": 22300
+    },
+    {
+      "epoch": 0.490941066478857,
+      "grad_norm": 0.1245250552892685,
+      "learning_rate": 0.001,
+      "loss": 2.7074,
+      "num_input_tokens_seen": 23435669760,
+      "step": 22350
+    },
+    {
+      "epoch": 0.4920393686410021,
+      "grad_norm": 0.13818837702274323,
+      "learning_rate": 0.001,
+      "loss": 2.7064,
+      "num_input_tokens_seen": 23488098560,
+      "step": 22400
+    },
+    {
+      "epoch": 0.4931376708031472,
+      "grad_norm": 0.15505041182041168,
+      "learning_rate": 0.001,
+      "loss": 2.7044,
+      "num_input_tokens_seen": 23540527360,
+      "step": 22450
+    },
+    {
+      "epoch": 0.49423597296529226,
+      "grad_norm": 0.14414137601852417,
+      "learning_rate": 0.001,
+      "loss": 2.7046,
+      "num_input_tokens_seen": 23592956160,
+      "step": 22500
+    },
+    {
+      "epoch": 0.49423597296529226,
+      "eval_loss": 2.60188627243042,
+      "eval_runtime": 67.3268,
+      "eval_samples_per_second": 74.265,
+      "eval_steps_per_second": 18.566,
+      "num_input_tokens_seen": 23592956160,
+      "step": 22500
+    },
+    {
+      "epoch": 0.4953342751274374,
+      "grad_norm": 0.14763414859771729,
+      "learning_rate": 0.001,
+      "loss": 2.695,
+      "num_input_tokens_seen": 23645384960,
+      "step": 22550
+    },
+    {
+      "epoch": 0.49643257728958246,
+      "grad_norm": 0.14800110459327698,
+      "learning_rate": 0.001,
+      "loss": 2.6939,
+      "num_input_tokens_seen": 23697813760,
+      "step": 22600
+    },
+    {
+      "epoch": 0.4975308794517276,
+      "grad_norm": 0.13590902090072632,
+      "learning_rate": 0.001,
+      "loss": 2.6967,
+      "num_input_tokens_seen": 23750242560,
+      "step": 22650
+    },
+    {
+      "epoch": 0.49862918161387265,
+      "grad_norm": 0.1315733939409256,
+      "learning_rate": 0.001,
+      "loss": 2.6909,
+      "num_input_tokens_seen": 23802671360,
+      "step": 22700
+    },
+    {
+      "epoch": 0.4997274837760177,
+      "grad_norm": 0.13714700937271118,
+      "learning_rate": 0.001,
+      "loss": 2.6957,
+      "num_input_tokens_seen": 23855100160,
+      "step": 22750
+    },
+    {
+      "epoch": 0.5008257859381628,
+      "grad_norm": 0.1412438154220581,
+      "learning_rate": 0.001,
+      "loss": 2.6977,
+      "num_input_tokens_seen": 23907528960,
+      "step": 22800
+    },
+    {
+      "epoch": 0.501924088100308,
+      "grad_norm": 0.15368172526359558,
+      "learning_rate": 0.001,
+      "loss": 2.6977,
+      "num_input_tokens_seen": 23959957760,
+      "step": 22850
+    },
+    {
+      "epoch": 0.503022390262453,
+      "grad_norm": 0.14018824696540833,
+      "learning_rate": 0.001,
+      "loss": 2.6992,
+      "num_input_tokens_seen": 24012386560,
+      "step": 22900
+    },
+    {
+      "epoch": 0.5041206924245981,
+      "grad_norm": 0.1284814178943634,
+      "learning_rate": 0.001,
+      "loss": 2.6962,
+      "num_input_tokens_seen": 24064815360,
+      "step": 22950
+    },
+    {
+      "epoch": 0.5052189945867432,
+      "grad_norm": 0.15145835280418396,
+      "learning_rate": 0.001,
+      "loss": 2.692,
+      "num_input_tokens_seen": 24117244160,
+      "step": 23000
+    },
+    {
+      "epoch": 0.5052189945867432,
+      "eval_loss": 2.5970778465270996,
+      "eval_runtime": 66.1666,
+      "eval_samples_per_second": 75.567,
+      "eval_steps_per_second": 18.892,
+      "num_input_tokens_seen": 24117244160,
+      "step": 23000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 24117244160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.3734947280285204e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null