Training in progress, step 11000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa4c5a2f220199565c612d1b585e05a7b92fff44644cb0d5fe3e2f43506e0e66
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:25851b0b62512a3b653e1b28e1122d3212578c5e77ebf5b79e658ffec9b3b79f
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6389d8c90e4661170f94cbc7fb36a5d3b74c5a0f6b13c2a19b9518515670df99
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:df743e5d843f3a7837833bec4e1caf6ae5d4bce7ba980e12a541afbc37b034f0
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf18e0901d5cf90634d477e2ea56f1da923039f227c0abc08997f7c74e97f4e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:25b1915a16f6a9d0eca7bf59f4a66ab58a1d3558fffae49f30b6000a597cffb1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00e07de65a0221f25bbdd3fefea6366e38c04a216122618dd72af76e955ce943
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:811fd3ba19eb7a55c539858dcaf05c190bd36b9252f7748cbb128712f2400a11
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21966043242901878,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1788,11 +1788,189 @@
       "eval_steps_per_second": 18.843,
       "num_input_tokens_seen": 10485760000,
       "step": 10000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 10485760000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -1807,7 +1985,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.97171715964928e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24162647567192067,
   "eval_steps": 500,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.843,
       "num_input_tokens_seen": 10485760000,
       "step": 10000
+    },
+    {
+      "epoch": 0.22075873459116388,
+      "grad_norm": 0.13463908433914185,
+      "learning_rate": 0.001,
+      "loss": 2.8242,
+      "num_input_tokens_seen": 10538188800,
+      "step": 10050
+    },
+    {
+      "epoch": 0.22185703675330898,
+      "grad_norm": 0.11778156459331512,
+      "learning_rate": 0.001,
+      "loss": 2.8234,
+      "num_input_tokens_seen": 10590617600,
+      "step": 10100
+    },
+    {
+      "epoch": 0.22295533891545408,
+      "grad_norm": 0.11393869668245316,
+      "learning_rate": 0.001,
+      "loss": 2.8204,
+      "num_input_tokens_seen": 10643046400,
+      "step": 10150
+    },
+    {
+      "epoch": 0.22405364107759917,
+      "grad_norm": 0.12454303354024887,
+      "learning_rate": 0.001,
+      "loss": 2.8185,
+      "num_input_tokens_seen": 10695475200,
+      "step": 10200
+    },
+    {
+      "epoch": 0.22515194323974427,
+      "grad_norm": 0.1148439347743988,
+      "learning_rate": 0.001,
+      "loss": 2.8219,
+      "num_input_tokens_seen": 10747904000,
+      "step": 10250
+    },
+    {
+      "epoch": 0.22625024540188934,
+      "grad_norm": 0.13888292014598846,
+      "learning_rate": 0.001,
+      "loss": 2.8157,
+      "num_input_tokens_seen": 10800332800,
+      "step": 10300
+    },
+    {
+      "epoch": 0.22734854756403444,
+      "grad_norm": 0.12242749333381653,
+      "learning_rate": 0.001,
+      "loss": 2.8165,
+      "num_input_tokens_seen": 10852761600,
+      "step": 10350
+    },
+    {
+      "epoch": 0.22844684972617954,
+      "grad_norm": 0.13651017844676971,
+      "learning_rate": 0.001,
+      "loss": 2.8165,
+      "num_input_tokens_seen": 10905190400,
+      "step": 10400
+    },
+    {
+      "epoch": 0.22954515188832464,
+      "grad_norm": 0.12349703162908554,
+      "learning_rate": 0.001,
+      "loss": 2.8126,
+      "num_input_tokens_seen": 10957619200,
+      "step": 10450
+    },
+    {
+      "epoch": 0.23064345405046974,
+      "grad_norm": 0.13448943197727203,
+      "learning_rate": 0.001,
+      "loss": 2.8162,
+      "num_input_tokens_seen": 11010048000,
+      "step": 10500
+    },
+    {
+      "epoch": 0.23064345405046974,
+      "eval_loss": 2.720102071762085,
+      "eval_runtime": 65.0663,
+      "eval_samples_per_second": 76.845,
+      "eval_steps_per_second": 19.211,
+      "num_input_tokens_seen": 11010048000,
+      "step": 10500
+    },
+    {
+      "epoch": 0.23174175621261484,
+      "grad_norm": 0.1171165183186531,
+      "learning_rate": 0.001,
+      "loss": 2.817,
+      "num_input_tokens_seen": 11062476800,
+      "step": 10550
+    },
+    {
+      "epoch": 0.2328400583747599,
+      "grad_norm": 0.1417781263589859,
+      "learning_rate": 0.001,
+      "loss": 2.8159,
+      "num_input_tokens_seen": 11114905600,
+      "step": 10600
+    },
+    {
+      "epoch": 0.233938360536905,
+      "grad_norm": 0.13051685690879822,
+      "learning_rate": 0.001,
+      "loss": 2.8062,
+      "num_input_tokens_seen": 11167334400,
+      "step": 10650
+    },
+    {
+      "epoch": 0.2350366626990501,
+      "grad_norm": 0.12536808848381042,
+      "learning_rate": 0.001,
+      "loss": 2.8166,
+      "num_input_tokens_seen": 11219763200,
+      "step": 10700
+    },
+    {
+      "epoch": 0.2361349648611952,
+      "grad_norm": 0.11859289556741714,
+      "learning_rate": 0.001,
+      "loss": 2.8075,
+      "num_input_tokens_seen": 11272192000,
+      "step": 10750
+    },
+    {
+      "epoch": 0.2372332670233403,
+      "grad_norm": 0.14844287931919098,
+      "learning_rate": 0.001,
+      "loss": 2.8139,
+      "num_input_tokens_seen": 11324620800,
+      "step": 10800
+    },
+    {
+      "epoch": 0.2383315691854854,
+      "grad_norm": 0.12877844274044037,
+      "learning_rate": 0.001,
+      "loss": 2.8031,
+      "num_input_tokens_seen": 11377049600,
+      "step": 10850
+    },
+    {
+      "epoch": 0.23942987134763047,
+      "grad_norm": 0.13911722600460052,
+      "learning_rate": 0.001,
+      "loss": 2.7992,
+      "num_input_tokens_seen": 11429478400,
+      "step": 10900
+    },
+    {
+      "epoch": 0.24052817350977557,
+      "grad_norm": 0.156200110912323,
+      "learning_rate": 0.001,
+      "loss": 2.8059,
+      "num_input_tokens_seen": 11481907200,
+      "step": 10950
+    },
+    {
+      "epoch": 0.24162647567192067,
+      "grad_norm": 0.12990960478782654,
+      "learning_rate": 0.001,
+      "loss": 2.7984,
+      "num_input_tokens_seen": 11534336000,
+      "step": 11000
+    },
+    {
+      "epoch": 0.24162647567192067,
+      "eval_loss": 2.7103493213653564,
+      "eval_runtime": 65.6611,
+      "eval_samples_per_second": 76.149,
+      "eval_steps_per_second": 19.037,
+      "num_input_tokens_seen": 11534336000,
+      "step": 11000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 11534336000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 6.568888875614208e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null