Training in progress, step 830000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6d93c3e982e0579f40b8abbb458ec9e37e56aeab75677fc246cecb087804c2e
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:f349542b4533abe4453e0adeb6aff6cd875b986f4117c2f333ebbbb94148a468
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41345120e0d1385984c4967bb7df3bbe42ffb08d61340ff50f089fccaf2a5880
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d8915b38c77403d5b3caf94070565cc919cba4e372d557eb5c40dbe89ac1681
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63a66ccb6dc97ab9b83be4c1a0e1c26e5449019e9e3ce121febf772eda3a493
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87068f53b7dee620f289e61f6508b8ae2aca3d5b7cb2a5e745862a635059c762
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c63a65d51252613e1cd5f3ab255f2a8e56d55631776ee22be37789c5802ebbf2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:b44f4d1ea700e774f5dee0343ba4324675c77c29852dd54fec6a281d849ccd3b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.78821810557309,
-  "global_step": 820000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16406,11 +16406,211 @@
       "eval_samples_per_second": 871.505,
       "eval_steps_per_second": 13.659,
       "step": 820000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 5.748177592908341e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.899746829796014,
+  "global_step": 830000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 871.505,
       "eval_steps_per_second": 13.659,
       "step": 820000
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 2.1974562300613417e-05,
+      "loss": 0.186,
+      "step": 820500
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 2.1909901420919184e-05,
+      "loss": 0.1856,
+      "step": 821000
+    },
+    {
+      "epoch": 8.8,
+      "eval_loss": 0.17747129499912262,
+      "eval_runtime": 2.664,
+      "eval_samples_per_second": 862.246,
+      "eval_steps_per_second": 13.514,
+      "step": 821000
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 2.1845399357336326e-05,
+      "loss": 0.186,
+      "step": 821500
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 2.1781056286210997e-05,
+      "loss": 0.186,
+      "step": 822000
+    },
+    {
+      "epoch": 8.81,
+      "eval_loss": 0.1773909628391266,
+      "eval_runtime": 2.5828,
+      "eval_samples_per_second": 889.354,
+      "eval_steps_per_second": 13.939,
+      "step": 822000
+    },
+    {
+      "epoch": 8.82,
+      "learning_rate": 2.1716872383454674e-05,
+      "loss": 0.1861,
+      "step": 822500
+    },
+    {
+      "epoch": 8.82,
+      "learning_rate": 2.1652847824543744e-05,
+      "loss": 0.1856,
+      "step": 823000
+    },
+    {
+      "epoch": 8.82,
+      "eval_loss": 0.1759449690580368,
+      "eval_runtime": 2.6867,
+      "eval_samples_per_second": 854.948,
+      "eval_steps_per_second": 13.399,
+      "step": 823000
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 2.1588982784518853e-05,
+      "loss": 0.1862,
+      "step": 823500
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 2.1525277437984636e-05,
+      "loss": 0.1857,
+      "step": 824000
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.1774652898311615,
+      "eval_runtime": 2.6123,
+      "eval_samples_per_second": 879.304,
+      "eval_steps_per_second": 13.781,
+      "step": 824000
+    },
+    {
+      "epoch": 8.84,
+      "learning_rate": 2.1461731959109053e-05,
+      "loss": 0.186,
+      "step": 824500
+    },
+    {
+      "epoch": 8.84,
+      "learning_rate": 2.1398346521623e-05,
+      "loss": 0.1857,
+      "step": 825000
+    },
+    {
+      "epoch": 8.84,
+      "eval_loss": 0.17699038982391357,
+      "eval_runtime": 2.654,
+      "eval_samples_per_second": 865.476,
+      "eval_steps_per_second": 13.564,
+      "step": 825000
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 2.1335121298819867e-05,
+      "loss": 0.1859,
+      "step": 825500
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 2.1272056463554978e-05,
+      "loss": 0.1862,
+      "step": 826000
+    },
+    {
+      "epoch": 8.86,
+      "eval_loss": 0.17693667113780975,
+      "eval_runtime": 2.6428,
+      "eval_samples_per_second": 869.15,
+      "eval_steps_per_second": 13.622,
+      "step": 826000
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 2.1209152188245214e-05,
+      "loss": 0.1858,
+      "step": 826500
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 2.114640864486845e-05,
+      "loss": 0.1857,
+      "step": 827000
+    },
+    {
+      "epoch": 8.87,
+      "eval_loss": 0.1788521409034729,
+      "eval_runtime": 2.6742,
+      "eval_samples_per_second": 858.952,
+      "eval_steps_per_second": 13.462,
+      "step": 827000
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 2.1083826004963102e-05,
+      "loss": 0.1859,
+      "step": 827500
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 2.1021404439627775e-05,
+      "loss": 0.1855,
+      "step": 828000
+    },
+    {
+      "epoch": 8.88,
+      "eval_loss": 0.17763476073741913,
+      "eval_runtime": 2.5581,
+      "eval_samples_per_second": 897.942,
+      "eval_steps_per_second": 14.073,
+      "step": 828000
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 2.09591441195206e-05,
+      "loss": 0.1856,
+      "step": 828500
+    },
+    {
+      "epoch": 8.89,
+      "learning_rate": 2.089704521485896e-05,
+      "loss": 0.1858,
+      "step": 829000
+    },
+    {
+      "epoch": 8.89,
+      "eval_loss": 0.17711400985717773,
+      "eval_runtime": 2.6039,
+      "eval_samples_per_second": 882.145,
+      "eval_steps_per_second": 13.826,
+      "step": 829000
+    },
+    {
+      "epoch": 8.89,
+      "learning_rate": 2.083510789541883e-05,
+      "loss": 0.1852,
+      "step": 829500
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 2.0773332330534513e-05,
+      "loss": 0.1857,
+      "step": 830000
+    },
+    {
+      "epoch": 8.9,
+      "eval_loss": 0.17438167333602905,
+      "eval_runtime": 2.6569,
+      "eval_samples_per_second": 864.555,
+      "eval_steps_per_second": 13.55,
+      "step": 830000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 5.818277853938688e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41345120e0d1385984c4967bb7df3bbe42ffb08d61340ff50f089fccaf2a5880
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d8915b38c77403d5b3caf94070565cc919cba4e372d557eb5c40dbe89ac1681
 size 449471589