Training in progress, step 40000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:975602068258161ce5fc091ff74eec76aab489dd430d067c924b2aa7c926da4c
 size 50044241

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dff537922713b87383b64684bd79e5a7ae236a98cba1517816ac46551a11ebb
 size 50044241

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae108dd354088d366218061ee189c243227cfbb67d13fe15c56f1156f5bc73b8
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb889cc10aaf071995df6da342ff4aec3f65438039925fc96cfdce7c89df56fc
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18320fd9d8608fdc95bdf80f9815c530f3042b21d4c3da3a6f04b03d2c98ab7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:285c70cc0b99f831fd558ed5749dae6f2d660f449e704cb70ab7d67faaef2748
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7750ccd53e61fd7fcec6ad8e54086c4abb8aa56c6a0781b4ecadd56cbb87c42
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8382352941176472,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -606,11 +606,211 @@
       "eval_samples_per_second": 783.816,
       "eval_steps_per_second": 12.541,
       "step": 30000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 4.8049399809379716e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.450980392156863,
+  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 783.816,
       "eval_steps_per_second": 12.541,
       "step": 30000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0005916774417018287,
+      "loss": 0.5714,
+      "step": 30500
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0005912109970154897,
+      "loss": 0.5685,
+      "step": 31000
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.8747313022613525,
+      "eval_runtime": 1.3003,
+      "eval_samples_per_second": 769.027,
+      "eval_steps_per_second": 12.304,
+      "step": 31000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0005907320325329461,
+      "loss": 0.566,
+      "step": 31500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0005902405692056561,
+      "loss": 0.564,
+      "step": 32000
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.8779122233390808,
+      "eval_runtime": 1.293,
+      "eval_samples_per_second": 773.405,
+      "eval_steps_per_second": 12.374,
+      "step": 32000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0005897366285318178,
+      "loss": 0.5617,
+      "step": 32500
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0005892202325554288,
+      "loss": 0.5606,
+      "step": 33000
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.8761873245239258,
+      "eval_runtime": 1.3816,
+      "eval_samples_per_second": 723.824,
+      "eval_steps_per_second": 11.581,
+      "step": 33000
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0005886914038653217,
+      "loss": 0.5583,
+      "step": 33500
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0005881501655941771,
+      "loss": 0.5574,
+      "step": 34000
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.8702684044837952,
+      "eval_runtime": 1.3086,
+      "eval_samples_per_second": 764.158,
+      "eval_steps_per_second": 12.227,
+      "step": 34000
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00058759654141751,
+      "loss": 0.5548,
+      "step": 34500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0005870305555526355,
+      "loss": 0.5528,
+      "step": 35000
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.8663867115974426,
+      "eval_runtime": 1.2619,
+      "eval_samples_per_second": 792.469,
+      "eval_steps_per_second": 12.679,
+      "step": 35000
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0005864522327576088,
+      "loss": 0.5509,
+      "step": 35500
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0005858615983301424,
+      "loss": 0.5494,
+      "step": 36000
+    },
+    {
+      "epoch": 2.21,
+      "eval_loss": 0.8717171549797058,
+      "eval_runtime": 1.2691,
+      "eval_samples_per_second": 787.953,
+      "eval_steps_per_second": 12.607,
+      "step": 36000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0005852586781064997,
+      "loss": 0.5471,
+      "step": 36500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0005846434984603645,
+      "loss": 0.5448,
+      "step": 37000
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.8672583103179932,
+      "eval_runtime": 1.268,
+      "eval_samples_per_second": 788.629,
+      "eval_steps_per_second": 12.618,
+      "step": 37000
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0005840160863016872,
+      "loss": 0.5433,
+      "step": 37500
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0005833764690755083,
+      "loss": 0.5419,
+      "step": 38000
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.8636866211891174,
+      "eval_runtime": 1.3526,
+      "eval_samples_per_second": 739.295,
+      "eval_steps_per_second": 11.829,
+      "step": 38000
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0005827246747607574,
+      "loss": 0.5398,
+      "step": 38500
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0005820607318690293,
+      "loss": 0.5385,
+      "step": 39000
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 0.8634054064750671,
+      "eval_runtime": 1.2705,
+      "eval_samples_per_second": 787.122,
+      "eval_steps_per_second": 12.594,
+      "step": 39000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0005813846694433368,
+      "loss": 0.5374,
+      "step": 39500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0005806965170568409,
+      "loss": 0.536,
+      "step": 40000
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.8661102652549744,
+      "eval_runtime": 1.3401,
+      "eval_samples_per_second": 746.204,
+      "eval_steps_per_second": 11.939,
+      "step": 40000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 6.406519904559862e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae108dd354088d366218061ee189c243227cfbb67d13fe15c56f1156f5bc73b8
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb889cc10aaf071995df6da342ff4aec3f65438039925fc96cfdce7c89df56fc
 size 25761253