Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +328 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b3b20ffefbf39834750af10d015b9eed68cd596b93af1f481063a3d79802a5f
 size 3132668808

 version https://git-lfs.github.com/spec/v1
+oid sha256:72e09c96eac9a5a5d12013b41dda13b70836234bc8e79dede1d0e69838b32cd5
 size 3132668808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a0a1d720a80a21f86b42834921fbf49934f7bdfc51e665b031c0c39aa508f0b
 size 6265677800

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3e0cc1950821aee72f368717c0c4eaca6964baee54bfdd8fe9937bb25df79ba
 size 6265677800

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3421260c744085d195b4dfe974251448594371f7199bcdc2e3cfc3fce23873b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:714f24020961e064909455be3a37151a09a776324c46a43c77ff89f66b058427
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f8da858e1f3097d422bf787beb7750f6f9549fbe3c5811eb4fcc0804eb3bc89
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bab7b51078791231733fbc4c23771b030e167e47650cf7b4cbbe893dfeb9092
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 25511,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -332,13 +332,338 @@
       "eval_steps_per_second": 0.302,
       "eval_translation_length": 5805056,
       "step": 25511
     }
   ],
   "logging_steps": 500,
   "max_steps": 127555,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 2.351831312404316e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 51022,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.302,
       "eval_translation_length": 5805056,
       "step": 25511
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 9.038607676811049e-05,
+      "loss": 2.6527,
+      "step": 26000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 9.00185569894294e-05,
+      "loss": 2.5876,
+      "step": 26500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.964492058194002e-05,
+      "loss": 2.6107,
+      "step": 27000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.926522465402872e-05,
+      "loss": 2.6123,
+      "step": 27500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.887952724024808e-05,
+      "loss": 2.5845,
+      "step": 28000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.848788729244675e-05,
+      "loss": 2.621,
+      "step": 28500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 8.809036467075875e-05,
+      "loss": 2.6317,
+      "step": 29000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 8.768702013445438e-05,
+      "loss": 2.6083,
+      "step": 29500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 8.727791533265335e-05,
+      "loss": 2.6469,
+      "step": 30000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 8.686311279490205e-05,
+      "loss": 2.6186,
+      "step": 30500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 8.644267592161625e-05,
+      "loss": 2.6418,
+      "step": 31000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 8.601666897439072e-05,
+      "loss": 2.6127,
+      "step": 31500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 8.55851570661771e-05,
+      "loss": 2.6585,
+      "step": 32000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.514820615133171e-05,
+      "loss": 2.6329,
+      "step": 32500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 8.47058830155349e-05,
+      "loss": 2.6495,
+      "step": 33000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 8.425825526558306e-05,
+      "loss": 2.6859,
+      "step": 33500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 8.380539131905538e-05,
+      "loss": 2.6083,
+      "step": 34000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 8.334736039385647e-05,
+      "loss": 2.6761,
+      "step": 34500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 8.288423249763687e-05,
+      "loss": 2.5866,
+      "step": 35000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 8.241607841709266e-05,
+      "loss": 2.7219,
+      "step": 35500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 8.194296970714615e-05,
+      "loss": 2.6395,
+      "step": 36000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 8.146497868000903e-05,
+      "loss": 2.6553,
+      "step": 36500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.098217839412985e-05,
+      "loss": 2.6139,
+      "step": 37000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.049464264302741e-05,
+      "loss": 2.6203,
+      "step": 37500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 8.000244594401178e-05,
+      "loss": 2.729,
+      "step": 38000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.950566352679475e-05,
+      "loss": 2.607,
+      "step": 38500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.900437132199135e-05,
+      "loss": 2.7186,
+      "step": 39000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.849864594951422e-05,
+      "loss": 2.6396,
+      "step": 39500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 7.798856470686275e-05,
+      "loss": 2.6618,
+      "step": 40000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 7.747420555730837e-05,
+      "loss": 2.595,
+      "step": 40500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 7.695564711797849e-05,
+      "loss": 2.6412,
+      "step": 41000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.643296864784011e-05,
+      "loss": 2.6468,
+      "step": 41500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 7.590625003558561e-05,
+      "loss": 2.5908,
+      "step": 42000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.53755717874221e-05,
+      "loss": 2.6129,
+      "step": 42500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.484101501476649e-05,
+      "loss": 2.6015,
+      "step": 43000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.430266142184806e-05,
+      "loss": 2.6249,
+      "step": 43500
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.376059329322036e-05,
+      "loss": 2.6027,
+      "step": 44000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 7.321489348118445e-05,
+      "loss": 2.5851,
+      "step": 44500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.266564539312535e-05,
+      "loss": 2.6235,
+      "step": 45000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.211293297876365e-05,
+      "loss": 2.6393,
+      "step": 45500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.155684071732431e-05,
+      "loss": 2.5699,
+      "step": 46000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.099745360462426e-05,
+      "loss": 2.6722,
+      "step": 46500
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.043485714008147e-05,
+      "loss": 2.6375,
+      "step": 47000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 6.98691373136466e-05,
+      "loss": 2.6718,
+      "step": 47500
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.930038059266004e-05,
+      "loss": 2.6249,
+      "step": 48000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.872867390863569e-05,
+      "loss": 2.6526,
+      "step": 48500
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.815410464397405e-05,
+      "loss": 2.6139,
+      "step": 49000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.757676061860619e-05,
+      "loss": 2.5463,
+      "step": 49500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.699673007657097e-05,
+      "loss": 2.6163,
+      "step": 50000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.641410167252738e-05,
+      "loss": 2.6282,
+      "step": 50500
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 6.582896445820412e-05,
+      "loss": 2.5324,
+      "step": 51000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 2.711536407470703,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 5805056,
+      "eval_runtime": 9329.1164,
+      "eval_samples_per_second": 1.215,
+      "eval_steps_per_second": 0.304,
+      "eval_translation_length": 5805056,
+      "step": 51022
     }
   ],
   "logging_steps": 500,
   "max_steps": 127555,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 4.703662624808632e+17,
   "trial_name": null,
   "trial_params": null
 }