Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +521 -336
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72e09c96eac9a5a5d12013b41dda13b70836234bc8e79dede1d0e69838b32cd5
 size 3132668808

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcae599684a4fbbc309d29596a13d1f8e60c8669d4f351f311b7e665d723fa40
 size 3132668808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3e0cc1950821aee72f368717c0c4eaca6964baee54bfdd8fe9937bb25df79ba
 size 6265677800

 version https://git-lfs.github.com/spec/v1
+oid sha256:72020de09af1159730a810cc5fea25580a0fc8159def1615cca3b3c80c1487c1
 size 6265677800

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:714f24020961e064909455be3a37151a09a776324c46a43c77ff89f66b058427
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:40625c746bfa84c1633ce1b215fe2e2c14d62ad791af8011ae10ef5e56dcfb97
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bab7b51078791231733fbc4c23771b030e167e47650cf7b4cbbe893dfeb9092
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a1a678710554b909b7044c4e7143bd849126d09514f3bc102b14b7bf0893c3f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,669 +1,854 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 51022,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 0.0001,
-      "loss": 3.8798,
       "step": 500
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 9.999617887970705e-05,
-      "loss": 3.3824,
       "step": 1000
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.998471610286659e-05,
-      "loss": 3.3404,
       "step": 1500
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.996561342150463e-05,
-      "loss": 3.3427,
       "step": 2000
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 9.993887375536685e-05,
-      "loss": 3.2575,
       "step": 2500
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.990450119147252e-05,
-      "loss": 3.2676,
       "step": 3000
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 9.98625009834897e-05,
-      "loss": 3.1225,
       "step": 3500
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 9.981287955093226e-05,
-      "loss": 3.1038,
       "step": 4000
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 9.97556444781787e-05,
-      "loss": 3.132,
       "step": 4500
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.969080451331299e-05,
-      "loss": 3.1255,
       "step": 5000
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 9.96183695667873e-05,
-      "loss": 3.1358,
       "step": 5500
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 9.95383507099074e-05,
-      "loss": 3.1162,
       "step": 6000
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 9.945076017314044e-05,
-      "loss": 3.0475,
       "step": 6500
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 9.935561134424548e-05,
-      "loss": 3.0587,
       "step": 7000
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 9.925291876622738e-05,
-      "loss": 3.0822,
       "step": 7500
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 9.914269813511388e-05,
-      "loss": 3.0829,
       "step": 8000
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 9.902496629755661e-05,
-      "loss": 3.0594,
       "step": 8500
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 9.88997412482561e-05,
-      "loss": 3.0949,
       "step": 9000
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 9.876704212721141e-05,
-      "loss": 3.0807,
       "step": 9500
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 9.862688921679476e-05,
-      "loss": 2.9289,
       "step": 10000
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 9.847930393865132e-05,
-      "loss": 3.0059,
       "step": 10500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 9.832430885042515e-05,
-      "loss": 3.0391,
       "step": 11000
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 9.816192764231132e-05,
-      "loss": 3.0225,
       "step": 11500
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 9.799218513343504e-05,
-      "loss": 3.0199,
       "step": 12000
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 9.781510726805807e-05,
-      "loss": 3.0201,
       "step": 12500
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 9.763072111161344e-05,
-      "loss": 3.0321,
       "step": 13000
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 9.743905484656852e-05,
-      "loss": 2.8965,
       "step": 13500
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.724013776811747e-05,
-      "loss": 3.0016,
       "step": 14000
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.70340002797037e-05,
-      "loss": 3.0327,
       "step": 14500
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 9.682067388837286e-05,
-      "loss": 3.036,
       "step": 15000
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 9.660019119995702e-05,
-      "loss": 3.0152,
       "step": 15500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 9.63725859140912e-05,
-      "loss": 2.9673,
       "step": 16000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 9.613789281906243e-05,
-      "loss": 3.0032,
       "step": 16500
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 9.589614778649267e-05,
-      "loss": 2.9865,
       "step": 17000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 9.564738776585591e-05,
-      "loss": 3.0042,
       "step": 17500
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 9.539165077883064e-05,
-      "loss": 2.988,
       "step": 18000
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 9.51289759134885e-05,
-      "loss": 2.9729,
       "step": 18500
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 9.485940331831984e-05,
-      "loss": 2.9924,
       "step": 19000
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 9.45829741960972e-05,
-      "loss": 2.96,
       "step": 19500
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 9.429973079757773e-05,
-      "loss": 2.9702,
       "step": 20000
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 9.400971641504533e-05,
-      "loss": 2.9362,
       "step": 20500
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 9.371297537569369e-05,
-      "loss": 2.9421,
       "step": 21000
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 9.340955303485112e-05,
-      "loss": 2.8557,
       "step": 21500
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 9.309949576904817e-05,
-      "loss": 2.8443,
       "step": 22000
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 9.278285096892927e-05,
-      "loss": 2.8352,
       "step": 22500
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 9.245966703200923e-05,
-      "loss": 2.8187,
       "step": 23000
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 9.212999335527607e-05,
-      "loss": 2.887,
       "step": 23500
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 9.179388032764086e-05,
-      "loss": 2.9268,
       "step": 24000
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 9.145137932223598e-05,
-      "loss": 2.9458,
       "step": 24500
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 9.110254268856312e-05,
-      "loss": 2.8961,
       "step": 25000
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 9.074742374449192e-05,
-      "loss": 2.9421,
       "step": 25500
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.790889024734497,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 5805056,
-      "eval_runtime": 9395.1429,
-      "eval_samples_per_second": 1.207,
-      "eval_steps_per_second": 0.302,
-      "eval_translation_length": 5805056,
-      "step": 25511
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 9.038607676811049e-05,
-      "loss": 2.6527,
       "step": 26000
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 9.00185569894294e-05,
-      "loss": 2.5876,
       "step": 26500
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 8.964492058194002e-05,
-      "loss": 2.6107,
       "step": 27000
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 8.926522465402872e-05,
-      "loss": 2.6123,
       "step": 27500
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 8.887952724024808e-05,
-      "loss": 2.5845,
       "step": 28000
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 8.848788729244675e-05,
-      "loss": 2.621,
       "step": 28500
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 8.809036467075875e-05,
-      "loss": 2.6317,
       "step": 29000
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 8.768702013445438e-05,
-      "loss": 2.6083,
       "step": 29500
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 8.727791533265335e-05,
-      "loss": 2.6469,
       "step": 30000
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 8.686311279490205e-05,
-      "loss": 2.6186,
       "step": 30500
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 8.644267592161625e-05,
-      "loss": 2.6418,
       "step": 31000
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 8.601666897439072e-05,
-      "loss": 2.6127,
       "step": 31500
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 8.55851570661771e-05,
-      "loss": 2.6585,
       "step": 32000
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 8.514820615133171e-05,
-      "loss": 2.6329,
       "step": 32500
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 8.47058830155349e-05,
-      "loss": 2.6495,
       "step": 33000
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 8.425825526558306e-05,
-      "loss": 2.6859,
       "step": 33500
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 8.380539131905538e-05,
-      "loss": 2.6083,
       "step": 34000
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 8.334736039385647e-05,
-      "loss": 2.6761,
       "step": 34500
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 8.288423249763687e-05,
-      "loss": 2.5866,
       "step": 35000
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 8.241607841709266e-05,
-      "loss": 2.7219,
       "step": 35500
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 8.194296970714615e-05,
-      "loss": 2.6395,
       "step": 36000
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 8.146497868000903e-05,
-      "loss": 2.6553,
       "step": 36500
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 8.098217839412985e-05,
-      "loss": 2.6139,
       "step": 37000
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 8.049464264302741e-05,
-      "loss": 2.6203,
       "step": 37500
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 8.000244594401178e-05,
-      "loss": 2.729,
       "step": 38000
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 7.950566352679475e-05,
-      "loss": 2.607,
       "step": 38500
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 7.900437132199135e-05,
-      "loss": 2.7186,
       "step": 39000
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 7.849864594951422e-05,
-      "loss": 2.6396,
       "step": 39500
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 7.798856470686275e-05,
-      "loss": 2.6618,
       "step": 40000
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 7.747420555730837e-05,
-      "loss": 2.595,
       "step": 40500
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 7.695564711797849e-05,
-      "loss": 2.6412,
       "step": 41000
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 7.643296864784011e-05,
-      "loss": 2.6468,
       "step": 41500
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 7.590625003558561e-05,
-      "loss": 2.5908,
       "step": 42000
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 7.53755717874221e-05,
-      "loss": 2.6129,
       "step": 42500
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 7.484101501476649e-05,
-      "loss": 2.6015,
       "step": 43000
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 7.430266142184806e-05,
-      "loss": 2.6249,
       "step": 43500
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 7.376059329322036e-05,
-      "loss": 2.6027,
       "step": 44000
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 7.321489348118445e-05,
-      "loss": 2.5851,
       "step": 44500
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 7.266564539312535e-05,
-      "loss": 2.6235,
       "step": 45000
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 7.211293297876365e-05,
-      "loss": 2.6393,
       "step": 45500
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 7.155684071732431e-05,
-      "loss": 2.5699,
       "step": 46000
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 7.099745360462426e-05,
-      "loss": 2.6722,
       "step": 46500
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 7.043485714008147e-05,
-      "loss": 2.6375,
       "step": 47000
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 6.98691373136466e-05,
-      "loss": 2.6718,
       "step": 47500
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 6.930038059266004e-05,
-      "loss": 2.6249,
       "step": 48000
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 6.872867390863569e-05,
-      "loss": 2.6526,
       "step": 48500
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 6.815410464397405e-05,
-      "loss": 2.6139,
       "step": 49000
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 6.757676061860619e-05,
-      "loss": 2.5463,
       "step": 49500
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 6.699673007657097e-05,
-      "loss": 2.6163,
       "step": 50000
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 6.641410167252738e-05,
-      "loss": 2.6282,
       "step": 50500
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 6.582896445820412e-05,
-      "loss": 2.5324,
       "step": 51000
     },
     {
-      "epoch": 2.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.711536407470703,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 5805056,
-      "eval_runtime": 9329.1164,
-      "eval_samples_per_second": 1.215,
-      "eval_steps_per_second": 0.304,
-      "eval_translation_length": 5805056,
-      "step": 51022
     }
   ],
   "logging_steps": 500,
-  "max_steps": 127555,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 4.703662624808632e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 68219,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
       "learning_rate": 0.0001,
+      "loss": 4.0519,
       "step": 500
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 9.999946825617329e-05,
+      "loss": 3.6979,
       "step": 1000
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 9.99978730360032e-05,
+      "loss": 3.5393,
       "step": 1500
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.999521437341967e-05,
+      "loss": 3.4397,
       "step": 2000
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 9.999149232497183e-05,
+      "loss": 3.4883,
       "step": 2500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 9.998670696982668e-05,
+      "loss": 3.5107,
       "step": 3000
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 9.998085840976759e-05,
+      "loss": 3.4742,
       "step": 3500
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.997394676919193e-05,
+      "loss": 3.3594,
       "step": 4000
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.996597219510866e-05,
+      "loss": 3.3098,
       "step": 4500
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.995693485713496e-05,
+      "loss": 3.4248,
       "step": 5000
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 9.994683494749277e-05,
+      "loss": 3.3875,
       "step": 5500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.993567268100469e-05,
+      "loss": 3.3726,
       "step": 6000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.992344829508938e-05,
+      "loss": 3.3911,
       "step": 6500
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.991016204975648e-05,
+      "loss": 3.3826,
       "step": 7000
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.989581422760117e-05,
+      "loss": 3.3095,
       "step": 7500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.988040513379809e-05,
+      "loss": 3.3544,
       "step": 8000
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.986393509609485e-05,
+      "loss": 3.3007,
       "step": 8500
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.984640446480509e-05,
+      "loss": 3.289,
       "step": 9000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.9827813612801e-05,
+      "loss": 3.2892,
       "step": 9500
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 9.98081629355054e-05,
+      "loss": 3.3141,
       "step": 10000
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 9.978745285088338e-05,
+      "loss": 3.3381,
       "step": 10500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.97656837994333e-05,
+      "loss": 3.2098,
       "step": 11000
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.974285624417751e-05,
+      "loss": 3.3139,
       "step": 11500
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.971897067065248e-05,
+      "loss": 3.2457,
       "step": 12000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.969402758689845e-05,
+      "loss": 3.1359,
       "step": 12500
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 9.966802752344868e-05,
+      "loss": 3.2499,
       "step": 13000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.964097103331806e-05,
+      "loss": 3.3144,
       "step": 13500
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.961285869199149e-05,
+      "loss": 3.3416,
       "step": 14000
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.95836910974115e-05,
+      "loss": 3.2466,
       "step": 14500
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.955346886996564e-05,
+      "loss": 3.2055,
       "step": 15000
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.952219265247323e-05,
+      "loss": 3.1853,
       "step": 15500
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.948986311017168e-05,
+      "loss": 3.261,
       "step": 16000
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 9.945648093070237e-05,
+      "loss": 3.1393,
       "step": 16500
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.942204682409603e-05,
+      "loss": 3.3337,
       "step": 17000
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.938656152275759e-05,
+      "loss": 3.1791,
       "step": 17500
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.935002578145065e-05,
+      "loss": 3.1644,
       "step": 18000
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.931244037728141e-05,
+      "loss": 3.2369,
       "step": 18500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 9.927380610968213e-05,
+      "loss": 3.2139,
       "step": 19000
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.923412380039415e-05,
+      "loss": 3.1762,
       "step": 19500
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.919339429345039e-05,
+      "loss": 3.2732,
       "step": 20000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 9.915161845515739e-05,
+      "loss": 3.197,
       "step": 20500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 9.910879717407693e-05,
+      "loss": 3.1034,
       "step": 21000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.906493136100707e-05,
+      "loss": 3.3108,
       "step": 21500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.902002194896285e-05,
+      "loss": 3.1394,
       "step": 22000
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 9.897406989315634e-05,
+      "loss": 3.2385,
       "step": 22500
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.892707617097645e-05,
+      "loss": 3.1855,
       "step": 23000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.887904178196804e-05,
+      "loss": 3.2088,
       "step": 23500
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 9.882996774781066e-05,
+      "loss": 3.2111,
       "step": 24000
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.877985511229697e-05,
+      "loss": 3.175,
       "step": 24500
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 9.87287049413103e-05,
+      "loss": 3.1891,
       "step": 25000
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 9.867651832280217e-05,
+      "loss": 3.182,
       "step": 25500
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.86232963667691e-05,
+      "loss": 3.3346,
       "step": 26000
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.85690402052289e-05,
+      "loss": 3.2496,
       "step": 26500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.851375099219677e-05,
+      "loss": 3.222,
       "step": 27000
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.845742990366059e-05,
+      "loss": 3.2083,
       "step": 27500
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.840007813755603e-05,
+      "loss": 3.233,
       "step": 28000
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.834169691374098e-05,
+      "loss": 3.1732,
       "step": 28500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.828228747396964e-05,
+      "loss": 3.1922,
       "step": 29000
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.822185108186616e-05,
+      "loss": 3.1923,
       "step": 29500
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 9.816038902289763e-05,
+      "loss": 3.2879,
       "step": 30000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.809790260434693e-05,
+      "loss": 3.2816,
       "step": 30500
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.803439315528469e-05,
+      "loss": 3.2343,
       "step": 31000
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 9.796986202654124e-05,
+      "loss": 3.1372,
       "step": 31500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 9.790431059067775e-05,
+      "loss": 3.2111,
       "step": 32000
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.783774024195709e-05,
+      "loss": 3.1488,
       "step": 32500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.77701523963141e-05,
+      "loss": 3.1637,
       "step": 33000
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 9.77015484913256e-05,
+      "loss": 3.1593,
       "step": 33500
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.763192998617969e-05,
+      "loss": 3.1399,
       "step": 34000
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.75612983616448e-05,
+      "loss": 3.0628,
       "step": 34500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.748965512003812e-05,
+      "loss": 3.2634,
       "step": 35000
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.741700178519374e-05,
+      "loss": 3.1562,
       "step": 35500
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.734333990243012e-05,
+      "loss": 3.2411,
       "step": 36000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.726867103851735e-05,
+      "loss": 3.1336,
       "step": 36500
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.719299678164369e-05,
+      "loss": 3.1557,
       "step": 37000
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.711631874138192e-05,
+      "loss": 3.1368,
       "step": 37500
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.703863854865502e-05,
+      "loss": 3.1296,
       "step": 38000
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.69599578557015e-05,
+      "loss": 3.1308,
       "step": 38500
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.688027833604027e-05,
+      "loss": 3.1526,
       "step": 39000
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 9.679960168443507e-05,
+      "loss": 3.2699,
       "step": 39500
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 9.671792961685831e-05,
+      "loss": 3.0819,
       "step": 40000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 9.663526387045473e-05,
+      "loss": 3.0947,
       "step": 40500
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 9.655160620350434e-05,
+      "loss": 3.1903,
       "step": 41000
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 9.646695839538503e-05,
+      "loss": 3.0587,
       "step": 41500
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 9.638132224653482e-05,
+      "loss": 3.1778,
       "step": 42000
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 9.629469957841341e-05,
+      "loss": 3.0616,
       "step": 42500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 9.62070922334636e-05,
+      "loss": 3.1816,
       "step": 43000
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 9.611850207507196e-05,
+      "loss": 3.1625,
       "step": 43500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 9.602893098752929e-05,
+      "loss": 3.2755,
       "step": 44000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 9.59383808759905e-05,
+      "loss": 3.1046,
       "step": 44500
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 9.584685366643411e-05,
+      "loss": 3.176,
       "step": 45000
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 9.575435130562125e-05,
+      "loss": 3.1618,
       "step": 45500
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 9.566087576105431e-05,
+      "loss": 3.2012,
       "step": 46000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 9.556642902093503e-05,
+      "loss": 3.2124,
       "step": 46500
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 9.547101309412226e-05,
+      "loss": 3.1282,
       "step": 47000
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 9.53746300100892e-05,
+      "loss": 3.1725,
       "step": 47500
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 9.527728181888023e-05,
+      "loss": 3.1428,
       "step": 48000
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.517897059106737e-05,
+      "loss": 3.1074,
       "step": 48500
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 9.507969841770614e-05,
+      "loss": 3.2534,
       "step": 49000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 9.497946741029116e-05,
+      "loss": 3.1394,
       "step": 49500
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 9.48782797007112e-05,
+      "loss": 3.1688,
       "step": 50000
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 9.477613744120386e-05,
+      "loss": 3.2439,
       "step": 50500
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 9.467304280430977e-05,
+      "loss": 3.0768,
       "step": 51000
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 9.456899798282642e-05,
+      "loss": 3.082,
+      "step": 51500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.446400518976144e-05,
+      "loss": 3.1203,
+      "step": 52000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 9.435806665828566e-05,
+      "loss": 3.1243,
+      "step": 52500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 9.425118464168545e-05,
+      "loss": 3.1732,
+      "step": 53000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 9.414336141331491e-05,
+      "loss": 3.118,
+      "step": 53500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 9.403459926654748e-05,
+      "loss": 3.1597,
+      "step": 54000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.392490051472718e-05,
+      "loss": 3.1854,
+      "step": 54500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.381426749111936e-05,
+      "loss": 3.1857,
+      "step": 55000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.370270254886115e-05,
+      "loss": 3.1094,
+      "step": 55500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.359020806091126e-05,
+      "loss": 3.1459,
+      "step": 56000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 9.347678641999973e-05,
+      "loss": 3.063,
+      "step": 56500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 9.336244003857682e-05,
+      "loss": 3.0853,
+      "step": 57000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 9.324717134876182e-05,
+      "loss": 3.1004,
+      "step": 57500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 9.313098280229133e-05,
+      "loss": 3.0624,
+      "step": 58000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.301387687046704e-05,
+      "loss": 3.1182,
+      "step": 58500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.289585604410317e-05,
+      "loss": 3.0812,
+      "step": 59000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 9.277692283347357e-05,
+      "loss": 3.1594,
+      "step": 59500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 9.265707976825829e-05,
+      "loss": 3.0691,
+      "step": 60000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 9.253632939748968e-05,
+      "loss": 3.0989,
+      "step": 60500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 9.241467428949837e-05,
+      "loss": 3.1739,
+      "step": 61000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 9.229211703185842e-05,
+      "loss": 3.0593,
+      "step": 61500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 9.216866023133246e-05,
+      "loss": 3.0508,
+      "step": 62000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.204430651381613e-05,
+      "loss": 3.1162,
+      "step": 62500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.191905852428232e-05,
+      "loss": 3.1316,
+      "step": 63000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 9.179291892672484e-05,
+      "loss": 3.0565,
+      "step": 63500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 9.166589040410175e-05,
+      "loss": 3.1502,
+      "step": 64000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 9.153797565827839e-05,
+      "loss": 3.1613,
+      "step": 64500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 9.140917740996979e-05,
+      "loss": 2.9902,
+      "step": 65000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 9.127949839868292e-05,
+      "loss": 3.0026,
+      "step": 65500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 9.114894138265832e-05,
+      "loss": 3.1636,
+      "step": 66000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 9.101750913881147e-05,
+      "loss": 3.1233,
+      "step": 66500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.088520446267374e-05,
+      "loss": 3.0781,
+      "step": 67000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 9.075203016833295e-05,
+      "loss": 3.0872,
+      "step": 67500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 9.061798908837341e-05,
+      "loss": 3.1095,
+      "step": 68000
+    },
+    {
+      "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 2.9751689434051514,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 7761920,
+      "eval_runtime": 15377.8782,
+      "eval_samples_per_second": 0.986,
+      "eval_steps_per_second": 0.493,
+      "eval_translation_length": 7761920,
+      "step": 68219
     }
   ],
   "logging_steps": 500,
+  "max_steps": 341095,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 3.144579296777994e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c32a9c65221d103b02faab497de247bbdfc7b9598acc0b6597ea2949b830722
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a742f70b0846e59a06963ff7344d674f0f22eef8791af5874a171f202b5ca21
 size 4728