Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +527 -336
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -8,16 +8,16 @@
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
-  "lora_alpha": 32,
   "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v",
-    "q"
   ],
   "task_type": "SEQ_2_SEQ_LM"
 }

   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
+  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q",
+    "v"
   ],
   "task_type": "SEQ_2_SEQ_LM"
 }

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eb840687881657e048d395c385a9084b7bcca678b6abb14165c472542383ceb
-size 18915040

 version https://git-lfs.github.com/spec/v1
+oid sha256:6889584cb792de55b0a13842442a58ad2f3568b3c86e00c59b4d55790ac37264
+size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:796f5d71dc3c5f42b0f03eb425ea8255cc4de66f034334ff2a8ba923e0ca36fa
-size 6265677800

 version https://git-lfs.github.com/spec/v1
+oid sha256:1827bfaa4ae59f92b5bc715e7e5f5aec5bc6fdcb175cdb1df735d2dddf4f95be
+size 75739130

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:754ac8d1ee18e45d22ecc99da668e2faa1d4d43c33ce3ac7cd03ff44ab699fa3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:91bba6ff03c8e09a85332cb162792e309f2a25041c51c9145b10b5cd75ee7dfb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db274a50d7066a01e44d4866e618d280e82d8d4746f543f7da09e311fc489a50
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:917b485f18156b96c93bc0dd12087e5d8b63a3098bce56ebac8eace0334f00f3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,663 +1,854 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 50582,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "learning_rate": 0.0001,
-      "loss": 3.3233,
       "step": 500
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 9.99998927054457e-05,
-      "loss": 2.8783,
       "step": 1000
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.999957082224324e-05,
-      "loss": 2.6917,
       "step": 1500
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.999903435177409e-05,
-      "loss": 2.7154,
       "step": 2000
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 9.999828329634069e-05,
-      "loss": 2.7366,
       "step": 2500
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.999731765916636e-05,
-      "loss": 2.7151,
       "step": 3000
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 9.999613744439543e-05,
-      "loss": 2.6935,
       "step": 3500
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 9.999474265709312e-05,
-      "loss": 2.6431,
       "step": 4000
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 9.999313330324557e-05,
-      "loss": 2.6171,
       "step": 4500
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.999130938975975e-05,
-      "loss": 2.6553,
       "step": 5000
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 9.998927092446351e-05,
-      "loss": 2.5905,
       "step": 5500
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 9.99870179161055e-05,
-      "loss": 2.5851,
       "step": 6000
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 9.998455037435515e-05,
-      "loss": 2.7004,
       "step": 6500
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 9.998186830980259e-05,
-      "loss": 2.5175,
       "step": 7000
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 9.997897173395868e-05,
-      "loss": 2.5745,
       "step": 7500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 9.997586065925489e-05,
-      "loss": 2.515,
       "step": 8000
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 9.997253509904324e-05,
-      "loss": 2.5784,
       "step": 8500
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 9.996899506759634e-05,
-      "loss": 2.5426,
       "step": 9000
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 9.996524058010725e-05,
-      "loss": 2.5677,
       "step": 9500
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 9.996127165268938e-05,
-      "loss": 2.5871,
       "step": 10000
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 9.995708830237652e-05,
-      "loss": 2.6239,
       "step": 10500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 9.995269054712269e-05,
-      "loss": 2.5366,
       "step": 11000
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 9.994807840580211e-05,
-      "loss": 2.5484,
       "step": 11500
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 9.994325189820907e-05,
-      "loss": 2.5512,
       "step": 12000
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 9.99382110450579e-05,
-      "loss": 2.5573,
       "step": 12500
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 9.993295586798282e-05,
-      "loss": 2.5584,
       "step": 13000
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 9.992748638953795e-05,
-      "loss": 2.5176,
       "step": 13500
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.992180263319706e-05,
-      "loss": 2.5322,
       "step": 14000
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.991590462335362e-05,
-      "loss": 2.4881,
       "step": 14500
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 9.990979238532059e-05,
-      "loss": 2.5357,
       "step": 15000
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 9.990346594533036e-05,
-      "loss": 2.4982,
       "step": 15500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 9.989692533053464e-05,
-      "loss": 2.5111,
       "step": 16000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 9.989017056900434e-05,
-      "loss": 2.5439,
       "step": 16500
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 9.988320168972938e-05,
-      "loss": 2.4806,
       "step": 17000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 9.987601872261871e-05,
-      "loss": 2.4715,
       "step": 17500
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 9.986862169850007e-05,
-      "loss": 2.4796,
       "step": 18000
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 9.986101064911984e-05,
-      "loss": 2.5061,
       "step": 18500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 9.985318560714301e-05,
-      "loss": 2.4945,
       "step": 19000
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 9.984514660615293e-05,
-      "loss": 2.4611,
       "step": 19500
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 9.983689368065128e-05,
-      "loss": 2.5054,
       "step": 20000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 9.98284268660578e-05,
-      "loss": 2.5272,
       "step": 20500
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 9.981974619871019e-05,
-      "loss": 2.4692,
       "step": 21000
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 9.981085171586402e-05,
-      "loss": 2.4757,
       "step": 21500
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 9.980174345569246e-05,
-      "loss": 2.5493,
       "step": 22000
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 9.979242145728618e-05,
-      "loss": 2.4543,
       "step": 22500
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 9.978288576065315e-05,
-      "loss": 2.4532,
       "step": 23000
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 9.977313640671853e-05,
-      "loss": 2.4311,
       "step": 23500
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 9.97631734373244e-05,
-      "loss": 2.4512,
       "step": 24000
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 9.975299689522967e-05,
-      "loss": 2.46,
       "step": 24500
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 9.974260682410984e-05,
-      "loss": 2.5014,
       "step": 25000
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.3814520835876465,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 1439232,
-      "eval_runtime": 2544.152,
-      "eval_samples_per_second": 1.105,
-      "eval_steps_per_second": 1.105,
-      "eval_translation_length": 1439232,
-      "step": 25291
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 9.973200326855681e-05,
-      "loss": 2.3745,
       "step": 25500
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 9.972118627407877e-05,
-      "loss": 2.2548,
       "step": 26000
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 9.971015588709987e-05,
-      "loss": 2.1978,
       "step": 26500
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 9.969891215496015e-05,
-      "loss": 2.1931,
       "step": 27000
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 9.968745512591524e-05,
-      "loss": 2.1611,
       "step": 27500
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 9.967578484913623e-05,
-      "loss": 2.2166,
       "step": 28000
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 9.96639013747094e-05,
-      "loss": 2.1401,
       "step": 28500
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 9.965180475363603e-05,
-      "loss": 2.1456,
       "step": 29000
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 9.963949503783216e-05,
-      "loss": 2.2447,
       "step": 29500
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 9.962697228012848e-05,
-      "loss": 2.2138,
       "step": 30000
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 9.961423653426987e-05,
-      "loss": 2.1736,
       "step": 30500
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 9.96012878549154e-05,
-      "loss": 2.2721,
       "step": 31000
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 9.958812629763798e-05,
-      "loss": 2.1877,
       "step": 31500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 9.957475191892413e-05,
-      "loss": 2.1888,
       "step": 32000
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 9.956116477617382e-05,
-      "loss": 2.1881,
       "step": 32500
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 9.954736492770007e-05,
-      "loss": 2.22,
       "step": 33000
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 9.95333524327288e-05,
-      "loss": 2.1357,
       "step": 33500
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 9.951912735139864e-05,
-      "loss": 2.2336,
       "step": 34000
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 9.950468974476051e-05,
-      "loss": 2.1933,
       "step": 34500
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 9.949003967477749e-05,
-      "loss": 2.2787,
       "step": 35000
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 9.947517720432445e-05,
-      "loss": 2.1992,
       "step": 35500
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 9.946010239718791e-05,
-      "loss": 2.2127,
       "step": 36000
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 9.944481531806567e-05,
-      "loss": 2.1832,
       "step": 36500
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 9.942931603256652e-05,
-      "loss": 2.226,
       "step": 37000
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 9.941360460721e-05,
-      "loss": 2.2111,
       "step": 37500
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 9.939768110942617e-05,
-      "loss": 2.233,
       "step": 38000
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 9.938154560755516e-05,
-      "loss": 2.2399,
       "step": 38500
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 9.93651981708471e-05,
-      "loss": 2.2297,
       "step": 39000
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 9.934863886946158e-05,
-      "loss": 2.2551,
       "step": 39500
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 9.93318677744675e-05,
-      "loss": 2.1899,
       "step": 40000
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 9.931488495784278e-05,
-      "loss": 2.118,
       "step": 40500
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 9.929769049247397e-05,
-      "loss": 2.2226,
       "step": 41000
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 9.928028445215595e-05,
-      "loss": 2.2213,
       "step": 41500
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 9.926266691159165e-05,
-      "loss": 2.1881,
       "step": 42000
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 9.924483794639175e-05,
-      "loss": 2.238,
       "step": 42500
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 9.922679763307426e-05,
-      "loss": 2.2178,
       "step": 43000
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 9.920854604906427e-05,
-      "loss": 2.1311,
       "step": 43500
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 9.919008327269361e-05,
-      "loss": 2.2308,
       "step": 44000
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 9.917140938320049e-05,
-      "loss": 2.2121,
       "step": 44500
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 9.91525244607292e-05,
-      "loss": 2.1756,
       "step": 45000
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 9.913342858632968e-05,
-      "loss": 2.2231,
       "step": 45500
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 9.91141218419573e-05,
-      "loss": 2.197,
       "step": 46000
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 9.909460431047235e-05,
-      "loss": 2.2141,
       "step": 46500
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 9.907487607563988e-05,
-      "loss": 2.2276,
       "step": 47000
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 9.905493722212913e-05,
-      "loss": 2.278,
       "step": 47500
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 9.903478783551334e-05,
-      "loss": 2.2759,
       "step": 48000
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 9.90144280022693e-05,
-      "loss": 2.2556,
       "step": 48500
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 9.899385780977695e-05,
-      "loss": 2.1704,
       "step": 49000
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 9.89730773463191e-05,
-      "loss": 2.2612,
       "step": 49500
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 9.895208670108096e-05,
-      "loss": 2.238,
       "step": 50000
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 9.893088596414981e-05,
-      "loss": 2.2049,
       "step": 50500
     },
     {
-      "epoch": 2.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.3368308544158936,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 1439232,
-      "eval_runtime": 2375.7581,
-      "eval_samples_per_second": 1.183,
-      "eval_steps_per_second": 1.183,
-      "eval_translation_length": 1439232,
-      "step": 50582
     }
   ],
   "logging_steps": 500,
-  "max_steps": 758730,
-  "num_train_epochs": 30,
-  "save_steps": 500,
-  "total_flos": 1.1657977248979354e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 68219,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 4.3977,
       "step": 500
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 7.999957460493864e-05,
+      "loss": 3.6945,
       "step": 1000
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 7.999829842880257e-05,
+      "loss": 3.5381,
       "step": 1500
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 7.999617149873574e-05,
+      "loss": 3.5732,
       "step": 2000
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 7.999319385997746e-05,
+      "loss": 3.5564,
       "step": 2500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 7.998936557586135e-05,
+      "loss": 3.6373,
       "step": 3000
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 7.998468672781407e-05,
+      "loss": 3.45,
       "step": 3500
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 7.997915741535355e-05,
+      "loss": 3.4784,
       "step": 4000
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 7.997277775608694e-05,
+      "loss": 3.5638,
       "step": 4500
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 7.996554788570796e-05,
+      "loss": 3.4186,
       "step": 5000
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 7.995746795799422e-05,
+      "loss": 3.4193,
       "step": 5500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 7.994853814480376e-05,
+      "loss": 3.4769,
       "step": 6000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 7.99387586360715e-05,
+      "loss": 3.3855,
       "step": 6500
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 7.992812963980518e-05,
+      "loss": 3.4352,
       "step": 7000
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 7.991665138208094e-05,
+      "loss": 3.3517,
       "step": 7500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.990432410703848e-05,
+      "loss": 3.507,
       "step": 8000
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.989114807687589e-05,
+      "loss": 3.3754,
       "step": 8500
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 7.987712357184408e-05,
+      "loss": 3.2636,
       "step": 9000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 7.98622508902408e-05,
+      "loss": 3.5107,
       "step": 9500
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 7.984653034840432e-05,
+      "loss": 3.3726,
       "step": 10000
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 7.982996228070671e-05,
+      "loss": 3.3568,
       "step": 10500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 7.981254703954664e-05,
+      "loss": 3.3137,
       "step": 11000
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 7.979428499534201e-05,
+      "loss": 3.4073,
       "step": 11500
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 7.977517653652199e-05,
+      "loss": 3.4058,
       "step": 12000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 7.975522206951876e-05,
+      "loss": 3.3605,
       "step": 12500
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 7.973442201875895e-05,
+      "loss": 3.2736,
       "step": 13000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 7.971277682665446e-05,
+      "loss": 3.3546,
       "step": 13500
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 7.969028695359319e-05,
+      "loss": 3.3789,
       "step": 14000
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 7.966695287792921e-05,
+      "loss": 3.361,
       "step": 14500
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 7.96427750959725e-05,
+      "loss": 3.3593,
       "step": 15000
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 7.961775412197857e-05,
+      "loss": 3.3542,
       "step": 15500
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 7.959189048813735e-05,
+      "loss": 3.3135,
       "step": 16000
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 7.95651847445619e-05,
+      "loss": 3.3155,
       "step": 16500
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 7.953763745927682e-05,
+      "loss": 3.3343,
       "step": 17000
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 7.950924921820606e-05,
+      "loss": 3.3081,
       "step": 17500
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 7.948002062516052e-05,
+      "loss": 3.2967,
       "step": 18000
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 7.944995230182513e-05,
+      "loss": 3.2729,
       "step": 18500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 7.941904488774571e-05,
+      "loss": 3.2456,
       "step": 19000
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 7.938729904031533e-05,
+      "loss": 3.2926,
       "step": 19500
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 7.93547154347603e-05,
+      "loss": 3.3109,
       "step": 20000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 7.932129476412592e-05,
+      "loss": 3.3393,
       "step": 20500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 7.928703773926155e-05,
+      "loss": 3.2807,
       "step": 21000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 7.925194508880567e-05,
+      "loss": 3.2521,
       "step": 21500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 7.921601755917029e-05,
+      "loss": 3.3654,
       "step": 22000
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 7.917925591452508e-05,
+      "loss": 3.1937,
       "step": 22500
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 7.914166093678117e-05,
+      "loss": 3.3133,
       "step": 23000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 7.910323342557442e-05,
+      "loss": 3.2901,
       "step": 23500
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 7.906397419824855e-05,
+      "loss": 3.2792,
       "step": 24000
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 7.902388408983759e-05,
+      "loss": 3.2885,
       "step": 24500
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 7.898296395304824e-05,
+      "loss": 3.21,
       "step": 25000
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 7.894121465824175e-05,
+      "loss": 3.2116,
       "step": 25500
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 7.889863709341528e-05,
+      "loss": 3.3064,
       "step": 26000
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 7.885523216418312e-05,
+      "loss": 3.2047,
       "step": 26500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 7.881100079375742e-05,
+      "loss": 3.3359,
       "step": 27000
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 7.876594392292848e-05,
+      "loss": 3.3722,
       "step": 27500
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 7.872006251004482e-05,
+      "loss": 3.3781,
       "step": 28000
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 7.867335753099278e-05,
+      "loss": 3.2035,
       "step": 28500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 7.86258299791757e-05,
+      "loss": 3.1994,
       "step": 29000
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 7.857748086549292e-05,
+      "loss": 3.3272,
       "step": 29500
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 7.852831121831812e-05,
+      "loss": 3.2537,
       "step": 30000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 7.847832208347754e-05,
+      "loss": 3.2472,
       "step": 30500
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 7.842751452422775e-05,
+      "loss": 3.2387,
       "step": 31000
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 7.8375889621233e-05,
+      "loss": 3.2847,
       "step": 31500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 7.83234484725422e-05,
+      "loss": 3.1932,
       "step": 32000
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 7.827019219356568e-05,
+      "loss": 3.287,
       "step": 32500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 7.821612191705128e-05,
+      "loss": 3.3191,
       "step": 33000
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 7.816123879306048e-05,
+      "loss": 3.2097,
       "step": 33500
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 7.810554398894376e-05,
+      "loss": 3.1723,
       "step": 34000
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 7.804903868931584e-05,
+      "loss": 3.2233,
       "step": 34500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 7.79917240960305e-05,
+      "loss": 3.1182,
       "step": 35000
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 7.7933601428155e-05,
+      "loss": 3.2478,
       "step": 35500
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 7.78746719219441e-05,
+      "loss": 3.229,
       "step": 36000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 7.781493683081388e-05,
+      "loss": 3.2293,
       "step": 36500
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 7.775439742531495e-05,
+      "loss": 3.1808,
       "step": 37000
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 7.769305499310553e-05,
+      "loss": 3.2062,
       "step": 37500
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 7.763091083892402e-05,
+      "loss": 3.1863,
       "step": 38000
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 7.756796628456121e-05,
+      "loss": 3.193,
       "step": 38500
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 7.750422266883222e-05,
+      "loss": 3.1244,
       "step": 39000
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 7.743968134754806e-05,
+      "loss": 3.273,
       "step": 39500
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 7.737434369348664e-05,
+      "loss": 3.2606,
       "step": 40000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 7.730821109636379e-05,
+      "loss": 3.1016,
       "step": 40500
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 7.724128496280346e-05,
+      "loss": 3.2559,
       "step": 41000
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.717356671630802e-05,
+      "loss": 3.2853,
       "step": 41500
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.710505779722786e-05,
+      "loss": 3.1973,
       "step": 42000
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.703575966273073e-05,
+      "loss": 3.3002,
       "step": 42500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 7.696567378677089e-05,
+      "loss": 3.1585,
       "step": 43000
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 7.689480166005756e-05,
+      "loss": 3.2222,
       "step": 43500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 7.682314479002344e-05,
+      "loss": 3.1983,
       "step": 44000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 7.67507047007924e-05,
+      "loss": 3.1874,
       "step": 44500
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 7.667748293314729e-05,
+      "loss": 3.2168,
       "step": 45000
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 7.6603481044497e-05,
+      "loss": 3.2015,
       "step": 45500
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 7.652870060884345e-05,
+      "loss": 3.2585,
       "step": 46000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 7.645314321674803e-05,
+      "loss": 3.2109,
       "step": 46500
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 7.637681047529781e-05,
+      "loss": 3.1592,
       "step": 47000
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 7.629970400807136e-05,
+      "loss": 3.1815,
       "step": 47500
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 7.622182545510419e-05,
+      "loss": 3.1461,
       "step": 48000
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 7.61431764728539e-05,
+      "loss": 3.2464,
       "step": 48500
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 7.606375873416491e-05,
+      "loss": 3.1823,
       "step": 49000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 7.598357392823292e-05,
+      "loss": 3.1304,
       "step": 49500
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 7.590262376056896e-05,
+      "loss": 3.1312,
       "step": 50000
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 7.58209099529631e-05,
+      "loss": 3.0755,
       "step": 50500
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 7.573843424344783e-05,
+      "loss": 3.1699,
+      "step": 51000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 7.565519838626113e-05,
+      "loss": 3.1478,
+      "step": 51500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.557120415180916e-05,
+      "loss": 3.1874,
+      "step": 52000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.548645332662853e-05,
+      "loss": 3.2038,
+      "step": 52500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.540094771334835e-05,
+      "loss": 3.3039,
+      "step": 53000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.531468913065192e-05,
+      "loss": 3.3008,
+      "step": 53500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.522767941323798e-05,
+      "loss": 3.1248,
+      "step": 54000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.513992041178174e-05,
+      "loss": 3.1972,
+      "step": 54500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 7.505141399289549e-05,
+      "loss": 3.1768,
+      "step": 55000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 7.496216203908891e-05,
+      "loss": 3.0954,
+      "step": 55500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 7.487216644872901e-05,
+      "loss": 3.1659,
+      "step": 56000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 7.478142913599978e-05,
+      "loss": 3.2247,
+      "step": 56500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.468995203086146e-05,
+      "loss": 3.1733,
+      "step": 57000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.459773707900946e-05,
+      "loss": 3.2226,
+      "step": 57500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.450478624183306e-05,
+      "loss": 3.1898,
+      "step": 58000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.441110149637363e-05,
+      "loss": 3.2628,
+      "step": 58500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.431668483528254e-05,
+      "loss": 3.1605,
+      "step": 59000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 7.422153826677887e-05,
+      "loss": 3.1439,
+      "step": 59500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.412566381460662e-05,
+      "loss": 3.177,
+      "step": 60000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 7.402906351799175e-05,
+      "loss": 3.1037,
+      "step": 60500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 7.39317394315987e-05,
+      "loss": 3.2293,
+      "step": 61000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.383369362548674e-05,
+      "loss": 3.1304,
+      "step": 61500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 7.373492818506597e-05,
+      "loss": 3.1243,
+      "step": 62000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.363544521105292e-05,
+      "loss": 3.1219,
+      "step": 62500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.353524681942585e-05,
+      "loss": 3.1183,
+      "step": 63000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.343433514137987e-05,
+      "loss": 3.2476,
+      "step": 63500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 7.333271232328141e-05,
+      "loss": 3.207,
+      "step": 64000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 7.32303805266227e-05,
+      "loss": 3.0767,
+      "step": 64500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 7.312734192797583e-05,
+      "loss": 3.1447,
+      "step": 65000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.302359871894635e-05,
+      "loss": 3.2073,
+      "step": 65500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 7.291915310612666e-05,
+      "loss": 3.1725,
+      "step": 66000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 7.281400731104918e-05,
+      "loss": 3.1812,
+      "step": 66500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.2708163570139e-05,
+      "loss": 3.1421,
+      "step": 67000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.260162413466636e-05,
+      "loss": 3.1253,
+      "step": 67500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.249439127069873e-05,
+      "loss": 3.1778,
+      "step": 68000
+    },
+    {
+      "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 3.0338802337646484,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 7761920,
+      "eval_runtime": 20729.6074,
+      "eval_samples_per_second": 0.731,
+      "eval_steps_per_second": 0.366,
+      "eval_translation_length": 7761920,
+      "step": 68219
     }
   ],
   "logging_steps": 500,
+  "max_steps": 341095,
+  "num_train_epochs": 5,
+  "save_steps": 5000,
+  "total_flos": 1.1708163520053903e+18,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7c8666ad1a059ed7265a7f4363a6ee3ab5fbfde75b0f7af29bc8baac32797e7
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6ca830d6d5d553a29fbd015e13f5b91f1ebe5cec81e6874f2564cd16cd029b0
 size 4728