stage big adaptified wce model

Browse files

Files changed (16) hide show

{checkpoint-80000 → checkpoint-72000}/config.json +0 -0
{checkpoint-80000 → checkpoint-72000}/generation_config.json +0 -0
{checkpoint-80000 → checkpoint-72000}/optimizer.pt +1 -1
{checkpoint-80000 → checkpoint-72000}/pytorch_model.bin +1 -1
{checkpoint-80000 → checkpoint-72000}/rng_state.pth +2 -2
{checkpoint-80000 → checkpoint-72000}/scaler.pt +1 -1
{checkpoint-80000 → checkpoint-72000}/scheduler.pt +1 -1
{checkpoint-80000 → checkpoint-72000}/source.spm +0 -0
{checkpoint-80000 → checkpoint-72000}/special_tokens_map.json +0 -0
{checkpoint-80000 → checkpoint-72000}/target.spm +0 -0
{checkpoint-80000 → checkpoint-72000}/tokenizer_config.json +0 -0
{checkpoint-80000 → checkpoint-72000}/trainer_state.json +75 -91
{checkpoint-80000 → checkpoint-72000}/training_args.bin +1 -1
{checkpoint-80000 → checkpoint-72000}/vocab.json +0 -0
pytorch_model.bin +1 -1
training_args.bin +1 -1

{checkpoint-80000 → checkpoint-72000}/config.json RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/generation_config.json RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d526a148601e099edf158a9fc78882a39ab08130a90a882333ac7769de73029
 size 1845323269

 version https://git-lfs.github.com/spec/v1
+oid sha256:dee553ed3c07b358d14aba246ae7b15c397754d5368d73af63d4802feb85590b
 size 1845323269

{checkpoint-80000 → checkpoint-72000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5bb1822df70a2771409341ffb3c06e2972a8b09ee543aa179e806382e943316
 size 922885701

 version https://git-lfs.github.com/spec/v1
+oid sha256:c73120ed5f0886eb579215ffef18fdc6e90ab5b7c32a765c31c5c58611905824
 size 922885701

{checkpoint-80000 → checkpoint-72000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1c5de039757d33c044a58924fca47bef181f366cb5e1ad6f648addfff1fd7db
-size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:b985e593f49e2226d0de3ec98059c138ef1c127049448165d750d7ea39566354
+size 14575

{checkpoint-80000 → checkpoint-72000}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08ed45a31983d0daf4eea0c1495c9670548fa97b03f0a2771e3022ca5c1dd14b
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:394805827a2ba904597382fb5ff73573627c5788f891ee76ba1705571f4a171b
 size 557

{checkpoint-80000 → checkpoint-72000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3af67343aa0f8b4109961c1ed1ad806d5b136e6b0592737a57873f77d6c9558
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:22fc51666a7893fc87aad62701dce4682bace66d9f66e719993c37b1a582b131
 size 627

{checkpoint-80000 → checkpoint-72000}/source.spm RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/target.spm RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-80000 → checkpoint-72000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 43.3052,
-  "best_model_checkpoint": "opus_big_enfr_FT_adapt_wce/checkpoint-80000",
-  "epoch": 1.9716574245224892,
-  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,167 +10,151 @@
     {
       "epoch": 0.2,
       "learning_rate": 1.9753635243376465e-05,
-      "loss": 0.1755,
       "step": 8000
     },
     {
       "epoch": 0.2,
-      "eval_bleu": 42.1676,
-      "eval_gen_len": 33.629,
-      "eval_loss": 0.09851773828268051,
-      "eval_runtime": 118.9906,
-      "eval_samples_per_second": 8.765,
-      "eval_steps_per_second": 0.555,
       "step": 8000
     },
     {
       "epoch": 0.39,
-      "learning_rate": 1.950723967960567e-05,
-      "loss": 0.1449,
       "step": 16000
     },
     {
       "epoch": 0.39,
-      "eval_bleu": 42.3472,
-      "eval_gen_len": 34.117,
-      "eval_loss": 0.09749302268028259,
-      "eval_runtime": 122.5206,
-      "eval_samples_per_second": 8.513,
-      "eval_steps_per_second": 0.539,
       "step": 16000
     },
     {
       "epoch": 0.59,
-      "learning_rate": 1.9260844115834877e-05,
-      "loss": 0.1409,
       "step": 24000
     },
     {
       "epoch": 0.59,
-      "eval_bleu": 42.8397,
-      "eval_gen_len": 33.372,
-      "eval_loss": 0.09753246605396271,
-      "eval_runtime": 109.5101,
-      "eval_samples_per_second": 9.524,
-      "eval_steps_per_second": 0.603,
       "step": 24000
     },
     {
       "epoch": 0.79,
-      "learning_rate": 1.90145101663586e-05,
-      "loss": 0.1371,
       "step": 32000
     },
     {
       "epoch": 0.79,
-      "eval_bleu": 42.3685,
-      "eval_gen_len": 34.162,
-      "eval_loss": 0.09639725089073181,
-      "eval_runtime": 110.7923,
-      "eval_samples_per_second": 9.414,
-      "eval_steps_per_second": 0.596,
       "step": 32000
     },
     {
       "epoch": 0.99,
       "learning_rate": 1.8768114602587803e-05,
-      "loss": 0.1357,
       "step": 40000
     },
     {
       "epoch": 0.99,
-      "eval_bleu": 42.5122,
-      "eval_gen_len": 34.0192,
-      "eval_loss": 0.09595585614442825,
-      "eval_runtime": 115.7491,
-      "eval_samples_per_second": 9.011,
-      "eval_steps_per_second": 0.57,
       "step": 40000
     },
     {
       "epoch": 1.18,
-      "learning_rate": 1.8521719038817007e-05,
-      "loss": 0.1208,
       "step": 48000
     },
     {
       "epoch": 1.18,
-      "eval_bleu": 42.8241,
-      "eval_gen_len": 33.8121,
-      "eval_loss": 0.09709044545888901,
-      "eval_runtime": 109.8769,
-      "eval_samples_per_second": 9.492,
-      "eval_steps_per_second": 0.601,
       "step": 48000
     },
     {
       "epoch": 1.38,
-      "learning_rate": 1.827538508934073e-05,
-      "loss": 0.1211,
       "step": 56000
     },
     {
       "epoch": 1.38,
-      "eval_bleu": 42.4096,
-      "eval_gen_len": 34.0662,
-      "eval_loss": 0.09704224020242691,
-      "eval_runtime": 127.711,
-      "eval_samples_per_second": 8.167,
-      "eval_steps_per_second": 0.517,
       "step": 56000
     },
     {
       "epoch": 1.58,
-      "learning_rate": 1.8028989525569933e-05,
-      "loss": 0.1217,
       "step": 64000
     },
     {
       "epoch": 1.58,
-      "eval_bleu": 42.9752,
-      "eval_gen_len": 34.0479,
-      "eval_loss": 0.09673523902893066,
-      "eval_runtime": 124.3803,
-      "eval_samples_per_second": 8.386,
-      "eval_steps_per_second": 0.531,
       "step": 64000
     },
     {
       "epoch": 1.77,
-      "learning_rate": 1.7782624768946397e-05,
-      "loss": 0.1213,
       "step": 72000
     },
     {
       "epoch": 1.77,
-      "eval_bleu": 42.7247,
-      "eval_gen_len": 33.9243,
-      "eval_loss": 0.09718381613492966,
-      "eval_runtime": 122.3128,
-      "eval_samples_per_second": 8.527,
-      "eval_steps_per_second": 0.54,
       "step": 72000
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 1.753626001232286e-05,
-      "loss": 0.1211,
-      "step": 80000
-    },
-    {
-      "epoch": 1.97,
-      "eval_bleu": 43.3052,
-      "eval_gen_len": 33.743,
-      "eval_loss": 0.09632089734077454,
-      "eval_runtime": 163.2845,
-      "eval_samples_per_second": 6.388,
-      "eval_steps_per_second": 0.404,
-      "step": 80000
     }
   ],
   "max_steps": 649200,
   "num_train_epochs": 16,
-  "total_flos": 2.5844916958632346e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 42.9999,
+  "best_model_checkpoint": "opus_big_wce_adaptified/checkpoint-72000",
+  "epoch": 1.7744916820702403,
+  "global_step": 72000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.2,
       "learning_rate": 1.9753635243376465e-05,
+      "loss": 0.1747,
       "step": 8000
     },
     {
       "epoch": 0.2,
+      "eval_bleu": 42.2846,
+      "eval_gen_len": 33.5896,
+      "eval_loss": 0.0983600914478302,
+      "eval_runtime": 122.9468,
+      "eval_samples_per_second": 8.483,
+      "eval_steps_per_second": 0.537,
       "step": 8000
     },
     {
       "epoch": 0.39,
+      "learning_rate": 1.9507208872458414e-05,
+      "loss": 0.1441,
       "step": 16000
     },
     {
       "epoch": 0.39,
+      "eval_bleu": 42.1887,
+      "eval_gen_len": 34.0508,
+      "eval_loss": 0.097293421626091,
+      "eval_runtime": 162.7475,
+      "eval_samples_per_second": 6.409,
+      "eval_steps_per_second": 0.406,
       "step": 16000
     },
     {
       "epoch": 0.59,
+      "learning_rate": 1.9260874922982132e-05,
+      "loss": 0.1402,
       "step": 24000
     },
     {
       "epoch": 0.59,
+      "eval_bleu": 42.7367,
+      "eval_gen_len": 33.7747,
+      "eval_loss": 0.09722033143043518,
+      "eval_runtime": 127.375,
+      "eval_samples_per_second": 8.188,
+      "eval_steps_per_second": 0.518,
       "step": 24000
     },
     {
       "epoch": 0.79,
+      "learning_rate": 1.901447935921134e-05,
+      "loss": 0.1364,
       "step": 32000
     },
     {
       "epoch": 0.79,
+      "eval_bleu": 42.9551,
+      "eval_gen_len": 34.4238,
+      "eval_loss": 0.0965743437409401,
+      "eval_runtime": 120.0033,
+      "eval_samples_per_second": 8.691,
+      "eval_steps_per_second": 0.55,
       "step": 32000
     },
     {
       "epoch": 0.99,
       "learning_rate": 1.8768114602587803e-05,
+      "loss": 0.135,
       "step": 40000
     },
     {
       "epoch": 0.99,
+      "eval_bleu": 42.7141,
+      "eval_gen_len": 34.0872,
+      "eval_loss": 0.09599015861749649,
+      "eval_runtime": 144.0409,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.458,
       "step": 40000
     },
     {
       "epoch": 1.18,
+      "learning_rate": 1.8521749845964266e-05,
+      "loss": 0.1203,
       "step": 48000
     },
     {
       "epoch": 1.18,
+      "eval_bleu": 42.4802,
+      "eval_gen_len": 34.1266,
+      "eval_loss": 0.09718813002109528,
+      "eval_runtime": 121.2752,
+      "eval_samples_per_second": 8.6,
+      "eval_steps_per_second": 0.544,
       "step": 48000
     },
     {
       "epoch": 1.38,
+      "learning_rate": 1.827535428219347e-05,
+      "loss": 0.1205,
       "step": 56000
     },
     {
       "epoch": 1.38,
+      "eval_bleu": 42.6361,
+      "eval_gen_len": 34.1045,
+      "eval_loss": 0.0969875305891037,
+      "eval_runtime": 137.2112,
+      "eval_samples_per_second": 7.601,
+      "eval_steps_per_second": 0.481,
       "step": 56000
     },
     {
       "epoch": 1.58,
+      "learning_rate": 1.8029020332717192e-05,
+      "loss": 0.1211,
       "step": 64000
     },
     {
       "epoch": 1.58,
+      "eval_bleu": 42.8271,
+      "eval_gen_len": 34.4851,
+      "eval_loss": 0.09680665284395218,
+      "eval_runtime": 134.8615,
+      "eval_samples_per_second": 7.734,
+      "eval_steps_per_second": 0.489,
       "step": 64000
     },
     {
       "epoch": 1.77,
+      "learning_rate": 1.7782655576093655e-05,
+      "loss": 0.1207,
       "step": 72000
     },
     {
       "epoch": 1.77,
+      "eval_bleu": 42.9999,
+      "eval_gen_len": 34.0671,
+      "eval_loss": 0.09675087034702301,
+      "eval_runtime": 110.3226,
+      "eval_samples_per_second": 9.454,
+      "eval_steps_per_second": 0.598,
       "step": 72000
     }
   ],
   "max_steps": 649200,
   "num_train_epochs": 16,
+  "total_flos": 2.3265115550672486e+17,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-80000 → checkpoint-72000}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c3be397238354cb3b7021722caa2999c3a8a27790d6ef14c14cfd7d38f7afb9
 size 3771

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cf5ee38f2194704c244e5c80610b2c3775d2eb9a6a936f61d49a9795e266a86
 size 3771

{checkpoint-80000 → checkpoint-72000}/vocab.json RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5bb1822df70a2771409341ffb3c06e2972a8b09ee543aa179e806382e943316
 size 922885701

 version https://git-lfs.github.com/spec/v1
+oid sha256:c73120ed5f0886eb579215ffef18fdc6e90ab5b7c32a765c31c5c58611905824
 size 922885701

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c3be397238354cb3b7021722caa2999c3a8a27790d6ef14c14cfd7d38f7afb9
 size 3771

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cf5ee38f2194704c244e5c80610b2c3775d2eb9a6a936f61d49a9795e266a86
 size 3771