stage base adaptified wce model

Browse files

Files changed (17) hide show

{checkpoint-48000 → checkpoint-80000}/config.json +0 -0
{checkpoint-48000 → checkpoint-80000}/generation_config.json +0 -1
{checkpoint-48000 → checkpoint-80000}/optimizer.pt +2 -2
{checkpoint-48000 → checkpoint-80000}/pytorch_model.bin +1 -1
{checkpoint-48000 → checkpoint-80000}/rng_state.pth +1 -1
{checkpoint-48000 → checkpoint-80000}/scaler.pt +1 -1
{checkpoint-48000 → checkpoint-80000}/scheduler.pt +1 -1
{checkpoint-48000 → checkpoint-80000}/source.spm +0 -0
{checkpoint-48000 → checkpoint-80000}/special_tokens_map.json +0 -0
{checkpoint-48000 → checkpoint-80000}/target.spm +0 -0
{checkpoint-48000 → checkpoint-80000}/tokenizer_config.json +0 -0
{checkpoint-48000 → checkpoint-80000}/trainer_state.json +193 -65
{checkpoint-48000 → checkpoint-80000}/training_args.bin +2 -2
{checkpoint-48000 → checkpoint-80000}/vocab.json +0 -0
generation_config.json +0 -1
pytorch_model.bin +1 -1
training_args.bin +2 -2

{checkpoint-48000 → checkpoint-80000}/config.json RENAMED Viewed

File without changes

{checkpoint-48000 → checkpoint-80000}/generation_config.json RENAMED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "bad_words_ids": [
     [
       59513

 {
   "bad_words_ids": [
     [
       59513

{checkpoint-48000 → checkpoint-80000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1dcbcb6bf2afcca0a48fd935e8f999068a53828066ea48e6ca155e82eaeb589
-size 597025797

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9a5b2b445a3b9c446051a58f22d626d3b8c9d36a9cd6ee6165de999ebeee90a
+size 597026309

{checkpoint-48000 → checkpoint-80000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6bc203abf3a27917d534033ec8c043326bebd8f7a8a6e5b613a13bffa52bb36
 size 298763205

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e09dfdff447fd35dd7560e343c5f5184855dcb9fa967131802b070af33b46a6
 size 298763205

{checkpoint-48000 → checkpoint-80000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14b199bf3f892b059b4af543513276492925c6d8580fd0b45ba4ef07256d14fd
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:93cb275b1958afab7b00ff10c89750031af1ddf430cb164a9b75e2aa22eb328c
 size 14575

{checkpoint-48000 → checkpoint-80000}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4ce90705cb87e1fdcd39511c7b2ab9a8f2961d8fd6b260ace3b73a6e232a429
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8a3c0737d809aa55087dd7e60c043fb9b532cb459427a93d43f6e857bba1aac
 size 557

{checkpoint-48000 → checkpoint-80000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d07cc68553b9d55d1bac413808db7684345e753a804c82096a7c8f0266afa2f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1378d1da724b1a77da62e79047ad80c84a64145612cd1941ad7ce9dd55ac66d8
 size 627

{checkpoint-48000 → checkpoint-80000}/source.spm RENAMED Viewed

File without changes

{checkpoint-48000 → checkpoint-80000}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-48000 → checkpoint-80000}/target.spm RENAMED Viewed

File without changes

{checkpoint-48000 → checkpoint-80000}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-48000 → checkpoint-80000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 42.8398,
-  "best_model_checkpoint": "opus_wmt_finetuned_enfr_adapt_wce_best_hyp/checkpoint-48000",
-  "epoch": 2.365930599369085,
-  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15,12 +15,12 @@
     },
     {
       "epoch": 0.2,
-      "eval_bleu": 40.9504,
-      "eval_gen_len": 33.9981,
       "eval_loss": 0.10906314104795456,
-      "eval_runtime": 90.4359,
-      "eval_samples_per_second": 11.533,
-      "eval_steps_per_second": 0.365,
       "step": 4000
     },
     {
@@ -31,12 +31,12 @@
     },
     {
       "epoch": 0.39,
-      "eval_bleu": 40.933,
-      "eval_gen_len": 34.1841,
       "eval_loss": 0.10657753050327301,
-      "eval_runtime": 84.5513,
-      "eval_samples_per_second": 12.336,
-      "eval_steps_per_second": 0.39,
       "step": 8000
     },
     {
@@ -47,12 +47,12 @@
     },
     {
       "epoch": 0.59,
-      "eval_bleu": 41.4114,
-      "eval_gen_len": 34.2368,
       "eval_loss": 0.10533162206411362,
-      "eval_runtime": 86.7645,
-      "eval_samples_per_second": 12.021,
-      "eval_steps_per_second": 0.38,
       "step": 12000
     },
     {
@@ -63,12 +63,12 @@
     },
     {
       "epoch": 0.79,
-      "eval_bleu": 41.3877,
-      "eval_gen_len": 33.999,
       "eval_loss": 0.10429085791110992,
-      "eval_runtime": 97.4878,
-      "eval_samples_per_second": 10.699,
-      "eval_steps_per_second": 0.339,
       "step": 16000
     },
     {
@@ -79,12 +79,12 @@
     },
     {
       "epoch": 0.99,
-      "eval_bleu": 41.6965,
-      "eval_gen_len": 34.1371,
       "eval_loss": 0.10373106598854065,
-      "eval_runtime": 84.8213,
-      "eval_samples_per_second": 12.296,
-      "eval_steps_per_second": 0.389,
       "step": 20000
     },
     {
@@ -95,12 +95,12 @@
     },
     {
       "epoch": 1.18,
-      "eval_bleu": 42.0185,
-      "eval_gen_len": 34.1524,
       "eval_loss": 0.10356967151165009,
-      "eval_runtime": 84.4609,
-      "eval_samples_per_second": 12.349,
-      "eval_steps_per_second": 0.391,
       "step": 24000
     },
     {
@@ -111,12 +111,12 @@
     },
     {
       "epoch": 1.38,
-      "eval_bleu": 41.8992,
-      "eval_gen_len": 33.8514,
       "eval_loss": 0.10275906324386597,
-      "eval_runtime": 103.237,
-      "eval_samples_per_second": 10.103,
-      "eval_steps_per_second": 0.32,
       "step": 28000
     },
     {
@@ -127,12 +127,12 @@
     },
     {
       "epoch": 1.58,
-      "eval_bleu": 42.018,
-      "eval_gen_len": 34.1323,
       "eval_loss": 0.10221899300813675,
-      "eval_runtime": 103.539,
-      "eval_samples_per_second": 10.073,
-      "eval_steps_per_second": 0.319,
       "step": 32000
     },
     {
@@ -143,12 +143,12 @@
     },
     {
       "epoch": 1.77,
-      "eval_bleu": 42.1064,
-      "eval_gen_len": 34.0105,
       "eval_loss": 0.10177244991064072,
-      "eval_runtime": 87.7883,
-      "eval_samples_per_second": 11.881,
-      "eval_steps_per_second": 0.376,
       "step": 36000
     },
     {
@@ -159,12 +159,12 @@
     },
     {
       "epoch": 1.97,
-      "eval_bleu": 42.5049,
-      "eval_gen_len": 34.023,
       "eval_loss": 0.10191857814788818,
-      "eval_runtime": 84.7743,
-      "eval_samples_per_second": 12.303,
-      "eval_steps_per_second": 0.389,
       "step": 40000
     },
     {
@@ -175,12 +175,12 @@
     },
     {
       "epoch": 2.17,
-      "eval_bleu": 42.1376,
-      "eval_gen_len": 34.0479,
       "eval_loss": 0.10230503231287003,
-      "eval_runtime": 97.8694,
-      "eval_samples_per_second": 10.657,
-      "eval_steps_per_second": 0.337,
       "step": 44000
     },
     {
@@ -191,18 +191,146 @@
     },
     {
       "epoch": 2.37,
-      "eval_bleu": 42.8398,
-      "eval_gen_len": 34.489,
       "eval_loss": 0.10215254127979279,
-      "eval_runtime": 84.3016,
-      "eval_samples_per_second": 12.372,
-      "eval_steps_per_second": 0.391,
       "step": 48000
     }
   ],
   "max_steps": 324608,
   "num_train_epochs": 16,
-  "total_flos": 8.279444701052928e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 42.9732,
+  "best_model_checkpoint": "opus_base_wce_adaptified/checkpoint-80000",
+  "epoch": 3.943217665615142,
+  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.2,
+      "eval_bleu": 35.5597,
+      "eval_gen_len": 39.8495,
       "eval_loss": 0.10906314104795456,
+      "eval_runtime": 172.1137,
+      "eval_samples_per_second": 6.06,
+      "eval_steps_per_second": 0.192,
       "step": 4000
     },
     {
     },
     {
       "epoch": 0.39,
+      "eval_bleu": 40.9319,
+      "eval_gen_len": 34.6337,
       "eval_loss": 0.10657753050327301,
+      "eval_runtime": 155.9008,
+      "eval_samples_per_second": 6.69,
+      "eval_steps_per_second": 0.212,
       "step": 8000
     },
     {
     },
     {
       "epoch": 0.59,
+      "eval_bleu": 41.3844,
+      "eval_gen_len": 34.6453,
       "eval_loss": 0.10533162206411362,
+      "eval_runtime": 169.7915,
+      "eval_samples_per_second": 6.143,
+      "eval_steps_per_second": 0.194,
       "step": 12000
     },
     {
     },
     {
       "epoch": 0.79,
+      "eval_bleu": 41.3616,
+      "eval_gen_len": 35.1601,
       "eval_loss": 0.10429085791110992,
+      "eval_runtime": 173.7331,
+      "eval_samples_per_second": 6.003,
+      "eval_steps_per_second": 0.19,
       "step": 16000
     },
     {
     },
     {
       "epoch": 0.99,
+      "eval_bleu": 41.6835,
+      "eval_gen_len": 34.9942,
       "eval_loss": 0.10373106598854065,
+      "eval_runtime": 138.2922,
+      "eval_samples_per_second": 7.542,
+      "eval_steps_per_second": 0.239,
       "step": 20000
     },
     {
     },
     {
       "epoch": 1.18,
+      "eval_bleu": 41.1613,
+      "eval_gen_len": 36.2349,
       "eval_loss": 0.10356967151165009,
+      "eval_runtime": 161.9993,
+      "eval_samples_per_second": 6.438,
+      "eval_steps_per_second": 0.204,
       "step": 24000
     },
     {
     },
     {
       "epoch": 1.38,
+      "eval_bleu": 41.8822,
+      "eval_gen_len": 34.4698,
       "eval_loss": 0.10275906324386597,
+      "eval_runtime": 113.2908,
+      "eval_samples_per_second": 9.206,
+      "eval_steps_per_second": 0.291,
       "step": 28000
     },
     {
     },
     {
       "epoch": 1.58,
+      "eval_bleu": 41.7092,
+      "eval_gen_len": 35.2943,
       "eval_loss": 0.10221899300813675,
+      "eval_runtime": 118.7545,
+      "eval_samples_per_second": 8.783,
+      "eval_steps_per_second": 0.278,
       "step": 32000
     },
     {
     },
     {
       "epoch": 1.77,
+      "eval_bleu": 40.1745,
+      "eval_gen_len": 38.5484,
       "eval_loss": 0.10177244991064072,
+      "eval_runtime": 118.1882,
+      "eval_samples_per_second": 8.825,
+      "eval_steps_per_second": 0.279,
       "step": 36000
     },
     {
     },
     {
       "epoch": 1.97,
+      "eval_bleu": 42.5078,
+      "eval_gen_len": 34.3826,
       "eval_loss": 0.10191857814788818,
+      "eval_runtime": 109.0756,
+      "eval_samples_per_second": 9.562,
+      "eval_steps_per_second": 0.303,
       "step": 40000
     },
     {
     },
     {
       "epoch": 2.17,
+      "eval_bleu": 42.0937,
+      "eval_gen_len": 35.7114,
       "eval_loss": 0.10230503231287003,
+      "eval_runtime": 120.9618,
+      "eval_samples_per_second": 8.623,
+      "eval_steps_per_second": 0.273,
       "step": 44000
     },
     {
     },
     {
       "epoch": 2.37,
+      "eval_bleu": 42.3842,
+      "eval_gen_len": 35.3586,
       "eval_loss": 0.10215254127979279,
+      "eval_runtime": 145.2894,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.227,
       "step": 48000
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.6797491127760255e-05,
+      "loss": 0.1335,
+      "step": 52000
+    },
+    {
+      "epoch": 2.56,
+      "eval_bleu": 42.1993,
+      "eval_gen_len": 34.0729,
+      "eval_loss": 0.10184619575738907,
+      "eval_runtime": 129.3624,
+      "eval_samples_per_second": 8.063,
+      "eval_steps_per_second": 0.255,
+      "step": 52000
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 1.6551101636435333e-05,
+      "loss": 0.1338,
+      "step": 56000
+    },
+    {
+      "epoch": 2.76,
+      "eval_bleu": 42.3348,
+      "eval_gen_len": 35.5158,
+      "eval_loss": 0.10167574882507324,
+      "eval_runtime": 118.7033,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 0.278,
+      "step": 56000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.6304773757886436e-05,
+      "loss": 0.1341,
+      "step": 60000
+    },
+    {
+      "epoch": 2.96,
+      "eval_bleu": 42.6183,
+      "eval_gen_len": 34.5225,
+      "eval_loss": 0.10100951045751572,
+      "eval_runtime": 129.9979,
+      "eval_samples_per_second": 8.023,
+      "eval_steps_per_second": 0.254,
+      "step": 60000
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.6058445879337542e-05,
+      "loss": 0.1278,
+      "step": 64000
+    },
+    {
+      "epoch": 3.15,
+      "eval_bleu": 42.354,
+      "eval_gen_len": 35.1323,
+      "eval_loss": 0.10181604325771332,
+      "eval_runtime": 112.8931,
+      "eval_samples_per_second": 9.239,
+      "eval_steps_per_second": 0.292,
+      "step": 64000
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.5812118000788645e-05,
+      "loss": 0.1272,
+      "step": 68000
+    },
+    {
+      "epoch": 3.35,
+      "eval_bleu": 41.9485,
+      "eval_gen_len": 35.4727,
+      "eval_loss": 0.10201819986104965,
+      "eval_runtime": 152.1334,
+      "eval_samples_per_second": 6.856,
+      "eval_steps_per_second": 0.217,
+      "step": 68000
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.5565728509463723e-05,
+      "loss": 0.1261,
+      "step": 72000
+    },
+    {
+      "epoch": 3.55,
+      "eval_bleu": 42.3042,
+      "eval_gen_len": 35.2704,
+      "eval_loss": 0.10195478051900864,
+      "eval_runtime": 87.1208,
+      "eval_samples_per_second": 11.972,
+      "eval_steps_per_second": 0.379,
+      "step": 72000
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.5319400630914826e-05,
+      "loss": 0.1265,
+      "step": 76000
+    },
+    {
+      "epoch": 3.75,
+      "eval_bleu": 39.7039,
+      "eval_gen_len": 37.767,
+      "eval_loss": 0.10168451070785522,
+      "eval_runtime": 120.3909,
+      "eval_samples_per_second": 8.663,
+      "eval_steps_per_second": 0.274,
+      "step": 76000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.5073011139589906e-05,
+      "loss": 0.1273,
+      "step": 80000
+    },
+    {
+      "epoch": 3.94,
+      "eval_bleu": 42.9732,
+      "eval_gen_len": 34.5542,
+      "eval_loss": 0.10154784470796585,
+      "eval_runtime": 146.5985,
+      "eval_samples_per_second": 7.115,
+      "eval_steps_per_second": 0.225,
+      "step": 80000
     }
   ],
   "max_steps": 324608,
   "num_train_epochs": 16,
+  "total_flos": 1.3796012702564352e+17,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-48000 → checkpoint-80000}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dab161e21e52be31273e47c123b18a65519bf792d217c264bb54be0cae38ab69
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e05e0105e3d4b9c07cc62cac7d00f8128a8ae004ebec6214a4683123704e19a
+size 3771

{checkpoint-48000 → checkpoint-80000}/vocab.json RENAMED Viewed

File without changes

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "bad_words_ids": [
     [
       59513

 {
   "bad_words_ids": [
     [
       59513

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6bc203abf3a27917d534033ec8c043326bebd8f7a8a6e5b613a13bffa52bb36
 size 298763205

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e09dfdff447fd35dd7560e343c5f5184855dcb9fa967131802b070af33b46a6
 size 298763205

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dab161e21e52be31273e47c123b18a65519bf792d217c264bb54be0cae38ab69
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e05e0105e3d4b9c07cc62cac7d00f8128a8ae004ebec6214a4683123704e19a
+size 3771