Training in progress, epoch 1, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +26 -660

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a719ae057e05af32962d3c0b0a042e87e0340cd8be875b7011b5d7c0a11eb6c
 size 1980860410

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ab5328b63a8ec3b53c2f26a99111049d2792ac322fccebc0739829ebfab0879
 size 1980860410

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20dab4a02d1fc1823157099879eca284bd66f0c8febf3dba5cfc87be7c9c9028
 size 990409330

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0afe6c8cd50d6bcf5ad6cb45258efb15f89d523168c877fac499ab3891b636e
 size 990409330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfda48251ec49dae4ce59144bf0a41ddf1eaebff873a2c756112a5149466e4b8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:52a28bc3541f02e8de86363b8d2f634108f83fb8b7a33f774c760cce0869599d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5cbe3af0ede50d3acac3ddaa7d06c821cbab27a0479e23f99d3fb100db2c5e0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5afd8d09736ea35ab4f783803d2aca249bf98e9d0591be216198fe2ebe96a3c3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,684 +1,50 @@
 {
-  "best_metric": 1.8320603370666504,
-  "best_model_checkpoint": "dq158/morbius/checkpoint-47840",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 47840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 4.947742474916388e-05,
-      "loss": 2.0308,
       "step": 500
     },
-    {
-      "epoch": 0.1,
-      "learning_rate": 4.895484949832776e-05,
-      "loss": 2.08,
-      "step": 1000
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 4.8432274247491646e-05,
-      "loss": 2.0242,
-      "step": 1500
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 4.7909698996655525e-05,
-      "loss": 2.0865,
-      "step": 2000
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 4.7387123745819403e-05,
-      "loss": 2.0723,
-      "step": 2500
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 4.686454849498328e-05,
-      "loss": 2.0951,
-      "step": 3000
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 4.6341973244147154e-05,
-      "loss": 2.1049,
-      "step": 3500
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 4.581939799331103e-05,
-      "loss": 2.1124,
-      "step": 4000
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 4.529682274247492e-05,
-      "loss": 2.0989,
-      "step": 4500
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 4.47742474916388e-05,
-      "loss": 2.1086,
-      "step": 5000
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 4.425167224080268e-05,
-      "loss": 2.0899,
-      "step": 5500
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 4.3729096989966556e-05,
-      "loss": 2.0607,
-      "step": 6000
-    },
     {
       "epoch": 0.68,
-      "learning_rate": 4.3206521739130434e-05,
-      "loss": 2.0947,
-      "step": 6500
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 4.268394648829432e-05,
-      "loss": 2.0447,
-      "step": 7000
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 4.21613712374582e-05,
-      "loss": 2.0825,
-      "step": 7500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 4.163879598662208e-05,
-      "loss": 2.077,
-      "step": 8000
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 4.111622073578596e-05,
-      "loss": 2.0956,
-      "step": 8500
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 4.0593645484949835e-05,
-      "loss": 2.0863,
-      "step": 9000
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 4.0071070234113714e-05,
-      "loss": 2.0549,
-      "step": 9500
     },
     {
       "epoch": 1.0,
-      "eval_bleu": 0.08495831954684596,
-      "eval_brevity_penalty": 0.7702011355400264,
-      "eval_length_ratio": 0.7929562751828085,
-      "eval_loss": 1.835176944732666,
-      "eval_precisions": [
-        0.1860885275519422,
-        0.11627011709351441,
-        0.08451872485298668,
-        0.08095923402255639
-      ],
-      "eval_reference_length": 134020,
-      "eval_runtime": 811.6945,
-      "eval_samples_per_second": 15.717,
-      "eval_steps_per_second": 1.311,
-      "eval_translation_length": 106272,
-      "step": 9568
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 3.954849498327759e-05,
-      "loss": 2.0367,
-      "step": 10000
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 3.902591973244147e-05,
-      "loss": 2.0379,
-      "step": 10500
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 3.850334448160535e-05,
-      "loss": 1.9553,
-      "step": 11000
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 3.798076923076923e-05,
-      "loss": 1.9742,
-      "step": 11500
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 3.745819397993311e-05,
-      "loss": 1.9989,
-      "step": 12000
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 3.6935618729096994e-05,
-      "loss": 2.0074,
-      "step": 12500
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 3.641304347826087e-05,
-      "loss": 2.04,
-      "step": 13000
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 3.589046822742475e-05,
-      "loss": 1.9847,
-      "step": 13500
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 3.536789297658863e-05,
-      "loss": 1.9823,
-      "step": 14000
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 3.484531772575251e-05,
-      "loss": 2.034,
-      "step": 14500
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 3.432274247491639e-05,
-      "loss": 2.0177,
-      "step": 15000
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 3.380016722408027e-05,
-      "loss": 2.0167,
-      "step": 15500
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 3.3277591973244146e-05,
-      "loss": 2.0235,
-      "step": 16000
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 3.2755016722408025e-05,
-      "loss": 2.0242,
-      "step": 16500
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 3.2232441471571904e-05,
-      "loss": 2.0119,
-      "step": 17000
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 3.170986622073579e-05,
-      "loss": 1.9696,
-      "step": 17500
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 3.118729096989967e-05,
-      "loss": 2.0214,
-      "step": 18000
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 3.066471571906355e-05,
-      "loss": 2.0348,
-      "step": 18500
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 3.0142140468227426e-05,
-      "loss": 1.9923,
-      "step": 19000
-    },
-    {
-      "epoch": 2.0,
-      "eval_bleu": 0.08658597339938905,
-      "eval_brevity_penalty": 0.7517944633429557,
-      "eval_length_ratio": 0.7780331293836741,
-      "eval_loss": 1.83921480178833,
-      "eval_precisions": [
-        0.1897824919441461,
-        0.11953231710648528,
-        0.0894031328543502,
-        0.08675598838616018
-      ],
-      "eval_reference_length": 134020,
-      "eval_runtime": 809.9384,
-      "eval_samples_per_second": 15.751,
-      "eval_steps_per_second": 1.314,
-      "eval_translation_length": 104272,
-      "step": 19136
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 2.9619565217391305e-05,
-      "loss": 1.9566,
-      "step": 19500
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 2.9096989966555184e-05,
-      "loss": 1.9582,
-      "step": 20000
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 2.8574414715719066e-05,
-      "loss": 1.9681,
-      "step": 20500
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 2.8051839464882945e-05,
-      "loss": 1.9374,
-      "step": 21000
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 2.7529264214046824e-05,
-      "loss": 1.9412,
-      "step": 21500
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 2.7006688963210703e-05,
-      "loss": 1.9557,
-      "step": 22000
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 2.6484113712374582e-05,
-      "loss": 1.9684,
-      "step": 22500
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 2.5961538461538464e-05,
-      "loss": 1.9307,
-      "step": 23000
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 2.5438963210702343e-05,
-      "loss": 1.9237,
-      "step": 23500
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 2.491638795986622e-05,
-      "loss": 1.9608,
-      "step": 24000
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 2.43938127090301e-05,
-      "loss": 1.9549,
-      "step": 24500
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 2.3871237458193983e-05,
-      "loss": 1.9211,
-      "step": 25000
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 2.334866220735786e-05,
-      "loss": 1.9698,
-      "step": 25500
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 2.282608695652174e-05,
-      "loss": 1.9413,
-      "step": 26000
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 2.230351170568562e-05,
-      "loss": 1.9943,
-      "step": 26500
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 2.1780936454849498e-05,
-      "loss": 1.938,
-      "step": 27000
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 2.125836120401338e-05,
-      "loss": 1.987,
-      "step": 27500
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 2.073578595317726e-05,
-      "loss": 1.9455,
-      "step": 28000
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 2.0213210702341138e-05,
-      "loss": 1.9788,
-      "step": 28500
-    },
-    {
-      "epoch": 3.0,
-      "eval_bleu": 0.08712036412034174,
-      "eval_brevity_penalty": 0.7810596870491452,
-      "eval_length_ratio": 0.8018579316519923,
-      "eval_loss": 1.8364616632461548,
-      "eval_precisions": [
-        0.1853626762201647,
-        0.1156396502935338,
-        0.08657517535834096,
-        0.08341024457775727
-      ],
-      "eval_reference_length": 134020,
-      "eval_runtime": 809.3386,
-      "eval_samples_per_second": 15.762,
-      "eval_steps_per_second": 1.315,
-      "eval_translation_length": 107465,
-      "step": 28704
-    },
-    {
-      "epoch": 3.03,
-      "learning_rate": 1.9690635451505017e-05,
-      "loss": 1.9465,
-      "step": 29000
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 1.9168060200668896e-05,
-      "loss": 1.9071,
-      "step": 29500
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 1.8645484949832775e-05,
-      "loss": 1.893,
-      "step": 30000
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 1.8122909698996657e-05,
-      "loss": 1.8895,
-      "step": 30500
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 1.7600334448160536e-05,
-      "loss": 1.8914,
-      "step": 31000
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 1.7077759197324418e-05,
-      "loss": 1.9214,
-      "step": 31500
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 1.6555183946488294e-05,
-      "loss": 1.8911,
-      "step": 32000
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 1.6032608695652173e-05,
-      "loss": 1.9149,
-      "step": 32500
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 1.5510033444816055e-05,
-      "loss": 1.902,
-      "step": 33000
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 1.4987458193979934e-05,
-      "loss": 1.9066,
-      "step": 33500
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 1.4464882943143812e-05,
-      "loss": 1.9027,
-      "step": 34000
-    },
-    {
-      "epoch": 3.61,
-      "learning_rate": 1.3942307692307693e-05,
-      "loss": 1.9232,
-      "step": 34500
-    },
-    {
-      "epoch": 3.66,
-      "learning_rate": 1.3419732441471572e-05,
-      "loss": 1.926,
-      "step": 35000
-    },
-    {
-      "epoch": 3.71,
-      "learning_rate": 1.2897157190635452e-05,
-      "loss": 1.87,
-      "step": 35500
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 1.2374581939799331e-05,
-      "loss": 1.9055,
-      "step": 36000
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 1.1852006688963212e-05,
-      "loss": 1.952,
-      "step": 36500
-    },
-    {
-      "epoch": 3.87,
-      "learning_rate": 1.132943143812709e-05,
-      "loss": 1.8896,
-      "step": 37000
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 1.080685618729097e-05,
-      "loss": 1.9144,
-      "step": 37500
-    },
-    {
-      "epoch": 3.97,
-      "learning_rate": 1.028428093645485e-05,
-      "loss": 1.9447,
-      "step": 38000
-    },
-    {
-      "epoch": 4.0,
-      "eval_bleu": 0.08669705678202416,
-      "eval_brevity_penalty": 0.7634478532624474,
-      "eval_length_ratio": 0.7874570959558275,
-      "eval_loss": 1.8330533504486084,
-      "eval_precisions": [
-        0.1886293646657507,
-        0.11698894134385307,
-        0.08828452928243054,
-        0.08536133232489508
-      ],
-      "eval_reference_length": 134020,
-      "eval_runtime": 811.3896,
-      "eval_samples_per_second": 15.722,
-      "eval_steps_per_second": 1.311,
-      "eval_translation_length": 105535,
-      "step": 38272
-    },
-    {
-      "epoch": 4.02,
-      "learning_rate": 9.76170568561873e-06,
-      "loss": 1.9148,
-      "step": 38500
-    },
-    {
-      "epoch": 4.08,
-      "learning_rate": 9.239130434782608e-06,
-      "loss": 1.9031,
-      "step": 39000
-    },
-    {
-      "epoch": 4.13,
-      "learning_rate": 8.716555183946488e-06,
-      "loss": 1.8884,
-      "step": 39500
-    },
-    {
-      "epoch": 4.18,
-      "learning_rate": 8.193979933110369e-06,
-      "loss": 1.8267,
-      "step": 40000
-    },
-    {
-      "epoch": 4.23,
-      "learning_rate": 7.671404682274248e-06,
-      "loss": 1.8556,
-      "step": 40500
-    },
-    {
-      "epoch": 4.29,
-      "learning_rate": 7.148829431438127e-06,
-      "loss": 1.9098,
-      "step": 41000
-    },
-    {
-      "epoch": 4.34,
-      "learning_rate": 6.6262541806020064e-06,
-      "loss": 1.8693,
-      "step": 41500
-    },
-    {
-      "epoch": 4.39,
-      "learning_rate": 6.103678929765887e-06,
-      "loss": 1.8622,
-      "step": 42000
-    },
-    {
-      "epoch": 4.44,
-      "learning_rate": 5.581103678929766e-06,
-      "loss": 1.8848,
-      "step": 42500
-    },
-    {
-      "epoch": 4.49,
-      "learning_rate": 5.0585284280936456e-06,
-      "loss": 1.8998,
-      "step": 43000
-    },
-    {
-      "epoch": 4.55,
-      "learning_rate": 4.535953177257525e-06,
-      "loss": 1.9059,
-      "step": 43500
-    },
-    {
-      "epoch": 4.6,
-      "learning_rate": 4.013377926421405e-06,
-      "loss": 1.8852,
-      "step": 44000
-    },
-    {
-      "epoch": 4.65,
-      "learning_rate": 3.4908026755852843e-06,
-      "loss": 1.8984,
-      "step": 44500
-    },
-    {
-      "epoch": 4.7,
-      "learning_rate": 2.968227424749164e-06,
-      "loss": 1.8517,
-      "step": 45000
-    },
-    {
-      "epoch": 4.76,
-      "learning_rate": 2.4456521739130437e-06,
-      "loss": 1.917,
-      "step": 45500
-    },
-    {
-      "epoch": 4.81,
-      "learning_rate": 1.9230769230769234e-06,
-      "loss": 1.9134,
-      "step": 46000
-    },
-    {
-      "epoch": 4.86,
-      "learning_rate": 1.4005016722408027e-06,
-      "loss": 1.8772,
-      "step": 46500
-    },
-    {
-      "epoch": 4.91,
-      "learning_rate": 8.779264214046823e-07,
-      "loss": 1.8938,
-      "step": 47000
-    },
-    {
-      "epoch": 4.96,
-      "learning_rate": 3.553511705685619e-07,
-      "loss": 1.8652,
-      "step": 47500
-    },
-    {
-      "epoch": 5.0,
-      "eval_bleu": 0.08741495854193439,
-      "eval_brevity_penalty": 0.7850055548072304,
-      "eval_length_ratio": 0.8051111774362035,
-      "eval_loss": 1.8320603370666504,
       "eval_precisions": [
-        0.1860501756239516,
-        0.11514125956444968,
-        0.08657509646419298,
-        0.08290830945558739
       ],
-      "eval_reference_length": 134020,
-      "eval_runtime": 812.8238,
-      "eval_samples_per_second": 15.695,
-      "eval_steps_per_second": 1.309,
-      "eval_translation_length": 107901,
-      "step": 47840
     }
   ],
   "logging_steps": 500,
-  "max_steps": 47840,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 3.9307126302572544e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.4803038835525513,
+  "best_model_checkpoint": "dq158/morbius/checkpoint-1475",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 1475,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.34,
+      "learning_rate": 4.6610169491525425e-05,
+      "loss": 1.8922,
       "step": 500
     },
     {
       "epoch": 0.68,
+      "learning_rate": 4.3220338983050854e-05,
+      "loss": 1.7522,
+      "step": 1000
     },
     {
       "epoch": 1.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 1.4803038835525513,
       "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
       ],
+      "eval_reference_length": 35996,
+      "eval_runtime": 295.5668,
+      "eval_samples_per_second": 6.652,
+      "eval_steps_per_second": 0.555,
+      "eval_translation_length": 35996,
+      "step": 1475
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7375,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 1.2116096594214912e+16,
   "trial_name": null,
   "trial_params": null
 }