Training in progress, epoch 0, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +23 -328
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "dq158/coqui",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "dq158/morbius",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fdc10781ae17b5c33e74f66d11972140998a4ca7e36ed46fa1901c77bf1d4f0
 size 1980860410

 version https://git-lfs.github.com/spec/v1
+oid sha256:573d5fb0779ea054213c4ae2227960ee315633ca0772c084f2002fed6ff6ec29
 size 1980860410

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faf0c8114e0d17b01c08b60e2655b7f3912c168b4c21d9948ca81961e68b3817
 size 990409330

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec2d97b736486f914e0d33e37b554901f3dfb9b817c3d0af663642879027b1aa
 size 990409330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:615a7c672f674cfa19b84fc4db0609e68907e0961c9b9105c4a59f95df807653
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae00bd8b8e83d970fa0946a2f0647cb96a40344898cf84cce24800471e2a072a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532e8f8b3e9fe98e9f61e70c68df3749ad95f0b1e1d90c26907050b4cdc46c03
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa1eb1c061b915ee84a31a8f051d08956c7267b1cce00afc65fec7ef070c9ad6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,361 +1,56 @@
 {
-  "best_metric": 2.047217607498169,
-  "best_model_checkpoint": "dq158/morbius/checkpoint-9939",
-  "epoch": 12.0,
   "eval_steps": 500,
-  "global_step": 9939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6,
-      "learning_rate": 4e-05,
-      "loss": 2.3843,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.1837692260742188,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 54613,
-      "eval_runtime": 607.6631,
-      "eval_samples_per_second": 4.846,
-      "eval_steps_per_second": 0.607,
-      "eval_translation_length": 54613,
-      "step": 828
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 3.9904412209094755e-05,
-      "loss": 2.3038,
       "step": 1000
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 3.961856253895603e-05,
-      "loss": 2.2743,
       "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.139969825744629,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53569,
-      "eval_runtime": 602.4016,
-      "eval_samples_per_second": 4.889,
-      "eval_steps_per_second": 0.613,
-      "eval_translation_length": 53569,
-      "step": 1656
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 3.9145183363433777e-05,
-      "loss": 2.2346,
-      "step": 2000
-    },
-    {
-      "epoch": 3.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.113609552383423,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53706,
-      "eval_runtime": 601.3356,
-      "eval_samples_per_second": 4.897,
-      "eval_steps_per_second": 0.614,
-      "eval_translation_length": 53706,
-      "step": 2484
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 3.848879960949287e-05,
-      "loss": 2.219,
-      "step": 2500
-    },
-    {
-      "epoch": 3.62,
-      "learning_rate": 3.765568550443583e-05,
-      "loss": 2.1894,
-      "step": 3000
-    },
-    {
-      "epoch": 4.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.09635066986084,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53658,
-      "eval_runtime": 602.1777,
-      "eval_samples_per_second": 4.891,
-      "eval_steps_per_second": 0.613,
-      "eval_translation_length": 53658,
-      "step": 3313
-    },
-    {
-      "epoch": 4.23,
-      "learning_rate": 3.6653804601950126e-05,
-      "loss": 2.1772,
-      "step": 3500
-    },
-    {
-      "epoch": 4.83,
-      "learning_rate": 3.5492733660257605e-05,
-      "loss": 2.1547,
-      "step": 4000
-    },
-    {
-      "epoch": 5.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.083543539047241,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53886,
-      "eval_runtime": 602.7422,
-      "eval_samples_per_second": 4.886,
-      "eval_steps_per_second": 0.612,
-      "eval_translation_length": 53886,
-      "step": 4141
-    },
-    {
-      "epoch": 5.43,
-      "learning_rate": 3.4183571099998355e-05,
-      "loss": 2.1303,
-      "step": 4500
-    },
-    {
-      "epoch": 6.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.0750300884246826,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53636,
-      "eval_runtime": 602.3864,
-      "eval_samples_per_second": 4.889,
-      "eval_steps_per_second": 0.613,
-      "eval_translation_length": 53636,
-      "step": 4969
-    },
-    {
-      "epoch": 6.04,
-      "learning_rate": 3.273883091687946e-05,
-      "loss": 2.1421,
-      "step": 5000
-    },
-    {
-      "epoch": 6.64,
-      "learning_rate": 3.117232306315456e-05,
-      "loss": 2.1231,
-      "step": 5500
-    },
-    {
-      "epoch": 7.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.0663375854492188,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53739,
-      "eval_runtime": 603.5685,
-      "eval_samples_per_second": 4.879,
-      "eval_steps_per_second": 0.611,
-      "eval_translation_length": 53739,
-      "step": 5797
-    },
-    {
-      "epoch": 7.24,
-      "learning_rate": 2.9499021441341012e-05,
-      "loss": 2.1103,
-      "step": 6000
-    },
-    {
-      "epoch": 7.85,
-      "learning_rate": 2.773492077199351e-05,
-      "loss": 2.0866,
-      "step": 6500
-    },
-    {
-      "epoch": 8.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.060825824737549,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53979,
-      "eval_runtime": 603.0031,
-      "eval_samples_per_second": 4.884,
-      "eval_steps_per_second": 0.612,
-      "eval_translation_length": 53979,
-      "step": 6626
-    },
-    {
-      "epoch": 8.45,
-      "learning_rate": 2.589688370370382e-05,
-      "loss": 2.0876,
-      "step": 7000
-    },
-    {
-      "epoch": 9.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.0561046600341797,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53596,
-      "eval_runtime": 603.5437,
-      "eval_samples_per_second": 4.88,
-      "eval_steps_per_second": 0.611,
-      "eval_translation_length": 53596,
-      "step": 7454
-    },
-    {
-      "epoch": 9.06,
-      "learning_rate": 2.4002479626767903e-05,
-      "loss": 2.0782,
-      "step": 7500
-    },
-    {
-      "epoch": 9.66,
-      "learning_rate": 2.206981673126539e-05,
-      "loss": 2.0736,
-      "step": 8000
-    },
-    {
-      "epoch": 10.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.0527448654174805,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53846,
-      "eval_runtime": 603.4511,
-      "eval_samples_per_second": 4.88,
-      "eval_steps_per_second": 0.611,
-      "eval_translation_length": 53846,
-      "step": 8282
-    },
-    {
-      "epoch": 10.26,
-      "learning_rate": 2.0117368914870838e-05,
-      "loss": 2.0662,
-      "step": 8500
-    },
-    {
-      "epoch": 10.87,
-      "learning_rate": 1.8163799194946938e-05,
-      "loss": 2.0613,
-      "step": 9000
-    },
-    {
-      "epoch": 11.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.050435781478882,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 53805,
-      "eval_runtime": 604.156,
-      "eval_samples_per_second": 4.875,
-      "eval_steps_per_second": 0.611,
-      "eval_translation_length": 53805,
-      "step": 9110
-    },
-    {
-      "epoch": 11.47,
-      "learning_rate": 1.6227781312884388e-05,
-      "loss": 2.049,
-      "step": 9500
-    },
-    {
-      "epoch": 12.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.047217607498169,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 53919,
-      "eval_runtime": 603.5433,
-      "eval_samples_per_second": 4.88,
-      "eval_steps_per_second": 0.611,
-      "eval_translation_length": 53919,
-      "step": 9939
     }
   ],
   "logging_steps": 500,
-  "max_steps": 16560,
   "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 2.1776105516669338e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.055070638656616,
+  "best_model_checkpoint": "dq158/morbius/checkpoint-1581",
+  "epoch": 0.9996838444514701,
   "eval_steps": 500,
+  "global_step": 1581,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.32,
+      "learning_rate": 7e-06,
+      "loss": 2.2293,
       "step": 500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 6.995542345369891e-06,
+      "loss": 2.2394,
       "step": 1000
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 6.982180736156593e-06,
+      "loss": 2.1909,
       "step": 1500
     },
     {
+      "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 2.055070638656616,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 52600,
+      "eval_runtime": 564.5086,
+      "eval_samples_per_second": 4.981,
+      "eval_steps_per_second": 0.624,
+      "eval_translation_length": 52600,
+      "step": 1581
     }
   ],
   "logging_steps": 500,
+  "max_steps": 31620,
   "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 1.7326415288991744e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31b06978cc3d00aca95594f59ec7e9b9fa96aa51c26c2bd29cd053e001acfe17
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6df79ed7ed734cb8185c41dd11c4885025a9e70f202b7c2ebbef7d4692999c6
 size 4664