Training in progress, step 51000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e1784f1d25af07b45e862c4a0f18d2f6d0549046f3f54afeb55faa861b3b968
 size 223144592

 version https://git-lfs.github.com/spec/v1
+oid sha256:3319e82e3a312fa6faba8a237003ca93f3ecdd36457f19215227deb690e99af7
 size 223144592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c09d09bfb770e147d6891f3302213053e1a022a24af4a2d9430678fca53c5889
 size 281574266

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa51d384b7f561bf1e67da73024206fffa4e8dda22efaad2fab35ebc2b490555
 size 281574266

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc163130310cc0fad2fddcc38714d51f6915d3f47e6c614dafc06aed2feeb570
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:77f7aee25049de87d8cdf4f74b8e35dd47f80345ce100bfb1c453db7271d2eae
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4594d66c70672d97baa16e5f06b02f70c6e8738e3310267169ff9f456018b9c5
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa84d3b0b595baf750d6ab584421db48e3a346e0b07a20e76b7ce6ee4aa3ec8b
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97740748b07ae07da4d66ff3c5cb91ade92139aba050688e69efb5834ada4c0a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:242d37357dc73797e49eb5568ec9ca45b32042b44f1e8681ac659f27ecd237fb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 28000,
   "best_metric": 0.18110816386678455,
   "best_model_checkpoint": "./distil-whisper/checkpoint-28000",
-  "epoch": 29.291154071470416,
   "eval_steps": 1000,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3958,6 +3958,85 @@
       "eval_steps_per_second": 0.431,
       "eval_wer": 0.18773946360153257,
       "step": 50000
     }
   ],
   "logging_steps": 100,
@@ -3977,7 +4056,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.503635665027072e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 28000,
   "best_metric": 0.18110816386678455,
   "best_model_checkpoint": "./distil-whisper/checkpoint-28000",
+  "epoch": 29.876977152899823,
   "eval_steps": 1000,
+  "global_step": 51000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.431,
       "eval_wer": 0.18773946360153257,
       "step": 50000
+    },
+    {
+      "epoch": 29.349736379613358,
+      "grad_norm": 5.5835652351379395,
+      "learning_rate": 2.234273318872018e-06,
+      "loss": 0.633,
+      "step": 50100
+    },
+    {
+      "epoch": 29.408318687756296,
+      "grad_norm": 5.577920436859131,
+      "learning_rate": 2.0390455531453363e-06,
+      "loss": 0.6456,
+      "step": 50200
+    },
+    {
+      "epoch": 29.466900995899238,
+      "grad_norm": 6.7036566734313965,
+      "learning_rate": 1.8418457897850522e-06,
+      "loss": 0.6582,
+      "step": 50300
+    },
+    {
+      "epoch": 29.52548330404218,
+      "grad_norm": 8.638516426086426,
+      "learning_rate": 1.6446460264247684e-06,
+      "loss": 0.6469,
+      "step": 50400
+    },
+    {
+      "epoch": 29.58406561218512,
+      "grad_norm": 7.847275257110596,
+      "learning_rate": 1.4474462630644845e-06,
+      "loss": 0.6314,
+      "step": 50500
+    },
+    {
+      "epoch": 29.64264792032806,
+      "grad_norm": 4.795884609222412,
+      "learning_rate": 1.2502464997042004e-06,
+      "loss": 0.6355,
+      "step": 50600
+    },
+    {
+      "epoch": 29.701230228471,
+      "grad_norm": 5.026218414306641,
+      "learning_rate": 1.0530467363439164e-06,
+      "loss": 0.6476,
+      "step": 50700
+    },
+    {
+      "epoch": 29.759812536613943,
+      "grad_norm": 6.32857608795166,
+      "learning_rate": 8.558469729836324e-07,
+      "loss": 0.6515,
+      "step": 50800
+    },
+    {
+      "epoch": 29.818394844756885,
+      "grad_norm": 8.374032974243164,
+      "learning_rate": 6.586472096233485e-07,
+      "loss": 0.6615,
+      "step": 50900
+    },
+    {
+      "epoch": 29.876977152899823,
+      "grad_norm": 8.55248737335205,
+      "learning_rate": 4.6144744626306455e-07,
+      "loss": 0.6645,
+      "step": 51000
+    },
+    {
+      "epoch": 29.876977152899823,
+      "eval_loss": 0.08314584940671921,
+      "eval_runtime": 145.2309,
+      "eval_samples_per_second": 3.443,
+      "eval_steps_per_second": 0.434,
+      "eval_wer": 0.18980253463012084,
+      "step": 51000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 6.633717809283072e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null