Training in progress, step 17000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3e3cd7750a71ba24a73246f69fdf7daec1177ea5853eea232a257d18883c36c
 size 223144592

 version https://git-lfs.github.com/spec/v1
+oid sha256:41d75042039ec4d32876afbd52589e36b4560c805379cab200f3ce3db89e6b04
 size 223144592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1da40d74928c909c113322ad282f56feadf39a270ef5d886cdca23750487bd7a
 size 281574266

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f06215d1e625b605955176334bf3e5f8df0e088cf46977fbc17da848149bd68
 size 281574266

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d89c80e2c9bcd130c179737ff89fd355d5633e2baca37c40e9a81d122a9d5d9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:94266a02ae7a39354e0a8bc897bc6f4b9fd0120fa08f142ab755db626dfd5a68
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:281dc54ed0520d353628c056d22e94e782117e47679a149519cb09d64d5041fb
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8559dd5151eb91b4bc1c697f71b54aac56e37d941b8e4e5b6323525a70bc632e
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e08be80793261ac03b00ebc0b1eac4cdf6646c0ac612f93a04f7f6b012b5292c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50324fb65c01951e10fb31eef598ae7506e9fbf9305b5c6400eda15379c4a48e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 14000,
   "best_metric": 0.18538166814028884,
   "best_model_checkpoint": "./distil-whisper/checkpoint-14000",
-  "epoch": 9.373169302870533,
   "eval_steps": 1000,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1272,6 +1272,85 @@
       "eval_steps_per_second": 0.418,
       "eval_wer": 0.19820218096080164,
       "step": 16000
     }
   ],
   "logging_steps": 100,
@@ -1291,7 +1370,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.081167965683712e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 14000,
   "best_metric": 0.18538166814028884,
   "best_model_checkpoint": "./distil-whisper/checkpoint-14000",
+  "epoch": 9.958992384299941,
   "eval_steps": 1000,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.418,
       "eval_wer": 0.19820218096080164,
       "step": 16000
+    },
+    {
+      "epoch": 9.431751611013475,
+      "grad_norm": 5.505492687225342,
+      "learning_rate": 5.914302957151479e-06,
+      "loss": 0.7991,
+      "step": 16100
+    },
+    {
+      "epoch": 9.490333919156415,
+      "grad_norm": 6.690750598907471,
+      "learning_rate": 5.310802655401328e-06,
+      "loss": 0.8071,
+      "step": 16200
+    },
+    {
+      "epoch": 9.548916227299356,
+      "grad_norm": 6.654877185821533,
+      "learning_rate": 4.707302353651177e-06,
+      "loss": 0.834,
+      "step": 16300
+    },
+    {
+      "epoch": 9.607498535442296,
+      "grad_norm": 9.937077522277832,
+      "learning_rate": 4.1038020519010266e-06,
+      "loss": 0.8055,
+      "step": 16400
+    },
+    {
+      "epoch": 9.666080843585238,
+      "grad_norm": 6.015642166137695,
+      "learning_rate": 3.500301750150875e-06,
+      "loss": 0.8734,
+      "step": 16500
+    },
+    {
+      "epoch": 9.724663151728178,
+      "grad_norm": 12.434464454650879,
+      "learning_rate": 2.896801448400724e-06,
+      "loss": 0.8544,
+      "step": 16600
+    },
+    {
+      "epoch": 9.783245459871118,
+      "grad_norm": 6.330708980560303,
+      "learning_rate": 2.2933011466505732e-06,
+      "loss": 0.798,
+      "step": 16700
+    },
+    {
+      "epoch": 9.84182776801406,
+      "grad_norm": 5.820682048797607,
+      "learning_rate": 1.6898008449004227e-06,
+      "loss": 0.7989,
+      "step": 16800
+    },
+    {
+      "epoch": 9.900410076157002,
+      "grad_norm": 8.209725379943848,
+      "learning_rate": 1.0863005431502715e-06,
+      "loss": 0.8454,
+      "step": 16900
+    },
+    {
+      "epoch": 9.958992384299941,
+      "grad_norm": 10.676623344421387,
+      "learning_rate": 4.828002414001208e-07,
+      "loss": 0.8034,
+      "step": 17000
+    },
+    {
+      "epoch": 9.958992384299941,
+      "eval_loss": 0.08400186896324158,
+      "eval_runtime": 148.9273,
+      "eval_samples_per_second": 3.357,
+      "eval_steps_per_second": 0.423,
+      "eval_wer": 0.197465369879163,
+      "step": 17000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 2.211250109939712e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null