Training in progress, step 742, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +100 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b4f9dd35810f12923748d23e35764e5750ddb129ab09001d6715ee1e8ff7115
 size 187692184

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cdacbd734c7cfb118194306ec5555eb3b914cf0396802811744ac319ae8c417
 size 187692184

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2e5b19e34b0a8a70707fff10f280e22411e9090d5cec43ce4fb7b7265eec999
 size 14921099

 version https://git-lfs.github.com/spec/v1
+oid sha256:d465bff954eafc049f58779851244d37423037d3ab0cda46ca37f7614c9b8761
 size 14921099

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30e1366c381bb5999ff6352e727b7113930f0b6f58258b41406c9717642b2b42
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd1b8e11a439755f89b031703828e2394b2f01fe6c8cf0ce4fa480ade641b1fb
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30858f23bcb22d0baef45bd4add9d6fa474141308c12653c706077b87d932e49
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:310d4ff86f0a19ce65aaa92b0f116d7a6212129aa045ee2dbca2cd74a0f71639
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35cd02002112061ce66dbfac8fcad9e2a69fb1c642d85e5afa7ee322f4e9dd5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:17de27c8ddf89af6f120bf81b9f82a5499bf088092eeb924c1c9ecb04d3351b5
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0673854447439353,
   "eval_steps": 50,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -136,6 +136,102 @@
       "eval_steps_per_second": 9.246,
       "eval_wer": 105.19633626553006,
       "step": 400
     }
   ],
   "logging_steps": 50,
@@ -150,12 +246,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.5297411022848e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4609164420485175,
   "eval_steps": 50,
+  "global_step": 742,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 9.246,
       "eval_wer": 105.19633626553006,
       "step": 400
+    },
+    {
+      "epoch": 0.0673854447439353,
+      "grad_norm": 2.3205716609954834,
+      "learning_rate": 3.975576662143827e-05,
+      "loss": 8.901954345703125,
+      "step": 450
+    },
+    {
+      "epoch": 0.0673854447439353,
+      "eval_loss": 4.385607719421387,
+      "eval_runtime": 95.6681,
+      "eval_samples_per_second": 10.035,
+      "eval_steps_per_second": 10.035,
+      "eval_wer": 102.23088782080347,
+      "step": 450
+    },
+    {
+      "epoch": 0.1347708894878706,
+      "grad_norm": 1.2967826128005981,
+      "learning_rate": 3.297150610583447e-05,
+      "loss": 8.103807983398438,
+      "step": 500
+    },
+    {
+      "epoch": 0.1347708894878706,
+      "eval_loss": 4.036848068237305,
+      "eval_runtime": 90.525,
+      "eval_samples_per_second": 10.605,
+      "eval_steps_per_second": 10.605,
+      "eval_wer": 99.10220368187177,
+      "step": 500
+    },
+    {
+      "epoch": 0.20215633423180593,
+      "grad_norm": 2.0856359004974365,
+      "learning_rate": 2.6187245590230662e-05,
+      "loss": 9.242673950195313,
+      "step": 550
+    },
+    {
+      "epoch": 0.20215633423180593,
+      "eval_loss": 3.9937756061553955,
+      "eval_runtime": 90.3336,
+      "eval_samples_per_second": 10.627,
+      "eval_steps_per_second": 10.627,
+      "eval_wer": 98.02303437018229,
+      "step": 550
+    },
+    {
+      "epoch": 0.2695417789757412,
+      "grad_norm": 1.1551530361175537,
+      "learning_rate": 1.9402985074626868e-05,
+      "loss": 7.580842895507812,
+      "step": 600
+    },
+    {
+      "epoch": 0.2695417789757412,
+      "eval_loss": 3.8142902851104736,
+      "eval_runtime": 90.2808,
+      "eval_samples_per_second": 10.633,
+      "eval_steps_per_second": 10.633,
+      "eval_wer": 95.92817629454974,
+      "step": 600
+    },
+    {
+      "epoch": 0.33692722371967654,
+      "grad_norm": 1.4342340230941772,
+      "learning_rate": 1.2618724559023069e-05,
+      "loss": 9.35689208984375,
+      "step": 650
+    },
+    {
+      "epoch": 0.33692722371967654,
+      "eval_loss": 4.0508809089660645,
+      "eval_runtime": 89.1496,
+      "eval_samples_per_second": 10.768,
+      "eval_steps_per_second": 10.768,
+      "eval_wer": 98.15906411535322,
+      "step": 650
+    },
+    {
+      "epoch": 0.40431266846361186,
+      "grad_norm": 1.9096912145614624,
+      "learning_rate": 5.834464043419268e-06,
+      "loss": 9.176519775390625,
+      "step": 700
+    },
+    {
+      "epoch": 0.40431266846361186,
+      "eval_loss": 3.9893789291381836,
+      "eval_runtime": 90.4288,
+      "eval_samples_per_second": 10.616,
+      "eval_steps_per_second": 10.616,
+      "eval_wer": 96.53577582297996,
+      "step": 700
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.837669744738304e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null