Training in progress, step 1000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +274 -22
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d18664503eeefe73d902122981c82e338589f72a78e1805df1a86211ffccefc
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c0e94765b4d94db639b25aa92e7ab864938a06ca386b080e39d32fdcdb0f83f
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:814aee5aaf254d346a1bf9a7a5da84ade3549eadd13d79d058bea07adbd2e108
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd55be4786c31c3edb602a43e9427bd058e0237d125903549b6554bc93a9b212
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad46ce4e5894519be6dee3b5c4bef67745e115bf01464ced9f219f603b4ee39e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:298c3bc45193d5f9e013179fcd36fc29bded406f371da8183cdaa90d25f6d218
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d35a84a90afac6ec40a34ed4fb70cbf6f66e82eb3de0a29476df83e41dc581f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:eaa3528dbf446124664be6010ae04f1f735b5fea142f7ff755065a21e5dce083
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,56 +1,308 @@
 {
-  "best_metric": 34.02245706737121,
-  "best_model_checkpoint": "./whisper-small-lt/checkpoint-100",
-  "epoch": 0.05,
-  "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0125,
-      "grad_norm": 2.394010305404663,
       "learning_rate": 5.000000000000001e-07,
-      "loss": 0.1152,
       "step": 25
     },
     {
       "epoch": 0.025,
-      "grad_norm": 1.771360158920288,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.0713,
       "step": 50
     },
     {
       "epoch": 0.0375,
-      "grad_norm": 2.0305898189544678,
       "learning_rate": 1.5e-06,
-      "loss": 0.056,
       "step": 75
     },
     {
       "epoch": 0.05,
-      "grad_norm": 2.1570658683776855,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.0489,
       "step": 100
     },
     {
-      "epoch": 0.05,
-      "eval_loss": 0.1409192979335785,
-      "eval_runtime": 624.8165,
-      "eval_samples_per_second": 1.019,
-      "eval_steps_per_second": 0.128,
-      "eval_wer": 34.02245706737121,
-      "step": 100
     }
   ],
   "logging_steps": 25,
   "max_steps": 2000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -63,7 +315,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.61736640512e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 33.69881109643329,
+  "best_model_checkpoint": "./whisper-small-lt/checkpoint-1000",
+  "epoch": 2.111,
+  "eval_steps": 1000,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0125,
+      "grad_norm": 1.7294858694076538,
       "learning_rate": 5.000000000000001e-07,
+      "loss": 0.0291,
       "step": 25
     },
     {
       "epoch": 0.025,
+      "grad_norm": 1.1127374172210693,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0178,
       "step": 50
     },
     {
       "epoch": 0.0375,
+      "grad_norm": 1.248637318611145,
       "learning_rate": 1.5e-06,
+      "loss": 0.0202,
       "step": 75
     },
     {
       "epoch": 0.05,
+      "grad_norm": 0.8879645466804504,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0166,
       "step": 100
     },
     {
+      "epoch": 0.0625,
+      "grad_norm": 1.0460960865020752,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0148,
+      "step": 125
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 0.7859419584274292,
+      "learning_rate": 3e-06,
+      "loss": 0.0138,
+      "step": 150
+    },
+    {
+      "epoch": 0.0875,
+      "grad_norm": 0.6411359906196594,
+      "learning_rate": 3.5e-06,
+      "loss": 0.0124,
+      "step": 175
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.4224746227264404,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0157,
+      "step": 200
+    },
+    {
+      "epoch": 0.1125,
+      "grad_norm": 1.8457200527191162,
+      "learning_rate": 4.5e-06,
+      "loss": 0.0283,
+      "step": 225
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 2.3054425716400146,
+      "learning_rate": 5e-06,
+      "loss": 0.0244,
+      "step": 250
+    },
+    {
+      "epoch": 0.1375,
+      "grad_norm": 2.961075782775879,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.0226,
+      "step": 275
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.1010462045669556,
+      "learning_rate": 6e-06,
+      "loss": 0.0158,
+      "step": 300
+    },
+    {
+      "epoch": 0.1625,
+      "grad_norm": 1.5947000980377197,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.0185,
+      "step": 325
+    },
+    {
+      "epoch": 0.175,
+      "grad_norm": 2.136035203933716,
+      "learning_rate": 7e-06,
+      "loss": 0.0182,
+      "step": 350
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 1.8465747833251953,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0149,
+      "step": 375
+    },
+    {
+      "epoch": 1.0055,
+      "grad_norm": 2.093752384185791,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0277,
+      "step": 400
+    },
+    {
+      "epoch": 1.018,
+      "grad_norm": 1.3066338300704956,
+      "learning_rate": 8.5e-06,
+      "loss": 0.0236,
+      "step": 425
+    },
+    {
+      "epoch": 1.0305,
+      "grad_norm": 2.310856819152832,
+      "learning_rate": 9e-06,
+      "loss": 0.023,
+      "step": 450
+    },
+    {
+      "epoch": 1.043,
+      "grad_norm": 1.4942700862884521,
+      "learning_rate": 9.5e-06,
+      "loss": 0.022,
+      "step": 475
+    },
+    {
+      "epoch": 1.0555,
+      "grad_norm": 1.1907243728637695,
+      "learning_rate": 1e-05,
+      "loss": 0.0183,
+      "step": 500
+    },
+    {
+      "epoch": 1.068,
+      "grad_norm": 1.8676977157592773,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.0183,
+      "step": 525
+    },
+    {
+      "epoch": 1.0805,
+      "grad_norm": 0.9104222059249878,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.016,
+      "step": 550
+    },
+    {
+      "epoch": 1.093,
+      "grad_norm": 1.465457558631897,
+      "learning_rate": 9.5e-06,
+      "loss": 0.0151,
+      "step": 575
+    },
+    {
+      "epoch": 1.1055,
+      "grad_norm": 1.5364313125610352,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0205,
+      "step": 600
+    },
+    {
+      "epoch": 1.1179999999999999,
+      "grad_norm": 1.29054594039917,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.0198,
+      "step": 625
+    },
+    {
+      "epoch": 1.1305,
+      "grad_norm": 2.222632884979248,
+      "learning_rate": 9e-06,
+      "loss": 0.0167,
+      "step": 650
+    },
+    {
+      "epoch": 1.143,
+      "grad_norm": 1.1213107109069824,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.015,
+      "step": 675
+    },
+    {
+      "epoch": 1.1555,
+      "grad_norm": 3.053809642791748,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.0123,
+      "step": 700
+    },
+    {
+      "epoch": 1.168,
+      "grad_norm": 3.0312676429748535,
+      "learning_rate": 8.5e-06,
+      "loss": 0.0135,
+      "step": 725
+    },
+    {
+      "epoch": 1.1804999999999999,
+      "grad_norm": 1.2940341234207153,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0152,
+      "step": 750
+    },
+    {
+      "epoch": 1.193,
+      "grad_norm": 1.9949597120285034,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.015,
+      "step": 775
+    },
+    {
+      "epoch": 2.011,
+      "grad_norm": 1.2895445823669434,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0251,
+      "step": 800
+    },
+    {
+      "epoch": 2.0235,
+      "grad_norm": 1.7078819274902344,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.0159,
+      "step": 825
+    },
+    {
+      "epoch": 2.036,
+      "grad_norm": 0.7963767647743225,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.0158,
+      "step": 850
+    },
+    {
+      "epoch": 2.0485,
+      "grad_norm": 1.2390975952148438,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0141,
+      "step": 875
+    },
+    {
+      "epoch": 2.061,
+      "grad_norm": 1.4780830144882202,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.0112,
+      "step": 900
+    },
+    {
+      "epoch": 2.0735,
+      "grad_norm": 0.7993568778038025,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.0118,
+      "step": 925
+    },
+    {
+      "epoch": 2.086,
+      "grad_norm": 1.1336815357208252,
+      "learning_rate": 7e-06,
+      "loss": 0.0089,
+      "step": 950
+    },
+    {
+      "epoch": 2.0985,
+      "grad_norm": 1.7068537473678589,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 0.0107,
+      "step": 975
+    },
+    {
+      "epoch": 2.111,
+      "grad_norm": 1.4282974004745483,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0117,
+      "step": 1000
+    },
+    {
+      "epoch": 2.111,
+      "eval_loss": 0.15551722049713135,
+      "eval_runtime": 621.1845,
+      "eval_samples_per_second": 1.025,
+      "eval_steps_per_second": 0.129,
+      "eval_wer": 33.69881109643329,
+      "step": 1000
     }
   ],
   "logging_steps": 25,
   "max_steps": 2000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
+  "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 4.61217186791424e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c315f0b3f3b9c04dd0f73fe7a958b5781a698b4bc9f0eb0dbcedca8beb018820
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:b957ee098d1cf296d30a738a9260f12a5262b820dc15dba99580731e2111b99c
 size 5304