Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10b008b099f89500ea9ac9bd21d1200a78e3799c3a3672db7fdaf92a24f7e4e3
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:09a50db5afb668918b5a510a75a56f0b31a7cb9a8ce9e4dee23fdaa3904406a8
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b11fa9de35167ee282200f1f5e1e213e18e19fe2611450cd5e182626d29c8bbd
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ba2b3ca702866bbc222c3236dc3ba9d51a358efb4c14c312769dc6f3affdf07
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:298c3bc45193d5f9e013179fcd36fc29bded406f371da8183cdaa90d25f6d218
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:43b75653b0fdbe64a4fca584309d2f205ea445c6dd839e1b14f50ed746f8d472
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5101d8c1f86d6f48167e50b1164b9ba363ab76694ff2d5c1e326e3d5f94ecaef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b80a609c64a12b4db2f38941ea479b9a30f9351b7aac74f4956e8686dc338317
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 57.21605845920777,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 2.0555,
   "eval_steps": 1000,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -296,6 +296,295 @@
       "eval_steps_per_second": 0.119,
       "eval_wer": 57.21605845920777,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -315,7 +604,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.61217186791424e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 53.553446508933746,
+  "best_model_checkpoint": "./checkpoint-2000",
+  "epoch": 5.01375,
   "eval_steps": 1000,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.119,
       "eval_wer": 57.21605845920777,
       "step": 1000
+    },
+    {
+      "epoch": 2.06175,
+      "grad_norm": 3.215674638748169,
+      "learning_rate": 8.50857142857143e-06,
+      "loss": 0.0907,
+      "step": 1025
+    },
+    {
+      "epoch": 2.068,
+      "grad_norm": 2.3883891105651855,
+      "learning_rate": 8.437142857142859e-06,
+      "loss": 0.0876,
+      "step": 1050
+    },
+    {
+      "epoch": 2.07425,
+      "grad_norm": 1.890366792678833,
+      "learning_rate": 8.365714285714286e-06,
+      "loss": 0.0724,
+      "step": 1075
+    },
+    {
+      "epoch": 2.0805,
+      "grad_norm": 2.6750569343566895,
+      "learning_rate": 8.294285714285715e-06,
+      "loss": 0.0702,
+      "step": 1100
+    },
+    {
+      "epoch": 2.08675,
+      "grad_norm": 2.3613970279693604,
+      "learning_rate": 8.222857142857144e-06,
+      "loss": 0.0768,
+      "step": 1125
+    },
+    {
+      "epoch": 2.093,
+      "grad_norm": 2.880221128463745,
+      "learning_rate": 8.151428571428572e-06,
+      "loss": 0.0653,
+      "step": 1150
+    },
+    {
+      "epoch": 3.002,
+      "grad_norm": 2.5774643421173096,
+      "learning_rate": 8.08e-06,
+      "loss": 0.0863,
+      "step": 1175
+    },
+    {
+      "epoch": 3.00825,
+      "grad_norm": 2.212843894958496,
+      "learning_rate": 8.00857142857143e-06,
+      "loss": 0.0786,
+      "step": 1200
+    },
+    {
+      "epoch": 3.0145,
+      "grad_norm": 1.7202649116516113,
+      "learning_rate": 7.937142857142857e-06,
+      "loss": 0.0695,
+      "step": 1225
+    },
+    {
+      "epoch": 3.02075,
+      "grad_norm": 1.4540152549743652,
+      "learning_rate": 7.865714285714286e-06,
+      "loss": 0.062,
+      "step": 1250
+    },
+    {
+      "epoch": 3.027,
+      "grad_norm": 1.4593051671981812,
+      "learning_rate": 7.794285714285715e-06,
+      "loss": 0.0586,
+      "step": 1275
+    },
+    {
+      "epoch": 3.03325,
+      "grad_norm": 1.5141732692718506,
+      "learning_rate": 7.722857142857142e-06,
+      "loss": 0.0555,
+      "step": 1300
+    },
+    {
+      "epoch": 3.0395,
+      "grad_norm": 1.751680850982666,
+      "learning_rate": 7.651428571428571e-06,
+      "loss": 0.0572,
+      "step": 1325
+    },
+    {
+      "epoch": 3.04575,
+      "grad_norm": 1.7433584928512573,
+      "learning_rate": 7.58e-06,
+      "loss": 0.0514,
+      "step": 1350
+    },
+    {
+      "epoch": 3.052,
+      "grad_norm": 1.5257874727249146,
+      "learning_rate": 7.508571428571429e-06,
+      "loss": 0.064,
+      "step": 1375
+    },
+    {
+      "epoch": 3.05825,
+      "grad_norm": 1.4389644861221313,
+      "learning_rate": 7.4371428571428575e-06,
+      "loss": 0.0633,
+      "step": 1400
+    },
+    {
+      "epoch": 3.0645,
+      "grad_norm": 2.6773693561553955,
+      "learning_rate": 7.365714285714286e-06,
+      "loss": 0.0529,
+      "step": 1425
+    },
+    {
+      "epoch": 3.07075,
+      "grad_norm": 2.163686752319336,
+      "learning_rate": 7.294285714285715e-06,
+      "loss": 0.0567,
+      "step": 1450
+    },
+    {
+      "epoch": 3.077,
+      "grad_norm": 2.352548599243164,
+      "learning_rate": 7.222857142857144e-06,
+      "loss": 0.0378,
+      "step": 1475
+    },
+    {
+      "epoch": 3.08325,
+      "grad_norm": 2.7124457359313965,
+      "learning_rate": 7.151428571428573e-06,
+      "loss": 0.0468,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0895,
+      "grad_norm": 2.316270112991333,
+      "learning_rate": 7.08e-06,
+      "loss": 0.047,
+      "step": 1525
+    },
+    {
+      "epoch": 3.09575,
+      "grad_norm": 4.7504963874816895,
+      "learning_rate": 7.008571428571429e-06,
+      "loss": 0.041,
+      "step": 1550
+    },
+    {
+      "epoch": 4.00475,
+      "grad_norm": 1.6336088180541992,
+      "learning_rate": 6.937142857142858e-06,
+      "loss": 0.061,
+      "step": 1575
+    },
+    {
+      "epoch": 4.011,
+      "grad_norm": 1.1898696422576904,
+      "learning_rate": 6.865714285714287e-06,
+      "loss": 0.0457,
+      "step": 1600
+    },
+    {
+      "epoch": 4.01725,
+      "grad_norm": 1.5887372493743896,
+      "learning_rate": 6.794285714285714e-06,
+      "loss": 0.0411,
+      "step": 1625
+    },
+    {
+      "epoch": 4.0235,
+      "grad_norm": 1.7909950017929077,
+      "learning_rate": 6.722857142857143e-06,
+      "loss": 0.0373,
+      "step": 1650
+    },
+    {
+      "epoch": 4.02975,
+      "grad_norm": 1.1431634426116943,
+      "learning_rate": 6.651428571428572e-06,
+      "loss": 0.0343,
+      "step": 1675
+    },
+    {
+      "epoch": 4.036,
+      "grad_norm": 1.5267891883850098,
+      "learning_rate": 6.5800000000000005e-06,
+      "loss": 0.035,
+      "step": 1700
+    },
+    {
+      "epoch": 4.04225,
+      "grad_norm": 1.8040025234222412,
+      "learning_rate": 6.5085714285714295e-06,
+      "loss": 0.0312,
+      "step": 1725
+    },
+    {
+      "epoch": 4.0485,
+      "grad_norm": 1.672837257385254,
+      "learning_rate": 6.437142857142858e-06,
+      "loss": 0.034,
+      "step": 1750
+    },
+    {
+      "epoch": 4.05475,
+      "grad_norm": 1.5159598588943481,
+      "learning_rate": 6.365714285714286e-06,
+      "loss": 0.0431,
+      "step": 1775
+    },
+    {
+      "epoch": 4.061,
+      "grad_norm": 2.1531107425689697,
+      "learning_rate": 6.294285714285715e-06,
+      "loss": 0.0357,
+      "step": 1800
+    },
+    {
+      "epoch": 4.06725,
+      "grad_norm": 3.2716612815856934,
+      "learning_rate": 6.222857142857144e-06,
+      "loss": 0.0341,
+      "step": 1825
+    },
+    {
+      "epoch": 4.0735,
+      "grad_norm": 1.041003942489624,
+      "learning_rate": 6.151428571428571e-06,
+      "loss": 0.0302,
+      "step": 1850
+    },
+    {
+      "epoch": 4.07975,
+      "grad_norm": 2.5585858821868896,
+      "learning_rate": 6.08e-06,
+      "loss": 0.0269,
+      "step": 1875
+    },
+    {
+      "epoch": 4.086,
+      "grad_norm": 2.4382855892181396,
+      "learning_rate": 6.008571428571429e-06,
+      "loss": 0.0291,
+      "step": 1900
+    },
+    {
+      "epoch": 4.09225,
+      "grad_norm": 3.0103349685668945,
+      "learning_rate": 5.937142857142858e-06,
+      "loss": 0.0228,
+      "step": 1925
+    },
+    {
+      "epoch": 5.00125,
+      "grad_norm": 1.7492283582687378,
+      "learning_rate": 5.865714285714286e-06,
+      "loss": 0.0331,
+      "step": 1950
+    },
+    {
+      "epoch": 5.0075,
+      "grad_norm": 1.3919484615325928,
+      "learning_rate": 5.794285714285715e-06,
+      "loss": 0.0384,
+      "step": 1975
+    },
+    {
+      "epoch": 5.01375,
+      "grad_norm": 1.131212592124939,
+      "learning_rate": 5.722857142857144e-06,
+      "loss": 0.0277,
+      "step": 2000
+    },
+    {
+      "epoch": 5.01375,
+      "eval_loss": 0.12749460339546204,
+      "eval_runtime": 670.7043,
+      "eval_samples_per_second": 0.95,
+      "eval_steps_per_second": 0.119,
+      "eval_wer": 53.553446508933746,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 9.2217464672256e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null