Upload 10 files

Browse files

Files changed (7) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +159 -279
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9c02b6ef2c466ef31e3bd4d0e17a0131b22e60f8d3b0b7df4f91bef140323b0
 size 377851056

 version https://git-lfs.github.com/spec/v1
+oid sha256:af7b212b96b76bb3b491b4369777940a343f5474a3ffd5d36e8d2f7c264b52f5
 size 377851056

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:625da449c6a9a035c36a4a4730f5d01027c9a958d3434a1bd7ae8a151ef86675
 size 722217338

 version https://git-lfs.github.com/spec/v1
+oid sha256:dab351edaa40d7df900e74763b97796ce8ec74b78eb2703e5ebb76cd394ed087
 size 722217338

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c71a9b91d33db11d4aeaadd43b40f2d99e05d62cdd596e2735feb9c7f7881868
 size 377899102

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcb9ce4bb2f65f88d832f44e95896315a25333dff5dce5f07a765522b6b7bd04
 size 377899102

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f26a93007e1df9fe2d108b521dc1e9f1a2714dcc89ec6017185eb07f7a2e36
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b17b63fc47591be4f6dc979120a583e219a59ea647e0d4f9697b9b5a500a358
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86181211ebb0bc9a33cc4a0b7324e4789eed167c50bbb105b006abdef979e7fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b32d598ce4db819bf40f0e5aaf33efa9dc0ce0f0f1fcca9116f65450d7fa70f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,392 +1,272 @@
 {
-  "best_metric": 0.035286422818899155,
-  "best_model_checkpoint": "./wav2vec2-base-demo/checkpoint-9500",
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 9620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0395010395010396,
-      "grad_norm": 2.019500494003296,
-      "learning_rate": 5e-05,
-      "loss": 0.0643,
       "step": 500
     },
     {
       "epoch": 1.0395010395010396,
-      "eval_cer": 0.03275618758141555,
-      "eval_loss": 0.05180136486887932,
-      "eval_mer": 0.10253841015364061,
-      "eval_runtime": 38.388,
-      "eval_samples_per_second": 40.039,
-      "eval_steps_per_second": 5.028,
-      "eval_wer": 0.10283034667559873,
-      "eval_wil": 0.18651847255568288,
-      "eval_wip": 0.8134815274443171,
       "step": 500
     },
     {
       "epoch": 2.079002079002079,
-      "grad_norm": 2.1398515701293945,
       "learning_rate": 4.726425438596491e-05,
-      "loss": 0.0582,
       "step": 1000
     },
     {
       "epoch": 2.079002079002079,
-      "eval_cer": 0.03458803734259661,
-      "eval_loss": 0.07243646681308746,
-      "eval_mer": 0.10415740329035127,
-      "eval_runtime": 38.0545,
-      "eval_samples_per_second": 40.389,
-      "eval_steps_per_second": 5.072,
-      "eval_wer": 0.10461675877854072,
-      "eval_wil": 0.18687649897682057,
-      "eval_wip": 0.8131235010231794,
       "step": 1000
     },
     {
       "epoch": 3.1185031185031185,
-      "grad_norm": 2.0896356105804443,
-      "learning_rate": 4.452850877192983e-05,
-      "loss": 0.0687,
       "step": 1500
     },
     {
       "epoch": 3.1185031185031185,
-      "eval_cer": 0.03272904906643508,
-      "eval_loss": 0.048075173050165176,
-      "eval_mer": 0.1023898390061835,
-      "eval_runtime": 38.1743,
-      "eval_samples_per_second": 40.263,
-      "eval_steps_per_second": 5.056,
-      "eval_wer": 0.10260704516273098,
-      "eval_wil": 0.18642300166023706,
-      "eval_wip": 0.8135769983397629,
       "step": 1500
     },
     {
       "epoch": 4.158004158004158,
-      "grad_norm": 0.16355617344379425,
-      "learning_rate": 4.179276315789474e-05,
-      "loss": 0.0557,
       "step": 2000
     },
     {
       "epoch": 4.158004158004158,
-      "eval_cer": 0.0326883412939644,
-      "eval_loss": 0.04460103437304497,
-      "eval_mer": 0.10177237766135325,
-      "eval_runtime": 38.1308,
-      "eval_samples_per_second": 40.309,
-      "eval_steps_per_second": 5.062,
-      "eval_wer": 0.10193714062412773,
-      "eval_wil": 0.1855256817342692,
-      "eval_wip": 0.8144743182657308,
       "step": 2000
     },
     {
       "epoch": 5.197505197505198,
-      "grad_norm": 1.0889679193496704,
-      "learning_rate": 3.90515350877193e-05,
-      "loss": 0.0636,
       "step": 2500
     },
     {
       "epoch": 5.197505197505198,
-      "eval_cer": 0.033027572731220145,
-      "eval_loss": 0.04332904517650604,
-      "eval_mer": 0.1037883008356546,
-      "eval_runtime": 38.1075,
-      "eval_samples_per_second": 40.333,
-      "eval_steps_per_second": 5.065,
-      "eval_wer": 0.10400267961815442,
-      "eval_wil": 0.18872769436322678,
-      "eval_wip": 0.8112723056367732,
       "step": 2500
     },
     {
       "epoch": 6.237006237006237,
-      "grad_norm": 1.207595705986023,
-      "learning_rate": 3.6315789473684214e-05,
-      "loss": 0.0603,
       "step": 3000
     },
     {
       "epoch": 6.237006237006237,
-      "eval_cer": 0.03253907946157186,
-      "eval_loss": 0.04967070370912552,
-      "eval_mer": 0.101995318247687,
-      "eval_runtime": 38.123,
-      "eval_samples_per_second": 40.317,
-      "eval_steps_per_second": 5.063,
-      "eval_wer": 0.10216044213699547,
-      "eval_wil": 0.185746979851116,
-      "eval_wip": 0.814253020148884,
       "step": 3000
     },
     {
       "epoch": 7.276507276507276,
-      "grad_norm": 3.1330809593200684,
       "learning_rate": 3.358004385964912e-05,
-      "loss": 0.056,
       "step": 3500
     },
     {
       "epoch": 7.276507276507276,
-      "eval_cer": 0.031779201042118975,
-      "eval_loss": 0.04187996685504913,
-      "eval_mer": 0.10117555295559641,
-      "eval_runtime": 38.0313,
-      "eval_samples_per_second": 40.414,
-      "eval_steps_per_second": 5.075,
-      "eval_wer": 0.10137888684195835,
-      "eval_wil": 0.18463091311209057,
-      "eval_wip": 0.8153690868879094,
       "step": 3500
     },
     {
       "epoch": 8.316008316008316,
-      "grad_norm": 2.754401683807373,
-      "learning_rate": 3.0844298245614035e-05,
-      "loss": 0.068,
       "step": 4000
     },
     {
       "epoch": 8.316008316008316,
-      "eval_cer": 0.03194203213200174,
-      "eval_loss": 0.04226827993988991,
-      "eval_mer": 0.1014541200066856,
-      "eval_runtime": 38.11,
-      "eval_samples_per_second": 40.331,
-      "eval_steps_per_second": 5.064,
-      "eval_wer": 0.10165801373304303,
-      "eval_wil": 0.18490753770927515,
-      "eval_wip": 0.8150924622907249,
       "step": 4000
     },
     {
       "epoch": 9.355509355509355,
-      "grad_norm": 1.10183584690094,
       "learning_rate": 2.81030701754386e-05,
-      "loss": 0.0619,
       "step": 4500
     },
     {
       "epoch": 9.355509355509355,
-      "eval_cer": 0.031711354754667825,
-      "eval_loss": 0.042000941932201385,
-      "eval_mer": 0.1012982671198529,
-      "eval_runtime": 38.1156,
-      "eval_samples_per_second": 40.325,
-      "eval_steps_per_second": 5.064,
-      "eval_wer": 0.10149053759839223,
-      "eval_wil": 0.18411949579020193,
-      "eval_wip": 0.8158805042097981,
       "step": 4500
     },
     {
       "epoch": 10.395010395010395,
-      "grad_norm": 0.9407768249511719,
-      "learning_rate": 2.5361842105263163e-05,
-      "loss": 0.0746,
       "step": 5000
     },
     {
       "epoch": 10.395010395010395,
-      "eval_cer": 0.03119572297003908,
-      "eval_loss": 0.04117978736758232,
-      "eval_mer": 0.10029514952386256,
-      "eval_runtime": 38.4249,
-      "eval_samples_per_second": 40.0,
-      "eval_steps_per_second": 5.023,
-      "eval_wer": 0.10054150616870429,
-      "eval_wil": 0.1824420311956899,
-      "eval_wip": 0.8175579688043101,
       "step": 5000
     },
     {
       "epoch": 11.434511434511435,
-      "grad_norm": 0.6195746064186096,
-      "learning_rate": 2.262061403508772e-05,
-      "loss": 0.0691,
       "step": 5500
     },
     {
       "epoch": 11.434511434511435,
-      "eval_cer": 0.03106003039513678,
-      "eval_loss": 0.039853207767009735,
-      "eval_mer": 0.10023946093445453,
-      "eval_runtime": 38.0845,
-      "eval_samples_per_second": 40.358,
-      "eval_steps_per_second": 5.068,
-      "eval_wer": 0.10048568079048735,
-      "eval_wil": 0.18257013891375684,
-      "eval_wip": 0.8174298610862432,
       "step": 5500
     },
     {
       "epoch": 12.474012474012474,
-      "grad_norm": 1.3661248683929443,
-      "learning_rate": 1.987938596491228e-05,
-      "loss": 0.0855,
       "step": 6000
     },
     {
       "epoch": 12.474012474012474,
-      "eval_cer": 0.030802214502822407,
-      "eval_loss": 0.03812312334775925,
-      "eval_mer": 0.10019504040122597,
-      "eval_runtime": 37.9909,
-      "eval_samples_per_second": 40.457,
-      "eval_steps_per_second": 5.08,
-      "eval_wer": 0.10037403003405349,
-      "eval_wil": 0.18326099919946448,
-      "eval_wip": 0.8167390008005355,
       "step": 6000
     },
     {
       "epoch": 13.513513513513514,
-      "grad_norm": 1.3353065252304077,
-      "learning_rate": 1.7138157894736844e-05,
-      "loss": 0.0669,
       "step": 6500
     },
     {
       "epoch": 13.513513513513514,
-      "eval_cer": 0.030870060790273556,
-      "eval_loss": 0.03876902535557747,
-      "eval_mer": 0.09984955702902992,
-      "eval_runtime": 37.9952,
-      "eval_samples_per_second": 40.452,
-      "eval_steps_per_second": 5.08,
-      "eval_wer": 0.10003907776475186,
-      "eval_wil": 0.18217614907641588,
-      "eval_wip": 0.8178238509235841,
       "step": 6500
-    },
-    {
-      "epoch": 14.553014553014552,
-      "grad_norm": 0.6093008518218994,
-      "learning_rate": 1.4396929824561402e-05,
-      "loss": 0.0682,
-      "step": 7000
-    },
-    {
-      "epoch": 14.553014553014552,
-      "eval_cer": 0.030788645245332175,
-      "eval_loss": 0.035834264010190964,
-      "eval_mer": 0.09929275491451801,
-      "eval_runtime": 38.167,
-      "eval_samples_per_second": 40.27,
-      "eval_steps_per_second": 5.057,
-      "eval_wer": 0.09953664936079942,
-      "eval_wil": 0.18071120905476679,
-      "eval_wip": 0.8192887909452332,
-      "step": 7000
-    },
-    {
-      "epoch": 15.592515592515593,
-      "grad_norm": 0.7895450592041016,
-      "learning_rate": 1.1666666666666668e-05,
-      "loss": 0.088,
-      "step": 7500
-    },
-    {
-      "epoch": 15.592515592515593,
-      "eval_cer": 0.030395136778115502,
-      "eval_loss": 0.03623037785291672,
-      "eval_mer": 0.09935361640476986,
-      "eval_runtime": 37.9773,
-      "eval_samples_per_second": 40.471,
-      "eval_steps_per_second": 5.082,
-      "eval_wer": 0.09953664936079942,
-      "eval_wil": 0.18154973787589812,
-      "eval_wip": 0.8184502621241019,
-      "step": 7500
-    },
-    {
-      "epoch": 16.632016632016633,
-      "grad_norm": 0.7813014984130859,
-      "learning_rate": 8.925438596491228e-06,
-      "loss": 0.0834,
-      "step": 8000
-    },
-    {
-      "epoch": 16.632016632016633,
-      "eval_cer": 0.03020516717325228,
-      "eval_loss": 0.03531612828373909,
-      "eval_mer": 0.09880740080249666,
-      "eval_runtime": 38.0495,
-      "eval_samples_per_second": 40.395,
-      "eval_steps_per_second": 5.072,
-      "eval_wer": 0.09897839557863004,
-      "eval_wil": 0.1805093924428257,
-      "eval_wip": 0.8194906075571743,
-      "step": 8000
-    },
-    {
-      "epoch": 17.671517671517673,
-      "grad_norm": 1.4119709730148315,
-      "learning_rate": 6.18969298245614e-06,
-      "loss": 0.092,
-      "step": 8500
-    },
-    {
-      "epoch": 17.671517671517673,
-      "eval_cer": 0.0305308293530178,
-      "eval_loss": 0.035771578550338745,
-      "eval_mer": 0.098891303136665,
-      "eval_runtime": 37.9848,
-      "eval_samples_per_second": 40.464,
-      "eval_steps_per_second": 5.081,
-      "eval_wer": 0.09909004633506392,
-      "eval_wil": 0.18052731616638895,
-      "eval_wip": 0.819472683833611,
-      "step": 8500
-    },
-    {
-      "epoch": 18.71101871101871,
-      "grad_norm": 1.0008147954940796,
-      "learning_rate": 3.4539473684210533e-06,
-      "loss": 0.0947,
-      "step": 9000
-    },
-    {
-      "epoch": 18.71101871101871,
-      "eval_cer": 0.03019159791576205,
-      "eval_loss": 0.03573372960090637,
-      "eval_mer": 0.09808945580125884,
-      "eval_runtime": 38.1365,
-      "eval_samples_per_second": 40.303,
-      "eval_steps_per_second": 5.061,
-      "eval_wer": 0.0983084910400268,
-      "eval_wil": 0.17911688760272393,
-      "eval_wip": 0.8208831123972761,
-      "step": 9000
-    },
-    {
-      "epoch": 19.75051975051975,
-      "grad_norm": 1.2838976383209229,
-      "learning_rate": 7.12719298245614e-07,
-      "loss": 0.1034,
-      "step": 9500
-    },
-    {
-      "epoch": 19.75051975051975,
-      "eval_cer": 0.03009661311333044,
-      "eval_loss": 0.035286422818899155,
-      "eval_mer": 0.09806652922494011,
-      "eval_runtime": 38.0732,
-      "eval_samples_per_second": 40.37,
-      "eval_steps_per_second": 5.069,
-      "eval_wer": 0.09825266566180986,
-      "eval_wil": 0.17925552438351477,
-      "eval_wip": 0.8207444756164852,
-      "step": 9500
     }
   ],
   "logging_steps": 500,
@@ -401,12 +281,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.154380357141717e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.03376658633351326,
+  "best_model_checkpoint": "./wav2vec2-base-demo/checkpoint-4000",
+  "epoch": 13.513513513513514,
   "eval_steps": 500,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0395010395010396,
+      "grad_norm": 1.9346532821655273,
+      "learning_rate": 4.99e-05,
+      "loss": 0.0523,
       "step": 500
     },
     {
       "epoch": 1.0395010395010396,
+      "eval_cer": 0.029377520894839703,
+      "eval_loss": 0.04082171246409416,
+      "eval_mer": 0.09753672187970566,
+      "eval_runtime": 69.2746,
+      "eval_samples_per_second": 44.36,
+      "eval_steps_per_second": 5.558,
+      "eval_wer": 0.0977199624263471,
+      "eval_wil": 0.17927306635544427,
+      "eval_wip": 0.8207269336445557,
       "step": 500
     },
     {
       "epoch": 2.079002079002079,
+      "grad_norm": 2.06243634223938,
       "learning_rate": 4.726425438596491e-05,
+      "loss": 0.1255,
       "step": 1000
     },
     {
       "epoch": 2.079002079002079,
+      "eval_cer": 0.031144746143290783,
+      "eval_loss": 0.04166610538959503,
+      "eval_mer": 0.09972456484084391,
+      "eval_runtime": 68.8885,
+      "eval_samples_per_second": 44.608,
+      "eval_steps_per_second": 5.589,
+      "eval_wer": 0.09996868862258404,
+      "eval_wil": 0.1818749372014863,
+      "eval_wip": 0.8181250627985137,
       "step": 1000
     },
     {
       "epoch": 3.1185031185031185,
+      "grad_norm": 1.8282793760299683,
+      "learning_rate": 4.452302631578947e-05,
+      "loss": 0.1456,
       "step": 1500
     },
     {
       "epoch": 3.1185031185031185,
+      "eval_cer": 0.030666555781945194,
+      "eval_loss": 0.04946601018309593,
+      "eval_mer": 0.09887519172868262,
+      "eval_runtime": 69.4551,
+      "eval_samples_per_second": 44.244,
+      "eval_steps_per_second": 5.543,
+      "eval_wer": 0.09908627707722524,
+      "eval_wil": 0.18065502190864302,
+      "eval_wip": 0.819344978091357,
       "step": 1500
     },
     {
       "epoch": 4.158004158004158,
+      "grad_norm": 1.501983880996704,
+      "learning_rate": 4.178728070175439e-05,
+      "loss": 0.1348,
       "step": 2000
     },
     {
       "epoch": 4.158004158004158,
+      "eval_cer": 0.031241770274578293,
+      "eval_loss": 0.04532551020383835,
+      "eval_mer": 0.09941786170665909,
+      "eval_runtime": 69.1184,
+      "eval_samples_per_second": 44.46,
+      "eval_steps_per_second": 5.57,
+      "eval_wer": 0.09965557484842447,
+      "eval_wil": 0.18122310589648583,
+      "eval_wip": 0.8187768941035142,
       "step": 2000
     },
     {
       "epoch": 5.197505197505198,
+      "grad_norm": 2.2279298305511475,
+      "learning_rate": 3.904605263157895e-05,
+      "loss": 0.1328,
       "step": 2500
     },
     {
       "epoch": 5.197505197505198,
+      "eval_cer": 0.030694276962313055,
+      "eval_loss": 0.043331652879714966,
+      "eval_mer": 0.09920499716070415,
+      "eval_runtime": 69.2256,
+      "eval_samples_per_second": 44.391,
+      "eval_steps_per_second": 5.562,
+      "eval_wer": 0.09945632062850474,
+      "eval_wil": 0.1809313141913549,
+      "eval_wip": 0.8190686858086451,
       "step": 2500
     },
     {
       "epoch": 6.237006237006237,
+      "grad_norm": 3.002439498901367,
+      "learning_rate": 3.6321271929824565e-05,
+      "loss": 0.1179,
       "step": 3000
     },
     {
       "epoch": 6.237006237006237,
+      "eval_cer": 0.030153713945139785,
+      "eval_loss": 0.03851901367306709,
+      "eval_mer": 0.09771598808341608,
+      "eval_runtime": 68.9837,
+      "eval_samples_per_second": 44.547,
+      "eval_steps_per_second": 5.581,
+      "eval_wer": 0.09803307620050668,
+      "eval_wil": 0.17836955409428712,
+      "eval_wip": 0.8216304459057129,
       "step": 3000
     },
     {
       "epoch": 7.276507276507276,
+      "grad_norm": 2.6515450477600098,
       "learning_rate": 3.358004385964912e-05,
+      "loss": 0.1162,
       "step": 3500
     },
     {
       "epoch": 7.276507276507276,
+      "eval_cer": 0.029925014207104937,
+      "eval_loss": 0.03501337394118309,
+      "eval_mer": 0.09821960984751682,
+      "eval_runtime": 69.3123,
+      "eval_samples_per_second": 44.336,
+      "eval_steps_per_second": 5.555,
+      "eval_wer": 0.0984600495289061,
+      "eval_wil": 0.1797471797395056,
+      "eval_wip": 0.8202528202604944,
       "step": 3500
     },
     {
       "epoch": 8.316008316008316,
+      "grad_norm": 1.6817522048950195,
+      "learning_rate": 3.0838815789473685e-05,
+      "loss": 0.1365,
       "step": 4000
     },
     {
       "epoch": 8.316008316008316,
+      "eval_cer": 0.03011906246967996,
+      "eval_loss": 0.03376658633351326,
+      "eval_mer": 0.09842117219445706,
+      "eval_runtime": 68.9641,
+      "eval_samples_per_second": 44.559,
+      "eval_steps_per_second": 5.583,
+      "eval_wer": 0.09865930374882582,
+      "eval_wil": 0.18011352865946695,
+      "eval_wip": 0.819886471340533,
       "step": 4000
     },
     {
       "epoch": 9.355509355509355,
+      "grad_norm": 0.6051247119903564,
       "learning_rate": 2.81030701754386e-05,
+      "loss": 0.1347,
       "step": 4500
     },
     {
       "epoch": 9.355509355509355,
+      "eval_cer": 0.029703244764162057,
+      "eval_loss": 0.03462997451424599,
+      "eval_mer": 0.09795732833319129,
+      "eval_runtime": 69.4003,
+      "eval_samples_per_second": 44.279,
+      "eval_steps_per_second": 5.548,
+      "eval_wer": 0.09814693575474652,
+      "eval_wil": 0.17949922019601927,
+      "eval_wip": 0.8205007798039807,
       "step": 4500
     },
     {
       "epoch": 10.395010395010395,
+      "grad_norm": 1.5656287670135498,
+      "learning_rate": 2.536732456140351e-05,
+      "loss": 0.1068,
       "step": 5000
     },
     {
       "epoch": 10.395010395010395,
+      "eval_cer": 0.029682453878886163,
+      "eval_loss": 0.037345826625823975,
+      "eval_mer": 0.09753812079393474,
+      "eval_runtime": 69.4802,
+      "eval_samples_per_second": 44.228,
+      "eval_steps_per_second": 5.541,
+      "eval_wer": 0.09777689220346703,
+      "eval_wil": 0.1784365366866959,
+      "eval_wip": 0.8215634633133041,
       "step": 5000
     },
     {
       "epoch": 11.434511434511435,
+      "grad_norm": 2.0051817893981934,
+      "learning_rate": 2.2631578947368423e-05,
+      "loss": 0.1137,
       "step": 5500
     },
     {
       "epoch": 11.434511434511435,
+      "eval_cer": 0.02954384797704686,
+      "eval_loss": 0.03467037156224251,
+      "eval_mer": 0.09743283921167717,
+      "eval_runtime": 68.8824,
+      "eval_samples_per_second": 44.612,
+      "eval_steps_per_second": 5.589,
+      "eval_wer": 0.09766303264922718,
+      "eval_wil": 0.178736836050011,
+      "eval_wip": 0.821263163949989,
       "step": 5500
     },
     {
       "epoch": 12.474012474012474,
+      "grad_norm": 1.0739721059799194,
+      "learning_rate": 1.9890350877192984e-05,
+      "loss": 0.1172,
       "step": 6000
     },
     {
       "epoch": 12.474012474012474,
+      "eval_cer": 0.02943989355066739,
+      "eval_loss": 0.03584234416484833,
+      "eval_mer": 0.09757691105871659,
+      "eval_runtime": 69.0922,
+      "eval_samples_per_second": 44.477,
+      "eval_steps_per_second": 5.572,
+      "eval_wer": 0.09777689220346703,
+      "eval_wil": 0.17892556337428467,
+      "eval_wip": 0.8210744366257153,
       "step": 6000
     },
     {
       "epoch": 13.513513513513514,
+      "grad_norm": 2.266472339630127,
+      "learning_rate": 1.7154605263157897e-05,
+      "loss": 0.1115,
       "step": 6500
     },
     {
       "epoch": 13.513513513513514,
+      "eval_cer": 0.02930821794392005,
+      "eval_loss": 0.034342650324106216,
+      "eval_mer": 0.09706725718990432,
+      "eval_runtime": 69.2359,
+      "eval_samples_per_second": 44.384,
+      "eval_steps_per_second": 5.561,
+      "eval_wer": 0.09732145398650764,
+      "eval_wil": 0.17795643596108135,
+      "eval_wip": 0.8220435640389187,
       "step": 6500
     }
   ],
   "logging_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.1652748241888937e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:febdb98d4c9631a3e00954a69cfd1e32ca3458dd3a6802ce6357dc0164515ef7
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb1c6ff926809bec7ca40d4ff92845cdd213d802c12b7a5884474d289535b983
 size 5176