End of training

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +16 -0
eval--in domain set_results.json +10 -0
train_results.json +9 -0
trainer_state.json +1062 -0

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1996
-- Wer: 0.1745
-- Cer: 0.0512
 ## Model description

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0285
+- Wer: 0.0215
+- Cer: 0.0044
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 60.0,
+    "eval_cer": 0.004363984932059734,
+    "eval_loss": 0.028477508574724197,
+    "eval_runtime": 126.9135,
+    "eval_samples": 1727,
+    "eval_samples_per_second": 13.608,
+    "eval_steps_per_second": 1.702,
+    "eval_wer": 0.02150478495215048,
+    "total_flos": 4.963160913067481e+19,
+    "train_loss": 0.2655376970686213,
+    "train_runtime": 66419.3143,
+    "train_samples": 15540,
+    "train_samples_per_second": 14.038,
+    "train_steps_per_second": 0.878
+}

eval--in domain set_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 60.0,
+    "eval_cer": 0.004363984932059734,
+    "eval_loss": 0.028477508574724197,
+    "eval_runtime": 126.9135,
+    "eval_samples": 1727,
+    "eval_samples_per_second": 13.608,
+    "eval_steps_per_second": 1.702,
+    "eval_wer": 0.02150478495215048
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 60.0,
+    "total_flos": 4.963160913067481e+19,
+    "train_loss": 0.2655376970686213,
+    "train_runtime": 66419.3143,
+    "train_samples": 15540,
+    "train_samples_per_second": 14.038,
+    "train_steps_per_second": 0.878
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1062 @@

+{
+  "best_metric": 0.02128478715212848,
+  "best_model_checkpoint": "/scratch/elec/puhe/p/palp3/sami_ASR/base_model_output/wav2vec2-base-sami-22k-finetuned/widv/widv_2dips_validate/60epoch/outputs/checkpoint-972",
+  "epoch": 60.0,
+  "eval_steps": 500,
+  "global_step": 58320,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.892906904220581,
+      "learning_rate": 3.326474622770919e-05,
+      "loss": 0.1722,
+      "step": 972
+    },
+    {
+      "epoch": 1.0,
+      "eval_cer": 0.004321942688012915,
+      "eval_loss": 0.028580639511346817,
+      "eval_runtime": 106.6617,
+      "eval_samples_per_second": 16.191,
+      "eval_steps_per_second": 2.025,
+      "eval_wer": 0.02128478715212848,
+      "step": 972
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 38.92696762084961,
+      "learning_rate": 6.656378600823046e-05,
+      "loss": 0.1455,
+      "step": 1944
+    },
+    {
+      "epoch": 2.0,
+      "eval_cer": 0.007718956006995829,
+      "eval_loss": 0.048419274389743805,
+      "eval_runtime": 110.2333,
+      "eval_samples_per_second": 15.667,
+      "eval_steps_per_second": 1.959,
+      "eval_wer": 0.038444615553844465,
+      "step": 1944
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 29.349037170410156,
+      "learning_rate": 9.989711934156378e-05,
+      "loss": 0.1681,
+      "step": 2916
+    },
+    {
+      "epoch": 3.0,
+      "eval_cer": 0.014504574196152293,
+      "eval_loss": 0.06561160087585449,
+      "eval_runtime": 111.977,
+      "eval_samples_per_second": 15.423,
+      "eval_steps_per_second": 1.929,
+      "eval_wer": 0.07149928500714993,
+      "step": 2916
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 46.283809661865234,
+      "learning_rate": 0.0001332304526748971,
+      "loss": 0.192,
+      "step": 3888
+    },
+    {
+      "epoch": 4.0,
+      "eval_cer": 0.023434346831696488,
+      "eval_loss": 0.11780054122209549,
+      "eval_runtime": 112.6302,
+      "eval_samples_per_second": 15.333,
+      "eval_steps_per_second": 1.918,
+      "eval_wer": 0.11054889451105489,
+      "step": 3888
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.867298126220703,
+      "learning_rate": 0.00016652949245541838,
+      "loss": 0.2199,
+      "step": 4860
+    },
+    {
+      "epoch": 5.0,
+      "eval_cer": 0.04258879321942688,
+      "eval_loss": 0.14914190769195557,
+      "eval_runtime": 112.5685,
+      "eval_samples_per_second": 15.342,
+      "eval_steps_per_second": 1.919,
+      "eval_wer": 0.1903530964690353,
+      "step": 4860
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 13.334542274475098,
+      "learning_rate": 0.00019986282578875173,
+      "loss": 0.2408,
+      "step": 5832
+    },
+    {
+      "epoch": 6.0,
+      "eval_cer": 0.050391833714516346,
+      "eval_loss": 0.1710040420293808,
+      "eval_runtime": 111.2348,
+      "eval_samples_per_second": 15.526,
+      "eval_steps_per_second": 1.942,
+      "eval_wer": 0.2053679463205368,
+      "step": 5832
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 5.9388203620910645,
+      "learning_rate": 0.00023319615912208505,
+      "loss": 0.2761,
+      "step": 6804
+    },
+    {
+      "epoch": 7.0,
+      "eval_cer": 0.06069218350598682,
+      "eval_loss": 0.24052941799163818,
+      "eval_runtime": 116.3136,
+      "eval_samples_per_second": 14.848,
+      "eval_steps_per_second": 1.857,
+      "eval_wer": 0.23979760202397976,
+      "step": 6804
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 2.925326347351074,
+      "learning_rate": 0.0002665294924554184,
+      "loss": 0.3111,
+      "step": 7776
+    },
+    {
+      "epoch": 8.0,
+      "eval_cer": 0.0968737387326786,
+      "eval_loss": 0.2559922933578491,
+      "eval_runtime": 114.6573,
+      "eval_samples_per_second": 15.062,
+      "eval_steps_per_second": 1.884,
+      "eval_wer": 0.3893961060389396,
+      "step": 7776
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 13.22968578338623,
+      "learning_rate": 0.00029982853223593965,
+      "loss": 0.3474,
+      "step": 8748
+    },
+    {
+      "epoch": 9.0,
+      "eval_cer": 0.12339398627741155,
+      "eval_loss": 0.32267919182777405,
+      "eval_runtime": 112.5775,
+      "eval_samples_per_second": 15.341,
+      "eval_steps_per_second": 1.919,
+      "eval_wer": 0.41964580354196457,
+      "step": 8748
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 20.562284469604492,
+      "learning_rate": 0.00033309327846364886,
+      "loss": 0.3899,
+      "step": 9720
+    },
+    {
+      "epoch": 10.0,
+      "eval_cer": 0.1137579039418808,
+      "eval_loss": 0.3252728581428528,
+      "eval_runtime": 112.1566,
+      "eval_samples_per_second": 15.398,
+      "eval_steps_per_second": 1.926,
+      "eval_wer": 0.40589594104058957,
+      "step": 9720
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 14.398542404174805,
+      "learning_rate": 0.00036642661179698215,
+      "loss": 0.4153,
+      "step": 10692
+    },
+    {
+      "epoch": 11.0,
+      "eval_cer": 0.1411274048163595,
+      "eval_loss": 0.3555086553096771,
+      "eval_runtime": 112.1279,
+      "eval_samples_per_second": 15.402,
+      "eval_steps_per_second": 1.926,
+      "eval_wer": 0.488120118798812,
+      "step": 10692
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 24.424081802368164,
+      "learning_rate": 0.0003997599451303155,
+      "loss": 0.4633,
+      "step": 11664
+    },
+    {
+      "epoch": 12.0,
+      "eval_cer": 0.15536290865061214,
+      "eval_loss": 0.4050753712654114,
+      "eval_runtime": 113.3569,
+      "eval_samples_per_second": 15.235,
+      "eval_steps_per_second": 1.905,
+      "eval_wer": 0.5147948520514795,
+      "step": 11664
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 53.538700103759766,
+      "learning_rate": 0.0004330932784636488,
+      "loss": 0.5276,
+      "step": 12636
+    },
+    {
+      "epoch": 13.0,
+      "eval_cer": 0.16010527377909323,
+      "eval_loss": 0.48709672689437866,
+      "eval_runtime": 110.0153,
+      "eval_samples_per_second": 15.698,
+      "eval_steps_per_second": 1.963,
+      "eval_wer": 0.511439885601144,
+      "step": 12636
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 12.373359680175781,
+      "learning_rate": 0.0004663923182441701,
+      "loss": 0.5434,
+      "step": 13608
+    },
+    {
+      "epoch": 14.0,
+      "eval_cer": 0.20774754473294765,
+      "eval_loss": 0.5271967053413391,
+      "eval_runtime": 111.471,
+      "eval_samples_per_second": 15.493,
+      "eval_steps_per_second": 1.938,
+      "eval_wer": 0.6464635353646464,
+      "step": 13608
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 7.079484939575195,
+      "learning_rate": 0.0004997256515775034,
+      "loss": 0.555,
+      "step": 14580
+    },
+    {
+      "epoch": 15.0,
+      "eval_cer": 0.22033499260056505,
+      "eval_loss": 0.5461715459823608,
+      "eval_runtime": 110.8347,
+      "eval_samples_per_second": 15.582,
+      "eval_steps_per_second": 1.949,
+      "eval_wer": 0.6470135298647014,
+      "step": 14580
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 8.357855796813965,
+      "learning_rate": 0.0004889803383630545,
+      "loss": 0.5475,
+      "step": 15552
+    },
+    {
+      "epoch": 16.0,
+      "eval_cer": 0.18553242297860892,
+      "eval_loss": 0.4817240834236145,
+      "eval_runtime": 111.6706,
+      "eval_samples_per_second": 15.465,
+      "eval_steps_per_second": 1.934,
+      "eval_wer": 0.5891541084589154,
+      "step": 15552
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 21.565086364746094,
+      "learning_rate": 0.0004778692272519433,
+      "loss": 0.5442,
+      "step": 16524
+    },
+    {
+      "epoch": 17.0,
+      "eval_cer": 0.1834975783667429,
+      "eval_loss": 0.4537910521030426,
+      "eval_runtime": 112.4474,
+      "eval_samples_per_second": 15.358,
+      "eval_steps_per_second": 1.921,
+      "eval_wer": 0.5851391486085139,
+      "step": 16524
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 37.555049896240234,
+      "learning_rate": 0.00046681527206218564,
+      "loss": 0.8933,
+      "step": 17496
+    },
+    {
+      "epoch": 18.0,
+      "eval_cer": 0.16757197632180815,
+      "eval_loss": 0.4261943995952606,
+      "eval_runtime": 111.8475,
+      "eval_samples_per_second": 15.441,
+      "eval_steps_per_second": 1.931,
+      "eval_wer": 0.5166648333516665,
+      "step": 17496
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 5.985906600952148,
+      "learning_rate": 0.00045570416095107454,
+      "loss": 0.5099,
+      "step": 18468
+    },
+    {
+      "epoch": 19.0,
+      "eval_cer": 0.14852683976859948,
+      "eval_loss": 0.3809051215648651,
+      "eval_runtime": 111.8392,
+      "eval_samples_per_second": 15.442,
+      "eval_steps_per_second": 1.931,
+      "eval_wer": 0.4778352216477835,
+      "step": 18468
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 29.389266967773438,
+      "learning_rate": 0.0004445930498399634,
+      "loss": 0.5529,
+      "step": 19440
+    },
+    {
+      "epoch": 20.0,
+      "eval_cer": 0.15105778286021795,
+      "eval_loss": 0.3896856904029846,
+      "eval_runtime": 111.1566,
+      "eval_samples_per_second": 15.537,
+      "eval_steps_per_second": 1.943,
+      "eval_wer": 0.4954350456495435,
+      "step": 19440
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 10.6626615524292,
+      "learning_rate": 0.00043348193872885235,
+      "loss": 0.4446,
+      "step": 20412
+    },
+    {
+      "epoch": 21.0,
+      "eval_cer": 0.13650275797120948,
+      "eval_loss": 0.3874945044517517,
+      "eval_runtime": 111.1711,
+      "eval_samples_per_second": 15.535,
+      "eval_steps_per_second": 1.943,
+      "eval_wer": 0.45072049279507204,
+      "step": 20412
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 9.340583801269531,
+      "learning_rate": 0.0004223708276177412,
+      "loss": 0.4376,
+      "step": 21384
+    },
+    {
+      "epoch": 22.0,
+      "eval_cer": 0.14034541907708867,
+      "eval_loss": 0.3486928343772888,
+      "eval_runtime": 110.597,
+      "eval_samples_per_second": 15.615,
+      "eval_steps_per_second": 1.953,
+      "eval_wer": 0.45919040809591904,
+      "step": 21384
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 16.277769088745117,
+      "learning_rate": 0.0004112597165066301,
+      "loss": 0.4044,
+      "step": 22356
+    },
+    {
+      "epoch": 23.0,
+      "eval_cer": 0.123427620072649,
+      "eval_loss": 0.3339575231075287,
+      "eval_runtime": 111.0272,
+      "eval_samples_per_second": 15.555,
+      "eval_steps_per_second": 1.945,
+      "eval_wer": 0.4145858541414586,
+      "step": 22356
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 7.630257606506348,
+      "learning_rate": 0.000400148605395519,
+      "loss": 0.4067,
+      "step": 23328
+    },
+    {
+      "epoch": 24.0,
+      "eval_cer": 0.12230929638100363,
+      "eval_loss": 0.3253650963306427,
+      "eval_runtime": 111.0464,
+      "eval_samples_per_second": 15.552,
+      "eval_steps_per_second": 1.945,
+      "eval_wer": 0.4068859311406886,
+      "step": 23328
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 7.71258020401001,
+      "learning_rate": 0.0003890374942844079,
+      "loss": 0.3696,
+      "step": 24300
+    },
+    {
+      "epoch": 25.0,
+      "eval_cer": 0.1160954527108839,
+      "eval_loss": 0.3158465027809143,
+      "eval_runtime": 110.7966,
+      "eval_samples_per_second": 15.587,
+      "eval_steps_per_second": 1.95,
+      "eval_wer": 0.3937960620393796,
+      "step": 24300
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 15.249846458435059,
+      "learning_rate": 0.00037792638317329675,
+      "loss": 0.3417,
+      "step": 25272
+    },
+    {
+      "epoch": 26.0,
+      "eval_cer": 0.11476691779900444,
+      "eval_loss": 0.304636687040329,
+      "eval_runtime": 109.8939,
+      "eval_samples_per_second": 15.715,
+      "eval_steps_per_second": 1.966,
+      "eval_wer": 0.3980860191398086,
+      "step": 25272
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 5.0151777267456055,
+      "learning_rate": 0.00036681527206218565,
+      "loss": 0.3381,
+      "step": 26244
+    },
+    {
+      "epoch": 27.0,
+      "eval_cer": 0.11050383425265707,
+      "eval_loss": 0.291059285402298,
+      "eval_runtime": 106.5162,
+      "eval_samples_per_second": 16.214,
+      "eval_steps_per_second": 2.028,
+      "eval_wer": 0.3753162468375316,
+      "step": 26244
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 9.235563278198242,
+      "learning_rate": 0.0003557155921353452,
+      "loss": 0.3187,
+      "step": 27216
+    },
+    {
+      "epoch": 28.0,
+      "eval_cer": 0.1189627337548769,
+      "eval_loss": 0.30689507722854614,
+      "eval_runtime": 108.4021,
+      "eval_samples_per_second": 15.931,
+      "eval_steps_per_second": 1.993,
+      "eval_wer": 0.38648113518864813,
+      "step": 27216
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 4.142171859741211,
+      "learning_rate": 0.0003446159122085048,
+      "loss": 0.3016,
+      "step": 28188
+    },
+    {
+      "epoch": 29.0,
+      "eval_cer": 0.1005734562087986,
+      "eval_loss": 0.2522578537464142,
+      "eval_runtime": 105.9527,
+      "eval_samples_per_second": 16.3,
+      "eval_steps_per_second": 2.039,
+      "eval_wer": 0.35249147508524914,
+      "step": 28188
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 8.742466926574707,
+      "learning_rate": 0.0003335048010973937,
+      "loss": 0.2837,
+      "step": 29160
+    },
+    {
+      "epoch": 30.0,
+      "eval_cer": 0.09587313332436433,
+      "eval_loss": 0.24332503974437714,
+      "eval_runtime": 106.9612,
+      "eval_samples_per_second": 16.146,
+      "eval_steps_per_second": 2.019,
+      "eval_wer": 0.32939170608293916,
+      "step": 29160
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 6.368826866149902,
+      "learning_rate": 0.0003223936899862826,
+      "loss": 0.2622,
+      "step": 30132
+    },
+    {
+      "epoch": 31.0,
+      "eval_cer": 0.09076920489708058,
+      "eval_loss": 0.23585936427116394,
+      "eval_runtime": 108.5575,
+      "eval_samples_per_second": 15.909,
+      "eval_steps_per_second": 1.99,
+      "eval_wer": 0.3172368276317237,
+      "step": 30132
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.5108231902122498,
+      "learning_rate": 0.00031128257887517145,
+      "loss": 0.2584,
+      "step": 31104
+    },
+    {
+      "epoch": 32.0,
+      "eval_cer": 0.0962935557648325,
+      "eval_loss": 0.24952448904514313,
+      "eval_runtime": 107.2589,
+      "eval_samples_per_second": 16.101,
+      "eval_steps_per_second": 2.014,
+      "eval_wer": 0.32686173138268615,
+      "step": 31104
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 6.757967948913574,
+      "learning_rate": 0.00030017146776406035,
+      "loss": 0.239,
+      "step": 32076
+    },
+    {
+      "epoch": 33.0,
+      "eval_cer": 0.09224068343871923,
+      "eval_loss": 0.24214725196361542,
+      "eval_runtime": 108.1862,
+      "eval_samples_per_second": 15.963,
+      "eval_steps_per_second": 1.997,
+      "eval_wer": 0.3187768122318777,
+      "step": 32076
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 3.6875059604644775,
+      "learning_rate": 0.00028906035665294925,
+      "loss": 0.2275,
+      "step": 33048
+    },
+    {
+      "epoch": 34.0,
+      "eval_cer": 0.0917361765101574,
+      "eval_loss": 0.22530558705329895,
+      "eval_runtime": 107.8021,
+      "eval_samples_per_second": 16.02,
+      "eval_steps_per_second": 2.004,
+      "eval_wer": 0.31239687603123967,
+      "step": 33048
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 11.401963233947754,
+      "learning_rate": 0.00027794924554183816,
+      "loss": 0.2216,
+      "step": 34020
+    },
+    {
+      "epoch": 35.0,
+      "eval_cer": 0.0827643616305664,
+      "eval_loss": 0.21883530914783478,
+      "eval_runtime": 109.0635,
+      "eval_samples_per_second": 15.835,
+      "eval_steps_per_second": 1.98,
+      "eval_wer": 0.2876471235287647,
+      "step": 34020
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 14.137062072753906,
+      "learning_rate": 0.00026684956561499776,
+      "loss": 0.2078,
+      "step": 34992
+    },
+    {
+      "epoch": 36.0,
+      "eval_cer": 0.08280640387461322,
+      "eval_loss": 0.22628778219223022,
+      "eval_runtime": 107.0828,
+      "eval_samples_per_second": 16.128,
+      "eval_steps_per_second": 2.017,
+      "eval_wer": 0.2967220327796722,
+      "step": 34992
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 4.607612133026123,
+      "learning_rate": 0.0002557498856881573,
+      "loss": 0.1993,
+      "step": 35964
+    },
+    {
+      "epoch": 37.0,
+      "eval_cer": 0.08237757298533567,
+      "eval_loss": 0.21688050031661987,
+      "eval_runtime": 108.3947,
+      "eval_samples_per_second": 15.933,
+      "eval_steps_per_second": 1.993,
+      "eval_wer": 0.28731712682873173,
+      "step": 35964
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 0.11699577420949936,
+      "learning_rate": 0.0002446387745770462,
+      "loss": 0.1846,
+      "step": 36936
+    },
+    {
+      "epoch": 38.0,
+      "eval_cer": 0.07778655993542312,
+      "eval_loss": 0.2135714888572693,
+      "eval_runtime": 107.5828,
+      "eval_samples_per_second": 16.053,
+      "eval_steps_per_second": 2.008,
+      "eval_wer": 0.27351226487735125,
+      "step": 36936
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 7.092660903930664,
+      "learning_rate": 0.00023353909465020575,
+      "loss": 0.1797,
+      "step": 37908
+    },
+    {
+      "epoch": 39.0,
+      "eval_cer": 0.07624781380330957,
+      "eval_loss": 0.20947343111038208,
+      "eval_runtime": 109.3587,
+      "eval_samples_per_second": 15.792,
+      "eval_steps_per_second": 1.975,
+      "eval_wer": 0.26245737542624575,
+      "step": 37908
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.5255852341651917,
+      "learning_rate": 0.00022243941472336535,
+      "loss": 0.182,
+      "step": 38880
+    },
+    {
+      "epoch": 40.0,
+      "eval_cer": 0.07417933539620611,
+      "eval_loss": 0.2156570702791214,
+      "eval_runtime": 108.6791,
+      "eval_samples_per_second": 15.891,
+      "eval_steps_per_second": 1.988,
+      "eval_wer": 0.25805741942580573,
+      "step": 38880
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 11.525845527648926,
+      "learning_rate": 0.00021132830361225425,
+      "loss": 0.1633,
+      "step": 39852
+    },
+    {
+      "epoch": 41.0,
+      "eval_cer": 0.07259854702004574,
+      "eval_loss": 0.1871972680091858,
+      "eval_runtime": 108.4995,
+      "eval_samples_per_second": 15.917,
+      "eval_steps_per_second": 1.991,
+      "eval_wer": 0.2525574744252557,
+      "step": 39852
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 5.1948628425598145,
+      "learning_rate": 0.0002002286236854138,
+      "loss": 0.1674,
+      "step": 40824
+    },
+    {
+      "epoch": 42.0,
+      "eval_cer": 0.07172406834387192,
+      "eval_loss": 0.1886238008737564,
+      "eval_runtime": 108.7161,
+      "eval_samples_per_second": 15.885,
+      "eval_steps_per_second": 1.987,
+      "eval_wer": 0.24705752942470574,
+      "step": 40824
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 35.27286911010742,
+      "learning_rate": 0.0001891175125743027,
+      "loss": 0.1598,
+      "step": 41796
+    },
+    {
+      "epoch": 43.0,
+      "eval_cer": 0.07292647652361092,
+      "eval_loss": 0.21099978685379028,
+      "eval_runtime": 108.7091,
+      "eval_samples_per_second": 15.886,
+      "eval_steps_per_second": 1.987,
+      "eval_wer": 0.2572874271257287,
+      "step": 41796
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 5.230064868927002,
+      "learning_rate": 0.00017804069501600368,
+      "loss": 0.1485,
+      "step": 42768
+    },
+    {
+      "epoch": 44.0,
+      "eval_cer": 0.06976489977129019,
+      "eval_loss": 0.2113291323184967,
+      "eval_runtime": 108.5915,
+      "eval_samples_per_second": 15.904,
+      "eval_steps_per_second": 1.989,
+      "eval_wer": 0.24128258717412826,
+      "step": 42768
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 7.1028571128845215,
+      "learning_rate": 0.00016692958390489255,
+      "loss": 0.143,
+      "step": 43740
+    },
+    {
+      "epoch": 45.0,
+      "eval_cer": 0.06891564644154446,
+      "eval_loss": 0.19445079565048218,
+      "eval_runtime": 108.1917,
+      "eval_samples_per_second": 15.962,
+      "eval_steps_per_second": 1.996,
+      "eval_wer": 0.23352766472335276,
+      "step": 43740
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 91.1045150756836,
+      "learning_rate": 0.00015581847279378145,
+      "loss": 0.1297,
+      "step": 44712
+    },
+    {
+      "epoch": 46.0,
+      "eval_cer": 0.06398829543925737,
+      "eval_loss": 0.19453474879264832,
+      "eval_runtime": 107.8084,
+      "eval_samples_per_second": 16.019,
+      "eval_steps_per_second": 2.004,
+      "eval_wer": 0.22219777802221977,
+      "step": 44712
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 1.2814885377883911,
+      "learning_rate": 0.00014470736168267033,
+      "loss": 0.1243,
+      "step": 45684
+    },
+    {
+      "epoch": 47.0,
+      "eval_cer": 0.06283633795237455,
+      "eval_loss": 0.1877937912940979,
+      "eval_runtime": 104.4978,
+      "eval_samples_per_second": 16.527,
+      "eval_steps_per_second": 2.067,
+      "eval_wer": 0.22170278297217028,
+      "step": 45684
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 16.771364212036133,
+      "learning_rate": 0.00013359625057155923,
+      "loss": 0.1153,
+      "step": 46656
+    },
+    {
+      "epoch": 48.0,
+      "eval_cer": 0.06144053545002018,
+      "eval_loss": 0.19347365200519562,
+      "eval_runtime": 104.1447,
+      "eval_samples_per_second": 16.583,
+      "eval_steps_per_second": 2.074,
+      "eval_wer": 0.2165328346716533,
+      "step": 46656
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 0.7877097129821777,
+      "learning_rate": 0.0001224851394604481,
+      "loss": 0.1115,
+      "step": 47628
+    },
+    {
+      "epoch": 49.0,
+      "eval_cer": 0.060372662451231,
+      "eval_loss": 0.1975562423467636,
+      "eval_runtime": 116.3496,
+      "eval_samples_per_second": 14.843,
+      "eval_steps_per_second": 1.856,
+      "eval_wer": 0.2114728852711473,
+      "step": 47628
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 4.4330010414123535,
+      "learning_rate": 0.00011137402834933699,
+      "loss": 0.1012,
+      "step": 48600
+    },
+    {
+      "epoch": 50.0,
+      "eval_cer": 0.060086775191712634,
+      "eval_loss": 0.18160125613212585,
+      "eval_runtime": 104.8388,
+      "eval_samples_per_second": 16.473,
+      "eval_steps_per_second": 2.06,
+      "eval_wer": 0.2102078979210208,
+      "step": 48600
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 7.805563449859619,
+      "learning_rate": 0.00010026291723822588,
+      "loss": 0.1002,
+      "step": 49572
+    },
+    {
+      "epoch": 51.0,
+      "eval_cer": 0.05822850800484327,
+      "eval_loss": 0.17819127440452576,
+      "eval_runtime": 104.3273,
+      "eval_samples_per_second": 16.554,
+      "eval_steps_per_second": 2.07,
+      "eval_wer": 0.2041029589704103,
+      "step": 49572
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 0.6484061479568481,
+      "learning_rate": 8.916323731138547e-05,
+      "loss": 0.0917,
+      "step": 50544
+    },
+    {
+      "epoch": 52.0,
+      "eval_cer": 0.05881709942149872,
+      "eval_loss": 0.20612208545207977,
+      "eval_runtime": 104.2003,
+      "eval_samples_per_second": 16.574,
+      "eval_steps_per_second": 2.073,
+      "eval_wer": 0.20146298537014629,
+      "step": 50544
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 1.1902787685394287,
+      "learning_rate": 7.806355738454504e-05,
+      "loss": 0.086,
+      "step": 51516
+    },
+    {
+      "epoch": 53.0,
+      "eval_cer": 0.0578501278084219,
+      "eval_loss": 0.17770683765411377,
+      "eval_runtime": 106.2062,
+      "eval_samples_per_second": 16.261,
+      "eval_steps_per_second": 2.034,
+      "eval_wer": 0.1965680343196568,
+      "step": 51516
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 11.53394889831543,
+      "learning_rate": 6.695244627343393e-05,
+      "loss": 0.0769,
+      "step": 52488
+    },
+    {
+      "epoch": 54.0,
+      "eval_cer": 0.055024889008475714,
+      "eval_loss": 0.18718810379505157,
+      "eval_runtime": 110.6146,
+      "eval_samples_per_second": 15.613,
+      "eval_steps_per_second": 1.953,
+      "eval_wer": 0.1888681113188868,
+      "step": 52488
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 0.4634610712528229,
+      "learning_rate": 5.585276634659351e-05,
+      "loss": 0.0765,
+      "step": 53460
+    },
+    {
+      "epoch": 55.0,
+      "eval_cer": 0.053923382214449075,
+      "eval_loss": 0.19234400987625122,
+      "eval_runtime": 109.7879,
+      "eval_samples_per_second": 15.73,
+      "eval_steps_per_second": 1.967,
+      "eval_wer": 0.1879881201187988,
+      "step": 53460
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 0.03393052890896797,
+      "learning_rate": 4.47416552354824e-05,
+      "loss": 0.0673,
+      "step": 54432
+    },
+    {
+      "epoch": 56.0,
+      "eval_cer": 0.05345250908112471,
+      "eval_loss": 0.18786019086837769,
+      "eval_runtime": 109.5798,
+      "eval_samples_per_second": 15.76,
+      "eval_steps_per_second": 1.971,
+      "eval_wer": 0.1819931800681993,
+      "step": 54432
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 1.5471312999725342,
+      "learning_rate": 3.363054412437128e-05,
+      "loss": 0.0646,
+      "step": 55404
+    },
+    {
+      "epoch": 57.0,
+      "eval_cer": 0.0534104668370779,
+      "eval_loss": 0.20105193555355072,
+      "eval_runtime": 120.726,
+      "eval_samples_per_second": 14.305,
+      "eval_steps_per_second": 1.789,
+      "eval_wer": 0.1819931800681993,
+      "step": 55404
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 6.701435565948486,
+      "learning_rate": 2.2519433013260172e-05,
+      "loss": 0.0636,
+      "step": 56376
+    },
+    {
+      "epoch": 58.0,
+      "eval_cer": 0.05278824162518499,
+      "eval_loss": 0.19523786008358002,
+      "eval_runtime": 109.9847,
+      "eval_samples_per_second": 15.702,
+      "eval_steps_per_second": 1.964,
+      "eval_wer": 0.18001319986800132,
+      "step": 56376
+    },
+    {
+      "epoch": 59.0,
+      "grad_norm": 3.7623682022094727,
+      "learning_rate": 1.1408321902149062e-05,
+      "loss": 0.0618,
+      "step": 57348
+    },
+    {
+      "epoch": 59.0,
+      "eval_cer": 0.05197262209067671,
+      "eval_loss": 0.20214368402957916,
+      "eval_runtime": 110.2129,
+      "eval_samples_per_second": 15.67,
+      "eval_steps_per_second": 1.96,
+      "eval_wer": 0.17753822461775381,
+      "step": 57348
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 5.769583225250244,
+      "learning_rate": 2.9721079103795153e-07,
+      "loss": 0.0557,
+      "step": 58320
+    },
+    {
+      "epoch": 60.0,
+      "eval_cer": 0.05120745324902462,
+      "eval_loss": 0.19957400858402252,
+      "eval_runtime": 110.7577,
+      "eval_samples_per_second": 15.593,
+      "eval_steps_per_second": 1.95,
+      "eval_wer": 0.1745132548674513,
+      "step": 58320
+    },
+    {
+      "epoch": 60.0,
+      "step": 58320,
+      "total_flos": 4.963160913067481e+19,
+      "train_loss": 0.2655376970686213,
+      "train_runtime": 66419.3143,
+      "train_samples_per_second": 14.038,
+      "train_steps_per_second": 0.878
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 58320,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 60,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.963160913067481e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}