utakumi
/

Hubert-common_voice-phoneme-ctc_zero_infinity

@@ -1,8 +1,12 @@
 ---
 library_name: transformers
 license: apache-2.0
 base_model: rinna/japanese-hubert-base
 tags:
 - generated_from_trainer
 datasets:
 - common_voice_13_0
@@ -15,11 +19,11 @@ model-index:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
-      name: common_voice_13_0
       type: common_voice_13_0
       config: ja
       split: test
-      args: ja
     metrics:
     - name: Wer
       type: wer
@@ -31,11 +35,11 @@ should probably proofread and complete it, then remove this comment. -->
 # Hubert-common_voice-phoneme-ctc_zero_infinity
-This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the common_voice_13_0 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5488
 - Wer: 1.0
-- Cer: 0.1977
 ## Model description

 ---
 library_name: transformers
+language:
+- ja
 license: apache-2.0
 base_model: rinna/japanese-hubert-base
 tags:
+- automatic-speech-recognition
+- mozilla-foundation/common_voice_13_0
 - generated_from_trainer
 datasets:
 - common_voice_13_0
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
+      name: MOZILLA-FOUNDATION/COMMON_VOICE_13_0 - JA
       type: common_voice_13_0
       config: ja
       split: test
+      args: 'Config: ja, Training split: train+validation, Eval split: test'
     metrics:
     - name: Wer
       type: wer
 # Hubert-common_voice-phoneme-ctc_zero_infinity
+This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the MOZILLA-FOUNDATION/COMMON_VOICE_13_0 - JA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5230
 - Wer: 1.0
+- Cer: 0.1953
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 20.0,
+    "eval_cer": 0.19530663519242536,
+    "eval_loss": 0.5230427980422974,
+    "eval_runtime": 200.2116,
+    "eval_samples": 4961,
+    "eval_samples_per_second": 24.779,
+    "eval_steps_per_second": 3.102,
+    "eval_wer": 1.0,
+    "total_flos": 1.051128494332674e+19,
+    "train_loss": 1.2840657353401184,
+    "train_runtime": 37969.1145,
+    "train_samples": 12032,
+    "train_samples_per_second": 6.338,
+    "train_steps_per_second": 0.198
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 20.0,
+    "eval_cer": 0.19530663519242536,
+    "eval_loss": 0.5230427980422974,
+    "eval_runtime": 200.2116,
+    "eval_samples": 4961,
+    "eval_samples_per_second": 24.779,
+    "eval_steps_per_second": 3.102,
+    "eval_wer": 1.0
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "total_flos": 1.051128494332674e+19,
+    "train_loss": 1.2840657353401184,
+    "train_runtime": 37969.1145,
+    "train_samples": 12032,
+    "train_samples_per_second": 6.338,
+    "train_steps_per_second": 0.198
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,897 @@

+{
+  "best_metric": 0.3724757134914398,
+  "best_model_checkpoint": "./Hubert-common_voice-phoneme-ctc_zero_infinity/checkpoint-4500",
+  "epoch": 20.0,
+  "eval_steps": 100,
+  "global_step": 7520,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.26595744680851063,
+      "eval_cer": 1.81529422485279,
+      "eval_loss": 18.23810386657715,
+      "eval_runtime": 203.0311,
+      "eval_samples_per_second": 24.435,
+      "eval_steps_per_second": 3.059,
+      "eval_wer": 1.1471477524692602,
+      "step": 100
+    },
+    {
+      "epoch": 0.5319148936170213,
+      "eval_cer": 0.9816795615591899,
+      "eval_loss": 8.172632217407227,
+      "eval_runtime": 200.7558,
+      "eval_samples_per_second": 24.712,
+      "eval_steps_per_second": 3.093,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.7978723404255319,
+      "eval_cer": 0.9816708830000044,
+      "eval_loss": 6.93860387802124,
+      "eval_runtime": 199.4086,
+      "eval_samples_per_second": 24.879,
+      "eval_steps_per_second": 3.114,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "eval_cer": 0.9816795615591899,
+      "eval_loss": 6.238890171051025,
+      "eval_runtime": 199.5101,
+      "eval_samples_per_second": 24.866,
+      "eval_steps_per_second": 3.113,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "grad_norm": 28.442243576049805,
+      "learning_rate": 1.1903999999999998e-05,
+      "loss": 8.8178,
+      "step": 500
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "eval_cer": 0.9816752222795971,
+      "eval_loss": 5.465348243713379,
+      "eval_runtime": 199.0401,
+      "eval_samples_per_second": 24.925,
+      "eval_steps_per_second": 3.12,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "eval_cer": 0.9816708830000044,
+      "eval_loss": 4.674495697021484,
+      "eval_runtime": 199.3585,
+      "eval_samples_per_second": 24.885,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 1.8617021276595744,
+      "eval_cer": 0.9816622044408188,
+      "eval_loss": 3.9770586490631104,
+      "eval_runtime": 201.0574,
+      "eval_samples_per_second": 24.675,
+      "eval_steps_per_second": 3.089,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 2.127659574468085,
+      "eval_cer": 0.9816752222795971,
+      "eval_loss": 3.4578745365142822,
+      "eval_runtime": 200.5713,
+      "eval_samples_per_second": 24.734,
+      "eval_steps_per_second": 3.096,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 2.393617021276596,
+      "eval_cer": 0.9816795615591899,
+      "eval_loss": 3.174529552459717,
+      "eval_runtime": 200.8264,
+      "eval_samples_per_second": 24.703,
+      "eval_steps_per_second": 3.092,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "grad_norm": 1.5112452507019043,
+      "learning_rate": 2.3903999999999997e-05,
+      "loss": 3.6858,
+      "step": 1000
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "eval_cer": 0.9816839008387828,
+      "eval_loss": 3.067502975463867,
+      "eval_runtime": 197.554,
+      "eval_samples_per_second": 25.112,
+      "eval_steps_per_second": 3.143,
+      "eval_wer": 1.0,
+      "step": 1000
+    },
+    {
+      "epoch": 2.925531914893617,
+      "eval_cer": 0.9816795615591899,
+      "eval_loss": 3.0343146324157715,
+      "eval_runtime": 199.0478,
+      "eval_samples_per_second": 24.924,
+      "eval_steps_per_second": 3.12,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 3.1914893617021276,
+      "eval_cer": 0.9816795615591899,
+      "eval_loss": 3.0101518630981445,
+      "eval_runtime": 204.5797,
+      "eval_samples_per_second": 24.25,
+      "eval_steps_per_second": 3.035,
+      "eval_wer": 1.0,
+      "step": 1200
+    },
+    {
+      "epoch": 3.4574468085106385,
+      "eval_cer": 0.9816882401183755,
+      "eval_loss": 2.992486000061035,
+      "eval_runtime": 198.4427,
+      "eval_samples_per_second": 25.0,
+      "eval_steps_per_second": 3.129,
+      "eval_wer": 1.0,
+      "step": 1300
+    },
+    {
+      "epoch": 3.723404255319149,
+      "eval_cer": 0.9366551965042763,
+      "eval_loss": 2.5595009326934814,
+      "eval_runtime": 208.4363,
+      "eval_samples_per_second": 23.801,
+      "eval_steps_per_second": 2.979,
+      "eval_wer": 1.0,
+      "step": 1400
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "grad_norm": 3.490267515182495,
+      "learning_rate": 3.5903999999999994e-05,
+      "loss": 2.7891,
+      "step": 1500
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "eval_cer": 0.3741760792873167,
+      "eval_loss": 1.5431591272354126,
+      "eval_runtime": 201.614,
+      "eval_samples_per_second": 24.606,
+      "eval_steps_per_second": 3.08,
+      "eval_wer": 1.0,
+      "step": 1500
+    },
+    {
+      "epoch": 4.25531914893617,
+      "eval_cer": 0.2971755629130452,
+      "eval_loss": 1.0799192190170288,
+      "eval_runtime": 201.0045,
+      "eval_samples_per_second": 24.681,
+      "eval_steps_per_second": 3.089,
+      "eval_wer": 1.0,
+      "step": 1600
+    },
+    {
+      "epoch": 4.5212765957446805,
+      "eval_cer": 0.2638846098770682,
+      "eval_loss": 0.8669940829277039,
+      "eval_runtime": 202.8717,
+      "eval_samples_per_second": 24.454,
+      "eval_steps_per_second": 3.061,
+      "eval_wer": 1.0,
+      "step": 1700
+    },
+    {
+      "epoch": 4.787234042553192,
+      "eval_cer": 0.2558742997487557,
+      "eval_loss": 0.7350400686264038,
+      "eval_runtime": 202.705,
+      "eval_samples_per_second": 24.474,
+      "eval_steps_per_second": 3.064,
+      "eval_wer": 1.0,
+      "step": 1800
+    },
+    {
+      "epoch": 5.053191489361702,
+      "eval_cer": 0.24679652684061393,
+      "eval_loss": 0.6753000617027283,
+      "eval_runtime": 206.0047,
+      "eval_samples_per_second": 24.082,
+      "eval_steps_per_second": 3.014,
+      "eval_wer": 1.0,
+      "step": 1900
+    },
+    {
+      "epoch": 5.319148936170213,
+      "grad_norm": 2.341259717941284,
+      "learning_rate": 4.7903999999999994e-05,
+      "loss": 0.9179,
+      "step": 2000
+    },
+    {
+      "epoch": 5.319148936170213,
+      "eval_cer": 0.23886866302456466,
+      "eval_loss": 0.6170761585235596,
+      "eval_runtime": 207.3253,
+      "eval_samples_per_second": 23.929,
+      "eval_steps_per_second": 2.995,
+      "eval_wer": 1.0,
+      "step": 2000
+    },
+    {
+      "epoch": 5.585106382978723,
+      "eval_cer": 0.23860830624899654,
+      "eval_loss": 0.5866126418113708,
+      "eval_runtime": 206.9405,
+      "eval_samples_per_second": 23.973,
+      "eval_steps_per_second": 3.001,
+      "eval_wer": 1.0,
+      "step": 2100
+    },
+    {
+      "epoch": 5.851063829787234,
+      "eval_cer": 0.2389033772613071,
+      "eval_loss": 0.5648585557937622,
+      "eval_runtime": 207.0413,
+      "eval_samples_per_second": 23.961,
+      "eval_steps_per_second": 2.999,
+      "eval_wer": 1.0,
+      "step": 2200
+    },
+    {
+      "epoch": 6.117021276595745,
+      "eval_cer": 0.23212976181694314,
+      "eval_loss": 0.5367811918258667,
+      "eval_runtime": 209.1071,
+      "eval_samples_per_second": 23.725,
+      "eval_steps_per_second": 2.97,
+      "eval_wer": 1.0,
+      "step": 2300
+    },
+    {
+      "epoch": 6.382978723404255,
+      "eval_cer": 0.22887530212234164,
+      "eval_loss": 0.5225070118904114,
+      "eval_runtime": 207.8275,
+      "eval_samples_per_second": 23.871,
+      "eval_steps_per_second": 2.988,
+      "eval_wer": 1.0,
+      "step": 2400
+    },
+    {
+      "epoch": 6.648936170212766,
+      "grad_norm": 3.6773109436035156,
+      "learning_rate": 5.9903999999999994e-05,
+      "loss": 0.563,
+      "step": 2500
+    },
+    {
+      "epoch": 6.648936170212766,
+      "eval_cer": 0.22932224792040026,
+      "eval_loss": 0.5041821002960205,
+      "eval_runtime": 208.2744,
+      "eval_samples_per_second": 23.82,
+      "eval_steps_per_second": 2.982,
+      "eval_wer": 1.0,
+      "step": 2500
+    },
+    {
+      "epoch": 6.914893617021277,
+      "eval_cer": 0.22474864722958696,
+      "eval_loss": 0.4917772710323334,
+      "eval_runtime": 207.9185,
+      "eval_samples_per_second": 23.86,
+      "eval_steps_per_second": 2.987,
+      "eval_wer": 1.0,
+      "step": 2600
+    },
+    {
+      "epoch": 7.180851063829787,
+      "eval_cer": 0.2207608492838019,
+      "eval_loss": 0.48810550570487976,
+      "eval_runtime": 212.2308,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 2.926,
+      "eval_wer": 1.0,
+      "step": 2700
+    },
+    {
+      "epoch": 7.446808510638298,
+      "eval_cer": 0.21984526128972068,
+      "eval_loss": 0.47866183519363403,
+      "eval_runtime": 208.3994,
+      "eval_samples_per_second": 23.805,
+      "eval_steps_per_second": 2.98,
+      "eval_wer": 1.0,
+      "step": 2800
+    },
+    {
+      "epoch": 7.712765957446808,
+      "eval_cer": 0.21810521017300707,
+      "eval_loss": 0.4691566526889801,
+      "eval_runtime": 209.2233,
+      "eval_samples_per_second": 23.712,
+      "eval_steps_per_second": 2.968,
+      "eval_wer": 1.0,
+      "step": 2900
+    },
+    {
+      "epoch": 7.9787234042553195,
+      "grad_norm": 4.193769454956055,
+      "learning_rate": 7.1904e-05,
+      "loss": 0.4453,
+      "step": 3000
+    },
+    {
+      "epoch": 7.9787234042553195,
+      "eval_cer": 0.21508507157641688,
+      "eval_loss": 0.4733445346355438,
+      "eval_runtime": 209.7678,
+      "eval_samples_per_second": 23.65,
+      "eval_steps_per_second": 2.96,
+      "eval_wer": 1.0,
+      "step": 3000
+    },
+    {
+      "epoch": 8.24468085106383,
+      "eval_cer": 0.2146988756926575,
+      "eval_loss": 0.4585338830947876,
+      "eval_runtime": 209.6674,
+      "eval_samples_per_second": 23.661,
+      "eval_steps_per_second": 2.962,
+      "eval_wer": 1.0,
+      "step": 3100
+    },
+    {
+      "epoch": 8.51063829787234,
+      "eval_cer": 0.21156157654706165,
+      "eval_loss": 0.446315199136734,
+      "eval_runtime": 206.8959,
+      "eval_samples_per_second": 23.978,
+      "eval_steps_per_second": 3.002,
+      "eval_wer": 1.0,
+      "step": 3200
+    },
+    {
+      "epoch": 8.77659574468085,
+      "eval_cer": 0.20546054943958203,
+      "eval_loss": 0.41826608777046204,
+      "eval_runtime": 207.5757,
+      "eval_samples_per_second": 23.9,
+      "eval_steps_per_second": 2.992,
+      "eval_wer": 1.0,
+      "step": 3300
+    },
+    {
+      "epoch": 9.042553191489361,
+      "eval_cer": 0.2031954454921394,
+      "eval_loss": 0.43083709478378296,
+      "eval_runtime": 205.6417,
+      "eval_samples_per_second": 24.124,
+      "eval_steps_per_second": 3.02,
+      "eval_wer": 0.9997984277363435,
+      "step": 3400
+    },
+    {
+      "epoch": 9.308510638297872,
+      "grad_norm": 2.33461332321167,
+      "learning_rate": 8.390399999999999e-05,
+      "loss": 0.3596,
+      "step": 3500
+    },
+    {
+      "epoch": 9.308510638297872,
+      "eval_cer": 0.20223212542253735,
+      "eval_loss": 0.4070371687412262,
+      "eval_runtime": 201.8613,
+      "eval_samples_per_second": 24.576,
+      "eval_steps_per_second": 3.076,
+      "eval_wer": 1.0,
+      "step": 3500
+    },
+    {
+      "epoch": 9.574468085106384,
+      "eval_cer": 0.20241871444502785,
+      "eval_loss": 0.42586851119995117,
+      "eval_runtime": 200.832,
+      "eval_samples_per_second": 24.702,
+      "eval_steps_per_second": 3.092,
+      "eval_wer": 1.0,
+      "step": 3600
+    },
+    {
+      "epoch": 9.840425531914894,
+      "eval_cer": 0.198469970015578,
+      "eval_loss": 0.40376514196395874,
+      "eval_runtime": 200.0148,
+      "eval_samples_per_second": 24.803,
+      "eval_steps_per_second": 3.105,
+      "eval_wer": 1.0,
+      "step": 3700
+    },
+    {
+      "epoch": 10.106382978723405,
+      "eval_cer": 0.19764116761335282,
+      "eval_loss": 0.4271981716156006,
+      "eval_runtime": 199.797,
+      "eval_samples_per_second": 24.83,
+      "eval_steps_per_second": 3.108,
+      "eval_wer": 1.0,
+      "step": 3800
+    },
+    {
+      "epoch": 10.372340425531915,
+      "eval_cer": 0.19692084720094769,
+      "eval_loss": 0.39613601565361023,
+      "eval_runtime": 199.8886,
+      "eval_samples_per_second": 24.819,
+      "eval_steps_per_second": 3.107,
+      "eval_wer": 0.9997984277363435,
+      "step": 3900
+    },
+    {
+      "epoch": 10.638297872340425,
+      "grad_norm": 3.095649480819702,
+      "learning_rate": 9.5904e-05,
+      "loss": 0.2945,
+      "step": 4000
+    },
+    {
+      "epoch": 10.638297872340425,
+      "eval_cer": 0.1943172794452665,
+      "eval_loss": 0.4180251955986023,
+      "eval_runtime": 200.3742,
+      "eval_samples_per_second": 24.759,
+      "eval_steps_per_second": 3.099,
+      "eval_wer": 1.0,
+      "step": 4000
+    },
+    {
+      "epoch": 10.904255319148936,
+      "eval_cer": 0.19749363210719756,
+      "eval_loss": 0.39988985657691956,
+      "eval_runtime": 199.7299,
+      "eval_samples_per_second": 24.839,
+      "eval_steps_per_second": 3.109,
+      "eval_wer": 1.0,
+      "step": 4100
+    },
+    {
+      "epoch": 11.170212765957446,
+      "eval_cer": 0.1930458705245755,
+      "eval_loss": 0.38789525628089905,
+      "eval_runtime": 199.5558,
+      "eval_samples_per_second": 24.86,
+      "eval_steps_per_second": 3.112,
+      "eval_wer": 1.0,
+      "step": 4200
+    },
+    {
+      "epoch": 11.436170212765958,
+      "eval_cer": 0.19177880088347732,
+      "eval_loss": 0.3799389600753784,
+      "eval_runtime": 199.3837,
+      "eval_samples_per_second": 24.882,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 1.0,
+      "step": 4300
+    },
+    {
+      "epoch": 11.702127659574469,
+      "eval_cer": 0.19271608527552256,
+      "eval_loss": 0.37643763422966003,
+      "eval_runtime": 200.1267,
+      "eval_samples_per_second": 24.789,
+      "eval_steps_per_second": 3.103,
+      "eval_wer": 0.9997984277363435,
+      "step": 4400
+    },
+    {
+      "epoch": 11.96808510638298,
+      "grad_norm": 3.6549434661865234,
+      "learning_rate": 0.00010790399999999999,
+      "loss": 0.2605,
+      "step": 4500
+    },
+    {
+      "epoch": 11.96808510638298,
+      "eval_cer": 0.19186992575492617,
+      "eval_loss": 0.3724757134914398,
+      "eval_runtime": 200.9023,
+      "eval_samples_per_second": 24.694,
+      "eval_steps_per_second": 3.091,
+      "eval_wer": 1.0,
+      "step": 4500
+    },
+    {
+      "epoch": 12.23404255319149,
+      "eval_cer": 0.19185690791614776,
+      "eval_loss": 0.39096784591674805,
+      "eval_runtime": 200.1369,
+      "eval_samples_per_second": 24.788,
+      "eval_steps_per_second": 3.103,
+      "eval_wer": 1.0,
+      "step": 4600
+    },
+    {
+      "epoch": 12.5,
+      "eval_cer": 0.19075473089957606,
+      "eval_loss": 0.38514742255210876,
+      "eval_runtime": 200.1929,
+      "eval_samples_per_second": 24.781,
+      "eval_steps_per_second": 3.102,
+      "eval_wer": 0.999596855472687,
+      "step": 4700
+    },
+    {
+      "epoch": 12.76595744680851,
+      "eval_cer": 0.19056380259749275,
+      "eval_loss": 0.41147398948669434,
+      "eval_runtime": 200.2674,
+      "eval_samples_per_second": 24.772,
+      "eval_steps_per_second": 3.101,
+      "eval_wer": 1.0,
+      "step": 4800
+    },
+    {
+      "epoch": 13.03191489361702,
+      "eval_cer": 0.18938785782784343,
+      "eval_loss": 0.3779467046260834,
+      "eval_runtime": 200.1481,
+      "eval_samples_per_second": 24.787,
+      "eval_steps_per_second": 3.103,
+      "eval_wer": 1.0,
+      "step": 4900
+    },
+    {
+      "epoch": 13.297872340425531,
+      "grad_norm": 1.6606886386871338,
+      "learning_rate": 0.00011990399999999998,
+      "loss": 0.2223,
+      "step": 5000
+    },
+    {
+      "epoch": 13.297872340425531,
+      "eval_cer": 0.1904336242097087,
+      "eval_loss": 0.3956213593482971,
+      "eval_runtime": 200.0105,
+      "eval_samples_per_second": 24.804,
+      "eval_steps_per_second": 3.105,
+      "eval_wer": 1.0,
+      "step": 5000
+    },
+    {
+      "epoch": 13.563829787234042,
+      "eval_cer": 0.1906809631464984,
+      "eval_loss": 0.4001040756702423,
+      "eval_runtime": 199.9024,
+      "eval_samples_per_second": 24.817,
+      "eval_steps_per_second": 3.107,
+      "eval_wer": 1.0,
+      "step": 5100
+    },
+    {
+      "epoch": 13.829787234042554,
+      "eval_cer": 0.19482931443721713,
+      "eval_loss": 0.389057993888855,
+      "eval_runtime": 199.8841,
+      "eval_samples_per_second": 24.819,
+      "eval_steps_per_second": 3.107,
+      "eval_wer": 1.0,
+      "step": 5200
+    },
+    {
+      "epoch": 14.095744680851064,
+      "eval_cer": 0.19015157103617658,
+      "eval_loss": 0.39397361874580383,
+      "eval_runtime": 199.9667,
+      "eval_samples_per_second": 24.809,
+      "eval_steps_per_second": 3.106,
+      "eval_wer": 1.0,
+      "step": 5300
+    },
+    {
+      "epoch": 14.361702127659575,
+      "eval_cer": 0.19093698064247375,
+      "eval_loss": 0.40559881925582886,
+      "eval_runtime": 199.788,
+      "eval_samples_per_second": 24.831,
+      "eval_steps_per_second": 3.108,
+      "eval_wer": 1.0,
+      "step": 5400
+    },
+    {
+      "epoch": 14.627659574468085,
+      "grad_norm": 2.7307333946228027,
+      "learning_rate": 0.000131904,
+      "loss": 0.211,
+      "step": 5500
+    },
+    {
+      "epoch": 14.627659574468085,
+      "eval_cer": 0.19288965645923464,
+      "eval_loss": 0.39999279379844666,
+      "eval_runtime": 199.9369,
+      "eval_samples_per_second": 24.813,
+      "eval_steps_per_second": 3.106,
+      "eval_wer": 0.9997984277363435,
+      "step": 5500
+    },
+    {
+      "epoch": 14.893617021276595,
+      "eval_cer": 0.18948332197888507,
+      "eval_loss": 0.3925553262233734,
+      "eval_runtime": 199.978,
+      "eval_samples_per_second": 24.808,
+      "eval_steps_per_second": 3.105,
+      "eval_wer": 1.0,
+      "step": 5600
+    },
+    {
+      "epoch": 15.159574468085106,
+      "eval_cer": 0.19304153124498272,
+      "eval_loss": 0.3852066397666931,
+      "eval_runtime": 200.0971,
+      "eval_samples_per_second": 24.793,
+      "eval_steps_per_second": 3.103,
+      "eval_wer": 0.9997984277363435,
+      "step": 5700
+    },
+    {
+      "epoch": 15.425531914893616,
+      "eval_cer": 0.18859376966236066,
+      "eval_loss": 0.3863610327243805,
+      "eval_runtime": 200.0265,
+      "eval_samples_per_second": 24.802,
+      "eval_steps_per_second": 3.105,
+      "eval_wer": 1.0,
+      "step": 5800
+    },
+    {
+      "epoch": 15.691489361702128,
+      "eval_cer": 0.19094131992206653,
+      "eval_loss": 0.3950639069080353,
+      "eval_runtime": 199.4054,
+      "eval_samples_per_second": 24.879,
+      "eval_steps_per_second": 3.114,
+      "eval_wer": 0.9997984277363435,
+      "step": 5900
+    },
+    {
+      "epoch": 15.957446808510639,
+      "grad_norm": 1.9801617860794067,
+      "learning_rate": 0.00014390399999999998,
+      "loss": 0.1983,
+      "step": 6000
+    },
+    {
+      "epoch": 15.957446808510639,
+      "eval_cer": 0.18818153810104446,
+      "eval_loss": 0.39505481719970703,
+      "eval_runtime": 199.6961,
+      "eval_samples_per_second": 24.843,
+      "eval_steps_per_second": 3.11,
+      "eval_wer": 1.0,
+      "step": 6000
+    },
+    {
+      "epoch": 16.22340425531915,
+      "eval_cer": 0.19177012232429172,
+      "eval_loss": 0.4086914360523224,
+      "eval_runtime": 199.9546,
+      "eval_samples_per_second": 24.811,
+      "eval_steps_per_second": 3.106,
+      "eval_wer": 1.0,
+      "step": 6100
+    },
+    {
+      "epoch": 16.48936170212766,
+      "eval_cer": 0.1891188224930897,
+      "eval_loss": 0.41504043340682983,
+      "eval_runtime": 200.5207,
+      "eval_samples_per_second": 24.741,
+      "eval_steps_per_second": 3.097,
+      "eval_wer": 1.0,
+      "step": 6200
+    },
+    {
+      "epoch": 16.75531914893617,
+      "eval_cer": 0.19071133810364804,
+      "eval_loss": 0.40079623460769653,
+      "eval_runtime": 199.571,
+      "eval_samples_per_second": 24.858,
+      "eval_steps_per_second": 3.112,
+      "eval_wer": 0.9997984277363435,
+      "step": 6300
+    },
+    {
+      "epoch": 17.02127659574468,
+      "eval_cer": 0.1943129401656737,
+      "eval_loss": 0.42198607325553894,
+      "eval_runtime": 199.6397,
+      "eval_samples_per_second": 24.85,
+      "eval_steps_per_second": 3.111,
+      "eval_wer": 1.0,
+      "step": 6400
+    },
+    {
+      "epoch": 17.28723404255319,
+      "grad_norm": 2.3918137550354004,
+      "learning_rate": 0.000155904,
+      "loss": 0.1829,
+      "step": 6500
+    },
+    {
+      "epoch": 17.28723404255319,
+      "eval_cer": 0.19249912129588245,
+      "eval_loss": 0.4154324531555176,
+      "eval_runtime": 207.13,
+      "eval_samples_per_second": 23.951,
+      "eval_steps_per_second": 2.998,
+      "eval_wer": 1.0,
+      "step": 6500
+    },
+    {
+      "epoch": 17.5531914893617,
+      "eval_cer": 0.19589677721704643,
+      "eval_loss": 0.448236882686615,
+      "eval_runtime": 199.769,
+      "eval_samples_per_second": 24.834,
+      "eval_steps_per_second": 3.109,
+      "eval_wer": 1.0,
+      "step": 6600
+    },
+    {
+      "epoch": 17.819148936170212,
+      "eval_cer": 0.19394844067987832,
+      "eval_loss": 0.421720415353775,
+      "eval_runtime": 199.7025,
+      "eval_samples_per_second": 24.842,
+      "eval_steps_per_second": 3.11,
+      "eval_wer": 0.9997984277363435,
+      "step": 6700
+    },
+    {
+      "epoch": 18.085106382978722,
+      "eval_cer": 0.19163560465691487,
+      "eval_loss": 0.43830403685569763,
+      "eval_runtime": 198.9477,
+      "eval_samples_per_second": 24.936,
+      "eval_steps_per_second": 3.121,
+      "eval_wer": 0.9997984277363435,
+      "step": 6800
+    },
+    {
+      "epoch": 18.351063829787233,
+      "eval_cer": 0.1925902461673313,
+      "eval_loss": 0.42257052659988403,
+      "eval_runtime": 198.9428,
+      "eval_samples_per_second": 24.937,
+      "eval_steps_per_second": 3.122,
+      "eval_wer": 1.0,
+      "step": 6900
+    },
+    {
+      "epoch": 18.617021276595743,
+      "grad_norm": 2.7391552925109863,
+      "learning_rate": 0.00016790399999999997,
+      "loss": 0.1757,
+      "step": 7000
+    },
+    {
+      "epoch": 18.617021276595743,
+      "eval_cer": 0.19164428321610047,
+      "eval_loss": 0.41704750061035156,
+      "eval_runtime": 205.8394,
+      "eval_samples_per_second": 24.101,
+      "eval_steps_per_second": 3.017,
+      "eval_wer": 0.9997984277363435,
+      "step": 7000
+    },
+    {
+      "epoch": 18.882978723404257,
+      "eval_cer": 0.19180483656103414,
+      "eval_loss": 0.4161529242992401,
+      "eval_runtime": 199.3453,
+      "eval_samples_per_second": 24.886,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 1.0,
+      "step": 7100
+    },
+    {
+      "epoch": 19.148936170212767,
+      "eval_cer": 0.19098905199758737,
+      "eval_loss": 0.43501901626586914,
+      "eval_runtime": 199.3511,
+      "eval_samples_per_second": 24.886,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 0.9997984277363435,
+      "step": 7200
+    },
+    {
+      "epoch": 19.414893617021278,
+      "eval_cer": 0.20221476830416615,
+      "eval_loss": 0.4403385818004608,
+      "eval_runtime": 199.9937,
+      "eval_samples_per_second": 24.806,
+      "eval_steps_per_second": 3.105,
+      "eval_wer": 1.0,
+      "step": 7300
+    },
+    {
+      "epoch": 19.680851063829788,
+      "eval_cer": 0.19435199368200892,
+      "eval_loss": 0.4325474500656128,
+      "eval_runtime": 199.2227,
+      "eval_samples_per_second": 24.902,
+      "eval_steps_per_second": 3.117,
+      "eval_wer": 0.9997984277363435,
+      "step": 7400
+    },
+    {
+      "epoch": 19.9468085106383,
+      "grad_norm": 2.526855707168579,
+      "learning_rate": 0.000179904,
+      "loss": 0.1801,
+      "step": 7500
+    },
+    {
+      "epoch": 19.9468085106383,
+      "eval_cer": 0.19768889968887365,
+      "eval_loss": 0.5487878918647766,
+      "eval_runtime": 199.4843,
+      "eval_samples_per_second": 24.869,
+      "eval_steps_per_second": 3.113,
+      "eval_wer": 1.0,
+      "step": 7500
+    },
+    {
+      "epoch": 20.0,
+      "step": 7520,
+      "total_flos": 1.051128494332674e+19,
+      "train_loss": 1.2840657353401184,
+      "train_runtime": 37969.1145,
+      "train_samples_per_second": 6.338,
+      "train_steps_per_second": 0.198
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7520,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.051128494332674e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}