Aadithyak
/

asr-til-wav2vec

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.082962962962963,
+  "eval_steps": 70,
+  "global_step": 350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005925925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.011851851851851851,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.017777777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 3
+    },
+    {
+      "epoch": 0.023703703703703703,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 4
+    },
+    {
+      "epoch": 0.02962962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.035555555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.04148148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.047407407407407405,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.05925925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.06518518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.07703703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.08296296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.09481481481481481,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.10074074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.11259259259259259,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.11851851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.12444444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.13037037037037036,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.1362962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.15407407407407409,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.16592592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.17185185185185184,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.1837037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.18962962962962962,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.20148148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.2074074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.21925925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.22518518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.23703703703703705,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.24296296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.2548148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.2607407407407407,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.2725925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.2785185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.2903703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.30814814814814817,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.31407407407407406,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.32592592592592595,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.33185185185185184,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.3437037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.3496296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.36148148148148146,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.3674074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.3851851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.397037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.40296296296296297,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.4088888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.4148148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.4148148148148148,
+      "eval_loss": 40297.44140625,
+      "eval_runtime": 63.992,
+      "eval_samples_per_second": 7.032,
+      "eval_steps_per_second": 1.172,
+      "eval_wer": 1.0381992969974168,
+      "step": 70
+    },
+    {
+      "epoch": 0.42074074074074075,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.4325925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.43851851851851853,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.45037037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.4562962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.4622222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.46814814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.4740740740740741,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.48592592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.4918518518518519,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.49777777777777776,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.5037037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.5096296296296297,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.5155555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.5214814814814814,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.5274074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.5392592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.5451851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.5511111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.557037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.562962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.5748148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.5807407407407408,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.5985185185185186,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.6044444444444445,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.6103703703703703,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.6162962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.6281481481481481,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.6340740740740741,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.6459259259259259,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.6518518518518519,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.6577777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.6637037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.6696296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.6755555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.6814814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.6874074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.6992592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.7051851851851851,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.717037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.7229629629629629,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.7288888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.7348148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.7525925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.7644444444444445,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.7703703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.7762962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.7881481481481482,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.794074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.8059259259259259,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.8118518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.8177777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.8237037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.8296296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.8296296296296296,
+      "eval_loss": 40297.44140625,
+      "eval_runtime": 63.7847,
+      "eval_samples_per_second": 7.055,
+      "eval_steps_per_second": 1.176,
+      "eval_wer": 1.0381992969974168,
+      "step": 140
+    },
+    {
+      "epoch": 0.8355555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.8414814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.8474074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.8592592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.8651851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.8711111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.8770370370370371,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.882962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.8948148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.9007407407407407,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.9125925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 154
+    },
+    {
+      "epoch": 0.9185185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.9244444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.9303703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 157
+    },
+    {
+      "epoch": 0.9362962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 158
+    },
+    {
+      "epoch": 0.9422222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.9540740740740741,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 161
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.965925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 163
+    },
+    {
+      "epoch": 0.9718518518518519,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 164
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.9837037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 166
+    },
+    {
+      "epoch": 0.9896296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 167
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 1.005925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 169
+    },
+    {
+      "epoch": 1.0118518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.0177777777777777,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 1.0237037037037038,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 172
+    },
+    {
+      "epoch": 1.0296296296296297,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 173
+    },
+    {
+      "epoch": 1.0355555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 1.0414814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 175
+    },
+    {
+      "epoch": 1.0474074074074073,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 1.0533333333333332,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 1.0592592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 1.0651851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 1.0711111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.077037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 1.082962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 1.0888888888888888,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 1.094814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 1.1007407407407408,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 1.1066666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 1.1125925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 1.1185185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 1.1244444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 1.1303703703703705,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.1362962962962964,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 1.1422222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 1.1481481481481481,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 1.154074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 1.1659259259259258,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 1.171851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 1.1777777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 1.1837037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 1.1896296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.1955555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 201
+    },
+    {
+      "epoch": 1.2014814814814816,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 202
+    },
+    {
+      "epoch": 1.2074074074074075,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 203
+    },
+    {
+      "epoch": 1.2133333333333334,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 1.2192592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 205
+    },
+    {
+      "epoch": 1.2251851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 206
+    },
+    {
+      "epoch": 1.231111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 1.237037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 208
+    },
+    {
+      "epoch": 1.242962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 209
+    },
+    {
+      "epoch": 1.248888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.248888888888889,
+      "eval_loss": 40297.44140625,
+      "eval_runtime": 64.5029,
+      "eval_samples_per_second": 6.976,
+      "eval_steps_per_second": 1.163,
+      "eval_wer": 1.0381992969974168,
+      "step": 210
+    },
+    {
+      "epoch": 1.2548148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 211
+    },
+    {
+      "epoch": 1.2607407407407407,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 212
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 213
+    },
+    {
+      "epoch": 1.2725925925925927,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 214
+    },
+    {
+      "epoch": 1.2785185185185184,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 215
+    },
+    {
+      "epoch": 1.2844444444444445,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 216
+    },
+    {
+      "epoch": 1.2903703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 217
+    },
+    {
+      "epoch": 1.2962962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 218
+    },
+    {
+      "epoch": 1.3022222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 219
+    },
+    {
+      "epoch": 1.308148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.3140740740740742,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 221
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 222
+    },
+    {
+      "epoch": 1.325925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 223
+    },
+    {
+      "epoch": 1.3318518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 224
+    },
+    {
+      "epoch": 1.3377777777777777,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 225
+    },
+    {
+      "epoch": 1.3437037037037036,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 226
+    },
+    {
+      "epoch": 1.3496296296296295,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 227
+    },
+    {
+      "epoch": 1.3555555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 228
+    },
+    {
+      "epoch": 1.3614814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 229
+    },
+    {
+      "epoch": 1.3674074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.3733333333333333,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 1.3792592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 232
+    },
+    {
+      "epoch": 1.3851851851851853,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 233
+    },
+    {
+      "epoch": 1.3911111111111112,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 1.397037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 235
+    },
+    {
+      "epoch": 1.402962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 236
+    },
+    {
+      "epoch": 1.4088888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 1.4148148148148147,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 238
+    },
+    {
+      "epoch": 1.4207407407407406,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 239
+    },
+    {
+      "epoch": 1.4266666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 1.4325925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 241
+    },
+    {
+      "epoch": 1.4385185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 242
+    },
+    {
+      "epoch": 1.4444444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 1.4503703703703703,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 244
+    },
+    {
+      "epoch": 1.4562962962962964,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 245
+    },
+    {
+      "epoch": 1.462222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 1.4681481481481482,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 247
+    },
+    {
+      "epoch": 1.474074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 248
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 1.4859259259259259,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.4918518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 251
+    },
+    {
+      "epoch": 1.4977777777777779,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 1.5037037037037035,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 253
+    },
+    {
+      "epoch": 1.5096296296296297,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 1.5155555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 1.5214814814814814,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 1.5274074074074075,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 257
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 1.5392592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 259
+    },
+    {
+      "epoch": 1.5451851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 1.551111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 1.557037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 1.5629629629629629,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 263
+    },
+    {
+      "epoch": 1.568888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 1.5748148148148147,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 265
+    },
+    {
+      "epoch": 1.5807407407407408,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 266
+    },
+    {
+      "epoch": 1.5866666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 1.5925925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 1.5985185185185187,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 269
+    },
+    {
+      "epoch": 1.6044444444444443,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 1.6103703703703705,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 271
+    },
+    {
+      "epoch": 1.6162962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 1.6222222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 1.6281481481481481,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 1.634074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 275
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 1.6459259259259258,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 277
+    },
+    {
+      "epoch": 1.651851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 1.6577777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 1.6637037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 1.6637037037037037,
+      "eval_loss": 40297.44140625,
+      "eval_runtime": 64.363,
+      "eval_samples_per_second": 6.992,
+      "eval_steps_per_second": 1.165,
+      "eval_wer": 1.0381992969974168,
+      "step": 280
+    },
+    {
+      "epoch": 1.6696296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 281
+    },
+    {
+      "epoch": 1.6755555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 1.6814814814814816,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 283
+    },
+    {
+      "epoch": 1.6874074074074072,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 1.6933333333333334,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 1.6992592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 1.7051851851851851,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 287
+    },
+    {
+      "epoch": 1.7111111111111112,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 1.717037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 289
+    },
+    {
+      "epoch": 1.722962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 1.728888888888889,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 1.7348148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 1.7407407407407407,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 293
+    },
+    {
+      "epoch": 1.7466666666666666,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 1.7525925925925927,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 1.7585185185185184,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 1.7644444444444445,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 1.7703703703703704,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 1.7762962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 299
+    },
+    {
+      "epoch": 1.7822222222222224,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.788148148148148,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 301
+    },
+    {
+      "epoch": 1.7940740740740742,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 303
+    },
+    {
+      "epoch": 1.805925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 304
+    },
+    {
+      "epoch": 1.8118518518518518,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 305
+    },
+    {
+      "epoch": 1.8177777777777777,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 1.8237037037037038,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 307
+    },
+    {
+      "epoch": 1.8296296296296295,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 308
+    },
+    {
+      "epoch": 1.8355555555555556,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 309
+    },
+    {
+      "epoch": 1.8414814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 1.8474074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 311
+    },
+    {
+      "epoch": 1.8533333333333335,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 1.8592592592592592,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 313
+    },
+    {
+      "epoch": 1.8651851851851853,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 314
+    },
+    {
+      "epoch": 1.871111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 315
+    },
+    {
+      "epoch": 1.877037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 316
+    },
+    {
+      "epoch": 1.882962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 317
+    },
+    {
+      "epoch": 1.8888888888888888,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 1.894814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 319
+    },
+    {
+      "epoch": 1.9007407407407406,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 320
+    },
+    {
+      "epoch": 1.9066666666666667,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 321
+    },
+    {
+      "epoch": 1.9125925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 322
+    },
+    {
+      "epoch": 1.9185185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 323
+    },
+    {
+      "epoch": 1.9244444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 324
+    },
+    {
+      "epoch": 1.9303703703703703,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 325
+    },
+    {
+      "epoch": 1.9362962962962964,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 326
+    },
+    {
+      "epoch": 1.942222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 327
+    },
+    {
+      "epoch": 1.9481481481481482,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 328
+    },
+    {
+      "epoch": 1.954074074074074,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 329
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 1.965925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 331
+    },
+    {
+      "epoch": 1.9718518518518517,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 332
+    },
+    {
+      "epoch": 1.9777777777777779,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 333
+    },
+    {
+      "epoch": 1.9837037037037037,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 334
+    },
+    {
+      "epoch": 1.9896296296296296,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 335
+    },
+    {
+      "epoch": 1.9955555555555555,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 336
+    },
+    {
+      "epoch": 2.005925925925926,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 337
+    },
+    {
+      "epoch": 2.011851851851852,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 338
+    },
+    {
+      "epoch": 2.017777777777778,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 339
+    },
+    {
+      "epoch": 2.0237037037037036,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 340
+    },
+    {
+      "epoch": 2.0296296296296297,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 341
+    },
+    {
+      "epoch": 2.0355555555555553,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 342
+    },
+    {
+      "epoch": 2.0414814814814815,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 343
+    },
+    {
+      "epoch": 2.0474074074074076,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 344
+    },
+    {
+      "epoch": 2.0533333333333332,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 345
+    },
+    {
+      "epoch": 2.0592592592592593,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 346
+    },
+    {
+      "epoch": 2.065185185185185,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 347
+    },
+    {
+      "epoch": 2.071111111111111,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 348
+    },
+    {
+      "epoch": 2.0770370370370372,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 349
+    },
+    {
+      "epoch": 2.082962962962963,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 350
+    },
+    {
+      "epoch": 2.082962962962963,
+      "eval_loss": 40297.44140625,
+      "eval_runtime": 64.6431,
+      "eval_samples_per_second": 6.961,
+      "eval_steps_per_second": 1.16,
+      "eval_wer": 1.0381992969974168,
+      "step": 350
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1008,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 70,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.885106114810622e+18,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}