ctaguchi
/

ikema-asr-indomain

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/wav2vec2-xls-r-300m](https://huggingface.co/facebook/wav2vec2-xls-r-300m) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.4788
-- Cer: 0.4792
 ## Model description
@@ -45,48 +45,84 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
-- num_epochs: 50
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch   | Step | Validation Loss | Cer    |
 |:-------------:|:-------:|:----:|:---------------:|:------:|
-| 11.3907       | 1.3916  | 100  | 3.8605          | 0.9907 |
-| 3.9297        | 2.7832  | 200  | 3.8235          | 0.9905 |
-| 4.2491        | 4.1678  | 300  | 3.8157          | 0.9907 |
-| 3.8734        | 5.5594  | 400  | 3.7852          | 0.9903 |
-| 3.828         | 6.9510  | 500  | 3.8629          | 0.9901 |
-| 3.7617        | 8.3357  | 600  | 3.7294          | 0.9903 |
-| 3.7543        | 9.7273  | 700  | 3.6791          | 0.9907 |
-| 3.6727        | 11.1119 | 800  | 3.6882          | 0.9901 |
-| 3.6469        | 12.5035 | 900  | 3.6921          | 0.9907 |
-| 3.6337        | 13.8951 | 1000 | 3.6389          | 0.9897 |
-| 3.5753        | 15.2797 | 1100 | 3.5900          | 0.9870 |
-| 3.5827        | 16.6713 | 1200 | 3.5274          | 0.9697 |
-| 3.4855        | 18.0559 | 1300 | 3.4092          | 0.9661 |
-| 3.4311        | 19.4476 | 1400 | 3.3445          | 0.9744 |
-| 3.3671        | 20.8392 | 1500 | 3.2508          | 0.9647 |
-| 3.2572        | 22.2238 | 1600 | 3.1160          | 0.9697 |
-| 3.1242        | 23.6154 | 1700 | 2.8400          | 0.9538 |
-| 2.9165        | 25.0    | 1800 | 2.5780          | 0.8658 |
-| 2.677         | 26.3916 | 1900 | 2.2887          | 0.7663 |
-| 2.4528        | 27.7832 | 2000 | 2.0577          | 0.7150 |
-| 2.2515        | 29.1678 | 2100 | 1.8437          | 0.7130 |
-| 2.0648        | 30.5594 | 2200 | 1.7249          | 0.6420 |
-| 1.9139        | 31.9510 | 2300 | 1.7222          | 0.6655 |
-| 1.7839        | 33.3357 | 2400 | 1.5456          | 0.5844 |
-| 1.6434        | 34.7273 | 2500 | 1.5248          | 0.5709 |
-| 1.518         | 36.1119 | 2600 | 1.3946          | 0.5243 |
-| 1.4163        | 37.5035 | 2700 | 1.3937          | 0.5369 |
-| 1.3139        | 38.8951 | 2800 | 1.4023          | 0.5115 |
-| 1.2228        | 40.2797 | 2900 | 1.3532          | 0.5061 |
-| 1.126         | 41.6713 | 3000 | 1.4181          | 0.4991 |
-| 1.0416        | 43.0559 | 3100 | 1.4076          | 0.4900 |
-| 0.9605        | 44.4476 | 3200 | 1.4472          | 0.4923 |
-| 0.9086        | 45.8392 | 3300 | 1.4480          | 0.4846 |
-| 0.8519        | 47.2238 | 3400 | 1.4582          | 0.4811 |
-| 0.8244        | 48.6154 | 3500 | 1.4674          | 0.4832 |
 ### Framework versions

 This model is a fine-tuned version of [facebook/wav2vec2-xls-r-300m](https://huggingface.co/facebook/wav2vec2-xls-r-300m) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6104
+- Cer: 0.3521
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
+- num_epochs: 100
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch   | Step | Validation Loss | Cer    |
 |:-------------:|:-------:|:----:|:---------------:|:------:|
+| 11.1682       | 1.3916  | 100  | 3.8553          | 0.9903 |
+| 3.9311        | 2.7832  | 200  | 3.8241          | 0.9903 |
+| 3.8623        | 4.1678  | 300  | 3.7760          | 0.9903 |
+| 3.7693        | 5.5594  | 400  | 3.6686          | 0.9903 |
+| 3.671         | 6.9510  | 500  | 3.5900          | 0.9893 |
+| 3.5618        | 8.3357  | 600  | 3.5169          | 0.9713 |
+| 3.4994        | 9.7273  | 700  | 3.3552          | 0.9699 |
+| 3.3323        | 11.1119 | 800  | 3.1385          | 0.9540 |
+| 3.163         | 12.5035 | 900  | 2.9224          | 0.9186 |
+| 2.7901        | 13.8951 | 1000 | 2.1802          | 0.7828 |
+| 2.3425        | 15.2797 | 1100 | 1.8406          | 0.6529 |
+| 2.0608        | 16.6713 | 1200 | 1.6505          | 0.6329 |
+| 1.8813        | 18.0559 | 1300 | 1.4769          | 0.5715 |
+| 1.6705        | 19.4476 | 1400 | 1.4793          | 0.5581 |
+| 1.558         | 20.8392 | 1500 | 1.3079          | 0.4970 |
+| 1.4213        | 22.2238 | 1600 | 1.3552          | 0.4947 |
+| 1.3122        | 23.6154 | 1700 | 1.2368          | 0.4355 |
+| 1.2303        | 25.0    | 1800 | 1.2108          | 0.4347 |
+| 1.1152        | 26.3916 | 1900 | 1.2177          | 0.4307 |
+| 1.0441        | 27.7832 | 2000 | 1.3236          | 0.4291 |
+| 0.9626        | 29.1678 | 2100 | 1.2738          | 0.4157 |
+| 0.8987        | 30.5594 | 2200 | 1.2683          | 0.4190 |
+| 0.8367        | 31.9510 | 2300 | 1.2570          | 0.4144 |
+| 0.7617        | 33.3357 | 2400 | 1.2331          | 0.3876 |
+| 0.7069        | 34.7273 | 2500 | 1.3284          | 0.4037 |
+| 0.6874        | 36.1119 | 2600 | 1.2948          | 0.3818 |
+| 0.6615        | 37.5035 | 2700 | 1.2998          | 0.3977 |
+| 0.6086        | 38.8951 | 2800 | 1.3369          | 0.3758 |
+| 0.5804        | 40.2797 | 2900 | 1.2815          | 0.3838 |
+| 0.548         | 41.6713 | 3000 | 1.3390          | 0.3766 |
+| 0.5239        | 43.0559 | 3100 | 1.2572          | 0.3673 |
+| 0.4983        | 44.4476 | 3200 | 1.2955          | 0.3671 |
+| 0.4793        | 45.8392 | 3300 | 1.3563          | 0.3729 |
+| 0.438         | 47.2238 | 3400 | 1.4153          | 0.3915 |
+| 0.4274        | 48.6154 | 3500 | 1.3198          | 0.3663 |
+| 0.4064        | 50.0    | 3600 | 1.4351          | 0.3814 |
+| 0.3812        | 51.3916 | 3700 | 1.3514          | 0.3620 |
+| 0.3753        | 52.7832 | 3800 | 1.3715          | 0.3492 |
+| 0.3549        | 54.1678 | 3900 | 1.4133          | 0.3649 |
+| 0.3262        | 55.5594 | 4000 | 1.4260          | 0.3574 |
+| 0.3296        | 56.9510 | 4100 | 1.5134          | 0.3552 |
+| 0.3136        | 58.3357 | 4200 | 1.4696          | 0.3587 |
+| 0.3009        | 59.7273 | 4300 | 1.4326          | 0.3554 |
+| 0.2764        | 61.1119 | 4400 | 1.4486          | 0.3572 |
+| 0.2738        | 62.5035 | 4500 | 1.4463          | 0.3593 |
+| 0.2574        | 63.8951 | 4600 | 1.4303          | 0.3583 |
+| 0.2397        | 65.2797 | 4700 | 1.4538          | 0.3446 |
+| 0.2474        | 66.6713 | 4800 | 1.4416          | 0.3496 |
+| 0.2212        | 68.0559 | 4900 | 1.4766          | 0.3448 |
+| 0.2173        | 69.4476 | 5000 | 1.4785          | 0.3496 |
+| 0.2138        | 70.8392 | 5100 | 1.4859          | 0.3582 |
+| 0.2037        | 72.2238 | 5200 | 1.5022          | 0.3500 |
+| 0.194         | 73.6154 | 5300 | 1.4964          | 0.3490 |
+| 0.1758        | 75.0    | 5400 | 1.5645          | 0.3552 |
+| 0.1693        | 76.3916 | 5500 | 1.5215          | 0.3492 |
+| 0.1682        | 77.7832 | 5600 | 1.5572          | 0.3436 |
+| 0.1616        | 79.1678 | 5700 | 1.4971          | 0.3461 |
+| 0.1625        | 80.5594 | 5800 | 1.5327          | 0.3516 |
+| 0.1432        | 81.9510 | 5900 | 1.5595          | 0.3506 |
+| 0.1348        | 83.3357 | 6000 | 1.5562          | 0.3483 |
+| 0.137         | 84.7273 | 6100 | 1.5902          | 0.3485 |
+| 0.1263        | 86.1119 | 6200 | 1.5853          | 0.3521 |
+| 0.1271        | 87.5035 | 6300 | 1.5977          | 0.3488 |
+| 0.123         | 88.8951 | 6400 | 1.6024          | 0.3498 |
+| 0.117         | 90.2797 | 6500 | 1.6093          | 0.3535 |
+| 0.1077        | 91.6713 | 6600 | 1.5807          | 0.3519 |
+| 0.1072        | 93.0559 | 6700 | 1.5801          | 0.3477 |
+| 0.1063        | 94.4476 | 6800 | 1.5894          | 0.3502 |
+| 0.103         | 95.8392 | 6900 | 1.6027          | 0.3498 |
+| 0.1032        | 97.2238 | 7000 | 1.6034          | 0.3485 |
+| 0.0971        | 98.6154 | 7100 | 1.6104          | 0.3481 |
 ### Framework versions

trainer_state.json CHANGED Viewed

@@ -2,596 +2,1172 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 49.30769230769231,
   "eval_steps": 100,
-  "global_step": 3550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.3916083916083917,
-      "grad_norm": 0.7624934315681458,
       "learning_rate": 0.000285,
-      "loss": 11.3907,
       "step": 100
     },
     {
       "epoch": 1.3916083916083917,
-      "eval_cer": 0.9906922629435718,
-      "eval_loss": 3.860499858856201,
-      "eval_runtime": 6.194,
-      "eval_samples_per_second": 46.013,
-      "eval_steps_per_second": 5.812,
       "step": 100
     },
     {
       "epoch": 2.7832167832167833,
-      "grad_norm": 1.6113464832305908,
-      "learning_rate": 0.0002917391304347826,
-      "loss": 3.9297,
       "step": 200
     },
     {
       "epoch": 2.7832167832167833,
-      "eval_cer": 0.9904983517548963,
-      "eval_loss": 3.823500871658325,
-      "eval_runtime": 6.1712,
-      "eval_samples_per_second": 46.183,
-      "eval_steps_per_second": 5.834,
       "step": 200
     },
     {
       "epoch": 4.1678321678321675,
-      "grad_norm": 1.4047558307647705,
-      "learning_rate": 0.0002832173913043478,
-      "loss": 4.2491,
       "step": 300
     },
     {
       "epoch": 4.1678321678321675,
-      "eval_cer": 0.9906922629435718,
-      "eval_loss": 3.8156750202178955,
-      "eval_runtime": 6.1466,
-      "eval_samples_per_second": 46.367,
-      "eval_steps_per_second": 5.857,
       "step": 300
     },
     {
       "epoch": 5.559440559440559,
-      "grad_norm": 3.071784734725952,
-      "learning_rate": 0.00027452173913043476,
-      "loss": 3.8734,
       "step": 400
     },
     {
       "epoch": 5.559440559440559,
       "eval_cer": 0.9903044405662207,
-      "eval_loss": 3.7851691246032715,
-      "eval_runtime": 6.1459,
-      "eval_samples_per_second": 46.372,
-      "eval_steps_per_second": 5.858,
       "step": 400
     },
     {
       "epoch": 6.951048951048951,
-      "grad_norm": 1.3413110971450806,
-      "learning_rate": 0.0002658260869565217,
-      "loss": 3.828,
       "step": 500
     },
     {
       "epoch": 6.951048951048951,
-      "eval_cer": 0.9901105293775451,
-      "eval_loss": 3.8628756999969482,
-      "eval_runtime": 6.1561,
-      "eval_samples_per_second": 46.295,
-      "eval_steps_per_second": 5.848,
       "step": 500
     },
     {
       "epoch": 8.335664335664335,
-      "grad_norm": 0.5281479358673096,
-      "learning_rate": 0.0002571304347826087,
-      "loss": 3.7617,
       "step": 600
     },
     {
       "epoch": 8.335664335664335,
-      "eval_cer": 0.9903044405662207,
-      "eval_loss": 3.7293624877929688,
-      "eval_runtime": 6.1456,
-      "eval_samples_per_second": 46.375,
-      "eval_steps_per_second": 5.858,
       "step": 600
     },
     {
       "epoch": 9.727272727272727,
-      "grad_norm": 0.4040379226207733,
-      "learning_rate": 0.00024843478260869564,
-      "loss": 3.7543,
       "step": 700
     },
     {
       "epoch": 9.727272727272727,
-      "eval_cer": 0.9906922629435718,
-      "eval_loss": 3.679058790206909,
-      "eval_runtime": 6.1345,
-      "eval_samples_per_second": 46.458,
-      "eval_steps_per_second": 5.868,
       "step": 700
     },
     {
       "epoch": 11.111888111888112,
-      "grad_norm": 0.8422073721885681,
-      "learning_rate": 0.0002397391304347826,
-      "loss": 3.6727,
       "step": 800
     },
     {
       "epoch": 11.111888111888112,
-      "eval_cer": 0.9901105293775451,
-      "eval_loss": 3.6882212162017822,
-      "eval_runtime": 6.1414,
-      "eval_samples_per_second": 46.406,
-      "eval_steps_per_second": 5.862,
       "step": 800
     },
     {
       "epoch": 12.503496503496503,
-      "grad_norm": 2.574584484100342,
-      "learning_rate": 0.00023104347826086955,
-      "loss": 3.6469,
       "step": 900
     },
     {
       "epoch": 12.503496503496503,
-      "eval_cer": 0.9906922629435718,
-      "eval_loss": 3.6921467781066895,
-      "eval_runtime": 6.0896,
-      "eval_samples_per_second": 46.801,
-      "eval_steps_per_second": 5.912,
       "step": 900
     },
     {
       "epoch": 13.895104895104895,
-      "grad_norm": 0.901987612247467,
-      "learning_rate": 0.00022234782608695648,
-      "loss": 3.6337,
       "step": 1000
     },
     {
       "epoch": 13.895104895104895,
-      "eval_cer": 0.9897227070001939,
-      "eval_loss": 3.638920307159424,
-      "eval_runtime": 6.0087,
-      "eval_samples_per_second": 47.432,
-      "eval_steps_per_second": 5.991,
       "step": 1000
     },
     {
       "epoch": 15.27972027972028,
-      "grad_norm": 0.6472112536430359,
-      "learning_rate": 0.00021365217391304344,
-      "loss": 3.5753,
       "step": 1100
     },
     {
       "epoch": 15.27972027972028,
-      "eval_cer": 0.9870079503587357,
-      "eval_loss": 3.5900485515594482,
-      "eval_runtime": 6.0832,
-      "eval_samples_per_second": 46.85,
-      "eval_steps_per_second": 5.918,
       "step": 1100
     },
     {
       "epoch": 16.67132867132867,
-      "grad_norm": 0.6265191435813904,
-      "learning_rate": 0.00020495652173913042,
-      "loss": 3.5827,
       "step": 1200
     },
     {
       "epoch": 16.67132867132867,
-      "eval_cer": 0.9697498545666084,
-      "eval_loss": 3.5273666381835938,
-      "eval_runtime": 6.0422,
-      "eval_samples_per_second": 47.168,
-      "eval_steps_per_second": 5.958,
       "step": 1200
     },
     {
       "epoch": 18.055944055944057,
-      "grad_norm": 0.3403220772743225,
-      "learning_rate": 0.00019626086956521738,
-      "loss": 3.4855,
       "step": 1300
     },
     {
       "epoch": 18.055944055944057,
-      "eval_cer": 0.9660655419817723,
-      "eval_loss": 3.4091908931732178,
-      "eval_runtime": 6.0742,
-      "eval_samples_per_second": 46.92,
-      "eval_steps_per_second": 5.927,
       "step": 1300
     },
     {
       "epoch": 19.447552447552447,
-      "grad_norm": 1.162210464477539,
-      "learning_rate": 0.00018756521739130434,
-      "loss": 3.4311,
       "step": 1400
     },
     {
       "epoch": 19.447552447552447,
-      "eval_cer": 0.9744037230948226,
-      "eval_loss": 3.344524383544922,
-      "eval_runtime": 6.0671,
-      "eval_samples_per_second": 46.974,
-      "eval_steps_per_second": 5.934,
       "step": 1400
     },
     {
       "epoch": 20.83916083916084,
-      "grad_norm": 0.8258137702941895,
-      "learning_rate": 0.0001788695652173913,
-      "loss": 3.3671,
       "step": 1500
     },
     {
       "epoch": 20.83916083916084,
-      "eval_cer": 0.9647081636610433,
-      "eval_loss": 3.2508041858673096,
-      "eval_runtime": 6.0386,
-      "eval_samples_per_second": 47.196,
-      "eval_steps_per_second": 5.962,
       "step": 1500
     },
     {
       "epoch": 22.223776223776223,
-      "grad_norm": 1.6096532344818115,
-      "learning_rate": 0.00017017391304347825,
-      "loss": 3.2572,
       "step": 1600
     },
     {
       "epoch": 22.223776223776223,
-      "eval_cer": 0.9697498545666084,
-      "eval_loss": 3.1160073280334473,
-      "eval_runtime": 6.0443,
-      "eval_samples_per_second": 47.152,
-      "eval_steps_per_second": 5.956,
       "step": 1600
     },
     {
       "epoch": 23.615384615384617,
-      "grad_norm": 1.1651092767715454,
-      "learning_rate": 0.00016147826086956518,
-      "loss": 3.1242,
       "step": 1700
     },
     {
       "epoch": 23.615384615384617,
-      "eval_cer": 0.9538491370952104,
-      "eval_loss": 2.8400416374206543,
-      "eval_runtime": 6.0687,
-      "eval_samples_per_second": 46.962,
-      "eval_steps_per_second": 5.932,
       "step": 1700
     },
     {
       "epoch": 25.0,
-      "grad_norm": 1.9780901670455933,
-      "learning_rate": 0.00015278260869565217,
-      "loss": 2.9165,
       "step": 1800
     },
     {
       "epoch": 25.0,
-      "eval_cer": 0.8658134574364941,
-      "eval_loss": 2.5779905319213867,
-      "eval_runtime": 6.0337,
-      "eval_samples_per_second": 47.235,
-      "eval_steps_per_second": 5.967,
       "step": 1800
     },
     {
       "epoch": 26.39160839160839,
-      "grad_norm": 1.7610468864440918,
-      "learning_rate": 0.00014408695652173912,
-      "loss": 2.677,
       "step": 1900
     },
     {
       "epoch": 26.39160839160839,
-      "eval_cer": 0.7663370176459182,
-      "eval_loss": 2.2887232303619385,
-      "eval_runtime": 6.0359,
-      "eval_samples_per_second": 47.218,
-      "eval_steps_per_second": 5.964,
       "step": 1900
     },
     {
       "epoch": 27.783216783216783,
-      "grad_norm": 1.3860621452331543,
-      "learning_rate": 0.00013539130434782608,
-      "loss": 2.4528,
       "step": 2000
     },
     {
       "epoch": 27.783216783216783,
-      "eval_cer": 0.7149505526468877,
-      "eval_loss": 2.057708501815796,
-      "eval_runtime": 6.0733,
-      "eval_samples_per_second": 46.927,
-      "eval_steps_per_second": 5.928,
       "step": 2000
     },
     {
       "epoch": 29.167832167832167,
-      "grad_norm": 1.6301653385162354,
-      "learning_rate": 0.00012669565217391304,
-      "loss": 2.2515,
       "step": 2100
     },
     {
       "epoch": 29.167832167832167,
-      "eval_cer": 0.7130114407601319,
-      "eval_loss": 1.8436604738235474,
-      "eval_runtime": 6.0686,
-      "eval_samples_per_second": 46.963,
-      "eval_steps_per_second": 5.932,
       "step": 2100
     },
     {
       "epoch": 30.55944055944056,
-      "grad_norm": 2.4235737323760986,
-      "learning_rate": 0.00011799999999999998,
-      "loss": 2.0648,
       "step": 2200
     },
     {
       "epoch": 30.55944055944056,
-      "eval_cer": 0.6420399457048672,
-      "eval_loss": 1.7248642444610596,
-      "eval_runtime": 6.056,
-      "eval_samples_per_second": 47.061,
-      "eval_steps_per_second": 5.944,
       "step": 2200
     },
     {
       "epoch": 31.95104895104895,
-      "grad_norm": 5.94592809677124,
-      "learning_rate": 0.00010930434782608695,
-      "loss": 1.9139,
       "step": 2300
     },
     {
       "epoch": 31.95104895104895,
-      "eval_cer": 0.6655031995346131,
-      "eval_loss": 1.7222360372543335,
-      "eval_runtime": 6.0486,
-      "eval_samples_per_second": 47.119,
-      "eval_steps_per_second": 5.952,
       "step": 2300
     },
     {
       "epoch": 33.33566433566433,
-      "grad_norm": 2.144540309906006,
-      "learning_rate": 0.00010060869565217391,
-      "loss": 1.7839,
       "step": 2400
     },
     {
       "epoch": 33.33566433566433,
-      "eval_cer": 0.584448322668218,
-      "eval_loss": 1.5456085205078125,
-      "eval_runtime": 6.0417,
-      "eval_samples_per_second": 47.172,
-      "eval_steps_per_second": 5.959,
       "step": 2400
     },
     {
       "epoch": 34.72727272727273,
-      "grad_norm": 2.905297040939331,
-      "learning_rate": 9.191304347826085e-05,
-      "loss": 1.6434,
       "step": 2500
     },
     {
       "epoch": 34.72727272727273,
-      "eval_cer": 0.5708745394609269,
-      "eval_loss": 1.5248050689697266,
-      "eval_runtime": 6.0519,
-      "eval_samples_per_second": 47.092,
-      "eval_steps_per_second": 5.949,
       "step": 2500
     },
     {
       "epoch": 36.11188811188811,
-      "grad_norm": 2.356537103652954,
-      "learning_rate": 8.321739130434782e-05,
-      "loss": 1.518,
       "step": 2600
     },
     {
       "epoch": 36.11188811188811,
-      "eval_cer": 0.5243358541787861,
-      "eval_loss": 1.394640564918518,
-      "eval_runtime": 6.0483,
-      "eval_samples_per_second": 47.121,
-      "eval_steps_per_second": 5.952,
       "step": 2600
     },
     {
       "epoch": 37.50349650349651,
-      "grad_norm": 1.8658636808395386,
-      "learning_rate": 7.452173913043478e-05,
-      "loss": 1.4163,
       "step": 2700
     },
     {
       "epoch": 37.50349650349651,
-      "eval_cer": 0.5369400814426992,
-      "eval_loss": 1.3937088251113892,
-      "eval_runtime": 6.0582,
-      "eval_samples_per_second": 47.044,
-      "eval_steps_per_second": 5.942,
       "step": 2700
     },
     {
       "epoch": 38.89510489510489,
-      "grad_norm": 2.7042293548583984,
-      "learning_rate": 6.582608695652174e-05,
-      "loss": 1.3139,
       "step": 2800
     },
     {
       "epoch": 38.89510489510489,
-      "eval_cer": 0.5115377157261974,
-      "eval_loss": 1.4022786617279053,
-      "eval_runtime": 6.0783,
-      "eval_samples_per_second": 46.888,
-      "eval_steps_per_second": 5.923,
       "step": 2800
     },
     {
       "epoch": 40.27972027972028,
-      "grad_norm": 2.1998214721679688,
-      "learning_rate": 5.713043478260869e-05,
-      "loss": 1.2228,
       "step": 2900
     },
     {
       "epoch": 40.27972027972028,
-      "eval_cer": 0.506108202443281,
-      "eval_loss": 1.3531999588012695,
-      "eval_runtime": 6.0558,
-      "eval_samples_per_second": 47.063,
-      "eval_steps_per_second": 5.945,
       "step": 2900
     },
     {
       "epoch": 41.67132867132867,
-      "grad_norm": 3.541335105895996,
-      "learning_rate": 4.8434782608695647e-05,
-      "loss": 1.126,
       "step": 3000
     },
     {
       "epoch": 41.67132867132867,
-      "eval_cer": 0.49912739965095987,
-      "eval_loss": 1.418116569519043,
-      "eval_runtime": 6.0781,
-      "eval_samples_per_second": 46.889,
-      "eval_steps_per_second": 5.923,
       "step": 3000
     },
     {
       "epoch": 43.05594405594405,
-      "grad_norm": 1.7935446500778198,
-      "learning_rate": 3.9739130434782604e-05,
-      "loss": 1.0416,
       "step": 3100
     },
     {
       "epoch": 43.05594405594405,
-      "eval_cer": 0.4900135737832073,
-      "eval_loss": 1.4075652360916138,
-      "eval_runtime": 6.0943,
-      "eval_samples_per_second": 46.765,
-      "eval_steps_per_second": 5.907,
       "step": 3100
     },
     {
       "epoch": 44.44755244755245,
-      "grad_norm": 4.2039570808410645,
-      "learning_rate": 3.104347826086956e-05,
-      "loss": 0.9605,
       "step": 3200
     },
     {
       "epoch": 44.44755244755245,
-      "eval_cer": 0.49234050804731433,
-      "eval_loss": 1.4471503496170044,
-      "eval_runtime": 6.0413,
-      "eval_samples_per_second": 47.175,
-      "eval_steps_per_second": 5.959,
       "step": 3200
     },
     {
       "epoch": 45.83916083916084,
-      "grad_norm": 2.918208360671997,
-      "learning_rate": 2.2347826086956522e-05,
-      "loss": 0.9086,
       "step": 3300
     },
     {
       "epoch": 45.83916083916084,
-      "eval_cer": 0.48458406050029085,
-      "eval_loss": 1.4480254650115967,
-      "eval_runtime": 6.0766,
-      "eval_samples_per_second": 46.901,
-      "eval_steps_per_second": 5.924,
       "step": 3300
     },
     {
       "epoch": 47.22377622377623,
-      "grad_norm": 6.653832912445068,
-      "learning_rate": 1.3652173913043477e-05,
-      "loss": 0.8519,
       "step": 3400
     },
     {
       "epoch": 47.22377622377623,
-      "eval_cer": 0.4810936591041303,
-      "eval_loss": 1.458249568939209,
-      "eval_runtime": 6.0299,
-      "eval_samples_per_second": 47.264,
-      "eval_steps_per_second": 5.97,
       "step": 3400
     },
     {
       "epoch": 48.61538461538461,
-      "grad_norm": 2.209395408630371,
-      "learning_rate": 4.956521739130434e-06,
-      "loss": 0.8244,
       "step": 3500
     },
     {
       "epoch": 48.61538461538461,
-      "eval_cer": 0.4832266821795618,
-      "eval_loss": 1.4674257040023804,
-      "eval_runtime": 6.064,
-      "eval_samples_per_second": 46.998,
-      "eval_steps_per_second": 5.937,
       "step": 3500
     },
     {
-      "epoch": 49.30769230769231,
-      "step": 3550,
-      "total_flos": 7.824800015175002e+18,
-      "train_loss": 2.784584909358495,
-      "train_runtime": 4913.0254,
-      "train_samples_per_second": 23.214,
-      "train_steps_per_second": 0.723
     },
     {
-      "epoch": 49.30769230769231,
-      "eval_cer": 0.47915454721737444,
-      "eval_loss": 1.4787533283233643,
-      "eval_runtime": 6.0551,
-      "eval_samples_per_second": 47.068,
-      "eval_steps_per_second": 5.945,
-      "step": 3550
     }
   ],
   "logging_steps": 100,
-  "max_steps": 3550,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 50,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -605,7 +1181,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.824800015175002e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 98.61538461538461,
   "eval_steps": 100,
+  "global_step": 7100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.3916083916083917,
+      "grad_norm": 0.7105618119239807,
       "learning_rate": 0.000285,
+      "loss": 11.1682,
       "step": 100
     },
     {
       "epoch": 1.3916083916083917,
+      "eval_cer": 0.9903044405662207,
+      "eval_loss": 3.855257987976074,
+      "eval_runtime": 6.2271,
+      "eval_samples_per_second": 45.768,
+      "eval_steps_per_second": 5.781,
       "step": 100
     },
     {
       "epoch": 2.7832167832167833,
+      "grad_norm": 1.5593620538711548,
+      "learning_rate": 0.0002959285714285714,
+      "loss": 3.9311,
       "step": 200
     },
     {
       "epoch": 2.7832167832167833,
+      "eval_cer": 0.9903044405662207,
+      "eval_loss": 3.8240556716918945,
+      "eval_runtime": 6.1912,
+      "eval_samples_per_second": 46.033,
+      "eval_steps_per_second": 5.815,
       "step": 200
     },
     {
       "epoch": 4.1678321678321675,
+      "grad_norm": 1.5898423194885254,
+      "learning_rate": 0.0002916428571428571,
+      "loss": 3.8623,
       "step": 300
     },
     {
       "epoch": 4.1678321678321675,
+      "eval_cer": 0.9903044405662207,
+      "eval_loss": 3.7760262489318848,
+      "eval_runtime": 6.1779,
+      "eval_samples_per_second": 46.132,
+      "eval_steps_per_second": 5.827,
       "step": 300
     },
     {
       "epoch": 5.559440559440559,
+      "grad_norm": 2.1614158153533936,
+      "learning_rate": 0.00028735714285714286,
+      "loss": 3.7693,
       "step": 400
     },
     {
       "epoch": 5.559440559440559,
       "eval_cer": 0.9903044405662207,
+      "eval_loss": 3.668625831604004,
+      "eval_runtime": 6.1599,
+      "eval_samples_per_second": 46.267,
+      "eval_steps_per_second": 5.844,
       "step": 400
     },
     {
       "epoch": 6.951048951048951,
+      "grad_norm": 1.3560220003128052,
+      "learning_rate": 0.00028307142857142854,
+      "loss": 3.671,
       "step": 500
     },
     {
       "epoch": 6.951048951048951,
+      "eval_cer": 0.9893348846228427,
+      "eval_loss": 3.590017080307007,
+      "eval_runtime": 6.1396,
+      "eval_samples_per_second": 46.42,
+      "eval_steps_per_second": 5.864,
       "step": 500
     },
     {
       "epoch": 8.335664335664335,
+      "grad_norm": 1.1032301187515259,
+      "learning_rate": 0.00027878571428571427,
+      "loss": 3.5618,
       "step": 600
     },
     {
       "epoch": 8.335664335664335,
+      "eval_cer": 0.9713011440760132,
+      "eval_loss": 3.5168509483337402,
+      "eval_runtime": 6.166,
+      "eval_samples_per_second": 46.221,
+      "eval_steps_per_second": 5.838,
       "step": 600
     },
     {
       "epoch": 9.727272727272727,
+      "grad_norm": 1.4139310121536255,
+      "learning_rate": 0.0002745,
+      "loss": 3.4994,
       "step": 700
     },
     {
       "epoch": 9.727272727272727,
+      "eval_cer": 0.9699437657552841,
+      "eval_loss": 3.3551578521728516,
+      "eval_runtime": 6.1552,
+      "eval_samples_per_second": 46.302,
+      "eval_steps_per_second": 5.849,
       "step": 700
     },
     {
       "epoch": 11.111888111888112,
+      "grad_norm": 0.8385369777679443,
+      "learning_rate": 0.0002702142857142857,
+      "loss": 3.3323,
       "step": 800
     },
     {
       "epoch": 11.111888111888112,
+      "eval_cer": 0.954043048283886,
+      "eval_loss": 3.138484001159668,
+      "eval_runtime": 6.0631,
+      "eval_samples_per_second": 47.005,
+      "eval_steps_per_second": 5.938,
       "step": 800
     },
     {
       "epoch": 12.503496503496503,
+      "grad_norm": 3.5932364463806152,
+      "learning_rate": 0.0002659285714285714,
+      "loss": 3.163,
       "step": 900
     },
     {
       "epoch": 12.503496503496503,
+      "eval_cer": 0.9185573007562536,
+      "eval_loss": 2.9224491119384766,
+      "eval_runtime": 6.0879,
+      "eval_samples_per_second": 46.814,
+      "eval_steps_per_second": 5.913,
       "step": 900
     },
     {
       "epoch": 13.895104895104895,
+      "grad_norm": 1.8399698734283447,
+      "learning_rate": 0.0002616428571428571,
+      "loss": 2.7901,
       "step": 1000
     },
     {
       "epoch": 13.895104895104895,
+      "eval_cer": 0.7828194686833431,
+      "eval_loss": 2.180238723754883,
+      "eval_runtime": 6.0259,
+      "eval_samples_per_second": 47.296,
+      "eval_steps_per_second": 5.974,
       "step": 1000
     },
     {
       "epoch": 15.27972027972028,
+      "grad_norm": 1.625369668006897,
+      "learning_rate": 0.00025735714285714283,
+      "loss": 2.3425,
       "step": 1100
     },
     {
       "epoch": 15.27972027972028,
+      "eval_cer": 0.6528989722707,
+      "eval_loss": 1.8405641317367554,
+      "eval_runtime": 6.0991,
+      "eval_samples_per_second": 46.728,
+      "eval_steps_per_second": 5.903,
       "step": 1100
     },
     {
       "epoch": 16.67132867132867,
+      "grad_norm": 2.625293016433716,
+      "learning_rate": 0.0002530714285714285,
+      "loss": 2.0608,
       "step": 1200
     },
     {
       "epoch": 16.67132867132867,
+      "eval_cer": 0.6329261198371146,
+      "eval_loss": 1.6505399942398071,
+      "eval_runtime": 6.1263,
+      "eval_samples_per_second": 46.52,
+      "eval_steps_per_second": 5.876,
       "step": 1200
     },
     {
       "epoch": 18.055944055944057,
+      "grad_norm": 1.92220139503479,
+      "learning_rate": 0.00024878571428571425,
+      "loss": 1.8813,
       "step": 1300
     },
     {
       "epoch": 18.055944055944057,
+      "eval_cer": 0.5714562730269537,
+      "eval_loss": 1.4768792390823364,
+      "eval_runtime": 6.1089,
+      "eval_samples_per_second": 46.653,
+      "eval_steps_per_second": 5.893,
       "step": 1300
     },
     {
       "epoch": 19.447552447552447,
+      "grad_norm": 3.1366982460021973,
+      "learning_rate": 0.0002445,
+      "loss": 1.6705,
       "step": 1400
     },
     {
       "epoch": 19.447552447552447,
+      "eval_cer": 0.5580764010083382,
+      "eval_loss": 1.479285478591919,
+      "eval_runtime": 6.1149,
+      "eval_samples_per_second": 46.608,
+      "eval_steps_per_second": 5.887,
       "step": 1400
     },
     {
       "epoch": 20.83916083916084,
+      "grad_norm": 2.116931200027466,
+      "learning_rate": 0.0002402142857142857,
+      "loss": 1.558,
       "step": 1500
     },
     {
       "epoch": 20.83916083916084,
+      "eval_cer": 0.4969943765755284,
+      "eval_loss": 1.3079291582107544,
+      "eval_runtime": 6.0774,
+      "eval_samples_per_second": 46.895,
+      "eval_steps_per_second": 5.924,
       "step": 1500
     },
     {
       "epoch": 22.223776223776223,
+      "grad_norm": 4.369190692901611,
+      "learning_rate": 0.00023592857142857142,
+      "loss": 1.4213,
       "step": 1600
     },
     {
       "epoch": 22.223776223776223,
+      "eval_cer": 0.49466744231142135,
+      "eval_loss": 1.3551599979400635,
+      "eval_runtime": 6.1085,
+      "eval_samples_per_second": 46.657,
+      "eval_steps_per_second": 5.893,
       "step": 1600
     },
     {
       "epoch": 23.615384615384617,
+      "grad_norm": 2.938127279281616,
+      "learning_rate": 0.00023164285714285713,
+      "loss": 1.3122,
       "step": 1700
     },
     {
       "epoch": 23.615384615384617,
+      "eval_cer": 0.4355245297653675,
+      "eval_loss": 1.236782431602478,
+      "eval_runtime": 6.1138,
+      "eval_samples_per_second": 46.616,
+      "eval_steps_per_second": 5.888,
       "step": 1700
     },
     {
       "epoch": 25.0,
+      "grad_norm": 4.156201362609863,
+      "learning_rate": 0.00022735714285714286,
+      "loss": 1.2303,
       "step": 1800
     },
     {
       "epoch": 25.0,
+      "eval_cer": 0.4347488850106651,
+      "eval_loss": 1.210758924484253,
+      "eval_runtime": 6.0871,
+      "eval_samples_per_second": 46.82,
+      "eval_steps_per_second": 5.914,
       "step": 1800
     },
     {
       "epoch": 26.39160839160839,
+      "grad_norm": 3.738050937652588,
+      "learning_rate": 0.00022307142857142854,
+      "loss": 1.1152,
       "step": 1900
     },
     {
       "epoch": 26.39160839160839,
+      "eval_cer": 0.4306767500484778,
+      "eval_loss": 1.2177391052246094,
+      "eval_runtime": 6.1061,
+      "eval_samples_per_second": 46.674,
+      "eval_steps_per_second": 5.896,
       "step": 1900
     },
     {
       "epoch": 27.783216783216783,
+      "grad_norm": 3.721745014190674,
+      "learning_rate": 0.00021878571428571428,
+      "loss": 1.0441,
       "step": 2000
     },
     {
       "epoch": 27.783216783216783,
+      "eval_cer": 0.4291254605390731,
+      "eval_loss": 1.3235960006713867,
+      "eval_runtime": 6.0708,
+      "eval_samples_per_second": 46.946,
+      "eval_steps_per_second": 5.93,
       "step": 2000
     },
     {
       "epoch": 29.167832167832167,
+      "grad_norm": 2.746555805206299,
+      "learning_rate": 0.00021449999999999998,
+      "loss": 0.9626,
       "step": 2100
     },
     {
       "epoch": 29.167832167832167,
+      "eval_cer": 0.4157455885204576,
+      "eval_loss": 1.2737609148025513,
+      "eval_runtime": 6.1093,
+      "eval_samples_per_second": 46.65,
+      "eval_steps_per_second": 5.893,
       "step": 2100
     },
     {
       "epoch": 30.55944055944056,
+      "grad_norm": 2.8237345218658447,
+      "learning_rate": 0.0002102142857142857,
+      "loss": 0.8987,
       "step": 2200
     },
     {
       "epoch": 30.55944055944056,
+      "eval_cer": 0.4190420787279426,
+      "eval_loss": 1.2683167457580566,
+      "eval_runtime": 6.1368,
+      "eval_samples_per_second": 46.441,
+      "eval_steps_per_second": 5.866,
       "step": 2200
     },
     {
       "epoch": 31.95104895104895,
+      "grad_norm": 5.561631679534912,
+      "learning_rate": 0.0002059285714285714,
+      "loss": 0.8367,
       "step": 2300
     },
     {
       "epoch": 31.95104895104895,
+      "eval_cer": 0.41438821019972855,
+      "eval_loss": 1.2570189237594604,
+      "eval_runtime": 6.095,
+      "eval_samples_per_second": 46.76,
+      "eval_steps_per_second": 5.906,
       "step": 2300
     },
     {
       "epoch": 33.33566433566433,
+      "grad_norm": 1.7682024240493774,
+      "learning_rate": 0.00020164285714285713,
+      "loss": 0.7617,
       "step": 2400
     },
     {
       "epoch": 33.33566433566433,
+      "eval_cer": 0.3876284661624976,
+      "eval_loss": 1.233074426651001,
+      "eval_runtime": 6.0871,
+      "eval_samples_per_second": 46.821,
+      "eval_steps_per_second": 5.914,
       "step": 2400
     },
     {
       "epoch": 34.72727272727273,
+      "grad_norm": 3.293351888656616,
+      "learning_rate": 0.00019735714285714284,
+      "loss": 0.7069,
       "step": 2500
     },
     {
       "epoch": 34.72727272727273,
+      "eval_cer": 0.40372309482257124,
+      "eval_loss": 1.328414797782898,
+      "eval_runtime": 6.0987,
+      "eval_samples_per_second": 46.731,
+      "eval_steps_per_second": 5.903,
       "step": 2500
     },
     {
       "epoch": 36.11188811188811,
+      "grad_norm": 1.8948358297348022,
+      "learning_rate": 0.00019307142857142854,
+      "loss": 0.6874,
       "step": 2600
     },
     {
       "epoch": 36.11188811188811,
+      "eval_cer": 0.38181113050223,
+      "eval_loss": 1.2947708368301392,
+      "eval_runtime": 6.0589,
+      "eval_samples_per_second": 47.038,
+      "eval_steps_per_second": 5.942,
       "step": 2600
     },
     {
       "epoch": 37.50349650349651,
+      "grad_norm": 2.3135173320770264,
+      "learning_rate": 0.00018878571428571428,
+      "loss": 0.6615,
       "step": 2700
     },
     {
       "epoch": 37.50349650349651,
+      "eval_cer": 0.3977118479736281,
+      "eval_loss": 1.299822211265564,
+      "eval_runtime": 6.0553,
+      "eval_samples_per_second": 47.066,
+      "eval_steps_per_second": 5.945,
       "step": 2700
     },
     {
       "epoch": 38.89510489510489,
+      "grad_norm": 8.07669448852539,
+      "learning_rate": 0.00018449999999999999,
+      "loss": 0.6086,
       "step": 2800
     },
     {
       "epoch": 38.89510489510489,
+      "eval_cer": 0.3757998836532868,
+      "eval_loss": 1.3369208574295044,
+      "eval_runtime": 6.0593,
+      "eval_samples_per_second": 47.035,
+      "eval_steps_per_second": 5.941,
       "step": 2800
     },
     {
       "epoch": 40.27972027972028,
+      "grad_norm": 2.3282470703125,
+      "learning_rate": 0.00018021428571428572,
+      "loss": 0.5804,
       "step": 2900
     },
     {
       "epoch": 40.27972027972028,
+      "eval_cer": 0.38375024238898586,
+      "eval_loss": 1.2814927101135254,
+      "eval_runtime": 6.0834,
+      "eval_samples_per_second": 46.849,
+      "eval_steps_per_second": 5.918,
       "step": 2900
     },
     {
       "epoch": 41.67132867132867,
+      "grad_norm": 5.158154010772705,
+      "learning_rate": 0.0001759285714285714,
+      "loss": 0.548,
       "step": 3000
     },
     {
       "epoch": 41.67132867132867,
+      "eval_cer": 0.37657552840798914,
+      "eval_loss": 1.3390411138534546,
+      "eval_runtime": 6.0871,
+      "eval_samples_per_second": 46.82,
+      "eval_steps_per_second": 5.914,
       "step": 3000
     },
     {
       "epoch": 43.05594405594405,
+      "grad_norm": 1.2800214290618896,
+      "learning_rate": 0.00017164285714285713,
+      "loss": 0.5239,
       "step": 3100
     },
     {
       "epoch": 43.05594405594405,
+      "eval_cer": 0.367267791351561,
+      "eval_loss": 1.257192850112915,
+      "eval_runtime": 6.0964,
+      "eval_samples_per_second": 46.749,
+      "eval_steps_per_second": 5.905,
       "step": 3100
     },
     {
       "epoch": 44.44755244755245,
+      "grad_norm": 4.9716010093688965,
+      "learning_rate": 0.00016735714285714284,
+      "loss": 0.4983,
       "step": 3200
     },
     {
       "epoch": 44.44755244755245,
+      "eval_cer": 0.3670738801628854,
+      "eval_loss": 1.295488715171814,
+      "eval_runtime": 6.034,
+      "eval_samples_per_second": 47.232,
+      "eval_steps_per_second": 5.966,
       "step": 3200
     },
     {
       "epoch": 45.83916083916084,
+      "grad_norm": 2.536774158477783,
+      "learning_rate": 0.0001631142857142857,
+      "loss": 0.4793,
       "step": 3300
     },
     {
       "epoch": 45.83916083916084,
+      "eval_cer": 0.372891215823153,
+      "eval_loss": 1.3562514781951904,
+      "eval_runtime": 6.0912,
+      "eval_samples_per_second": 46.789,
+      "eval_steps_per_second": 5.91,
       "step": 3300
     },
     {
       "epoch": 47.22377622377623,
+      "grad_norm": 3.6583845615386963,
+      "learning_rate": 0.00015882857142857142,
+      "loss": 0.438,
       "step": 3400
     },
     {
       "epoch": 47.22377622377623,
+      "eval_cer": 0.3915066899360093,
+      "eval_loss": 1.415280818939209,
+      "eval_runtime": 6.0618,
+      "eval_samples_per_second": 47.016,
+      "eval_steps_per_second": 5.939,
       "step": 3400
     },
     {
       "epoch": 48.61538461538461,
+      "grad_norm": 2.472052574157715,
+      "learning_rate": 0.00015454285714285712,
+      "loss": 0.4274,
       "step": 3500
     },
     {
       "epoch": 48.61538461538461,
+      "eval_cer": 0.36629823540818307,
+      "eval_loss": 1.319765567779541,
+      "eval_runtime": 6.1106,
+      "eval_samples_per_second": 46.64,
+      "eval_steps_per_second": 5.891,
       "step": 3500
     },
     {
+      "epoch": 50.0,
+      "grad_norm": 7.336581707000732,
+      "learning_rate": 0.00015025714285714286,
+      "loss": 0.4064,
+      "step": 3600
     },
     {
+      "epoch": 50.0,
+      "eval_cer": 0.3814233081248788,
+      "eval_loss": 1.4350632429122925,
+      "eval_runtime": 6.098,
+      "eval_samples_per_second": 46.736,
+      "eval_steps_per_second": 5.904,
+      "step": 3600
+    },
+    {
+      "epoch": 51.39160839160839,
+      "grad_norm": 2.7026124000549316,
+      "learning_rate": 0.00014597142857142856,
+      "loss": 0.3812,
+      "step": 3700
+    },
+    {
+      "epoch": 51.39160839160839,
+      "eval_cer": 0.36203218925732017,
+      "eval_loss": 1.351439356803894,
+      "eval_runtime": 6.0572,
+      "eval_samples_per_second": 47.051,
+      "eval_steps_per_second": 5.943,
+      "step": 3700
+    },
+    {
+      "epoch": 52.78321678321678,
+      "grad_norm": 1.425048589706421,
+      "learning_rate": 0.00014168571428571427,
+      "loss": 0.3753,
+      "step": 3800
+    },
+    {
+      "epoch": 52.78321678321678,
+      "eval_cer": 0.3492340508047314,
+      "eval_loss": 1.3715204000473022,
+      "eval_runtime": 6.0504,
+      "eval_samples_per_second": 47.104,
+      "eval_steps_per_second": 5.95,
+      "step": 3800
+    },
+    {
+      "epoch": 54.16783216783217,
+      "grad_norm": 2.945066452026367,
+      "learning_rate": 0.0001374,
+      "loss": 0.3549,
+      "step": 3900
+    },
+    {
+      "epoch": 54.16783216783217,
+      "eval_cer": 0.36494085708745394,
+      "eval_loss": 1.4132966995239258,
+      "eval_runtime": 6.0971,
+      "eval_samples_per_second": 46.743,
+      "eval_steps_per_second": 5.904,
+      "step": 3900
+    },
+    {
+      "epoch": 55.55944055944056,
+      "grad_norm": 1.2087554931640625,
+      "learning_rate": 0.0001331142857142857,
+      "loss": 0.3262,
+      "step": 4000
+    },
+    {
+      "epoch": 55.55944055944056,
+      "eval_cer": 0.3573783207291061,
+      "eval_loss": 1.4259963035583496,
+      "eval_runtime": 6.0615,
+      "eval_samples_per_second": 47.018,
+      "eval_steps_per_second": 5.939,
+      "step": 4000
+    },
+    {
+      "epoch": 56.95104895104895,
+      "grad_norm": 6.813267230987549,
+      "learning_rate": 0.00012882857142857142,
+      "loss": 0.3296,
+      "step": 4100
+    },
+    {
+      "epoch": 56.95104895104895,
+      "eval_cer": 0.35524529765367463,
+      "eval_loss": 1.5134129524230957,
+      "eval_runtime": 6.0512,
+      "eval_samples_per_second": 47.098,
+      "eval_steps_per_second": 5.949,
+      "step": 4100
+    },
+    {
+      "epoch": 58.33566433566433,
+      "grad_norm": 1.582381248474121,
+      "learning_rate": 0.00012454285714285713,
+      "loss": 0.3136,
+      "step": 4200
+    },
+    {
+      "epoch": 58.33566433566433,
+      "eval_cer": 0.35873569904983515,
+      "eval_loss": 1.4695625305175781,
+      "eval_runtime": 6.0851,
+      "eval_samples_per_second": 46.836,
+      "eval_steps_per_second": 5.916,
+      "step": 4200
+    },
+    {
+      "epoch": 59.72727272727273,
+      "grad_norm": 0.9694690108299255,
+      "learning_rate": 0.00012025714285714285,
+      "loss": 0.3009,
+      "step": 4300
+    },
+    {
+      "epoch": 59.72727272727273,
+      "eval_cer": 0.3554392088423502,
+      "eval_loss": 1.432596206665039,
+      "eval_runtime": 6.0669,
+      "eval_samples_per_second": 46.976,
+      "eval_steps_per_second": 5.934,
+      "step": 4300
+    },
+    {
+      "epoch": 61.11188811188811,
+      "grad_norm": 1.6826478242874146,
+      "learning_rate": 0.00011597142857142855,
+      "loss": 0.2764,
+      "step": 4400
+    },
+    {
+      "epoch": 61.11188811188811,
+      "eval_cer": 0.35718440954043046,
+      "eval_loss": 1.4485613107681274,
+      "eval_runtime": 6.0638,
+      "eval_samples_per_second": 47.0,
+      "eval_steps_per_second": 5.937,
+      "step": 4400
+    },
+    {
+      "epoch": 62.50349650349651,
+      "grad_norm": 1.2600972652435303,
+      "learning_rate": 0.00011168571428571427,
+      "loss": 0.2738,
+      "step": 4500
+    },
+    {
+      "epoch": 62.50349650349651,
+      "eval_cer": 0.3593174326158619,
+      "eval_loss": 1.446284294128418,
+      "eval_runtime": 6.0798,
+      "eval_samples_per_second": 46.876,
+      "eval_steps_per_second": 5.921,
+      "step": 4500
+    },
+    {
+      "epoch": 63.89510489510489,
+      "grad_norm": 2.8400301933288574,
+      "learning_rate": 0.00010739999999999998,
+      "loss": 0.2574,
+      "step": 4600
+    },
+    {
+      "epoch": 63.89510489510489,
+      "eval_cer": 0.358347876672484,
+      "eval_loss": 1.4303468465805054,
+      "eval_runtime": 6.1117,
+      "eval_samples_per_second": 46.632,
+      "eval_steps_per_second": 5.89,
+      "step": 4600
+    },
+    {
+      "epoch": 65.27972027972028,
+      "grad_norm": 1.22808039188385,
+      "learning_rate": 0.0001031142857142857,
+      "loss": 0.2397,
+      "step": 4700
+    },
+    {
+      "epoch": 65.27972027972028,
+      "eval_cer": 0.3445801822765174,
+      "eval_loss": 1.4538311958312988,
+      "eval_runtime": 6.0831,
+      "eval_samples_per_second": 46.851,
+      "eval_steps_per_second": 5.918,
+      "step": 4700
+    },
+    {
+      "epoch": 66.67132867132867,
+      "grad_norm": 1.9458190202713013,
+      "learning_rate": 9.882857142857141e-05,
+      "loss": 0.2474,
+      "step": 4800
+    },
+    {
+      "epoch": 66.67132867132867,
+      "eval_cer": 0.3496218731820826,
+      "eval_loss": 1.4416499137878418,
+      "eval_runtime": 6.1066,
+      "eval_samples_per_second": 46.671,
+      "eval_steps_per_second": 5.895,
+      "step": 4800
+    },
+    {
+      "epoch": 68.05594405594405,
+      "grad_norm": 1.5397316217422485,
+      "learning_rate": 9.454285714285714e-05,
+      "loss": 0.2212,
+      "step": 4900
+    },
+    {
+      "epoch": 68.05594405594405,
+      "eval_cer": 0.34477409346519294,
+      "eval_loss": 1.476562738418579,
+      "eval_runtime": 6.125,
+      "eval_samples_per_second": 46.53,
+      "eval_steps_per_second": 5.878,
+      "step": 4900
+    },
+    {
+      "epoch": 69.44755244755245,
+      "grad_norm": 4.152817249298096,
+      "learning_rate": 9.025714285714285e-05,
+      "loss": 0.2173,
+      "step": 5000
+    },
+    {
+      "epoch": 69.44755244755245,
+      "eval_cer": 0.3496218731820826,
+      "eval_loss": 1.4784653186798096,
+      "eval_runtime": 6.0989,
+      "eval_samples_per_second": 46.73,
+      "eval_steps_per_second": 5.903,
+      "step": 5000
+    },
+    {
+      "epoch": 70.83916083916084,
+      "grad_norm": 1.8647962808609009,
+      "learning_rate": 8.597142857142857e-05,
+      "loss": 0.2138,
+      "step": 5100
+    },
+    {
+      "epoch": 70.83916083916084,
+      "eval_cer": 0.3581539654838084,
+      "eval_loss": 1.4859139919281006,
+      "eval_runtime": 6.0911,
+      "eval_samples_per_second": 46.79,
+      "eval_steps_per_second": 5.91,
+      "step": 5100
+    },
+    {
+      "epoch": 72.22377622377623,
+      "grad_norm": 6.688198089599609,
+      "learning_rate": 8.168571428571428e-05,
+      "loss": 0.2037,
+      "step": 5200
+    },
+    {
+      "epoch": 72.22377622377623,
+      "eval_cer": 0.3500096955594338,
+      "eval_loss": 1.5022231340408325,
+      "eval_runtime": 6.1063,
+      "eval_samples_per_second": 46.673,
+      "eval_steps_per_second": 5.896,
+      "step": 5200
+    },
+    {
+      "epoch": 73.61538461538461,
+      "grad_norm": 2.6784660816192627,
+      "learning_rate": 7.74e-05,
+      "loss": 0.194,
+      "step": 5300
+    },
+    {
+      "epoch": 73.61538461538461,
+      "eval_cer": 0.34904013961605584,
+      "eval_loss": 1.4964337348937988,
+      "eval_runtime": 6.0868,
+      "eval_samples_per_second": 46.823,
+      "eval_steps_per_second": 5.914,
+      "step": 5300
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 2.1717565059661865,
+      "learning_rate": 7.31142857142857e-05,
+      "loss": 0.1758,
+      "step": 5400
+    },
+    {
+      "epoch": 75.0,
+      "eval_cer": 0.35524529765367463,
+      "eval_loss": 1.5645275115966797,
+      "eval_runtime": 6.0591,
+      "eval_samples_per_second": 47.037,
+      "eval_steps_per_second": 5.941,
+      "step": 5400
+    },
+    {
+      "epoch": 76.39160839160839,
+      "grad_norm": 3.3418147563934326,
+      "learning_rate": 6.882857142857142e-05,
+      "loss": 0.1693,
+      "step": 5500
+    },
+    {
+      "epoch": 76.39160839160839,
+      "eval_cer": 0.3492340508047314,
+      "eval_loss": 1.5214943885803223,
+      "eval_runtime": 6.0965,
+      "eval_samples_per_second": 46.748,
+      "eval_steps_per_second": 5.905,
+      "step": 5500
+    },
+    {
+      "epoch": 77.78321678321679,
+      "grad_norm": 1.1721317768096924,
+      "learning_rate": 6.454285714285713e-05,
+      "loss": 0.1682,
+      "step": 5600
+    },
+    {
+      "epoch": 77.78321678321679,
+      "eval_cer": 0.34361062633313944,
+      "eval_loss": 1.557164192199707,
+      "eval_runtime": 6.0786,
+      "eval_samples_per_second": 46.886,
+      "eval_steps_per_second": 5.922,
+      "step": 5600
+    },
+    {
+      "epoch": 79.16783216783217,
+      "grad_norm": 1.2348577976226807,
+      "learning_rate": 6.0257142857142846e-05,
+      "loss": 0.1616,
+      "step": 5700
+    },
+    {
+      "epoch": 79.16783216783217,
+      "eval_cer": 0.3461314717859221,
+      "eval_loss": 1.497072696685791,
+      "eval_runtime": 6.0713,
+      "eval_samples_per_second": 46.942,
+      "eval_steps_per_second": 5.93,
+      "step": 5700
+    },
+    {
+      "epoch": 80.55944055944056,
+      "grad_norm": 1.101247787475586,
+      "learning_rate": 5.597142857142857e-05,
+      "loss": 0.1625,
+      "step": 5800
+    },
+    {
+      "epoch": 80.55944055944056,
+      "eval_cer": 0.3515609850688385,
+      "eval_loss": 1.5326788425445557,
+      "eval_runtime": 6.0886,
+      "eval_samples_per_second": 46.809,
+      "eval_steps_per_second": 5.913,
+      "step": 5800
+    },
+    {
+      "epoch": 81.95104895104895,
+      "grad_norm": 4.953105449676514,
+      "learning_rate": 5.168571428571428e-05,
+      "loss": 0.1432,
+      "step": 5900
+    },
+    {
+      "epoch": 81.95104895104895,
+      "eval_cer": 0.35059142912546054,
+      "eval_loss": 1.5595433712005615,
+      "eval_runtime": 6.078,
+      "eval_samples_per_second": 46.89,
+      "eval_steps_per_second": 5.923,
+      "step": 5900
+    },
+    {
+      "epoch": 83.33566433566433,
+      "grad_norm": 1.2514948844909668,
+      "learning_rate": 4.7399999999999993e-05,
+      "loss": 0.1348,
+      "step": 6000
+    },
+    {
+      "epoch": 83.33566433566433,
+      "eval_cer": 0.3482644948613535,
+      "eval_loss": 1.556195616722107,
+      "eval_runtime": 6.0756,
+      "eval_samples_per_second": 46.909,
+      "eval_steps_per_second": 5.925,
+      "step": 6000
+    },
+    {
+      "epoch": 84.72727272727273,
+      "grad_norm": 0.5957698225975037,
+      "learning_rate": 4.311428571428571e-05,
+      "loss": 0.137,
+      "step": 6100
+    },
+    {
+      "epoch": 84.72727272727273,
+      "eval_cer": 0.3484584060500291,
+      "eval_loss": 1.590181827545166,
+      "eval_runtime": 6.0761,
+      "eval_samples_per_second": 46.905,
+      "eval_steps_per_second": 5.925,
+      "step": 6100
+    },
+    {
+      "epoch": 86.1118881118881,
+      "grad_norm": 2.8553950786590576,
+      "learning_rate": 3.882857142857142e-05,
+      "loss": 0.1263,
+      "step": 6200
+    },
+    {
+      "epoch": 86.1118881118881,
+      "eval_cer": 0.35214271863486524,
+      "eval_loss": 1.5852645635604858,
+      "eval_runtime": 6.1244,
+      "eval_samples_per_second": 46.535,
+      "eval_steps_per_second": 5.878,
+      "step": 6200
+    },
+    {
+      "epoch": 87.5034965034965,
+      "grad_norm": 0.7932090759277344,
+      "learning_rate": 3.454285714285714e-05,
+      "loss": 0.1271,
+      "step": 6300
+    },
+    {
+      "epoch": 87.5034965034965,
+      "eval_cer": 0.3488462284273803,
+      "eval_loss": 1.597654938697815,
+      "eval_runtime": 6.1436,
+      "eval_samples_per_second": 46.389,
+      "eval_steps_per_second": 5.86,
+      "step": 6300
+    },
+    {
+      "epoch": 88.8951048951049,
+      "grad_norm": 2.1244022846221924,
+      "learning_rate": 3.0257142857142855e-05,
+      "loss": 0.123,
+      "step": 6400
+    },
+    {
+      "epoch": 88.8951048951049,
+      "eval_cer": 0.3498157843707582,
+      "eval_loss": 1.6023805141448975,
+      "eval_runtime": 6.0927,
+      "eval_samples_per_second": 46.777,
+      "eval_steps_per_second": 5.909,
+      "step": 6400
+    },
+    {
+      "epoch": 90.27972027972028,
+      "grad_norm": 1.3532764911651611,
+      "learning_rate": 2.5971428571428572e-05,
+      "loss": 0.117,
+      "step": 6500
+    },
+    {
+      "epoch": 90.27972027972028,
+      "eval_cer": 0.3535000969555943,
+      "eval_loss": 1.6092747449874878,
+      "eval_runtime": 6.1301,
+      "eval_samples_per_second": 46.492,
+      "eval_steps_per_second": 5.873,
+      "step": 6500
+    },
+    {
+      "epoch": 91.67132867132867,
+      "grad_norm": 3.1814770698547363,
+      "learning_rate": 2.1685714285714286e-05,
+      "loss": 0.1077,
+      "step": 6600
+    },
+    {
+      "epoch": 91.67132867132867,
+      "eval_cer": 0.35194880744618967,
+      "eval_loss": 1.5807358026504517,
+      "eval_runtime": 6.0891,
+      "eval_samples_per_second": 46.805,
+      "eval_steps_per_second": 5.912,
+      "step": 6600
+    },
+    {
+      "epoch": 93.05594405594405,
+      "grad_norm": 1.0375070571899414,
+      "learning_rate": 1.74e-05,
+      "loss": 0.1072,
+      "step": 6700
+    },
+    {
+      "epoch": 93.05594405594405,
+      "eval_cer": 0.3476827612953267,
+      "eval_loss": 1.580068588256836,
+      "eval_runtime": 6.1035,
+      "eval_samples_per_second": 46.695,
+      "eval_steps_per_second": 5.898,
+      "step": 6700
+    },
+    {
+      "epoch": 94.44755244755245,
+      "grad_norm": 1.3363580703735352,
+      "learning_rate": 1.3114285714285713e-05,
+      "loss": 0.1063,
+      "step": 6800
+    },
+    {
+      "epoch": 94.44755244755245,
+      "eval_cer": 0.35020360674810935,
+      "eval_loss": 1.5893759727478027,
+      "eval_runtime": 6.0883,
+      "eval_samples_per_second": 46.811,
+      "eval_steps_per_second": 5.913,
+      "step": 6800
+    },
+    {
+      "epoch": 95.83916083916084,
+      "grad_norm": 2.259174108505249,
+      "learning_rate": 8.828571428571429e-06,
+      "loss": 0.103,
+      "step": 6900
+    },
+    {
+      "epoch": 95.83916083916084,
+      "eval_cer": 0.3498157843707582,
+      "eval_loss": 1.602723240852356,
+      "eval_runtime": 6.0922,
+      "eval_samples_per_second": 46.781,
+      "eval_steps_per_second": 5.909,
+      "step": 6900
+    },
+    {
+      "epoch": 97.22377622377623,
+      "grad_norm": 1.8573235273361206,
+      "learning_rate": 4.585714285714285e-06,
+      "loss": 0.1032,
+      "step": 7000
+    },
+    {
+      "epoch": 97.22377622377623,
+      "eval_cer": 0.3484584060500291,
+      "eval_loss": 1.6034408807754517,
+      "eval_runtime": 6.1003,
+      "eval_samples_per_second": 46.719,
+      "eval_steps_per_second": 5.901,
+      "step": 7000
+    },
+    {
+      "epoch": 98.61538461538461,
+      "grad_norm": 1.2302757501602173,
+      "learning_rate": 3e-07,
+      "loss": 0.0971,
+      "step": 7100
+    },
+    {
+      "epoch": 98.61538461538461,
+      "eval_cer": 0.3480705836726779,
+      "eval_loss": 1.6103968620300293,
+      "eval_runtime": 6.1158,
+      "eval_samples_per_second": 46.6,
+      "eval_steps_per_second": 5.886,
+      "step": 7100
+    },
+    {
+      "epoch": 98.61538461538461,
+      "step": 7100,
+      "total_flos": 1.5637471182402683e+19,
+      "train_loss": 1.063481583259475,
+      "train_runtime": 9766.9628,
+      "train_samples_per_second": 23.354,
+      "train_steps_per_second": 0.727
+    },
+    {
+      "epoch": 98.61538461538461,
+      "eval_cer": 0.35214271863486524,
+      "eval_loss": 1.6103789806365967,
+      "eval_runtime": 6.0538,
+      "eval_samples_per_second": 47.078,
+      "eval_steps_per_second": 5.947,
+      "step": 7100
     }
   ],
   "logging_steps": 100,
+  "max_steps": 7100,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.5637471182402683e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null