{
  "best_global_step": 3300,
  "best_metric": 26.2158686937448,
  "best_model_checkpoint": "./whisper-tiny-ru/checkpoint-3300",
  "epoch": 5.28,
  "eval_steps": 100,
  "global_step": 3300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04,
      "grad_norm": 30.96117401123047,
      "learning_rate": 4.800000000000001e-07,
      "loss": 1.661016845703125,
      "step": 25
    },
    {
      "epoch": 0.08,
      "grad_norm": 22.207429885864258,
      "learning_rate": 9.800000000000001e-07,
      "loss": 1.5516070556640624,
      "step": 50
    },
    {
      "epoch": 0.12,
      "grad_norm": 21.638269424438477,
      "learning_rate": 1.48e-06,
      "loss": 1.33806884765625,
      "step": 75
    },
    {
      "epoch": 0.16,
      "grad_norm": 21.087303161621094,
      "learning_rate": 1.98e-06,
      "loss": 1.0702142333984375,
      "step": 100
    },
    {
      "epoch": 0.16,
      "eval_loss": 0.9838109016418457,
      "eval_runtime": 1688.971,
      "eval_samples_per_second": 4.732,
      "eval_steps_per_second": 0.592,
      "eval_wer": 58.649118826109984,
      "step": 100
    },
    {
      "epoch": 0.2,
      "grad_norm": 18.6301212310791,
      "learning_rate": 2.4800000000000004e-06,
      "loss": 0.9264418029785156,
      "step": 125
    },
    {
      "epoch": 0.24,
      "grad_norm": 17.07522964477539,
      "learning_rate": 2.9800000000000003e-06,
      "loss": 0.7360333251953125,
      "step": 150
    },
    {
      "epoch": 0.28,
      "grad_norm": 19.41968536376953,
      "learning_rate": 3.48e-06,
      "loss": 0.7099385833740235,
      "step": 175
    },
    {
      "epoch": 0.32,
      "grad_norm": 16.938819885253906,
      "learning_rate": 3.980000000000001e-06,
      "loss": 0.700680923461914,
      "step": 200
    },
    {
      "epoch": 0.32,
      "eval_loss": 0.6107771992683411,
      "eval_runtime": 1633.6115,
      "eval_samples_per_second": 4.893,
      "eval_steps_per_second": 0.612,
      "eval_wer": 45.457983511080855,
      "step": 200
    },
    {
      "epoch": 0.36,
      "grad_norm": 15.689166069030762,
      "learning_rate": 4.48e-06,
      "loss": 0.6384918212890625,
      "step": 225
    },
    {
      "epoch": 0.4,
      "grad_norm": 20.370248794555664,
      "learning_rate": 4.980000000000001e-06,
      "loss": 0.6048641204833984,
      "step": 250
    },
    {
      "epoch": 0.44,
      "grad_norm": 11.012890815734863,
      "learning_rate": 5.480000000000001e-06,
      "loss": 0.5702555847167968,
      "step": 275
    },
    {
      "epoch": 0.48,
      "grad_norm": 19.070072174072266,
      "learning_rate": 5.98e-06,
      "loss": 0.5977656555175781,
      "step": 300
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.532837450504303,
      "eval_runtime": 1594.1788,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 0.627,
      "eval_wer": 41.2702014471926,
      "step": 300
    },
    {
      "epoch": 0.52,
      "grad_norm": 13.001229286193848,
      "learning_rate": 6.480000000000001e-06,
      "loss": 0.5543878555297852,
      "step": 325
    },
    {
      "epoch": 0.56,
      "grad_norm": 19.709369659423828,
      "learning_rate": 6.98e-06,
      "loss": 0.545843734741211,
      "step": 350
    },
    {
      "epoch": 0.6,
      "grad_norm": 15.140043258666992,
      "learning_rate": 7.48e-06,
      "loss": 0.5528886413574219,
      "step": 375
    },
    {
      "epoch": 0.64,
      "grad_norm": 12.472454071044922,
      "learning_rate": 7.980000000000002e-06,
      "loss": 0.49836795806884765,
      "step": 400
    },
    {
      "epoch": 0.64,
      "eval_loss": 0.4811266362667084,
      "eval_runtime": 1597.9191,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 0.626,
      "eval_wer": 37.518594155762294,
      "step": 400
    },
    {
      "epoch": 0.68,
      "grad_norm": 15.188615798950195,
      "learning_rate": 8.48e-06,
      "loss": 0.48630184173583985,
      "step": 425
    },
    {
      "epoch": 0.72,
      "grad_norm": 17.552886962890625,
      "learning_rate": 8.98e-06,
      "loss": 0.4862052917480469,
      "step": 450
    },
    {
      "epoch": 0.76,
      "grad_norm": 12.936896324157715,
      "learning_rate": 9.48e-06,
      "loss": 0.47983272552490236,
      "step": 475
    },
    {
      "epoch": 0.8,
      "grad_norm": 14.850130081176758,
      "learning_rate": 9.980000000000001e-06,
      "loss": 0.47797527313232424,
      "step": 500
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.44456836581230164,
      "eval_runtime": 1586.2776,
      "eval_samples_per_second": 5.039,
      "eval_steps_per_second": 0.63,
      "eval_wer": 35.09568111338023,
      "step": 500
    },
    {
      "epoch": 0.84,
      "grad_norm": 16.829805374145508,
      "learning_rate": 9.946666666666667e-06,
      "loss": 0.5019921493530274,
      "step": 525
    },
    {
      "epoch": 0.88,
      "grad_norm": 13.922273635864258,
      "learning_rate": 9.891111111111113e-06,
      "loss": 0.46826896667480467,
      "step": 550
    },
    {
      "epoch": 0.92,
      "grad_norm": 15.372945785522461,
      "learning_rate": 9.835555555555556e-06,
      "loss": 0.42755321502685545,
      "step": 575
    },
    {
      "epoch": 0.96,
      "grad_norm": 16.532119750976562,
      "learning_rate": 9.780000000000001e-06,
      "loss": 0.49279567718505857,
      "step": 600
    },
    {
      "epoch": 0.96,
      "eval_loss": 0.4159170389175415,
      "eval_runtime": 1613.2907,
      "eval_samples_per_second": 4.954,
      "eval_steps_per_second": 0.62,
      "eval_wer": 33.749338174116936,
      "step": 600
    },
    {
      "epoch": 1.0,
      "grad_norm": 17.019622802734375,
      "learning_rate": 9.724444444444445e-06,
      "loss": 0.3978841781616211,
      "step": 625
    },
    {
      "epoch": 1.04,
      "grad_norm": 9.66409683227539,
      "learning_rate": 9.66888888888889e-06,
      "loss": 0.3251683807373047,
      "step": 650
    },
    {
      "epoch": 1.08,
      "grad_norm": 11.652173042297363,
      "learning_rate": 9.613333333333335e-06,
      "loss": 0.34501224517822265,
      "step": 675
    },
    {
      "epoch": 1.12,
      "grad_norm": 10.360984802246094,
      "learning_rate": 9.557777777777777e-06,
      "loss": 0.34316062927246094,
      "step": 700
    },
    {
      "epoch": 1.12,
      "eval_loss": 0.3949244022369385,
      "eval_runtime": 1589.2681,
      "eval_samples_per_second": 5.029,
      "eval_steps_per_second": 0.629,
      "eval_wer": 32.24919950583667,
      "step": 700
    },
    {
      "epoch": 1.16,
      "grad_norm": 12.48491382598877,
      "learning_rate": 9.502222222222223e-06,
      "loss": 0.34458335876464846,
      "step": 725
    },
    {
      "epoch": 1.2,
      "grad_norm": 11.152288436889648,
      "learning_rate": 9.446666666666667e-06,
      "loss": 0.32888599395751955,
      "step": 750
    },
    {
      "epoch": 1.24,
      "grad_norm": 10.6038818359375,
      "learning_rate": 9.391111111111111e-06,
      "loss": 0.31568107604980467,
      "step": 775
    },
    {
      "epoch": 1.28,
      "grad_norm": 18.213455200195312,
      "learning_rate": 9.335555555555557e-06,
      "loss": 0.34547271728515627,
      "step": 800
    },
    {
      "epoch": 1.28,
      "eval_loss": 0.38666781783103943,
      "eval_runtime": 1606.6532,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 0.622,
      "eval_wer": 31.583591760582912,
      "step": 800
    },
    {
      "epoch": 1.32,
      "grad_norm": 13.49360466003418,
      "learning_rate": 9.280000000000001e-06,
      "loss": 0.3703644943237305,
      "step": 825
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 9.994672775268555,
      "learning_rate": 9.224444444444445e-06,
      "loss": 0.31469236373901366,
      "step": 850
    },
    {
      "epoch": 1.4,
      "grad_norm": 12.134446144104004,
      "learning_rate": 9.168888888888889e-06,
      "loss": 0.3096772575378418,
      "step": 875
    },
    {
      "epoch": 1.44,
      "grad_norm": 9.686901092529297,
      "learning_rate": 9.113333333333335e-06,
      "loss": 0.30561195373535155,
      "step": 900
    },
    {
      "epoch": 1.44,
      "eval_loss": 0.37363526225090027,
      "eval_runtime": 1588.6091,
      "eval_samples_per_second": 5.031,
      "eval_steps_per_second": 0.629,
      "eval_wer": 30.577616418324382,
      "step": 900
    },
    {
      "epoch": 1.48,
      "grad_norm": 11.473066329956055,
      "learning_rate": 9.057777777777779e-06,
      "loss": 0.33498191833496094,
      "step": 925
    },
    {
      "epoch": 1.52,
      "grad_norm": 10.787580490112305,
      "learning_rate": 9.002222222222223e-06,
      "loss": 0.33107086181640627,
      "step": 950
    },
    {
      "epoch": 1.56,
      "grad_norm": 9.3997220993042,
      "learning_rate": 8.946666666666669e-06,
      "loss": 0.31393367767333985,
      "step": 975
    },
    {
      "epoch": 1.6,
      "grad_norm": 14.870068550109863,
      "learning_rate": 8.891111111111111e-06,
      "loss": 0.3480434036254883,
      "step": 1000
    },
    {
      "epoch": 1.6,
      "eval_loss": 0.36670026183128357,
      "eval_runtime": 1580.5347,
      "eval_samples_per_second": 5.057,
      "eval_steps_per_second": 0.633,
      "eval_wer": 30.19438771651161,
      "step": 1000
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 15.575242042541504,
      "learning_rate": 8.835555555555557e-06,
      "loss": 0.3521144485473633,
      "step": 1025
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 13.404891014099121,
      "learning_rate": 8.78e-06,
      "loss": 0.3038243865966797,
      "step": 1050
    },
    {
      "epoch": 1.72,
      "grad_norm": 11.040489196777344,
      "learning_rate": 8.724444444444445e-06,
      "loss": 0.33296077728271484,
      "step": 1075
    },
    {
      "epoch": 1.76,
      "grad_norm": 11.390976905822754,
      "learning_rate": 8.66888888888889e-06,
      "loss": 0.3266580581665039,
      "step": 1100
    },
    {
      "epoch": 1.76,
      "eval_loss": 0.3538387417793274,
      "eval_runtime": 1245.1395,
      "eval_samples_per_second": 6.419,
      "eval_steps_per_second": 0.803,
      "eval_wer": 29.1329450621486,
      "step": 1100
    },
    {
      "epoch": 1.8,
      "grad_norm": 9.734987258911133,
      "learning_rate": 8.613333333333333e-06,
      "loss": 0.30483461380004884,
      "step": 1125
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 13.66518497467041,
      "learning_rate": 8.557777777777778e-06,
      "loss": 0.337967643737793,
      "step": 1150
    },
    {
      "epoch": 1.88,
      "grad_norm": 14.166866302490234,
      "learning_rate": 8.502222222222223e-06,
      "loss": 0.33347091674804685,
      "step": 1175
    },
    {
      "epoch": 1.92,
      "grad_norm": 10.097210884094238,
      "learning_rate": 8.446666666666668e-06,
      "loss": 0.30127151489257814,
      "step": 1200
    },
    {
      "epoch": 1.92,
      "eval_loss": 0.3475528061389923,
      "eval_runtime": 1114.263,
      "eval_samples_per_second": 7.173,
      "eval_steps_per_second": 0.897,
      "eval_wer": 28.73206767012077,
      "step": 1200
    },
    {
      "epoch": 1.96,
      "grad_norm": 8.526341438293457,
      "learning_rate": 8.391111111111112e-06,
      "loss": 0.30967933654785157,
      "step": 1225
    },
    {
      "epoch": 2.0,
      "grad_norm": 13.744101524353027,
      "learning_rate": 8.335555555555556e-06,
      "loss": 0.2926918983459473,
      "step": 1250
    },
    {
      "epoch": 2.04,
      "grad_norm": 12.457859992980957,
      "learning_rate": 8.28e-06,
      "loss": 0.19928192138671874,
      "step": 1275
    },
    {
      "epoch": 2.08,
      "grad_norm": 10.412860870361328,
      "learning_rate": 8.224444444444444e-06,
      "loss": 0.2255691719055176,
      "step": 1300
    },
    {
      "epoch": 2.08,
      "eval_loss": 0.3463591933250427,
      "eval_runtime": 1136.9055,
      "eval_samples_per_second": 7.03,
      "eval_steps_per_second": 0.88,
      "eval_wer": 28.709376496987115,
      "step": 1300
    },
    {
      "epoch": 2.12,
      "grad_norm": 12.349778175354004,
      "learning_rate": 8.16888888888889e-06,
      "loss": 0.2224934768676758,
      "step": 1325
    },
    {
      "epoch": 2.16,
      "grad_norm": 7.292425155639648,
      "learning_rate": 8.113333333333334e-06,
      "loss": 0.20890113830566406,
      "step": 1350
    },
    {
      "epoch": 2.2,
      "grad_norm": 7.30359411239624,
      "learning_rate": 8.057777777777778e-06,
      "loss": 0.22248428344726562,
      "step": 1375
    },
    {
      "epoch": 2.24,
      "grad_norm": 6.8495683670043945,
      "learning_rate": 8.002222222222222e-06,
      "loss": 0.1987138557434082,
      "step": 1400
    },
    {
      "epoch": 2.24,
      "eval_loss": 0.34195244312286377,
      "eval_runtime": 1142.688,
      "eval_samples_per_second": 6.995,
      "eval_steps_per_second": 0.875,
      "eval_wer": 28.3009353805814,
      "step": 1400
    },
    {
      "epoch": 2.2800000000000002,
      "grad_norm": 9.956233024597168,
      "learning_rate": 7.946666666666666e-06,
      "loss": 0.18319826126098632,
      "step": 1425
    },
    {
      "epoch": 2.32,
      "grad_norm": 9.506035804748535,
      "learning_rate": 7.891111111111112e-06,
      "loss": 0.2086960792541504,
      "step": 1450
    },
    {
      "epoch": 2.36,
      "grad_norm": 9.610784530639648,
      "learning_rate": 7.835555555555556e-06,
      "loss": 0.20998584747314453,
      "step": 1475
    },
    {
      "epoch": 2.4,
      "grad_norm": 10.06142807006836,
      "learning_rate": 7.78e-06,
      "loss": 0.19923351287841798,
      "step": 1500
    },
    {
      "epoch": 2.4,
      "eval_loss": 0.337080180644989,
      "eval_runtime": 1129.0462,
      "eval_samples_per_second": 7.079,
      "eval_steps_per_second": 0.886,
      "eval_wer": 28.12444847843078,
      "step": 1500
    },
    {
      "epoch": 2.44,
      "grad_norm": 10.249608993530273,
      "learning_rate": 7.724444444444446e-06,
      "loss": 0.20815914154052734,
      "step": 1525
    },
    {
      "epoch": 2.48,
      "grad_norm": 8.729615211486816,
      "learning_rate": 7.66888888888889e-06,
      "loss": 0.19476179122924805,
      "step": 1550
    },
    {
      "epoch": 2.52,
      "grad_norm": 7.07798957824707,
      "learning_rate": 7.613333333333334e-06,
      "loss": 0.20427942276000977,
      "step": 1575
    },
    {
      "epoch": 2.56,
      "grad_norm": 12.55591106414795,
      "learning_rate": 7.557777777777779e-06,
      "loss": 0.19880136489868164,
      "step": 1600
    },
    {
      "epoch": 2.56,
      "eval_loss": 0.3345155715942383,
      "eval_runtime": 1157.6671,
      "eval_samples_per_second": 6.904,
      "eval_steps_per_second": 0.864,
      "eval_wer": 27.466404457554898,
      "step": 1600
    },
    {
      "epoch": 2.6,
      "grad_norm": 9.194686889648438,
      "learning_rate": 7.502222222222223e-06,
      "loss": 0.20003116607666016,
      "step": 1625
    },
    {
      "epoch": 2.64,
      "grad_norm": 8.028614044189453,
      "learning_rate": 7.446666666666668e-06,
      "loss": 0.20664962768554687,
      "step": 1650
    },
    {
      "epoch": 2.68,
      "grad_norm": 9.309157371520996,
      "learning_rate": 7.3911111111111125e-06,
      "loss": 0.2059481430053711,
      "step": 1675
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 7.072760105133057,
      "learning_rate": 7.335555555555556e-06,
      "loss": 0.18960922241210937,
      "step": 1700
    },
    {
      "epoch": 2.7199999999999998,
      "eval_loss": 0.3304011821746826,
      "eval_runtime": 1136.784,
      "eval_samples_per_second": 7.031,
      "eval_steps_per_second": 0.88,
      "eval_wer": 27.48405314776996,
      "step": 1700
    },
    {
      "epoch": 2.76,
      "grad_norm": 10.164315223693848,
      "learning_rate": 7.280000000000001e-06,
      "loss": 0.20121437072753906,
      "step": 1725
    },
    {
      "epoch": 2.8,
      "grad_norm": 11.21286392211914,
      "learning_rate": 7.224444444444445e-06,
      "loss": 0.2160506057739258,
      "step": 1750
    },
    {
      "epoch": 2.84,
      "grad_norm": 7.09088659286499,
      "learning_rate": 7.1688888888888895e-06,
      "loss": 0.1943138313293457,
      "step": 1775
    },
    {
      "epoch": 2.88,
      "grad_norm": 7.879263401031494,
      "learning_rate": 7.113333333333334e-06,
      "loss": 0.193405818939209,
      "step": 1800
    },
    {
      "epoch": 2.88,
      "eval_loss": 0.3283212184906006,
      "eval_runtime": 1146.053,
      "eval_samples_per_second": 6.974,
      "eval_steps_per_second": 0.873,
      "eval_wer": 27.456319491717725,
      "step": 1800
    },
    {
      "epoch": 2.92,
      "grad_norm": 10.002179145812988,
      "learning_rate": 7.057777777777778e-06,
      "loss": 0.18917253494262695,
      "step": 1825
    },
    {
      "epoch": 2.96,
      "grad_norm": 9.466012954711914,
      "learning_rate": 7.0022222222222225e-06,
      "loss": 0.19346149444580077,
      "step": 1850
    },
    {
      "epoch": 3.0,
      "grad_norm": 14.86670207977295,
      "learning_rate": 6.946666666666667e-06,
      "loss": 0.20311836242675782,
      "step": 1875
    },
    {
      "epoch": 3.04,
      "grad_norm": 7.088613986968994,
      "learning_rate": 6.891111111111111e-06,
      "loss": 0.12550613403320313,
      "step": 1900
    },
    {
      "epoch": 3.04,
      "eval_loss": 0.326405793428421,
      "eval_runtime": 1140.5284,
      "eval_samples_per_second": 7.008,
      "eval_steps_per_second": 0.877,
      "eval_wer": 27.247056450596276,
      "step": 1900
    },
    {
      "epoch": 3.08,
      "grad_norm": 5.738883972167969,
      "learning_rate": 6.835555555555556e-06,
      "loss": 0.1307435894012451,
      "step": 1925
    },
    {
      "epoch": 3.12,
      "grad_norm": 5.431838035583496,
      "learning_rate": 6.780000000000001e-06,
      "loss": 0.11987467765808106,
      "step": 1950
    },
    {
      "epoch": 3.16,
      "grad_norm": 8.73540210723877,
      "learning_rate": 6.724444444444444e-06,
      "loss": 0.1516973114013672,
      "step": 1975
    },
    {
      "epoch": 3.2,
      "grad_norm": 6.3792724609375,
      "learning_rate": 6.668888888888889e-06,
      "loss": 0.13660179138183592,
      "step": 2000
    },
    {
      "epoch": 3.2,
      "eval_loss": 0.32666918635368347,
      "eval_runtime": 1124.088,
      "eval_samples_per_second": 7.111,
      "eval_steps_per_second": 0.89,
      "eval_wer": 27.363033557723824,
      "step": 2000
    },
    {
      "epoch": 3.24,
      "grad_norm": 5.221762657165527,
      "learning_rate": 6.613333333333334e-06,
      "loss": 0.12183536529541016,
      "step": 2025
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 7.180768013000488,
      "learning_rate": 6.557777777777778e-06,
      "loss": 0.1264752769470215,
      "step": 2050
    },
    {
      "epoch": 3.32,
      "grad_norm": 8.103682518005371,
      "learning_rate": 6.502222222222223e-06,
      "loss": 0.14041830062866212,
      "step": 2075
    },
    {
      "epoch": 3.36,
      "grad_norm": 6.988570690155029,
      "learning_rate": 6.446666666666668e-06,
      "loss": 0.14171558380126953,
      "step": 2100
    },
    {
      "epoch": 3.36,
      "eval_loss": 0.3258770704269409,
      "eval_runtime": 1142.5612,
      "eval_samples_per_second": 6.996,
      "eval_steps_per_second": 0.875,
      "eval_wer": 27.148728033683785,
      "step": 2100
    },
    {
      "epoch": 3.4,
      "grad_norm": 7.272939205169678,
      "learning_rate": 6.391111111111111e-06,
      "loss": 0.12976963996887206,
      "step": 2125
    },
    {
      "epoch": 3.44,
      "grad_norm": 9.169845581054688,
      "learning_rate": 6.335555555555556e-06,
      "loss": 0.13874659538269044,
      "step": 2150
    },
    {
      "epoch": 3.48,
      "grad_norm": 9.13535213470459,
      "learning_rate": 6.280000000000001e-06,
      "loss": 0.1423179054260254,
      "step": 2175
    },
    {
      "epoch": 3.52,
      "grad_norm": 5.841824531555176,
      "learning_rate": 6.224444444444445e-06,
      "loss": 0.12778244972229003,
      "step": 2200
    },
    {
      "epoch": 3.52,
      "eval_loss": 0.32502686977386475,
      "eval_runtime": 1129.5273,
      "eval_samples_per_second": 7.076,
      "eval_steps_per_second": 0.885,
      "eval_wer": 27.098303204497892,
      "step": 2200
    },
    {
      "epoch": 3.56,
      "grad_norm": 6.991465091705322,
      "learning_rate": 6.16888888888889e-06,
      "loss": 0.1317989444732666,
      "step": 2225
    },
    {
      "epoch": 3.6,
      "grad_norm": 8.489235877990723,
      "learning_rate": 6.113333333333333e-06,
      "loss": 0.12462780952453613,
      "step": 2250
    },
    {
      "epoch": 3.64,
      "grad_norm": 8.89243221282959,
      "learning_rate": 6.057777777777778e-06,
      "loss": 0.11276106834411621,
      "step": 2275
    },
    {
      "epoch": 3.68,
      "grad_norm": 7.854825019836426,
      "learning_rate": 6.002222222222223e-06,
      "loss": 0.128636474609375,
      "step": 2300
    },
    {
      "epoch": 3.68,
      "eval_loss": 0.32361486554145813,
      "eval_runtime": 1145.2768,
      "eval_samples_per_second": 6.979,
      "eval_steps_per_second": 0.873,
      "eval_wer": 27.141164309305903,
      "step": 2300
    },
    {
      "epoch": 3.7199999999999998,
      "grad_norm": 10.046810150146484,
      "learning_rate": 5.946666666666668e-06,
      "loss": 0.13479949951171874,
      "step": 2325
    },
    {
      "epoch": 3.76,
      "grad_norm": 6.566898345947266,
      "learning_rate": 5.891111111111112e-06,
      "loss": 0.13264819145202636,
      "step": 2350
    },
    {
      "epoch": 3.8,
      "grad_norm": 6.007510662078857,
      "learning_rate": 5.8355555555555565e-06,
      "loss": 0.11804925918579101,
      "step": 2375
    },
    {
      "epoch": 3.84,
      "grad_norm": 6.695367336273193,
      "learning_rate": 5.78e-06,
      "loss": 0.12892417907714843,
      "step": 2400
    },
    {
      "epoch": 3.84,
      "eval_loss": 0.32250407338142395,
      "eval_runtime": 1145.1862,
      "eval_samples_per_second": 6.98,
      "eval_steps_per_second": 0.873,
      "eval_wer": 26.57640622242392,
      "step": 2400
    },
    {
      "epoch": 3.88,
      "grad_norm": 8.012511253356934,
      "learning_rate": 5.724444444444445e-06,
      "loss": 0.13116491317749024,
      "step": 2425
    },
    {
      "epoch": 3.92,
      "grad_norm": 7.509751319885254,
      "learning_rate": 5.6688888888888895e-06,
      "loss": 0.1309671401977539,
      "step": 2450
    },
    {
      "epoch": 3.96,
      "grad_norm": 9.579854011535645,
      "learning_rate": 5.613333333333334e-06,
      "loss": 0.12149713516235351,
      "step": 2475
    },
    {
      "epoch": 4.0,
      "grad_norm": 16.018325805664062,
      "learning_rate": 5.557777777777778e-06,
      "loss": 0.1331118392944336,
      "step": 2500
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.3214564025402069,
      "eval_runtime": 1135.6798,
      "eval_samples_per_second": 7.038,
      "eval_steps_per_second": 0.881,
      "eval_wer": 27.128558102009432,
      "step": 2500
    },
    {
      "epoch": 4.04,
      "grad_norm": 3.181704521179199,
      "learning_rate": 5.5022222222222224e-06,
      "loss": 0.08591601371765137,
      "step": 2525
    },
    {
      "epoch": 4.08,
      "grad_norm": 6.204383373260498,
      "learning_rate": 5.4466666666666665e-06,
      "loss": 0.08950037002563477,
      "step": 2550
    },
    {
      "epoch": 4.12,
      "grad_norm": 6.119636535644531,
      "learning_rate": 5.391111111111111e-06,
      "loss": 0.0826924991607666,
      "step": 2575
    },
    {
      "epoch": 4.16,
      "grad_norm": 6.250202178955078,
      "learning_rate": 5.335555555555556e-06,
      "loss": 0.07985872268676758,
      "step": 2600
    },
    {
      "epoch": 4.16,
      "eval_loss": 0.324444979429245,
      "eval_runtime": 1147.6894,
      "eval_samples_per_second": 6.964,
      "eval_steps_per_second": 0.871,
      "eval_wer": 26.546151324912387,
      "step": 2600
    },
    {
      "epoch": 4.2,
      "grad_norm": 4.202062606811523,
      "learning_rate": 5.28e-06,
      "loss": 0.07818631649017334,
      "step": 2625
    },
    {
      "epoch": 4.24,
      "grad_norm": 8.979434967041016,
      "learning_rate": 5.224444444444445e-06,
      "loss": 0.08032341957092286,
      "step": 2650
    },
    {
      "epoch": 4.28,
      "grad_norm": 5.299781799316406,
      "learning_rate": 5.168888888888889e-06,
      "loss": 0.08594310760498047,
      "step": 2675
    },
    {
      "epoch": 4.32,
      "grad_norm": 4.9248762130737305,
      "learning_rate": 5.113333333333333e-06,
      "loss": 0.08457598686218262,
      "step": 2700
    },
    {
      "epoch": 4.32,
      "eval_loss": 0.32594889402389526,
      "eval_runtime": 1130.0663,
      "eval_samples_per_second": 7.073,
      "eval_steps_per_second": 0.885,
      "eval_wer": 26.546151324912387,
      "step": 2700
    },
    {
      "epoch": 4.36,
      "grad_norm": 10.462182998657227,
      "learning_rate": 5.057777777777778e-06,
      "loss": 0.08635611534118652,
      "step": 2725
    },
    {
      "epoch": 4.4,
      "grad_norm": 6.411299705505371,
      "learning_rate": 5.002222222222223e-06,
      "loss": 0.08314334869384765,
      "step": 2750
    },
    {
      "epoch": 4.44,
      "grad_norm": 6.515404224395752,
      "learning_rate": 4.946666666666667e-06,
      "loss": 0.09247981071472168,
      "step": 2775
    },
    {
      "epoch": 4.48,
      "grad_norm": 9.802311897277832,
      "learning_rate": 4.891111111111111e-06,
      "loss": 0.09131069183349609,
      "step": 2800
    },
    {
      "epoch": 4.48,
      "eval_loss": 0.32451489567756653,
      "eval_runtime": 1144.7419,
      "eval_samples_per_second": 6.982,
      "eval_steps_per_second": 0.874,
      "eval_wer": 26.392355595895417,
      "step": 2800
    },
    {
      "epoch": 4.52,
      "grad_norm": 7.073087215423584,
      "learning_rate": 4.835555555555556e-06,
      "loss": 0.08045567512512207,
      "step": 2825
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 6.24620246887207,
      "learning_rate": 4.78e-06,
      "loss": 0.09462824821472168,
      "step": 2850
    },
    {
      "epoch": 4.6,
      "grad_norm": 4.449136734008789,
      "learning_rate": 4.724444444444445e-06,
      "loss": 0.08349855422973633,
      "step": 2875
    },
    {
      "epoch": 4.64,
      "grad_norm": 3.942056894302368,
      "learning_rate": 4.66888888888889e-06,
      "loss": 0.07720262527465821,
      "step": 2900
    },
    {
      "epoch": 4.64,
      "eval_loss": 0.32689812779426575,
      "eval_runtime": 1153.1464,
      "eval_samples_per_second": 6.931,
      "eval_steps_per_second": 0.867,
      "eval_wer": 27.04031465093412,
      "step": 2900
    },
    {
      "epoch": 4.68,
      "grad_norm": 5.481267929077148,
      "learning_rate": 4.613333333333334e-06,
      "loss": 0.09236433029174805,
      "step": 2925
    },
    {
      "epoch": 4.72,
      "grad_norm": 7.2641215324401855,
      "learning_rate": 4.557777777777778e-06,
      "loss": 0.09008319854736328,
      "step": 2950
    },
    {
      "epoch": 4.76,
      "grad_norm": 8.626544952392578,
      "learning_rate": 4.502222222222223e-06,
      "loss": 0.09662159919738769,
      "step": 2975
    },
    {
      "epoch": 4.8,
      "grad_norm": 7.221775531768799,
      "learning_rate": 4.446666666666667e-06,
      "loss": 0.08148813247680664,
      "step": 3000
    },
    {
      "epoch": 4.8,
      "eval_loss": 0.32437387108802795,
      "eval_runtime": 1136.3082,
      "eval_samples_per_second": 7.034,
      "eval_steps_per_second": 0.88,
      "eval_wer": 26.768020573330308,
      "step": 3000
    },
    {
      "epoch": 4.84,
      "grad_norm": 3.961613655090332,
      "learning_rate": 4.391111111111112e-06,
      "loss": 0.07602582931518555,
      "step": 3025
    },
    {
      "epoch": 4.88,
      "grad_norm": 11.219801902770996,
      "learning_rate": 4.3355555555555565e-06,
      "loss": 0.0879791259765625,
      "step": 3050
    },
    {
      "epoch": 4.92,
      "grad_norm": 5.104950904846191,
      "learning_rate": 4.2800000000000005e-06,
      "loss": 0.08852799415588379,
      "step": 3075
    },
    {
      "epoch": 4.96,
      "grad_norm": 5.801946640014648,
      "learning_rate": 4.2244444444444446e-06,
      "loss": 0.07789647579193115,
      "step": 3100
    },
    {
      "epoch": 4.96,
      "eval_loss": 0.32314595580101013,
      "eval_runtime": 1146.6672,
      "eval_samples_per_second": 6.971,
      "eval_steps_per_second": 0.872,
      "eval_wer": 26.296548420442228,
      "step": 3100
    },
    {
      "epoch": 5.0,
      "grad_norm": 7.96620512008667,
      "learning_rate": 4.168888888888889e-06,
      "loss": 0.08891249656677246,
      "step": 3125
    },
    {
      "epoch": 5.04,
      "grad_norm": 2.248185396194458,
      "learning_rate": 4.1133333333333335e-06,
      "loss": 0.06223374366760254,
      "step": 3150
    },
    {
      "epoch": 5.08,
      "grad_norm": 3.364957571029663,
      "learning_rate": 4.057777777777778e-06,
      "loss": 0.058481874465942385,
      "step": 3175
    },
    {
      "epoch": 5.12,
      "grad_norm": 3.7165310382843018,
      "learning_rate": 4.002222222222222e-06,
      "loss": 0.06104232311248779,
      "step": 3200
    },
    {
      "epoch": 5.12,
      "eval_loss": 0.32432663440704346,
      "eval_runtime": 1128.5261,
      "eval_samples_per_second": 7.083,
      "eval_steps_per_second": 0.886,
      "eval_wer": 26.44278042508131,
      "step": 3200
    },
    {
      "epoch": 5.16,
      "grad_norm": 5.533367156982422,
      "learning_rate": 3.946666666666667e-06,
      "loss": 0.06542285442352296,
      "step": 3225
    },
    {
      "epoch": 5.2,
      "grad_norm": 3.9828567504882812,
      "learning_rate": 3.891111111111111e-06,
      "loss": 0.05872833728790283,
      "step": 3250
    },
    {
      "epoch": 5.24,
      "grad_norm": 4.2224249839782715,
      "learning_rate": 3.835555555555555e-06,
      "loss": 0.05860544204711914,
      "step": 3275
    },
    {
      "epoch": 5.28,
      "grad_norm": 4.558178901672363,
      "learning_rate": 3.7800000000000002e-06,
      "loss": 0.055550127029418944,
      "step": 3300
    },
    {
      "epoch": 5.28,
      "eval_loss": 0.3261101543903351,
      "eval_runtime": 1144.1278,
      "eval_samples_per_second": 6.986,
      "eval_steps_per_second": 0.874,
      "eval_wer": 26.2158686937448,
      "step": 3300
    }
  ],
  "logging_steps": 25,
  "max_steps": 5000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2991385677824e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}