WhisperTurboV3_adamv2_12000 / trainer_state.json
RASMUS's picture
Upload folder using huggingface_hub
85607dc verified
{
"best_global_step": 12000,
"best_metric": 10.850140413581823,
"best_model_checkpoint": "./adamw_15k_steps/checkpoint-12000",
"epoch": 4.015733333333333,
"eval_steps": 1000,
"global_step": 12000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0003333333333333333,
"grad_norm": 7.8681135177612305,
"learning_rate": 3.2e-08,
"loss": 0.639,
"step": 5
},
{
"epoch": 0.0006666666666666666,
"grad_norm": 6.706113338470459,
"learning_rate": 7.2e-08,
"loss": 0.5652,
"step": 10
},
{
"epoch": 0.001,
"grad_norm": 7.400564193725586,
"learning_rate": 1.12e-07,
"loss": 0.601,
"step": 15
},
{
"epoch": 0.0013333333333333333,
"grad_norm": 7.946199417114258,
"learning_rate": 1.5199999999999998e-07,
"loss": 0.5519,
"step": 20
},
{
"epoch": 0.0016666666666666668,
"grad_norm": 8.106812477111816,
"learning_rate": 1.92e-07,
"loss": 0.5649,
"step": 25
},
{
"epoch": 0.002,
"grad_norm": 8.46447467803955,
"learning_rate": 2.32e-07,
"loss": 0.5187,
"step": 30
},
{
"epoch": 0.0023333333333333335,
"grad_norm": 9.849543571472168,
"learning_rate": 2.72e-07,
"loss": 0.5673,
"step": 35
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 7.367623329162598,
"learning_rate": 3.12e-07,
"loss": 0.5324,
"step": 40
},
{
"epoch": 0.003,
"grad_norm": 8.326878547668457,
"learning_rate": 3.52e-07,
"loss": 0.4839,
"step": 45
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 9.736270904541016,
"learning_rate": 3.92e-07,
"loss": 0.4942,
"step": 50
},
{
"epoch": 0.0036666666666666666,
"grad_norm": 8.761847496032715,
"learning_rate": 4.3199999999999995e-07,
"loss": 0.4491,
"step": 55
},
{
"epoch": 0.004,
"grad_norm": 6.445558547973633,
"learning_rate": 4.7199999999999994e-07,
"loss": 0.3525,
"step": 60
},
{
"epoch": 0.004333333333333333,
"grad_norm": 6.869565486907959,
"learning_rate": 5.12e-07,
"loss": 0.3532,
"step": 65
},
{
"epoch": 0.004666666666666667,
"grad_norm": 6.356194972991943,
"learning_rate": 5.520000000000001e-07,
"loss": 0.3789,
"step": 70
},
{
"epoch": 0.005,
"grad_norm": 8.927465438842773,
"learning_rate": 5.919999999999999e-07,
"loss": 0.4214,
"step": 75
},
{
"epoch": 0.005333333333333333,
"grad_norm": 4.772860527038574,
"learning_rate": 6.319999999999999e-07,
"loss": 0.3988,
"step": 80
},
{
"epoch": 0.005666666666666667,
"grad_norm": 6.015639781951904,
"learning_rate": 6.72e-07,
"loss": 0.3499,
"step": 85
},
{
"epoch": 0.006,
"grad_norm": 5.377685070037842,
"learning_rate": 7.119999999999999e-07,
"loss": 0.3558,
"step": 90
},
{
"epoch": 0.006333333333333333,
"grad_norm": 5.61927604675293,
"learning_rate": 7.52e-07,
"loss": 0.3782,
"step": 95
},
{
"epoch": 0.006666666666666667,
"grad_norm": 5.671990871429443,
"learning_rate": 7.92e-07,
"loss": 0.3256,
"step": 100
},
{
"epoch": 0.007,
"grad_norm": 6.509945869445801,
"learning_rate": 8.319999999999999e-07,
"loss": 0.3377,
"step": 105
},
{
"epoch": 0.007333333333333333,
"grad_norm": 5.520636558532715,
"learning_rate": 8.72e-07,
"loss": 0.2935,
"step": 110
},
{
"epoch": 0.007666666666666666,
"grad_norm": 6.7343854904174805,
"learning_rate": 9.12e-07,
"loss": 0.3279,
"step": 115
},
{
"epoch": 0.008,
"grad_norm": 5.827164173126221,
"learning_rate": 9.52e-07,
"loss": 0.2642,
"step": 120
},
{
"epoch": 0.008333333333333333,
"grad_norm": 9.217341423034668,
"learning_rate": 9.92e-07,
"loss": 0.3682,
"step": 125
},
{
"epoch": 0.008666666666666666,
"grad_norm": 5.258895397186279,
"learning_rate": 1.032e-06,
"loss": 0.3186,
"step": 130
},
{
"epoch": 0.009,
"grad_norm": 5.387553691864014,
"learning_rate": 1.072e-06,
"loss": 0.2694,
"step": 135
},
{
"epoch": 0.009333333333333334,
"grad_norm": 6.299449920654297,
"learning_rate": 1.1120000000000001e-06,
"loss": 0.3321,
"step": 140
},
{
"epoch": 0.009666666666666667,
"grad_norm": 5.274661064147949,
"learning_rate": 1.152e-06,
"loss": 0.3319,
"step": 145
},
{
"epoch": 0.01,
"grad_norm": 5.529350280761719,
"learning_rate": 1.192e-06,
"loss": 0.2997,
"step": 150
},
{
"epoch": 0.010333333333333333,
"grad_norm": 6.594914436340332,
"learning_rate": 1.232e-06,
"loss": 0.3021,
"step": 155
},
{
"epoch": 0.010666666666666666,
"grad_norm": 6.538723468780518,
"learning_rate": 1.272e-06,
"loss": 0.3648,
"step": 160
},
{
"epoch": 0.011,
"grad_norm": 5.191473007202148,
"learning_rate": 1.312e-06,
"loss": 0.261,
"step": 165
},
{
"epoch": 0.011333333333333334,
"grad_norm": 4.366311073303223,
"learning_rate": 1.352e-06,
"loss": 0.3138,
"step": 170
},
{
"epoch": 0.011666666666666667,
"grad_norm": 5.694831371307373,
"learning_rate": 1.3919999999999998e-06,
"loss": 0.3573,
"step": 175
},
{
"epoch": 0.012,
"grad_norm": 6.382267475128174,
"learning_rate": 1.4319999999999998e-06,
"loss": 0.3696,
"step": 180
},
{
"epoch": 0.012333333333333333,
"grad_norm": 5.446365833282471,
"learning_rate": 1.4719999999999998e-06,
"loss": 0.3153,
"step": 185
},
{
"epoch": 0.012666666666666666,
"grad_norm": 5.738370895385742,
"learning_rate": 1.5119999999999999e-06,
"loss": 0.2276,
"step": 190
},
{
"epoch": 0.013,
"grad_norm": 6.272266864776611,
"learning_rate": 1.552e-06,
"loss": 0.3016,
"step": 195
},
{
"epoch": 0.013333333333333334,
"grad_norm": 5.668388843536377,
"learning_rate": 1.592e-06,
"loss": 0.3069,
"step": 200
},
{
"epoch": 0.013666666666666667,
"grad_norm": 4.9069719314575195,
"learning_rate": 1.6319999999999998e-06,
"loss": 0.256,
"step": 205
},
{
"epoch": 0.014,
"grad_norm": 5.196625709533691,
"learning_rate": 1.6719999999999998e-06,
"loss": 0.3474,
"step": 210
},
{
"epoch": 0.014333333333333333,
"grad_norm": 5.849911689758301,
"learning_rate": 1.7119999999999999e-06,
"loss": 0.3752,
"step": 215
},
{
"epoch": 0.014666666666666666,
"grad_norm": 5.384067535400391,
"learning_rate": 1.752e-06,
"loss": 0.309,
"step": 220
},
{
"epoch": 0.015,
"grad_norm": 5.837971210479736,
"learning_rate": 1.792e-06,
"loss": 0.3327,
"step": 225
},
{
"epoch": 0.015333333333333332,
"grad_norm": 5.132436275482178,
"learning_rate": 1.832e-06,
"loss": 0.3123,
"step": 230
},
{
"epoch": 0.015666666666666666,
"grad_norm": 5.337721824645996,
"learning_rate": 1.872e-06,
"loss": 0.3283,
"step": 235
},
{
"epoch": 0.016,
"grad_norm": 6.517800331115723,
"learning_rate": 1.9119999999999997e-06,
"loss": 0.3038,
"step": 240
},
{
"epoch": 0.01633333333333333,
"grad_norm": 5.586582183837891,
"learning_rate": 1.9519999999999997e-06,
"loss": 0.2755,
"step": 245
},
{
"epoch": 0.016666666666666666,
"grad_norm": 5.217918872833252,
"learning_rate": 1.9919999999999997e-06,
"loss": 0.2844,
"step": 250
},
{
"epoch": 0.017,
"grad_norm": 6.155360221862793,
"learning_rate": 2.0319999999999998e-06,
"loss": 0.2717,
"step": 255
},
{
"epoch": 0.017333333333333333,
"grad_norm": 4.993013858795166,
"learning_rate": 2.072e-06,
"loss": 0.2607,
"step": 260
},
{
"epoch": 0.017666666666666667,
"grad_norm": 5.713470458984375,
"learning_rate": 2.112e-06,
"loss": 0.3016,
"step": 265
},
{
"epoch": 0.018,
"grad_norm": 6.255653381347656,
"learning_rate": 2.152e-06,
"loss": 0.2981,
"step": 270
},
{
"epoch": 0.018333333333333333,
"grad_norm": 4.8478803634643555,
"learning_rate": 2.192e-06,
"loss": 0.2597,
"step": 275
},
{
"epoch": 0.018666666666666668,
"grad_norm": 5.257438659667969,
"learning_rate": 2.232e-06,
"loss": 0.2801,
"step": 280
},
{
"epoch": 0.019,
"grad_norm": 5.840615272521973,
"learning_rate": 2.2719999999999996e-06,
"loss": 0.2367,
"step": 285
},
{
"epoch": 0.019333333333333334,
"grad_norm": 4.748403549194336,
"learning_rate": 2.3119999999999996e-06,
"loss": 0.281,
"step": 290
},
{
"epoch": 0.019666666666666666,
"grad_norm": 6.234288215637207,
"learning_rate": 2.3519999999999997e-06,
"loss": 0.2956,
"step": 295
},
{
"epoch": 0.02,
"grad_norm": 5.9594550132751465,
"learning_rate": 2.3919999999999997e-06,
"loss": 0.2442,
"step": 300
},
{
"epoch": 0.02033333333333333,
"grad_norm": 6.6537628173828125,
"learning_rate": 2.4319999999999998e-06,
"loss": 0.3109,
"step": 305
},
{
"epoch": 0.020666666666666667,
"grad_norm": 5.695614814758301,
"learning_rate": 2.472e-06,
"loss": 0.2785,
"step": 310
},
{
"epoch": 0.021,
"grad_norm": 5.461732864379883,
"learning_rate": 2.512e-06,
"loss": 0.2641,
"step": 315
},
{
"epoch": 0.021333333333333333,
"grad_norm": 5.420622825622559,
"learning_rate": 2.552e-06,
"loss": 0.2852,
"step": 320
},
{
"epoch": 0.021666666666666667,
"grad_norm": 5.171116828918457,
"learning_rate": 2.592e-06,
"loss": 0.2668,
"step": 325
},
{
"epoch": 0.022,
"grad_norm": 4.647777080535889,
"learning_rate": 2.632e-06,
"loss": 0.2441,
"step": 330
},
{
"epoch": 0.022333333333333334,
"grad_norm": 5.5714802742004395,
"learning_rate": 2.672e-06,
"loss": 0.2588,
"step": 335
},
{
"epoch": 0.02266666666666667,
"grad_norm": 6.230645656585693,
"learning_rate": 2.712e-06,
"loss": 0.2875,
"step": 340
},
{
"epoch": 0.023,
"grad_norm": 4.334135055541992,
"learning_rate": 2.7519999999999997e-06,
"loss": 0.3584,
"step": 345
},
{
"epoch": 0.023333333333333334,
"grad_norm": 5.431742191314697,
"learning_rate": 2.7919999999999997e-06,
"loss": 0.2909,
"step": 350
},
{
"epoch": 0.023666666666666666,
"grad_norm": 5.0013322830200195,
"learning_rate": 2.8319999999999997e-06,
"loss": 0.2719,
"step": 355
},
{
"epoch": 0.024,
"grad_norm": 4.761520862579346,
"learning_rate": 2.8719999999999998e-06,
"loss": 0.3427,
"step": 360
},
{
"epoch": 0.024333333333333332,
"grad_norm": 4.424616813659668,
"learning_rate": 2.912e-06,
"loss": 0.2715,
"step": 365
},
{
"epoch": 0.024666666666666667,
"grad_norm": 6.290023326873779,
"learning_rate": 2.952e-06,
"loss": 0.3269,
"step": 370
},
{
"epoch": 0.025,
"grad_norm": 4.335691452026367,
"learning_rate": 2.992e-06,
"loss": 0.3132,
"step": 375
},
{
"epoch": 0.025333333333333333,
"grad_norm": 4.69550895690918,
"learning_rate": 3.032e-06,
"loss": 0.2616,
"step": 380
},
{
"epoch": 0.025666666666666667,
"grad_norm": 5.710431098937988,
"learning_rate": 3.072e-06,
"loss": 0.2529,
"step": 385
},
{
"epoch": 0.026,
"grad_norm": 7.724772930145264,
"learning_rate": 3.112e-06,
"loss": 0.3924,
"step": 390
},
{
"epoch": 0.026333333333333334,
"grad_norm": 5.0790581703186035,
"learning_rate": 3.152e-06,
"loss": 0.3372,
"step": 395
},
{
"epoch": 0.02666666666666667,
"grad_norm": 5.25242805480957,
"learning_rate": 3.192e-06,
"loss": 0.2778,
"step": 400
},
{
"epoch": 0.027,
"grad_norm": 4.29576301574707,
"learning_rate": 3.232e-06,
"loss": 0.2769,
"step": 405
},
{
"epoch": 0.027333333333333334,
"grad_norm": 5.750261306762695,
"learning_rate": 3.2719999999999998e-06,
"loss": 0.2802,
"step": 410
},
{
"epoch": 0.027666666666666666,
"grad_norm": 7.249492645263672,
"learning_rate": 3.312e-06,
"loss": 0.3346,
"step": 415
},
{
"epoch": 0.028,
"grad_norm": 6.898212909698486,
"learning_rate": 3.352e-06,
"loss": 0.3048,
"step": 420
},
{
"epoch": 0.028333333333333332,
"grad_norm": 6.2024102210998535,
"learning_rate": 3.392e-06,
"loss": 0.271,
"step": 425
},
{
"epoch": 0.028666666666666667,
"grad_norm": 5.421449184417725,
"learning_rate": 3.432e-06,
"loss": 0.309,
"step": 430
},
{
"epoch": 0.029,
"grad_norm": 6.628218650817871,
"learning_rate": 3.472e-06,
"loss": 0.325,
"step": 435
},
{
"epoch": 0.029333333333333333,
"grad_norm": 6.001244068145752,
"learning_rate": 3.512e-06,
"loss": 0.2704,
"step": 440
},
{
"epoch": 0.029666666666666668,
"grad_norm": 4.657049179077148,
"learning_rate": 3.552e-06,
"loss": 0.291,
"step": 445
},
{
"epoch": 0.03,
"grad_norm": 5.157937526702881,
"learning_rate": 3.592e-06,
"loss": 0.2969,
"step": 450
},
{
"epoch": 0.030333333333333334,
"grad_norm": 5.487798690795898,
"learning_rate": 3.632e-06,
"loss": 0.276,
"step": 455
},
{
"epoch": 0.030666666666666665,
"grad_norm": 5.191402435302734,
"learning_rate": 3.672e-06,
"loss": 0.2643,
"step": 460
},
{
"epoch": 0.031,
"grad_norm": 4.667324542999268,
"learning_rate": 3.712e-06,
"loss": 0.2973,
"step": 465
},
{
"epoch": 0.03133333333333333,
"grad_norm": 5.773773670196533,
"learning_rate": 3.7519999999999994e-06,
"loss": 0.3295,
"step": 470
},
{
"epoch": 0.03166666666666667,
"grad_norm": 5.1708574295043945,
"learning_rate": 3.7919999999999994e-06,
"loss": 0.2873,
"step": 475
},
{
"epoch": 0.032,
"grad_norm": 6.870123863220215,
"learning_rate": 3.832e-06,
"loss": 0.3149,
"step": 480
},
{
"epoch": 0.03233333333333333,
"grad_norm": 6.7079315185546875,
"learning_rate": 3.8719999999999995e-06,
"loss": 0.3704,
"step": 485
},
{
"epoch": 0.03266666666666666,
"grad_norm": 5.312646865844727,
"learning_rate": 3.912e-06,
"loss": 0.2829,
"step": 490
},
{
"epoch": 0.033,
"grad_norm": 5.318368911743164,
"learning_rate": 3.952e-06,
"loss": 0.2417,
"step": 495
},
{
"epoch": 0.03333333333333333,
"grad_norm": 6.014054775238037,
"learning_rate": 3.992e-06,
"loss": 0.2943,
"step": 500
},
{
"epoch": 0.033666666666666664,
"grad_norm": 6.240344524383545,
"learning_rate": 3.998896551724138e-06,
"loss": 0.352,
"step": 505
},
{
"epoch": 0.034,
"grad_norm": 5.4214982986450195,
"learning_rate": 3.99751724137931e-06,
"loss": 0.2561,
"step": 510
},
{
"epoch": 0.034333333333333334,
"grad_norm": 5.578619480133057,
"learning_rate": 3.996137931034483e-06,
"loss": 0.2904,
"step": 515
},
{
"epoch": 0.034666666666666665,
"grad_norm": 4.170753002166748,
"learning_rate": 3.994758620689655e-06,
"loss": 0.2783,
"step": 520
},
{
"epoch": 0.035,
"grad_norm": 5.15231990814209,
"learning_rate": 3.993379310344827e-06,
"loss": 0.281,
"step": 525
},
{
"epoch": 0.035333333333333335,
"grad_norm": 5.5472331047058105,
"learning_rate": 3.992e-06,
"loss": 0.2876,
"step": 530
},
{
"epoch": 0.035666666666666666,
"grad_norm": 7.079174041748047,
"learning_rate": 3.990620689655172e-06,
"loss": 0.259,
"step": 535
},
{
"epoch": 0.036,
"grad_norm": 6.044969081878662,
"learning_rate": 3.9892413793103445e-06,
"loss": 0.3019,
"step": 540
},
{
"epoch": 0.036333333333333336,
"grad_norm": 5.32633638381958,
"learning_rate": 3.987862068965517e-06,
"loss": 0.272,
"step": 545
},
{
"epoch": 0.03666666666666667,
"grad_norm": 5.296838760375977,
"learning_rate": 3.986482758620689e-06,
"loss": 0.2502,
"step": 550
},
{
"epoch": 0.037,
"grad_norm": 4.822333812713623,
"learning_rate": 3.985103448275862e-06,
"loss": 0.2736,
"step": 555
},
{
"epoch": 0.037333333333333336,
"grad_norm": 5.437860012054443,
"learning_rate": 3.983724137931034e-06,
"loss": 0.2762,
"step": 560
},
{
"epoch": 0.03766666666666667,
"grad_norm": 5.294252872467041,
"learning_rate": 3.982344827586207e-06,
"loss": 0.3186,
"step": 565
},
{
"epoch": 0.038,
"grad_norm": 5.104955673217773,
"learning_rate": 3.980965517241379e-06,
"loss": 0.2888,
"step": 570
},
{
"epoch": 0.03833333333333333,
"grad_norm": 4.825579643249512,
"learning_rate": 3.9795862068965515e-06,
"loss": 0.3047,
"step": 575
},
{
"epoch": 0.03866666666666667,
"grad_norm": 5.44915246963501,
"learning_rate": 3.978206896551724e-06,
"loss": 0.26,
"step": 580
},
{
"epoch": 0.039,
"grad_norm": 5.301170825958252,
"learning_rate": 3.976827586206896e-06,
"loss": 0.2992,
"step": 585
},
{
"epoch": 0.03933333333333333,
"grad_norm": 5.062160015106201,
"learning_rate": 3.975448275862069e-06,
"loss": 0.297,
"step": 590
},
{
"epoch": 0.03966666666666667,
"grad_norm": 4.502527713775635,
"learning_rate": 3.974068965517241e-06,
"loss": 0.2565,
"step": 595
},
{
"epoch": 0.04,
"grad_norm": 5.063446521759033,
"learning_rate": 3.972689655172414e-06,
"loss": 0.2771,
"step": 600
},
{
"epoch": 0.04033333333333333,
"grad_norm": 4.817838191986084,
"learning_rate": 3.971310344827587e-06,
"loss": 0.2757,
"step": 605
},
{
"epoch": 0.04066666666666666,
"grad_norm": 4.215132236480713,
"learning_rate": 3.969931034482758e-06,
"loss": 0.2727,
"step": 610
},
{
"epoch": 0.041,
"grad_norm": 5.817486763000488,
"learning_rate": 3.968551724137931e-06,
"loss": 0.2668,
"step": 615
},
{
"epoch": 0.04133333333333333,
"grad_norm": 6.173072814941406,
"learning_rate": 3.967172413793104e-06,
"loss": 0.3288,
"step": 620
},
{
"epoch": 0.041666666666666664,
"grad_norm": 4.746486186981201,
"learning_rate": 3.9657931034482755e-06,
"loss": 0.3251,
"step": 625
},
{
"epoch": 0.042,
"grad_norm": 5.031108856201172,
"learning_rate": 3.964413793103448e-06,
"loss": 0.2623,
"step": 630
},
{
"epoch": 0.042333333333333334,
"grad_norm": 5.381565570831299,
"learning_rate": 3.96303448275862e-06,
"loss": 0.2702,
"step": 635
},
{
"epoch": 0.042666666666666665,
"grad_norm": 5.521668434143066,
"learning_rate": 3.961655172413793e-06,
"loss": 0.2871,
"step": 640
},
{
"epoch": 0.043,
"grad_norm": 5.110403060913086,
"learning_rate": 3.960275862068965e-06,
"loss": 0.2616,
"step": 645
},
{
"epoch": 0.043333333333333335,
"grad_norm": 4.950959205627441,
"learning_rate": 3.958896551724138e-06,
"loss": 0.3074,
"step": 650
},
{
"epoch": 0.043666666666666666,
"grad_norm": 4.852400302886963,
"learning_rate": 3.957517241379311e-06,
"loss": 0.2758,
"step": 655
},
{
"epoch": 0.044,
"grad_norm": 6.835658550262451,
"learning_rate": 3.9561379310344825e-06,
"loss": 0.2716,
"step": 660
},
{
"epoch": 0.044333333333333336,
"grad_norm": 5.471399784088135,
"learning_rate": 3.954758620689655e-06,
"loss": 0.3054,
"step": 665
},
{
"epoch": 0.04466666666666667,
"grad_norm": 5.511785507202148,
"learning_rate": 3.953379310344828e-06,
"loss": 0.2631,
"step": 670
},
{
"epoch": 0.045,
"grad_norm": 4.6403350830078125,
"learning_rate": 3.952e-06,
"loss": 0.2521,
"step": 675
},
{
"epoch": 0.04533333333333334,
"grad_norm": 5.979584693908691,
"learning_rate": 3.950620689655172e-06,
"loss": 0.3324,
"step": 680
},
{
"epoch": 0.04566666666666667,
"grad_norm": 6.192240238189697,
"learning_rate": 3.949241379310345e-06,
"loss": 0.3047,
"step": 685
},
{
"epoch": 0.046,
"grad_norm": 4.901388645172119,
"learning_rate": 3.947862068965517e-06,
"loss": 0.2527,
"step": 690
},
{
"epoch": 0.04633333333333333,
"grad_norm": 4.955352783203125,
"learning_rate": 3.946482758620689e-06,
"loss": 0.2754,
"step": 695
},
{
"epoch": 0.04666666666666667,
"grad_norm": 5.042239189147949,
"learning_rate": 3.945103448275862e-06,
"loss": 0.3105,
"step": 700
},
{
"epoch": 0.047,
"grad_norm": 5.504079341888428,
"learning_rate": 3.943724137931035e-06,
"loss": 0.3149,
"step": 705
},
{
"epoch": 0.04733333333333333,
"grad_norm": 5.746407985687256,
"learning_rate": 3.9423448275862065e-06,
"loss": 0.2838,
"step": 710
},
{
"epoch": 0.04766666666666667,
"grad_norm": 4.522651672363281,
"learning_rate": 3.940965517241379e-06,
"loss": 0.3182,
"step": 715
},
{
"epoch": 0.048,
"grad_norm": 5.204158782958984,
"learning_rate": 3.939586206896552e-06,
"loss": 0.3231,
"step": 720
},
{
"epoch": 0.04833333333333333,
"grad_norm": 4.524038791656494,
"learning_rate": 3.938206896551724e-06,
"loss": 0.2711,
"step": 725
},
{
"epoch": 0.048666666666666664,
"grad_norm": 4.675572395324707,
"learning_rate": 3.936827586206896e-06,
"loss": 0.2778,
"step": 730
},
{
"epoch": 0.049,
"grad_norm": 6.818597793579102,
"learning_rate": 3.935448275862069e-06,
"loss": 0.3141,
"step": 735
},
{
"epoch": 0.04933333333333333,
"grad_norm": 4.870628833770752,
"learning_rate": 3.934068965517241e-06,
"loss": 0.2741,
"step": 740
},
{
"epoch": 0.049666666666666665,
"grad_norm": 4.924275875091553,
"learning_rate": 3.9326896551724135e-06,
"loss": 0.2505,
"step": 745
},
{
"epoch": 0.05,
"grad_norm": 4.999272346496582,
"learning_rate": 3.931310344827586e-06,
"loss": 0.2927,
"step": 750
},
{
"epoch": 0.050333333333333334,
"grad_norm": 5.06833028793335,
"learning_rate": 3.929931034482759e-06,
"loss": 0.2852,
"step": 755
},
{
"epoch": 0.050666666666666665,
"grad_norm": 4.892880916595459,
"learning_rate": 3.928551724137931e-06,
"loss": 0.2851,
"step": 760
},
{
"epoch": 0.051,
"grad_norm": 7.122994422912598,
"learning_rate": 3.927172413793103e-06,
"loss": 0.3028,
"step": 765
},
{
"epoch": 0.051333333333333335,
"grad_norm": 4.35882043838501,
"learning_rate": 3.925793103448276e-06,
"loss": 0.2841,
"step": 770
},
{
"epoch": 0.051666666666666666,
"grad_norm": 5.122171401977539,
"learning_rate": 3.924413793103448e-06,
"loss": 0.2419,
"step": 775
},
{
"epoch": 0.052,
"grad_norm": 4.626972198486328,
"learning_rate": 3.92303448275862e-06,
"loss": 0.2852,
"step": 780
},
{
"epoch": 0.052333333333333336,
"grad_norm": 5.0259504318237305,
"learning_rate": 3.921655172413793e-06,
"loss": 0.2915,
"step": 785
},
{
"epoch": 0.05266666666666667,
"grad_norm": 5.1319260597229,
"learning_rate": 3.920275862068966e-06,
"loss": 0.2395,
"step": 790
},
{
"epoch": 0.053,
"grad_norm": 6.219261169433594,
"learning_rate": 3.9188965517241375e-06,
"loss": 0.2563,
"step": 795
},
{
"epoch": 0.05333333333333334,
"grad_norm": 9.795665740966797,
"learning_rate": 3.91751724137931e-06,
"loss": 0.3215,
"step": 800
},
{
"epoch": 0.05366666666666667,
"grad_norm": 5.90310525894165,
"learning_rate": 3.916137931034483e-06,
"loss": 0.2673,
"step": 805
},
{
"epoch": 0.054,
"grad_norm": 5.309284687042236,
"learning_rate": 3.914758620689655e-06,
"loss": 0.2557,
"step": 810
},
{
"epoch": 0.05433333333333333,
"grad_norm": 4.818344593048096,
"learning_rate": 3.913379310344827e-06,
"loss": 0.329,
"step": 815
},
{
"epoch": 0.05466666666666667,
"grad_norm": 5.163924217224121,
"learning_rate": 3.912e-06,
"loss": 0.2812,
"step": 820
},
{
"epoch": 0.055,
"grad_norm": 5.454361438751221,
"learning_rate": 3.910620689655172e-06,
"loss": 0.2778,
"step": 825
},
{
"epoch": 0.05533333333333333,
"grad_norm": 4.6273722648620605,
"learning_rate": 3.9092413793103445e-06,
"loss": 0.2945,
"step": 830
},
{
"epoch": 0.05566666666666667,
"grad_norm": 6.013551235198975,
"learning_rate": 3.907862068965517e-06,
"loss": 0.2624,
"step": 835
},
{
"epoch": 0.056,
"grad_norm": 5.0454020500183105,
"learning_rate": 3.90648275862069e-06,
"loss": 0.2891,
"step": 840
},
{
"epoch": 0.05633333333333333,
"grad_norm": 5.594552993774414,
"learning_rate": 3.9051034482758624e-06,
"loss": 0.2771,
"step": 845
},
{
"epoch": 0.056666666666666664,
"grad_norm": 5.8433098793029785,
"learning_rate": 3.903724137931034e-06,
"loss": 0.2708,
"step": 850
},
{
"epoch": 0.057,
"grad_norm": 5.145798206329346,
"learning_rate": 3.902344827586207e-06,
"loss": 0.28,
"step": 855
},
{
"epoch": 0.05733333333333333,
"grad_norm": 5.682314395904541,
"learning_rate": 3.900965517241379e-06,
"loss": 0.2851,
"step": 860
},
{
"epoch": 0.057666666666666665,
"grad_norm": 4.193619728088379,
"learning_rate": 3.899586206896551e-06,
"loss": 0.2584,
"step": 865
},
{
"epoch": 0.058,
"grad_norm": 5.782890796661377,
"learning_rate": 3.898206896551724e-06,
"loss": 0.2312,
"step": 870
},
{
"epoch": 0.058333333333333334,
"grad_norm": 5.957684516906738,
"learning_rate": 3.896827586206896e-06,
"loss": 0.3455,
"step": 875
},
{
"epoch": 0.058666666666666666,
"grad_norm": 5.391818046569824,
"learning_rate": 3.8954482758620685e-06,
"loss": 0.3104,
"step": 880
},
{
"epoch": 0.059,
"grad_norm": 5.226023197174072,
"learning_rate": 3.894068965517241e-06,
"loss": 0.2548,
"step": 885
},
{
"epoch": 0.059333333333333335,
"grad_norm": 4.266899108886719,
"learning_rate": 3.892689655172414e-06,
"loss": 0.2694,
"step": 890
},
{
"epoch": 0.059666666666666666,
"grad_norm": 5.6492133140563965,
"learning_rate": 3.8913103448275865e-06,
"loss": 0.2958,
"step": 895
},
{
"epoch": 0.06,
"grad_norm": 5.625582695007324,
"learning_rate": 3.889931034482758e-06,
"loss": 0.2865,
"step": 900
},
{
"epoch": 0.060333333333333336,
"grad_norm": 4.771749973297119,
"learning_rate": 3.888551724137931e-06,
"loss": 0.2501,
"step": 905
},
{
"epoch": 0.06066666666666667,
"grad_norm": 5.669247150421143,
"learning_rate": 3.887172413793104e-06,
"loss": 0.2576,
"step": 910
},
{
"epoch": 0.061,
"grad_norm": 4.88996696472168,
"learning_rate": 3.8857931034482755e-06,
"loss": 0.2331,
"step": 915
},
{
"epoch": 0.06133333333333333,
"grad_norm": 4.976366996765137,
"learning_rate": 3.884413793103448e-06,
"loss": 0.2708,
"step": 920
},
{
"epoch": 0.06166666666666667,
"grad_norm": 5.664881229400635,
"learning_rate": 3.88303448275862e-06,
"loss": 0.2602,
"step": 925
},
{
"epoch": 0.062,
"grad_norm": 5.961103439331055,
"learning_rate": 3.8816551724137934e-06,
"loss": 0.2735,
"step": 930
},
{
"epoch": 0.06233333333333333,
"grad_norm": 5.700056552886963,
"learning_rate": 3.880275862068965e-06,
"loss": 0.3038,
"step": 935
},
{
"epoch": 0.06266666666666666,
"grad_norm": 5.433390140533447,
"learning_rate": 3.878896551724138e-06,
"loss": 0.2416,
"step": 940
},
{
"epoch": 0.063,
"grad_norm": 4.917166709899902,
"learning_rate": 3.8775172413793106e-06,
"loss": 0.298,
"step": 945
},
{
"epoch": 0.06333333333333334,
"grad_norm": 5.239724159240723,
"learning_rate": 3.876137931034482e-06,
"loss": 0.2779,
"step": 950
},
{
"epoch": 0.06366666666666666,
"grad_norm": 6.1338276863098145,
"learning_rate": 3.874758620689655e-06,
"loss": 0.2999,
"step": 955
},
{
"epoch": 0.064,
"grad_norm": 4.84409236907959,
"learning_rate": 3.873379310344828e-06,
"loss": 0.3013,
"step": 960
},
{
"epoch": 0.06433333333333334,
"grad_norm": 5.039527416229248,
"learning_rate": 3.8719999999999995e-06,
"loss": 0.2673,
"step": 965
},
{
"epoch": 0.06466666666666666,
"grad_norm": 3.8581650257110596,
"learning_rate": 3.870620689655172e-06,
"loss": 0.2622,
"step": 970
},
{
"epoch": 0.065,
"grad_norm": 5.322226047515869,
"learning_rate": 3.869241379310345e-06,
"loss": 0.3039,
"step": 975
},
{
"epoch": 0.06533333333333333,
"grad_norm": 5.590739727020264,
"learning_rate": 3.8678620689655175e-06,
"loss": 0.3001,
"step": 980
},
{
"epoch": 0.06566666666666666,
"grad_norm": 4.952889919281006,
"learning_rate": 3.866482758620689e-06,
"loss": 0.26,
"step": 985
},
{
"epoch": 0.066,
"grad_norm": 4.7487874031066895,
"learning_rate": 3.865103448275862e-06,
"loss": 0.3203,
"step": 990
},
{
"epoch": 0.06633333333333333,
"grad_norm": 4.813299655914307,
"learning_rate": 3.863724137931035e-06,
"loss": 0.2324,
"step": 995
},
{
"epoch": 0.06666666666666667,
"grad_norm": 5.511954307556152,
"learning_rate": 3.8623448275862065e-06,
"loss": 0.3325,
"step": 1000
},
{
"epoch": 0.06666666666666667,
"eval_loss": 0.25945043563842773,
"eval_runtime": 139.0804,
"eval_samples_per_second": 4.314,
"eval_steps_per_second": 1.079,
"eval_wer": 13.224406433495023,
"step": 1000
},
{
"epoch": 0.067,
"grad_norm": 7.003694534301758,
"learning_rate": 3.860965517241379e-06,
"loss": 0.2561,
"step": 1005
},
{
"epoch": 0.06733333333333333,
"grad_norm": 4.3975348472595215,
"learning_rate": 3.859586206896552e-06,
"loss": 0.2514,
"step": 1010
},
{
"epoch": 0.06766666666666667,
"grad_norm": 6.0388336181640625,
"learning_rate": 3.858206896551724e-06,
"loss": 0.314,
"step": 1015
},
{
"epoch": 0.068,
"grad_norm": 5.268043041229248,
"learning_rate": 3.856827586206896e-06,
"loss": 0.2906,
"step": 1020
},
{
"epoch": 0.06833333333333333,
"grad_norm": 4.4202375411987305,
"learning_rate": 3.855448275862069e-06,
"loss": 0.2776,
"step": 1025
},
{
"epoch": 0.06866666666666667,
"grad_norm": 4.538000583648682,
"learning_rate": 3.8540689655172416e-06,
"loss": 0.2682,
"step": 1030
},
{
"epoch": 0.069,
"grad_norm": 4.032087802886963,
"learning_rate": 3.852689655172413e-06,
"loss": 0.2626,
"step": 1035
},
{
"epoch": 0.06933333333333333,
"grad_norm": 5.682154655456543,
"learning_rate": 3.851310344827586e-06,
"loss": 0.2946,
"step": 1040
},
{
"epoch": 0.06966666666666667,
"grad_norm": 4.8471503257751465,
"learning_rate": 3.849931034482759e-06,
"loss": 0.2579,
"step": 1045
},
{
"epoch": 0.07,
"grad_norm": 5.817379951477051,
"learning_rate": 3.8485517241379305e-06,
"loss": 0.2991,
"step": 1050
},
{
"epoch": 0.07033333333333333,
"grad_norm": 4.270869731903076,
"learning_rate": 3.847172413793103e-06,
"loss": 0.2907,
"step": 1055
},
{
"epoch": 0.07066666666666667,
"grad_norm": 4.319159030914307,
"learning_rate": 3.845793103448276e-06,
"loss": 0.2121,
"step": 1060
},
{
"epoch": 0.071,
"grad_norm": 4.93163537979126,
"learning_rate": 3.844413793103448e-06,
"loss": 0.3029,
"step": 1065
},
{
"epoch": 0.07133333333333333,
"grad_norm": 6.254386901855469,
"learning_rate": 3.84303448275862e-06,
"loss": 0.2434,
"step": 1070
},
{
"epoch": 0.07166666666666667,
"grad_norm": 6.222066402435303,
"learning_rate": 3.841655172413793e-06,
"loss": 0.2908,
"step": 1075
},
{
"epoch": 0.072,
"grad_norm": 5.005525588989258,
"learning_rate": 3.840275862068966e-06,
"loss": 0.2616,
"step": 1080
},
{
"epoch": 0.07233333333333333,
"grad_norm": 4.870983600616455,
"learning_rate": 3.8388965517241374e-06,
"loss": 0.3037,
"step": 1085
},
{
"epoch": 0.07266666666666667,
"grad_norm": 6.23946475982666,
"learning_rate": 3.83751724137931e-06,
"loss": 0.2738,
"step": 1090
},
{
"epoch": 0.073,
"grad_norm": 5.525810241699219,
"learning_rate": 3.836137931034483e-06,
"loss": 0.2528,
"step": 1095
},
{
"epoch": 0.07333333333333333,
"grad_norm": 6.459913730621338,
"learning_rate": 3.834758620689655e-06,
"loss": 0.3016,
"step": 1100
},
{
"epoch": 0.07366666666666667,
"grad_norm": 4.946430206298828,
"learning_rate": 3.833379310344827e-06,
"loss": 0.2482,
"step": 1105
},
{
"epoch": 0.074,
"grad_norm": 3.902616024017334,
"learning_rate": 3.832e-06,
"loss": 0.2747,
"step": 1110
},
{
"epoch": 0.07433333333333333,
"grad_norm": 5.0336809158325195,
"learning_rate": 3.830620689655172e-06,
"loss": 0.2884,
"step": 1115
},
{
"epoch": 0.07466666666666667,
"grad_norm": 5.140960693359375,
"learning_rate": 3.829241379310345e-06,
"loss": 0.2646,
"step": 1120
},
{
"epoch": 0.075,
"grad_norm": 4.812443256378174,
"learning_rate": 3.827862068965517e-06,
"loss": 0.2302,
"step": 1125
},
{
"epoch": 0.07533333333333334,
"grad_norm": 4.4208879470825195,
"learning_rate": 3.82648275862069e-06,
"loss": 0.3537,
"step": 1130
},
{
"epoch": 0.07566666666666666,
"grad_norm": 4.314350128173828,
"learning_rate": 3.825103448275862e-06,
"loss": 0.2998,
"step": 1135
},
{
"epoch": 0.076,
"grad_norm": 4.672874927520752,
"learning_rate": 3.823724137931034e-06,
"loss": 0.2848,
"step": 1140
},
{
"epoch": 0.07633333333333334,
"grad_norm": 4.471819877624512,
"learning_rate": 3.822344827586207e-06,
"loss": 0.2543,
"step": 1145
},
{
"epoch": 0.07666666666666666,
"grad_norm": 4.000628471374512,
"learning_rate": 3.820965517241379e-06,
"loss": 0.3088,
"step": 1150
},
{
"epoch": 0.077,
"grad_norm": 4.908796787261963,
"learning_rate": 3.819586206896551e-06,
"loss": 0.2784,
"step": 1155
},
{
"epoch": 0.07733333333333334,
"grad_norm": 4.480701923370361,
"learning_rate": 3.818206896551724e-06,
"loss": 0.2934,
"step": 1160
},
{
"epoch": 0.07766666666666666,
"grad_norm": 5.785653114318848,
"learning_rate": 3.816827586206897e-06,
"loss": 0.2518,
"step": 1165
},
{
"epoch": 0.078,
"grad_norm": 5.864141464233398,
"learning_rate": 3.815448275862069e-06,
"loss": 0.3377,
"step": 1170
},
{
"epoch": 0.07833333333333334,
"grad_norm": 5.776226997375488,
"learning_rate": 3.8140689655172415e-06,
"loss": 0.3108,
"step": 1175
},
{
"epoch": 0.07866666666666666,
"grad_norm": 5.228902816772461,
"learning_rate": 3.8126896551724138e-06,
"loss": 0.3004,
"step": 1180
},
{
"epoch": 0.079,
"grad_norm": 5.371283531188965,
"learning_rate": 3.811310344827586e-06,
"loss": 0.3444,
"step": 1185
},
{
"epoch": 0.07933333333333334,
"grad_norm": 4.180716514587402,
"learning_rate": 3.8099310344827582e-06,
"loss": 0.2921,
"step": 1190
},
{
"epoch": 0.07966666666666666,
"grad_norm": 4.9367899894714355,
"learning_rate": 3.808551724137931e-06,
"loss": 0.2494,
"step": 1195
},
{
"epoch": 0.08,
"grad_norm": 6.15248966217041,
"learning_rate": 3.807172413793103e-06,
"loss": 0.2862,
"step": 1200
},
{
"epoch": 0.08033333333333334,
"grad_norm": 3.990583896636963,
"learning_rate": 3.8057931034482754e-06,
"loss": 0.2312,
"step": 1205
},
{
"epoch": 0.08066666666666666,
"grad_norm": 5.060131549835205,
"learning_rate": 3.804413793103448e-06,
"loss": 0.2277,
"step": 1210
},
{
"epoch": 0.081,
"grad_norm": 4.86639928817749,
"learning_rate": 3.8030344827586207e-06,
"loss": 0.2859,
"step": 1215
},
{
"epoch": 0.08133333333333333,
"grad_norm": 6.692898750305176,
"learning_rate": 3.801655172413793e-06,
"loss": 0.3708,
"step": 1220
},
{
"epoch": 0.08166666666666667,
"grad_norm": 4.608207702636719,
"learning_rate": 3.8002758620689656e-06,
"loss": 0.2656,
"step": 1225
},
{
"epoch": 0.082,
"grad_norm": 6.591036319732666,
"learning_rate": 3.798896551724138e-06,
"loss": 0.2934,
"step": 1230
},
{
"epoch": 0.08233333333333333,
"grad_norm": 5.0066819190979,
"learning_rate": 3.79751724137931e-06,
"loss": 0.281,
"step": 1235
},
{
"epoch": 0.08266666666666667,
"grad_norm": 6.584254741668701,
"learning_rate": 3.7961379310344827e-06,
"loss": 0.3168,
"step": 1240
},
{
"epoch": 0.083,
"grad_norm": 4.0762248039245605,
"learning_rate": 3.794758620689655e-06,
"loss": 0.2344,
"step": 1245
},
{
"epoch": 0.08333333333333333,
"grad_norm": 4.990663051605225,
"learning_rate": 3.793379310344827e-06,
"loss": 0.2368,
"step": 1250
},
{
"epoch": 0.08366666666666667,
"grad_norm": 4.102662086486816,
"learning_rate": 3.7919999999999994e-06,
"loss": 0.2505,
"step": 1255
},
{
"epoch": 0.084,
"grad_norm": 4.488475322723389,
"learning_rate": 3.7906206896551725e-06,
"loss": 0.2309,
"step": 1260
},
{
"epoch": 0.08433333333333333,
"grad_norm": 4.8415021896362305,
"learning_rate": 3.7892413793103448e-06,
"loss": 0.258,
"step": 1265
},
{
"epoch": 0.08466666666666667,
"grad_norm": 5.566763877868652,
"learning_rate": 3.787862068965517e-06,
"loss": 0.2825,
"step": 1270
},
{
"epoch": 0.085,
"grad_norm": 4.509488582611084,
"learning_rate": 3.7864827586206897e-06,
"loss": 0.2838,
"step": 1275
},
{
"epoch": 0.08533333333333333,
"grad_norm": 6.387430667877197,
"learning_rate": 3.785103448275862e-06,
"loss": 0.2634,
"step": 1280
},
{
"epoch": 0.08566666666666667,
"grad_norm": 5.3504838943481445,
"learning_rate": 3.783724137931034e-06,
"loss": 0.2674,
"step": 1285
},
{
"epoch": 0.086,
"grad_norm": 4.691121578216553,
"learning_rate": 3.782344827586207e-06,
"loss": 0.2884,
"step": 1290
},
{
"epoch": 0.08633333333333333,
"grad_norm": 6.012605667114258,
"learning_rate": 3.780965517241379e-06,
"loss": 0.2448,
"step": 1295
},
{
"epoch": 0.08666666666666667,
"grad_norm": 5.194992542266846,
"learning_rate": 3.7795862068965513e-06,
"loss": 0.2451,
"step": 1300
},
{
"epoch": 0.087,
"grad_norm": 4.778232574462891,
"learning_rate": 3.778206896551724e-06,
"loss": 0.2286,
"step": 1305
},
{
"epoch": 0.08733333333333333,
"grad_norm": 5.313968658447266,
"learning_rate": 3.7768275862068966e-06,
"loss": 0.2541,
"step": 1310
},
{
"epoch": 0.08766666666666667,
"grad_norm": 5.243144512176514,
"learning_rate": 3.775448275862069e-06,
"loss": 0.3151,
"step": 1315
},
{
"epoch": 0.088,
"grad_norm": 4.918150424957275,
"learning_rate": 3.7740689655172415e-06,
"loss": 0.2596,
"step": 1320
},
{
"epoch": 0.08833333333333333,
"grad_norm": 6.457653522491455,
"learning_rate": 3.7726896551724137e-06,
"loss": 0.3397,
"step": 1325
},
{
"epoch": 0.08866666666666667,
"grad_norm": 4.918553352355957,
"learning_rate": 3.771310344827586e-06,
"loss": 0.237,
"step": 1330
},
{
"epoch": 0.089,
"grad_norm": 5.038596153259277,
"learning_rate": 3.769931034482758e-06,
"loss": 0.2729,
"step": 1335
},
{
"epoch": 0.08933333333333333,
"grad_norm": 5.273203372955322,
"learning_rate": 3.768551724137931e-06,
"loss": 0.2552,
"step": 1340
},
{
"epoch": 0.08966666666666667,
"grad_norm": 4.90943717956543,
"learning_rate": 3.767172413793103e-06,
"loss": 0.274,
"step": 1345
},
{
"epoch": 0.09,
"grad_norm": 5.091463088989258,
"learning_rate": 3.7657931034482753e-06,
"loss": 0.2795,
"step": 1350
},
{
"epoch": 0.09033333333333333,
"grad_norm": 4.01015043258667,
"learning_rate": 3.7644137931034484e-06,
"loss": 0.2526,
"step": 1355
},
{
"epoch": 0.09066666666666667,
"grad_norm": 4.550036430358887,
"learning_rate": 3.7630344827586207e-06,
"loss": 0.2465,
"step": 1360
},
{
"epoch": 0.091,
"grad_norm": 5.008514404296875,
"learning_rate": 3.761655172413793e-06,
"loss": 0.2468,
"step": 1365
},
{
"epoch": 0.09133333333333334,
"grad_norm": 4.9785614013671875,
"learning_rate": 3.7602758620689656e-06,
"loss": 0.2339,
"step": 1370
},
{
"epoch": 0.09166666666666666,
"grad_norm": 4.061981678009033,
"learning_rate": 3.758896551724138e-06,
"loss": 0.2275,
"step": 1375
},
{
"epoch": 0.092,
"grad_norm": 6.866710662841797,
"learning_rate": 3.75751724137931e-06,
"loss": 0.3138,
"step": 1380
},
{
"epoch": 0.09233333333333334,
"grad_norm": 5.299499034881592,
"learning_rate": 3.7561379310344827e-06,
"loss": 0.2687,
"step": 1385
},
{
"epoch": 0.09266666666666666,
"grad_norm": 5.11612606048584,
"learning_rate": 3.754758620689655e-06,
"loss": 0.3068,
"step": 1390
},
{
"epoch": 0.093,
"grad_norm": 4.906528949737549,
"learning_rate": 3.753379310344827e-06,
"loss": 0.2683,
"step": 1395
},
{
"epoch": 0.09333333333333334,
"grad_norm": 4.881203651428223,
"learning_rate": 3.7519999999999994e-06,
"loss": 0.2192,
"step": 1400
},
{
"epoch": 0.09366666666666666,
"grad_norm": 5.611764430999756,
"learning_rate": 3.7506206896551725e-06,
"loss": 0.2534,
"step": 1405
},
{
"epoch": 0.094,
"grad_norm": 4.44486665725708,
"learning_rate": 3.7492413793103447e-06,
"loss": 0.2349,
"step": 1410
},
{
"epoch": 0.09433333333333334,
"grad_norm": 4.563302993774414,
"learning_rate": 3.747862068965517e-06,
"loss": 0.261,
"step": 1415
},
{
"epoch": 0.09466666666666666,
"grad_norm": 4.244008541107178,
"learning_rate": 3.7464827586206896e-06,
"loss": 0.2793,
"step": 1420
},
{
"epoch": 0.095,
"grad_norm": 5.097350120544434,
"learning_rate": 3.745103448275862e-06,
"loss": 0.291,
"step": 1425
},
{
"epoch": 0.09533333333333334,
"grad_norm": 5.585333824157715,
"learning_rate": 3.743724137931034e-06,
"loss": 0.2653,
"step": 1430
},
{
"epoch": 0.09566666666666666,
"grad_norm": 3.88558030128479,
"learning_rate": 3.7423448275862068e-06,
"loss": 0.3022,
"step": 1435
},
{
"epoch": 0.096,
"grad_norm": 4.54000186920166,
"learning_rate": 3.740965517241379e-06,
"loss": 0.2747,
"step": 1440
},
{
"epoch": 0.09633333333333334,
"grad_norm": 3.8508284091949463,
"learning_rate": 3.7395862068965512e-06,
"loss": 0.2619,
"step": 1445
},
{
"epoch": 0.09666666666666666,
"grad_norm": 4.385409355163574,
"learning_rate": 3.7382068965517243e-06,
"loss": 0.2479,
"step": 1450
},
{
"epoch": 0.097,
"grad_norm": 5.179412841796875,
"learning_rate": 3.7368275862068965e-06,
"loss": 0.2886,
"step": 1455
},
{
"epoch": 0.09733333333333333,
"grad_norm": 5.31596040725708,
"learning_rate": 3.7354482758620688e-06,
"loss": 0.2543,
"step": 1460
},
{
"epoch": 0.09766666666666667,
"grad_norm": 4.653109073638916,
"learning_rate": 3.7340689655172414e-06,
"loss": 0.2662,
"step": 1465
},
{
"epoch": 0.098,
"grad_norm": 5.061960220336914,
"learning_rate": 3.7326896551724137e-06,
"loss": 0.3106,
"step": 1470
},
{
"epoch": 0.09833333333333333,
"grad_norm": 4.722198009490967,
"learning_rate": 3.731310344827586e-06,
"loss": 0.2542,
"step": 1475
},
{
"epoch": 0.09866666666666667,
"grad_norm": 5.234065055847168,
"learning_rate": 3.729931034482758e-06,
"loss": 0.2314,
"step": 1480
},
{
"epoch": 0.099,
"grad_norm": 5.877997875213623,
"learning_rate": 3.728551724137931e-06,
"loss": 0.2618,
"step": 1485
},
{
"epoch": 0.09933333333333333,
"grad_norm": 5.040881633758545,
"learning_rate": 3.727172413793103e-06,
"loss": 0.2594,
"step": 1490
},
{
"epoch": 0.09966666666666667,
"grad_norm": 4.136047840118408,
"learning_rate": 3.7257931034482757e-06,
"loss": 0.2977,
"step": 1495
},
{
"epoch": 0.1,
"grad_norm": 4.5455522537231445,
"learning_rate": 3.7244137931034484e-06,
"loss": 0.2542,
"step": 1500
},
{
"epoch": 0.10033333333333333,
"grad_norm": 4.754386901855469,
"learning_rate": 3.7230344827586206e-06,
"loss": 0.2584,
"step": 1505
},
{
"epoch": 0.10066666666666667,
"grad_norm": 5.083920478820801,
"learning_rate": 3.721655172413793e-06,
"loss": 0.2453,
"step": 1510
},
{
"epoch": 0.101,
"grad_norm": 5.068266868591309,
"learning_rate": 3.7202758620689655e-06,
"loss": 0.3788,
"step": 1515
},
{
"epoch": 0.10133333333333333,
"grad_norm": 4.6681718826293945,
"learning_rate": 3.7188965517241377e-06,
"loss": 0.3632,
"step": 1520
},
{
"epoch": 0.10166666666666667,
"grad_norm": 4.75352144241333,
"learning_rate": 3.71751724137931e-06,
"loss": 0.2456,
"step": 1525
},
{
"epoch": 0.102,
"grad_norm": 4.979728698730469,
"learning_rate": 3.7161379310344826e-06,
"loss": 0.2734,
"step": 1530
},
{
"epoch": 0.10233333333333333,
"grad_norm": 4.664429664611816,
"learning_rate": 3.714758620689655e-06,
"loss": 0.2404,
"step": 1535
},
{
"epoch": 0.10266666666666667,
"grad_norm": 4.773996353149414,
"learning_rate": 3.713379310344827e-06,
"loss": 0.2234,
"step": 1540
},
{
"epoch": 0.103,
"grad_norm": 5.295383453369141,
"learning_rate": 3.712e-06,
"loss": 0.2996,
"step": 1545
},
{
"epoch": 0.10333333333333333,
"grad_norm": 5.3843674659729,
"learning_rate": 3.7106206896551724e-06,
"loss": 0.2469,
"step": 1550
},
{
"epoch": 0.10366666666666667,
"grad_norm": 4.073385715484619,
"learning_rate": 3.7092413793103447e-06,
"loss": 0.2974,
"step": 1555
},
{
"epoch": 0.104,
"grad_norm": 5.766740322113037,
"learning_rate": 3.707862068965517e-06,
"loss": 0.3043,
"step": 1560
},
{
"epoch": 0.10433333333333333,
"grad_norm": 4.732587814331055,
"learning_rate": 3.7064827586206896e-06,
"loss": 0.2583,
"step": 1565
},
{
"epoch": 0.10466666666666667,
"grad_norm": 4.8575263023376465,
"learning_rate": 3.705103448275862e-06,
"loss": 0.3531,
"step": 1570
},
{
"epoch": 0.105,
"grad_norm": 5.241917133331299,
"learning_rate": 3.703724137931034e-06,
"loss": 0.2694,
"step": 1575
},
{
"epoch": 0.10533333333333333,
"grad_norm": 5.0814433097839355,
"learning_rate": 3.7023448275862067e-06,
"loss": 0.2592,
"step": 1580
},
{
"epoch": 0.10566666666666667,
"grad_norm": 5.138918876647949,
"learning_rate": 3.700965517241379e-06,
"loss": 0.2356,
"step": 1585
},
{
"epoch": 0.106,
"grad_norm": 4.869070529937744,
"learning_rate": 3.6995862068965516e-06,
"loss": 0.2821,
"step": 1590
},
{
"epoch": 0.10633333333333334,
"grad_norm": 3.5198214054107666,
"learning_rate": 3.6982068965517243e-06,
"loss": 0.2631,
"step": 1595
},
{
"epoch": 0.10666666666666667,
"grad_norm": 5.768096923828125,
"learning_rate": 3.6968275862068965e-06,
"loss": 0.2592,
"step": 1600
},
{
"epoch": 0.107,
"grad_norm": 5.376443862915039,
"learning_rate": 3.6954482758620687e-06,
"loss": 0.2922,
"step": 1605
},
{
"epoch": 0.10733333333333334,
"grad_norm": 4.455847263336182,
"learning_rate": 3.6940689655172414e-06,
"loss": 0.3444,
"step": 1610
},
{
"epoch": 0.10766666666666666,
"grad_norm": 5.24611234664917,
"learning_rate": 3.6926896551724136e-06,
"loss": 0.2527,
"step": 1615
},
{
"epoch": 0.108,
"grad_norm": 4.859856128692627,
"learning_rate": 3.691310344827586e-06,
"loss": 0.3186,
"step": 1620
},
{
"epoch": 0.10833333333333334,
"grad_norm": 4.707637310028076,
"learning_rate": 3.6899310344827585e-06,
"loss": 0.2355,
"step": 1625
},
{
"epoch": 0.10866666666666666,
"grad_norm": 4.985675811767578,
"learning_rate": 3.6885517241379308e-06,
"loss": 0.2337,
"step": 1630
},
{
"epoch": 0.109,
"grad_norm": 4.2930827140808105,
"learning_rate": 3.687172413793103e-06,
"loss": 0.2256,
"step": 1635
},
{
"epoch": 0.10933333333333334,
"grad_norm": 5.156063079833984,
"learning_rate": 3.6857931034482757e-06,
"loss": 0.2643,
"step": 1640
},
{
"epoch": 0.10966666666666666,
"grad_norm": 5.340132236480713,
"learning_rate": 3.6844137931034483e-06,
"loss": 0.2794,
"step": 1645
},
{
"epoch": 0.11,
"grad_norm": 4.3220319747924805,
"learning_rate": 3.6830344827586206e-06,
"loss": 0.2199,
"step": 1650
},
{
"epoch": 0.11033333333333334,
"grad_norm": 5.682506561279297,
"learning_rate": 3.681655172413793e-06,
"loss": 0.2873,
"step": 1655
},
{
"epoch": 0.11066666666666666,
"grad_norm": 5.9761176109313965,
"learning_rate": 3.6802758620689655e-06,
"loss": 0.2611,
"step": 1660
},
{
"epoch": 0.111,
"grad_norm": 4.950174331665039,
"learning_rate": 3.6788965517241377e-06,
"loss": 0.2557,
"step": 1665
},
{
"epoch": 0.11133333333333334,
"grad_norm": 5.053467273712158,
"learning_rate": 3.67751724137931e-06,
"loss": 0.2746,
"step": 1670
},
{
"epoch": 0.11166666666666666,
"grad_norm": 4.110051155090332,
"learning_rate": 3.6761379310344826e-06,
"loss": 0.2382,
"step": 1675
},
{
"epoch": 0.112,
"grad_norm": 4.34512186050415,
"learning_rate": 3.674758620689655e-06,
"loss": 0.2822,
"step": 1680
},
{
"epoch": 0.11233333333333333,
"grad_norm": 4.521066188812256,
"learning_rate": 3.6733793103448275e-06,
"loss": 0.2488,
"step": 1685
},
{
"epoch": 0.11266666666666666,
"grad_norm": 7.6328959465026855,
"learning_rate": 3.672e-06,
"loss": 0.2313,
"step": 1690
},
{
"epoch": 0.113,
"grad_norm": 4.275876998901367,
"learning_rate": 3.6706206896551724e-06,
"loss": 0.2901,
"step": 1695
},
{
"epoch": 0.11333333333333333,
"grad_norm": 4.789595603942871,
"learning_rate": 3.6692413793103446e-06,
"loss": 0.2413,
"step": 1700
},
{
"epoch": 0.11366666666666667,
"grad_norm": 4.3701581954956055,
"learning_rate": 3.667862068965517e-06,
"loss": 0.2769,
"step": 1705
},
{
"epoch": 0.114,
"grad_norm": 5.730388164520264,
"learning_rate": 3.6664827586206895e-06,
"loss": 0.2637,
"step": 1710
},
{
"epoch": 0.11433333333333333,
"grad_norm": 4.73004150390625,
"learning_rate": 3.6651034482758618e-06,
"loss": 0.2917,
"step": 1715
},
{
"epoch": 0.11466666666666667,
"grad_norm": 4.420704364776611,
"learning_rate": 3.663724137931034e-06,
"loss": 0.2515,
"step": 1720
},
{
"epoch": 0.115,
"grad_norm": 5.096787929534912,
"learning_rate": 3.6623448275862067e-06,
"loss": 0.2771,
"step": 1725
},
{
"epoch": 0.11533333333333333,
"grad_norm": 4.935615539550781,
"learning_rate": 3.6609655172413793e-06,
"loss": 0.2652,
"step": 1730
},
{
"epoch": 0.11566666666666667,
"grad_norm": 5.216274738311768,
"learning_rate": 3.6595862068965516e-06,
"loss": 0.2334,
"step": 1735
},
{
"epoch": 0.116,
"grad_norm": 4.653584957122803,
"learning_rate": 3.6582068965517242e-06,
"loss": 0.2181,
"step": 1740
},
{
"epoch": 0.11633333333333333,
"grad_norm": 5.3647308349609375,
"learning_rate": 3.6568275862068965e-06,
"loss": 0.2554,
"step": 1745
},
{
"epoch": 0.11666666666666667,
"grad_norm": 4.96422004699707,
"learning_rate": 3.6554482758620687e-06,
"loss": 0.2996,
"step": 1750
},
{
"epoch": 0.117,
"grad_norm": 4.40029764175415,
"learning_rate": 3.6540689655172414e-06,
"loss": 0.2818,
"step": 1755
},
{
"epoch": 0.11733333333333333,
"grad_norm": 5.796911716461182,
"learning_rate": 3.6526896551724136e-06,
"loss": 0.2599,
"step": 1760
},
{
"epoch": 0.11766666666666667,
"grad_norm": 5.33125114440918,
"learning_rate": 3.651310344827586e-06,
"loss": 0.2605,
"step": 1765
},
{
"epoch": 0.118,
"grad_norm": 4.7566375732421875,
"learning_rate": 3.6499310344827585e-06,
"loss": 0.2126,
"step": 1770
},
{
"epoch": 0.11833333333333333,
"grad_norm": 5.305136203765869,
"learning_rate": 3.6485517241379307e-06,
"loss": 0.289,
"step": 1775
},
{
"epoch": 0.11866666666666667,
"grad_norm": 3.6046323776245117,
"learning_rate": 3.6471724137931034e-06,
"loss": 0.2685,
"step": 1780
},
{
"epoch": 0.119,
"grad_norm": 4.755594730377197,
"learning_rate": 3.6457931034482756e-06,
"loss": 0.2511,
"step": 1785
},
{
"epoch": 0.11933333333333333,
"grad_norm": 3.969334125518799,
"learning_rate": 3.6444137931034483e-06,
"loss": 0.2285,
"step": 1790
},
{
"epoch": 0.11966666666666667,
"grad_norm": 5.696120738983154,
"learning_rate": 3.6430344827586205e-06,
"loss": 0.3646,
"step": 1795
},
{
"epoch": 0.12,
"grad_norm": 4.790066719055176,
"learning_rate": 3.6416551724137928e-06,
"loss": 0.2953,
"step": 1800
},
{
"epoch": 0.12033333333333333,
"grad_norm": 4.5103254318237305,
"learning_rate": 3.6402758620689654e-06,
"loss": 0.2181,
"step": 1805
},
{
"epoch": 0.12066666666666667,
"grad_norm": 5.52761697769165,
"learning_rate": 3.6388965517241377e-06,
"loss": 0.264,
"step": 1810
},
{
"epoch": 0.121,
"grad_norm": 4.574708938598633,
"learning_rate": 3.63751724137931e-06,
"loss": 0.246,
"step": 1815
},
{
"epoch": 0.12133333333333333,
"grad_norm": 4.654568195343018,
"learning_rate": 3.6361379310344826e-06,
"loss": 0.2545,
"step": 1820
},
{
"epoch": 0.12166666666666667,
"grad_norm": 4.912635803222656,
"learning_rate": 3.6347586206896552e-06,
"loss": 0.2144,
"step": 1825
},
{
"epoch": 0.122,
"grad_norm": 4.409463405609131,
"learning_rate": 3.6333793103448275e-06,
"loss": 0.2722,
"step": 1830
},
{
"epoch": 0.12233333333333334,
"grad_norm": 4.783137798309326,
"learning_rate": 3.632e-06,
"loss": 0.2539,
"step": 1835
},
{
"epoch": 0.12266666666666666,
"grad_norm": 3.953408718109131,
"learning_rate": 3.6306206896551724e-06,
"loss": 0.2511,
"step": 1840
},
{
"epoch": 0.123,
"grad_norm": 5.506841659545898,
"learning_rate": 3.6292413793103446e-06,
"loss": 0.3607,
"step": 1845
},
{
"epoch": 0.12333333333333334,
"grad_norm": 5.287622451782227,
"learning_rate": 3.6278620689655173e-06,
"loss": 0.2571,
"step": 1850
},
{
"epoch": 0.12366666666666666,
"grad_norm": 4.334446430206299,
"learning_rate": 3.6264827586206895e-06,
"loss": 0.2215,
"step": 1855
},
{
"epoch": 0.124,
"grad_norm": 3.9684669971466064,
"learning_rate": 3.6251034482758617e-06,
"loss": 0.2143,
"step": 1860
},
{
"epoch": 0.12433333333333334,
"grad_norm": 5.23777437210083,
"learning_rate": 3.623724137931034e-06,
"loss": 0.2634,
"step": 1865
},
{
"epoch": 0.12466666666666666,
"grad_norm": 4.917655944824219,
"learning_rate": 3.6223448275862066e-06,
"loss": 0.2587,
"step": 1870
},
{
"epoch": 0.125,
"grad_norm": 3.844343900680542,
"learning_rate": 3.6209655172413793e-06,
"loss": 0.279,
"step": 1875
},
{
"epoch": 0.12533333333333332,
"grad_norm": 4.376672267913818,
"learning_rate": 3.6195862068965515e-06,
"loss": 0.2553,
"step": 1880
},
{
"epoch": 0.12566666666666668,
"grad_norm": 5.425791263580322,
"learning_rate": 3.618206896551724e-06,
"loss": 0.2259,
"step": 1885
},
{
"epoch": 0.126,
"grad_norm": 4.359671592712402,
"learning_rate": 3.6168275862068964e-06,
"loss": 0.2285,
"step": 1890
},
{
"epoch": 0.12633333333333333,
"grad_norm": 5.705598831176758,
"learning_rate": 3.6154482758620687e-06,
"loss": 0.2865,
"step": 1895
},
{
"epoch": 0.12666666666666668,
"grad_norm": 4.676022529602051,
"learning_rate": 3.6140689655172413e-06,
"loss": 0.249,
"step": 1900
},
{
"epoch": 0.127,
"grad_norm": 5.047347545623779,
"learning_rate": 3.6126896551724136e-06,
"loss": 0.2186,
"step": 1905
},
{
"epoch": 0.12733333333333333,
"grad_norm": 7.939009666442871,
"learning_rate": 3.611310344827586e-06,
"loss": 0.3171,
"step": 1910
},
{
"epoch": 0.12766666666666668,
"grad_norm": 4.111150741577148,
"learning_rate": 3.6099310344827585e-06,
"loss": 0.3106,
"step": 1915
},
{
"epoch": 0.128,
"grad_norm": 4.176487445831299,
"learning_rate": 3.608551724137931e-06,
"loss": 0.2749,
"step": 1920
},
{
"epoch": 0.12833333333333333,
"grad_norm": 3.7570016384124756,
"learning_rate": 3.6071724137931034e-06,
"loss": 0.2301,
"step": 1925
},
{
"epoch": 0.12866666666666668,
"grad_norm": 4.7978997230529785,
"learning_rate": 3.605793103448276e-06,
"loss": 0.2145,
"step": 1930
},
{
"epoch": 0.129,
"grad_norm": 5.743479251861572,
"learning_rate": 3.6044137931034483e-06,
"loss": 0.2948,
"step": 1935
},
{
"epoch": 0.12933333333333333,
"grad_norm": 5.575948238372803,
"learning_rate": 3.6030344827586205e-06,
"loss": 0.3013,
"step": 1940
},
{
"epoch": 0.12966666666666668,
"grad_norm": 4.671169281005859,
"learning_rate": 3.6016551724137927e-06,
"loss": 0.2661,
"step": 1945
},
{
"epoch": 0.13,
"grad_norm": 4.274127006530762,
"learning_rate": 3.6002758620689654e-06,
"loss": 0.2818,
"step": 1950
},
{
"epoch": 0.13033333333333333,
"grad_norm": 5.743216514587402,
"learning_rate": 3.5988965517241376e-06,
"loss": 0.2928,
"step": 1955
},
{
"epoch": 0.13066666666666665,
"grad_norm": 4.869400501251221,
"learning_rate": 3.59751724137931e-06,
"loss": 0.3071,
"step": 1960
},
{
"epoch": 0.131,
"grad_norm": 3.830754041671753,
"learning_rate": 3.5961379310344825e-06,
"loss": 0.2607,
"step": 1965
},
{
"epoch": 0.13133333333333333,
"grad_norm": 4.715906143188477,
"learning_rate": 3.594758620689655e-06,
"loss": 0.2491,
"step": 1970
},
{
"epoch": 0.13166666666666665,
"grad_norm": 3.761927604675293,
"learning_rate": 3.5933793103448274e-06,
"loss": 0.2198,
"step": 1975
},
{
"epoch": 0.132,
"grad_norm": 6.094804286956787,
"learning_rate": 3.592e-06,
"loss": 0.2619,
"step": 1980
},
{
"epoch": 0.13233333333333333,
"grad_norm": 3.8962111473083496,
"learning_rate": 3.5906206896551723e-06,
"loss": 0.2507,
"step": 1985
},
{
"epoch": 0.13266666666666665,
"grad_norm": 3.830124855041504,
"learning_rate": 3.5892413793103446e-06,
"loss": 0.1978,
"step": 1990
},
{
"epoch": 0.133,
"grad_norm": 6.0126519203186035,
"learning_rate": 3.5878620689655172e-06,
"loss": 0.2732,
"step": 1995
},
{
"epoch": 0.13333333333333333,
"grad_norm": 5.614018440246582,
"learning_rate": 3.5864827586206895e-06,
"loss": 0.2506,
"step": 2000
},
{
"epoch": 0.13333333333333333,
"eval_loss": 0.2459840327501297,
"eval_runtime": 139.0467,
"eval_samples_per_second": 4.315,
"eval_steps_per_second": 1.079,
"eval_wer": 12.841460301250956,
"step": 2000
},
{
"epoch": 0.13366666666666666,
"grad_norm": 4.154967308044434,
"learning_rate": 3.5851034482758617e-06,
"loss": 0.2197,
"step": 2005
},
{
"epoch": 0.134,
"grad_norm": 4.249428749084473,
"learning_rate": 3.583724137931034e-06,
"loss": 0.2279,
"step": 2010
},
{
"epoch": 0.13433333333333333,
"grad_norm": 4.329864501953125,
"learning_rate": 3.582344827586207e-06,
"loss": 0.2307,
"step": 2015
},
{
"epoch": 0.13466666666666666,
"grad_norm": 4.257216453552246,
"learning_rate": 3.5809655172413793e-06,
"loss": 0.235,
"step": 2020
},
{
"epoch": 0.135,
"grad_norm": 5.581985950469971,
"learning_rate": 3.5795862068965515e-06,
"loss": 0.2293,
"step": 2025
},
{
"epoch": 0.13533333333333333,
"grad_norm": 4.35102653503418,
"learning_rate": 3.578206896551724e-06,
"loss": 0.2495,
"step": 2030
},
{
"epoch": 0.13566666666666666,
"grad_norm": 5.571939945220947,
"learning_rate": 3.5768275862068964e-06,
"loss": 0.2917,
"step": 2035
},
{
"epoch": 0.136,
"grad_norm": 4.097556114196777,
"learning_rate": 3.5754482758620686e-06,
"loss": 0.2618,
"step": 2040
},
{
"epoch": 0.13633333333333333,
"grad_norm": 5.674405097961426,
"learning_rate": 3.5740689655172413e-06,
"loss": 0.2504,
"step": 2045
},
{
"epoch": 0.13666666666666666,
"grad_norm": 4.936873912811279,
"learning_rate": 3.5726896551724135e-06,
"loss": 0.2538,
"step": 2050
},
{
"epoch": 0.137,
"grad_norm": 5.362658977508545,
"learning_rate": 3.5713103448275858e-06,
"loss": 0.2302,
"step": 2055
},
{
"epoch": 0.13733333333333334,
"grad_norm": 4.990427017211914,
"learning_rate": 3.569931034482759e-06,
"loss": 0.2876,
"step": 2060
},
{
"epoch": 0.13766666666666666,
"grad_norm": 5.1737775802612305,
"learning_rate": 3.568551724137931e-06,
"loss": 0.2783,
"step": 2065
},
{
"epoch": 0.138,
"grad_norm": 4.937466621398926,
"learning_rate": 3.5671724137931033e-06,
"loss": 0.2213,
"step": 2070
},
{
"epoch": 0.13833333333333334,
"grad_norm": 4.43440580368042,
"learning_rate": 3.565793103448276e-06,
"loss": 0.2015,
"step": 2075
},
{
"epoch": 0.13866666666666666,
"grad_norm": 4.639272689819336,
"learning_rate": 3.5644137931034482e-06,
"loss": 0.2258,
"step": 2080
},
{
"epoch": 0.139,
"grad_norm": 5.828295707702637,
"learning_rate": 3.5630344827586205e-06,
"loss": 0.2736,
"step": 2085
},
{
"epoch": 0.13933333333333334,
"grad_norm": 4.2289204597473145,
"learning_rate": 3.5616551724137927e-06,
"loss": 0.2581,
"step": 2090
},
{
"epoch": 0.13966666666666666,
"grad_norm": 5.363533020019531,
"learning_rate": 3.5602758620689653e-06,
"loss": 0.2715,
"step": 2095
},
{
"epoch": 0.14,
"grad_norm": 3.8318686485290527,
"learning_rate": 3.5588965517241376e-06,
"loss": 0.2433,
"step": 2100
},
{
"epoch": 0.14033333333333334,
"grad_norm": 5.367889881134033,
"learning_rate": 3.55751724137931e-06,
"loss": 0.2187,
"step": 2105
},
{
"epoch": 0.14066666666666666,
"grad_norm": 3.9531843662261963,
"learning_rate": 3.556137931034483e-06,
"loss": 0.2192,
"step": 2110
},
{
"epoch": 0.141,
"grad_norm": 4.264510631561279,
"learning_rate": 3.554758620689655e-06,
"loss": 0.2598,
"step": 2115
},
{
"epoch": 0.14133333333333334,
"grad_norm": 6.129741668701172,
"learning_rate": 3.5533793103448274e-06,
"loss": 0.3208,
"step": 2120
},
{
"epoch": 0.14166666666666666,
"grad_norm": 4.258221626281738,
"learning_rate": 3.552e-06,
"loss": 0.2139,
"step": 2125
},
{
"epoch": 0.142,
"grad_norm": 4.926301956176758,
"learning_rate": 3.5506206896551723e-06,
"loss": 0.2869,
"step": 2130
},
{
"epoch": 0.14233333333333334,
"grad_norm": 4.224712371826172,
"learning_rate": 3.5492413793103445e-06,
"loss": 0.2594,
"step": 2135
},
{
"epoch": 0.14266666666666666,
"grad_norm": 5.91023063659668,
"learning_rate": 3.547862068965517e-06,
"loss": 0.2365,
"step": 2140
},
{
"epoch": 0.143,
"grad_norm": 5.212203025817871,
"learning_rate": 3.5464827586206894e-06,
"loss": 0.2513,
"step": 2145
},
{
"epoch": 0.14333333333333334,
"grad_norm": 4.251794815063477,
"learning_rate": 3.5451034482758617e-06,
"loss": 0.2229,
"step": 2150
},
{
"epoch": 0.14366666666666666,
"grad_norm": 5.3950018882751465,
"learning_rate": 3.5437241379310347e-06,
"loss": 0.2609,
"step": 2155
},
{
"epoch": 0.144,
"grad_norm": 5.376851558685303,
"learning_rate": 3.542344827586207e-06,
"loss": 0.2746,
"step": 2160
},
{
"epoch": 0.14433333333333334,
"grad_norm": 5.448855876922607,
"learning_rate": 3.540965517241379e-06,
"loss": 0.246,
"step": 2165
},
{
"epoch": 0.14466666666666667,
"grad_norm": 4.98777961730957,
"learning_rate": 3.5395862068965514e-06,
"loss": 0.288,
"step": 2170
},
{
"epoch": 0.145,
"grad_norm": 5.549157619476318,
"learning_rate": 3.538206896551724e-06,
"loss": 0.3256,
"step": 2175
},
{
"epoch": 0.14533333333333334,
"grad_norm": 4.930784702301025,
"learning_rate": 3.5368275862068963e-06,
"loss": 0.2619,
"step": 2180
},
{
"epoch": 0.14566666666666667,
"grad_norm": 4.573493957519531,
"learning_rate": 3.5354482758620686e-06,
"loss": 0.2702,
"step": 2185
},
{
"epoch": 0.146,
"grad_norm": 5.128422260284424,
"learning_rate": 3.5340689655172412e-06,
"loss": 0.239,
"step": 2190
},
{
"epoch": 0.14633333333333334,
"grad_norm": 4.46385383605957,
"learning_rate": 3.5326896551724135e-06,
"loss": 0.2256,
"step": 2195
},
{
"epoch": 0.14666666666666667,
"grad_norm": 4.944850444793701,
"learning_rate": 3.5313103448275857e-06,
"loss": 0.2419,
"step": 2200
},
{
"epoch": 0.147,
"grad_norm": 4.948612689971924,
"learning_rate": 3.529931034482759e-06,
"loss": 0.23,
"step": 2205
},
{
"epoch": 0.14733333333333334,
"grad_norm": 5.370577812194824,
"learning_rate": 3.528551724137931e-06,
"loss": 0.2468,
"step": 2210
},
{
"epoch": 0.14766666666666667,
"grad_norm": 5.873105525970459,
"learning_rate": 3.5271724137931033e-06,
"loss": 0.2693,
"step": 2215
},
{
"epoch": 0.148,
"grad_norm": 4.9380669593811035,
"learning_rate": 3.525793103448276e-06,
"loss": 0.2683,
"step": 2220
},
{
"epoch": 0.14833333333333334,
"grad_norm": 4.294095039367676,
"learning_rate": 3.524413793103448e-06,
"loss": 0.2156,
"step": 2225
},
{
"epoch": 0.14866666666666667,
"grad_norm": 5.501603126525879,
"learning_rate": 3.5230344827586204e-06,
"loss": 0.2744,
"step": 2230
},
{
"epoch": 0.149,
"grad_norm": 4.894035816192627,
"learning_rate": 3.5216551724137926e-06,
"loss": 0.3078,
"step": 2235
},
{
"epoch": 0.14933333333333335,
"grad_norm": 6.057002067565918,
"learning_rate": 3.5202758620689653e-06,
"loss": 0.2876,
"step": 2240
},
{
"epoch": 0.14966666666666667,
"grad_norm": 4.819766044616699,
"learning_rate": 3.5188965517241375e-06,
"loss": 0.2505,
"step": 2245
},
{
"epoch": 0.15,
"grad_norm": 4.762735366821289,
"learning_rate": 3.51751724137931e-06,
"loss": 0.2172,
"step": 2250
},
{
"epoch": 0.15033333333333335,
"grad_norm": 4.795835018157959,
"learning_rate": 3.516137931034483e-06,
"loss": 0.262,
"step": 2255
},
{
"epoch": 0.15066666666666667,
"grad_norm": 5.1595988273620605,
"learning_rate": 3.514758620689655e-06,
"loss": 0.2576,
"step": 2260
},
{
"epoch": 0.151,
"grad_norm": 4.844261646270752,
"learning_rate": 3.5133793103448273e-06,
"loss": 0.2359,
"step": 2265
},
{
"epoch": 0.15133333333333332,
"grad_norm": 5.151372909545898,
"learning_rate": 3.512e-06,
"loss": 0.2517,
"step": 2270
},
{
"epoch": 0.15166666666666667,
"grad_norm": 4.588495254516602,
"learning_rate": 3.5106206896551722e-06,
"loss": 0.2623,
"step": 2275
},
{
"epoch": 0.152,
"grad_norm": 5.8936238288879395,
"learning_rate": 3.5092413793103445e-06,
"loss": 0.2997,
"step": 2280
},
{
"epoch": 0.15233333333333332,
"grad_norm": 4.8859429359436035,
"learning_rate": 3.507862068965517e-06,
"loss": 0.2375,
"step": 2285
},
{
"epoch": 0.15266666666666667,
"grad_norm": 4.650790691375732,
"learning_rate": 3.5064827586206894e-06,
"loss": 0.2244,
"step": 2290
},
{
"epoch": 0.153,
"grad_norm": 4.137133598327637,
"learning_rate": 3.505103448275862e-06,
"loss": 0.2971,
"step": 2295
},
{
"epoch": 0.15333333333333332,
"grad_norm": 4.2419867515563965,
"learning_rate": 3.5037241379310347e-06,
"loss": 0.2279,
"step": 2300
},
{
"epoch": 0.15366666666666667,
"grad_norm": 5.029589653015137,
"learning_rate": 3.502344827586207e-06,
"loss": 0.2596,
"step": 2305
},
{
"epoch": 0.154,
"grad_norm": 4.471005439758301,
"learning_rate": 3.500965517241379e-06,
"loss": 0.3024,
"step": 2310
},
{
"epoch": 0.15433333333333332,
"grad_norm": 5.1212873458862305,
"learning_rate": 3.4995862068965514e-06,
"loss": 0.2624,
"step": 2315
},
{
"epoch": 0.15466666666666667,
"grad_norm": 5.068171977996826,
"learning_rate": 3.498206896551724e-06,
"loss": 0.2339,
"step": 2320
},
{
"epoch": 0.155,
"grad_norm": 5.837029457092285,
"learning_rate": 3.4968275862068963e-06,
"loss": 0.2202,
"step": 2325
},
{
"epoch": 0.15533333333333332,
"grad_norm": 5.233797073364258,
"learning_rate": 3.4954482758620685e-06,
"loss": 0.2307,
"step": 2330
},
{
"epoch": 0.15566666666666668,
"grad_norm": 5.003569602966309,
"learning_rate": 3.494068965517241e-06,
"loss": 0.2488,
"step": 2335
},
{
"epoch": 0.156,
"grad_norm": 5.215402126312256,
"learning_rate": 3.4926896551724134e-06,
"loss": 0.2539,
"step": 2340
},
{
"epoch": 0.15633333333333332,
"grad_norm": 4.594287872314453,
"learning_rate": 3.491310344827586e-06,
"loss": 0.2237,
"step": 2345
},
{
"epoch": 0.15666666666666668,
"grad_norm": 4.945546627044678,
"learning_rate": 3.4899310344827588e-06,
"loss": 0.2709,
"step": 2350
},
{
"epoch": 0.157,
"grad_norm": 4.1710405349731445,
"learning_rate": 3.488551724137931e-06,
"loss": 0.256,
"step": 2355
},
{
"epoch": 0.15733333333333333,
"grad_norm": 4.216401100158691,
"learning_rate": 3.4871724137931032e-06,
"loss": 0.2312,
"step": 2360
},
{
"epoch": 0.15766666666666668,
"grad_norm": 7.646403789520264,
"learning_rate": 3.485793103448276e-06,
"loss": 0.2226,
"step": 2365
},
{
"epoch": 0.158,
"grad_norm": 5.661412239074707,
"learning_rate": 3.484413793103448e-06,
"loss": 0.2836,
"step": 2370
},
{
"epoch": 0.15833333333333333,
"grad_norm": 4.148995399475098,
"learning_rate": 3.4830344827586204e-06,
"loss": 0.2199,
"step": 2375
},
{
"epoch": 0.15866666666666668,
"grad_norm": 5.131689071655273,
"learning_rate": 3.4816551724137926e-06,
"loss": 0.224,
"step": 2380
},
{
"epoch": 0.159,
"grad_norm": 5.204654693603516,
"learning_rate": 3.4802758620689653e-06,
"loss": 0.2941,
"step": 2385
},
{
"epoch": 0.15933333333333333,
"grad_norm": 3.511678457260132,
"learning_rate": 3.478896551724138e-06,
"loss": 0.2614,
"step": 2390
},
{
"epoch": 0.15966666666666668,
"grad_norm": 4.553131103515625,
"learning_rate": 3.47751724137931e-06,
"loss": 0.2632,
"step": 2395
},
{
"epoch": 0.16,
"grad_norm": 5.157543659210205,
"learning_rate": 3.476137931034483e-06,
"loss": 0.2876,
"step": 2400
},
{
"epoch": 0.16033333333333333,
"grad_norm": 3.918602466583252,
"learning_rate": 3.474758620689655e-06,
"loss": 0.2588,
"step": 2405
},
{
"epoch": 0.16066666666666668,
"grad_norm": 4.780972957611084,
"learning_rate": 3.4733793103448273e-06,
"loss": 0.2275,
"step": 2410
},
{
"epoch": 0.161,
"grad_norm": 4.756047248840332,
"learning_rate": 3.472e-06,
"loss": 0.2483,
"step": 2415
},
{
"epoch": 0.16133333333333333,
"grad_norm": 4.1159796714782715,
"learning_rate": 3.470620689655172e-06,
"loss": 0.2468,
"step": 2420
},
{
"epoch": 0.16166666666666665,
"grad_norm": 4.943764686584473,
"learning_rate": 3.4692413793103444e-06,
"loss": 0.2405,
"step": 2425
},
{
"epoch": 0.162,
"grad_norm": 4.706329345703125,
"learning_rate": 3.467862068965517e-06,
"loss": 0.2334,
"step": 2430
},
{
"epoch": 0.16233333333333333,
"grad_norm": 4.787866115570068,
"learning_rate": 3.4664827586206893e-06,
"loss": 0.2039,
"step": 2435
},
{
"epoch": 0.16266666666666665,
"grad_norm": 5.41939115524292,
"learning_rate": 3.465103448275862e-06,
"loss": 0.2358,
"step": 2440
},
{
"epoch": 0.163,
"grad_norm": 4.854283809661865,
"learning_rate": 3.4637241379310347e-06,
"loss": 0.3065,
"step": 2445
},
{
"epoch": 0.16333333333333333,
"grad_norm": 4.342837810516357,
"learning_rate": 3.462344827586207e-06,
"loss": 0.2439,
"step": 2450
},
{
"epoch": 0.16366666666666665,
"grad_norm": 4.5327467918396,
"learning_rate": 3.460965517241379e-06,
"loss": 0.2369,
"step": 2455
},
{
"epoch": 0.164,
"grad_norm": 4.487262725830078,
"learning_rate": 3.4595862068965514e-06,
"loss": 0.2357,
"step": 2460
},
{
"epoch": 0.16433333333333333,
"grad_norm": 5.004885196685791,
"learning_rate": 3.458206896551724e-06,
"loss": 0.2793,
"step": 2465
},
{
"epoch": 0.16466666666666666,
"grad_norm": 4.2630720138549805,
"learning_rate": 3.4568275862068963e-06,
"loss": 0.2387,
"step": 2470
},
{
"epoch": 0.165,
"grad_norm": 4.213596343994141,
"learning_rate": 3.4554482758620685e-06,
"loss": 0.2692,
"step": 2475
},
{
"epoch": 0.16533333333333333,
"grad_norm": 4.435369968414307,
"learning_rate": 3.454068965517241e-06,
"loss": 0.2383,
"step": 2480
},
{
"epoch": 0.16566666666666666,
"grad_norm": 4.381566524505615,
"learning_rate": 3.452689655172414e-06,
"loss": 0.2346,
"step": 2485
},
{
"epoch": 0.166,
"grad_norm": 4.610717296600342,
"learning_rate": 3.451310344827586e-06,
"loss": 0.2693,
"step": 2490
},
{
"epoch": 0.16633333333333333,
"grad_norm": 4.803826808929443,
"learning_rate": 3.4499310344827587e-06,
"loss": 0.2621,
"step": 2495
},
{
"epoch": 0.16666666666666666,
"grad_norm": 5.030712604522705,
"learning_rate": 3.448551724137931e-06,
"loss": 0.221,
"step": 2500
},
{
"epoch": 0.167,
"grad_norm": 5.310883522033691,
"learning_rate": 3.447172413793103e-06,
"loss": 0.3361,
"step": 2505
},
{
"epoch": 0.16733333333333333,
"grad_norm": 4.664628028869629,
"learning_rate": 3.445793103448276e-06,
"loss": 0.2712,
"step": 2510
},
{
"epoch": 0.16766666666666666,
"grad_norm": 5.701126575469971,
"learning_rate": 3.444413793103448e-06,
"loss": 0.2519,
"step": 2515
},
{
"epoch": 0.168,
"grad_norm": 4.844892501831055,
"learning_rate": 3.4430344827586203e-06,
"loss": 0.259,
"step": 2520
},
{
"epoch": 0.16833333333333333,
"grad_norm": 4.996426105499268,
"learning_rate": 3.4416551724137926e-06,
"loss": 0.2989,
"step": 2525
},
{
"epoch": 0.16866666666666666,
"grad_norm": 5.930837631225586,
"learning_rate": 3.4402758620689652e-06,
"loss": 0.2757,
"step": 2530
},
{
"epoch": 0.169,
"grad_norm": 5.188756942749023,
"learning_rate": 3.438896551724138e-06,
"loss": 0.2358,
"step": 2535
},
{
"epoch": 0.16933333333333334,
"grad_norm": 4.6273980140686035,
"learning_rate": 3.43751724137931e-06,
"loss": 0.2401,
"step": 2540
},
{
"epoch": 0.16966666666666666,
"grad_norm": 4.5921244621276855,
"learning_rate": 3.4361379310344828e-06,
"loss": 0.2348,
"step": 2545
},
{
"epoch": 0.17,
"grad_norm": 5.124880313873291,
"learning_rate": 3.434758620689655e-06,
"loss": 0.2643,
"step": 2550
},
{
"epoch": 0.17033333333333334,
"grad_norm": 6.715496063232422,
"learning_rate": 3.4333793103448273e-06,
"loss": 0.2708,
"step": 2555
},
{
"epoch": 0.17066666666666666,
"grad_norm": 6.6964569091796875,
"learning_rate": 3.432e-06,
"loss": 0.2458,
"step": 2560
},
{
"epoch": 0.171,
"grad_norm": 4.795800685882568,
"learning_rate": 3.430620689655172e-06,
"loss": 0.2324,
"step": 2565
},
{
"epoch": 0.17133333333333334,
"grad_norm": 3.8317222595214844,
"learning_rate": 3.4292413793103444e-06,
"loss": 0.2517,
"step": 2570
},
{
"epoch": 0.17166666666666666,
"grad_norm": 4.472997188568115,
"learning_rate": 3.427862068965517e-06,
"loss": 0.2665,
"step": 2575
},
{
"epoch": 0.172,
"grad_norm": 4.820406436920166,
"learning_rate": 3.4264827586206897e-06,
"loss": 0.2264,
"step": 2580
},
{
"epoch": 0.17233333333333334,
"grad_norm": 5.391660213470459,
"learning_rate": 3.425103448275862e-06,
"loss": 0.2135,
"step": 2585
},
{
"epoch": 0.17266666666666666,
"grad_norm": 4.6451826095581055,
"learning_rate": 3.4237241379310346e-06,
"loss": 0.2836,
"step": 2590
},
{
"epoch": 0.173,
"grad_norm": 4.49055814743042,
"learning_rate": 3.422344827586207e-06,
"loss": 0.2308,
"step": 2595
},
{
"epoch": 0.17333333333333334,
"grad_norm": 5.0107879638671875,
"learning_rate": 3.420965517241379e-06,
"loss": 0.2968,
"step": 2600
},
{
"epoch": 0.17366666666666666,
"grad_norm": 3.8328466415405273,
"learning_rate": 3.4195862068965513e-06,
"loss": 0.2349,
"step": 2605
},
{
"epoch": 0.174,
"grad_norm": 3.9946630001068115,
"learning_rate": 3.418206896551724e-06,
"loss": 0.2257,
"step": 2610
},
{
"epoch": 0.17433333333333334,
"grad_norm": 4.578595161437988,
"learning_rate": 3.4168275862068962e-06,
"loss": 0.3094,
"step": 2615
},
{
"epoch": 0.17466666666666666,
"grad_norm": 5.1284403800964355,
"learning_rate": 3.4154482758620685e-06,
"loss": 0.2356,
"step": 2620
},
{
"epoch": 0.175,
"grad_norm": 4.232314586639404,
"learning_rate": 3.4140689655172415e-06,
"loss": 0.3326,
"step": 2625
},
{
"epoch": 0.17533333333333334,
"grad_norm": 3.733417272567749,
"learning_rate": 3.4126896551724138e-06,
"loss": 0.2147,
"step": 2630
},
{
"epoch": 0.17566666666666667,
"grad_norm": 4.887419700622559,
"learning_rate": 3.411310344827586e-06,
"loss": 0.276,
"step": 2635
},
{
"epoch": 0.176,
"grad_norm": 4.4829487800598145,
"learning_rate": 3.4099310344827587e-06,
"loss": 0.2378,
"step": 2640
},
{
"epoch": 0.17633333333333334,
"grad_norm": 4.235691070556641,
"learning_rate": 3.408551724137931e-06,
"loss": 0.2616,
"step": 2645
},
{
"epoch": 0.17666666666666667,
"grad_norm": 3.984076499938965,
"learning_rate": 3.407172413793103e-06,
"loss": 0.2524,
"step": 2650
},
{
"epoch": 0.177,
"grad_norm": 5.258695125579834,
"learning_rate": 3.405793103448276e-06,
"loss": 0.3402,
"step": 2655
},
{
"epoch": 0.17733333333333334,
"grad_norm": 5.336690902709961,
"learning_rate": 3.404413793103448e-06,
"loss": 0.2594,
"step": 2660
},
{
"epoch": 0.17766666666666667,
"grad_norm": 4.353331565856934,
"learning_rate": 3.4030344827586203e-06,
"loss": 0.2925,
"step": 2665
},
{
"epoch": 0.178,
"grad_norm": 4.605171203613281,
"learning_rate": 3.401655172413793e-06,
"loss": 0.2036,
"step": 2670
},
{
"epoch": 0.17833333333333334,
"grad_norm": 3.893324136734009,
"learning_rate": 3.4002758620689656e-06,
"loss": 0.2366,
"step": 2675
},
{
"epoch": 0.17866666666666667,
"grad_norm": 5.866611957550049,
"learning_rate": 3.398896551724138e-06,
"loss": 0.2779,
"step": 2680
},
{
"epoch": 0.179,
"grad_norm": 5.001673221588135,
"learning_rate": 3.39751724137931e-06,
"loss": 0.2699,
"step": 2685
},
{
"epoch": 0.17933333333333334,
"grad_norm": 5.7341179847717285,
"learning_rate": 3.3961379310344827e-06,
"loss": 0.2814,
"step": 2690
},
{
"epoch": 0.17966666666666667,
"grad_norm": 4.609294414520264,
"learning_rate": 3.394758620689655e-06,
"loss": 0.2453,
"step": 2695
},
{
"epoch": 0.18,
"grad_norm": 4.3003950119018555,
"learning_rate": 3.3933793103448272e-06,
"loss": 0.2285,
"step": 2700
},
{
"epoch": 0.18033333333333335,
"grad_norm": 4.246911525726318,
"learning_rate": 3.392e-06,
"loss": 0.2352,
"step": 2705
},
{
"epoch": 0.18066666666666667,
"grad_norm": 4.514093399047852,
"learning_rate": 3.390620689655172e-06,
"loss": 0.2549,
"step": 2710
},
{
"epoch": 0.181,
"grad_norm": 4.857088565826416,
"learning_rate": 3.3892413793103444e-06,
"loss": 0.2817,
"step": 2715
},
{
"epoch": 0.18133333333333335,
"grad_norm": 5.2309250831604,
"learning_rate": 3.3878620689655174e-06,
"loss": 0.2711,
"step": 2720
},
{
"epoch": 0.18166666666666667,
"grad_norm": 4.656536102294922,
"learning_rate": 3.3864827586206897e-06,
"loss": 0.2508,
"step": 2725
},
{
"epoch": 0.182,
"grad_norm": 4.105226516723633,
"learning_rate": 3.385103448275862e-06,
"loss": 0.226,
"step": 2730
},
{
"epoch": 0.18233333333333332,
"grad_norm": 5.7455596923828125,
"learning_rate": 3.3837241379310346e-06,
"loss": 0.2654,
"step": 2735
},
{
"epoch": 0.18266666666666667,
"grad_norm": 4.733729362487793,
"learning_rate": 3.382344827586207e-06,
"loss": 0.2499,
"step": 2740
},
{
"epoch": 0.183,
"grad_norm": 3.436405897140503,
"learning_rate": 3.380965517241379e-06,
"loss": 0.2114,
"step": 2745
},
{
"epoch": 0.18333333333333332,
"grad_norm": 5.654386043548584,
"learning_rate": 3.3795862068965513e-06,
"loss": 0.2277,
"step": 2750
},
{
"epoch": 0.18366666666666667,
"grad_norm": 6.039766311645508,
"learning_rate": 3.378206896551724e-06,
"loss": 0.2834,
"step": 2755
},
{
"epoch": 0.184,
"grad_norm": 4.6503424644470215,
"learning_rate": 3.376827586206896e-06,
"loss": 0.2078,
"step": 2760
},
{
"epoch": 0.18433333333333332,
"grad_norm": 5.1060028076171875,
"learning_rate": 3.3754482758620684e-06,
"loss": 0.2848,
"step": 2765
},
{
"epoch": 0.18466666666666667,
"grad_norm": 4.1396708488464355,
"learning_rate": 3.3740689655172415e-06,
"loss": 0.2576,
"step": 2770
},
{
"epoch": 0.185,
"grad_norm": 5.115489959716797,
"learning_rate": 3.3726896551724137e-06,
"loss": 0.2833,
"step": 2775
},
{
"epoch": 0.18533333333333332,
"grad_norm": 3.9723570346832275,
"learning_rate": 3.371310344827586e-06,
"loss": 0.2454,
"step": 2780
},
{
"epoch": 0.18566666666666667,
"grad_norm": 4.776898384094238,
"learning_rate": 3.3699310344827586e-06,
"loss": 0.2763,
"step": 2785
},
{
"epoch": 0.186,
"grad_norm": 4.0240278244018555,
"learning_rate": 3.368551724137931e-06,
"loss": 0.2591,
"step": 2790
},
{
"epoch": 0.18633333333333332,
"grad_norm": 5.07747220993042,
"learning_rate": 3.367172413793103e-06,
"loss": 0.2262,
"step": 2795
},
{
"epoch": 0.18666666666666668,
"grad_norm": 4.789224624633789,
"learning_rate": 3.3657931034482758e-06,
"loss": 0.237,
"step": 2800
},
{
"epoch": 0.187,
"grad_norm": 4.838815212249756,
"learning_rate": 3.364413793103448e-06,
"loss": 0.212,
"step": 2805
},
{
"epoch": 0.18733333333333332,
"grad_norm": 4.1041412353515625,
"learning_rate": 3.3630344827586202e-06,
"loss": 0.2389,
"step": 2810
},
{
"epoch": 0.18766666666666668,
"grad_norm": 3.9281668663024902,
"learning_rate": 3.3616551724137933e-06,
"loss": 0.2025,
"step": 2815
},
{
"epoch": 0.188,
"grad_norm": 4.125972747802734,
"learning_rate": 3.3602758620689656e-06,
"loss": 0.2024,
"step": 2820
},
{
"epoch": 0.18833333333333332,
"grad_norm": 4.832058906555176,
"learning_rate": 3.358896551724138e-06,
"loss": 0.27,
"step": 2825
},
{
"epoch": 0.18866666666666668,
"grad_norm": 5.967172622680664,
"learning_rate": 3.35751724137931e-06,
"loss": 0.2495,
"step": 2830
},
{
"epoch": 0.189,
"grad_norm": 4.961123943328857,
"learning_rate": 3.3561379310344827e-06,
"loss": 0.2149,
"step": 2835
},
{
"epoch": 0.18933333333333333,
"grad_norm": 4.156426906585693,
"learning_rate": 3.354758620689655e-06,
"loss": 0.2665,
"step": 2840
},
{
"epoch": 0.18966666666666668,
"grad_norm": 4.564237594604492,
"learning_rate": 3.353379310344827e-06,
"loss": 0.2181,
"step": 2845
},
{
"epoch": 0.19,
"grad_norm": 4.784379005432129,
"learning_rate": 3.352e-06,
"loss": 0.2189,
"step": 2850
},
{
"epoch": 0.19033333333333333,
"grad_norm": 3.5423190593719482,
"learning_rate": 3.350620689655172e-06,
"loss": 0.2418,
"step": 2855
},
{
"epoch": 0.19066666666666668,
"grad_norm": 3.952510118484497,
"learning_rate": 3.3492413793103447e-06,
"loss": 0.2624,
"step": 2860
},
{
"epoch": 0.191,
"grad_norm": 5.3700337409973145,
"learning_rate": 3.3478620689655174e-06,
"loss": 0.2359,
"step": 2865
},
{
"epoch": 0.19133333333333333,
"grad_norm": 4.878916263580322,
"learning_rate": 3.3464827586206896e-06,
"loss": 0.2487,
"step": 2870
},
{
"epoch": 0.19166666666666668,
"grad_norm": 3.750455617904663,
"learning_rate": 3.345103448275862e-06,
"loss": 0.2065,
"step": 2875
},
{
"epoch": 0.192,
"grad_norm": 6.108488082885742,
"learning_rate": 3.3437241379310345e-06,
"loss": 0.2646,
"step": 2880
},
{
"epoch": 0.19233333333333333,
"grad_norm": 5.342141628265381,
"learning_rate": 3.3423448275862068e-06,
"loss": 0.2193,
"step": 2885
},
{
"epoch": 0.19266666666666668,
"grad_norm": 4.559185981750488,
"learning_rate": 3.340965517241379e-06,
"loss": 0.3068,
"step": 2890
},
{
"epoch": 0.193,
"grad_norm": 3.8077902793884277,
"learning_rate": 3.3395862068965517e-06,
"loss": 0.2698,
"step": 2895
},
{
"epoch": 0.19333333333333333,
"grad_norm": 4.816911220550537,
"learning_rate": 3.338206896551724e-06,
"loss": 0.2383,
"step": 2900
},
{
"epoch": 0.19366666666666665,
"grad_norm": 5.662405014038086,
"learning_rate": 3.336827586206896e-06,
"loss": 0.2976,
"step": 2905
},
{
"epoch": 0.194,
"grad_norm": 5.0890936851501465,
"learning_rate": 3.335448275862069e-06,
"loss": 0.3457,
"step": 2910
},
{
"epoch": 0.19433333333333333,
"grad_norm": 4.810048580169678,
"learning_rate": 3.3340689655172415e-06,
"loss": 0.2545,
"step": 2915
},
{
"epoch": 0.19466666666666665,
"grad_norm": 5.465974807739258,
"learning_rate": 3.3326896551724137e-06,
"loss": 0.2639,
"step": 2920
},
{
"epoch": 0.195,
"grad_norm": 4.7607927322387695,
"learning_rate": 3.331310344827586e-06,
"loss": 0.2599,
"step": 2925
},
{
"epoch": 0.19533333333333333,
"grad_norm": 4.343291759490967,
"learning_rate": 3.3299310344827586e-06,
"loss": 0.2344,
"step": 2930
},
{
"epoch": 0.19566666666666666,
"grad_norm": 5.0552778244018555,
"learning_rate": 3.328551724137931e-06,
"loss": 0.2283,
"step": 2935
},
{
"epoch": 0.196,
"grad_norm": 4.829711437225342,
"learning_rate": 3.327172413793103e-06,
"loss": 0.3655,
"step": 2940
},
{
"epoch": 1.0002666666666666,
"grad_norm": 3.4949984550476074,
"learning_rate": 3.3257931034482757e-06,
"loss": 0.2038,
"step": 2945
},
{
"epoch": 1.0006,
"grad_norm": 4.251642227172852,
"learning_rate": 3.324413793103448e-06,
"loss": 0.2422,
"step": 2950
},
{
"epoch": 1.0009333333333332,
"grad_norm": 3.75738787651062,
"learning_rate": 3.3230344827586206e-06,
"loss": 0.2113,
"step": 2955
},
{
"epoch": 1.0012666666666667,
"grad_norm": 3.388909101486206,
"learning_rate": 3.3216551724137933e-06,
"loss": 0.1937,
"step": 2960
},
{
"epoch": 1.0016,
"grad_norm": 4.3214497566223145,
"learning_rate": 3.3202758620689655e-06,
"loss": 0.2291,
"step": 2965
},
{
"epoch": 1.0019333333333333,
"grad_norm": 4.865558624267578,
"learning_rate": 3.3188965517241378e-06,
"loss": 0.2242,
"step": 2970
},
{
"epoch": 1.0022666666666666,
"grad_norm": 3.5226480960845947,
"learning_rate": 3.3175172413793104e-06,
"loss": 0.1968,
"step": 2975
},
{
"epoch": 1.0026,
"grad_norm": 4.301427364349365,
"learning_rate": 3.3161379310344827e-06,
"loss": 0.1687,
"step": 2980
},
{
"epoch": 1.0029333333333332,
"grad_norm": 4.259810924530029,
"learning_rate": 3.314758620689655e-06,
"loss": 0.2035,
"step": 2985
},
{
"epoch": 1.0032666666666668,
"grad_norm": 4.693942546844482,
"learning_rate": 3.313379310344827e-06,
"loss": 0.2366,
"step": 2990
},
{
"epoch": 1.0036,
"grad_norm": 4.454593181610107,
"learning_rate": 3.312e-06,
"loss": 0.1951,
"step": 2995
},
{
"epoch": 1.0039333333333333,
"grad_norm": 5.165683269500732,
"learning_rate": 3.310620689655172e-06,
"loss": 0.2012,
"step": 3000
},
{
"epoch": 1.0039333333333333,
"eval_loss": 0.23444338142871857,
"eval_runtime": 138.8572,
"eval_samples_per_second": 4.321,
"eval_steps_per_second": 1.08,
"eval_wer": 12.279805973959663,
"step": 3000
},
{
"epoch": 1.0042666666666666,
"grad_norm": 3.7630887031555176,
"learning_rate": 3.3092413793103447e-06,
"loss": 0.1909,
"step": 3005
},
{
"epoch": 1.0046,
"grad_norm": 5.058170318603516,
"learning_rate": 3.3078620689655174e-06,
"loss": 0.1481,
"step": 3010
},
{
"epoch": 1.0049333333333332,
"grad_norm": 3.2936718463897705,
"learning_rate": 3.3064827586206896e-06,
"loss": 0.1527,
"step": 3015
},
{
"epoch": 1.0052666666666668,
"grad_norm": 4.079516887664795,
"learning_rate": 3.305103448275862e-06,
"loss": 0.1882,
"step": 3020
},
{
"epoch": 1.0056,
"grad_norm": 3.6755354404449463,
"learning_rate": 3.3037241379310345e-06,
"loss": 0.1316,
"step": 3025
},
{
"epoch": 1.0059333333333333,
"grad_norm": 3.8584976196289062,
"learning_rate": 3.3023448275862067e-06,
"loss": 0.1674,
"step": 3030
},
{
"epoch": 1.0062666666666666,
"grad_norm": 3.816880941390991,
"learning_rate": 3.300965517241379e-06,
"loss": 0.1907,
"step": 3035
},
{
"epoch": 1.0066,
"grad_norm": 3.5711309909820557,
"learning_rate": 3.2995862068965516e-06,
"loss": 0.1336,
"step": 3040
},
{
"epoch": 1.0069333333333332,
"grad_norm": 3.798013687133789,
"learning_rate": 3.298206896551724e-06,
"loss": 0.1499,
"step": 3045
},
{
"epoch": 1.0072666666666668,
"grad_norm": 4.890843391418457,
"learning_rate": 3.2968275862068965e-06,
"loss": 0.2151,
"step": 3050
},
{
"epoch": 1.0076,
"grad_norm": 3.8821091651916504,
"learning_rate": 3.2954482758620688e-06,
"loss": 0.1992,
"step": 3055
},
{
"epoch": 1.0079333333333333,
"grad_norm": 4.8673248291015625,
"learning_rate": 3.2940689655172414e-06,
"loss": 0.185,
"step": 3060
},
{
"epoch": 1.0082666666666666,
"grad_norm": 4.067516803741455,
"learning_rate": 3.2926896551724137e-06,
"loss": 0.2063,
"step": 3065
},
{
"epoch": 1.0086,
"grad_norm": 4.3480329513549805,
"learning_rate": 3.291310344827586e-06,
"loss": 0.202,
"step": 3070
},
{
"epoch": 1.0089333333333332,
"grad_norm": 3.9027059078216553,
"learning_rate": 3.2899310344827586e-06,
"loss": 0.1982,
"step": 3075
},
{
"epoch": 1.0092666666666668,
"grad_norm": 3.708803653717041,
"learning_rate": 3.288551724137931e-06,
"loss": 0.2497,
"step": 3080
},
{
"epoch": 1.0096,
"grad_norm": 4.1015424728393555,
"learning_rate": 3.287172413793103e-06,
"loss": 0.1959,
"step": 3085
},
{
"epoch": 1.0099333333333333,
"grad_norm": 3.7574470043182373,
"learning_rate": 3.2857931034482757e-06,
"loss": 0.1831,
"step": 3090
},
{
"epoch": 1.0102666666666666,
"grad_norm": 3.5008668899536133,
"learning_rate": 3.2844137931034484e-06,
"loss": 0.1775,
"step": 3095
},
{
"epoch": 1.0106,
"grad_norm": 3.8982155323028564,
"learning_rate": 3.2830344827586206e-06,
"loss": 0.2011,
"step": 3100
},
{
"epoch": 1.0109333333333332,
"grad_norm": 5.034063816070557,
"learning_rate": 3.2816551724137933e-06,
"loss": 0.209,
"step": 3105
},
{
"epoch": 1.0112666666666668,
"grad_norm": 3.708975076675415,
"learning_rate": 3.2802758620689655e-06,
"loss": 0.206,
"step": 3110
},
{
"epoch": 1.0116,
"grad_norm": 3.9706759452819824,
"learning_rate": 3.2788965517241377e-06,
"loss": 0.1918,
"step": 3115
},
{
"epoch": 1.0119333333333334,
"grad_norm": 3.984116315841675,
"learning_rate": 3.2775172413793104e-06,
"loss": 0.2163,
"step": 3120
},
{
"epoch": 1.0122666666666666,
"grad_norm": 5.8934173583984375,
"learning_rate": 3.2761379310344826e-06,
"loss": 0.2608,
"step": 3125
},
{
"epoch": 1.0126,
"grad_norm": 4.748132705688477,
"learning_rate": 3.274758620689655e-06,
"loss": 0.2407,
"step": 3130
},
{
"epoch": 1.0129333333333332,
"grad_norm": 5.090843200683594,
"learning_rate": 3.273379310344827e-06,
"loss": 0.2375,
"step": 3135
},
{
"epoch": 1.0132666666666668,
"grad_norm": 4.086766242980957,
"learning_rate": 3.2719999999999998e-06,
"loss": 0.2068,
"step": 3140
},
{
"epoch": 1.0136,
"grad_norm": 5.127700328826904,
"learning_rate": 3.2706206896551724e-06,
"loss": 0.2281,
"step": 3145
},
{
"epoch": 1.0139333333333334,
"grad_norm": 4.562211513519287,
"learning_rate": 3.2692413793103447e-06,
"loss": 0.281,
"step": 3150
},
{
"epoch": 1.0142666666666666,
"grad_norm": 4.463860511779785,
"learning_rate": 3.2678620689655173e-06,
"loss": 0.2361,
"step": 3155
},
{
"epoch": 1.0146,
"grad_norm": 4.80808162689209,
"learning_rate": 3.2664827586206896e-06,
"loss": 0.2556,
"step": 3160
},
{
"epoch": 1.0149333333333332,
"grad_norm": 4.368381977081299,
"learning_rate": 3.265103448275862e-06,
"loss": 0.2362,
"step": 3165
},
{
"epoch": 1.0152666666666668,
"grad_norm": 5.268251895904541,
"learning_rate": 3.2637241379310345e-06,
"loss": 0.2408,
"step": 3170
},
{
"epoch": 1.0156,
"grad_norm": 4.445746421813965,
"learning_rate": 3.2623448275862067e-06,
"loss": 0.2018,
"step": 3175
},
{
"epoch": 1.0159333333333334,
"grad_norm": 4.361732006072998,
"learning_rate": 3.260965517241379e-06,
"loss": 0.2134,
"step": 3180
},
{
"epoch": 1.0162666666666667,
"grad_norm": 4.289709091186523,
"learning_rate": 3.2595862068965516e-06,
"loss": 0.222,
"step": 3185
},
{
"epoch": 1.0166,
"grad_norm": 4.434460639953613,
"learning_rate": 3.2582068965517242e-06,
"loss": 0.2018,
"step": 3190
},
{
"epoch": 1.0169333333333332,
"grad_norm": 3.44372820854187,
"learning_rate": 3.2568275862068965e-06,
"loss": 0.21,
"step": 3195
},
{
"epoch": 1.0172666666666668,
"grad_norm": 5.500320911407471,
"learning_rate": 3.255448275862069e-06,
"loss": 0.2029,
"step": 3200
},
{
"epoch": 1.0176,
"grad_norm": 3.647191286087036,
"learning_rate": 3.2540689655172414e-06,
"loss": 0.2666,
"step": 3205
},
{
"epoch": 1.0179333333333334,
"grad_norm": 5.200259208679199,
"learning_rate": 3.2526896551724136e-06,
"loss": 0.2285,
"step": 3210
},
{
"epoch": 1.0182666666666667,
"grad_norm": 4.9900102615356445,
"learning_rate": 3.251310344827586e-06,
"loss": 0.2263,
"step": 3215
},
{
"epoch": 1.0186,
"grad_norm": 4.464180946350098,
"learning_rate": 3.2499310344827585e-06,
"loss": 0.1887,
"step": 3220
},
{
"epoch": 1.0189333333333332,
"grad_norm": 3.559330463409424,
"learning_rate": 3.2485517241379308e-06,
"loss": 0.2447,
"step": 3225
},
{
"epoch": 1.0192666666666668,
"grad_norm": 3.701608896255493,
"learning_rate": 3.247172413793103e-06,
"loss": 0.168,
"step": 3230
},
{
"epoch": 1.0196,
"grad_norm": 4.096370697021484,
"learning_rate": 3.2457931034482757e-06,
"loss": 0.1994,
"step": 3235
},
{
"epoch": 1.0199333333333334,
"grad_norm": 4.785329818725586,
"learning_rate": 3.2444137931034483e-06,
"loss": 0.2353,
"step": 3240
},
{
"epoch": 1.0202666666666667,
"grad_norm": 4.224263668060303,
"learning_rate": 3.2430344827586206e-06,
"loss": 0.2036,
"step": 3245
},
{
"epoch": 1.0206,
"grad_norm": 4.927604675292969,
"learning_rate": 3.241655172413793e-06,
"loss": 0.3024,
"step": 3250
},
{
"epoch": 1.0209333333333332,
"grad_norm": 4.49512243270874,
"learning_rate": 3.2402758620689654e-06,
"loss": 0.2074,
"step": 3255
},
{
"epoch": 1.0212666666666668,
"grad_norm": 3.2073464393615723,
"learning_rate": 3.2388965517241377e-06,
"loss": 0.1872,
"step": 3260
},
{
"epoch": 1.0216,
"grad_norm": 3.708272933959961,
"learning_rate": 3.2375172413793103e-06,
"loss": 0.2165,
"step": 3265
},
{
"epoch": 1.0219333333333334,
"grad_norm": 3.688525676727295,
"learning_rate": 3.2361379310344826e-06,
"loss": 0.1811,
"step": 3270
},
{
"epoch": 1.0222666666666667,
"grad_norm": 3.9060750007629395,
"learning_rate": 3.234758620689655e-06,
"loss": 0.2347,
"step": 3275
},
{
"epoch": 1.0226,
"grad_norm": 4.962421417236328,
"learning_rate": 3.233379310344827e-06,
"loss": 0.182,
"step": 3280
},
{
"epoch": 1.0229333333333333,
"grad_norm": 3.9890761375427246,
"learning_rate": 3.232e-06,
"loss": 0.1922,
"step": 3285
},
{
"epoch": 1.0232666666666668,
"grad_norm": 4.4562458992004395,
"learning_rate": 3.2306206896551724e-06,
"loss": 0.2098,
"step": 3290
},
{
"epoch": 1.0236,
"grad_norm": 5.162217617034912,
"learning_rate": 3.2292413793103446e-06,
"loss": 0.1922,
"step": 3295
},
{
"epoch": 1.0239333333333334,
"grad_norm": 5.276288986206055,
"learning_rate": 3.2278620689655173e-06,
"loss": 0.1876,
"step": 3300
},
{
"epoch": 1.0242666666666667,
"grad_norm": 4.711269855499268,
"learning_rate": 3.2264827586206895e-06,
"loss": 0.2109,
"step": 3305
},
{
"epoch": 1.0246,
"grad_norm": 4.391339302062988,
"learning_rate": 3.2251034482758618e-06,
"loss": 0.2139,
"step": 3310
},
{
"epoch": 1.0249333333333333,
"grad_norm": 3.997645139694214,
"learning_rate": 3.2237241379310344e-06,
"loss": 0.1698,
"step": 3315
},
{
"epoch": 1.0252666666666668,
"grad_norm": 3.2267558574676514,
"learning_rate": 3.2223448275862066e-06,
"loss": 0.179,
"step": 3320
},
{
"epoch": 1.0256,
"grad_norm": 4.2319111824035645,
"learning_rate": 3.220965517241379e-06,
"loss": 0.2338,
"step": 3325
},
{
"epoch": 1.0259333333333334,
"grad_norm": 3.426051378250122,
"learning_rate": 3.2195862068965515e-06,
"loss": 0.1647,
"step": 3330
},
{
"epoch": 1.0262666666666667,
"grad_norm": 3.3006865978240967,
"learning_rate": 3.218206896551724e-06,
"loss": 0.1576,
"step": 3335
},
{
"epoch": 1.0266,
"grad_norm": 4.378168106079102,
"learning_rate": 3.2168275862068964e-06,
"loss": 0.1901,
"step": 3340
},
{
"epoch": 1.0269333333333333,
"grad_norm": 5.147646903991699,
"learning_rate": 3.215448275862069e-06,
"loss": 0.1682,
"step": 3345
},
{
"epoch": 1.0272666666666668,
"grad_norm": 4.058917045593262,
"learning_rate": 3.2140689655172413e-06,
"loss": 0.1877,
"step": 3350
},
{
"epoch": 1.0276,
"grad_norm": 4.000892639160156,
"learning_rate": 3.2126896551724136e-06,
"loss": 0.2084,
"step": 3355
},
{
"epoch": 1.0279333333333334,
"grad_norm": 3.0352602005004883,
"learning_rate": 3.211310344827586e-06,
"loss": 0.2037,
"step": 3360
},
{
"epoch": 1.0282666666666667,
"grad_norm": 4.52240514755249,
"learning_rate": 3.2099310344827585e-06,
"loss": 0.2006,
"step": 3365
},
{
"epoch": 1.0286,
"grad_norm": 3.595707416534424,
"learning_rate": 3.2085517241379307e-06,
"loss": 0.1681,
"step": 3370
},
{
"epoch": 1.0289333333333333,
"grad_norm": 4.7902936935424805,
"learning_rate": 3.207172413793103e-06,
"loss": 0.2526,
"step": 3375
},
{
"epoch": 1.0292666666666668,
"grad_norm": 3.4989466667175293,
"learning_rate": 3.205793103448276e-06,
"loss": 0.1738,
"step": 3380
},
{
"epoch": 1.0296,
"grad_norm": 4.579338073730469,
"learning_rate": 3.2044137931034483e-06,
"loss": 0.1961,
"step": 3385
},
{
"epoch": 1.0299333333333334,
"grad_norm": 4.113155364990234,
"learning_rate": 3.2030344827586205e-06,
"loss": 0.1966,
"step": 3390
},
{
"epoch": 1.0302666666666667,
"grad_norm": 5.247110366821289,
"learning_rate": 3.201655172413793e-06,
"loss": 0.2133,
"step": 3395
},
{
"epoch": 1.0306,
"grad_norm": 4.388834476470947,
"learning_rate": 3.2002758620689654e-06,
"loss": 0.1995,
"step": 3400
},
{
"epoch": 1.0309333333333333,
"grad_norm": 5.551411151885986,
"learning_rate": 3.1988965517241376e-06,
"loss": 0.2236,
"step": 3405
},
{
"epoch": 1.0312666666666668,
"grad_norm": 4.183872699737549,
"learning_rate": 3.1975172413793103e-06,
"loss": 0.1659,
"step": 3410
},
{
"epoch": 1.0316,
"grad_norm": 3.8768043518066406,
"learning_rate": 3.1961379310344825e-06,
"loss": 0.2295,
"step": 3415
},
{
"epoch": 1.0319333333333334,
"grad_norm": 4.20235538482666,
"learning_rate": 3.1947586206896548e-06,
"loss": 0.1712,
"step": 3420
},
{
"epoch": 1.0322666666666667,
"grad_norm": 3.7663445472717285,
"learning_rate": 3.193379310344828e-06,
"loss": 0.2281,
"step": 3425
},
{
"epoch": 1.0326,
"grad_norm": 5.9546685218811035,
"learning_rate": 3.192e-06,
"loss": 0.1973,
"step": 3430
},
{
"epoch": 1.0329333333333333,
"grad_norm": 4.071985721588135,
"learning_rate": 3.1906206896551723e-06,
"loss": 0.2054,
"step": 3435
},
{
"epoch": 1.0332666666666666,
"grad_norm": 5.176264762878418,
"learning_rate": 3.1892413793103446e-06,
"loss": 0.1994,
"step": 3440
},
{
"epoch": 1.0336,
"grad_norm": 3.963297128677368,
"learning_rate": 3.1878620689655172e-06,
"loss": 0.1849,
"step": 3445
},
{
"epoch": 1.0339333333333334,
"grad_norm": 4.035712718963623,
"learning_rate": 3.1864827586206895e-06,
"loss": 0.184,
"step": 3450
},
{
"epoch": 1.0342666666666667,
"grad_norm": 3.4552323818206787,
"learning_rate": 3.1851034482758617e-06,
"loss": 0.1895,
"step": 3455
},
{
"epoch": 1.0346,
"grad_norm": 3.8243696689605713,
"learning_rate": 3.1837241379310344e-06,
"loss": 0.191,
"step": 3460
},
{
"epoch": 1.0349333333333333,
"grad_norm": 3.533039093017578,
"learning_rate": 3.1823448275862066e-06,
"loss": 0.1591,
"step": 3465
},
{
"epoch": 1.0352666666666668,
"grad_norm": 4.106102466583252,
"learning_rate": 3.180965517241379e-06,
"loss": 0.2006,
"step": 3470
},
{
"epoch": 1.0356,
"grad_norm": 3.587372303009033,
"learning_rate": 3.179586206896552e-06,
"loss": 0.154,
"step": 3475
},
{
"epoch": 1.0359333333333334,
"grad_norm": 3.8791685104370117,
"learning_rate": 3.178206896551724e-06,
"loss": 0.2502,
"step": 3480
},
{
"epoch": 1.0362666666666667,
"grad_norm": 4.646202564239502,
"learning_rate": 3.1768275862068964e-06,
"loss": 0.2084,
"step": 3485
},
{
"epoch": 1.0366,
"grad_norm": 4.669162273406982,
"learning_rate": 3.175448275862069e-06,
"loss": 0.2138,
"step": 3490
},
{
"epoch": 1.0369333333333333,
"grad_norm": 3.882847547531128,
"learning_rate": 3.1740689655172413e-06,
"loss": 0.2208,
"step": 3495
},
{
"epoch": 1.0372666666666666,
"grad_norm": 4.695615291595459,
"learning_rate": 3.1726896551724135e-06,
"loss": 0.2188,
"step": 3500
},
{
"epoch": 1.0376,
"grad_norm": 3.413388967514038,
"learning_rate": 3.1713103448275858e-06,
"loss": 0.1746,
"step": 3505
},
{
"epoch": 1.0379333333333334,
"grad_norm": 3.3137855529785156,
"learning_rate": 3.1699310344827584e-06,
"loss": 0.1657,
"step": 3510
},
{
"epoch": 1.0382666666666667,
"grad_norm": 3.8661205768585205,
"learning_rate": 3.1685517241379307e-06,
"loss": 0.2199,
"step": 3515
},
{
"epoch": 1.0386,
"grad_norm": 3.643791675567627,
"learning_rate": 3.1671724137931033e-06,
"loss": 0.1542,
"step": 3520
},
{
"epoch": 1.0389333333333333,
"grad_norm": 3.955091714859009,
"learning_rate": 3.165793103448276e-06,
"loss": 0.1641,
"step": 3525
},
{
"epoch": 1.0392666666666666,
"grad_norm": 3.7957170009613037,
"learning_rate": 3.1644137931034482e-06,
"loss": 0.1911,
"step": 3530
},
{
"epoch": 1.0396,
"grad_norm": 4.432152271270752,
"learning_rate": 3.1630344827586205e-06,
"loss": 0.1884,
"step": 3535
},
{
"epoch": 1.0399333333333334,
"grad_norm": 3.359846830368042,
"learning_rate": 3.161655172413793e-06,
"loss": 0.1674,
"step": 3540
},
{
"epoch": 1.0402666666666667,
"grad_norm": 4.731626510620117,
"learning_rate": 3.1602758620689654e-06,
"loss": 0.1871,
"step": 3545
},
{
"epoch": 1.0406,
"grad_norm": 3.7631399631500244,
"learning_rate": 3.1588965517241376e-06,
"loss": 0.2136,
"step": 3550
},
{
"epoch": 1.0409333333333333,
"grad_norm": 4.278292655944824,
"learning_rate": 3.1575172413793103e-06,
"loss": 0.1958,
"step": 3555
},
{
"epoch": 1.0412666666666666,
"grad_norm": 4.066004276275635,
"learning_rate": 3.1561379310344825e-06,
"loss": 0.2206,
"step": 3560
},
{
"epoch": 1.0416,
"grad_norm": 4.494546413421631,
"learning_rate": 3.1547586206896547e-06,
"loss": 0.2025,
"step": 3565
},
{
"epoch": 1.0419333333333334,
"grad_norm": 3.467820644378662,
"learning_rate": 3.153379310344828e-06,
"loss": 0.2135,
"step": 3570
},
{
"epoch": 1.0422666666666667,
"grad_norm": 4.746524810791016,
"learning_rate": 3.152e-06,
"loss": 0.1888,
"step": 3575
},
{
"epoch": 1.0426,
"grad_norm": 3.6339330673217773,
"learning_rate": 3.1506206896551723e-06,
"loss": 0.1759,
"step": 3580
},
{
"epoch": 1.0429333333333333,
"grad_norm": 5.353305816650391,
"learning_rate": 3.1492413793103445e-06,
"loss": 0.1957,
"step": 3585
},
{
"epoch": 1.0432666666666666,
"grad_norm": 4.319478511810303,
"learning_rate": 3.147862068965517e-06,
"loss": 0.1924,
"step": 3590
},
{
"epoch": 1.0436,
"grad_norm": 3.649482488632202,
"learning_rate": 3.1464827586206894e-06,
"loss": 0.1976,
"step": 3595
},
{
"epoch": 1.0439333333333334,
"grad_norm": 3.8759238719940186,
"learning_rate": 3.1451034482758617e-06,
"loss": 0.1748,
"step": 3600
},
{
"epoch": 1.0442666666666667,
"grad_norm": 5.296712875366211,
"learning_rate": 3.1437241379310343e-06,
"loss": 0.2466,
"step": 3605
},
{
"epoch": 1.0446,
"grad_norm": 3.317796230316162,
"learning_rate": 3.1423448275862066e-06,
"loss": 0.1958,
"step": 3610
},
{
"epoch": 1.0449333333333333,
"grad_norm": 3.99485182762146,
"learning_rate": 3.1409655172413792e-06,
"loss": 0.219,
"step": 3615
},
{
"epoch": 1.0452666666666666,
"grad_norm": 2.9838738441467285,
"learning_rate": 3.139586206896552e-06,
"loss": 0.1545,
"step": 3620
},
{
"epoch": 1.0456,
"grad_norm": 4.66552209854126,
"learning_rate": 3.138206896551724e-06,
"loss": 0.2351,
"step": 3625
},
{
"epoch": 1.0459333333333334,
"grad_norm": 3.717733860015869,
"learning_rate": 3.1368275862068964e-06,
"loss": 0.1671,
"step": 3630
},
{
"epoch": 1.0462666666666667,
"grad_norm": 3.64137864112854,
"learning_rate": 3.135448275862069e-06,
"loss": 0.1988,
"step": 3635
},
{
"epoch": 1.0466,
"grad_norm": 3.9805660247802734,
"learning_rate": 3.1340689655172413e-06,
"loss": 0.2213,
"step": 3640
},
{
"epoch": 1.0469333333333333,
"grad_norm": 4.7378339767456055,
"learning_rate": 3.1326896551724135e-06,
"loss": 0.1979,
"step": 3645
},
{
"epoch": 1.0472666666666666,
"grad_norm": 4.871990203857422,
"learning_rate": 3.1313103448275857e-06,
"loss": 0.2044,
"step": 3650
},
{
"epoch": 1.0476,
"grad_norm": 4.227668285369873,
"learning_rate": 3.1299310344827584e-06,
"loss": 0.1717,
"step": 3655
},
{
"epoch": 1.0479333333333334,
"grad_norm": 4.246823310852051,
"learning_rate": 3.128551724137931e-06,
"loss": 0.2326,
"step": 3660
},
{
"epoch": 1.0482666666666667,
"grad_norm": 3.4186837673187256,
"learning_rate": 3.1271724137931033e-06,
"loss": 0.1619,
"step": 3665
},
{
"epoch": 1.0486,
"grad_norm": 4.648886203765869,
"learning_rate": 3.125793103448276e-06,
"loss": 0.1986,
"step": 3670
},
{
"epoch": 1.0489333333333333,
"grad_norm": 5.317938804626465,
"learning_rate": 3.124413793103448e-06,
"loss": 0.2063,
"step": 3675
},
{
"epoch": 1.0492666666666666,
"grad_norm": 4.476776599884033,
"learning_rate": 3.1230344827586204e-06,
"loss": 0.1925,
"step": 3680
},
{
"epoch": 1.0496,
"grad_norm": 3.589637041091919,
"learning_rate": 3.121655172413793e-06,
"loss": 0.199,
"step": 3685
},
{
"epoch": 1.0499333333333334,
"grad_norm": 5.552938938140869,
"learning_rate": 3.1202758620689653e-06,
"loss": 0.2303,
"step": 3690
},
{
"epoch": 1.0502666666666667,
"grad_norm": 4.239089488983154,
"learning_rate": 3.1188965517241376e-06,
"loss": 0.1644,
"step": 3695
},
{
"epoch": 1.0506,
"grad_norm": 4.648257255554199,
"learning_rate": 3.1175172413793102e-06,
"loss": 0.2364,
"step": 3700
},
{
"epoch": 1.0509333333333333,
"grad_norm": 5.070471286773682,
"learning_rate": 3.1161379310344825e-06,
"loss": 0.2363,
"step": 3705
},
{
"epoch": 1.0512666666666666,
"grad_norm": 5.2760539054870605,
"learning_rate": 3.114758620689655e-06,
"loss": 0.2216,
"step": 3710
},
{
"epoch": 1.0516,
"grad_norm": 5.112910270690918,
"learning_rate": 3.1133793103448278e-06,
"loss": 0.2141,
"step": 3715
},
{
"epoch": 1.0519333333333334,
"grad_norm": 4.717859745025635,
"learning_rate": 3.112e-06,
"loss": 0.2009,
"step": 3720
},
{
"epoch": 1.0522666666666667,
"grad_norm": 4.894160270690918,
"learning_rate": 3.1106206896551723e-06,
"loss": 0.1853,
"step": 3725
},
{
"epoch": 1.0526,
"grad_norm": 5.59440803527832,
"learning_rate": 3.1092413793103445e-06,
"loss": 0.2313,
"step": 3730
},
{
"epoch": 1.0529333333333333,
"grad_norm": 5.3291707038879395,
"learning_rate": 3.107862068965517e-06,
"loss": 0.1965,
"step": 3735
},
{
"epoch": 1.0532666666666666,
"grad_norm": 4.112637996673584,
"learning_rate": 3.1064827586206894e-06,
"loss": 0.2689,
"step": 3740
},
{
"epoch": 1.0536,
"grad_norm": 5.865375995635986,
"learning_rate": 3.1051034482758616e-06,
"loss": 0.2346,
"step": 3745
},
{
"epoch": 1.0539333333333334,
"grad_norm": 4.408691883087158,
"learning_rate": 3.1037241379310343e-06,
"loss": 0.2514,
"step": 3750
},
{
"epoch": 1.0542666666666667,
"grad_norm": 4.8006205558776855,
"learning_rate": 3.102344827586207e-06,
"loss": 0.2206,
"step": 3755
},
{
"epoch": 1.0546,
"grad_norm": 5.385299205780029,
"learning_rate": 3.100965517241379e-06,
"loss": 0.2552,
"step": 3760
},
{
"epoch": 1.0549333333333333,
"grad_norm": 4.512875556945801,
"learning_rate": 3.099586206896552e-06,
"loss": 0.1898,
"step": 3765
},
{
"epoch": 1.0552666666666666,
"grad_norm": 4.165173530578613,
"learning_rate": 3.098206896551724e-06,
"loss": 0.3024,
"step": 3770
},
{
"epoch": 1.0556,
"grad_norm": 3.932673454284668,
"learning_rate": 3.0968275862068963e-06,
"loss": 0.1942,
"step": 3775
},
{
"epoch": 1.0559333333333334,
"grad_norm": 3.3296172618865967,
"learning_rate": 3.095448275862069e-06,
"loss": 0.2054,
"step": 3780
},
{
"epoch": 1.0562666666666667,
"grad_norm": 3.992089033126831,
"learning_rate": 3.0940689655172412e-06,
"loss": 0.167,
"step": 3785
},
{
"epoch": 1.0566,
"grad_norm": 3.4820895195007324,
"learning_rate": 3.0926896551724135e-06,
"loss": 0.1475,
"step": 3790
},
{
"epoch": 1.0569333333333333,
"grad_norm": 5.051333427429199,
"learning_rate": 3.0913103448275857e-06,
"loss": 0.2781,
"step": 3795
},
{
"epoch": 1.0572666666666666,
"grad_norm": 3.6183791160583496,
"learning_rate": 3.0899310344827584e-06,
"loss": 0.2042,
"step": 3800
},
{
"epoch": 1.0576,
"grad_norm": 4.3645243644714355,
"learning_rate": 3.088551724137931e-06,
"loss": 0.162,
"step": 3805
},
{
"epoch": 1.0579333333333334,
"grad_norm": 4.305047988891602,
"learning_rate": 3.0871724137931033e-06,
"loss": 0.2386,
"step": 3810
},
{
"epoch": 1.0582666666666667,
"grad_norm": 4.209627628326416,
"learning_rate": 3.085793103448276e-06,
"loss": 0.2291,
"step": 3815
},
{
"epoch": 1.0586,
"grad_norm": 4.50907564163208,
"learning_rate": 3.084413793103448e-06,
"loss": 0.171,
"step": 3820
},
{
"epoch": 1.0589333333333333,
"grad_norm": 4.226495265960693,
"learning_rate": 3.0830344827586204e-06,
"loss": 0.1879,
"step": 3825
},
{
"epoch": 1.0592666666666666,
"grad_norm": 5.424273490905762,
"learning_rate": 3.081655172413793e-06,
"loss": 0.2011,
"step": 3830
},
{
"epoch": 1.0596,
"grad_norm": 3.443089246749878,
"learning_rate": 3.0802758620689653e-06,
"loss": 0.1845,
"step": 3835
},
{
"epoch": 1.0599333333333334,
"grad_norm": 5.67151403427124,
"learning_rate": 3.0788965517241375e-06,
"loss": 0.209,
"step": 3840
},
{
"epoch": 1.0602666666666667,
"grad_norm": 4.465269565582275,
"learning_rate": 3.07751724137931e-06,
"loss": 0.1923,
"step": 3845
},
{
"epoch": 1.0606,
"grad_norm": 4.850132465362549,
"learning_rate": 3.076137931034483e-06,
"loss": 0.2131,
"step": 3850
},
{
"epoch": 1.0609333333333333,
"grad_norm": 4.652693271636963,
"learning_rate": 3.074758620689655e-06,
"loss": 0.233,
"step": 3855
},
{
"epoch": 1.0612666666666666,
"grad_norm": 4.815736293792725,
"learning_rate": 3.0733793103448277e-06,
"loss": 0.2008,
"step": 3860
},
{
"epoch": 1.0616,
"grad_norm": 4.697230339050293,
"learning_rate": 3.072e-06,
"loss": 0.31,
"step": 3865
},
{
"epoch": 1.0619333333333334,
"grad_norm": 4.672793865203857,
"learning_rate": 3.0706206896551722e-06,
"loss": 0.2109,
"step": 3870
},
{
"epoch": 1.0622666666666667,
"grad_norm": 5.066920280456543,
"learning_rate": 3.0692413793103445e-06,
"loss": 0.1986,
"step": 3875
},
{
"epoch": 1.0626,
"grad_norm": 4.078789234161377,
"learning_rate": 3.067862068965517e-06,
"loss": 0.1737,
"step": 3880
},
{
"epoch": 1.0629333333333333,
"grad_norm": 4.136058330535889,
"learning_rate": 3.0664827586206894e-06,
"loss": 0.1837,
"step": 3885
},
{
"epoch": 1.0632666666666666,
"grad_norm": 3.653874397277832,
"learning_rate": 3.0651034482758616e-06,
"loss": 0.2169,
"step": 3890
},
{
"epoch": 1.0636,
"grad_norm": 3.3892691135406494,
"learning_rate": 3.0637241379310342e-06,
"loss": 0.167,
"step": 3895
},
{
"epoch": 1.0639333333333334,
"grad_norm": 3.95196795463562,
"learning_rate": 3.062344827586207e-06,
"loss": 0.1978,
"step": 3900
},
{
"epoch": 1.0642666666666667,
"grad_norm": 3.911151885986328,
"learning_rate": 3.060965517241379e-06,
"loss": 0.1862,
"step": 3905
},
{
"epoch": 1.0646,
"grad_norm": 4.3409552574157715,
"learning_rate": 3.059586206896552e-06,
"loss": 0.242,
"step": 3910
},
{
"epoch": 1.0649333333333333,
"grad_norm": 4.812688827514648,
"learning_rate": 3.058206896551724e-06,
"loss": 0.1786,
"step": 3915
},
{
"epoch": 1.0652666666666666,
"grad_norm": 4.161563873291016,
"learning_rate": 3.0568275862068963e-06,
"loss": 0.1774,
"step": 3920
},
{
"epoch": 1.0656,
"grad_norm": 5.180776119232178,
"learning_rate": 3.055448275862069e-06,
"loss": 0.191,
"step": 3925
},
{
"epoch": 1.0659333333333334,
"grad_norm": 4.710734844207764,
"learning_rate": 3.054068965517241e-06,
"loss": 0.2186,
"step": 3930
},
{
"epoch": 1.0662666666666667,
"grad_norm": 4.065145015716553,
"learning_rate": 3.0526896551724134e-06,
"loss": 0.1978,
"step": 3935
},
{
"epoch": 1.0666,
"grad_norm": 3.9113762378692627,
"learning_rate": 3.051310344827586e-06,
"loss": 0.1683,
"step": 3940
},
{
"epoch": 1.0669333333333333,
"grad_norm": 5.384532928466797,
"learning_rate": 3.0499310344827587e-06,
"loss": 0.2197,
"step": 3945
},
{
"epoch": 1.0672666666666666,
"grad_norm": 5.0923380851745605,
"learning_rate": 3.048551724137931e-06,
"loss": 0.1868,
"step": 3950
},
{
"epoch": 1.0676,
"grad_norm": 5.146890640258789,
"learning_rate": 3.0471724137931032e-06,
"loss": 0.1935,
"step": 3955
},
{
"epoch": 1.0679333333333334,
"grad_norm": 4.69185209274292,
"learning_rate": 3.045793103448276e-06,
"loss": 0.1969,
"step": 3960
},
{
"epoch": 1.0682666666666667,
"grad_norm": 3.563713550567627,
"learning_rate": 3.044413793103448e-06,
"loss": 0.166,
"step": 3965
},
{
"epoch": 1.0686,
"grad_norm": 5.871016025543213,
"learning_rate": 3.0430344827586203e-06,
"loss": 0.2253,
"step": 3970
},
{
"epoch": 1.0689333333333333,
"grad_norm": 3.954554319381714,
"learning_rate": 3.041655172413793e-06,
"loss": 0.1674,
"step": 3975
},
{
"epoch": 1.0692666666666666,
"grad_norm": 4.5953569412231445,
"learning_rate": 3.0402758620689652e-06,
"loss": 0.2718,
"step": 3980
},
{
"epoch": 1.0695999999999999,
"grad_norm": 5.061355113983154,
"learning_rate": 3.0388965517241375e-06,
"loss": 0.1897,
"step": 3985
},
{
"epoch": 1.0699333333333334,
"grad_norm": 3.9905238151550293,
"learning_rate": 3.0375172413793106e-06,
"loss": 0.1749,
"step": 3990
},
{
"epoch": 1.0702666666666667,
"grad_norm": 3.580721616744995,
"learning_rate": 3.036137931034483e-06,
"loss": 0.1835,
"step": 3995
},
{
"epoch": 1.0706,
"grad_norm": 4.102931976318359,
"learning_rate": 3.034758620689655e-06,
"loss": 0.2343,
"step": 4000
},
{
"epoch": 1.0706,
"eval_loss": 0.2268410176038742,
"eval_runtime": 138.2212,
"eval_samples_per_second": 4.341,
"eval_steps_per_second": 1.085,
"eval_wer": 11.399029869798314,
"step": 4000
},
{
"epoch": 1.0709333333333333,
"grad_norm": 4.876556396484375,
"learning_rate": 3.0333793103448277e-06,
"loss": 0.1746,
"step": 4005
},
{
"epoch": 1.0712666666666666,
"grad_norm": 4.110330104827881,
"learning_rate": 3.032e-06,
"loss": 0.1855,
"step": 4010
},
{
"epoch": 1.0716,
"grad_norm": 3.2885100841522217,
"learning_rate": 3.030620689655172e-06,
"loss": 0.1696,
"step": 4015
},
{
"epoch": 1.0719333333333334,
"grad_norm": 4.894953727722168,
"learning_rate": 3.0292413793103444e-06,
"loss": 0.1763,
"step": 4020
},
{
"epoch": 1.0722666666666667,
"grad_norm": 3.9903762340545654,
"learning_rate": 3.027862068965517e-06,
"loss": 0.212,
"step": 4025
},
{
"epoch": 1.0726,
"grad_norm": 3.7582547664642334,
"learning_rate": 3.0264827586206893e-06,
"loss": 0.1878,
"step": 4030
},
{
"epoch": 1.0729333333333333,
"grad_norm": 3.9547064304351807,
"learning_rate": 3.0251034482758615e-06,
"loss": 0.1642,
"step": 4035
},
{
"epoch": 1.0732666666666666,
"grad_norm": 4.206972122192383,
"learning_rate": 3.0237241379310346e-06,
"loss": 0.1587,
"step": 4040
},
{
"epoch": 1.0735999999999999,
"grad_norm": 3.920929431915283,
"learning_rate": 3.022344827586207e-06,
"loss": 0.2444,
"step": 4045
},
{
"epoch": 1.0739333333333334,
"grad_norm": 3.9810147285461426,
"learning_rate": 3.020965517241379e-06,
"loss": 0.1823,
"step": 4050
},
{
"epoch": 1.0742666666666667,
"grad_norm": 4.789390563964844,
"learning_rate": 3.0195862068965518e-06,
"loss": 0.2364,
"step": 4055
},
{
"epoch": 1.0746,
"grad_norm": 4.057789325714111,
"learning_rate": 3.018206896551724e-06,
"loss": 0.187,
"step": 4060
},
{
"epoch": 1.0749333333333333,
"grad_norm": 5.300390720367432,
"learning_rate": 3.0168275862068962e-06,
"loss": 0.2875,
"step": 4065
},
{
"epoch": 1.0752666666666666,
"grad_norm": 3.4985101222991943,
"learning_rate": 3.015448275862069e-06,
"loss": 0.1993,
"step": 4070
},
{
"epoch": 1.0756000000000001,
"grad_norm": 3.110759973526001,
"learning_rate": 3.014068965517241e-06,
"loss": 0.2151,
"step": 4075
},
{
"epoch": 1.0759333333333334,
"grad_norm": 4.66387414932251,
"learning_rate": 3.0126896551724134e-06,
"loss": 0.2036,
"step": 4080
},
{
"epoch": 1.0762666666666667,
"grad_norm": 4.885064601898193,
"learning_rate": 3.0113103448275865e-06,
"loss": 0.2476,
"step": 4085
},
{
"epoch": 1.0766,
"grad_norm": 4.288619518280029,
"learning_rate": 3.0099310344827587e-06,
"loss": 0.1904,
"step": 4090
},
{
"epoch": 1.0769333333333333,
"grad_norm": 3.69870924949646,
"learning_rate": 3.008551724137931e-06,
"loss": 0.2235,
"step": 4095
},
{
"epoch": 1.0772666666666666,
"grad_norm": 4.05826997756958,
"learning_rate": 3.007172413793103e-06,
"loss": 0.2252,
"step": 4100
},
{
"epoch": 1.0776,
"grad_norm": 4.888148784637451,
"learning_rate": 3.005793103448276e-06,
"loss": 0.2561,
"step": 4105
},
{
"epoch": 1.0779333333333334,
"grad_norm": 4.877688407897949,
"learning_rate": 3.004413793103448e-06,
"loss": 0.2113,
"step": 4110
},
{
"epoch": 1.0782666666666667,
"grad_norm": 5.413600444793701,
"learning_rate": 3.0030344827586203e-06,
"loss": 0.2256,
"step": 4115
},
{
"epoch": 1.0786,
"grad_norm": 4.270473957061768,
"learning_rate": 3.001655172413793e-06,
"loss": 0.2396,
"step": 4120
},
{
"epoch": 1.0789333333333333,
"grad_norm": 4.500417232513428,
"learning_rate": 3.000275862068965e-06,
"loss": 0.2096,
"step": 4125
},
{
"epoch": 1.0792666666666666,
"grad_norm": 5.2032976150512695,
"learning_rate": 2.9988965517241374e-06,
"loss": 0.2856,
"step": 4130
},
{
"epoch": 1.0796000000000001,
"grad_norm": 3.901552438735962,
"learning_rate": 2.9975172413793105e-06,
"loss": 0.2042,
"step": 4135
},
{
"epoch": 1.0799333333333334,
"grad_norm": 4.482265472412109,
"learning_rate": 2.9961379310344828e-06,
"loss": 0.2789,
"step": 4140
},
{
"epoch": 1.0802666666666667,
"grad_norm": 4.165291786193848,
"learning_rate": 2.994758620689655e-06,
"loss": 0.2469,
"step": 4145
},
{
"epoch": 1.0806,
"grad_norm": 4.953929901123047,
"learning_rate": 2.9933793103448277e-06,
"loss": 0.2223,
"step": 4150
},
{
"epoch": 1.0809333333333333,
"grad_norm": 3.369699001312256,
"learning_rate": 2.992e-06,
"loss": 0.1778,
"step": 4155
},
{
"epoch": 1.0812666666666666,
"grad_norm": 4.080148220062256,
"learning_rate": 2.990620689655172e-06,
"loss": 0.2358,
"step": 4160
},
{
"epoch": 1.0816,
"grad_norm": 4.838709831237793,
"learning_rate": 2.989241379310345e-06,
"loss": 0.1956,
"step": 4165
},
{
"epoch": 1.0819333333333334,
"grad_norm": 3.5639090538024902,
"learning_rate": 2.987862068965517e-06,
"loss": 0.1918,
"step": 4170
},
{
"epoch": 1.0822666666666667,
"grad_norm": 4.2466559410095215,
"learning_rate": 2.9864827586206893e-06,
"loss": 0.1803,
"step": 4175
},
{
"epoch": 1.0826,
"grad_norm": 4.495343208312988,
"learning_rate": 2.985103448275862e-06,
"loss": 0.1952,
"step": 4180
},
{
"epoch": 1.0829333333333333,
"grad_norm": 3.988090991973877,
"learning_rate": 2.9837241379310346e-06,
"loss": 0.1831,
"step": 4185
},
{
"epoch": 1.0832666666666666,
"grad_norm": 5.0828022956848145,
"learning_rate": 2.982344827586207e-06,
"loss": 0.177,
"step": 4190
},
{
"epoch": 1.0836,
"grad_norm": 4.129793643951416,
"learning_rate": 2.980965517241379e-06,
"loss": 0.1925,
"step": 4195
},
{
"epoch": 1.0839333333333334,
"grad_norm": 3.910735607147217,
"learning_rate": 2.9795862068965517e-06,
"loss": 0.1656,
"step": 4200
},
{
"epoch": 1.0842666666666667,
"grad_norm": 4.47676944732666,
"learning_rate": 2.978206896551724e-06,
"loss": 0.2102,
"step": 4205
},
{
"epoch": 1.0846,
"grad_norm": 3.7634642124176025,
"learning_rate": 2.976827586206896e-06,
"loss": 0.1772,
"step": 4210
},
{
"epoch": 1.0849333333333333,
"grad_norm": 4.9601922035217285,
"learning_rate": 2.975448275862069e-06,
"loss": 0.1989,
"step": 4215
},
{
"epoch": 1.0852666666666666,
"grad_norm": 4.601022720336914,
"learning_rate": 2.974068965517241e-06,
"loss": 0.1825,
"step": 4220
},
{
"epoch": 1.0856,
"grad_norm": 4.730509281158447,
"learning_rate": 2.9726896551724138e-06,
"loss": 0.1598,
"step": 4225
},
{
"epoch": 1.0859333333333334,
"grad_norm": 4.796960353851318,
"learning_rate": 2.9713103448275864e-06,
"loss": 0.1897,
"step": 4230
},
{
"epoch": 1.0862666666666667,
"grad_norm": 4.407510757446289,
"learning_rate": 2.9699310344827587e-06,
"loss": 0.2468,
"step": 4235
},
{
"epoch": 1.0866,
"grad_norm": 3.56827974319458,
"learning_rate": 2.968551724137931e-06,
"loss": 0.1966,
"step": 4240
},
{
"epoch": 1.0869333333333333,
"grad_norm": 4.364830017089844,
"learning_rate": 2.9671724137931036e-06,
"loss": 0.1815,
"step": 4245
},
{
"epoch": 1.0872666666666666,
"grad_norm": 3.9958388805389404,
"learning_rate": 2.965793103448276e-06,
"loss": 0.163,
"step": 4250
},
{
"epoch": 1.0876,
"grad_norm": 4.383339881896973,
"learning_rate": 2.964413793103448e-06,
"loss": 0.1843,
"step": 4255
},
{
"epoch": 1.0879333333333334,
"grad_norm": 4.407564640045166,
"learning_rate": 2.9630344827586203e-06,
"loss": 0.2141,
"step": 4260
},
{
"epoch": 1.0882666666666667,
"grad_norm": 3.8947925567626953,
"learning_rate": 2.961655172413793e-06,
"loss": 0.1907,
"step": 4265
},
{
"epoch": 1.0886,
"grad_norm": 4.602950096130371,
"learning_rate": 2.960275862068965e-06,
"loss": 0.2073,
"step": 4270
},
{
"epoch": 1.0889333333333333,
"grad_norm": 4.016214370727539,
"learning_rate": 2.958896551724138e-06,
"loss": 0.1899,
"step": 4275
},
{
"epoch": 1.0892666666666666,
"grad_norm": 4.071616172790527,
"learning_rate": 2.9575172413793105e-06,
"loss": 0.1744,
"step": 4280
},
{
"epoch": 1.0896,
"grad_norm": 4.90535306930542,
"learning_rate": 2.9561379310344827e-06,
"loss": 0.2292,
"step": 4285
},
{
"epoch": 1.0899333333333334,
"grad_norm": 4.6877899169921875,
"learning_rate": 2.954758620689655e-06,
"loss": 0.2133,
"step": 4290
},
{
"epoch": 1.0902666666666667,
"grad_norm": 4.8565568923950195,
"learning_rate": 2.9533793103448276e-06,
"loss": 0.2033,
"step": 4295
},
{
"epoch": 1.0906,
"grad_norm": 4.437283992767334,
"learning_rate": 2.952e-06,
"loss": 0.1895,
"step": 4300
},
{
"epoch": 1.0909333333333333,
"grad_norm": 3.8942887783050537,
"learning_rate": 2.950620689655172e-06,
"loss": 0.2173,
"step": 4305
},
{
"epoch": 1.0912666666666666,
"grad_norm": 4.399665832519531,
"learning_rate": 2.9492413793103448e-06,
"loss": 0.2351,
"step": 4310
},
{
"epoch": 1.0916,
"grad_norm": 3.764101028442383,
"learning_rate": 2.947862068965517e-06,
"loss": 0.1524,
"step": 4315
},
{
"epoch": 1.0919333333333334,
"grad_norm": 4.842204570770264,
"learning_rate": 2.9464827586206897e-06,
"loss": 0.1682,
"step": 4320
},
{
"epoch": 1.0922666666666667,
"grad_norm": 3.149669885635376,
"learning_rate": 2.945103448275862e-06,
"loss": 0.1731,
"step": 4325
},
{
"epoch": 1.0926,
"grad_norm": 3.956570625305176,
"learning_rate": 2.9437241379310346e-06,
"loss": 0.1599,
"step": 4330
},
{
"epoch": 1.0929333333333333,
"grad_norm": 4.893487453460693,
"learning_rate": 2.942344827586207e-06,
"loss": 0.1968,
"step": 4335
},
{
"epoch": 1.0932666666666666,
"grad_norm": 3.495042085647583,
"learning_rate": 2.940965517241379e-06,
"loss": 0.1556,
"step": 4340
},
{
"epoch": 1.0936,
"grad_norm": 3.724201202392578,
"learning_rate": 2.9395862068965517e-06,
"loss": 0.1823,
"step": 4345
},
{
"epoch": 1.0939333333333334,
"grad_norm": 3.40342116355896,
"learning_rate": 2.938206896551724e-06,
"loss": 0.1844,
"step": 4350
},
{
"epoch": 1.0942666666666667,
"grad_norm": 3.983743667602539,
"learning_rate": 2.936827586206896e-06,
"loss": 0.1951,
"step": 4355
},
{
"epoch": 1.0946,
"grad_norm": 4.165203094482422,
"learning_rate": 2.935448275862069e-06,
"loss": 0.2019,
"step": 4360
},
{
"epoch": 1.0949333333333333,
"grad_norm": 4.881627559661865,
"learning_rate": 2.934068965517241e-06,
"loss": 0.1788,
"step": 4365
},
{
"epoch": 1.0952666666666666,
"grad_norm": 4.997315883636475,
"learning_rate": 2.9326896551724137e-06,
"loss": 0.2112,
"step": 4370
},
{
"epoch": 1.0956,
"grad_norm": 4.4181132316589355,
"learning_rate": 2.9313103448275864e-06,
"loss": 0.1757,
"step": 4375
},
{
"epoch": 1.0959333333333334,
"grad_norm": 5.474098205566406,
"learning_rate": 2.9299310344827586e-06,
"loss": 0.2404,
"step": 4380
},
{
"epoch": 1.0962666666666667,
"grad_norm": 4.443711757659912,
"learning_rate": 2.928551724137931e-06,
"loss": 0.2079,
"step": 4385
},
{
"epoch": 1.0966,
"grad_norm": 3.8749783039093018,
"learning_rate": 2.9271724137931035e-06,
"loss": 0.2402,
"step": 4390
},
{
"epoch": 1.0969333333333333,
"grad_norm": 3.3482859134674072,
"learning_rate": 2.9257931034482758e-06,
"loss": 0.2293,
"step": 4395
},
{
"epoch": 1.0972666666666666,
"grad_norm": 4.840886116027832,
"learning_rate": 2.924413793103448e-06,
"loss": 0.2063,
"step": 4400
},
{
"epoch": 1.0976,
"grad_norm": 5.348876953125,
"learning_rate": 2.9230344827586202e-06,
"loss": 0.2203,
"step": 4405
},
{
"epoch": 1.0979333333333334,
"grad_norm": 4.477566719055176,
"learning_rate": 2.921655172413793e-06,
"loss": 0.1992,
"step": 4410
},
{
"epoch": 1.0982666666666667,
"grad_norm": 4.385368824005127,
"learning_rate": 2.9202758620689655e-06,
"loss": 0.1758,
"step": 4415
},
{
"epoch": 1.0986,
"grad_norm": 5.30516242980957,
"learning_rate": 2.9188965517241378e-06,
"loss": 0.239,
"step": 4420
},
{
"epoch": 1.0989333333333333,
"grad_norm": 5.109501838684082,
"learning_rate": 2.9175172413793104e-06,
"loss": 0.2201,
"step": 4425
},
{
"epoch": 1.0992666666666666,
"grad_norm": 4.417385101318359,
"learning_rate": 2.9161379310344827e-06,
"loss": 0.192,
"step": 4430
},
{
"epoch": 1.0996,
"grad_norm": 3.6924843788146973,
"learning_rate": 2.914758620689655e-06,
"loss": 0.2265,
"step": 4435
},
{
"epoch": 1.0999333333333334,
"grad_norm": 4.569225311279297,
"learning_rate": 2.9133793103448276e-06,
"loss": 0.2105,
"step": 4440
},
{
"epoch": 1.1002666666666667,
"grad_norm": 3.942950963973999,
"learning_rate": 2.912e-06,
"loss": 0.2081,
"step": 4445
},
{
"epoch": 1.1006,
"grad_norm": 3.613032817840576,
"learning_rate": 2.910620689655172e-06,
"loss": 0.1844,
"step": 4450
},
{
"epoch": 1.1009333333333333,
"grad_norm": 5.1066131591796875,
"learning_rate": 2.9092413793103447e-06,
"loss": 0.1967,
"step": 4455
},
{
"epoch": 1.1012666666666666,
"grad_norm": 4.886391639709473,
"learning_rate": 2.907862068965517e-06,
"loss": 0.188,
"step": 4460
},
{
"epoch": 1.1016,
"grad_norm": 3.572789192199707,
"learning_rate": 2.9064827586206896e-06,
"loss": 0.1525,
"step": 4465
},
{
"epoch": 1.1019333333333334,
"grad_norm": 3.4419796466827393,
"learning_rate": 2.9051034482758623e-06,
"loss": 0.1826,
"step": 4470
},
{
"epoch": 1.1022666666666667,
"grad_norm": 4.468290328979492,
"learning_rate": 2.9037241379310345e-06,
"loss": 0.199,
"step": 4475
},
{
"epoch": 1.1026,
"grad_norm": 5.7574076652526855,
"learning_rate": 2.9023448275862067e-06,
"loss": 0.2697,
"step": 4480
},
{
"epoch": 1.1029333333333333,
"grad_norm": 4.674327373504639,
"learning_rate": 2.900965517241379e-06,
"loss": 0.1546,
"step": 4485
},
{
"epoch": 1.1032666666666666,
"grad_norm": 4.679714202880859,
"learning_rate": 2.8995862068965516e-06,
"loss": 0.1934,
"step": 4490
},
{
"epoch": 1.1036,
"grad_norm": 4.581182956695557,
"learning_rate": 2.898206896551724e-06,
"loss": 0.2217,
"step": 4495
},
{
"epoch": 1.1039333333333334,
"grad_norm": 4.956315517425537,
"learning_rate": 2.896827586206896e-06,
"loss": 0.2422,
"step": 4500
},
{
"epoch": 1.1042666666666667,
"grad_norm": 3.650285005569458,
"learning_rate": 2.8954482758620688e-06,
"loss": 0.1317,
"step": 4505
},
{
"epoch": 1.1046,
"grad_norm": 4.513254642486572,
"learning_rate": 2.8940689655172414e-06,
"loss": 0.2146,
"step": 4510
},
{
"epoch": 1.1049333333333333,
"grad_norm": 3.55983829498291,
"learning_rate": 2.8926896551724137e-06,
"loss": 0.1783,
"step": 4515
},
{
"epoch": 1.1052666666666666,
"grad_norm": 4.265017509460449,
"learning_rate": 2.8913103448275863e-06,
"loss": 0.1758,
"step": 4520
},
{
"epoch": 1.1056,
"grad_norm": 4.156493186950684,
"learning_rate": 2.8899310344827586e-06,
"loss": 0.1898,
"step": 4525
},
{
"epoch": 1.1059333333333334,
"grad_norm": 4.1872406005859375,
"learning_rate": 2.888551724137931e-06,
"loss": 0.2069,
"step": 4530
},
{
"epoch": 1.1062666666666667,
"grad_norm": 3.242173910140991,
"learning_rate": 2.8871724137931035e-06,
"loss": 0.2084,
"step": 4535
},
{
"epoch": 1.1066,
"grad_norm": 4.0468292236328125,
"learning_rate": 2.8857931034482757e-06,
"loss": 0.1787,
"step": 4540
},
{
"epoch": 1.1069333333333333,
"grad_norm": 3.2678468227386475,
"learning_rate": 2.884413793103448e-06,
"loss": 0.1837,
"step": 4545
},
{
"epoch": 1.1072666666666666,
"grad_norm": 3.554248571395874,
"learning_rate": 2.88303448275862e-06,
"loss": 0.1483,
"step": 4550
},
{
"epoch": 1.1076,
"grad_norm": 3.46049427986145,
"learning_rate": 2.8816551724137933e-06,
"loss": 0.1815,
"step": 4555
},
{
"epoch": 1.1079333333333334,
"grad_norm": 4.22011137008667,
"learning_rate": 2.8802758620689655e-06,
"loss": 0.163,
"step": 4560
},
{
"epoch": 1.1082666666666667,
"grad_norm": 3.987525463104248,
"learning_rate": 2.8788965517241377e-06,
"loss": 0.1505,
"step": 4565
},
{
"epoch": 1.1086,
"grad_norm": 5.824914455413818,
"learning_rate": 2.8775172413793104e-06,
"loss": 0.2732,
"step": 4570
},
{
"epoch": 1.1089333333333333,
"grad_norm": 4.02011775970459,
"learning_rate": 2.8761379310344826e-06,
"loss": 0.2066,
"step": 4575
},
{
"epoch": 1.1092666666666666,
"grad_norm": 3.7263333797454834,
"learning_rate": 2.874758620689655e-06,
"loss": 0.1959,
"step": 4580
},
{
"epoch": 1.1096,
"grad_norm": 3.231119155883789,
"learning_rate": 2.8733793103448275e-06,
"loss": 0.1523,
"step": 4585
},
{
"epoch": 1.1099333333333332,
"grad_norm": 3.4508893489837646,
"learning_rate": 2.8719999999999998e-06,
"loss": 0.1596,
"step": 4590
},
{
"epoch": 1.1102666666666667,
"grad_norm": 5.301802635192871,
"learning_rate": 2.870620689655172e-06,
"loss": 0.1994,
"step": 4595
},
{
"epoch": 1.1106,
"grad_norm": 3.6685116291046143,
"learning_rate": 2.8692413793103447e-06,
"loss": 0.1824,
"step": 4600
},
{
"epoch": 1.1109333333333333,
"grad_norm": 4.879263401031494,
"learning_rate": 2.8678620689655173e-06,
"loss": 0.1789,
"step": 4605
},
{
"epoch": 1.1112666666666666,
"grad_norm": 4.326107501983643,
"learning_rate": 2.8664827586206896e-06,
"loss": 0.2,
"step": 4610
},
{
"epoch": 1.1116,
"grad_norm": 3.3059206008911133,
"learning_rate": 2.8651034482758622e-06,
"loss": 0.2188,
"step": 4615
},
{
"epoch": 1.1119333333333334,
"grad_norm": 5.0130486488342285,
"learning_rate": 2.8637241379310345e-06,
"loss": 0.2403,
"step": 4620
},
{
"epoch": 1.1122666666666667,
"grad_norm": 4.662135601043701,
"learning_rate": 2.8623448275862067e-06,
"loss": 0.1851,
"step": 4625
},
{
"epoch": 1.1126,
"grad_norm": 7.146907329559326,
"learning_rate": 2.860965517241379e-06,
"loss": 0.1482,
"step": 4630
},
{
"epoch": 1.1129333333333333,
"grad_norm": 4.4374847412109375,
"learning_rate": 2.8595862068965516e-06,
"loss": 0.1872,
"step": 4635
},
{
"epoch": 1.1132666666666666,
"grad_norm": 4.843354225158691,
"learning_rate": 2.858206896551724e-06,
"loss": 0.2323,
"step": 4640
},
{
"epoch": 1.1136,
"grad_norm": 3.995206594467163,
"learning_rate": 2.856827586206896e-06,
"loss": 0.1724,
"step": 4645
},
{
"epoch": 1.1139333333333332,
"grad_norm": 4.626944065093994,
"learning_rate": 2.855448275862069e-06,
"loss": 0.2481,
"step": 4650
},
{
"epoch": 1.1142666666666667,
"grad_norm": 4.230355739593506,
"learning_rate": 2.8540689655172414e-06,
"loss": 0.2059,
"step": 4655
},
{
"epoch": 1.1146,
"grad_norm": 3.855186700820923,
"learning_rate": 2.8526896551724136e-06,
"loss": 0.1772,
"step": 4660
},
{
"epoch": 1.1149333333333333,
"grad_norm": 4.355653762817383,
"learning_rate": 2.8513103448275863e-06,
"loss": 0.1841,
"step": 4665
},
{
"epoch": 1.1152666666666666,
"grad_norm": 3.413299560546875,
"learning_rate": 2.8499310344827585e-06,
"loss": 0.1614,
"step": 4670
},
{
"epoch": 1.1156,
"grad_norm": 4.973278522491455,
"learning_rate": 2.8485517241379308e-06,
"loss": 0.1663,
"step": 4675
},
{
"epoch": 1.1159333333333334,
"grad_norm": 4.464892864227295,
"learning_rate": 2.8471724137931034e-06,
"loss": 0.1872,
"step": 4680
},
{
"epoch": 1.1162666666666667,
"grad_norm": 5.563607215881348,
"learning_rate": 2.8457931034482757e-06,
"loss": 0.2125,
"step": 4685
},
{
"epoch": 1.1166,
"grad_norm": 3.4745309352874756,
"learning_rate": 2.844413793103448e-06,
"loss": 0.1895,
"step": 4690
},
{
"epoch": 1.1169333333333333,
"grad_norm": 4.8930792808532715,
"learning_rate": 2.84303448275862e-06,
"loss": 0.175,
"step": 4695
},
{
"epoch": 1.1172666666666666,
"grad_norm": 4.708552837371826,
"learning_rate": 2.8416551724137932e-06,
"loss": 0.2302,
"step": 4700
},
{
"epoch": 1.1176,
"grad_norm": 4.1199798583984375,
"learning_rate": 2.8402758620689655e-06,
"loss": 0.1935,
"step": 4705
},
{
"epoch": 1.1179333333333332,
"grad_norm": 3.9816079139709473,
"learning_rate": 2.8388965517241377e-06,
"loss": 0.1952,
"step": 4710
},
{
"epoch": 1.1182666666666667,
"grad_norm": 3.914416551589966,
"learning_rate": 2.8375172413793104e-06,
"loss": 0.2051,
"step": 4715
},
{
"epoch": 1.1186,
"grad_norm": 4.918084144592285,
"learning_rate": 2.8361379310344826e-06,
"loss": 0.181,
"step": 4720
},
{
"epoch": 1.1189333333333333,
"grad_norm": 3.7524545192718506,
"learning_rate": 2.834758620689655e-06,
"loss": 0.1895,
"step": 4725
},
{
"epoch": 1.1192666666666666,
"grad_norm": 4.190952777862549,
"learning_rate": 2.8333793103448275e-06,
"loss": 0.2072,
"step": 4730
},
{
"epoch": 1.1196,
"grad_norm": 3.681546688079834,
"learning_rate": 2.8319999999999997e-06,
"loss": 0.1737,
"step": 4735
},
{
"epoch": 1.1199333333333334,
"grad_norm": 5.234808444976807,
"learning_rate": 2.830620689655172e-06,
"loss": 0.2442,
"step": 4740
},
{
"epoch": 1.1202666666666667,
"grad_norm": 3.9235680103302,
"learning_rate": 2.829241379310345e-06,
"loss": 0.2095,
"step": 4745
},
{
"epoch": 1.1206,
"grad_norm": 3.7643444538116455,
"learning_rate": 2.8278620689655173e-06,
"loss": 0.1935,
"step": 4750
},
{
"epoch": 1.1209333333333333,
"grad_norm": 4.407737731933594,
"learning_rate": 2.8264827586206895e-06,
"loss": 0.1941,
"step": 4755
},
{
"epoch": 1.1212666666666666,
"grad_norm": 3.320873498916626,
"learning_rate": 2.825103448275862e-06,
"loss": 0.1777,
"step": 4760
},
{
"epoch": 1.1216,
"grad_norm": 3.7639729976654053,
"learning_rate": 2.8237241379310344e-06,
"loss": 0.1787,
"step": 4765
},
{
"epoch": 1.1219333333333332,
"grad_norm": 4.011973857879639,
"learning_rate": 2.8223448275862067e-06,
"loss": 0.1821,
"step": 4770
},
{
"epoch": 1.1222666666666667,
"grad_norm": 4.560912609100342,
"learning_rate": 2.820965517241379e-06,
"loss": 0.1888,
"step": 4775
},
{
"epoch": 1.1226,
"grad_norm": 4.736232280731201,
"learning_rate": 2.8195862068965516e-06,
"loss": 0.1985,
"step": 4780
},
{
"epoch": 1.1229333333333333,
"grad_norm": 4.1751627922058105,
"learning_rate": 2.818206896551724e-06,
"loss": 0.1842,
"step": 4785
},
{
"epoch": 1.1232666666666666,
"grad_norm": 3.8032777309417725,
"learning_rate": 2.8168275862068965e-06,
"loss": 0.1939,
"step": 4790
},
{
"epoch": 1.1236,
"grad_norm": 4.563346862792969,
"learning_rate": 2.815448275862069e-06,
"loss": 0.1607,
"step": 4795
},
{
"epoch": 1.1239333333333335,
"grad_norm": 3.5407750606536865,
"learning_rate": 2.8140689655172414e-06,
"loss": 0.2057,
"step": 4800
},
{
"epoch": 1.1242666666666667,
"grad_norm": 4.015341281890869,
"learning_rate": 2.8126896551724136e-06,
"loss": 0.2087,
"step": 4805
},
{
"epoch": 1.1246,
"grad_norm": 5.5382561683654785,
"learning_rate": 2.8113103448275863e-06,
"loss": 0.1925,
"step": 4810
},
{
"epoch": 1.1249333333333333,
"grad_norm": 4.097034454345703,
"learning_rate": 2.8099310344827585e-06,
"loss": 0.2092,
"step": 4815
},
{
"epoch": 1.1252666666666666,
"grad_norm": 3.994246244430542,
"learning_rate": 2.8085517241379307e-06,
"loss": 0.1999,
"step": 4820
},
{
"epoch": 1.1256,
"grad_norm": 4.980210781097412,
"learning_rate": 2.8071724137931034e-06,
"loss": 0.2522,
"step": 4825
},
{
"epoch": 1.1259333333333332,
"grad_norm": 5.69704008102417,
"learning_rate": 2.8057931034482756e-06,
"loss": 0.2447,
"step": 4830
},
{
"epoch": 1.1262666666666667,
"grad_norm": 4.367610454559326,
"learning_rate": 2.804413793103448e-06,
"loss": 0.2244,
"step": 4835
},
{
"epoch": 1.1266,
"grad_norm": 4.881072044372559,
"learning_rate": 2.803034482758621e-06,
"loss": 0.1531,
"step": 4840
},
{
"epoch": 1.1269333333333333,
"grad_norm": 6.344549655914307,
"learning_rate": 2.801655172413793e-06,
"loss": 0.2531,
"step": 4845
},
{
"epoch": 1.1272666666666666,
"grad_norm": 4.571545600891113,
"learning_rate": 2.8002758620689654e-06,
"loss": 0.2557,
"step": 4850
},
{
"epoch": 1.1276,
"grad_norm": 4.428611755371094,
"learning_rate": 2.7988965517241377e-06,
"loss": 0.2433,
"step": 4855
},
{
"epoch": 1.1279333333333335,
"grad_norm": 3.478060483932495,
"learning_rate": 2.7975172413793103e-06,
"loss": 0.2125,
"step": 4860
},
{
"epoch": 1.1282666666666668,
"grad_norm": 4.306246757507324,
"learning_rate": 2.7961379310344826e-06,
"loss": 0.1583,
"step": 4865
},
{
"epoch": 1.1286,
"grad_norm": 5.304801940917969,
"learning_rate": 2.794758620689655e-06,
"loss": 0.1917,
"step": 4870
},
{
"epoch": 1.1289333333333333,
"grad_norm": 4.3496623039245605,
"learning_rate": 2.7933793103448275e-06,
"loss": 0.1868,
"step": 4875
},
{
"epoch": 1.1292666666666666,
"grad_norm": 4.872969150543213,
"learning_rate": 2.7919999999999997e-06,
"loss": 0.3008,
"step": 4880
},
{
"epoch": 1.1296,
"grad_norm": 5.376682758331299,
"learning_rate": 2.7906206896551724e-06,
"loss": 0.1846,
"step": 4885
},
{
"epoch": 1.1299333333333332,
"grad_norm": 4.408675670623779,
"learning_rate": 2.789241379310345e-06,
"loss": 0.1979,
"step": 4890
},
{
"epoch": 1.1302666666666668,
"grad_norm": 5.009186744689941,
"learning_rate": 2.7878620689655173e-06,
"loss": 0.2189,
"step": 4895
},
{
"epoch": 1.1306,
"grad_norm": 4.575723648071289,
"learning_rate": 2.7864827586206895e-06,
"loss": 0.191,
"step": 4900
},
{
"epoch": 1.1309333333333333,
"grad_norm": 4.254824161529541,
"learning_rate": 2.785103448275862e-06,
"loss": 0.2155,
"step": 4905
},
{
"epoch": 1.1312666666666666,
"grad_norm": 3.905532121658325,
"learning_rate": 2.7837241379310344e-06,
"loss": 0.1899,
"step": 4910
},
{
"epoch": 1.1316,
"grad_norm": 5.507880687713623,
"learning_rate": 2.7823448275862066e-06,
"loss": 0.2256,
"step": 4915
},
{
"epoch": 1.1319333333333335,
"grad_norm": 4.343334674835205,
"learning_rate": 2.780965517241379e-06,
"loss": 0.1657,
"step": 4920
},
{
"epoch": 1.1322666666666668,
"grad_norm": 4.475545883178711,
"learning_rate": 2.7795862068965515e-06,
"loss": 0.1989,
"step": 4925
},
{
"epoch": 1.1326,
"grad_norm": 5.1606903076171875,
"learning_rate": 2.7782068965517238e-06,
"loss": 0.2428,
"step": 4930
},
{
"epoch": 1.1329333333333333,
"grad_norm": 5.443267345428467,
"learning_rate": 2.7768275862068964e-06,
"loss": 0.2046,
"step": 4935
},
{
"epoch": 1.1332666666666666,
"grad_norm": 3.020538568496704,
"learning_rate": 2.775448275862069e-06,
"loss": 0.1744,
"step": 4940
},
{
"epoch": 1.1336,
"grad_norm": 3.7136950492858887,
"learning_rate": 2.7740689655172413e-06,
"loss": 0.1995,
"step": 4945
},
{
"epoch": 1.1339333333333332,
"grad_norm": 4.379866600036621,
"learning_rate": 2.7726896551724136e-06,
"loss": 0.3399,
"step": 4950
},
{
"epoch": 1.1342666666666668,
"grad_norm": 4.760313034057617,
"learning_rate": 2.7713103448275862e-06,
"loss": 0.225,
"step": 4955
},
{
"epoch": 1.1346,
"grad_norm": 4.204442977905273,
"learning_rate": 2.7699310344827585e-06,
"loss": 0.2272,
"step": 4960
},
{
"epoch": 1.1349333333333333,
"grad_norm": 4.384819030761719,
"learning_rate": 2.7685517241379307e-06,
"loss": 0.228,
"step": 4965
},
{
"epoch": 1.1352666666666666,
"grad_norm": 3.8497352600097656,
"learning_rate": 2.7671724137931034e-06,
"loss": 0.2212,
"step": 4970
},
{
"epoch": 1.1356,
"grad_norm": 4.877221584320068,
"learning_rate": 2.7657931034482756e-06,
"loss": 0.2536,
"step": 4975
},
{
"epoch": 1.1359333333333332,
"grad_norm": 3.7856905460357666,
"learning_rate": 2.7644137931034483e-06,
"loss": 0.2111,
"step": 4980
},
{
"epoch": 1.1362666666666668,
"grad_norm": 4.839357376098633,
"learning_rate": 2.763034482758621e-06,
"loss": 0.1918,
"step": 4985
},
{
"epoch": 1.1366,
"grad_norm": 3.634368896484375,
"learning_rate": 2.761655172413793e-06,
"loss": 0.1906,
"step": 4990
},
{
"epoch": 1.1369333333333334,
"grad_norm": 3.3249456882476807,
"learning_rate": 2.7602758620689654e-06,
"loss": 0.2133,
"step": 4995
},
{
"epoch": 1.1372666666666666,
"grad_norm": 4.269469261169434,
"learning_rate": 2.7588965517241376e-06,
"loss": 0.2004,
"step": 5000
},
{
"epoch": 1.1372666666666666,
"eval_loss": 0.22218205034732819,
"eval_runtime": 137.1702,
"eval_samples_per_second": 4.374,
"eval_steps_per_second": 1.094,
"eval_wer": 11.450089354097523,
"step": 5000
},
{
"epoch": 1.1376,
"grad_norm": 3.6362509727478027,
"learning_rate": 2.7575172413793103e-06,
"loss": 0.1785,
"step": 5005
},
{
"epoch": 1.1379333333333332,
"grad_norm": 4.418122291564941,
"learning_rate": 2.7561379310344825e-06,
"loss": 0.1665,
"step": 5010
},
{
"epoch": 1.1382666666666668,
"grad_norm": 4.212091445922852,
"learning_rate": 2.7547586206896548e-06,
"loss": 0.1843,
"step": 5015
},
{
"epoch": 1.1386,
"grad_norm": 3.4938228130340576,
"learning_rate": 2.7533793103448274e-06,
"loss": 0.1876,
"step": 5020
},
{
"epoch": 1.1389333333333334,
"grad_norm": 3.74359393119812,
"learning_rate": 2.7519999999999997e-06,
"loss": 0.144,
"step": 5025
},
{
"epoch": 1.1392666666666666,
"grad_norm": 3.883995532989502,
"learning_rate": 2.7506206896551723e-06,
"loss": 0.1694,
"step": 5030
},
{
"epoch": 1.1396,
"grad_norm": 4.399216651916504,
"learning_rate": 2.749241379310345e-06,
"loss": 0.1732,
"step": 5035
},
{
"epoch": 1.1399333333333332,
"grad_norm": 4.641524314880371,
"learning_rate": 2.7478620689655172e-06,
"loss": 0.1767,
"step": 5040
},
{
"epoch": 1.1402666666666668,
"grad_norm": 3.757779359817505,
"learning_rate": 2.7464827586206895e-06,
"loss": 0.1938,
"step": 5045
},
{
"epoch": 1.1406,
"grad_norm": 4.3538899421691895,
"learning_rate": 2.745103448275862e-06,
"loss": 0.2211,
"step": 5050
},
{
"epoch": 1.1409333333333334,
"grad_norm": 3.578556537628174,
"learning_rate": 2.7437241379310343e-06,
"loss": 0.192,
"step": 5055
},
{
"epoch": 1.1412666666666667,
"grad_norm": 4.390420913696289,
"learning_rate": 2.7423448275862066e-06,
"loss": 0.195,
"step": 5060
},
{
"epoch": 1.1416,
"grad_norm": 4.332846164703369,
"learning_rate": 2.740965517241379e-06,
"loss": 0.2194,
"step": 5065
},
{
"epoch": 1.1419333333333332,
"grad_norm": 4.345626354217529,
"learning_rate": 2.7395862068965515e-06,
"loss": 0.1912,
"step": 5070
},
{
"epoch": 1.1422666666666668,
"grad_norm": 3.979213237762451,
"learning_rate": 2.738206896551724e-06,
"loss": 0.1914,
"step": 5075
},
{
"epoch": 1.1426,
"grad_norm": 4.0453948974609375,
"learning_rate": 2.7368275862068964e-06,
"loss": 0.2032,
"step": 5080
},
{
"epoch": 1.1429333333333334,
"grad_norm": 4.972130298614502,
"learning_rate": 2.735448275862069e-06,
"loss": 0.1831,
"step": 5085
},
{
"epoch": 1.1432666666666667,
"grad_norm": 4.726823329925537,
"learning_rate": 2.7340689655172413e-06,
"loss": 0.202,
"step": 5090
},
{
"epoch": 1.1436,
"grad_norm": 5.029985427856445,
"learning_rate": 2.7326896551724135e-06,
"loss": 0.2521,
"step": 5095
},
{
"epoch": 1.1439333333333332,
"grad_norm": 3.465513229370117,
"learning_rate": 2.731310344827586e-06,
"loss": 0.1612,
"step": 5100
},
{
"epoch": 1.1442666666666668,
"grad_norm": 4.140130996704102,
"learning_rate": 2.7299310344827584e-06,
"loss": 0.1746,
"step": 5105
},
{
"epoch": 1.1446,
"grad_norm": 4.352369785308838,
"learning_rate": 2.7285517241379307e-06,
"loss": 0.1632,
"step": 5110
},
{
"epoch": 1.1449333333333334,
"grad_norm": 4.439798355102539,
"learning_rate": 2.7271724137931033e-06,
"loss": 0.1629,
"step": 5115
},
{
"epoch": 1.1452666666666667,
"grad_norm": 4.279767036437988,
"learning_rate": 2.725793103448276e-06,
"loss": 0.186,
"step": 5120
},
{
"epoch": 1.1456,
"grad_norm": 4.694298267364502,
"learning_rate": 2.724413793103448e-06,
"loss": 0.1609,
"step": 5125
},
{
"epoch": 1.1459333333333332,
"grad_norm": 4.133419036865234,
"learning_rate": 2.723034482758621e-06,
"loss": 0.1678,
"step": 5130
},
{
"epoch": 1.1462666666666665,
"grad_norm": 4.086022853851318,
"learning_rate": 2.721655172413793e-06,
"loss": 0.1963,
"step": 5135
},
{
"epoch": 1.1466,
"grad_norm": 4.062281131744385,
"learning_rate": 2.7202758620689653e-06,
"loss": 0.2177,
"step": 5140
},
{
"epoch": 1.1469333333333334,
"grad_norm": 3.842663049697876,
"learning_rate": 2.7188965517241376e-06,
"loss": 0.2066,
"step": 5145
},
{
"epoch": 1.1472666666666667,
"grad_norm": 4.185869216918945,
"learning_rate": 2.7175172413793102e-06,
"loss": 0.1963,
"step": 5150
},
{
"epoch": 1.1476,
"grad_norm": 4.886322498321533,
"learning_rate": 2.7161379310344825e-06,
"loss": 0.2015,
"step": 5155
},
{
"epoch": 1.1479333333333333,
"grad_norm": 4.741457939147949,
"learning_rate": 2.7147586206896547e-06,
"loss": 0.2075,
"step": 5160
},
{
"epoch": 1.1482666666666668,
"grad_norm": 4.308309555053711,
"learning_rate": 2.7133793103448274e-06,
"loss": 0.1876,
"step": 5165
},
{
"epoch": 1.1486,
"grad_norm": 4.164566516876221,
"learning_rate": 2.712e-06,
"loss": 0.182,
"step": 5170
},
{
"epoch": 1.1489333333333334,
"grad_norm": 3.667811393737793,
"learning_rate": 2.7106206896551723e-06,
"loss": 0.2232,
"step": 5175
},
{
"epoch": 1.1492666666666667,
"grad_norm": 4.263617992401123,
"learning_rate": 2.709241379310345e-06,
"loss": 0.1764,
"step": 5180
},
{
"epoch": 1.1496,
"grad_norm": 3.409736156463623,
"learning_rate": 2.707862068965517e-06,
"loss": 0.1883,
"step": 5185
},
{
"epoch": 1.1499333333333333,
"grad_norm": 4.180192470550537,
"learning_rate": 2.7064827586206894e-06,
"loss": 0.1867,
"step": 5190
},
{
"epoch": 1.1502666666666665,
"grad_norm": 4.132522106170654,
"learning_rate": 2.705103448275862e-06,
"loss": 0.1931,
"step": 5195
},
{
"epoch": 1.1506,
"grad_norm": 4.568750381469727,
"learning_rate": 2.7037241379310343e-06,
"loss": 0.2476,
"step": 5200
},
{
"epoch": 1.1509333333333334,
"grad_norm": 4.722099304199219,
"learning_rate": 2.7023448275862065e-06,
"loss": 0.2099,
"step": 5205
},
{
"epoch": 1.1512666666666667,
"grad_norm": 3.8684873580932617,
"learning_rate": 2.700965517241379e-06,
"loss": 0.2245,
"step": 5210
},
{
"epoch": 1.1516,
"grad_norm": 3.5794153213500977,
"learning_rate": 2.699586206896552e-06,
"loss": 0.1653,
"step": 5215
},
{
"epoch": 1.1519333333333333,
"grad_norm": 3.6119391918182373,
"learning_rate": 2.698206896551724e-06,
"loss": 0.1761,
"step": 5220
},
{
"epoch": 1.1522666666666668,
"grad_norm": 3.7972981929779053,
"learning_rate": 2.6968275862068963e-06,
"loss": 0.1785,
"step": 5225
},
{
"epoch": 1.1526,
"grad_norm": 4.842169284820557,
"learning_rate": 2.695448275862069e-06,
"loss": 0.2337,
"step": 5230
},
{
"epoch": 1.1529333333333334,
"grad_norm": 3.4502532482147217,
"learning_rate": 2.6940689655172412e-06,
"loss": 0.2077,
"step": 5235
},
{
"epoch": 1.1532666666666667,
"grad_norm": 3.4482548236846924,
"learning_rate": 2.6926896551724135e-06,
"loss": 0.163,
"step": 5240
},
{
"epoch": 1.1536,
"grad_norm": 4.342613220214844,
"learning_rate": 2.691310344827586e-06,
"loss": 0.1848,
"step": 5245
},
{
"epoch": 1.1539333333333333,
"grad_norm": 4.090986728668213,
"learning_rate": 2.6899310344827584e-06,
"loss": 0.1776,
"step": 5250
},
{
"epoch": 1.1542666666666666,
"grad_norm": 4.537845611572266,
"learning_rate": 2.6885517241379306e-06,
"loss": 0.2145,
"step": 5255
},
{
"epoch": 1.1546,
"grad_norm": 3.7832870483398438,
"learning_rate": 2.6871724137931033e-06,
"loss": 0.1667,
"step": 5260
},
{
"epoch": 1.1549333333333334,
"grad_norm": 4.331830024719238,
"learning_rate": 2.685793103448276e-06,
"loss": 0.1955,
"step": 5265
},
{
"epoch": 1.1552666666666667,
"grad_norm": 4.489880084991455,
"learning_rate": 2.684413793103448e-06,
"loss": 0.2373,
"step": 5270
},
{
"epoch": 1.1556,
"grad_norm": 3.1144156455993652,
"learning_rate": 2.683034482758621e-06,
"loss": 0.1475,
"step": 5275
},
{
"epoch": 1.1559333333333333,
"grad_norm": 3.966062068939209,
"learning_rate": 2.681655172413793e-06,
"loss": 0.1972,
"step": 5280
},
{
"epoch": 1.1562666666666668,
"grad_norm": 3.8982529640197754,
"learning_rate": 2.6802758620689653e-06,
"loss": 0.167,
"step": 5285
},
{
"epoch": 1.1566,
"grad_norm": 4.348316669464111,
"learning_rate": 2.678896551724138e-06,
"loss": 0.1798,
"step": 5290
},
{
"epoch": 1.1569333333333334,
"grad_norm": 4.5591607093811035,
"learning_rate": 2.67751724137931e-06,
"loss": 0.175,
"step": 5295
},
{
"epoch": 1.1572666666666667,
"grad_norm": 3.9797098636627197,
"learning_rate": 2.6761379310344824e-06,
"loss": 0.1895,
"step": 5300
},
{
"epoch": 1.1576,
"grad_norm": 4.154595375061035,
"learning_rate": 2.6747586206896547e-06,
"loss": 0.1654,
"step": 5305
},
{
"epoch": 1.1579333333333333,
"grad_norm": 3.974168300628662,
"learning_rate": 2.6733793103448278e-06,
"loss": 0.1927,
"step": 5310
},
{
"epoch": 1.1582666666666666,
"grad_norm": 3.83962345123291,
"learning_rate": 2.672e-06,
"loss": 0.1875,
"step": 5315
},
{
"epoch": 1.1586,
"grad_norm": 5.381604194641113,
"learning_rate": 2.6706206896551722e-06,
"loss": 0.1782,
"step": 5320
},
{
"epoch": 1.1589333333333334,
"grad_norm": 4.654579162597656,
"learning_rate": 2.669241379310345e-06,
"loss": 0.2006,
"step": 5325
},
{
"epoch": 1.1592666666666667,
"grad_norm": 4.560925006866455,
"learning_rate": 2.667862068965517e-06,
"loss": 0.2029,
"step": 5330
},
{
"epoch": 1.1596,
"grad_norm": 5.027436256408691,
"learning_rate": 2.6664827586206894e-06,
"loss": 0.1945,
"step": 5335
},
{
"epoch": 1.1599333333333333,
"grad_norm": 4.1756792068481445,
"learning_rate": 2.665103448275862e-06,
"loss": 0.1938,
"step": 5340
},
{
"epoch": 1.1602666666666668,
"grad_norm": 4.538050174713135,
"learning_rate": 2.6637241379310343e-06,
"loss": 0.196,
"step": 5345
},
{
"epoch": 1.1606,
"grad_norm": 4.5956501960754395,
"learning_rate": 2.6623448275862065e-06,
"loss": 0.2112,
"step": 5350
},
{
"epoch": 1.1609333333333334,
"grad_norm": 3.1964244842529297,
"learning_rate": 2.6609655172413796e-06,
"loss": 0.1974,
"step": 5355
},
{
"epoch": 1.1612666666666667,
"grad_norm": 3.3779561519622803,
"learning_rate": 2.659586206896552e-06,
"loss": 0.2654,
"step": 5360
},
{
"epoch": 1.1616,
"grad_norm": 4.518371105194092,
"learning_rate": 2.658206896551724e-06,
"loss": 0.2293,
"step": 5365
},
{
"epoch": 1.1619333333333333,
"grad_norm": 4.308935165405273,
"learning_rate": 2.6568275862068963e-06,
"loss": 0.1941,
"step": 5370
},
{
"epoch": 1.1622666666666666,
"grad_norm": 4.0899834632873535,
"learning_rate": 2.655448275862069e-06,
"loss": 0.1812,
"step": 5375
},
{
"epoch": 1.1626,
"grad_norm": 3.8920445442199707,
"learning_rate": 2.654068965517241e-06,
"loss": 0.164,
"step": 5380
},
{
"epoch": 1.1629333333333334,
"grad_norm": 3.8093814849853516,
"learning_rate": 2.6526896551724134e-06,
"loss": 0.1659,
"step": 5385
},
{
"epoch": 1.1632666666666667,
"grad_norm": 4.044894218444824,
"learning_rate": 2.651310344827586e-06,
"loss": 0.1786,
"step": 5390
},
{
"epoch": 1.1636,
"grad_norm": 4.1796674728393555,
"learning_rate": 2.6499310344827583e-06,
"loss": 0.2143,
"step": 5395
},
{
"epoch": 1.1639333333333333,
"grad_norm": 3.6118078231811523,
"learning_rate": 2.6485517241379306e-06,
"loss": 0.158,
"step": 5400
},
{
"epoch": 1.1642666666666668,
"grad_norm": 3.5010926723480225,
"learning_rate": 2.6471724137931037e-06,
"loss": 0.2,
"step": 5405
},
{
"epoch": 1.1646,
"grad_norm": 3.7809059619903564,
"learning_rate": 2.645793103448276e-06,
"loss": 0.2195,
"step": 5410
},
{
"epoch": 1.1649333333333334,
"grad_norm": 4.180829048156738,
"learning_rate": 2.644413793103448e-06,
"loss": 0.2264,
"step": 5415
},
{
"epoch": 1.1652666666666667,
"grad_norm": 4.222664833068848,
"learning_rate": 2.643034482758621e-06,
"loss": 0.1678,
"step": 5420
},
{
"epoch": 1.1656,
"grad_norm": 4.0066237449646,
"learning_rate": 2.641655172413793e-06,
"loss": 0.2051,
"step": 5425
},
{
"epoch": 1.1659333333333333,
"grad_norm": 4.288041114807129,
"learning_rate": 2.6402758620689653e-06,
"loss": 0.1806,
"step": 5430
},
{
"epoch": 1.1662666666666666,
"grad_norm": 4.851680278778076,
"learning_rate": 2.638896551724138e-06,
"loss": 0.239,
"step": 5435
},
{
"epoch": 1.1666,
"grad_norm": 4.772148132324219,
"learning_rate": 2.63751724137931e-06,
"loss": 0.206,
"step": 5440
},
{
"epoch": 1.1669333333333334,
"grad_norm": 3.7656898498535156,
"learning_rate": 2.6361379310344824e-06,
"loss": 0.1997,
"step": 5445
},
{
"epoch": 1.1672666666666667,
"grad_norm": 4.0738911628723145,
"learning_rate": 2.634758620689655e-06,
"loss": 0.184,
"step": 5450
},
{
"epoch": 1.1676,
"grad_norm": 5.001456260681152,
"learning_rate": 2.6333793103448277e-06,
"loss": 0.2095,
"step": 5455
},
{
"epoch": 1.1679333333333333,
"grad_norm": 3.3780059814453125,
"learning_rate": 2.632e-06,
"loss": 0.1465,
"step": 5460
},
{
"epoch": 1.1682666666666668,
"grad_norm": 4.282598972320557,
"learning_rate": 2.630620689655172e-06,
"loss": 0.2624,
"step": 5465
},
{
"epoch": 1.1686,
"grad_norm": 3.6612470149993896,
"learning_rate": 2.629241379310345e-06,
"loss": 0.1827,
"step": 5470
},
{
"epoch": 1.1689333333333334,
"grad_norm": 4.536810874938965,
"learning_rate": 2.627862068965517e-06,
"loss": 0.1798,
"step": 5475
},
{
"epoch": 1.1692666666666667,
"grad_norm": 4.173494338989258,
"learning_rate": 2.6264827586206893e-06,
"loss": 0.1622,
"step": 5480
},
{
"epoch": 1.1696,
"grad_norm": 4.766840934753418,
"learning_rate": 2.625103448275862e-06,
"loss": 0.1699,
"step": 5485
},
{
"epoch": 1.1699333333333333,
"grad_norm": 5.3170270919799805,
"learning_rate": 2.6237241379310342e-06,
"loss": 0.1875,
"step": 5490
},
{
"epoch": 1.1702666666666666,
"grad_norm": 5.210724353790283,
"learning_rate": 2.6223448275862065e-06,
"loss": 0.1643,
"step": 5495
},
{
"epoch": 1.1706,
"grad_norm": 4.620442867279053,
"learning_rate": 2.6209655172413795e-06,
"loss": 0.221,
"step": 5500
},
{
"epoch": 1.1709333333333334,
"grad_norm": 3.9850666522979736,
"learning_rate": 2.6195862068965518e-06,
"loss": 0.1808,
"step": 5505
},
{
"epoch": 1.1712666666666667,
"grad_norm": 4.121875762939453,
"learning_rate": 2.618206896551724e-06,
"loss": 0.1994,
"step": 5510
},
{
"epoch": 1.1716,
"grad_norm": 3.990981340408325,
"learning_rate": 2.6168275862068967e-06,
"loss": 0.2255,
"step": 5515
},
{
"epoch": 1.1719333333333333,
"grad_norm": 5.155255317687988,
"learning_rate": 2.615448275862069e-06,
"loss": 0.1899,
"step": 5520
},
{
"epoch": 1.1722666666666668,
"grad_norm": 4.6461615562438965,
"learning_rate": 2.614068965517241e-06,
"loss": 0.1808,
"step": 5525
},
{
"epoch": 1.1726,
"grad_norm": 4.348207473754883,
"learning_rate": 2.6126896551724134e-06,
"loss": 0.1858,
"step": 5530
},
{
"epoch": 1.1729333333333334,
"grad_norm": 5.090117454528809,
"learning_rate": 2.611310344827586e-06,
"loss": 0.2089,
"step": 5535
},
{
"epoch": 1.1732666666666667,
"grad_norm": 5.377852439880371,
"learning_rate": 2.6099310344827583e-06,
"loss": 0.1642,
"step": 5540
},
{
"epoch": 1.1736,
"grad_norm": 4.564538478851318,
"learning_rate": 2.608551724137931e-06,
"loss": 0.2181,
"step": 5545
},
{
"epoch": 1.1739333333333333,
"grad_norm": 3.6597437858581543,
"learning_rate": 2.6071724137931036e-06,
"loss": 0.2205,
"step": 5550
},
{
"epoch": 1.1742666666666666,
"grad_norm": 4.818310737609863,
"learning_rate": 2.605793103448276e-06,
"loss": 0.2219,
"step": 5555
},
{
"epoch": 1.1746,
"grad_norm": 3.765043020248413,
"learning_rate": 2.604413793103448e-06,
"loss": 0.1556,
"step": 5560
},
{
"epoch": 1.1749333333333334,
"grad_norm": 4.182652950286865,
"learning_rate": 2.6030344827586207e-06,
"loss": 0.1773,
"step": 5565
},
{
"epoch": 1.1752666666666667,
"grad_norm": 3.571772336959839,
"learning_rate": 2.601655172413793e-06,
"loss": 0.212,
"step": 5570
},
{
"epoch": 1.1756,
"grad_norm": 4.352745056152344,
"learning_rate": 2.6002758620689652e-06,
"loss": 0.2092,
"step": 5575
},
{
"epoch": 1.1759333333333333,
"grad_norm": 3.973794460296631,
"learning_rate": 2.598896551724138e-06,
"loss": 0.1917,
"step": 5580
},
{
"epoch": 1.1762666666666666,
"grad_norm": 5.188632488250732,
"learning_rate": 2.59751724137931e-06,
"loss": 0.2377,
"step": 5585
},
{
"epoch": 1.1766,
"grad_norm": 3.8647232055664062,
"learning_rate": 2.5961379310344824e-06,
"loss": 0.1737,
"step": 5590
},
{
"epoch": 1.1769333333333334,
"grad_norm": 3.9960756301879883,
"learning_rate": 2.5947586206896554e-06,
"loss": 0.2156,
"step": 5595
},
{
"epoch": 1.1772666666666667,
"grad_norm": 4.197457313537598,
"learning_rate": 2.5933793103448277e-06,
"loss": 0.1812,
"step": 5600
},
{
"epoch": 1.1776,
"grad_norm": 4.95630407333374,
"learning_rate": 2.592e-06,
"loss": 0.182,
"step": 5605
},
{
"epoch": 1.1779333333333333,
"grad_norm": 4.5366387367248535,
"learning_rate": 2.590620689655172e-06,
"loss": 0.1975,
"step": 5610
},
{
"epoch": 1.1782666666666666,
"grad_norm": 3.710115909576416,
"learning_rate": 2.589241379310345e-06,
"loss": 0.2009,
"step": 5615
},
{
"epoch": 1.1786,
"grad_norm": 4.694946765899658,
"learning_rate": 2.587862068965517e-06,
"loss": 0.2191,
"step": 5620
},
{
"epoch": 1.1789333333333334,
"grad_norm": 3.8793816566467285,
"learning_rate": 2.5864827586206893e-06,
"loss": 0.1906,
"step": 5625
},
{
"epoch": 1.1792666666666667,
"grad_norm": 5.386185169219971,
"learning_rate": 2.585103448275862e-06,
"loss": 0.1894,
"step": 5630
},
{
"epoch": 1.1796,
"grad_norm": 4.052608966827393,
"learning_rate": 2.583724137931034e-06,
"loss": 0.1682,
"step": 5635
},
{
"epoch": 1.1799333333333333,
"grad_norm": 4.280359268188477,
"learning_rate": 2.582344827586207e-06,
"loss": 0.2106,
"step": 5640
},
{
"epoch": 1.1802666666666666,
"grad_norm": 5.458491802215576,
"learning_rate": 2.5809655172413795e-06,
"loss": 0.2485,
"step": 5645
},
{
"epoch": 1.1806,
"grad_norm": 4.3142924308776855,
"learning_rate": 2.5795862068965517e-06,
"loss": 0.2342,
"step": 5650
},
{
"epoch": 1.1809333333333334,
"grad_norm": 4.577561855316162,
"learning_rate": 2.578206896551724e-06,
"loss": 0.1901,
"step": 5655
},
{
"epoch": 1.1812666666666667,
"grad_norm": 3.9250996112823486,
"learning_rate": 2.5768275862068966e-06,
"loss": 0.1453,
"step": 5660
},
{
"epoch": 1.1816,
"grad_norm": 4.495615005493164,
"learning_rate": 2.575448275862069e-06,
"loss": 0.209,
"step": 5665
},
{
"epoch": 1.1819333333333333,
"grad_norm": 4.680577278137207,
"learning_rate": 2.574068965517241e-06,
"loss": 0.2325,
"step": 5670
},
{
"epoch": 1.1822666666666666,
"grad_norm": 5.013704299926758,
"learning_rate": 2.5726896551724134e-06,
"loss": 0.1724,
"step": 5675
},
{
"epoch": 1.1826,
"grad_norm": 3.649595260620117,
"learning_rate": 2.571310344827586e-06,
"loss": 0.1794,
"step": 5680
},
{
"epoch": 1.1829333333333334,
"grad_norm": 4.131871700286865,
"learning_rate": 2.5699310344827587e-06,
"loss": 0.1715,
"step": 5685
},
{
"epoch": 1.1832666666666667,
"grad_norm": 3.885258436203003,
"learning_rate": 2.568551724137931e-06,
"loss": 0.1686,
"step": 5690
},
{
"epoch": 1.1836,
"grad_norm": 3.905090808868408,
"learning_rate": 2.5671724137931036e-06,
"loss": 0.1591,
"step": 5695
},
{
"epoch": 1.1839333333333333,
"grad_norm": 3.501511812210083,
"learning_rate": 2.565793103448276e-06,
"loss": 0.1829,
"step": 5700
},
{
"epoch": 1.1842666666666666,
"grad_norm": 4.774788856506348,
"learning_rate": 2.564413793103448e-06,
"loss": 0.1672,
"step": 5705
},
{
"epoch": 1.1846,
"grad_norm": 4.170146942138672,
"learning_rate": 2.5630344827586207e-06,
"loss": 0.2022,
"step": 5710
},
{
"epoch": 1.1849333333333334,
"grad_norm": 4.3361382484436035,
"learning_rate": 2.561655172413793e-06,
"loss": 0.164,
"step": 5715
},
{
"epoch": 1.1852666666666667,
"grad_norm": 4.41452169418335,
"learning_rate": 2.560275862068965e-06,
"loss": 0.2085,
"step": 5720
},
{
"epoch": 1.1856,
"grad_norm": 4.213366985321045,
"learning_rate": 2.558896551724138e-06,
"loss": 0.2094,
"step": 5725
},
{
"epoch": 1.1859333333333333,
"grad_norm": 4.418910026550293,
"learning_rate": 2.55751724137931e-06,
"loss": 0.1877,
"step": 5730
},
{
"epoch": 1.1862666666666666,
"grad_norm": 5.433710098266602,
"learning_rate": 2.5561379310344827e-06,
"loss": 0.2082,
"step": 5735
},
{
"epoch": 1.1865999999999999,
"grad_norm": 3.9778237342834473,
"learning_rate": 2.5547586206896554e-06,
"loss": 0.195,
"step": 5740
},
{
"epoch": 1.1869333333333334,
"grad_norm": 2.914391040802002,
"learning_rate": 2.5533793103448276e-06,
"loss": 0.1669,
"step": 5745
},
{
"epoch": 1.1872666666666667,
"grad_norm": 3.020949125289917,
"learning_rate": 2.552e-06,
"loss": 0.194,
"step": 5750
},
{
"epoch": 1.1876,
"grad_norm": 4.662065505981445,
"learning_rate": 2.550620689655172e-06,
"loss": 0.1947,
"step": 5755
},
{
"epoch": 1.1879333333333333,
"grad_norm": 5.251242160797119,
"learning_rate": 2.5492413793103448e-06,
"loss": 0.205,
"step": 5760
},
{
"epoch": 1.1882666666666666,
"grad_norm": 4.292612552642822,
"learning_rate": 2.547862068965517e-06,
"loss": 0.1703,
"step": 5765
},
{
"epoch": 1.1886,
"grad_norm": 4.258412837982178,
"learning_rate": 2.5464827586206892e-06,
"loss": 0.2039,
"step": 5770
},
{
"epoch": 1.1889333333333334,
"grad_norm": 4.016767978668213,
"learning_rate": 2.545103448275862e-06,
"loss": 0.166,
"step": 5775
},
{
"epoch": 1.1892666666666667,
"grad_norm": 3.79431414604187,
"learning_rate": 2.5437241379310346e-06,
"loss": 0.1524,
"step": 5780
},
{
"epoch": 1.1896,
"grad_norm": 4.945562362670898,
"learning_rate": 2.542344827586207e-06,
"loss": 0.1993,
"step": 5785
},
{
"epoch": 1.1899333333333333,
"grad_norm": 4.6653008460998535,
"learning_rate": 2.5409655172413795e-06,
"loss": 0.2085,
"step": 5790
},
{
"epoch": 1.1902666666666666,
"grad_norm": 3.278367519378662,
"learning_rate": 2.5395862068965517e-06,
"loss": 0.1632,
"step": 5795
},
{
"epoch": 1.1905999999999999,
"grad_norm": 4.977532863616943,
"learning_rate": 2.538206896551724e-06,
"loss": 0.2225,
"step": 5800
},
{
"epoch": 1.1909333333333334,
"grad_norm": 5.525883674621582,
"learning_rate": 2.5368275862068966e-06,
"loss": 0.2035,
"step": 5805
},
{
"epoch": 1.1912666666666667,
"grad_norm": 4.043654918670654,
"learning_rate": 2.535448275862069e-06,
"loss": 0.1655,
"step": 5810
},
{
"epoch": 1.1916,
"grad_norm": 3.2852120399475098,
"learning_rate": 2.534068965517241e-06,
"loss": 0.1756,
"step": 5815
},
{
"epoch": 1.1919333333333333,
"grad_norm": 3.764739990234375,
"learning_rate": 2.5326896551724133e-06,
"loss": 0.1862,
"step": 5820
},
{
"epoch": 1.1922666666666666,
"grad_norm": 3.2456486225128174,
"learning_rate": 2.531310344827586e-06,
"loss": 0.1713,
"step": 5825
},
{
"epoch": 1.1926,
"grad_norm": 3.5262532234191895,
"learning_rate": 2.5299310344827586e-06,
"loss": 0.1701,
"step": 5830
},
{
"epoch": 1.1929333333333334,
"grad_norm": 4.578812122344971,
"learning_rate": 2.528551724137931e-06,
"loss": 0.2007,
"step": 5835
},
{
"epoch": 1.1932666666666667,
"grad_norm": 4.017645359039307,
"learning_rate": 2.5271724137931035e-06,
"loss": 0.1798,
"step": 5840
},
{
"epoch": 1.1936,
"grad_norm": 3.869948625564575,
"learning_rate": 2.5257931034482758e-06,
"loss": 0.1891,
"step": 5845
},
{
"epoch": 1.1939333333333333,
"grad_norm": 4.228075981140137,
"learning_rate": 2.524413793103448e-06,
"loss": 0.1813,
"step": 5850
},
{
"epoch": 1.1942666666666666,
"grad_norm": 4.79827880859375,
"learning_rate": 2.5230344827586207e-06,
"loss": 0.2075,
"step": 5855
},
{
"epoch": 1.1945999999999999,
"grad_norm": 3.552340507507324,
"learning_rate": 2.521655172413793e-06,
"loss": 0.1833,
"step": 5860
},
{
"epoch": 1.1949333333333334,
"grad_norm": 4.267887592315674,
"learning_rate": 2.520275862068965e-06,
"loss": 0.2216,
"step": 5865
},
{
"epoch": 1.1952666666666667,
"grad_norm": 4.0750250816345215,
"learning_rate": 2.518896551724138e-06,
"loss": 0.2081,
"step": 5870
},
{
"epoch": 1.1956,
"grad_norm": 4.056178569793701,
"learning_rate": 2.5175172413793105e-06,
"loss": 0.1675,
"step": 5875
},
{
"epoch": 1.1959333333333333,
"grad_norm": 3.9616215229034424,
"learning_rate": 2.5161379310344827e-06,
"loss": 0.179,
"step": 5880
},
{
"epoch": 2.0002,
"grad_norm": 3.4019455909729004,
"learning_rate": 2.5147586206896554e-06,
"loss": 0.2171,
"step": 5885
},
{
"epoch": 2.0005333333333333,
"grad_norm": 3.327521562576294,
"learning_rate": 2.5133793103448276e-06,
"loss": 0.1311,
"step": 5890
},
{
"epoch": 2.0008666666666666,
"grad_norm": 2.4559452533721924,
"learning_rate": 2.512e-06,
"loss": 0.1262,
"step": 5895
},
{
"epoch": 2.0012,
"grad_norm": 3.422168493270874,
"learning_rate": 2.510620689655172e-06,
"loss": 0.1526,
"step": 5900
},
{
"epoch": 2.001533333333333,
"grad_norm": 4.129306793212891,
"learning_rate": 2.5092413793103447e-06,
"loss": 0.1984,
"step": 5905
},
{
"epoch": 2.0018666666666665,
"grad_norm": 3.987211227416992,
"learning_rate": 2.507862068965517e-06,
"loss": 0.1695,
"step": 5910
},
{
"epoch": 2.0022,
"grad_norm": 3.9452011585235596,
"learning_rate": 2.506482758620689e-06,
"loss": 0.1741,
"step": 5915
},
{
"epoch": 2.0025333333333335,
"grad_norm": 4.8507537841796875,
"learning_rate": 2.5051034482758623e-06,
"loss": 0.1724,
"step": 5920
},
{
"epoch": 2.002866666666667,
"grad_norm": 3.538630247116089,
"learning_rate": 2.5037241379310345e-06,
"loss": 0.1389,
"step": 5925
},
{
"epoch": 2.0032,
"grad_norm": 3.8724489212036133,
"learning_rate": 2.5023448275862068e-06,
"loss": 0.1536,
"step": 5930
},
{
"epoch": 2.0035333333333334,
"grad_norm": 3.0832672119140625,
"learning_rate": 2.5009655172413794e-06,
"loss": 0.1258,
"step": 5935
},
{
"epoch": 2.0038666666666667,
"grad_norm": 4.680577754974365,
"learning_rate": 2.4995862068965517e-06,
"loss": 0.1837,
"step": 5940
},
{
"epoch": 2.0042,
"grad_norm": 3.051957368850708,
"learning_rate": 2.498206896551724e-06,
"loss": 0.1414,
"step": 5945
},
{
"epoch": 2.0045333333333333,
"grad_norm": 3.573773145675659,
"learning_rate": 2.4968275862068966e-06,
"loss": 0.1369,
"step": 5950
},
{
"epoch": 2.0048666666666666,
"grad_norm": 3.4350762367248535,
"learning_rate": 2.495448275862069e-06,
"loss": 0.1644,
"step": 5955
},
{
"epoch": 2.0052,
"grad_norm": 4.305556297302246,
"learning_rate": 2.494068965517241e-06,
"loss": 0.1652,
"step": 5960
},
{
"epoch": 2.005533333333333,
"grad_norm": 4.270698547363281,
"learning_rate": 2.4926896551724133e-06,
"loss": 0.1815,
"step": 5965
},
{
"epoch": 2.0058666666666665,
"grad_norm": 3.4140586853027344,
"learning_rate": 2.4913103448275864e-06,
"loss": 0.1314,
"step": 5970
},
{
"epoch": 2.0062,
"grad_norm": 4.222008228302002,
"learning_rate": 2.4899310344827586e-06,
"loss": 0.1584,
"step": 5975
},
{
"epoch": 2.0065333333333335,
"grad_norm": 3.956826686859131,
"learning_rate": 2.488551724137931e-06,
"loss": 0.162,
"step": 5980
},
{
"epoch": 2.006866666666667,
"grad_norm": 3.809159517288208,
"learning_rate": 2.4871724137931035e-06,
"loss": 0.1593,
"step": 5985
},
{
"epoch": 2.0072,
"grad_norm": 4.637021541595459,
"learning_rate": 2.4857931034482757e-06,
"loss": 0.1509,
"step": 5990
},
{
"epoch": 2.0075333333333334,
"grad_norm": 3.9600725173950195,
"learning_rate": 2.484413793103448e-06,
"loss": 0.1701,
"step": 5995
},
{
"epoch": 2.0078666666666667,
"grad_norm": 3.3591468334198,
"learning_rate": 2.4830344827586206e-06,
"loss": 0.1595,
"step": 6000
},
{
"epoch": 2.0078666666666667,
"eval_loss": 0.2206214964389801,
"eval_runtime": 137.8347,
"eval_samples_per_second": 4.353,
"eval_steps_per_second": 1.088,
"eval_wer": 11.233086545825888,
"step": 6000
},
{
"epoch": 2.0082,
"grad_norm": 2.9284799098968506,
"learning_rate": 2.481655172413793e-06,
"loss": 0.1483,
"step": 6005
},
{
"epoch": 2.0085333333333333,
"grad_norm": 3.9744112491607666,
"learning_rate": 2.480275862068965e-06,
"loss": 0.1641,
"step": 6010
},
{
"epoch": 2.0088666666666666,
"grad_norm": 4.071737289428711,
"learning_rate": 2.478896551724138e-06,
"loss": 0.1512,
"step": 6015
},
{
"epoch": 2.0092,
"grad_norm": 4.080634117126465,
"learning_rate": 2.4775172413793104e-06,
"loss": 0.1675,
"step": 6020
},
{
"epoch": 2.009533333333333,
"grad_norm": 4.3488030433654785,
"learning_rate": 2.4761379310344827e-06,
"loss": 0.1461,
"step": 6025
},
{
"epoch": 2.0098666666666665,
"grad_norm": 3.0543127059936523,
"learning_rate": 2.4747586206896553e-06,
"loss": 0.1414,
"step": 6030
},
{
"epoch": 2.0102,
"grad_norm": 5.4342145919799805,
"learning_rate": 2.4733793103448276e-06,
"loss": 0.171,
"step": 6035
},
{
"epoch": 2.0105333333333335,
"grad_norm": 3.0767934322357178,
"learning_rate": 2.472e-06,
"loss": 0.1077,
"step": 6040
},
{
"epoch": 2.010866666666667,
"grad_norm": 4.758918762207031,
"learning_rate": 2.470620689655172e-06,
"loss": 0.1667,
"step": 6045
},
{
"epoch": 2.0112,
"grad_norm": 3.507658004760742,
"learning_rate": 2.4692413793103447e-06,
"loss": 0.126,
"step": 6050
},
{
"epoch": 2.0115333333333334,
"grad_norm": 3.546591281890869,
"learning_rate": 2.467862068965517e-06,
"loss": 0.1446,
"step": 6055
},
{
"epoch": 2.0118666666666667,
"grad_norm": 3.361182689666748,
"learning_rate": 2.466482758620689e-06,
"loss": 0.1397,
"step": 6060
},
{
"epoch": 2.0122,
"grad_norm": 3.401625633239746,
"learning_rate": 2.4651034482758623e-06,
"loss": 0.1308,
"step": 6065
},
{
"epoch": 2.0125333333333333,
"grad_norm": 3.72898530960083,
"learning_rate": 2.4637241379310345e-06,
"loss": 0.1361,
"step": 6070
},
{
"epoch": 2.0128666666666666,
"grad_norm": 3.7618777751922607,
"learning_rate": 2.4623448275862067e-06,
"loss": 0.1716,
"step": 6075
},
{
"epoch": 2.0132,
"grad_norm": 3.8370299339294434,
"learning_rate": 2.4609655172413794e-06,
"loss": 0.1797,
"step": 6080
},
{
"epoch": 2.013533333333333,
"grad_norm": 4.010655879974365,
"learning_rate": 2.4595862068965516e-06,
"loss": 0.156,
"step": 6085
},
{
"epoch": 2.0138666666666665,
"grad_norm": 3.4017035961151123,
"learning_rate": 2.458206896551724e-06,
"loss": 0.146,
"step": 6090
},
{
"epoch": 2.0142,
"grad_norm": 3.2852694988250732,
"learning_rate": 2.4568275862068965e-06,
"loss": 0.1541,
"step": 6095
},
{
"epoch": 2.0145333333333335,
"grad_norm": 4.687168121337891,
"learning_rate": 2.4554482758620688e-06,
"loss": 0.1638,
"step": 6100
},
{
"epoch": 2.014866666666667,
"grad_norm": 4.25932502746582,
"learning_rate": 2.454068965517241e-06,
"loss": 0.1555,
"step": 6105
},
{
"epoch": 2.0152,
"grad_norm": 3.5426619052886963,
"learning_rate": 2.452689655172414e-06,
"loss": 0.191,
"step": 6110
},
{
"epoch": 2.0155333333333334,
"grad_norm": 3.8437821865081787,
"learning_rate": 2.4513103448275863e-06,
"loss": 0.1708,
"step": 6115
},
{
"epoch": 2.0158666666666667,
"grad_norm": 3.993281126022339,
"learning_rate": 2.4499310344827586e-06,
"loss": 0.1333,
"step": 6120
},
{
"epoch": 2.0162,
"grad_norm": 3.7849533557891846,
"learning_rate": 2.448551724137931e-06,
"loss": 0.1457,
"step": 6125
},
{
"epoch": 2.0165333333333333,
"grad_norm": 3.9170854091644287,
"learning_rate": 2.4471724137931035e-06,
"loss": 0.1498,
"step": 6130
},
{
"epoch": 2.0168666666666666,
"grad_norm": 4.545523643493652,
"learning_rate": 2.4457931034482757e-06,
"loss": 0.1845,
"step": 6135
},
{
"epoch": 2.0172,
"grad_norm": 5.464803218841553,
"learning_rate": 2.444413793103448e-06,
"loss": 0.1622,
"step": 6140
},
{
"epoch": 2.017533333333333,
"grad_norm": 3.933396816253662,
"learning_rate": 2.4430344827586206e-06,
"loss": 0.1631,
"step": 6145
},
{
"epoch": 2.0178666666666665,
"grad_norm": 3.6314265727996826,
"learning_rate": 2.441655172413793e-06,
"loss": 0.141,
"step": 6150
},
{
"epoch": 2.0182,
"grad_norm": 4.516257286071777,
"learning_rate": 2.440275862068965e-06,
"loss": 0.1871,
"step": 6155
},
{
"epoch": 2.0185333333333335,
"grad_norm": 3.838791608810425,
"learning_rate": 2.438896551724138e-06,
"loss": 0.1688,
"step": 6160
},
{
"epoch": 2.018866666666667,
"grad_norm": 4.129659175872803,
"learning_rate": 2.4375172413793104e-06,
"loss": 0.177,
"step": 6165
},
{
"epoch": 2.0192,
"grad_norm": 4.023396968841553,
"learning_rate": 2.4361379310344826e-06,
"loss": 0.1957,
"step": 6170
},
{
"epoch": 2.0195333333333334,
"grad_norm": 4.311656475067139,
"learning_rate": 2.4347586206896553e-06,
"loss": 0.2098,
"step": 6175
},
{
"epoch": 2.0198666666666667,
"grad_norm": 4.429049968719482,
"learning_rate": 2.4333793103448275e-06,
"loss": 0.168,
"step": 6180
},
{
"epoch": 2.0202,
"grad_norm": 3.8686649799346924,
"learning_rate": 2.4319999999999998e-06,
"loss": 0.1929,
"step": 6185
},
{
"epoch": 2.0205333333333333,
"grad_norm": 4.216354846954346,
"learning_rate": 2.430620689655172e-06,
"loss": 0.2161,
"step": 6190
},
{
"epoch": 2.0208666666666666,
"grad_norm": 3.234408140182495,
"learning_rate": 2.4292413793103447e-06,
"loss": 0.1503,
"step": 6195
},
{
"epoch": 2.0212,
"grad_norm": 3.1274430751800537,
"learning_rate": 2.427862068965517e-06,
"loss": 0.1423,
"step": 6200
},
{
"epoch": 2.021533333333333,
"grad_norm": 4.326944828033447,
"learning_rate": 2.4264827586206896e-06,
"loss": 0.2044,
"step": 6205
},
{
"epoch": 2.0218666666666665,
"grad_norm": 4.822159290313721,
"learning_rate": 2.425103448275862e-06,
"loss": 0.1711,
"step": 6210
},
{
"epoch": 2.0222,
"grad_norm": 3.8796615600585938,
"learning_rate": 2.4237241379310344e-06,
"loss": 0.1645,
"step": 6215
},
{
"epoch": 2.0225333333333335,
"grad_norm": 3.7455146312713623,
"learning_rate": 2.4223448275862067e-06,
"loss": 0.1295,
"step": 6220
},
{
"epoch": 2.022866666666667,
"grad_norm": 5.32850456237793,
"learning_rate": 2.4209655172413793e-06,
"loss": 0.1758,
"step": 6225
},
{
"epoch": 2.0232,
"grad_norm": 4.442831993103027,
"learning_rate": 2.4195862068965516e-06,
"loss": 0.1825,
"step": 6230
},
{
"epoch": 2.0235333333333334,
"grad_norm": 3.199673652648926,
"learning_rate": 2.418206896551724e-06,
"loss": 0.1572,
"step": 6235
},
{
"epoch": 2.0238666666666667,
"grad_norm": 3.3632278442382812,
"learning_rate": 2.4168275862068965e-06,
"loss": 0.1659,
"step": 6240
},
{
"epoch": 2.0242,
"grad_norm": 4.634693145751953,
"learning_rate": 2.4154482758620687e-06,
"loss": 0.2139,
"step": 6245
},
{
"epoch": 2.0245333333333333,
"grad_norm": 3.2010443210601807,
"learning_rate": 2.4140689655172414e-06,
"loss": 0.1856,
"step": 6250
},
{
"epoch": 2.0248666666666666,
"grad_norm": 3.9895453453063965,
"learning_rate": 2.412689655172414e-06,
"loss": 0.1342,
"step": 6255
},
{
"epoch": 2.0252,
"grad_norm": 3.4072585105895996,
"learning_rate": 2.4113103448275863e-06,
"loss": 0.1595,
"step": 6260
},
{
"epoch": 2.025533333333333,
"grad_norm": 2.9930360317230225,
"learning_rate": 2.4099310344827585e-06,
"loss": 0.1384,
"step": 6265
},
{
"epoch": 2.0258666666666665,
"grad_norm": 2.727341651916504,
"learning_rate": 2.4085517241379308e-06,
"loss": 0.1209,
"step": 6270
},
{
"epoch": 2.0262000000000002,
"grad_norm": 4.323426246643066,
"learning_rate": 2.4071724137931034e-06,
"loss": 0.1497,
"step": 6275
},
{
"epoch": 2.0265333333333335,
"grad_norm": 3.2896206378936768,
"learning_rate": 2.4057931034482756e-06,
"loss": 0.131,
"step": 6280
},
{
"epoch": 2.026866666666667,
"grad_norm": 2.9699478149414062,
"learning_rate": 2.404413793103448e-06,
"loss": 0.1459,
"step": 6285
},
{
"epoch": 2.0272,
"grad_norm": 4.548412322998047,
"learning_rate": 2.4030344827586205e-06,
"loss": 0.1991,
"step": 6290
},
{
"epoch": 2.0275333333333334,
"grad_norm": 3.393186569213867,
"learning_rate": 2.4016551724137928e-06,
"loss": 0.1493,
"step": 6295
},
{
"epoch": 2.0278666666666667,
"grad_norm": 3.3088104724884033,
"learning_rate": 2.4002758620689654e-06,
"loss": 0.1252,
"step": 6300
},
{
"epoch": 2.0282,
"grad_norm": 3.849470376968384,
"learning_rate": 2.398896551724138e-06,
"loss": 0.1263,
"step": 6305
},
{
"epoch": 2.0285333333333333,
"grad_norm": 3.925218343734741,
"learning_rate": 2.3975172413793103e-06,
"loss": 0.1329,
"step": 6310
},
{
"epoch": 2.0288666666666666,
"grad_norm": 4.449056625366211,
"learning_rate": 2.3961379310344826e-06,
"loss": 0.2031,
"step": 6315
},
{
"epoch": 2.0292,
"grad_norm": 3.771261692047119,
"learning_rate": 2.3947586206896552e-06,
"loss": 0.1642,
"step": 6320
},
{
"epoch": 2.029533333333333,
"grad_norm": 5.380645275115967,
"learning_rate": 2.3933793103448275e-06,
"loss": 0.1506,
"step": 6325
},
{
"epoch": 2.0298666666666665,
"grad_norm": 4.063842296600342,
"learning_rate": 2.3919999999999997e-06,
"loss": 0.1281,
"step": 6330
},
{
"epoch": 2.0302,
"grad_norm": 4.147593021392822,
"learning_rate": 2.390620689655172e-06,
"loss": 0.1447,
"step": 6335
},
{
"epoch": 2.0305333333333335,
"grad_norm": 3.8172614574432373,
"learning_rate": 2.3892413793103446e-06,
"loss": 0.1312,
"step": 6340
},
{
"epoch": 2.030866666666667,
"grad_norm": 3.4617791175842285,
"learning_rate": 2.3878620689655173e-06,
"loss": 0.1383,
"step": 6345
},
{
"epoch": 2.0312,
"grad_norm": 4.281315803527832,
"learning_rate": 2.3864827586206895e-06,
"loss": 0.17,
"step": 6350
},
{
"epoch": 2.0315333333333334,
"grad_norm": 3.4667415618896484,
"learning_rate": 2.385103448275862e-06,
"loss": 0.1325,
"step": 6355
},
{
"epoch": 2.0318666666666667,
"grad_norm": 3.9889936447143555,
"learning_rate": 2.3837241379310344e-06,
"loss": 0.1503,
"step": 6360
},
{
"epoch": 2.0322,
"grad_norm": 3.5625672340393066,
"learning_rate": 2.3823448275862066e-06,
"loss": 0.1718,
"step": 6365
},
{
"epoch": 2.0325333333333333,
"grad_norm": 3.3936870098114014,
"learning_rate": 2.3809655172413793e-06,
"loss": 0.1454,
"step": 6370
},
{
"epoch": 2.0328666666666666,
"grad_norm": 4.005795001983643,
"learning_rate": 2.3795862068965515e-06,
"loss": 0.1403,
"step": 6375
},
{
"epoch": 2.0332,
"grad_norm": 3.5315492153167725,
"learning_rate": 2.3782068965517238e-06,
"loss": 0.1947,
"step": 6380
},
{
"epoch": 2.033533333333333,
"grad_norm": 4.18626070022583,
"learning_rate": 2.3768275862068964e-06,
"loss": 0.1897,
"step": 6385
},
{
"epoch": 2.0338666666666665,
"grad_norm": 3.3266947269439697,
"learning_rate": 2.3754482758620687e-06,
"loss": 0.1864,
"step": 6390
},
{
"epoch": 2.0342,
"grad_norm": 3.423628568649292,
"learning_rate": 2.3740689655172413e-06,
"loss": 0.1758,
"step": 6395
},
{
"epoch": 2.0345333333333335,
"grad_norm": 4.604902744293213,
"learning_rate": 2.372689655172414e-06,
"loss": 0.1602,
"step": 6400
},
{
"epoch": 2.034866666666667,
"grad_norm": 3.3750133514404297,
"learning_rate": 2.3713103448275862e-06,
"loss": 0.1275,
"step": 6405
},
{
"epoch": 2.0352,
"grad_norm": 3.67788028717041,
"learning_rate": 2.3699310344827585e-06,
"loss": 0.1861,
"step": 6410
},
{
"epoch": 2.0355333333333334,
"grad_norm": 3.170454740524292,
"learning_rate": 2.3685517241379307e-06,
"loss": 0.1391,
"step": 6415
},
{
"epoch": 2.0358666666666667,
"grad_norm": 3.2502217292785645,
"learning_rate": 2.3671724137931034e-06,
"loss": 0.1752,
"step": 6420
},
{
"epoch": 2.0362,
"grad_norm": 2.555879831314087,
"learning_rate": 2.3657931034482756e-06,
"loss": 0.1277,
"step": 6425
},
{
"epoch": 2.0365333333333333,
"grad_norm": 4.388481140136719,
"learning_rate": 2.364413793103448e-06,
"loss": 0.1407,
"step": 6430
},
{
"epoch": 2.0368666666666666,
"grad_norm": 3.942352533340454,
"learning_rate": 2.3630344827586205e-06,
"loss": 0.1408,
"step": 6435
},
{
"epoch": 2.0372,
"grad_norm": 3.781611680984497,
"learning_rate": 2.361655172413793e-06,
"loss": 0.1564,
"step": 6440
},
{
"epoch": 2.037533333333333,
"grad_norm": 2.880706548690796,
"learning_rate": 2.3602758620689654e-06,
"loss": 0.1202,
"step": 6445
},
{
"epoch": 2.0378666666666665,
"grad_norm": 3.471635103225708,
"learning_rate": 2.358896551724138e-06,
"loss": 0.1428,
"step": 6450
},
{
"epoch": 2.0382,
"grad_norm": 3.567894697189331,
"learning_rate": 2.3575172413793103e-06,
"loss": 0.158,
"step": 6455
},
{
"epoch": 2.0385333333333335,
"grad_norm": 3.51959490776062,
"learning_rate": 2.3561379310344825e-06,
"loss": 0.1662,
"step": 6460
},
{
"epoch": 2.038866666666667,
"grad_norm": 4.260256290435791,
"learning_rate": 2.354758620689655e-06,
"loss": 0.1684,
"step": 6465
},
{
"epoch": 2.0392,
"grad_norm": 4.1639814376831055,
"learning_rate": 2.3533793103448274e-06,
"loss": 0.1402,
"step": 6470
},
{
"epoch": 2.0395333333333334,
"grad_norm": 4.518980026245117,
"learning_rate": 2.3519999999999997e-06,
"loss": 0.174,
"step": 6475
},
{
"epoch": 2.0398666666666667,
"grad_norm": 2.8983957767486572,
"learning_rate": 2.3506206896551723e-06,
"loss": 0.1276,
"step": 6480
},
{
"epoch": 2.0402,
"grad_norm": 2.9927074909210205,
"learning_rate": 2.349241379310345e-06,
"loss": 0.1126,
"step": 6485
},
{
"epoch": 2.0405333333333333,
"grad_norm": 3.5172576904296875,
"learning_rate": 2.3478620689655172e-06,
"loss": 0.1656,
"step": 6490
},
{
"epoch": 2.0408666666666666,
"grad_norm": 3.429349422454834,
"learning_rate": 2.3464827586206895e-06,
"loss": 0.118,
"step": 6495
},
{
"epoch": 2.0412,
"grad_norm": 3.425743579864502,
"learning_rate": 2.345103448275862e-06,
"loss": 0.1391,
"step": 6500
},
{
"epoch": 2.041533333333333,
"grad_norm": 3.7436938285827637,
"learning_rate": 2.3437241379310344e-06,
"loss": 0.2033,
"step": 6505
},
{
"epoch": 2.0418666666666665,
"grad_norm": 3.489729642868042,
"learning_rate": 2.3423448275862066e-06,
"loss": 0.1212,
"step": 6510
},
{
"epoch": 2.0422,
"grad_norm": 3.3328723907470703,
"learning_rate": 2.3409655172413793e-06,
"loss": 0.1589,
"step": 6515
},
{
"epoch": 2.0425333333333335,
"grad_norm": 3.7650060653686523,
"learning_rate": 2.3395862068965515e-06,
"loss": 0.1648,
"step": 6520
},
{
"epoch": 2.042866666666667,
"grad_norm": 3.9741337299346924,
"learning_rate": 2.3382068965517237e-06,
"loss": 0.1524,
"step": 6525
},
{
"epoch": 2.0432,
"grad_norm": 4.822859287261963,
"learning_rate": 2.3368275862068964e-06,
"loss": 0.1426,
"step": 6530
},
{
"epoch": 2.0435333333333334,
"grad_norm": 3.7760298252105713,
"learning_rate": 2.335448275862069e-06,
"loss": 0.1211,
"step": 6535
},
{
"epoch": 2.0438666666666667,
"grad_norm": 4.335626602172852,
"learning_rate": 2.3340689655172413e-06,
"loss": 0.1393,
"step": 6540
},
{
"epoch": 2.0442,
"grad_norm": 4.315268516540527,
"learning_rate": 2.332689655172414e-06,
"loss": 0.1602,
"step": 6545
},
{
"epoch": 2.0445333333333333,
"grad_norm": 3.516709089279175,
"learning_rate": 2.331310344827586e-06,
"loss": 0.1635,
"step": 6550
},
{
"epoch": 2.0448666666666666,
"grad_norm": 3.8193275928497314,
"learning_rate": 2.3299310344827584e-06,
"loss": 0.1211,
"step": 6555
},
{
"epoch": 2.0452,
"grad_norm": 3.7311155796051025,
"learning_rate": 2.328551724137931e-06,
"loss": 0.1326,
"step": 6560
},
{
"epoch": 2.045533333333333,
"grad_norm": 4.1056294441223145,
"learning_rate": 2.3271724137931033e-06,
"loss": 0.126,
"step": 6565
},
{
"epoch": 2.0458666666666665,
"grad_norm": 3.9369068145751953,
"learning_rate": 2.3257931034482756e-06,
"loss": 0.1227,
"step": 6570
},
{
"epoch": 2.0462,
"grad_norm": 4.026267051696777,
"learning_rate": 2.324413793103448e-06,
"loss": 0.1445,
"step": 6575
},
{
"epoch": 2.0465333333333335,
"grad_norm": 3.5593764781951904,
"learning_rate": 2.323034482758621e-06,
"loss": 0.1353,
"step": 6580
},
{
"epoch": 2.046866666666667,
"grad_norm": 3.4588921070098877,
"learning_rate": 2.321655172413793e-06,
"loss": 0.1364,
"step": 6585
},
{
"epoch": 2.0472,
"grad_norm": 3.3075644969940186,
"learning_rate": 2.3202758620689654e-06,
"loss": 0.1217,
"step": 6590
},
{
"epoch": 2.0475333333333334,
"grad_norm": 4.4023213386535645,
"learning_rate": 2.318896551724138e-06,
"loss": 0.1313,
"step": 6595
},
{
"epoch": 2.0478666666666667,
"grad_norm": 3.8876852989196777,
"learning_rate": 2.3175172413793103e-06,
"loss": 0.1354,
"step": 6600
},
{
"epoch": 2.0482,
"grad_norm": 4.24415397644043,
"learning_rate": 2.3161379310344825e-06,
"loss": 0.1639,
"step": 6605
},
{
"epoch": 2.0485333333333333,
"grad_norm": 4.411092281341553,
"learning_rate": 2.314758620689655e-06,
"loss": 0.1336,
"step": 6610
},
{
"epoch": 2.0488666666666666,
"grad_norm": 3.6144371032714844,
"learning_rate": 2.3133793103448274e-06,
"loss": 0.1653,
"step": 6615
},
{
"epoch": 2.0492,
"grad_norm": 5.215307712554932,
"learning_rate": 2.3119999999999996e-06,
"loss": 0.1527,
"step": 6620
},
{
"epoch": 2.049533333333333,
"grad_norm": 3.1551544666290283,
"learning_rate": 2.3106206896551723e-06,
"loss": 0.1258,
"step": 6625
},
{
"epoch": 2.0498666666666665,
"grad_norm": 4.284775733947754,
"learning_rate": 2.309241379310345e-06,
"loss": 0.1898,
"step": 6630
},
{
"epoch": 2.0502,
"grad_norm": 3.991194725036621,
"learning_rate": 2.307862068965517e-06,
"loss": 0.1668,
"step": 6635
},
{
"epoch": 2.0505333333333335,
"grad_norm": 3.812314033508301,
"learning_rate": 2.3064827586206894e-06,
"loss": 0.1808,
"step": 6640
},
{
"epoch": 2.050866666666667,
"grad_norm": 4.20827579498291,
"learning_rate": 2.305103448275862e-06,
"loss": 0.1458,
"step": 6645
},
{
"epoch": 2.0512,
"grad_norm": 4.6467814445495605,
"learning_rate": 2.3037241379310343e-06,
"loss": 0.18,
"step": 6650
},
{
"epoch": 2.0515333333333334,
"grad_norm": 3.6880829334259033,
"learning_rate": 2.3023448275862066e-06,
"loss": 0.1744,
"step": 6655
},
{
"epoch": 2.0518666666666667,
"grad_norm": 4.063170433044434,
"learning_rate": 2.3009655172413792e-06,
"loss": 0.2025,
"step": 6660
},
{
"epoch": 2.0522,
"grad_norm": 3.556711196899414,
"learning_rate": 2.2995862068965515e-06,
"loss": 0.1397,
"step": 6665
},
{
"epoch": 2.0525333333333333,
"grad_norm": 4.976069450378418,
"learning_rate": 2.2982068965517237e-06,
"loss": 0.1743,
"step": 6670
},
{
"epoch": 2.0528666666666666,
"grad_norm": 3.9152138233184814,
"learning_rate": 2.2968275862068968e-06,
"loss": 0.1458,
"step": 6675
},
{
"epoch": 2.0532,
"grad_norm": 3.247225046157837,
"learning_rate": 2.295448275862069e-06,
"loss": 0.2112,
"step": 6680
},
{
"epoch": 2.053533333333333,
"grad_norm": 5.032403469085693,
"learning_rate": 2.2940689655172413e-06,
"loss": 0.1716,
"step": 6685
},
{
"epoch": 2.0538666666666665,
"grad_norm": 4.110071182250977,
"learning_rate": 2.292689655172414e-06,
"loss": 0.2302,
"step": 6690
},
{
"epoch": 2.0542,
"grad_norm": 3.942296028137207,
"learning_rate": 2.291310344827586e-06,
"loss": 0.1478,
"step": 6695
},
{
"epoch": 2.0545333333333335,
"grad_norm": 3.944687843322754,
"learning_rate": 2.2899310344827584e-06,
"loss": 0.1675,
"step": 6700
},
{
"epoch": 2.054866666666667,
"grad_norm": 5.045147895812988,
"learning_rate": 2.288551724137931e-06,
"loss": 0.1839,
"step": 6705
},
{
"epoch": 2.0552,
"grad_norm": 3.712198257446289,
"learning_rate": 2.2871724137931033e-06,
"loss": 0.1493,
"step": 6710
},
{
"epoch": 2.0555333333333334,
"grad_norm": 4.228917121887207,
"learning_rate": 2.2857931034482755e-06,
"loss": 0.1789,
"step": 6715
},
{
"epoch": 2.0558666666666667,
"grad_norm": 4.081727027893066,
"learning_rate": 2.284413793103448e-06,
"loss": 0.1717,
"step": 6720
},
{
"epoch": 2.0562,
"grad_norm": 3.436938524246216,
"learning_rate": 2.283034482758621e-06,
"loss": 0.143,
"step": 6725
},
{
"epoch": 2.0565333333333333,
"grad_norm": 3.524822473526001,
"learning_rate": 2.281655172413793e-06,
"loss": 0.1572,
"step": 6730
},
{
"epoch": 2.0568666666666666,
"grad_norm": 5.371495723724365,
"learning_rate": 2.2802758620689653e-06,
"loss": 0.2243,
"step": 6735
},
{
"epoch": 2.0572,
"grad_norm": 3.7512853145599365,
"learning_rate": 2.278896551724138e-06,
"loss": 0.1328,
"step": 6740
},
{
"epoch": 2.057533333333333,
"grad_norm": 3.7617597579956055,
"learning_rate": 2.2775172413793102e-06,
"loss": 0.1715,
"step": 6745
},
{
"epoch": 2.0578666666666665,
"grad_norm": 4.0587077140808105,
"learning_rate": 2.2761379310344825e-06,
"loss": 0.1181,
"step": 6750
},
{
"epoch": 2.0582,
"grad_norm": 4.450170516967773,
"learning_rate": 2.274758620689655e-06,
"loss": 0.1645,
"step": 6755
},
{
"epoch": 2.0585333333333335,
"grad_norm": 4.999514102935791,
"learning_rate": 2.2733793103448274e-06,
"loss": 0.2015,
"step": 6760
},
{
"epoch": 2.058866666666667,
"grad_norm": 3.5825555324554443,
"learning_rate": 2.2719999999999996e-06,
"loss": 0.1773,
"step": 6765
},
{
"epoch": 2.0592,
"grad_norm": 3.1739566326141357,
"learning_rate": 2.2706206896551727e-06,
"loss": 0.1891,
"step": 6770
},
{
"epoch": 2.0595333333333334,
"grad_norm": 3.8231146335601807,
"learning_rate": 2.269241379310345e-06,
"loss": 0.144,
"step": 6775
},
{
"epoch": 2.0598666666666667,
"grad_norm": 3.907348155975342,
"learning_rate": 2.267862068965517e-06,
"loss": 0.1639,
"step": 6780
},
{
"epoch": 2.0602,
"grad_norm": 5.400709629058838,
"learning_rate": 2.26648275862069e-06,
"loss": 0.1909,
"step": 6785
},
{
"epoch": 2.0605333333333333,
"grad_norm": 2.642490863800049,
"learning_rate": 2.265103448275862e-06,
"loss": 0.1902,
"step": 6790
},
{
"epoch": 2.0608666666666666,
"grad_norm": 4.5889811515808105,
"learning_rate": 2.2637241379310343e-06,
"loss": 0.1868,
"step": 6795
},
{
"epoch": 2.0612,
"grad_norm": 3.4620330333709717,
"learning_rate": 2.2623448275862065e-06,
"loss": 0.1625,
"step": 6800
},
{
"epoch": 2.061533333333333,
"grad_norm": 3.7081997394561768,
"learning_rate": 2.260965517241379e-06,
"loss": 0.1579,
"step": 6805
},
{
"epoch": 2.0618666666666665,
"grad_norm": 3.6131811141967773,
"learning_rate": 2.2595862068965514e-06,
"loss": 0.1138,
"step": 6810
},
{
"epoch": 2.0622,
"grad_norm": 4.773049831390381,
"learning_rate": 2.258206896551724e-06,
"loss": 0.1752,
"step": 6815
},
{
"epoch": 2.0625333333333336,
"grad_norm": 3.7803397178649902,
"learning_rate": 2.2568275862068967e-06,
"loss": 0.152,
"step": 6820
},
{
"epoch": 2.062866666666667,
"grad_norm": 3.8516604900360107,
"learning_rate": 2.255448275862069e-06,
"loss": 0.145,
"step": 6825
},
{
"epoch": 2.0632,
"grad_norm": 3.1208994388580322,
"learning_rate": 2.2540689655172412e-06,
"loss": 0.1193,
"step": 6830
},
{
"epoch": 2.0635333333333334,
"grad_norm": 4.044172286987305,
"learning_rate": 2.252689655172414e-06,
"loss": 0.1979,
"step": 6835
},
{
"epoch": 2.0638666666666667,
"grad_norm": 3.7968876361846924,
"learning_rate": 2.251310344827586e-06,
"loss": 0.145,
"step": 6840
},
{
"epoch": 2.0642,
"grad_norm": 3.4734935760498047,
"learning_rate": 2.2499310344827584e-06,
"loss": 0.18,
"step": 6845
},
{
"epoch": 2.0645333333333333,
"grad_norm": 3.1294267177581787,
"learning_rate": 2.248551724137931e-06,
"loss": 0.1462,
"step": 6850
},
{
"epoch": 2.0648666666666666,
"grad_norm": 4.181737422943115,
"learning_rate": 2.2471724137931032e-06,
"loss": 0.1487,
"step": 6855
},
{
"epoch": 2.0652,
"grad_norm": 4.402034282684326,
"learning_rate": 2.2457931034482755e-06,
"loss": 0.1711,
"step": 6860
},
{
"epoch": 2.065533333333333,
"grad_norm": 4.110632419586182,
"learning_rate": 2.2444137931034486e-06,
"loss": 0.1662,
"step": 6865
},
{
"epoch": 2.0658666666666665,
"grad_norm": 3.2670960426330566,
"learning_rate": 2.243034482758621e-06,
"loss": 0.1623,
"step": 6870
},
{
"epoch": 2.0662,
"grad_norm": 4.23391056060791,
"learning_rate": 2.241655172413793e-06,
"loss": 0.139,
"step": 6875
},
{
"epoch": 2.066533333333333,
"grad_norm": 4.4274373054504395,
"learning_rate": 2.2402758620689653e-06,
"loss": 0.1211,
"step": 6880
},
{
"epoch": 2.066866666666667,
"grad_norm": 3.7422409057617188,
"learning_rate": 2.238896551724138e-06,
"loss": 0.1392,
"step": 6885
},
{
"epoch": 2.0672,
"grad_norm": 3.9725828170776367,
"learning_rate": 2.23751724137931e-06,
"loss": 0.1487,
"step": 6890
},
{
"epoch": 2.0675333333333334,
"grad_norm": 3.564913511276245,
"learning_rate": 2.2361379310344824e-06,
"loss": 0.1431,
"step": 6895
},
{
"epoch": 2.0678666666666667,
"grad_norm": 4.6742353439331055,
"learning_rate": 2.234758620689655e-06,
"loss": 0.1506,
"step": 6900
},
{
"epoch": 2.0682,
"grad_norm": 3.743089437484741,
"learning_rate": 2.2333793103448273e-06,
"loss": 0.1506,
"step": 6905
},
{
"epoch": 2.0685333333333333,
"grad_norm": 3.730095863342285,
"learning_rate": 2.232e-06,
"loss": 0.1487,
"step": 6910
},
{
"epoch": 2.0688666666666666,
"grad_norm": 4.04982852935791,
"learning_rate": 2.2306206896551726e-06,
"loss": 0.1353,
"step": 6915
},
{
"epoch": 2.0692,
"grad_norm": 5.054067611694336,
"learning_rate": 2.229241379310345e-06,
"loss": 0.151,
"step": 6920
},
{
"epoch": 2.0695333333333332,
"grad_norm": 4.367348670959473,
"learning_rate": 2.227862068965517e-06,
"loss": 0.1701,
"step": 6925
},
{
"epoch": 2.0698666666666665,
"grad_norm": 4.669203758239746,
"learning_rate": 2.2264827586206898e-06,
"loss": 0.1251,
"step": 6930
},
{
"epoch": 2.0702,
"grad_norm": 4.2126617431640625,
"learning_rate": 2.225103448275862e-06,
"loss": 0.1769,
"step": 6935
},
{
"epoch": 2.0705333333333336,
"grad_norm": 3.720592498779297,
"learning_rate": 2.2237241379310342e-06,
"loss": 0.1748,
"step": 6940
},
{
"epoch": 2.070866666666667,
"grad_norm": 3.8916945457458496,
"learning_rate": 2.2223448275862065e-06,
"loss": 0.1786,
"step": 6945
},
{
"epoch": 2.0712,
"grad_norm": 3.7122035026550293,
"learning_rate": 2.220965517241379e-06,
"loss": 0.1542,
"step": 6950
},
{
"epoch": 2.0715333333333334,
"grad_norm": 4.1157026290893555,
"learning_rate": 2.2195862068965514e-06,
"loss": 0.1748,
"step": 6955
},
{
"epoch": 2.0718666666666667,
"grad_norm": 4.15557861328125,
"learning_rate": 2.218206896551724e-06,
"loss": 0.136,
"step": 6960
},
{
"epoch": 2.0722,
"grad_norm": 3.75467586517334,
"learning_rate": 2.2168275862068967e-06,
"loss": 0.1305,
"step": 6965
},
{
"epoch": 2.0725333333333333,
"grad_norm": 3.990755081176758,
"learning_rate": 2.215448275862069e-06,
"loss": 0.1651,
"step": 6970
},
{
"epoch": 2.0728666666666666,
"grad_norm": 3.0888497829437256,
"learning_rate": 2.214068965517241e-06,
"loss": 0.1834,
"step": 6975
},
{
"epoch": 2.0732,
"grad_norm": 3.9069995880126953,
"learning_rate": 2.212689655172414e-06,
"loss": 0.1465,
"step": 6980
},
{
"epoch": 2.0735333333333332,
"grad_norm": 3.751314163208008,
"learning_rate": 2.211310344827586e-06,
"loss": 0.1475,
"step": 6985
},
{
"epoch": 2.0738666666666665,
"grad_norm": 3.257397413253784,
"learning_rate": 2.2099310344827583e-06,
"loss": 0.1467,
"step": 6990
},
{
"epoch": 2.0742,
"grad_norm": 4.131998538970947,
"learning_rate": 2.208551724137931e-06,
"loss": 0.1363,
"step": 6995
},
{
"epoch": 2.074533333333333,
"grad_norm": 3.626477003097534,
"learning_rate": 2.207172413793103e-06,
"loss": 0.1536,
"step": 7000
},
{
"epoch": 2.074533333333333,
"eval_loss": 0.21925389766693115,
"eval_runtime": 138.3271,
"eval_samples_per_second": 4.338,
"eval_steps_per_second": 1.084,
"eval_wer": 11.475619096247128,
"step": 7000
},
{
"epoch": 2.074866666666667,
"grad_norm": 3.922133445739746,
"learning_rate": 2.205793103448276e-06,
"loss": 0.1821,
"step": 7005
},
{
"epoch": 2.0752,
"grad_norm": 3.888953924179077,
"learning_rate": 2.2044137931034485e-06,
"loss": 0.1394,
"step": 7010
},
{
"epoch": 2.0755333333333335,
"grad_norm": 3.2622451782226562,
"learning_rate": 2.2030344827586208e-06,
"loss": 0.129,
"step": 7015
},
{
"epoch": 2.0758666666666667,
"grad_norm": 4.794111728668213,
"learning_rate": 2.201655172413793e-06,
"loss": 0.1508,
"step": 7020
},
{
"epoch": 2.0762,
"grad_norm": 3.4692211151123047,
"learning_rate": 2.2002758620689652e-06,
"loss": 0.1779,
"step": 7025
},
{
"epoch": 2.0765333333333333,
"grad_norm": 3.5335543155670166,
"learning_rate": 2.198896551724138e-06,
"loss": 0.1341,
"step": 7030
},
{
"epoch": 2.0768666666666666,
"grad_norm": 4.610071659088135,
"learning_rate": 2.19751724137931e-06,
"loss": 0.1583,
"step": 7035
},
{
"epoch": 2.0772,
"grad_norm": 3.739980936050415,
"learning_rate": 2.1961379310344824e-06,
"loss": 0.1513,
"step": 7040
},
{
"epoch": 2.0775333333333332,
"grad_norm": 3.6064891815185547,
"learning_rate": 2.194758620689655e-06,
"loss": 0.1962,
"step": 7045
},
{
"epoch": 2.0778666666666665,
"grad_norm": 3.831463575363159,
"learning_rate": 2.1933793103448277e-06,
"loss": 0.1448,
"step": 7050
},
{
"epoch": 2.0782,
"grad_norm": 3.5602200031280518,
"learning_rate": 2.192e-06,
"loss": 0.1657,
"step": 7055
},
{
"epoch": 2.078533333333333,
"grad_norm": 4.79341983795166,
"learning_rate": 2.1906206896551726e-06,
"loss": 0.1956,
"step": 7060
},
{
"epoch": 2.078866666666667,
"grad_norm": 3.699897527694702,
"learning_rate": 2.189241379310345e-06,
"loss": 0.1833,
"step": 7065
},
{
"epoch": 2.0792,
"grad_norm": 4.393587112426758,
"learning_rate": 2.187862068965517e-06,
"loss": 0.1667,
"step": 7070
},
{
"epoch": 2.0795333333333335,
"grad_norm": 3.7398903369903564,
"learning_rate": 2.1864827586206897e-06,
"loss": 0.1704,
"step": 7075
},
{
"epoch": 2.0798666666666668,
"grad_norm": 4.504492282867432,
"learning_rate": 2.185103448275862e-06,
"loss": 0.1927,
"step": 7080
},
{
"epoch": 2.0802,
"grad_norm": 4.033944129943848,
"learning_rate": 2.183724137931034e-06,
"loss": 0.1403,
"step": 7085
},
{
"epoch": 2.0805333333333333,
"grad_norm": 3.927112579345703,
"learning_rate": 2.1823448275862064e-06,
"loss": 0.1837,
"step": 7090
},
{
"epoch": 2.0808666666666666,
"grad_norm": 4.071290493011475,
"learning_rate": 2.180965517241379e-06,
"loss": 0.1303,
"step": 7095
},
{
"epoch": 2.0812,
"grad_norm": 5.423714637756348,
"learning_rate": 2.1795862068965518e-06,
"loss": 0.1579,
"step": 7100
},
{
"epoch": 2.0815333333333332,
"grad_norm": 5.649503231048584,
"learning_rate": 2.178206896551724e-06,
"loss": 0.203,
"step": 7105
},
{
"epoch": 2.0818666666666665,
"grad_norm": 4.837689399719238,
"learning_rate": 2.1768275862068967e-06,
"loss": 0.1397,
"step": 7110
},
{
"epoch": 2.0822,
"grad_norm": 3.4435794353485107,
"learning_rate": 2.175448275862069e-06,
"loss": 0.1291,
"step": 7115
},
{
"epoch": 2.082533333333333,
"grad_norm": 3.9933724403381348,
"learning_rate": 2.174068965517241e-06,
"loss": 0.1375,
"step": 7120
},
{
"epoch": 2.082866666666667,
"grad_norm": 3.218576192855835,
"learning_rate": 2.172689655172414e-06,
"loss": 0.1177,
"step": 7125
},
{
"epoch": 2.0832,
"grad_norm": 3.144493579864502,
"learning_rate": 2.171310344827586e-06,
"loss": 0.1393,
"step": 7130
},
{
"epoch": 2.0835333333333335,
"grad_norm": 4.224937915802002,
"learning_rate": 2.1699310344827583e-06,
"loss": 0.1709,
"step": 7135
},
{
"epoch": 2.0838666666666668,
"grad_norm": 4.219892978668213,
"learning_rate": 2.168551724137931e-06,
"loss": 0.1502,
"step": 7140
},
{
"epoch": 2.0842,
"grad_norm": 3.722003698348999,
"learning_rate": 2.1671724137931036e-06,
"loss": 0.1541,
"step": 7145
},
{
"epoch": 2.0845333333333333,
"grad_norm": 3.8973941802978516,
"learning_rate": 2.165793103448276e-06,
"loss": 0.1379,
"step": 7150
},
{
"epoch": 2.0848666666666666,
"grad_norm": 3.3449296951293945,
"learning_rate": 2.1644137931034485e-06,
"loss": 0.1515,
"step": 7155
},
{
"epoch": 2.0852,
"grad_norm": 3.9079978466033936,
"learning_rate": 2.1630344827586207e-06,
"loss": 0.1518,
"step": 7160
},
{
"epoch": 2.0855333333333332,
"grad_norm": 3.549809455871582,
"learning_rate": 2.161655172413793e-06,
"loss": 0.1691,
"step": 7165
},
{
"epoch": 2.0858666666666665,
"grad_norm": 3.45920729637146,
"learning_rate": 2.160275862068965e-06,
"loss": 0.116,
"step": 7170
},
{
"epoch": 2.0862,
"grad_norm": 4.075089454650879,
"learning_rate": 2.158896551724138e-06,
"loss": 0.1566,
"step": 7175
},
{
"epoch": 2.086533333333333,
"grad_norm": 5.295050621032715,
"learning_rate": 2.15751724137931e-06,
"loss": 0.2106,
"step": 7180
},
{
"epoch": 2.086866666666667,
"grad_norm": 3.751497507095337,
"learning_rate": 2.1561379310344823e-06,
"loss": 0.1253,
"step": 7185
},
{
"epoch": 2.0872,
"grad_norm": 3.404095411300659,
"learning_rate": 2.154758620689655e-06,
"loss": 0.1275,
"step": 7190
},
{
"epoch": 2.0875333333333335,
"grad_norm": 3.2637887001037598,
"learning_rate": 2.1533793103448277e-06,
"loss": 0.1178,
"step": 7195
},
{
"epoch": 2.0878666666666668,
"grad_norm": 3.813154935836792,
"learning_rate": 2.152e-06,
"loss": 0.1444,
"step": 7200
},
{
"epoch": 2.0882,
"grad_norm": 3.623206853866577,
"learning_rate": 2.1506206896551726e-06,
"loss": 0.1768,
"step": 7205
},
{
"epoch": 2.0885333333333334,
"grad_norm": 3.298654556274414,
"learning_rate": 2.149241379310345e-06,
"loss": 0.1391,
"step": 7210
},
{
"epoch": 2.0888666666666666,
"grad_norm": 3.854390859603882,
"learning_rate": 2.147862068965517e-06,
"loss": 0.1414,
"step": 7215
},
{
"epoch": 2.0892,
"grad_norm": 3.9394309520721436,
"learning_rate": 2.1464827586206897e-06,
"loss": 0.1432,
"step": 7220
},
{
"epoch": 2.0895333333333332,
"grad_norm": 3.7726545333862305,
"learning_rate": 2.145103448275862e-06,
"loss": 0.1467,
"step": 7225
},
{
"epoch": 2.0898666666666665,
"grad_norm": 3.3038113117218018,
"learning_rate": 2.143724137931034e-06,
"loss": 0.1266,
"step": 7230
},
{
"epoch": 2.0902,
"grad_norm": 4.220552921295166,
"learning_rate": 2.1423448275862064e-06,
"loss": 0.1736,
"step": 7235
},
{
"epoch": 2.090533333333333,
"grad_norm": 3.4808144569396973,
"learning_rate": 2.1409655172413795e-06,
"loss": 0.1472,
"step": 7240
},
{
"epoch": 2.090866666666667,
"grad_norm": 3.325847864151001,
"learning_rate": 2.1395862068965517e-06,
"loss": 0.1366,
"step": 7245
},
{
"epoch": 2.0912,
"grad_norm": 3.5776450634002686,
"learning_rate": 2.138206896551724e-06,
"loss": 0.147,
"step": 7250
},
{
"epoch": 2.0915333333333335,
"grad_norm": 3.711270809173584,
"learning_rate": 2.1368275862068966e-06,
"loss": 0.1495,
"step": 7255
},
{
"epoch": 2.0918666666666668,
"grad_norm": 3.0170485973358154,
"learning_rate": 2.135448275862069e-06,
"loss": 0.1279,
"step": 7260
},
{
"epoch": 2.0922,
"grad_norm": 3.493748426437378,
"learning_rate": 2.134068965517241e-06,
"loss": 0.1421,
"step": 7265
},
{
"epoch": 2.0925333333333334,
"grad_norm": 3.3370070457458496,
"learning_rate": 2.1326896551724138e-06,
"loss": 0.1504,
"step": 7270
},
{
"epoch": 2.0928666666666667,
"grad_norm": 3.520612955093384,
"learning_rate": 2.131310344827586e-06,
"loss": 0.1396,
"step": 7275
},
{
"epoch": 2.0932,
"grad_norm": 4.096695423126221,
"learning_rate": 2.1299310344827582e-06,
"loss": 0.1225,
"step": 7280
},
{
"epoch": 2.0935333333333332,
"grad_norm": 3.9768941402435303,
"learning_rate": 2.1285517241379313e-06,
"loss": 0.161,
"step": 7285
},
{
"epoch": 2.0938666666666665,
"grad_norm": 4.0855584144592285,
"learning_rate": 2.1271724137931036e-06,
"loss": 0.2005,
"step": 7290
},
{
"epoch": 2.0942,
"grad_norm": 3.242534875869751,
"learning_rate": 2.1257931034482758e-06,
"loss": 0.1151,
"step": 7295
},
{
"epoch": 2.094533333333333,
"grad_norm": 3.7387003898620605,
"learning_rate": 2.1244137931034484e-06,
"loss": 0.1424,
"step": 7300
},
{
"epoch": 2.094866666666667,
"grad_norm": 3.9830329418182373,
"learning_rate": 2.1230344827586207e-06,
"loss": 0.1209,
"step": 7305
},
{
"epoch": 2.0952,
"grad_norm": 3.434047222137451,
"learning_rate": 2.121655172413793e-06,
"loss": 0.1587,
"step": 7310
},
{
"epoch": 2.0955333333333335,
"grad_norm": 4.966354846954346,
"learning_rate": 2.120275862068965e-06,
"loss": 0.185,
"step": 7315
},
{
"epoch": 2.0958666666666668,
"grad_norm": 3.3523054122924805,
"learning_rate": 2.118896551724138e-06,
"loss": 0.2296,
"step": 7320
},
{
"epoch": 2.0962,
"grad_norm": 3.7074153423309326,
"learning_rate": 2.11751724137931e-06,
"loss": 0.1469,
"step": 7325
},
{
"epoch": 2.0965333333333334,
"grad_norm": 4.574906826019287,
"learning_rate": 2.1161379310344823e-06,
"loss": 0.1765,
"step": 7330
},
{
"epoch": 2.0968666666666667,
"grad_norm": 3.384641408920288,
"learning_rate": 2.1147586206896554e-06,
"loss": 0.1393,
"step": 7335
},
{
"epoch": 2.0972,
"grad_norm": 3.8656980991363525,
"learning_rate": 2.1133793103448276e-06,
"loss": 0.1227,
"step": 7340
},
{
"epoch": 2.0975333333333332,
"grad_norm": 4.578719139099121,
"learning_rate": 2.112e-06,
"loss": 0.1518,
"step": 7345
},
{
"epoch": 2.0978666666666665,
"grad_norm": 3.5584146976470947,
"learning_rate": 2.1106206896551725e-06,
"loss": 0.1153,
"step": 7350
},
{
"epoch": 2.0982,
"grad_norm": 4.185518264770508,
"learning_rate": 2.1092413793103448e-06,
"loss": 0.1511,
"step": 7355
},
{
"epoch": 2.098533333333333,
"grad_norm": 3.7117464542388916,
"learning_rate": 2.107862068965517e-06,
"loss": 0.1699,
"step": 7360
},
{
"epoch": 2.098866666666667,
"grad_norm": 3.3748395442962646,
"learning_rate": 2.1064827586206896e-06,
"loss": 0.1406,
"step": 7365
},
{
"epoch": 2.0992,
"grad_norm": 5.840545177459717,
"learning_rate": 2.105103448275862e-06,
"loss": 0.1364,
"step": 7370
},
{
"epoch": 2.0995333333333335,
"grad_norm": 3.8785436153411865,
"learning_rate": 2.103724137931034e-06,
"loss": 0.1516,
"step": 7375
},
{
"epoch": 2.0998666666666668,
"grad_norm": 3.683256149291992,
"learning_rate": 2.102344827586207e-06,
"loss": 0.1498,
"step": 7380
},
{
"epoch": 2.1002,
"grad_norm": 3.869828939437866,
"learning_rate": 2.1009655172413794e-06,
"loss": 0.1188,
"step": 7385
},
{
"epoch": 2.1005333333333334,
"grad_norm": 3.9915361404418945,
"learning_rate": 2.0995862068965517e-06,
"loss": 0.1788,
"step": 7390
},
{
"epoch": 2.1008666666666667,
"grad_norm": 3.87319278717041,
"learning_rate": 2.098206896551724e-06,
"loss": 0.1665,
"step": 7395
},
{
"epoch": 2.1012,
"grad_norm": 4.562397480010986,
"learning_rate": 2.0968275862068966e-06,
"loss": 0.1443,
"step": 7400
},
{
"epoch": 2.1015333333333333,
"grad_norm": 3.8572700023651123,
"learning_rate": 2.095448275862069e-06,
"loss": 0.171,
"step": 7405
},
{
"epoch": 2.1018666666666665,
"grad_norm": 4.074642181396484,
"learning_rate": 2.094068965517241e-06,
"loss": 0.1278,
"step": 7410
},
{
"epoch": 2.1022,
"grad_norm": 4.116250038146973,
"learning_rate": 2.0926896551724137e-06,
"loss": 0.1506,
"step": 7415
},
{
"epoch": 2.102533333333333,
"grad_norm": 4.123210906982422,
"learning_rate": 2.091310344827586e-06,
"loss": 0.1752,
"step": 7420
},
{
"epoch": 2.1028666666666664,
"grad_norm": 3.7808568477630615,
"learning_rate": 2.089931034482758e-06,
"loss": 0.136,
"step": 7425
},
{
"epoch": 2.1032,
"grad_norm": 4.416501522064209,
"learning_rate": 2.0885517241379313e-06,
"loss": 0.1848,
"step": 7430
},
{
"epoch": 2.1035333333333335,
"grad_norm": 3.8800084590911865,
"learning_rate": 2.0871724137931035e-06,
"loss": 0.1685,
"step": 7435
},
{
"epoch": 2.1038666666666668,
"grad_norm": 4.5299973487854,
"learning_rate": 2.0857931034482757e-06,
"loss": 0.1241,
"step": 7440
},
{
"epoch": 2.1042,
"grad_norm": 4.004883289337158,
"learning_rate": 2.0844137931034484e-06,
"loss": 0.1446,
"step": 7445
},
{
"epoch": 2.1045333333333334,
"grad_norm": 2.8622915744781494,
"learning_rate": 2.0830344827586206e-06,
"loss": 0.1536,
"step": 7450
},
{
"epoch": 2.1048666666666667,
"grad_norm": 4.724384307861328,
"learning_rate": 2.081655172413793e-06,
"loss": 0.1192,
"step": 7455
},
{
"epoch": 2.1052,
"grad_norm": 3.037681818008423,
"learning_rate": 2.080275862068965e-06,
"loss": 0.1404,
"step": 7460
},
{
"epoch": 2.1055333333333333,
"grad_norm": 3.978952407836914,
"learning_rate": 2.0788965517241378e-06,
"loss": 0.1326,
"step": 7465
},
{
"epoch": 2.1058666666666666,
"grad_norm": 3.0445716381073,
"learning_rate": 2.07751724137931e-06,
"loss": 0.1615,
"step": 7470
},
{
"epoch": 2.1062,
"grad_norm": 3.994690418243408,
"learning_rate": 2.0761379310344827e-06,
"loss": 0.1751,
"step": 7475
},
{
"epoch": 2.106533333333333,
"grad_norm": 4.449130535125732,
"learning_rate": 2.0747586206896553e-06,
"loss": 0.1749,
"step": 7480
},
{
"epoch": 2.106866666666667,
"grad_norm": 4.643054485321045,
"learning_rate": 2.0733793103448276e-06,
"loss": 0.2167,
"step": 7485
},
{
"epoch": 2.1072,
"grad_norm": 4.296535491943359,
"learning_rate": 2.072e-06,
"loss": 0.1435,
"step": 7490
},
{
"epoch": 2.1075333333333335,
"grad_norm": 4.520917892456055,
"learning_rate": 2.0706206896551725e-06,
"loss": 0.1921,
"step": 7495
},
{
"epoch": 2.1078666666666668,
"grad_norm": 3.8882267475128174,
"learning_rate": 2.0692413793103447e-06,
"loss": 0.1647,
"step": 7500
},
{
"epoch": 2.1082,
"grad_norm": 4.189269542694092,
"learning_rate": 2.067862068965517e-06,
"loss": 0.2007,
"step": 7505
},
{
"epoch": 2.1085333333333334,
"grad_norm": 4.519824981689453,
"learning_rate": 2.0664827586206896e-06,
"loss": 0.1791,
"step": 7510
},
{
"epoch": 2.1088666666666667,
"grad_norm": 3.1068503856658936,
"learning_rate": 2.065103448275862e-06,
"loss": 0.1505,
"step": 7515
},
{
"epoch": 2.1092,
"grad_norm": 4.406242847442627,
"learning_rate": 2.063724137931034e-06,
"loss": 0.1781,
"step": 7520
},
{
"epoch": 2.1095333333333333,
"grad_norm": 3.427713632583618,
"learning_rate": 2.062344827586207e-06,
"loss": 0.1703,
"step": 7525
},
{
"epoch": 2.1098666666666666,
"grad_norm": 5.198995590209961,
"learning_rate": 2.0609655172413794e-06,
"loss": 0.206,
"step": 7530
},
{
"epoch": 2.1102,
"grad_norm": 3.9831323623657227,
"learning_rate": 2.0595862068965516e-06,
"loss": 0.1588,
"step": 7535
},
{
"epoch": 2.110533333333333,
"grad_norm": 4.110867023468018,
"learning_rate": 2.058206896551724e-06,
"loss": 0.1732,
"step": 7540
},
{
"epoch": 2.1108666666666664,
"grad_norm": 4.439542770385742,
"learning_rate": 2.0568275862068965e-06,
"loss": 0.1533,
"step": 7545
},
{
"epoch": 2.1112,
"grad_norm": 2.786781072616577,
"learning_rate": 2.0554482758620688e-06,
"loss": 0.1075,
"step": 7550
},
{
"epoch": 2.1115333333333335,
"grad_norm": 4.361269950866699,
"learning_rate": 2.054068965517241e-06,
"loss": 0.132,
"step": 7555
},
{
"epoch": 2.111866666666667,
"grad_norm": 2.961472272872925,
"learning_rate": 2.0526896551724137e-06,
"loss": 0.1834,
"step": 7560
},
{
"epoch": 2.1122,
"grad_norm": 4.263070583343506,
"learning_rate": 2.051310344827586e-06,
"loss": 0.1481,
"step": 7565
},
{
"epoch": 2.1125333333333334,
"grad_norm": 3.9604413509368896,
"learning_rate": 2.0499310344827586e-06,
"loss": 0.1724,
"step": 7570
},
{
"epoch": 2.1128666666666667,
"grad_norm": 4.883656024932861,
"learning_rate": 2.0485517241379312e-06,
"loss": 0.181,
"step": 7575
},
{
"epoch": 2.1132,
"grad_norm": 4.123628616333008,
"learning_rate": 2.0471724137931035e-06,
"loss": 0.159,
"step": 7580
},
{
"epoch": 2.1135333333333333,
"grad_norm": 3.2786355018615723,
"learning_rate": 2.0457931034482757e-06,
"loss": 0.1717,
"step": 7585
},
{
"epoch": 2.1138666666666666,
"grad_norm": 4.5266804695129395,
"learning_rate": 2.0444137931034484e-06,
"loss": 0.1818,
"step": 7590
},
{
"epoch": 2.1142,
"grad_norm": 3.8377764225006104,
"learning_rate": 2.0430344827586206e-06,
"loss": 0.1226,
"step": 7595
},
{
"epoch": 2.114533333333333,
"grad_norm": 3.637533664703369,
"learning_rate": 2.041655172413793e-06,
"loss": 0.1571,
"step": 7600
},
{
"epoch": 2.114866666666667,
"grad_norm": 4.15459680557251,
"learning_rate": 2.0402758620689655e-06,
"loss": 0.1398,
"step": 7605
},
{
"epoch": 2.1152,
"grad_norm": 3.467616558074951,
"learning_rate": 2.0388965517241377e-06,
"loss": 0.1746,
"step": 7610
},
{
"epoch": 2.1155333333333335,
"grad_norm": 4.374525547027588,
"learning_rate": 2.0375172413793104e-06,
"loss": 0.1507,
"step": 7615
},
{
"epoch": 2.115866666666667,
"grad_norm": 4.990701675415039,
"learning_rate": 2.0361379310344826e-06,
"loss": 0.1987,
"step": 7620
},
{
"epoch": 2.1162,
"grad_norm": 3.5260660648345947,
"learning_rate": 2.0347586206896553e-06,
"loss": 0.1488,
"step": 7625
},
{
"epoch": 2.1165333333333334,
"grad_norm": 3.705177068710327,
"learning_rate": 2.0333793103448275e-06,
"loss": 0.1725,
"step": 7630
},
{
"epoch": 2.1168666666666667,
"grad_norm": 4.082669734954834,
"learning_rate": 2.0319999999999998e-06,
"loss": 0.1541,
"step": 7635
},
{
"epoch": 2.1172,
"grad_norm": 3.1704165935516357,
"learning_rate": 2.0306206896551724e-06,
"loss": 0.1292,
"step": 7640
},
{
"epoch": 2.1175333333333333,
"grad_norm": 3.3394253253936768,
"learning_rate": 2.0292413793103447e-06,
"loss": 0.1294,
"step": 7645
},
{
"epoch": 2.1178666666666666,
"grad_norm": 3.7952277660369873,
"learning_rate": 2.027862068965517e-06,
"loss": 0.1546,
"step": 7650
},
{
"epoch": 2.1182,
"grad_norm": 4.168078422546387,
"learning_rate": 2.0264827586206896e-06,
"loss": 0.1344,
"step": 7655
},
{
"epoch": 2.118533333333333,
"grad_norm": 4.414212226867676,
"learning_rate": 2.025103448275862e-06,
"loss": 0.1833,
"step": 7660
},
{
"epoch": 2.1188666666666665,
"grad_norm": 3.386073112487793,
"learning_rate": 2.0237241379310345e-06,
"loss": 0.14,
"step": 7665
},
{
"epoch": 2.1192,
"grad_norm": 5.26906156539917,
"learning_rate": 2.022344827586207e-06,
"loss": 0.1954,
"step": 7670
},
{
"epoch": 2.1195333333333335,
"grad_norm": 3.942183256149292,
"learning_rate": 2.0209655172413794e-06,
"loss": 0.1744,
"step": 7675
},
{
"epoch": 2.119866666666667,
"grad_norm": 4.6427202224731445,
"learning_rate": 2.0195862068965516e-06,
"loss": 0.1677,
"step": 7680
},
{
"epoch": 2.1202,
"grad_norm": 4.297618865966797,
"learning_rate": 2.018206896551724e-06,
"loss": 0.1462,
"step": 7685
},
{
"epoch": 2.1205333333333334,
"grad_norm": 3.8949220180511475,
"learning_rate": 2.0168275862068965e-06,
"loss": 0.1087,
"step": 7690
},
{
"epoch": 2.1208666666666667,
"grad_norm": 3.6529507637023926,
"learning_rate": 2.0154482758620687e-06,
"loss": 0.1404,
"step": 7695
},
{
"epoch": 2.1212,
"grad_norm": 4.2960524559021,
"learning_rate": 2.014068965517241e-06,
"loss": 0.1949,
"step": 7700
},
{
"epoch": 2.1215333333333333,
"grad_norm": 3.903557538986206,
"learning_rate": 2.0126896551724136e-06,
"loss": 0.1503,
"step": 7705
},
{
"epoch": 2.1218666666666666,
"grad_norm": 4.214975833892822,
"learning_rate": 2.0113103448275863e-06,
"loss": 0.1568,
"step": 7710
},
{
"epoch": 2.1222,
"grad_norm": 3.1488230228424072,
"learning_rate": 2.0099310344827585e-06,
"loss": 0.1421,
"step": 7715
},
{
"epoch": 2.122533333333333,
"grad_norm": 4.408772945404053,
"learning_rate": 2.008551724137931e-06,
"loss": 0.173,
"step": 7720
},
{
"epoch": 2.1228666666666665,
"grad_norm": 3.646116018295288,
"learning_rate": 2.0071724137931034e-06,
"loss": 0.1405,
"step": 7725
},
{
"epoch": 2.1232,
"grad_norm": 4.132920742034912,
"learning_rate": 2.0057931034482757e-06,
"loss": 0.1626,
"step": 7730
},
{
"epoch": 2.1235333333333335,
"grad_norm": 4.206435203552246,
"learning_rate": 2.0044137931034483e-06,
"loss": 0.1454,
"step": 7735
},
{
"epoch": 2.123866666666667,
"grad_norm": 3.519291639328003,
"learning_rate": 2.0030344827586206e-06,
"loss": 0.1414,
"step": 7740
},
{
"epoch": 2.1242,
"grad_norm": 3.4968624114990234,
"learning_rate": 2.001655172413793e-06,
"loss": 0.1552,
"step": 7745
},
{
"epoch": 2.1245333333333334,
"grad_norm": 3.607034206390381,
"learning_rate": 2.0002758620689655e-06,
"loss": 0.1787,
"step": 7750
},
{
"epoch": 2.1248666666666667,
"grad_norm": 4.205872058868408,
"learning_rate": 1.9988965517241377e-06,
"loss": 0.1637,
"step": 7755
},
{
"epoch": 2.1252,
"grad_norm": 3.8468146324157715,
"learning_rate": 1.9975172413793104e-06,
"loss": 0.1491,
"step": 7760
},
{
"epoch": 2.1255333333333333,
"grad_norm": 3.9270269870758057,
"learning_rate": 1.9961379310344826e-06,
"loss": 0.1546,
"step": 7765
},
{
"epoch": 2.1258666666666666,
"grad_norm": 3.687591314315796,
"learning_rate": 1.9947586206896553e-06,
"loss": 0.181,
"step": 7770
},
{
"epoch": 2.1262,
"grad_norm": 3.684657096862793,
"learning_rate": 1.9933793103448275e-06,
"loss": 0.175,
"step": 7775
},
{
"epoch": 2.126533333333333,
"grad_norm": 3.959773540496826,
"learning_rate": 1.9919999999999997e-06,
"loss": 0.1688,
"step": 7780
},
{
"epoch": 2.1268666666666665,
"grad_norm": 4.446990489959717,
"learning_rate": 1.9906206896551724e-06,
"loss": 0.1759,
"step": 7785
},
{
"epoch": 2.1272,
"grad_norm": 3.9164199829101562,
"learning_rate": 1.9892413793103446e-06,
"loss": 0.1446,
"step": 7790
},
{
"epoch": 2.1275333333333335,
"grad_norm": 3.8270504474639893,
"learning_rate": 1.9878620689655173e-06,
"loss": 0.23,
"step": 7795
},
{
"epoch": 2.127866666666667,
"grad_norm": 3.4129297733306885,
"learning_rate": 1.9864827586206895e-06,
"loss": 0.2068,
"step": 7800
},
{
"epoch": 2.1282,
"grad_norm": 3.801025390625,
"learning_rate": 1.9851034482758618e-06,
"loss": 0.1896,
"step": 7805
},
{
"epoch": 2.1285333333333334,
"grad_norm": 4.211307048797607,
"learning_rate": 1.9837241379310344e-06,
"loss": 0.2484,
"step": 7810
},
{
"epoch": 2.1288666666666667,
"grad_norm": 3.498392343521118,
"learning_rate": 1.982344827586207e-06,
"loss": 0.1496,
"step": 7815
},
{
"epoch": 2.1292,
"grad_norm": 5.023584365844727,
"learning_rate": 1.9809655172413793e-06,
"loss": 0.1553,
"step": 7820
},
{
"epoch": 2.1295333333333333,
"grad_norm": 3.951573133468628,
"learning_rate": 1.9795862068965516e-06,
"loss": 0.1316,
"step": 7825
},
{
"epoch": 2.1298666666666666,
"grad_norm": 4.510411739349365,
"learning_rate": 1.9782068965517242e-06,
"loss": 0.2272,
"step": 7830
},
{
"epoch": 2.1302,
"grad_norm": 3.3330047130584717,
"learning_rate": 1.9768275862068965e-06,
"loss": 0.1643,
"step": 7835
},
{
"epoch": 2.130533333333333,
"grad_norm": 3.661222457885742,
"learning_rate": 1.975448275862069e-06,
"loss": 0.1454,
"step": 7840
},
{
"epoch": 2.1308666666666665,
"grad_norm": 5.079435348510742,
"learning_rate": 1.9740689655172414e-06,
"loss": 0.1702,
"step": 7845
},
{
"epoch": 2.1312,
"grad_norm": 6.023196697235107,
"learning_rate": 1.9726896551724136e-06,
"loss": 0.1289,
"step": 7850
},
{
"epoch": 2.1315333333333335,
"grad_norm": 3.029942750930786,
"learning_rate": 1.9713103448275863e-06,
"loss": 0.1412,
"step": 7855
},
{
"epoch": 2.131866666666667,
"grad_norm": 5.063018321990967,
"learning_rate": 1.9699310344827585e-06,
"loss": 0.1738,
"step": 7860
},
{
"epoch": 2.1322,
"grad_norm": 4.71124267578125,
"learning_rate": 1.968551724137931e-06,
"loss": 0.1972,
"step": 7865
},
{
"epoch": 2.1325333333333334,
"grad_norm": 3.9992754459381104,
"learning_rate": 1.9671724137931034e-06,
"loss": 0.1621,
"step": 7870
},
{
"epoch": 2.1328666666666667,
"grad_norm": 3.8277359008789062,
"learning_rate": 1.9657931034482756e-06,
"loss": 0.1883,
"step": 7875
},
{
"epoch": 2.1332,
"grad_norm": 4.417627811431885,
"learning_rate": 1.9644137931034483e-06,
"loss": 0.1878,
"step": 7880
},
{
"epoch": 2.1335333333333333,
"grad_norm": 4.686520576477051,
"learning_rate": 1.9630344827586205e-06,
"loss": 0.1883,
"step": 7885
},
{
"epoch": 2.1338666666666666,
"grad_norm": 4.109803199768066,
"learning_rate": 1.961655172413793e-06,
"loss": 0.1767,
"step": 7890
},
{
"epoch": 2.1342,
"grad_norm": 4.489066123962402,
"learning_rate": 1.9602758620689654e-06,
"loss": 0.2076,
"step": 7895
},
{
"epoch": 2.134533333333333,
"grad_norm": 4.182468891143799,
"learning_rate": 1.9588965517241377e-06,
"loss": 0.1724,
"step": 7900
},
{
"epoch": 2.1348666666666665,
"grad_norm": 5.5826802253723145,
"learning_rate": 1.9575172413793103e-06,
"loss": 0.1574,
"step": 7905
},
{
"epoch": 2.1352,
"grad_norm": 4.128483772277832,
"learning_rate": 1.956137931034483e-06,
"loss": 0.1486,
"step": 7910
},
{
"epoch": 2.1355333333333335,
"grad_norm": 4.2858991622924805,
"learning_rate": 1.9547586206896552e-06,
"loss": 0.1672,
"step": 7915
},
{
"epoch": 2.135866666666667,
"grad_norm": 4.280251502990723,
"learning_rate": 1.9533793103448275e-06,
"loss": 0.1536,
"step": 7920
},
{
"epoch": 2.1362,
"grad_norm": 3.5940074920654297,
"learning_rate": 1.9519999999999997e-06,
"loss": 0.1515,
"step": 7925
},
{
"epoch": 2.1365333333333334,
"grad_norm": 3.568645715713501,
"learning_rate": 1.9506206896551724e-06,
"loss": 0.1488,
"step": 7930
},
{
"epoch": 2.1368666666666667,
"grad_norm": 4.062258720397949,
"learning_rate": 1.949241379310345e-06,
"loss": 0.1334,
"step": 7935
},
{
"epoch": 2.1372,
"grad_norm": 3.241791009902954,
"learning_rate": 1.9478620689655172e-06,
"loss": 0.1603,
"step": 7940
},
{
"epoch": 2.1375333333333333,
"grad_norm": 3.8876595497131348,
"learning_rate": 1.9464827586206895e-06,
"loss": 0.1686,
"step": 7945
},
{
"epoch": 2.1378666666666666,
"grad_norm": 4.375921726226807,
"learning_rate": 1.9451034482758617e-06,
"loss": 0.1732,
"step": 7950
},
{
"epoch": 2.1382,
"grad_norm": 4.465551376342773,
"learning_rate": 1.9437241379310344e-06,
"loss": 0.1294,
"step": 7955
},
{
"epoch": 2.138533333333333,
"grad_norm": 2.9878158569335938,
"learning_rate": 1.942344827586207e-06,
"loss": 0.1417,
"step": 7960
},
{
"epoch": 2.1388666666666665,
"grad_norm": 2.9558074474334717,
"learning_rate": 1.9409655172413793e-06,
"loss": 0.1158,
"step": 7965
},
{
"epoch": 2.1391999999999998,
"grad_norm": 4.454432964324951,
"learning_rate": 1.9395862068965515e-06,
"loss": 0.1432,
"step": 7970
},
{
"epoch": 2.1395333333333335,
"grad_norm": 4.049233436584473,
"learning_rate": 1.938206896551724e-06,
"loss": 0.1675,
"step": 7975
},
{
"epoch": 2.139866666666667,
"grad_norm": 2.7268948554992676,
"learning_rate": 1.9368275862068964e-06,
"loss": 0.1455,
"step": 7980
},
{
"epoch": 2.1402,
"grad_norm": 3.5670552253723145,
"learning_rate": 1.935448275862069e-06,
"loss": 0.1388,
"step": 7985
},
{
"epoch": 2.1405333333333334,
"grad_norm": 3.5169382095336914,
"learning_rate": 1.9340689655172413e-06,
"loss": 0.1225,
"step": 7990
},
{
"epoch": 2.1408666666666667,
"grad_norm": 3.916700601577759,
"learning_rate": 1.9326896551724136e-06,
"loss": 0.1767,
"step": 7995
},
{
"epoch": 2.1412,
"grad_norm": 3.5488085746765137,
"learning_rate": 1.9313103448275862e-06,
"loss": 0.1728,
"step": 8000
},
{
"epoch": 2.1412,
"eval_loss": 0.21526865661144257,
"eval_runtime": 137.7459,
"eval_samples_per_second": 4.356,
"eval_steps_per_second": 1.089,
"eval_wer": 11.271381159050293,
"step": 8000
},
{
"epoch": 2.1415333333333333,
"grad_norm": 3.5232622623443604,
"learning_rate": 1.9299310344827585e-06,
"loss": 0.1272,
"step": 8005
},
{
"epoch": 2.1418666666666666,
"grad_norm": 3.959883213043213,
"learning_rate": 1.928551724137931e-06,
"loss": 0.1514,
"step": 8010
},
{
"epoch": 2.1422,
"grad_norm": 3.3533003330230713,
"learning_rate": 1.9271724137931033e-06,
"loss": 0.1217,
"step": 8015
},
{
"epoch": 2.142533333333333,
"grad_norm": 3.159801721572876,
"learning_rate": 1.9257931034482756e-06,
"loss": 0.1368,
"step": 8020
},
{
"epoch": 2.1428666666666665,
"grad_norm": 3.688117504119873,
"learning_rate": 1.9244137931034482e-06,
"loss": 0.1514,
"step": 8025
},
{
"epoch": 2.1432,
"grad_norm": 3.9753034114837646,
"learning_rate": 1.9230344827586205e-06,
"loss": 0.1485,
"step": 8030
},
{
"epoch": 2.1435333333333335,
"grad_norm": 4.067863464355469,
"learning_rate": 1.921655172413793e-06,
"loss": 0.1483,
"step": 8035
},
{
"epoch": 2.143866666666667,
"grad_norm": 4.069934368133545,
"learning_rate": 1.9202758620689654e-06,
"loss": 0.16,
"step": 8040
},
{
"epoch": 2.1442,
"grad_norm": 3.1546711921691895,
"learning_rate": 1.9188965517241376e-06,
"loss": 0.1588,
"step": 8045
},
{
"epoch": 2.1445333333333334,
"grad_norm": 4.220521450042725,
"learning_rate": 1.9175172413793103e-06,
"loss": 0.164,
"step": 8050
},
{
"epoch": 2.1448666666666667,
"grad_norm": 4.239305019378662,
"learning_rate": 1.916137931034483e-06,
"loss": 0.1268,
"step": 8055
},
{
"epoch": 2.1452,
"grad_norm": 3.7235920429229736,
"learning_rate": 1.914758620689655e-06,
"loss": 0.1322,
"step": 8060
},
{
"epoch": 2.1455333333333333,
"grad_norm": 3.906445026397705,
"learning_rate": 1.9133793103448274e-06,
"loss": 0.1687,
"step": 8065
},
{
"epoch": 2.1458666666666666,
"grad_norm": 3.9240214824676514,
"learning_rate": 1.9119999999999997e-06,
"loss": 0.1482,
"step": 8070
},
{
"epoch": 2.1462,
"grad_norm": 4.666675090789795,
"learning_rate": 1.9106206896551723e-06,
"loss": 0.1517,
"step": 8075
},
{
"epoch": 2.146533333333333,
"grad_norm": 3.2189595699310303,
"learning_rate": 1.909241379310345e-06,
"loss": 0.1347,
"step": 8080
},
{
"epoch": 2.1468666666666665,
"grad_norm": 4.857850551605225,
"learning_rate": 1.907862068965517e-06,
"loss": 0.2023,
"step": 8085
},
{
"epoch": 2.1471999999999998,
"grad_norm": 3.833641529083252,
"learning_rate": 1.9064827586206894e-06,
"loss": 0.1481,
"step": 8090
},
{
"epoch": 2.1475333333333335,
"grad_norm": 4.382359027862549,
"learning_rate": 1.905103448275862e-06,
"loss": 0.1679,
"step": 8095
},
{
"epoch": 2.147866666666667,
"grad_norm": 4.568116664886475,
"learning_rate": 1.9037241379310346e-06,
"loss": 0.1789,
"step": 8100
},
{
"epoch": 2.1482,
"grad_norm": 3.440861940383911,
"learning_rate": 1.9023448275862068e-06,
"loss": 0.1405,
"step": 8105
},
{
"epoch": 2.1485333333333334,
"grad_norm": 3.7788281440734863,
"learning_rate": 1.9009655172413792e-06,
"loss": 0.1471,
"step": 8110
},
{
"epoch": 2.1488666666666667,
"grad_norm": 4.138926029205322,
"learning_rate": 1.8995862068965515e-06,
"loss": 0.1607,
"step": 8115
},
{
"epoch": 2.1492,
"grad_norm": 3.8638267517089844,
"learning_rate": 1.898206896551724e-06,
"loss": 0.1326,
"step": 8120
},
{
"epoch": 2.1495333333333333,
"grad_norm": 5.205294609069824,
"learning_rate": 1.8968275862068966e-06,
"loss": 0.1521,
"step": 8125
},
{
"epoch": 2.1498666666666666,
"grad_norm": 3.736191987991333,
"learning_rate": 1.8954482758620688e-06,
"loss": 0.123,
"step": 8130
},
{
"epoch": 2.1502,
"grad_norm": 3.284804344177246,
"learning_rate": 1.8940689655172413e-06,
"loss": 0.1468,
"step": 8135
},
{
"epoch": 2.150533333333333,
"grad_norm": 3.204585313796997,
"learning_rate": 1.8926896551724137e-06,
"loss": 0.1397,
"step": 8140
},
{
"epoch": 2.1508666666666665,
"grad_norm": 4.732002258300781,
"learning_rate": 1.8913103448275862e-06,
"loss": 0.1869,
"step": 8145
},
{
"epoch": 2.1512000000000002,
"grad_norm": 3.870253086090088,
"learning_rate": 1.8899310344827586e-06,
"loss": 0.153,
"step": 8150
},
{
"epoch": 2.1515333333333335,
"grad_norm": 4.250088691711426,
"learning_rate": 1.8885517241379309e-06,
"loss": 0.159,
"step": 8155
},
{
"epoch": 2.151866666666667,
"grad_norm": 4.497228622436523,
"learning_rate": 1.8871724137931033e-06,
"loss": 0.1825,
"step": 8160
},
{
"epoch": 2.1522,
"grad_norm": 4.305934906005859,
"learning_rate": 1.8857931034482758e-06,
"loss": 0.1338,
"step": 8165
},
{
"epoch": 2.1525333333333334,
"grad_norm": 6.173018932342529,
"learning_rate": 1.8844137931034482e-06,
"loss": 0.2208,
"step": 8170
},
{
"epoch": 2.1528666666666667,
"grad_norm": 3.7534828186035156,
"learning_rate": 1.8830344827586207e-06,
"loss": 0.1466,
"step": 8175
},
{
"epoch": 2.1532,
"grad_norm": 4.5661468505859375,
"learning_rate": 1.881655172413793e-06,
"loss": 0.1394,
"step": 8180
},
{
"epoch": 2.1535333333333333,
"grad_norm": 3.2051525115966797,
"learning_rate": 1.8802758620689653e-06,
"loss": 0.1398,
"step": 8185
},
{
"epoch": 2.1538666666666666,
"grad_norm": 4.009622573852539,
"learning_rate": 1.8788965517241378e-06,
"loss": 0.1279,
"step": 8190
},
{
"epoch": 2.1542,
"grad_norm": 4.417429447174072,
"learning_rate": 1.8775172413793102e-06,
"loss": 0.1402,
"step": 8195
},
{
"epoch": 2.154533333333333,
"grad_norm": 4.157866954803467,
"learning_rate": 1.8761379310344827e-06,
"loss": 0.1416,
"step": 8200
},
{
"epoch": 2.1548666666666665,
"grad_norm": 5.456273555755615,
"learning_rate": 1.8747586206896551e-06,
"loss": 0.1774,
"step": 8205
},
{
"epoch": 2.1552,
"grad_norm": 4.373351573944092,
"learning_rate": 1.8733793103448274e-06,
"loss": 0.1623,
"step": 8210
},
{
"epoch": 2.1555333333333335,
"grad_norm": 3.606292486190796,
"learning_rate": 1.872e-06,
"loss": 0.1783,
"step": 8215
},
{
"epoch": 2.155866666666667,
"grad_norm": 2.8683555126190186,
"learning_rate": 1.8706206896551725e-06,
"loss": 0.1456,
"step": 8220
},
{
"epoch": 2.1562,
"grad_norm": 4.756180286407471,
"learning_rate": 1.8692413793103447e-06,
"loss": 0.1349,
"step": 8225
},
{
"epoch": 2.1565333333333334,
"grad_norm": 3.5604751110076904,
"learning_rate": 1.8678620689655172e-06,
"loss": 0.1652,
"step": 8230
},
{
"epoch": 2.1568666666666667,
"grad_norm": 3.298671245574951,
"learning_rate": 1.8664827586206894e-06,
"loss": 0.1558,
"step": 8235
},
{
"epoch": 2.1572,
"grad_norm": 4.017250061035156,
"learning_rate": 1.865103448275862e-06,
"loss": 0.1834,
"step": 8240
},
{
"epoch": 2.1575333333333333,
"grad_norm": 3.721139669418335,
"learning_rate": 1.8637241379310345e-06,
"loss": 0.1918,
"step": 8245
},
{
"epoch": 2.1578666666666666,
"grad_norm": 5.082814693450928,
"learning_rate": 1.8623448275862068e-06,
"loss": 0.135,
"step": 8250
},
{
"epoch": 2.1582,
"grad_norm": 3.383303642272949,
"learning_rate": 1.8609655172413792e-06,
"loss": 0.1382,
"step": 8255
},
{
"epoch": 2.158533333333333,
"grad_norm": 4.598973274230957,
"learning_rate": 1.8595862068965517e-06,
"loss": 0.1357,
"step": 8260
},
{
"epoch": 2.1588666666666665,
"grad_norm": 4.520269393920898,
"learning_rate": 1.858206896551724e-06,
"loss": 0.2124,
"step": 8265
},
{
"epoch": 2.1592000000000002,
"grad_norm": 4.322984218597412,
"learning_rate": 1.8568275862068965e-06,
"loss": 0.177,
"step": 8270
},
{
"epoch": 2.1595333333333335,
"grad_norm": 4.300741672515869,
"learning_rate": 1.8554482758620688e-06,
"loss": 0.1436,
"step": 8275
},
{
"epoch": 2.159866666666667,
"grad_norm": 4.1086554527282715,
"learning_rate": 1.8540689655172412e-06,
"loss": 0.1482,
"step": 8280
},
{
"epoch": 2.1602,
"grad_norm": 3.534214973449707,
"learning_rate": 1.8526896551724137e-06,
"loss": 0.1851,
"step": 8285
},
{
"epoch": 2.1605333333333334,
"grad_norm": 3.127505302429199,
"learning_rate": 1.8513103448275861e-06,
"loss": 0.1541,
"step": 8290
},
{
"epoch": 2.1608666666666667,
"grad_norm": 4.561563014984131,
"learning_rate": 1.8499310344827586e-06,
"loss": 0.1669,
"step": 8295
},
{
"epoch": 2.1612,
"grad_norm": 3.6182634830474854,
"learning_rate": 1.8485517241379308e-06,
"loss": 0.1353,
"step": 8300
},
{
"epoch": 2.1615333333333333,
"grad_norm": 3.6034393310546875,
"learning_rate": 1.8471724137931033e-06,
"loss": 0.1745,
"step": 8305
},
{
"epoch": 2.1618666666666666,
"grad_norm": 3.932777166366577,
"learning_rate": 1.845793103448276e-06,
"loss": 0.1282,
"step": 8310
},
{
"epoch": 2.1622,
"grad_norm": 3.576974391937256,
"learning_rate": 1.8444137931034482e-06,
"loss": 0.1404,
"step": 8315
},
{
"epoch": 2.162533333333333,
"grad_norm": 4.214875221252441,
"learning_rate": 1.8430344827586206e-06,
"loss": 0.1537,
"step": 8320
},
{
"epoch": 2.1628666666666665,
"grad_norm": 3.206268787384033,
"learning_rate": 1.841655172413793e-06,
"loss": 0.1335,
"step": 8325
},
{
"epoch": 2.1632,
"grad_norm": 3.312103271484375,
"learning_rate": 1.8402758620689653e-06,
"loss": 0.1679,
"step": 8330
},
{
"epoch": 2.1635333333333335,
"grad_norm": 3.4624552726745605,
"learning_rate": 1.838896551724138e-06,
"loss": 0.1672,
"step": 8335
},
{
"epoch": 2.163866666666667,
"grad_norm": 4.053277969360352,
"learning_rate": 1.8375172413793102e-06,
"loss": 0.1398,
"step": 8340
},
{
"epoch": 2.1642,
"grad_norm": 3.646374225616455,
"learning_rate": 1.8361379310344826e-06,
"loss": 0.1408,
"step": 8345
},
{
"epoch": 2.1645333333333334,
"grad_norm": 4.11189603805542,
"learning_rate": 1.834758620689655e-06,
"loss": 0.1406,
"step": 8350
},
{
"epoch": 2.1648666666666667,
"grad_norm": 3.126028299331665,
"learning_rate": 1.8333793103448273e-06,
"loss": 0.1719,
"step": 8355
},
{
"epoch": 2.1652,
"grad_norm": 3.728790521621704,
"learning_rate": 1.832e-06,
"loss": 0.1563,
"step": 8360
},
{
"epoch": 2.1655333333333333,
"grad_norm": 4.10999059677124,
"learning_rate": 1.8306206896551724e-06,
"loss": 0.1761,
"step": 8365
},
{
"epoch": 2.1658666666666666,
"grad_norm": 3.48075270652771,
"learning_rate": 1.8292413793103447e-06,
"loss": 0.132,
"step": 8370
},
{
"epoch": 2.1662,
"grad_norm": 3.1271069049835205,
"learning_rate": 1.8278620689655171e-06,
"loss": 0.1345,
"step": 8375
},
{
"epoch": 2.166533333333333,
"grad_norm": 5.037559986114502,
"learning_rate": 1.8264827586206896e-06,
"loss": 0.1576,
"step": 8380
},
{
"epoch": 2.1668666666666665,
"grad_norm": 4.991491794586182,
"learning_rate": 1.825103448275862e-06,
"loss": 0.1607,
"step": 8385
},
{
"epoch": 2.1672,
"grad_norm": 3.7590858936309814,
"learning_rate": 1.8237241379310345e-06,
"loss": 0.1493,
"step": 8390
},
{
"epoch": 2.1675333333333335,
"grad_norm": 4.343997001647949,
"learning_rate": 1.8223448275862067e-06,
"loss": 0.1619,
"step": 8395
},
{
"epoch": 2.167866666666667,
"grad_norm": 4.275284290313721,
"learning_rate": 1.8209655172413792e-06,
"loss": 0.1566,
"step": 8400
},
{
"epoch": 2.1682,
"grad_norm": 5.474055767059326,
"learning_rate": 1.8195862068965518e-06,
"loss": 0.1256,
"step": 8405
},
{
"epoch": 2.1685333333333334,
"grad_norm": 4.446492671966553,
"learning_rate": 1.818206896551724e-06,
"loss": 0.1407,
"step": 8410
},
{
"epoch": 2.1688666666666667,
"grad_norm": 3.7689285278320312,
"learning_rate": 1.8168275862068965e-06,
"loss": 0.1318,
"step": 8415
},
{
"epoch": 2.1692,
"grad_norm": 3.66825008392334,
"learning_rate": 1.8154482758620687e-06,
"loss": 0.1496,
"step": 8420
},
{
"epoch": 2.1695333333333333,
"grad_norm": 4.186960697174072,
"learning_rate": 1.8140689655172412e-06,
"loss": 0.1164,
"step": 8425
},
{
"epoch": 2.1698666666666666,
"grad_norm": 2.956852912902832,
"learning_rate": 1.8126896551724139e-06,
"loss": 0.1262,
"step": 8430
},
{
"epoch": 2.1702,
"grad_norm": 5.9926323890686035,
"learning_rate": 1.811310344827586e-06,
"loss": 0.1641,
"step": 8435
},
{
"epoch": 2.170533333333333,
"grad_norm": 4.226884841918945,
"learning_rate": 1.8099310344827585e-06,
"loss": 0.1661,
"step": 8440
},
{
"epoch": 2.1708666666666665,
"grad_norm": 3.088512897491455,
"learning_rate": 1.808551724137931e-06,
"loss": 0.1436,
"step": 8445
},
{
"epoch": 2.1712,
"grad_norm": 4.03468656539917,
"learning_rate": 1.8071724137931032e-06,
"loss": 0.1315,
"step": 8450
},
{
"epoch": 2.1715333333333335,
"grad_norm": 4.595294952392578,
"learning_rate": 1.8057931034482759e-06,
"loss": 0.1868,
"step": 8455
},
{
"epoch": 2.171866666666667,
"grad_norm": 3.287555694580078,
"learning_rate": 1.8044137931034481e-06,
"loss": 0.1327,
"step": 8460
},
{
"epoch": 2.1722,
"grad_norm": 3.081728219985962,
"learning_rate": 1.8030344827586206e-06,
"loss": 0.1141,
"step": 8465
},
{
"epoch": 2.1725333333333334,
"grad_norm": 3.949039936065674,
"learning_rate": 1.801655172413793e-06,
"loss": 0.1544,
"step": 8470
},
{
"epoch": 2.1728666666666667,
"grad_norm": 4.855032920837402,
"learning_rate": 1.8002758620689655e-06,
"loss": 0.19,
"step": 8475
},
{
"epoch": 2.1732,
"grad_norm": 3.3504321575164795,
"learning_rate": 1.798896551724138e-06,
"loss": 0.1343,
"step": 8480
},
{
"epoch": 2.1735333333333333,
"grad_norm": 3.221022129058838,
"learning_rate": 1.7975172413793104e-06,
"loss": 0.2011,
"step": 8485
},
{
"epoch": 2.1738666666666666,
"grad_norm": 4.804887294769287,
"learning_rate": 1.7961379310344826e-06,
"loss": 0.1673,
"step": 8490
},
{
"epoch": 2.1742,
"grad_norm": 3.5726826190948486,
"learning_rate": 1.794758620689655e-06,
"loss": 0.1542,
"step": 8495
},
{
"epoch": 2.174533333333333,
"grad_norm": 3.9310481548309326,
"learning_rate": 1.7933793103448275e-06,
"loss": 0.15,
"step": 8500
},
{
"epoch": 2.1748666666666665,
"grad_norm": 4.455894947052002,
"learning_rate": 1.792e-06,
"loss": 0.1275,
"step": 8505
},
{
"epoch": 2.1752,
"grad_norm": 4.744019031524658,
"learning_rate": 1.7906206896551724e-06,
"loss": 0.17,
"step": 8510
},
{
"epoch": 2.1755333333333335,
"grad_norm": 5.374943256378174,
"learning_rate": 1.7892413793103446e-06,
"loss": 0.1728,
"step": 8515
},
{
"epoch": 2.175866666666667,
"grad_norm": 3.3343522548675537,
"learning_rate": 1.787862068965517e-06,
"loss": 0.1522,
"step": 8520
},
{
"epoch": 2.1762,
"grad_norm": 3.9378371238708496,
"learning_rate": 1.7864827586206897e-06,
"loss": 0.1279,
"step": 8525
},
{
"epoch": 2.1765333333333334,
"grad_norm": 3.869333028793335,
"learning_rate": 1.785103448275862e-06,
"loss": 0.1642,
"step": 8530
},
{
"epoch": 2.1768666666666667,
"grad_norm": 4.777926445007324,
"learning_rate": 1.7837241379310344e-06,
"loss": 0.1321,
"step": 8535
},
{
"epoch": 2.1772,
"grad_norm": 3.3414337635040283,
"learning_rate": 1.7823448275862067e-06,
"loss": 0.1357,
"step": 8540
},
{
"epoch": 2.1775333333333333,
"grad_norm": 4.182128429412842,
"learning_rate": 1.7809655172413793e-06,
"loss": 0.1439,
"step": 8545
},
{
"epoch": 2.1778666666666666,
"grad_norm": 4.353799343109131,
"learning_rate": 1.7795862068965518e-06,
"loss": 0.1125,
"step": 8550
},
{
"epoch": 2.1782,
"grad_norm": 4.375477313995361,
"learning_rate": 1.778206896551724e-06,
"loss": 0.164,
"step": 8555
},
{
"epoch": 2.178533333333333,
"grad_norm": 3.4945335388183594,
"learning_rate": 1.7768275862068965e-06,
"loss": 0.1544,
"step": 8560
},
{
"epoch": 2.1788666666666665,
"grad_norm": 4.1269354820251465,
"learning_rate": 1.7754482758620687e-06,
"loss": 0.1422,
"step": 8565
},
{
"epoch": 2.1792,
"grad_norm": 3.8401618003845215,
"learning_rate": 1.7740689655172414e-06,
"loss": 0.1304,
"step": 8570
},
{
"epoch": 2.1795333333333335,
"grad_norm": 3.9661614894866943,
"learning_rate": 1.7726896551724138e-06,
"loss": 0.1666,
"step": 8575
},
{
"epoch": 2.179866666666667,
"grad_norm": 3.4680862426757812,
"learning_rate": 1.771310344827586e-06,
"loss": 0.1182,
"step": 8580
},
{
"epoch": 2.1802,
"grad_norm": 2.7374706268310547,
"learning_rate": 1.7699310344827585e-06,
"loss": 0.1205,
"step": 8585
},
{
"epoch": 2.1805333333333334,
"grad_norm": 3.9679887294769287,
"learning_rate": 1.768551724137931e-06,
"loss": 0.1152,
"step": 8590
},
{
"epoch": 2.1808666666666667,
"grad_norm": 3.9719510078430176,
"learning_rate": 1.7671724137931034e-06,
"loss": 0.1602,
"step": 8595
},
{
"epoch": 2.1812,
"grad_norm": 5.028110504150391,
"learning_rate": 1.7657931034482758e-06,
"loss": 0.2604,
"step": 8600
},
{
"epoch": 2.1815333333333333,
"grad_norm": 3.4604058265686035,
"learning_rate": 1.764413793103448e-06,
"loss": 0.1524,
"step": 8605
},
{
"epoch": 2.1818666666666666,
"grad_norm": 3.3679041862487793,
"learning_rate": 1.7630344827586205e-06,
"loss": 0.1114,
"step": 8610
},
{
"epoch": 2.1822,
"grad_norm": 2.889110565185547,
"learning_rate": 1.7616551724137932e-06,
"loss": 0.1353,
"step": 8615
},
{
"epoch": 2.182533333333333,
"grad_norm": 4.661477565765381,
"learning_rate": 1.7602758620689654e-06,
"loss": 0.1558,
"step": 8620
},
{
"epoch": 2.1828666666666665,
"grad_norm": 3.864149570465088,
"learning_rate": 1.7588965517241379e-06,
"loss": 0.1392,
"step": 8625
},
{
"epoch": 2.1832,
"grad_norm": 3.6767807006835938,
"learning_rate": 1.7575172413793103e-06,
"loss": 0.1464,
"step": 8630
},
{
"epoch": 2.183533333333333,
"grad_norm": 4.2633891105651855,
"learning_rate": 1.7561379310344826e-06,
"loss": 0.1668,
"step": 8635
},
{
"epoch": 2.183866666666667,
"grad_norm": 4.703251838684082,
"learning_rate": 1.7547586206896552e-06,
"loss": 0.1739,
"step": 8640
},
{
"epoch": 2.1842,
"grad_norm": 3.5388970375061035,
"learning_rate": 1.7533793103448275e-06,
"loss": 0.1704,
"step": 8645
},
{
"epoch": 2.1845333333333334,
"grad_norm": 3.8639373779296875,
"learning_rate": 1.752e-06,
"loss": 0.1274,
"step": 8650
},
{
"epoch": 2.1848666666666667,
"grad_norm": 3.1938366889953613,
"learning_rate": 1.7506206896551724e-06,
"loss": 0.112,
"step": 8655
},
{
"epoch": 2.1852,
"grad_norm": 4.140189170837402,
"learning_rate": 1.7492413793103446e-06,
"loss": 0.1369,
"step": 8660
},
{
"epoch": 2.1855333333333333,
"grad_norm": 3.9703152179718018,
"learning_rate": 1.7478620689655173e-06,
"loss": 0.1294,
"step": 8665
},
{
"epoch": 2.1858666666666666,
"grad_norm": 2.8397016525268555,
"learning_rate": 1.7464827586206897e-06,
"loss": 0.1847,
"step": 8670
},
{
"epoch": 2.1862,
"grad_norm": 4.075649261474609,
"learning_rate": 1.745103448275862e-06,
"loss": 0.1625,
"step": 8675
},
{
"epoch": 2.186533333333333,
"grad_norm": 3.020195484161377,
"learning_rate": 1.7437241379310344e-06,
"loss": 0.1815,
"step": 8680
},
{
"epoch": 2.1868666666666665,
"grad_norm": 4.173330307006836,
"learning_rate": 1.7423448275862066e-06,
"loss": 0.1307,
"step": 8685
},
{
"epoch": 2.1872,
"grad_norm": 3.982363224029541,
"learning_rate": 1.7409655172413793e-06,
"loss": 0.1613,
"step": 8690
},
{
"epoch": 2.1875333333333336,
"grad_norm": 4.021744728088379,
"learning_rate": 1.7395862068965517e-06,
"loss": 0.1755,
"step": 8695
},
{
"epoch": 2.187866666666667,
"grad_norm": 4.122310161590576,
"learning_rate": 1.738206896551724e-06,
"loss": 0.2093,
"step": 8700
},
{
"epoch": 2.1882,
"grad_norm": 3.324096441268921,
"learning_rate": 1.7368275862068964e-06,
"loss": 0.1626,
"step": 8705
},
{
"epoch": 2.1885333333333334,
"grad_norm": 3.9189541339874268,
"learning_rate": 1.735448275862069e-06,
"loss": 0.1557,
"step": 8710
},
{
"epoch": 2.1888666666666667,
"grad_norm": 4.058740615844727,
"learning_rate": 1.7340689655172413e-06,
"loss": 0.2072,
"step": 8715
},
{
"epoch": 2.1892,
"grad_norm": 4.0295610427856445,
"learning_rate": 1.7326896551724138e-06,
"loss": 0.1381,
"step": 8720
},
{
"epoch": 2.1895333333333333,
"grad_norm": 3.0452046394348145,
"learning_rate": 1.731310344827586e-06,
"loss": 0.193,
"step": 8725
},
{
"epoch": 2.1898666666666666,
"grad_norm": 3.2471485137939453,
"learning_rate": 1.7299310344827585e-06,
"loss": 0.1535,
"step": 8730
},
{
"epoch": 2.1902,
"grad_norm": 3.27593731880188,
"learning_rate": 1.7285517241379311e-06,
"loss": 0.1579,
"step": 8735
},
{
"epoch": 2.190533333333333,
"grad_norm": 2.973141670227051,
"learning_rate": 1.7271724137931034e-06,
"loss": 0.1329,
"step": 8740
},
{
"epoch": 2.1908666666666665,
"grad_norm": 3.8436200618743896,
"learning_rate": 1.7257931034482758e-06,
"loss": 0.1604,
"step": 8745
},
{
"epoch": 2.1912,
"grad_norm": 4.40897798538208,
"learning_rate": 1.724413793103448e-06,
"loss": 0.1805,
"step": 8750
},
{
"epoch": 2.191533333333333,
"grad_norm": 4.241269588470459,
"learning_rate": 1.7230344827586205e-06,
"loss": 0.1424,
"step": 8755
},
{
"epoch": 2.191866666666667,
"grad_norm": 3.716587781906128,
"learning_rate": 1.7216551724137932e-06,
"loss": 0.1395,
"step": 8760
},
{
"epoch": 2.1922,
"grad_norm": 4.128037929534912,
"learning_rate": 1.7202758620689654e-06,
"loss": 0.129,
"step": 8765
},
{
"epoch": 2.1925333333333334,
"grad_norm": 3.789893388748169,
"learning_rate": 1.7188965517241378e-06,
"loss": 0.1195,
"step": 8770
},
{
"epoch": 2.1928666666666667,
"grad_norm": 4.065726280212402,
"learning_rate": 1.7175172413793103e-06,
"loss": 0.1795,
"step": 8775
},
{
"epoch": 2.1932,
"grad_norm": 3.332552671432495,
"learning_rate": 1.7161379310344827e-06,
"loss": 0.1542,
"step": 8780
},
{
"epoch": 2.1935333333333333,
"grad_norm": 3.5648553371429443,
"learning_rate": 1.7147586206896552e-06,
"loss": 0.1336,
"step": 8785
},
{
"epoch": 2.1938666666666666,
"grad_norm": 2.74189829826355,
"learning_rate": 1.7133793103448274e-06,
"loss": 0.1145,
"step": 8790
},
{
"epoch": 2.1942,
"grad_norm": 6.111897945404053,
"learning_rate": 1.7119999999999999e-06,
"loss": 0.2038,
"step": 8795
},
{
"epoch": 2.1945333333333332,
"grad_norm": 4.204073905944824,
"learning_rate": 1.7106206896551723e-06,
"loss": 0.1419,
"step": 8800
},
{
"epoch": 2.1948666666666665,
"grad_norm": 3.7847278118133545,
"learning_rate": 1.7092413793103448e-06,
"loss": 0.1568,
"step": 8805
},
{
"epoch": 2.1952,
"grad_norm": 3.485211133956909,
"learning_rate": 1.7078620689655172e-06,
"loss": 0.1143,
"step": 8810
},
{
"epoch": 2.1955333333333336,
"grad_norm": 3.633013963699341,
"learning_rate": 1.7064827586206897e-06,
"loss": 0.1652,
"step": 8815
},
{
"epoch": 2.195866666666667,
"grad_norm": 4.063668727874756,
"learning_rate": 1.705103448275862e-06,
"loss": 0.1298,
"step": 8820
},
{
"epoch": 3.0001333333333333,
"grad_norm": 2.539724349975586,
"learning_rate": 1.7037241379310344e-06,
"loss": 0.1426,
"step": 8825
},
{
"epoch": 3.0004666666666666,
"grad_norm": 3.1480917930603027,
"learning_rate": 1.7023448275862068e-06,
"loss": 0.1267,
"step": 8830
},
{
"epoch": 3.0008,
"grad_norm": 2.630356550216675,
"learning_rate": 1.7009655172413793e-06,
"loss": 0.1082,
"step": 8835
},
{
"epoch": 3.001133333333333,
"grad_norm": 2.65017032623291,
"learning_rate": 1.6995862068965517e-06,
"loss": 0.1201,
"step": 8840
},
{
"epoch": 3.0014666666666665,
"grad_norm": 3.7857720851898193,
"learning_rate": 1.698206896551724e-06,
"loss": 0.1071,
"step": 8845
},
{
"epoch": 3.0018,
"grad_norm": 2.6381359100341797,
"learning_rate": 1.6968275862068964e-06,
"loss": 0.1171,
"step": 8850
},
{
"epoch": 3.0021333333333335,
"grad_norm": 3.8909502029418945,
"learning_rate": 1.695448275862069e-06,
"loss": 0.1487,
"step": 8855
},
{
"epoch": 3.002466666666667,
"grad_norm": 2.907451868057251,
"learning_rate": 1.6940689655172413e-06,
"loss": 0.0999,
"step": 8860
},
{
"epoch": 3.0028,
"grad_norm": 2.5638723373413086,
"learning_rate": 1.6926896551724137e-06,
"loss": 0.0943,
"step": 8865
},
{
"epoch": 3.0031333333333334,
"grad_norm": 3.138784408569336,
"learning_rate": 1.691310344827586e-06,
"loss": 0.1472,
"step": 8870
},
{
"epoch": 3.0034666666666667,
"grad_norm": 3.014455556869507,
"learning_rate": 1.6899310344827586e-06,
"loss": 0.099,
"step": 8875
},
{
"epoch": 3.0038,
"grad_norm": 3.37086820602417,
"learning_rate": 1.688551724137931e-06,
"loss": 0.1157,
"step": 8880
},
{
"epoch": 3.0041333333333333,
"grad_norm": 3.136986255645752,
"learning_rate": 1.6871724137931033e-06,
"loss": 0.1039,
"step": 8885
},
{
"epoch": 3.0044666666666666,
"grad_norm": 4.7203216552734375,
"learning_rate": 1.6857931034482758e-06,
"loss": 0.1345,
"step": 8890
},
{
"epoch": 3.0048,
"grad_norm": 3.3336660861968994,
"learning_rate": 1.6844137931034482e-06,
"loss": 0.1162,
"step": 8895
},
{
"epoch": 3.005133333333333,
"grad_norm": 3.5961718559265137,
"learning_rate": 1.6830344827586207e-06,
"loss": 0.1302,
"step": 8900
},
{
"epoch": 3.0054666666666665,
"grad_norm": 3.593472957611084,
"learning_rate": 1.6816551724137931e-06,
"loss": 0.1505,
"step": 8905
},
{
"epoch": 3.0058,
"grad_norm": 4.182474136352539,
"learning_rate": 1.6802758620689653e-06,
"loss": 0.1184,
"step": 8910
},
{
"epoch": 3.0061333333333335,
"grad_norm": 3.40610671043396,
"learning_rate": 1.6788965517241378e-06,
"loss": 0.0938,
"step": 8915
},
{
"epoch": 3.006466666666667,
"grad_norm": 3.2819924354553223,
"learning_rate": 1.6775172413793102e-06,
"loss": 0.1489,
"step": 8920
},
{
"epoch": 3.0068,
"grad_norm": 3.2076609134674072,
"learning_rate": 1.6761379310344827e-06,
"loss": 0.1239,
"step": 8925
},
{
"epoch": 3.0071333333333334,
"grad_norm": 4.770686149597168,
"learning_rate": 1.6747586206896551e-06,
"loss": 0.1569,
"step": 8930
},
{
"epoch": 3.0074666666666667,
"grad_norm": 3.113126516342163,
"learning_rate": 1.6733793103448276e-06,
"loss": 0.1053,
"step": 8935
},
{
"epoch": 3.0078,
"grad_norm": 4.634932994842529,
"learning_rate": 1.6719999999999998e-06,
"loss": 0.1118,
"step": 8940
},
{
"epoch": 3.0081333333333333,
"grad_norm": 3.3963279724121094,
"learning_rate": 1.6706206896551725e-06,
"loss": 0.1306,
"step": 8945
},
{
"epoch": 3.0084666666666666,
"grad_norm": 3.59763503074646,
"learning_rate": 1.6692413793103447e-06,
"loss": 0.1204,
"step": 8950
},
{
"epoch": 3.0088,
"grad_norm": 3.581852436065674,
"learning_rate": 1.6678620689655172e-06,
"loss": 0.0992,
"step": 8955
},
{
"epoch": 3.009133333333333,
"grad_norm": 3.3116209506988525,
"learning_rate": 1.6664827586206896e-06,
"loss": 0.1131,
"step": 8960
},
{
"epoch": 3.0094666666666665,
"grad_norm": 4.672176837921143,
"learning_rate": 1.6651034482758619e-06,
"loss": 0.1365,
"step": 8965
},
{
"epoch": 3.0098,
"grad_norm": 3.792673110961914,
"learning_rate": 1.6637241379310345e-06,
"loss": 0.1698,
"step": 8970
},
{
"epoch": 3.0101333333333335,
"grad_norm": 3.4112062454223633,
"learning_rate": 1.6623448275862068e-06,
"loss": 0.1381,
"step": 8975
},
{
"epoch": 3.010466666666667,
"grad_norm": 4.230578422546387,
"learning_rate": 1.6609655172413792e-06,
"loss": 0.1487,
"step": 8980
},
{
"epoch": 3.0108,
"grad_norm": 5.316370964050293,
"learning_rate": 1.6595862068965517e-06,
"loss": 0.115,
"step": 8985
},
{
"epoch": 3.0111333333333334,
"grad_norm": 3.447941303253174,
"learning_rate": 1.658206896551724e-06,
"loss": 0.1094,
"step": 8990
},
{
"epoch": 3.0114666666666667,
"grad_norm": 3.4434168338775635,
"learning_rate": 1.6568275862068966e-06,
"loss": 0.1602,
"step": 8995
},
{
"epoch": 3.0118,
"grad_norm": 4.347789764404297,
"learning_rate": 1.655448275862069e-06,
"loss": 0.1574,
"step": 9000
},
{
"epoch": 3.0118,
"eval_loss": 0.21846872568130493,
"eval_runtime": 137.2533,
"eval_samples_per_second": 4.371,
"eval_steps_per_second": 1.093,
"eval_wer": 11.169262190451876,
"step": 9000
},
{
"epoch": 3.0121333333333333,
"grad_norm": 4.629955291748047,
"learning_rate": 1.6540689655172412e-06,
"loss": 0.1379,
"step": 9005
},
{
"epoch": 3.0124666666666666,
"grad_norm": 2.9406256675720215,
"learning_rate": 1.6526896551724137e-06,
"loss": 0.1228,
"step": 9010
},
{
"epoch": 3.0128,
"grad_norm": 3.049663782119751,
"learning_rate": 1.651310344827586e-06,
"loss": 0.1293,
"step": 9015
},
{
"epoch": 3.013133333333333,
"grad_norm": 3.150233507156372,
"learning_rate": 1.6499310344827586e-06,
"loss": 0.1262,
"step": 9020
},
{
"epoch": 3.0134666666666665,
"grad_norm": 3.872096300125122,
"learning_rate": 1.648551724137931e-06,
"loss": 0.1841,
"step": 9025
},
{
"epoch": 3.0138,
"grad_norm": 3.682234048843384,
"learning_rate": 1.6471724137931033e-06,
"loss": 0.1454,
"step": 9030
},
{
"epoch": 3.0141333333333336,
"grad_norm": 2.8203773498535156,
"learning_rate": 1.6457931034482757e-06,
"loss": 0.1442,
"step": 9035
},
{
"epoch": 3.014466666666667,
"grad_norm": 3.316957712173462,
"learning_rate": 1.6444137931034484e-06,
"loss": 0.0985,
"step": 9040
},
{
"epoch": 3.0148,
"grad_norm": 3.019538402557373,
"learning_rate": 1.6430344827586206e-06,
"loss": 0.0923,
"step": 9045
},
{
"epoch": 3.0151333333333334,
"grad_norm": 3.5272879600524902,
"learning_rate": 1.641655172413793e-06,
"loss": 0.103,
"step": 9050
},
{
"epoch": 3.0154666666666667,
"grad_norm": 3.8035950660705566,
"learning_rate": 1.6402758620689653e-06,
"loss": 0.0966,
"step": 9055
},
{
"epoch": 3.0158,
"grad_norm": 2.990640640258789,
"learning_rate": 1.6388965517241378e-06,
"loss": 0.0944,
"step": 9060
},
{
"epoch": 3.0161333333333333,
"grad_norm": 3.5581140518188477,
"learning_rate": 1.6375172413793104e-06,
"loss": 0.1009,
"step": 9065
},
{
"epoch": 3.0164666666666666,
"grad_norm": 3.0962257385253906,
"learning_rate": 1.6361379310344827e-06,
"loss": 0.1072,
"step": 9070
},
{
"epoch": 3.0168,
"grad_norm": 4.13941764831543,
"learning_rate": 1.634758620689655e-06,
"loss": 0.1105,
"step": 9075
},
{
"epoch": 3.0171333333333332,
"grad_norm": 3.4292047023773193,
"learning_rate": 1.6333793103448276e-06,
"loss": 0.0997,
"step": 9080
},
{
"epoch": 3.0174666666666665,
"grad_norm": 4.204373359680176,
"learning_rate": 1.6319999999999998e-06,
"loss": 0.1125,
"step": 9085
},
{
"epoch": 3.0178,
"grad_norm": 3.8537063598632812,
"learning_rate": 1.6306206896551725e-06,
"loss": 0.1583,
"step": 9090
},
{
"epoch": 3.018133333333333,
"grad_norm": 3.4400527477264404,
"learning_rate": 1.6292413793103447e-06,
"loss": 0.1638,
"step": 9095
},
{
"epoch": 3.018466666666667,
"grad_norm": 4.959253787994385,
"learning_rate": 1.6278620689655171e-06,
"loss": 0.1298,
"step": 9100
},
{
"epoch": 3.0188,
"grad_norm": 3.712973117828369,
"learning_rate": 1.6264827586206896e-06,
"loss": 0.1006,
"step": 9105
},
{
"epoch": 3.0191333333333334,
"grad_norm": 4.025108814239502,
"learning_rate": 1.625103448275862e-06,
"loss": 0.1476,
"step": 9110
},
{
"epoch": 3.0194666666666667,
"grad_norm": 4.32798957824707,
"learning_rate": 1.6237241379310345e-06,
"loss": 0.1014,
"step": 9115
},
{
"epoch": 3.0198,
"grad_norm": 2.9364922046661377,
"learning_rate": 1.622344827586207e-06,
"loss": 0.123,
"step": 9120
},
{
"epoch": 3.0201333333333333,
"grad_norm": 4.004990577697754,
"learning_rate": 1.6209655172413792e-06,
"loss": 0.0987,
"step": 9125
},
{
"epoch": 3.0204666666666666,
"grad_norm": 4.291645050048828,
"learning_rate": 1.6195862068965516e-06,
"loss": 0.1219,
"step": 9130
},
{
"epoch": 3.0208,
"grad_norm": 3.9014573097229004,
"learning_rate": 1.618206896551724e-06,
"loss": 0.1313,
"step": 9135
},
{
"epoch": 3.0211333333333332,
"grad_norm": 3.630902051925659,
"learning_rate": 1.6168275862068965e-06,
"loss": 0.1452,
"step": 9140
},
{
"epoch": 3.0214666666666665,
"grad_norm": 3.670945167541504,
"learning_rate": 1.615448275862069e-06,
"loss": 0.1356,
"step": 9145
},
{
"epoch": 3.0218,
"grad_norm": 4.48456335067749,
"learning_rate": 1.6140689655172412e-06,
"loss": 0.1451,
"step": 9150
},
{
"epoch": 3.022133333333333,
"grad_norm": 2.9850361347198486,
"learning_rate": 1.6126896551724137e-06,
"loss": 0.0971,
"step": 9155
},
{
"epoch": 3.022466666666667,
"grad_norm": 3.8875746726989746,
"learning_rate": 1.6113103448275863e-06,
"loss": 0.1032,
"step": 9160
},
{
"epoch": 3.0228,
"grad_norm": 4.1555047035217285,
"learning_rate": 1.6099310344827585e-06,
"loss": 0.1318,
"step": 9165
},
{
"epoch": 3.0231333333333335,
"grad_norm": 3.7684998512268066,
"learning_rate": 1.608551724137931e-06,
"loss": 0.1098,
"step": 9170
},
{
"epoch": 3.0234666666666667,
"grad_norm": 3.7158780097961426,
"learning_rate": 1.6071724137931032e-06,
"loss": 0.1293,
"step": 9175
},
{
"epoch": 3.0238,
"grad_norm": 2.7922279834747314,
"learning_rate": 1.605793103448276e-06,
"loss": 0.1009,
"step": 9180
},
{
"epoch": 3.0241333333333333,
"grad_norm": 3.8994603157043457,
"learning_rate": 1.6044137931034483e-06,
"loss": 0.0957,
"step": 9185
},
{
"epoch": 3.0244666666666666,
"grad_norm": 3.6409683227539062,
"learning_rate": 1.6030344827586206e-06,
"loss": 0.1296,
"step": 9190
},
{
"epoch": 3.0248,
"grad_norm": 3.3072190284729004,
"learning_rate": 1.601655172413793e-06,
"loss": 0.1199,
"step": 9195
},
{
"epoch": 3.0251333333333332,
"grad_norm": 3.7103517055511475,
"learning_rate": 1.6002758620689653e-06,
"loss": 0.1251,
"step": 9200
},
{
"epoch": 3.0254666666666665,
"grad_norm": 3.9387073516845703,
"learning_rate": 1.598896551724138e-06,
"loss": 0.1474,
"step": 9205
},
{
"epoch": 3.0258,
"grad_norm": 3.7062556743621826,
"learning_rate": 1.5975172413793104e-06,
"loss": 0.1192,
"step": 9210
},
{
"epoch": 3.026133333333333,
"grad_norm": 5.077581405639648,
"learning_rate": 1.5961379310344826e-06,
"loss": 0.1502,
"step": 9215
},
{
"epoch": 3.026466666666667,
"grad_norm": 3.8413007259368896,
"learning_rate": 1.594758620689655e-06,
"loss": 0.1461,
"step": 9220
},
{
"epoch": 3.0268,
"grad_norm": 3.794663906097412,
"learning_rate": 1.5933793103448275e-06,
"loss": 0.135,
"step": 9225
},
{
"epoch": 3.0271333333333335,
"grad_norm": 4.478463649749756,
"learning_rate": 1.592e-06,
"loss": 0.1158,
"step": 9230
},
{
"epoch": 3.0274666666666668,
"grad_norm": 3.3673126697540283,
"learning_rate": 1.5906206896551724e-06,
"loss": 0.1139,
"step": 9235
},
{
"epoch": 3.0278,
"grad_norm": 3.524531602859497,
"learning_rate": 1.5892413793103446e-06,
"loss": 0.1568,
"step": 9240
},
{
"epoch": 3.0281333333333333,
"grad_norm": 4.0221638679504395,
"learning_rate": 1.587862068965517e-06,
"loss": 0.0987,
"step": 9245
},
{
"epoch": 3.0284666666666666,
"grad_norm": 2.6176412105560303,
"learning_rate": 1.5864827586206895e-06,
"loss": 0.178,
"step": 9250
},
{
"epoch": 3.0288,
"grad_norm": 3.5416202545166016,
"learning_rate": 1.585103448275862e-06,
"loss": 0.1024,
"step": 9255
},
{
"epoch": 3.0291333333333332,
"grad_norm": 3.216890335083008,
"learning_rate": 1.5837241379310344e-06,
"loss": 0.1159,
"step": 9260
},
{
"epoch": 3.0294666666666665,
"grad_norm": 3.4409103393554688,
"learning_rate": 1.5823448275862069e-06,
"loss": 0.1258,
"step": 9265
},
{
"epoch": 3.0298,
"grad_norm": 3.538853168487549,
"learning_rate": 1.5809655172413791e-06,
"loss": 0.1166,
"step": 9270
},
{
"epoch": 3.030133333333333,
"grad_norm": 4.390598297119141,
"learning_rate": 1.5795862068965518e-06,
"loss": 0.1306,
"step": 9275
},
{
"epoch": 3.030466666666667,
"grad_norm": 3.76890230178833,
"learning_rate": 1.578206896551724e-06,
"loss": 0.1081,
"step": 9280
},
{
"epoch": 3.0308,
"grad_norm": 2.9830398559570312,
"learning_rate": 1.5768275862068965e-06,
"loss": 0.1488,
"step": 9285
},
{
"epoch": 3.0311333333333335,
"grad_norm": 2.948573589324951,
"learning_rate": 1.575448275862069e-06,
"loss": 0.1535,
"step": 9290
},
{
"epoch": 3.0314666666666668,
"grad_norm": 3.2220051288604736,
"learning_rate": 1.5740689655172412e-06,
"loss": 0.0981,
"step": 9295
},
{
"epoch": 3.0318,
"grad_norm": 2.9556524753570557,
"learning_rate": 1.5726896551724138e-06,
"loss": 0.107,
"step": 9300
},
{
"epoch": 3.0321333333333333,
"grad_norm": 3.7836482524871826,
"learning_rate": 1.5713103448275863e-06,
"loss": 0.1021,
"step": 9305
},
{
"epoch": 3.0324666666666666,
"grad_norm": 4.98045015335083,
"learning_rate": 1.5699310344827585e-06,
"loss": 0.1473,
"step": 9310
},
{
"epoch": 3.0328,
"grad_norm": 3.7003581523895264,
"learning_rate": 1.568551724137931e-06,
"loss": 0.1,
"step": 9315
},
{
"epoch": 3.0331333333333332,
"grad_norm": 3.3061602115631104,
"learning_rate": 1.5671724137931032e-06,
"loss": 0.1711,
"step": 9320
},
{
"epoch": 3.0334666666666665,
"grad_norm": 3.595574140548706,
"learning_rate": 1.5657931034482759e-06,
"loss": 0.0951,
"step": 9325
},
{
"epoch": 3.0338,
"grad_norm": 3.2724099159240723,
"learning_rate": 1.5644137931034483e-06,
"loss": 0.1288,
"step": 9330
},
{
"epoch": 3.034133333333333,
"grad_norm": 3.070297956466675,
"learning_rate": 1.5630344827586205e-06,
"loss": 0.104,
"step": 9335
},
{
"epoch": 3.034466666666667,
"grad_norm": 2.6131012439727783,
"learning_rate": 1.561655172413793e-06,
"loss": 0.1194,
"step": 9340
},
{
"epoch": 3.0348,
"grad_norm": 3.4743731021881104,
"learning_rate": 1.5602758620689657e-06,
"loss": 0.108,
"step": 9345
},
{
"epoch": 3.0351333333333335,
"grad_norm": 3.9024970531463623,
"learning_rate": 1.5588965517241379e-06,
"loss": 0.1121,
"step": 9350
},
{
"epoch": 3.0354666666666668,
"grad_norm": 3.286496639251709,
"learning_rate": 1.5575172413793103e-06,
"loss": 0.1236,
"step": 9355
},
{
"epoch": 3.0358,
"grad_norm": 3.407349109649658,
"learning_rate": 1.5561379310344826e-06,
"loss": 0.1252,
"step": 9360
},
{
"epoch": 3.0361333333333334,
"grad_norm": 2.8448264598846436,
"learning_rate": 1.554758620689655e-06,
"loss": 0.1137,
"step": 9365
},
{
"epoch": 3.0364666666666666,
"grad_norm": 3.4842593669891357,
"learning_rate": 1.5533793103448277e-06,
"loss": 0.1318,
"step": 9370
},
{
"epoch": 3.0368,
"grad_norm": 3.5775935649871826,
"learning_rate": 1.552e-06,
"loss": 0.1709,
"step": 9375
},
{
"epoch": 3.0371333333333332,
"grad_norm": 3.455056667327881,
"learning_rate": 1.5506206896551724e-06,
"loss": 0.1124,
"step": 9380
},
{
"epoch": 3.0374666666666665,
"grad_norm": 3.249504327774048,
"learning_rate": 1.5492413793103446e-06,
"loss": 0.1136,
"step": 9385
},
{
"epoch": 3.0378,
"grad_norm": 3.305485725402832,
"learning_rate": 1.547862068965517e-06,
"loss": 0.1115,
"step": 9390
},
{
"epoch": 3.038133333333333,
"grad_norm": 4.278693675994873,
"learning_rate": 1.5464827586206897e-06,
"loss": 0.1098,
"step": 9395
},
{
"epoch": 3.038466666666667,
"grad_norm": 3.5658819675445557,
"learning_rate": 1.545103448275862e-06,
"loss": 0.1377,
"step": 9400
},
{
"epoch": 3.0388,
"grad_norm": 4.900520324707031,
"learning_rate": 1.5437241379310344e-06,
"loss": 0.1896,
"step": 9405
},
{
"epoch": 3.0391333333333335,
"grad_norm": 3.2976443767547607,
"learning_rate": 1.5423448275862069e-06,
"loss": 0.0946,
"step": 9410
},
{
"epoch": 3.0394666666666668,
"grad_norm": 3.0675580501556396,
"learning_rate": 1.540965517241379e-06,
"loss": 0.1338,
"step": 9415
},
{
"epoch": 3.0398,
"grad_norm": 4.276395320892334,
"learning_rate": 1.5395862068965517e-06,
"loss": 0.1532,
"step": 9420
},
{
"epoch": 3.0401333333333334,
"grad_norm": 4.125718116760254,
"learning_rate": 1.538206896551724e-06,
"loss": 0.1116,
"step": 9425
},
{
"epoch": 3.0404666666666667,
"grad_norm": 3.7554707527160645,
"learning_rate": 1.5368275862068964e-06,
"loss": 0.1458,
"step": 9430
},
{
"epoch": 3.0408,
"grad_norm": 3.5874321460723877,
"learning_rate": 1.5354482758620689e-06,
"loss": 0.1216,
"step": 9435
},
{
"epoch": 3.0411333333333332,
"grad_norm": 3.19573712348938,
"learning_rate": 1.5340689655172413e-06,
"loss": 0.0801,
"step": 9440
},
{
"epoch": 3.0414666666666665,
"grad_norm": 3.8198704719543457,
"learning_rate": 1.5326896551724138e-06,
"loss": 0.1825,
"step": 9445
},
{
"epoch": 3.0418,
"grad_norm": 3.6654012203216553,
"learning_rate": 1.5313103448275862e-06,
"loss": 0.1006,
"step": 9450
},
{
"epoch": 3.042133333333333,
"grad_norm": 3.8197760581970215,
"learning_rate": 1.5299310344827585e-06,
"loss": 0.1144,
"step": 9455
},
{
"epoch": 3.042466666666667,
"grad_norm": 3.896749496459961,
"learning_rate": 1.528551724137931e-06,
"loss": 0.0974,
"step": 9460
},
{
"epoch": 3.0428,
"grad_norm": 4.4020094871521,
"learning_rate": 1.5271724137931034e-06,
"loss": 0.1439,
"step": 9465
},
{
"epoch": 3.0431333333333335,
"grad_norm": 4.44556999206543,
"learning_rate": 1.5257931034482758e-06,
"loss": 0.1212,
"step": 9470
},
{
"epoch": 3.0434666666666668,
"grad_norm": 4.154641151428223,
"learning_rate": 1.5244137931034483e-06,
"loss": 0.1355,
"step": 9475
},
{
"epoch": 3.0438,
"grad_norm": 3.2818968296051025,
"learning_rate": 1.5230344827586205e-06,
"loss": 0.1138,
"step": 9480
},
{
"epoch": 3.0441333333333334,
"grad_norm": 3.9070241451263428,
"learning_rate": 1.521655172413793e-06,
"loss": 0.0923,
"step": 9485
},
{
"epoch": 3.0444666666666667,
"grad_norm": 4.5131330490112305,
"learning_rate": 1.5202758620689656e-06,
"loss": 0.1586,
"step": 9490
},
{
"epoch": 3.0448,
"grad_norm": 3.2859296798706055,
"learning_rate": 1.5188965517241378e-06,
"loss": 0.1002,
"step": 9495
},
{
"epoch": 3.0451333333333332,
"grad_norm": 3.572122812271118,
"learning_rate": 1.5175172413793103e-06,
"loss": 0.101,
"step": 9500
},
{
"epoch": 3.0454666666666665,
"grad_norm": 3.683112859725952,
"learning_rate": 1.5161379310344825e-06,
"loss": 0.1152,
"step": 9505
},
{
"epoch": 3.0458,
"grad_norm": 3.89717173576355,
"learning_rate": 1.5147586206896552e-06,
"loss": 0.1109,
"step": 9510
},
{
"epoch": 3.046133333333333,
"grad_norm": 3.888115882873535,
"learning_rate": 1.5133793103448276e-06,
"loss": 0.1373,
"step": 9515
},
{
"epoch": 3.046466666666667,
"grad_norm": 3.9829416275024414,
"learning_rate": 1.5119999999999999e-06,
"loss": 0.1088,
"step": 9520
},
{
"epoch": 3.0468,
"grad_norm": 3.8838016986846924,
"learning_rate": 1.5106206896551723e-06,
"loss": 0.1375,
"step": 9525
},
{
"epoch": 3.0471333333333335,
"grad_norm": 3.7164580821990967,
"learning_rate": 1.5092413793103448e-06,
"loss": 0.106,
"step": 9530
},
{
"epoch": 3.0474666666666668,
"grad_norm": 4.986276626586914,
"learning_rate": 1.5078620689655172e-06,
"loss": 0.1528,
"step": 9535
},
{
"epoch": 3.0478,
"grad_norm": 3.253887891769409,
"learning_rate": 1.5064827586206897e-06,
"loss": 0.141,
"step": 9540
},
{
"epoch": 3.0481333333333334,
"grad_norm": 3.3866772651672363,
"learning_rate": 1.505103448275862e-06,
"loss": 0.0878,
"step": 9545
},
{
"epoch": 3.0484666666666667,
"grad_norm": 3.6049654483795166,
"learning_rate": 1.5037241379310344e-06,
"loss": 0.1425,
"step": 9550
},
{
"epoch": 3.0488,
"grad_norm": 3.2754223346710205,
"learning_rate": 1.5023448275862068e-06,
"loss": 0.0803,
"step": 9555
},
{
"epoch": 3.0491333333333333,
"grad_norm": 3.4710190296173096,
"learning_rate": 1.5009655172413793e-06,
"loss": 0.1079,
"step": 9560
},
{
"epoch": 3.0494666666666665,
"grad_norm": 3.296415328979492,
"learning_rate": 1.4995862068965517e-06,
"loss": 0.1512,
"step": 9565
},
{
"epoch": 3.0498,
"grad_norm": 3.700373649597168,
"learning_rate": 1.4982068965517242e-06,
"loss": 0.1188,
"step": 9570
},
{
"epoch": 3.050133333333333,
"grad_norm": 3.681427478790283,
"learning_rate": 1.4968275862068964e-06,
"loss": 0.1179,
"step": 9575
},
{
"epoch": 3.050466666666667,
"grad_norm": 3.5094079971313477,
"learning_rate": 1.495448275862069e-06,
"loss": 0.1084,
"step": 9580
},
{
"epoch": 3.0508,
"grad_norm": 3.996792793273926,
"learning_rate": 1.4940689655172413e-06,
"loss": 0.1275,
"step": 9585
},
{
"epoch": 3.0511333333333335,
"grad_norm": 5.432217121124268,
"learning_rate": 1.4926896551724137e-06,
"loss": 0.1819,
"step": 9590
},
{
"epoch": 3.0514666666666668,
"grad_norm": 3.9535973072052,
"learning_rate": 1.4913103448275862e-06,
"loss": 0.1462,
"step": 9595
},
{
"epoch": 3.0518,
"grad_norm": 3.6771373748779297,
"learning_rate": 1.4899310344827584e-06,
"loss": 0.1605,
"step": 9600
},
{
"epoch": 3.0521333333333334,
"grad_norm": 3.2249722480773926,
"learning_rate": 1.488551724137931e-06,
"loss": 0.0955,
"step": 9605
},
{
"epoch": 3.0524666666666667,
"grad_norm": 3.5227978229522705,
"learning_rate": 1.4871724137931033e-06,
"loss": 0.1154,
"step": 9610
},
{
"epoch": 3.0528,
"grad_norm": 4.009605884552002,
"learning_rate": 1.4857931034482758e-06,
"loss": 0.0897,
"step": 9615
},
{
"epoch": 3.0531333333333333,
"grad_norm": 3.666917085647583,
"learning_rate": 1.4844137931034482e-06,
"loss": 0.1192,
"step": 9620
},
{
"epoch": 3.0534666666666666,
"grad_norm": 3.558495044708252,
"learning_rate": 1.4830344827586205e-06,
"loss": 0.114,
"step": 9625
},
{
"epoch": 3.0538,
"grad_norm": 3.240527868270874,
"learning_rate": 1.4816551724137931e-06,
"loss": 0.1303,
"step": 9630
},
{
"epoch": 3.054133333333333,
"grad_norm": 3.1053049564361572,
"learning_rate": 1.4802758620689656e-06,
"loss": 0.1656,
"step": 9635
},
{
"epoch": 3.0544666666666664,
"grad_norm": 3.117603302001953,
"learning_rate": 1.4788965517241378e-06,
"loss": 0.1524,
"step": 9640
},
{
"epoch": 3.0548,
"grad_norm": 4.373559474945068,
"learning_rate": 1.4775172413793103e-06,
"loss": 0.1529,
"step": 9645
},
{
"epoch": 3.0551333333333335,
"grad_norm": 3.975339651107788,
"learning_rate": 1.4761379310344825e-06,
"loss": 0.1055,
"step": 9650
},
{
"epoch": 3.0554666666666668,
"grad_norm": 3.0194833278656006,
"learning_rate": 1.4747586206896552e-06,
"loss": 0.1193,
"step": 9655
},
{
"epoch": 3.0558,
"grad_norm": 3.9133169651031494,
"learning_rate": 1.4733793103448276e-06,
"loss": 0.1242,
"step": 9660
},
{
"epoch": 3.0561333333333334,
"grad_norm": 3.7636635303497314,
"learning_rate": 1.4719999999999998e-06,
"loss": 0.1188,
"step": 9665
},
{
"epoch": 3.0564666666666667,
"grad_norm": 3.161651611328125,
"learning_rate": 1.4706206896551723e-06,
"loss": 0.1249,
"step": 9670
},
{
"epoch": 3.0568,
"grad_norm": 4.220159530639648,
"learning_rate": 1.469241379310345e-06,
"loss": 0.1324,
"step": 9675
},
{
"epoch": 3.0571333333333333,
"grad_norm": 3.3463799953460693,
"learning_rate": 1.4678620689655172e-06,
"loss": 0.1052,
"step": 9680
},
{
"epoch": 3.0574666666666666,
"grad_norm": 3.6713685989379883,
"learning_rate": 1.4664827586206896e-06,
"loss": 0.1138,
"step": 9685
},
{
"epoch": 3.0578,
"grad_norm": 3.3017044067382812,
"learning_rate": 1.4651034482758619e-06,
"loss": 0.0956,
"step": 9690
},
{
"epoch": 3.058133333333333,
"grad_norm": 3.7839577198028564,
"learning_rate": 1.4637241379310343e-06,
"loss": 0.1298,
"step": 9695
},
{
"epoch": 3.058466666666667,
"grad_norm": 4.022205829620361,
"learning_rate": 1.462344827586207e-06,
"loss": 0.1257,
"step": 9700
},
{
"epoch": 3.0588,
"grad_norm": 3.567577362060547,
"learning_rate": 1.4609655172413792e-06,
"loss": 0.1509,
"step": 9705
},
{
"epoch": 3.0591333333333335,
"grad_norm": 3.810065746307373,
"learning_rate": 1.4595862068965517e-06,
"loss": 0.0986,
"step": 9710
},
{
"epoch": 3.059466666666667,
"grad_norm": 3.9192984104156494,
"learning_rate": 1.4582068965517241e-06,
"loss": 0.0969,
"step": 9715
},
{
"epoch": 3.0598,
"grad_norm": 4.7874250411987305,
"learning_rate": 1.4568275862068964e-06,
"loss": 0.1261,
"step": 9720
},
{
"epoch": 3.0601333333333334,
"grad_norm": 3.218153715133667,
"learning_rate": 1.455448275862069e-06,
"loss": 0.1053,
"step": 9725
},
{
"epoch": 3.0604666666666667,
"grad_norm": 3.207300901412964,
"learning_rate": 1.4540689655172413e-06,
"loss": 0.1198,
"step": 9730
},
{
"epoch": 3.0608,
"grad_norm": 3.807784080505371,
"learning_rate": 1.4526896551724137e-06,
"loss": 0.099,
"step": 9735
},
{
"epoch": 3.0611333333333333,
"grad_norm": 2.9800631999969482,
"learning_rate": 1.4513103448275862e-06,
"loss": 0.1319,
"step": 9740
},
{
"epoch": 3.0614666666666666,
"grad_norm": 3.1332738399505615,
"learning_rate": 1.4499310344827586e-06,
"loss": 0.12,
"step": 9745
},
{
"epoch": 3.0618,
"grad_norm": 3.5641047954559326,
"learning_rate": 1.448551724137931e-06,
"loss": 0.1227,
"step": 9750
},
{
"epoch": 3.062133333333333,
"grad_norm": 3.4133753776550293,
"learning_rate": 1.4471724137931035e-06,
"loss": 0.1168,
"step": 9755
},
{
"epoch": 3.0624666666666664,
"grad_norm": 3.5068392753601074,
"learning_rate": 1.4457931034482757e-06,
"loss": 0.1518,
"step": 9760
},
{
"epoch": 3.0628,
"grad_norm": 2.3612239360809326,
"learning_rate": 1.4444137931034482e-06,
"loss": 0.0918,
"step": 9765
},
{
"epoch": 3.0631333333333335,
"grad_norm": 4.133335590362549,
"learning_rate": 1.4430344827586206e-06,
"loss": 0.1128,
"step": 9770
},
{
"epoch": 3.063466666666667,
"grad_norm": 3.4736006259918213,
"learning_rate": 1.441655172413793e-06,
"loss": 0.1219,
"step": 9775
},
{
"epoch": 3.0638,
"grad_norm": 3.0375216007232666,
"learning_rate": 1.4402758620689655e-06,
"loss": 0.152,
"step": 9780
},
{
"epoch": 3.0641333333333334,
"grad_norm": 3.7021749019622803,
"learning_rate": 1.4388965517241378e-06,
"loss": 0.1079,
"step": 9785
},
{
"epoch": 3.0644666666666667,
"grad_norm": 3.4906094074249268,
"learning_rate": 1.4375172413793102e-06,
"loss": 0.1222,
"step": 9790
},
{
"epoch": 3.0648,
"grad_norm": 3.8730874061584473,
"learning_rate": 1.4361379310344829e-06,
"loss": 0.1111,
"step": 9795
},
{
"epoch": 3.0651333333333333,
"grad_norm": 4.699617862701416,
"learning_rate": 1.4347586206896551e-06,
"loss": 0.1974,
"step": 9800
},
{
"epoch": 3.0654666666666666,
"grad_norm": 4.562955379486084,
"learning_rate": 1.4333793103448276e-06,
"loss": 0.1446,
"step": 9805
},
{
"epoch": 3.0658,
"grad_norm": 2.8153727054595947,
"learning_rate": 1.4319999999999998e-06,
"loss": 0.0916,
"step": 9810
},
{
"epoch": 3.066133333333333,
"grad_norm": 4.157346725463867,
"learning_rate": 1.4306206896551722e-06,
"loss": 0.1048,
"step": 9815
},
{
"epoch": 3.0664666666666665,
"grad_norm": 3.464782953262329,
"learning_rate": 1.429241379310345e-06,
"loss": 0.1086,
"step": 9820
},
{
"epoch": 3.0668,
"grad_norm": 3.7958030700683594,
"learning_rate": 1.4278620689655171e-06,
"loss": 0.1103,
"step": 9825
},
{
"epoch": 3.0671333333333335,
"grad_norm": 3.587458610534668,
"learning_rate": 1.4264827586206896e-06,
"loss": 0.1302,
"step": 9830
},
{
"epoch": 3.067466666666667,
"grad_norm": 4.161714553833008,
"learning_rate": 1.4251034482758618e-06,
"loss": 0.1429,
"step": 9835
},
{
"epoch": 3.0678,
"grad_norm": 3.2464241981506348,
"learning_rate": 1.4237241379310345e-06,
"loss": 0.1039,
"step": 9840
},
{
"epoch": 3.0681333333333334,
"grad_norm": 3.8423023223876953,
"learning_rate": 1.422344827586207e-06,
"loss": 0.1276,
"step": 9845
},
{
"epoch": 3.0684666666666667,
"grad_norm": 4.572516441345215,
"learning_rate": 1.4209655172413792e-06,
"loss": 0.108,
"step": 9850
},
{
"epoch": 3.0688,
"grad_norm": 2.6932926177978516,
"learning_rate": 1.4195862068965516e-06,
"loss": 0.1196,
"step": 9855
},
{
"epoch": 3.0691333333333333,
"grad_norm": 3.200352668762207,
"learning_rate": 1.418206896551724e-06,
"loss": 0.1391,
"step": 9860
},
{
"epoch": 3.0694666666666666,
"grad_norm": 3.707923412322998,
"learning_rate": 1.4168275862068965e-06,
"loss": 0.1172,
"step": 9865
},
{
"epoch": 3.0698,
"grad_norm": 3.586658239364624,
"learning_rate": 1.415448275862069e-06,
"loss": 0.1073,
"step": 9870
},
{
"epoch": 3.070133333333333,
"grad_norm": 3.9943246841430664,
"learning_rate": 1.4140689655172412e-06,
"loss": 0.1422,
"step": 9875
},
{
"epoch": 3.0704666666666665,
"grad_norm": 4.525385856628418,
"learning_rate": 1.4126896551724137e-06,
"loss": 0.1369,
"step": 9880
},
{
"epoch": 3.0708,
"grad_norm": 4.468423366546631,
"learning_rate": 1.4113103448275861e-06,
"loss": 0.116,
"step": 9885
},
{
"epoch": 3.0711333333333335,
"grad_norm": 3.3256771564483643,
"learning_rate": 1.4099310344827586e-06,
"loss": 0.0963,
"step": 9890
},
{
"epoch": 3.071466666666667,
"grad_norm": 4.154018878936768,
"learning_rate": 1.408551724137931e-06,
"loss": 0.1406,
"step": 9895
},
{
"epoch": 3.0718,
"grad_norm": 3.431687355041504,
"learning_rate": 1.4071724137931035e-06,
"loss": 0.1075,
"step": 9900
},
{
"epoch": 3.0721333333333334,
"grad_norm": 3.103231430053711,
"learning_rate": 1.4057931034482757e-06,
"loss": 0.1221,
"step": 9905
},
{
"epoch": 3.0724666666666667,
"grad_norm": 4.421375274658203,
"learning_rate": 1.4044137931034484e-06,
"loss": 0.1375,
"step": 9910
},
{
"epoch": 3.0728,
"grad_norm": 4.023528099060059,
"learning_rate": 1.4030344827586206e-06,
"loss": 0.1186,
"step": 9915
},
{
"epoch": 3.0731333333333333,
"grad_norm": 4.148938179016113,
"learning_rate": 1.401655172413793e-06,
"loss": 0.1501,
"step": 9920
},
{
"epoch": 3.0734666666666666,
"grad_norm": 3.775146961212158,
"learning_rate": 1.4002758620689655e-06,
"loss": 0.1143,
"step": 9925
},
{
"epoch": 3.0738,
"grad_norm": 4.040100574493408,
"learning_rate": 1.3988965517241377e-06,
"loss": 0.1075,
"step": 9930
},
{
"epoch": 3.074133333333333,
"grad_norm": 3.866244077682495,
"learning_rate": 1.3975172413793104e-06,
"loss": 0.1283,
"step": 9935
},
{
"epoch": 3.0744666666666665,
"grad_norm": 4.490005016326904,
"learning_rate": 1.3961379310344828e-06,
"loss": 0.1203,
"step": 9940
},
{
"epoch": 3.0748,
"grad_norm": 4.239720344543457,
"learning_rate": 1.394758620689655e-06,
"loss": 0.1289,
"step": 9945
},
{
"epoch": 3.0751333333333335,
"grad_norm": 4.578120231628418,
"learning_rate": 1.3933793103448275e-06,
"loss": 0.1052,
"step": 9950
},
{
"epoch": 3.075466666666667,
"grad_norm": 4.03363561630249,
"learning_rate": 1.3919999999999998e-06,
"loss": 0.1028,
"step": 9955
},
{
"epoch": 3.0758,
"grad_norm": 3.7015795707702637,
"learning_rate": 1.3906206896551724e-06,
"loss": 0.1433,
"step": 9960
},
{
"epoch": 3.0761333333333334,
"grad_norm": 4.1098175048828125,
"learning_rate": 1.3892413793103449e-06,
"loss": 0.1442,
"step": 9965
},
{
"epoch": 3.0764666666666667,
"grad_norm": 4.897979736328125,
"learning_rate": 1.387862068965517e-06,
"loss": 0.1361,
"step": 9970
},
{
"epoch": 3.0768,
"grad_norm": 4.547065734863281,
"learning_rate": 1.3864827586206896e-06,
"loss": 0.1468,
"step": 9975
},
{
"epoch": 3.0771333333333333,
"grad_norm": 2.948629140853882,
"learning_rate": 1.3851034482758618e-06,
"loss": 0.1342,
"step": 9980
},
{
"epoch": 3.0774666666666666,
"grad_norm": 3.9705653190612793,
"learning_rate": 1.3837241379310345e-06,
"loss": 0.1195,
"step": 9985
},
{
"epoch": 3.0778,
"grad_norm": 5.227104187011719,
"learning_rate": 1.382344827586207e-06,
"loss": 0.1707,
"step": 9990
},
{
"epoch": 3.078133333333333,
"grad_norm": 4.129624843597412,
"learning_rate": 1.3809655172413791e-06,
"loss": 0.1454,
"step": 9995
},
{
"epoch": 3.0784666666666665,
"grad_norm": 3.8669140338897705,
"learning_rate": 1.3795862068965516e-06,
"loss": 0.1414,
"step": 10000
},
{
"epoch": 3.0784666666666665,
"eval_loss": 0.2151545137166977,
"eval_runtime": 138.0545,
"eval_samples_per_second": 4.346,
"eval_steps_per_second": 1.087,
"eval_wer": 11.13096757722747,
"step": 10000
},
{
"epoch": 3.0788,
"grad_norm": 3.996640682220459,
"learning_rate": 1.3782068965517242e-06,
"loss": 0.1244,
"step": 10005
},
{
"epoch": 3.0791333333333335,
"grad_norm": 3.5360796451568604,
"learning_rate": 1.3768275862068965e-06,
"loss": 0.1091,
"step": 10010
},
{
"epoch": 3.079466666666667,
"grad_norm": 3.8392021656036377,
"learning_rate": 1.375448275862069e-06,
"loss": 0.1368,
"step": 10015
},
{
"epoch": 3.0798,
"grad_norm": 3.7925262451171875,
"learning_rate": 1.3740689655172412e-06,
"loss": 0.1524,
"step": 10020
},
{
"epoch": 3.0801333333333334,
"grad_norm": 4.564311504364014,
"learning_rate": 1.3726896551724136e-06,
"loss": 0.1555,
"step": 10025
},
{
"epoch": 3.0804666666666667,
"grad_norm": 3.548948287963867,
"learning_rate": 1.3713103448275863e-06,
"loss": 0.1373,
"step": 10030
},
{
"epoch": 3.0808,
"grad_norm": 3.7858855724334717,
"learning_rate": 1.3699310344827585e-06,
"loss": 0.1649,
"step": 10035
},
{
"epoch": 3.0811333333333333,
"grad_norm": 3.785684585571289,
"learning_rate": 1.368551724137931e-06,
"loss": 0.1519,
"step": 10040
},
{
"epoch": 3.0814666666666666,
"grad_norm": 3.667558193206787,
"learning_rate": 1.3671724137931034e-06,
"loss": 0.1295,
"step": 10045
},
{
"epoch": 3.0818,
"grad_norm": 3.5948028564453125,
"learning_rate": 1.3657931034482757e-06,
"loss": 0.1146,
"step": 10050
},
{
"epoch": 3.082133333333333,
"grad_norm": 3.646559000015259,
"learning_rate": 1.3644137931034483e-06,
"loss": 0.1156,
"step": 10055
},
{
"epoch": 3.0824666666666665,
"grad_norm": 3.977006673812866,
"learning_rate": 1.3630344827586206e-06,
"loss": 0.1703,
"step": 10060
},
{
"epoch": 3.0828,
"grad_norm": 3.335867166519165,
"learning_rate": 1.361655172413793e-06,
"loss": 0.1446,
"step": 10065
},
{
"epoch": 3.0831333333333335,
"grad_norm": 3.488189935684204,
"learning_rate": 1.3602758620689654e-06,
"loss": 0.1302,
"step": 10070
},
{
"epoch": 3.083466666666667,
"grad_norm": 4.849493980407715,
"learning_rate": 1.358896551724138e-06,
"loss": 0.1243,
"step": 10075
},
{
"epoch": 3.0838,
"grad_norm": 4.077585220336914,
"learning_rate": 1.3575172413793103e-06,
"loss": 0.0981,
"step": 10080
},
{
"epoch": 3.0841333333333334,
"grad_norm": 2.933472156524658,
"learning_rate": 1.3561379310344828e-06,
"loss": 0.1095,
"step": 10085
},
{
"epoch": 3.0844666666666667,
"grad_norm": 2.764552593231201,
"learning_rate": 1.354758620689655e-06,
"loss": 0.0996,
"step": 10090
},
{
"epoch": 3.0848,
"grad_norm": 3.538461446762085,
"learning_rate": 1.3533793103448275e-06,
"loss": 0.1857,
"step": 10095
},
{
"epoch": 3.0851333333333333,
"grad_norm": 5.365030288696289,
"learning_rate": 1.352e-06,
"loss": 0.1223,
"step": 10100
},
{
"epoch": 3.0854666666666666,
"grad_norm": 4.125615119934082,
"learning_rate": 1.3506206896551724e-06,
"loss": 0.1064,
"step": 10105
},
{
"epoch": 3.0858,
"grad_norm": 3.770752191543579,
"learning_rate": 1.3492413793103448e-06,
"loss": 0.2049,
"step": 10110
},
{
"epoch": 3.086133333333333,
"grad_norm": 5.2621941566467285,
"learning_rate": 1.347862068965517e-06,
"loss": 0.1523,
"step": 10115
},
{
"epoch": 3.0864666666666665,
"grad_norm": 3.5793795585632324,
"learning_rate": 1.3464827586206895e-06,
"loss": 0.1531,
"step": 10120
},
{
"epoch": 3.0868,
"grad_norm": 3.9691388607025146,
"learning_rate": 1.3451034482758622e-06,
"loss": 0.1256,
"step": 10125
},
{
"epoch": 3.0871333333333335,
"grad_norm": 3.4311025142669678,
"learning_rate": 1.3437241379310344e-06,
"loss": 0.1523,
"step": 10130
},
{
"epoch": 3.087466666666667,
"grad_norm": 4.1608357429504395,
"learning_rate": 1.3423448275862069e-06,
"loss": 0.1418,
"step": 10135
},
{
"epoch": 3.0878,
"grad_norm": 3.0559632778167725,
"learning_rate": 1.340965517241379e-06,
"loss": 0.1115,
"step": 10140
},
{
"epoch": 3.0881333333333334,
"grad_norm": 3.1799354553222656,
"learning_rate": 1.3395862068965518e-06,
"loss": 0.1321,
"step": 10145
},
{
"epoch": 3.0884666666666667,
"grad_norm": 3.6046626567840576,
"learning_rate": 1.3382068965517242e-06,
"loss": 0.1141,
"step": 10150
},
{
"epoch": 3.0888,
"grad_norm": 3.940310001373291,
"learning_rate": 1.3368275862068964e-06,
"loss": 0.1486,
"step": 10155
},
{
"epoch": 3.0891333333333333,
"grad_norm": 3.5510153770446777,
"learning_rate": 1.3354482758620689e-06,
"loss": 0.1421,
"step": 10160
},
{
"epoch": 3.0894666666666666,
"grad_norm": 4.632082462310791,
"learning_rate": 1.3340689655172413e-06,
"loss": 0.1127,
"step": 10165
},
{
"epoch": 3.0898,
"grad_norm": 3.9303252696990967,
"learning_rate": 1.3326896551724138e-06,
"loss": 0.1563,
"step": 10170
},
{
"epoch": 3.090133333333333,
"grad_norm": 5.55647087097168,
"learning_rate": 1.3313103448275862e-06,
"loss": 0.1894,
"step": 10175
},
{
"epoch": 3.0904666666666665,
"grad_norm": 2.744114875793457,
"learning_rate": 1.3299310344827585e-06,
"loss": 0.1167,
"step": 10180
},
{
"epoch": 3.0908,
"grad_norm": 3.892972946166992,
"learning_rate": 1.328551724137931e-06,
"loss": 0.1274,
"step": 10185
},
{
"epoch": 3.0911333333333335,
"grad_norm": 4.232187747955322,
"learning_rate": 1.3271724137931034e-06,
"loss": 0.1127,
"step": 10190
},
{
"epoch": 3.091466666666667,
"grad_norm": 3.388176918029785,
"learning_rate": 1.3257931034482758e-06,
"loss": 0.1348,
"step": 10195
},
{
"epoch": 3.0918,
"grad_norm": 2.967561721801758,
"learning_rate": 1.3244137931034483e-06,
"loss": 0.1101,
"step": 10200
},
{
"epoch": 3.0921333333333334,
"grad_norm": 3.6141135692596436,
"learning_rate": 1.3230344827586207e-06,
"loss": 0.1058,
"step": 10205
},
{
"epoch": 3.0924666666666667,
"grad_norm": 3.638741970062256,
"learning_rate": 1.321655172413793e-06,
"loss": 0.1462,
"step": 10210
},
{
"epoch": 3.0928,
"grad_norm": 4.456836223602295,
"learning_rate": 1.3202758620689654e-06,
"loss": 0.1824,
"step": 10215
},
{
"epoch": 3.0931333333333333,
"grad_norm": 3.9638330936431885,
"learning_rate": 1.3188965517241379e-06,
"loss": 0.1411,
"step": 10220
},
{
"epoch": 3.0934666666666666,
"grad_norm": 4.482806205749512,
"learning_rate": 1.3175172413793103e-06,
"loss": 0.222,
"step": 10225
},
{
"epoch": 3.0938,
"grad_norm": 4.472507476806641,
"learning_rate": 1.3161379310344828e-06,
"loss": 0.0975,
"step": 10230
},
{
"epoch": 3.094133333333333,
"grad_norm": 3.6130850315093994,
"learning_rate": 1.314758620689655e-06,
"loss": 0.1294,
"step": 10235
},
{
"epoch": 3.0944666666666665,
"grad_norm": 3.7916407585144043,
"learning_rate": 1.3133793103448277e-06,
"loss": 0.096,
"step": 10240
},
{
"epoch": 3.0948,
"grad_norm": 4.743300914764404,
"learning_rate": 1.312e-06,
"loss": 0.1876,
"step": 10245
},
{
"epoch": 3.0951333333333335,
"grad_norm": 3.6078076362609863,
"learning_rate": 1.3106206896551723e-06,
"loss": 0.108,
"step": 10250
},
{
"epoch": 3.095466666666667,
"grad_norm": 3.596766471862793,
"learning_rate": 1.3092413793103448e-06,
"loss": 0.1414,
"step": 10255
},
{
"epoch": 3.0958,
"grad_norm": 3.1616384983062744,
"learning_rate": 1.307862068965517e-06,
"loss": 0.0936,
"step": 10260
},
{
"epoch": 3.0961333333333334,
"grad_norm": 2.6668713092803955,
"learning_rate": 1.3064827586206897e-06,
"loss": 0.1349,
"step": 10265
},
{
"epoch": 3.0964666666666667,
"grad_norm": 3.2159035205841064,
"learning_rate": 1.3051034482758621e-06,
"loss": 0.1007,
"step": 10270
},
{
"epoch": 3.0968,
"grad_norm": 3.23105525970459,
"learning_rate": 1.3037241379310344e-06,
"loss": 0.1123,
"step": 10275
},
{
"epoch": 3.0971333333333333,
"grad_norm": 3.9854116439819336,
"learning_rate": 1.3023448275862068e-06,
"loss": 0.1032,
"step": 10280
},
{
"epoch": 3.0974666666666666,
"grad_norm": 3.63157320022583,
"learning_rate": 1.300965517241379e-06,
"loss": 0.1155,
"step": 10285
},
{
"epoch": 3.0978,
"grad_norm": 3.9124128818511963,
"learning_rate": 1.2995862068965517e-06,
"loss": 0.0991,
"step": 10290
},
{
"epoch": 3.098133333333333,
"grad_norm": 4.035768985748291,
"learning_rate": 1.2982068965517242e-06,
"loss": 0.1395,
"step": 10295
},
{
"epoch": 3.0984666666666665,
"grad_norm": 3.3441524505615234,
"learning_rate": 1.2968275862068964e-06,
"loss": 0.1338,
"step": 10300
},
{
"epoch": 3.0987999999999998,
"grad_norm": 3.586026906967163,
"learning_rate": 1.2954482758620689e-06,
"loss": 0.1139,
"step": 10305
},
{
"epoch": 3.0991333333333335,
"grad_norm": 3.015698194503784,
"learning_rate": 1.2940689655172415e-06,
"loss": 0.0962,
"step": 10310
},
{
"epoch": 3.099466666666667,
"grad_norm": 3.7036643028259277,
"learning_rate": 1.2926896551724138e-06,
"loss": 0.1113,
"step": 10315
},
{
"epoch": 3.0998,
"grad_norm": 3.6607093811035156,
"learning_rate": 1.2913103448275862e-06,
"loss": 0.1385,
"step": 10320
},
{
"epoch": 3.1001333333333334,
"grad_norm": 3.6044538021087646,
"learning_rate": 1.2899310344827584e-06,
"loss": 0.1105,
"step": 10325
},
{
"epoch": 3.1004666666666667,
"grad_norm": 3.68890643119812,
"learning_rate": 1.2885517241379309e-06,
"loss": 0.1298,
"step": 10330
},
{
"epoch": 3.1008,
"grad_norm": 3.2712888717651367,
"learning_rate": 1.2871724137931035e-06,
"loss": 0.1523,
"step": 10335
},
{
"epoch": 3.1011333333333333,
"grad_norm": 3.4765255451202393,
"learning_rate": 1.2857931034482758e-06,
"loss": 0.1165,
"step": 10340
},
{
"epoch": 3.1014666666666666,
"grad_norm": 3.53548002243042,
"learning_rate": 1.2844137931034482e-06,
"loss": 0.1367,
"step": 10345
},
{
"epoch": 3.1018,
"grad_norm": 3.6743979454040527,
"learning_rate": 1.2830344827586207e-06,
"loss": 0.1195,
"step": 10350
},
{
"epoch": 3.102133333333333,
"grad_norm": 2.819240093231201,
"learning_rate": 1.281655172413793e-06,
"loss": 0.1036,
"step": 10355
},
{
"epoch": 3.1024666666666665,
"grad_norm": 4.219951629638672,
"learning_rate": 1.2802758620689656e-06,
"loss": 0.1354,
"step": 10360
},
{
"epoch": 3.1028000000000002,
"grad_norm": 4.273504257202148,
"learning_rate": 1.2788965517241378e-06,
"loss": 0.0997,
"step": 10365
},
{
"epoch": 3.1031333333333335,
"grad_norm": 4.44210958480835,
"learning_rate": 1.2775172413793103e-06,
"loss": 0.1233,
"step": 10370
},
{
"epoch": 3.103466666666667,
"grad_norm": 3.8101072311401367,
"learning_rate": 1.2761379310344827e-06,
"loss": 0.1222,
"step": 10375
},
{
"epoch": 3.1038,
"grad_norm": 3.7589430809020996,
"learning_rate": 1.274758620689655e-06,
"loss": 0.1143,
"step": 10380
},
{
"epoch": 3.1041333333333334,
"grad_norm": 3.1892545223236084,
"learning_rate": 1.2733793103448276e-06,
"loss": 0.0986,
"step": 10385
},
{
"epoch": 3.1044666666666667,
"grad_norm": 3.034914970397949,
"learning_rate": 1.272e-06,
"loss": 0.142,
"step": 10390
},
{
"epoch": 3.1048,
"grad_norm": 3.335789203643799,
"learning_rate": 1.2706206896551723e-06,
"loss": 0.0852,
"step": 10395
},
{
"epoch": 3.1051333333333333,
"grad_norm": 3.760930299758911,
"learning_rate": 1.2692413793103447e-06,
"loss": 0.1321,
"step": 10400
},
{
"epoch": 3.1054666666666666,
"grad_norm": 3.2370388507843018,
"learning_rate": 1.2678620689655172e-06,
"loss": 0.0938,
"step": 10405
},
{
"epoch": 3.1058,
"grad_norm": 5.059003829956055,
"learning_rate": 1.2664827586206896e-06,
"loss": 0.1234,
"step": 10410
},
{
"epoch": 3.106133333333333,
"grad_norm": 3.7076058387756348,
"learning_rate": 1.265103448275862e-06,
"loss": 0.1214,
"step": 10415
},
{
"epoch": 3.1064666666666665,
"grad_norm": 3.9566967487335205,
"learning_rate": 1.2637241379310343e-06,
"loss": 0.1239,
"step": 10420
},
{
"epoch": 3.1068,
"grad_norm": 2.865980625152588,
"learning_rate": 1.2623448275862068e-06,
"loss": 0.1327,
"step": 10425
},
{
"epoch": 3.1071333333333335,
"grad_norm": 3.8682289123535156,
"learning_rate": 1.2609655172413794e-06,
"loss": 0.1209,
"step": 10430
},
{
"epoch": 3.107466666666667,
"grad_norm": 4.29340934753418,
"learning_rate": 1.2595862068965517e-06,
"loss": 0.1321,
"step": 10435
},
{
"epoch": 3.1078,
"grad_norm": 4.072025299072266,
"learning_rate": 1.2582068965517241e-06,
"loss": 0.1362,
"step": 10440
},
{
"epoch": 3.1081333333333334,
"grad_norm": 3.630307912826538,
"learning_rate": 1.2568275862068964e-06,
"loss": 0.1296,
"step": 10445
},
{
"epoch": 3.1084666666666667,
"grad_norm": 3.4611058235168457,
"learning_rate": 1.2554482758620688e-06,
"loss": 0.1135,
"step": 10450
},
{
"epoch": 3.1088,
"grad_norm": 4.336033344268799,
"learning_rate": 1.2540689655172415e-06,
"loss": 0.14,
"step": 10455
},
{
"epoch": 3.1091333333333333,
"grad_norm": 4.57904052734375,
"learning_rate": 1.2526896551724137e-06,
"loss": 0.152,
"step": 10460
},
{
"epoch": 3.1094666666666666,
"grad_norm": 3.789177656173706,
"learning_rate": 1.2513103448275862e-06,
"loss": 0.1435,
"step": 10465
},
{
"epoch": 3.1098,
"grad_norm": 3.5479393005371094,
"learning_rate": 1.2499310344827584e-06,
"loss": 0.143,
"step": 10470
},
{
"epoch": 3.110133333333333,
"grad_norm": 4.554353713989258,
"learning_rate": 1.248551724137931e-06,
"loss": 0.1122,
"step": 10475
},
{
"epoch": 3.1104666666666665,
"grad_norm": 3.6915698051452637,
"learning_rate": 1.2471724137931035e-06,
"loss": 0.1078,
"step": 10480
},
{
"epoch": 3.1108,
"grad_norm": 4.116068363189697,
"learning_rate": 1.2457931034482757e-06,
"loss": 0.1518,
"step": 10485
},
{
"epoch": 3.1111333333333335,
"grad_norm": 3.5479066371917725,
"learning_rate": 1.2444137931034482e-06,
"loss": 0.115,
"step": 10490
},
{
"epoch": 3.111466666666667,
"grad_norm": 4.481450080871582,
"learning_rate": 1.2430344827586206e-06,
"loss": 0.1133,
"step": 10495
},
{
"epoch": 3.1118,
"grad_norm": 3.2450110912323,
"learning_rate": 1.241655172413793e-06,
"loss": 0.1045,
"step": 10500
},
{
"epoch": 3.1121333333333334,
"grad_norm": 3.4612340927124023,
"learning_rate": 1.2402758620689655e-06,
"loss": 0.1025,
"step": 10505
},
{
"epoch": 3.1124666666666667,
"grad_norm": 3.703700542449951,
"learning_rate": 1.2388965517241378e-06,
"loss": 0.095,
"step": 10510
},
{
"epoch": 3.1128,
"grad_norm": 3.065117359161377,
"learning_rate": 1.2375172413793102e-06,
"loss": 0.1132,
"step": 10515
},
{
"epoch": 3.1131333333333333,
"grad_norm": 5.1802873611450195,
"learning_rate": 1.2361379310344827e-06,
"loss": 0.1623,
"step": 10520
},
{
"epoch": 3.1134666666666666,
"grad_norm": 4.305116176605225,
"learning_rate": 1.2347586206896551e-06,
"loss": 0.112,
"step": 10525
},
{
"epoch": 3.1138,
"grad_norm": 2.9388232231140137,
"learning_rate": 1.2333793103448276e-06,
"loss": 0.0993,
"step": 10530
},
{
"epoch": 3.114133333333333,
"grad_norm": 5.201348781585693,
"learning_rate": 1.232e-06,
"loss": 0.1392,
"step": 10535
},
{
"epoch": 3.1144666666666665,
"grad_norm": 4.728110313415527,
"learning_rate": 1.2306206896551723e-06,
"loss": 0.1397,
"step": 10540
},
{
"epoch": 3.1148,
"grad_norm": 4.256076812744141,
"learning_rate": 1.2292413793103447e-06,
"loss": 0.1437,
"step": 10545
},
{
"epoch": 3.1151333333333335,
"grad_norm": 4.218815326690674,
"learning_rate": 1.2278620689655172e-06,
"loss": 0.0905,
"step": 10550
},
{
"epoch": 3.115466666666667,
"grad_norm": 4.170873165130615,
"learning_rate": 1.2264827586206896e-06,
"loss": 0.1218,
"step": 10555
},
{
"epoch": 3.1158,
"grad_norm": 4.890690326690674,
"learning_rate": 1.225103448275862e-06,
"loss": 0.1518,
"step": 10560
},
{
"epoch": 3.1161333333333334,
"grad_norm": 4.365133762359619,
"learning_rate": 1.2237241379310343e-06,
"loss": 0.1651,
"step": 10565
},
{
"epoch": 3.1164666666666667,
"grad_norm": 4.976833343505859,
"learning_rate": 1.222344827586207e-06,
"loss": 0.1328,
"step": 10570
},
{
"epoch": 3.1168,
"grad_norm": 4.960318565368652,
"learning_rate": 1.2209655172413794e-06,
"loss": 0.1308,
"step": 10575
},
{
"epoch": 3.1171333333333333,
"grad_norm": 4.8937458992004395,
"learning_rate": 1.2195862068965516e-06,
"loss": 0.1598,
"step": 10580
},
{
"epoch": 3.1174666666666666,
"grad_norm": 3.756993055343628,
"learning_rate": 1.218206896551724e-06,
"loss": 0.1311,
"step": 10585
},
{
"epoch": 3.1178,
"grad_norm": 4.717544078826904,
"learning_rate": 1.2168275862068963e-06,
"loss": 0.1691,
"step": 10590
},
{
"epoch": 3.118133333333333,
"grad_norm": 3.9451236724853516,
"learning_rate": 1.215448275862069e-06,
"loss": 0.1112,
"step": 10595
},
{
"epoch": 3.1184666666666665,
"grad_norm": 3.652914047241211,
"learning_rate": 1.2140689655172414e-06,
"loss": 0.1134,
"step": 10600
},
{
"epoch": 3.1188,
"grad_norm": 3.0365517139434814,
"learning_rate": 1.2126896551724137e-06,
"loss": 0.1298,
"step": 10605
},
{
"epoch": 3.1191333333333335,
"grad_norm": 4.4182233810424805,
"learning_rate": 1.2113103448275861e-06,
"loss": 0.1237,
"step": 10610
},
{
"epoch": 3.119466666666667,
"grad_norm": 3.757007598876953,
"learning_rate": 1.2099310344827584e-06,
"loss": 0.139,
"step": 10615
},
{
"epoch": 3.1198,
"grad_norm": 3.7715535163879395,
"learning_rate": 1.208551724137931e-06,
"loss": 0.1322,
"step": 10620
},
{
"epoch": 3.1201333333333334,
"grad_norm": 3.6792795658111572,
"learning_rate": 1.2071724137931035e-06,
"loss": 0.142,
"step": 10625
},
{
"epoch": 3.1204666666666667,
"grad_norm": 3.7322895526885986,
"learning_rate": 1.2057931034482757e-06,
"loss": 0.1142,
"step": 10630
},
{
"epoch": 3.1208,
"grad_norm": 4.074817657470703,
"learning_rate": 1.2044137931034482e-06,
"loss": 0.116,
"step": 10635
},
{
"epoch": 3.1211333333333333,
"grad_norm": 3.159771203994751,
"learning_rate": 1.2030344827586208e-06,
"loss": 0.1085,
"step": 10640
},
{
"epoch": 3.1214666666666666,
"grad_norm": 3.867138624191284,
"learning_rate": 1.201655172413793e-06,
"loss": 0.1229,
"step": 10645
},
{
"epoch": 3.1218,
"grad_norm": 4.077703475952148,
"learning_rate": 1.2002758620689655e-06,
"loss": 0.1515,
"step": 10650
},
{
"epoch": 3.122133333333333,
"grad_norm": 4.26039981842041,
"learning_rate": 1.1988965517241377e-06,
"loss": 0.1483,
"step": 10655
},
{
"epoch": 3.1224666666666665,
"grad_norm": 3.6894726753234863,
"learning_rate": 1.1975172413793102e-06,
"loss": 0.1298,
"step": 10660
},
{
"epoch": 3.1228,
"grad_norm": 4.0900468826293945,
"learning_rate": 1.1961379310344828e-06,
"loss": 0.1048,
"step": 10665
},
{
"epoch": 3.1231333333333335,
"grad_norm": 3.9871182441711426,
"learning_rate": 1.194758620689655e-06,
"loss": 0.0932,
"step": 10670
},
{
"epoch": 3.123466666666667,
"grad_norm": 3.4371209144592285,
"learning_rate": 1.1933793103448275e-06,
"loss": 0.1051,
"step": 10675
},
{
"epoch": 3.1238,
"grad_norm": 3.3936007022857666,
"learning_rate": 1.192e-06,
"loss": 0.1276,
"step": 10680
},
{
"epoch": 3.1241333333333334,
"grad_norm": 3.814096450805664,
"learning_rate": 1.1906206896551722e-06,
"loss": 0.1292,
"step": 10685
},
{
"epoch": 3.1244666666666667,
"grad_norm": 4.335970401763916,
"learning_rate": 1.1892413793103449e-06,
"loss": 0.1456,
"step": 10690
},
{
"epoch": 3.1248,
"grad_norm": 4.3228983879089355,
"learning_rate": 1.1878620689655171e-06,
"loss": 0.119,
"step": 10695
},
{
"epoch": 3.1251333333333333,
"grad_norm": 3.2616641521453857,
"learning_rate": 1.1864827586206896e-06,
"loss": 0.1151,
"step": 10700
},
{
"epoch": 3.1254666666666666,
"grad_norm": 3.7150323390960693,
"learning_rate": 1.185103448275862e-06,
"loss": 0.1581,
"step": 10705
},
{
"epoch": 3.1258,
"grad_norm": 3.531252145767212,
"learning_rate": 1.1837241379310345e-06,
"loss": 0.1257,
"step": 10710
},
{
"epoch": 3.126133333333333,
"grad_norm": 3.1670119762420654,
"learning_rate": 1.182344827586207e-06,
"loss": 0.0836,
"step": 10715
},
{
"epoch": 3.1264666666666665,
"grad_norm": 3.3919363021850586,
"learning_rate": 1.1809655172413794e-06,
"loss": 0.1031,
"step": 10720
},
{
"epoch": 3.1268,
"grad_norm": 4.267131328582764,
"learning_rate": 1.1795862068965516e-06,
"loss": 0.1409,
"step": 10725
},
{
"epoch": 3.127133333333333,
"grad_norm": 3.664895534515381,
"learning_rate": 1.178206896551724e-06,
"loss": 0.1271,
"step": 10730
},
{
"epoch": 3.127466666666667,
"grad_norm": 5.976982593536377,
"learning_rate": 1.1768275862068965e-06,
"loss": 0.1818,
"step": 10735
},
{
"epoch": 3.1278,
"grad_norm": 3.8469417095184326,
"learning_rate": 1.175448275862069e-06,
"loss": 0.1317,
"step": 10740
},
{
"epoch": 3.1281333333333334,
"grad_norm": 3.3952291011810303,
"learning_rate": 1.1740689655172414e-06,
"loss": 0.1239,
"step": 10745
},
{
"epoch": 3.1284666666666667,
"grad_norm": 3.541522264480591,
"learning_rate": 1.1726896551724136e-06,
"loss": 0.1153,
"step": 10750
},
{
"epoch": 3.1288,
"grad_norm": 3.9640679359436035,
"learning_rate": 1.171310344827586e-06,
"loss": 0.1311,
"step": 10755
},
{
"epoch": 3.1291333333333333,
"grad_norm": 3.732511520385742,
"learning_rate": 1.1699310344827587e-06,
"loss": 0.0935,
"step": 10760
},
{
"epoch": 3.1294666666666666,
"grad_norm": 3.3035073280334473,
"learning_rate": 1.168551724137931e-06,
"loss": 0.099,
"step": 10765
},
{
"epoch": 3.1298,
"grad_norm": 4.173254489898682,
"learning_rate": 1.1671724137931034e-06,
"loss": 0.1226,
"step": 10770
},
{
"epoch": 3.130133333333333,
"grad_norm": 4.59857177734375,
"learning_rate": 1.1657931034482757e-06,
"loss": 0.1011,
"step": 10775
},
{
"epoch": 3.1304666666666665,
"grad_norm": 4.927716255187988,
"learning_rate": 1.1644137931034481e-06,
"loss": 0.1772,
"step": 10780
},
{
"epoch": 3.1308,
"grad_norm": 3.51751708984375,
"learning_rate": 1.1630344827586208e-06,
"loss": 0.111,
"step": 10785
},
{
"epoch": 3.1311333333333335,
"grad_norm": 2.9985132217407227,
"learning_rate": 1.161655172413793e-06,
"loss": 0.1153,
"step": 10790
},
{
"epoch": 3.131466666666667,
"grad_norm": 3.6003358364105225,
"learning_rate": 1.1602758620689655e-06,
"loss": 0.1219,
"step": 10795
},
{
"epoch": 3.1318,
"grad_norm": 3.485626459121704,
"learning_rate": 1.158896551724138e-06,
"loss": 0.0861,
"step": 10800
},
{
"epoch": 3.1321333333333334,
"grad_norm": 4.250816822052002,
"learning_rate": 1.1575172413793104e-06,
"loss": 0.1324,
"step": 10805
},
{
"epoch": 3.1324666666666667,
"grad_norm": 3.031370162963867,
"learning_rate": 1.1561379310344828e-06,
"loss": 0.1007,
"step": 10810
},
{
"epoch": 3.1328,
"grad_norm": 5.077173709869385,
"learning_rate": 1.154758620689655e-06,
"loss": 0.1367,
"step": 10815
},
{
"epoch": 3.1331333333333333,
"grad_norm": 3.9092049598693848,
"learning_rate": 1.1533793103448275e-06,
"loss": 0.1295,
"step": 10820
},
{
"epoch": 3.1334666666666666,
"grad_norm": 4.2345356941223145,
"learning_rate": 1.152e-06,
"loss": 0.1438,
"step": 10825
},
{
"epoch": 3.1338,
"grad_norm": 3.644237995147705,
"learning_rate": 1.1506206896551724e-06,
"loss": 0.1134,
"step": 10830
},
{
"epoch": 3.134133333333333,
"grad_norm": 3.2955996990203857,
"learning_rate": 1.1492413793103448e-06,
"loss": 0.1194,
"step": 10835
},
{
"epoch": 3.1344666666666665,
"grad_norm": 4.0510478019714355,
"learning_rate": 1.1478620689655173e-06,
"loss": 0.1185,
"step": 10840
},
{
"epoch": 3.1348,
"grad_norm": 3.5826263427734375,
"learning_rate": 1.1464827586206895e-06,
"loss": 0.1407,
"step": 10845
},
{
"epoch": 3.135133333333333,
"grad_norm": 4.386380195617676,
"learning_rate": 1.145103448275862e-06,
"loss": 0.108,
"step": 10850
},
{
"epoch": 3.135466666666667,
"grad_norm": 3.0576095581054688,
"learning_rate": 1.1437241379310344e-06,
"loss": 0.137,
"step": 10855
},
{
"epoch": 3.1358,
"grad_norm": 3.588376522064209,
"learning_rate": 1.1423448275862069e-06,
"loss": 0.1139,
"step": 10860
},
{
"epoch": 3.1361333333333334,
"grad_norm": 3.2220280170440674,
"learning_rate": 1.1409655172413793e-06,
"loss": 0.1446,
"step": 10865
},
{
"epoch": 3.1364666666666667,
"grad_norm": 3.884505271911621,
"learning_rate": 1.1395862068965516e-06,
"loss": 0.1083,
"step": 10870
},
{
"epoch": 3.1368,
"grad_norm": 3.9818637371063232,
"learning_rate": 1.1382068965517242e-06,
"loss": 0.1024,
"step": 10875
},
{
"epoch": 3.1371333333333333,
"grad_norm": 4.275274753570557,
"learning_rate": 1.1368275862068967e-06,
"loss": 0.1416,
"step": 10880
},
{
"epoch": 3.1374666666666666,
"grad_norm": 3.1379175186157227,
"learning_rate": 1.135448275862069e-06,
"loss": 0.0991,
"step": 10885
},
{
"epoch": 3.1378,
"grad_norm": 4.130918502807617,
"learning_rate": 1.1340689655172414e-06,
"loss": 0.1231,
"step": 10890
},
{
"epoch": 3.138133333333333,
"grad_norm": 3.362971544265747,
"learning_rate": 1.1326896551724136e-06,
"loss": 0.1064,
"step": 10895
},
{
"epoch": 3.1384666666666665,
"grad_norm": 3.992236852645874,
"learning_rate": 1.1313103448275862e-06,
"loss": 0.0944,
"step": 10900
},
{
"epoch": 3.1388,
"grad_norm": 4.799851417541504,
"learning_rate": 1.1299310344827587e-06,
"loss": 0.1704,
"step": 10905
},
{
"epoch": 3.1391333333333336,
"grad_norm": 3.7183337211608887,
"learning_rate": 1.128551724137931e-06,
"loss": 0.1318,
"step": 10910
},
{
"epoch": 3.139466666666667,
"grad_norm": 3.4529244899749756,
"learning_rate": 1.1271724137931034e-06,
"loss": 0.1234,
"step": 10915
},
{
"epoch": 3.1398,
"grad_norm": 2.150162935256958,
"learning_rate": 1.1257931034482756e-06,
"loss": 0.0956,
"step": 10920
},
{
"epoch": 3.1401333333333334,
"grad_norm": 2.968789577484131,
"learning_rate": 1.1244137931034483e-06,
"loss": 0.1416,
"step": 10925
},
{
"epoch": 3.1404666666666667,
"grad_norm": 3.5411696434020996,
"learning_rate": 1.1230344827586207e-06,
"loss": 0.1583,
"step": 10930
},
{
"epoch": 3.1408,
"grad_norm": 3.4134440422058105,
"learning_rate": 1.121655172413793e-06,
"loss": 0.0811,
"step": 10935
},
{
"epoch": 3.1411333333333333,
"grad_norm": 3.2367703914642334,
"learning_rate": 1.1202758620689654e-06,
"loss": 0.1033,
"step": 10940
},
{
"epoch": 3.1414666666666666,
"grad_norm": 3.544282913208008,
"learning_rate": 1.1188965517241379e-06,
"loss": 0.1638,
"step": 10945
},
{
"epoch": 3.1418,
"grad_norm": 4.135570049285889,
"learning_rate": 1.1175172413793103e-06,
"loss": 0.0986,
"step": 10950
},
{
"epoch": 3.1421333333333332,
"grad_norm": 3.966614007949829,
"learning_rate": 1.1161379310344828e-06,
"loss": 0.1324,
"step": 10955
},
{
"epoch": 3.1424666666666665,
"grad_norm": 4.45792293548584,
"learning_rate": 1.114758620689655e-06,
"loss": 0.1203,
"step": 10960
},
{
"epoch": 3.1428,
"grad_norm": 3.802588939666748,
"learning_rate": 1.1133793103448274e-06,
"loss": 0.1555,
"step": 10965
},
{
"epoch": 3.143133333333333,
"grad_norm": 4.903188705444336,
"learning_rate": 1.1120000000000001e-06,
"loss": 0.1538,
"step": 10970
},
{
"epoch": 3.143466666666667,
"grad_norm": 3.8604860305786133,
"learning_rate": 1.1106206896551723e-06,
"loss": 0.1404,
"step": 10975
},
{
"epoch": 3.1438,
"grad_norm": 3.5122451782226562,
"learning_rate": 1.1092413793103448e-06,
"loss": 0.1177,
"step": 10980
},
{
"epoch": 3.1441333333333334,
"grad_norm": 3.8989648818969727,
"learning_rate": 1.1078620689655172e-06,
"loss": 0.1128,
"step": 10985
},
{
"epoch": 3.1444666666666667,
"grad_norm": 3.2486085891723633,
"learning_rate": 1.1064827586206895e-06,
"loss": 0.1369,
"step": 10990
},
{
"epoch": 3.1448,
"grad_norm": 4.76756477355957,
"learning_rate": 1.1051034482758621e-06,
"loss": 0.1436,
"step": 10995
},
{
"epoch": 3.1451333333333333,
"grad_norm": 3.242360830307007,
"learning_rate": 1.1037241379310344e-06,
"loss": 0.1105,
"step": 11000
},
{
"epoch": 3.1451333333333333,
"eval_loss": 0.21625454723834991,
"eval_runtime": 139.1217,
"eval_samples_per_second": 4.313,
"eval_steps_per_second": 1.078,
"eval_wer": 11.48838396732193,
"step": 11000
},
{
"epoch": 3.1454666666666666,
"grad_norm": 3.257913827896118,
"learning_rate": 1.1023448275862068e-06,
"loss": 0.1063,
"step": 11005
},
{
"epoch": 3.1458,
"grad_norm": 3.9775197505950928,
"learning_rate": 1.1009655172413793e-06,
"loss": 0.1004,
"step": 11010
},
{
"epoch": 3.1461333333333332,
"grad_norm": 2.74399471282959,
"learning_rate": 1.0995862068965515e-06,
"loss": 0.1133,
"step": 11015
},
{
"epoch": 3.1464666666666665,
"grad_norm": 4.073766708374023,
"learning_rate": 1.0982068965517242e-06,
"loss": 0.1127,
"step": 11020
},
{
"epoch": 3.1468,
"grad_norm": 3.816695213317871,
"learning_rate": 1.0968275862068966e-06,
"loss": 0.1277,
"step": 11025
},
{
"epoch": 3.1471333333333336,
"grad_norm": 4.856080532073975,
"learning_rate": 1.0954482758620689e-06,
"loss": 0.1532,
"step": 11030
},
{
"epoch": 3.147466666666667,
"grad_norm": 3.316800117492676,
"learning_rate": 1.0940689655172413e-06,
"loss": 0.1079,
"step": 11035
},
{
"epoch": 3.1478,
"grad_norm": 3.2388341426849365,
"learning_rate": 1.0926896551724138e-06,
"loss": 0.1399,
"step": 11040
},
{
"epoch": 3.1481333333333335,
"grad_norm": 4.24043083190918,
"learning_rate": 1.0913103448275862e-06,
"loss": 0.129,
"step": 11045
},
{
"epoch": 3.1484666666666667,
"grad_norm": 4.13203239440918,
"learning_rate": 1.0899310344827587e-06,
"loss": 0.1257,
"step": 11050
},
{
"epoch": 3.1488,
"grad_norm": 4.07288122177124,
"learning_rate": 1.088551724137931e-06,
"loss": 0.1082,
"step": 11055
},
{
"epoch": 3.1491333333333333,
"grad_norm": 4.2372145652771,
"learning_rate": 1.0871724137931033e-06,
"loss": 0.1295,
"step": 11060
},
{
"epoch": 3.1494666666666666,
"grad_norm": 3.7961506843566895,
"learning_rate": 1.085793103448276e-06,
"loss": 0.1027,
"step": 11065
},
{
"epoch": 3.1498,
"grad_norm": 4.484466552734375,
"learning_rate": 1.0844137931034482e-06,
"loss": 0.1445,
"step": 11070
},
{
"epoch": 3.1501333333333332,
"grad_norm": 3.1614105701446533,
"learning_rate": 1.0830344827586207e-06,
"loss": 0.1245,
"step": 11075
},
{
"epoch": 3.1504666666666665,
"grad_norm": 4.640326976776123,
"learning_rate": 1.081655172413793e-06,
"loss": 0.1185,
"step": 11080
},
{
"epoch": 3.1508,
"grad_norm": 3.374824285507202,
"learning_rate": 1.0802758620689654e-06,
"loss": 0.1054,
"step": 11085
},
{
"epoch": 3.151133333333333,
"grad_norm": 3.6071701049804688,
"learning_rate": 1.078896551724138e-06,
"loss": 0.0998,
"step": 11090
},
{
"epoch": 3.151466666666667,
"grad_norm": 4.138154029846191,
"learning_rate": 1.0775172413793103e-06,
"loss": 0.126,
"step": 11095
},
{
"epoch": 3.1518,
"grad_norm": 3.0040457248687744,
"learning_rate": 1.0761379310344827e-06,
"loss": 0.092,
"step": 11100
},
{
"epoch": 3.1521333333333335,
"grad_norm": 3.696608543395996,
"learning_rate": 1.074758620689655e-06,
"loss": 0.1423,
"step": 11105
},
{
"epoch": 3.1524666666666668,
"grad_norm": 4.555488109588623,
"learning_rate": 1.0733793103448274e-06,
"loss": 0.1636,
"step": 11110
},
{
"epoch": 3.1528,
"grad_norm": 3.590470314025879,
"learning_rate": 1.072e-06,
"loss": 0.1295,
"step": 11115
},
{
"epoch": 3.1531333333333333,
"grad_norm": 4.454814910888672,
"learning_rate": 1.0706206896551723e-06,
"loss": 0.1218,
"step": 11120
},
{
"epoch": 3.1534666666666666,
"grad_norm": 3.3021135330200195,
"learning_rate": 1.0692413793103448e-06,
"loss": 0.1202,
"step": 11125
},
{
"epoch": 3.1538,
"grad_norm": 4.106543064117432,
"learning_rate": 1.0678620689655172e-06,
"loss": 0.134,
"step": 11130
},
{
"epoch": 3.1541333333333332,
"grad_norm": 3.962252140045166,
"learning_rate": 1.0664827586206897e-06,
"loss": 0.1075,
"step": 11135
},
{
"epoch": 3.1544666666666665,
"grad_norm": 3.1145286560058594,
"learning_rate": 1.065103448275862e-06,
"loss": 0.1391,
"step": 11140
},
{
"epoch": 3.1548,
"grad_norm": 4.332203388214111,
"learning_rate": 1.0637241379310343e-06,
"loss": 0.1272,
"step": 11145
},
{
"epoch": 3.1551333333333336,
"grad_norm": 2.9342081546783447,
"learning_rate": 1.0623448275862068e-06,
"loss": 0.1023,
"step": 11150
},
{
"epoch": 3.155466666666667,
"grad_norm": 3.5210816860198975,
"learning_rate": 1.0609655172413792e-06,
"loss": 0.1945,
"step": 11155
},
{
"epoch": 3.1558,
"grad_norm": 3.0766563415527344,
"learning_rate": 1.0595862068965517e-06,
"loss": 0.0974,
"step": 11160
},
{
"epoch": 3.1561333333333335,
"grad_norm": 3.3893978595733643,
"learning_rate": 1.0582068965517241e-06,
"loss": 0.1445,
"step": 11165
},
{
"epoch": 3.1564666666666668,
"grad_norm": 3.350029706954956,
"learning_rate": 1.0568275862068966e-06,
"loss": 0.0927,
"step": 11170
},
{
"epoch": 3.1568,
"grad_norm": 3.751157283782959,
"learning_rate": 1.0554482758620688e-06,
"loss": 0.123,
"step": 11175
},
{
"epoch": 3.1571333333333333,
"grad_norm": 3.256519317626953,
"learning_rate": 1.0540689655172413e-06,
"loss": 0.1132,
"step": 11180
},
{
"epoch": 3.1574666666666666,
"grad_norm": 2.7681188583374023,
"learning_rate": 1.0526896551724137e-06,
"loss": 0.0957,
"step": 11185
},
{
"epoch": 3.1578,
"grad_norm": 4.9340667724609375,
"learning_rate": 1.0513103448275862e-06,
"loss": 0.1276,
"step": 11190
},
{
"epoch": 3.1581333333333332,
"grad_norm": 3.9707071781158447,
"learning_rate": 1.0499310344827586e-06,
"loss": 0.144,
"step": 11195
},
{
"epoch": 3.1584666666666665,
"grad_norm": 4.298243045806885,
"learning_rate": 1.0485517241379309e-06,
"loss": 0.1734,
"step": 11200
},
{
"epoch": 3.1588,
"grad_norm": 3.9184322357177734,
"learning_rate": 1.0471724137931035e-06,
"loss": 0.094,
"step": 11205
},
{
"epoch": 3.159133333333333,
"grad_norm": 3.741377115249634,
"learning_rate": 1.045793103448276e-06,
"loss": 0.1215,
"step": 11210
},
{
"epoch": 3.159466666666667,
"grad_norm": 4.62982702255249,
"learning_rate": 1.0444137931034482e-06,
"loss": 0.1551,
"step": 11215
},
{
"epoch": 3.1598,
"grad_norm": 3.4716312885284424,
"learning_rate": 1.0430344827586207e-06,
"loss": 0.0976,
"step": 11220
},
{
"epoch": 3.1601333333333335,
"grad_norm": 4.447044849395752,
"learning_rate": 1.0416551724137929e-06,
"loss": 0.0963,
"step": 11225
},
{
"epoch": 3.1604666666666668,
"grad_norm": 3.4925308227539062,
"learning_rate": 1.0402758620689655e-06,
"loss": 0.1303,
"step": 11230
},
{
"epoch": 3.1608,
"grad_norm": 3.4067769050598145,
"learning_rate": 1.038896551724138e-06,
"loss": 0.1699,
"step": 11235
},
{
"epoch": 3.1611333333333334,
"grad_norm": 4.410013198852539,
"learning_rate": 1.0375172413793102e-06,
"loss": 0.1202,
"step": 11240
},
{
"epoch": 3.1614666666666666,
"grad_norm": 2.8956611156463623,
"learning_rate": 1.0361379310344827e-06,
"loss": 0.0989,
"step": 11245
},
{
"epoch": 3.1618,
"grad_norm": 3.65350079536438,
"learning_rate": 1.0347586206896551e-06,
"loss": 0.0842,
"step": 11250
},
{
"epoch": 3.1621333333333332,
"grad_norm": 3.0125489234924316,
"learning_rate": 1.0333793103448276e-06,
"loss": 0.138,
"step": 11255
},
{
"epoch": 3.1624666666666665,
"grad_norm": 4.406427383422852,
"learning_rate": 1.032e-06,
"loss": 0.1272,
"step": 11260
},
{
"epoch": 3.1628,
"grad_norm": 3.2507541179656982,
"learning_rate": 1.0306206896551723e-06,
"loss": 0.1097,
"step": 11265
},
{
"epoch": 3.163133333333333,
"grad_norm": 3.8086438179016113,
"learning_rate": 1.0292413793103447e-06,
"loss": 0.1235,
"step": 11270
},
{
"epoch": 3.163466666666667,
"grad_norm": 3.936859369277954,
"learning_rate": 1.0278620689655174e-06,
"loss": 0.1135,
"step": 11275
},
{
"epoch": 3.1638,
"grad_norm": 4.147543907165527,
"learning_rate": 1.0264827586206896e-06,
"loss": 0.1505,
"step": 11280
},
{
"epoch": 3.1641333333333335,
"grad_norm": 4.5223307609558105,
"learning_rate": 1.025103448275862e-06,
"loss": 0.1218,
"step": 11285
},
{
"epoch": 3.1644666666666668,
"grad_norm": 3.4818384647369385,
"learning_rate": 1.0237241379310343e-06,
"loss": 0.0828,
"step": 11290
},
{
"epoch": 3.1648,
"grad_norm": 2.720883369445801,
"learning_rate": 1.0223448275862067e-06,
"loss": 0.0982,
"step": 11295
},
{
"epoch": 3.1651333333333334,
"grad_norm": 3.4577271938323975,
"learning_rate": 1.0209655172413794e-06,
"loss": 0.1369,
"step": 11300
},
{
"epoch": 3.1654666666666667,
"grad_norm": 3.8356244564056396,
"learning_rate": 1.0195862068965516e-06,
"loss": 0.0941,
"step": 11305
},
{
"epoch": 3.1658,
"grad_norm": 4.9618754386901855,
"learning_rate": 1.018206896551724e-06,
"loss": 0.1244,
"step": 11310
},
{
"epoch": 3.1661333333333332,
"grad_norm": 3.8449361324310303,
"learning_rate": 1.0168275862068965e-06,
"loss": 0.1626,
"step": 11315
},
{
"epoch": 3.1664666666666665,
"grad_norm": 4.0659284591674805,
"learning_rate": 1.0154482758620688e-06,
"loss": 0.1104,
"step": 11320
},
{
"epoch": 3.1668,
"grad_norm": 4.606715679168701,
"learning_rate": 1.0140689655172414e-06,
"loss": 0.1303,
"step": 11325
},
{
"epoch": 3.167133333333333,
"grad_norm": 3.882478952407837,
"learning_rate": 1.0126896551724137e-06,
"loss": 0.1208,
"step": 11330
},
{
"epoch": 3.167466666666667,
"grad_norm": 3.4454171657562256,
"learning_rate": 1.0113103448275861e-06,
"loss": 0.1181,
"step": 11335
},
{
"epoch": 3.1678,
"grad_norm": 3.3926291465759277,
"learning_rate": 1.0099310344827586e-06,
"loss": 0.1234,
"step": 11340
},
{
"epoch": 3.1681333333333335,
"grad_norm": 4.010322570800781,
"learning_rate": 1.0085517241379308e-06,
"loss": 0.1516,
"step": 11345
},
{
"epoch": 3.1684666666666668,
"grad_norm": 4.193769931793213,
"learning_rate": 1.0071724137931035e-06,
"loss": 0.1143,
"step": 11350
},
{
"epoch": 3.1688,
"grad_norm": 3.828843355178833,
"learning_rate": 1.005793103448276e-06,
"loss": 0.1385,
"step": 11355
},
{
"epoch": 3.1691333333333334,
"grad_norm": 3.6923646926879883,
"learning_rate": 1.0044137931034482e-06,
"loss": 0.155,
"step": 11360
},
{
"epoch": 3.1694666666666667,
"grad_norm": 4.8472747802734375,
"learning_rate": 1.0030344827586206e-06,
"loss": 0.1621,
"step": 11365
},
{
"epoch": 3.1698,
"grad_norm": 3.7839255332946777,
"learning_rate": 1.001655172413793e-06,
"loss": 0.1137,
"step": 11370
},
{
"epoch": 3.1701333333333332,
"grad_norm": 3.1415975093841553,
"learning_rate": 1.0002758620689655e-06,
"loss": 0.1233,
"step": 11375
},
{
"epoch": 3.1704666666666665,
"grad_norm": 3.098907709121704,
"learning_rate": 9.98896551724138e-07,
"loss": 0.1355,
"step": 11380
},
{
"epoch": 3.1708,
"grad_norm": 4.023937702178955,
"learning_rate": 9.975172413793102e-07,
"loss": 0.1345,
"step": 11385
},
{
"epoch": 3.171133333333333,
"grad_norm": 3.4900336265563965,
"learning_rate": 9.961379310344826e-07,
"loss": 0.1484,
"step": 11390
},
{
"epoch": 3.1714666666666664,
"grad_norm": 3.7556633949279785,
"learning_rate": 9.94758620689655e-07,
"loss": 0.14,
"step": 11395
},
{
"epoch": 3.1718,
"grad_norm": 4.302180290222168,
"learning_rate": 9.933793103448275e-07,
"loss": 0.1161,
"step": 11400
},
{
"epoch": 3.1721333333333335,
"grad_norm": 4.842629432678223,
"learning_rate": 9.92e-07,
"loss": 0.1481,
"step": 11405
},
{
"epoch": 3.1724666666666668,
"grad_norm": 3.6063475608825684,
"learning_rate": 9.906206896551722e-07,
"loss": 0.1166,
"step": 11410
},
{
"epoch": 3.1728,
"grad_norm": 3.3511264324188232,
"learning_rate": 9.892413793103449e-07,
"loss": 0.111,
"step": 11415
},
{
"epoch": 3.1731333333333334,
"grad_norm": 4.066712856292725,
"learning_rate": 9.878620689655171e-07,
"loss": 0.1514,
"step": 11420
},
{
"epoch": 3.1734666666666667,
"grad_norm": 4.23630952835083,
"learning_rate": 9.864827586206896e-07,
"loss": 0.1332,
"step": 11425
},
{
"epoch": 3.1738,
"grad_norm": 3.69537615776062,
"learning_rate": 9.85103448275862e-07,
"loss": 0.1548,
"step": 11430
},
{
"epoch": 3.1741333333333333,
"grad_norm": 4.02853536605835,
"learning_rate": 9.837241379310345e-07,
"loss": 0.1252,
"step": 11435
},
{
"epoch": 3.1744666666666665,
"grad_norm": 3.5623393058776855,
"learning_rate": 9.82344827586207e-07,
"loss": 0.1098,
"step": 11440
},
{
"epoch": 3.1748,
"grad_norm": 3.4090816974639893,
"learning_rate": 9.809655172413792e-07,
"loss": 0.0918,
"step": 11445
},
{
"epoch": 3.175133333333333,
"grad_norm": 3.200495958328247,
"learning_rate": 9.795862068965516e-07,
"loss": 0.0897,
"step": 11450
},
{
"epoch": 3.175466666666667,
"grad_norm": 3.247596502304077,
"learning_rate": 9.78206896551724e-07,
"loss": 0.1231,
"step": 11455
},
{
"epoch": 3.1758,
"grad_norm": 4.432947158813477,
"learning_rate": 9.768275862068965e-07,
"loss": 0.1014,
"step": 11460
},
{
"epoch": 3.1761333333333335,
"grad_norm": 3.2055153846740723,
"learning_rate": 9.75448275862069e-07,
"loss": 0.1161,
"step": 11465
},
{
"epoch": 3.1764666666666668,
"grad_norm": 3.0054171085357666,
"learning_rate": 9.740689655172414e-07,
"loss": 0.1082,
"step": 11470
},
{
"epoch": 3.1768,
"grad_norm": 3.225543975830078,
"learning_rate": 9.726896551724139e-07,
"loss": 0.0878,
"step": 11475
},
{
"epoch": 3.1771333333333334,
"grad_norm": 3.2011003494262695,
"learning_rate": 9.71310344827586e-07,
"loss": 0.1094,
"step": 11480
},
{
"epoch": 3.1774666666666667,
"grad_norm": 2.78452205657959,
"learning_rate": 9.699310344827585e-07,
"loss": 0.1223,
"step": 11485
},
{
"epoch": 3.1778,
"grad_norm": 3.7415049076080322,
"learning_rate": 9.68551724137931e-07,
"loss": 0.1335,
"step": 11490
},
{
"epoch": 3.1781333333333333,
"grad_norm": 3.844025135040283,
"learning_rate": 9.671724137931034e-07,
"loss": 0.1249,
"step": 11495
},
{
"epoch": 3.1784666666666666,
"grad_norm": 3.727860689163208,
"learning_rate": 9.657931034482759e-07,
"loss": 0.0897,
"step": 11500
},
{
"epoch": 3.1788,
"grad_norm": 3.7526516914367676,
"learning_rate": 9.644137931034483e-07,
"loss": 0.1048,
"step": 11505
},
{
"epoch": 3.179133333333333,
"grad_norm": 5.0751447677612305,
"learning_rate": 9.630344827586206e-07,
"loss": 0.112,
"step": 11510
},
{
"epoch": 3.1794666666666664,
"grad_norm": 3.638728618621826,
"learning_rate": 9.61655172413793e-07,
"loss": 0.1408,
"step": 11515
},
{
"epoch": 3.1798,
"grad_norm": 4.104787349700928,
"learning_rate": 9.602758620689655e-07,
"loss": 0.1053,
"step": 11520
},
{
"epoch": 3.1801333333333335,
"grad_norm": 3.876075029373169,
"learning_rate": 9.58896551724138e-07,
"loss": 0.1091,
"step": 11525
},
{
"epoch": 3.1804666666666668,
"grad_norm": 3.4228522777557373,
"learning_rate": 9.575172413793104e-07,
"loss": 0.1192,
"step": 11530
},
{
"epoch": 3.1808,
"grad_norm": 3.695359945297241,
"learning_rate": 9.561379310344826e-07,
"loss": 0.1338,
"step": 11535
},
{
"epoch": 3.1811333333333334,
"grad_norm": 4.151112079620361,
"learning_rate": 9.547586206896553e-07,
"loss": 0.1097,
"step": 11540
},
{
"epoch": 3.1814666666666667,
"grad_norm": 3.7210211753845215,
"learning_rate": 9.533793103448275e-07,
"loss": 0.1062,
"step": 11545
},
{
"epoch": 3.1818,
"grad_norm": 3.5571415424346924,
"learning_rate": 9.52e-07,
"loss": 0.1579,
"step": 11550
},
{
"epoch": 3.1821333333333333,
"grad_norm": 4.391376972198486,
"learning_rate": 9.506206896551724e-07,
"loss": 0.1546,
"step": 11555
},
{
"epoch": 3.1824666666666666,
"grad_norm": 4.067860126495361,
"learning_rate": 9.492413793103447e-07,
"loss": 0.1284,
"step": 11560
},
{
"epoch": 3.1828,
"grad_norm": 4.069371700286865,
"learning_rate": 9.478620689655172e-07,
"loss": 0.1298,
"step": 11565
},
{
"epoch": 3.183133333333333,
"grad_norm": 3.5552937984466553,
"learning_rate": 9.464827586206896e-07,
"loss": 0.1032,
"step": 11570
},
{
"epoch": 3.183466666666667,
"grad_norm": 3.9518773555755615,
"learning_rate": 9.451034482758621e-07,
"loss": 0.1263,
"step": 11575
},
{
"epoch": 3.1838,
"grad_norm": 3.752544641494751,
"learning_rate": 9.437241379310344e-07,
"loss": 0.1286,
"step": 11580
},
{
"epoch": 3.1841333333333335,
"grad_norm": 3.8621153831481934,
"learning_rate": 9.423448275862068e-07,
"loss": 0.1186,
"step": 11585
},
{
"epoch": 3.184466666666667,
"grad_norm": 2.9975900650024414,
"learning_rate": 9.409655172413793e-07,
"loss": 0.1286,
"step": 11590
},
{
"epoch": 3.1848,
"grad_norm": 3.364678382873535,
"learning_rate": 9.395862068965517e-07,
"loss": 0.1046,
"step": 11595
},
{
"epoch": 3.1851333333333334,
"grad_norm": 3.5356502532958984,
"learning_rate": 9.382068965517241e-07,
"loss": 0.0894,
"step": 11600
},
{
"epoch": 3.1854666666666667,
"grad_norm": 2.6523029804229736,
"learning_rate": 9.368275862068965e-07,
"loss": 0.0961,
"step": 11605
},
{
"epoch": 3.1858,
"grad_norm": 4.011308193206787,
"learning_rate": 9.354482758620689e-07,
"loss": 0.1124,
"step": 11610
},
{
"epoch": 3.1861333333333333,
"grad_norm": 3.4851319789886475,
"learning_rate": 9.340689655172414e-07,
"loss": 0.1066,
"step": 11615
},
{
"epoch": 3.1864666666666666,
"grad_norm": 3.6874606609344482,
"learning_rate": 9.326896551724137e-07,
"loss": 0.1025,
"step": 11620
},
{
"epoch": 3.1868,
"grad_norm": 3.4741806983947754,
"learning_rate": 9.313103448275862e-07,
"loss": 0.1093,
"step": 11625
},
{
"epoch": 3.187133333333333,
"grad_norm": 4.731088638305664,
"learning_rate": 9.299310344827586e-07,
"loss": 0.1333,
"step": 11630
},
{
"epoch": 3.1874666666666664,
"grad_norm": 4.179452419281006,
"learning_rate": 9.28551724137931e-07,
"loss": 0.0782,
"step": 11635
},
{
"epoch": 3.1878,
"grad_norm": 3.4660122394561768,
"learning_rate": 9.271724137931034e-07,
"loss": 0.0968,
"step": 11640
},
{
"epoch": 3.1881333333333335,
"grad_norm": 3.173128604888916,
"learning_rate": 9.257931034482757e-07,
"loss": 0.0849,
"step": 11645
},
{
"epoch": 3.188466666666667,
"grad_norm": 4.242127895355225,
"learning_rate": 9.244137931034483e-07,
"loss": 0.1408,
"step": 11650
},
{
"epoch": 3.1888,
"grad_norm": 2.967674732208252,
"learning_rate": 9.230344827586206e-07,
"loss": 0.1181,
"step": 11655
},
{
"epoch": 3.1891333333333334,
"grad_norm": 3.6537790298461914,
"learning_rate": 9.216551724137931e-07,
"loss": 0.1212,
"step": 11660
},
{
"epoch": 3.1894666666666667,
"grad_norm": 4.012179851531982,
"learning_rate": 9.202758620689654e-07,
"loss": 0.105,
"step": 11665
},
{
"epoch": 3.1898,
"grad_norm": 3.1177618503570557,
"learning_rate": 9.18896551724138e-07,
"loss": 0.1258,
"step": 11670
},
{
"epoch": 3.1901333333333333,
"grad_norm": 3.2957189083099365,
"learning_rate": 9.175172413793103e-07,
"loss": 0.1053,
"step": 11675
},
{
"epoch": 3.1904666666666666,
"grad_norm": 3.2841341495513916,
"learning_rate": 9.161379310344827e-07,
"loss": 0.1204,
"step": 11680
},
{
"epoch": 3.1908,
"grad_norm": 4.222930431365967,
"learning_rate": 9.147586206896551e-07,
"loss": 0.105,
"step": 11685
},
{
"epoch": 3.191133333333333,
"grad_norm": 4.13801908493042,
"learning_rate": 9.133793103448276e-07,
"loss": 0.1079,
"step": 11690
},
{
"epoch": 3.191466666666667,
"grad_norm": 3.3677818775177,
"learning_rate": 9.12e-07,
"loss": 0.1054,
"step": 11695
},
{
"epoch": 3.1918,
"grad_norm": 4.869099140167236,
"learning_rate": 9.106206896551724e-07,
"loss": 0.1235,
"step": 11700
},
{
"epoch": 3.1921333333333335,
"grad_norm": 5.588912010192871,
"learning_rate": 9.092413793103448e-07,
"loss": 0.1235,
"step": 11705
},
{
"epoch": 3.192466666666667,
"grad_norm": 3.0313968658447266,
"learning_rate": 9.078620689655173e-07,
"loss": 0.0952,
"step": 11710
},
{
"epoch": 3.1928,
"grad_norm": 3.1648051738739014,
"learning_rate": 9.064827586206896e-07,
"loss": 0.1169,
"step": 11715
},
{
"epoch": 3.1931333333333334,
"grad_norm": 4.407665729522705,
"learning_rate": 9.05103448275862e-07,
"loss": 0.097,
"step": 11720
},
{
"epoch": 3.1934666666666667,
"grad_norm": 3.2968454360961914,
"learning_rate": 9.037241379310344e-07,
"loss": 0.1042,
"step": 11725
},
{
"epoch": 3.1938,
"grad_norm": 4.946019649505615,
"learning_rate": 9.023448275862069e-07,
"loss": 0.1352,
"step": 11730
},
{
"epoch": 3.1941333333333333,
"grad_norm": 3.3684799671173096,
"learning_rate": 9.009655172413793e-07,
"loss": 0.1033,
"step": 11735
},
{
"epoch": 3.1944666666666666,
"grad_norm": 4.070157051086426,
"learning_rate": 8.995862068965517e-07,
"loss": 0.1198,
"step": 11740
},
{
"epoch": 3.1948,
"grad_norm": 2.985649347305298,
"learning_rate": 8.982068965517241e-07,
"loss": 0.1308,
"step": 11745
},
{
"epoch": 3.195133333333333,
"grad_norm": 3.186408281326294,
"learning_rate": 8.968275862068964e-07,
"loss": 0.0959,
"step": 11750
},
{
"epoch": 3.1954666666666665,
"grad_norm": 3.5271453857421875,
"learning_rate": 8.95448275862069e-07,
"loss": 0.1175,
"step": 11755
},
{
"epoch": 3.1958,
"grad_norm": 4.286133289337158,
"learning_rate": 8.940689655172413e-07,
"loss": 0.0981,
"step": 11760
},
{
"epoch": 4.000066666666667,
"grad_norm": 3.852144956588745,
"learning_rate": 8.926896551724138e-07,
"loss": 0.1092,
"step": 11765
},
{
"epoch": 4.0004,
"grad_norm": 2.359714984893799,
"learning_rate": 8.913103448275861e-07,
"loss": 0.0982,
"step": 11770
},
{
"epoch": 4.000733333333334,
"grad_norm": 3.267225503921509,
"learning_rate": 8.899310344827587e-07,
"loss": 0.0947,
"step": 11775
},
{
"epoch": 4.0010666666666665,
"grad_norm": 3.4340498447418213,
"learning_rate": 8.88551724137931e-07,
"loss": 0.0898,
"step": 11780
},
{
"epoch": 4.0014,
"grad_norm": 3.7093160152435303,
"learning_rate": 8.871724137931034e-07,
"loss": 0.1167,
"step": 11785
},
{
"epoch": 4.001733333333333,
"grad_norm": 3.491961717605591,
"learning_rate": 8.857931034482758e-07,
"loss": 0.1353,
"step": 11790
},
{
"epoch": 4.002066666666667,
"grad_norm": 3.1120567321777344,
"learning_rate": 8.844137931034483e-07,
"loss": 0.1097,
"step": 11795
},
{
"epoch": 4.0024,
"grad_norm": 3.7733826637268066,
"learning_rate": 8.830344827586207e-07,
"loss": 0.1216,
"step": 11800
},
{
"epoch": 4.0027333333333335,
"grad_norm": 3.99910044670105,
"learning_rate": 8.81655172413793e-07,
"loss": 0.1119,
"step": 11805
},
{
"epoch": 4.003066666666666,
"grad_norm": 3.343719720840454,
"learning_rate": 8.802758620689654e-07,
"loss": 0.0976,
"step": 11810
},
{
"epoch": 4.0034,
"grad_norm": 3.286072254180908,
"learning_rate": 8.788965517241379e-07,
"loss": 0.0907,
"step": 11815
},
{
"epoch": 4.003733333333333,
"grad_norm": 3.1599345207214355,
"learning_rate": 8.775172413793103e-07,
"loss": 0.0781,
"step": 11820
},
{
"epoch": 4.004066666666667,
"grad_norm": 3.587409496307373,
"learning_rate": 8.761379310344827e-07,
"loss": 0.1052,
"step": 11825
},
{
"epoch": 4.0044,
"grad_norm": 3.36879301071167,
"learning_rate": 8.747586206896551e-07,
"loss": 0.0748,
"step": 11830
},
{
"epoch": 4.004733333333333,
"grad_norm": 3.4844284057617188,
"learning_rate": 8.733793103448276e-07,
"loss": 0.1008,
"step": 11835
},
{
"epoch": 4.005066666666667,
"grad_norm": 3.1570310592651367,
"learning_rate": 8.72e-07,
"loss": 0.0997,
"step": 11840
},
{
"epoch": 4.0054,
"grad_norm": 3.236266613006592,
"learning_rate": 8.706206896551723e-07,
"loss": 0.0877,
"step": 11845
},
{
"epoch": 4.005733333333334,
"grad_norm": 3.3424742221832275,
"learning_rate": 8.692413793103448e-07,
"loss": 0.1013,
"step": 11850
},
{
"epoch": 4.006066666666666,
"grad_norm": 2.7490155696868896,
"learning_rate": 8.678620689655172e-07,
"loss": 0.0664,
"step": 11855
},
{
"epoch": 4.0064,
"grad_norm": 4.206040382385254,
"learning_rate": 8.664827586206897e-07,
"loss": 0.082,
"step": 11860
},
{
"epoch": 4.006733333333333,
"grad_norm": 3.450316905975342,
"learning_rate": 8.65103448275862e-07,
"loss": 0.1,
"step": 11865
},
{
"epoch": 4.007066666666667,
"grad_norm": 4.00970458984375,
"learning_rate": 8.637241379310345e-07,
"loss": 0.1303,
"step": 11870
},
{
"epoch": 4.0074,
"grad_norm": 3.4662065505981445,
"learning_rate": 8.623448275862069e-07,
"loss": 0.0924,
"step": 11875
},
{
"epoch": 4.007733333333333,
"grad_norm": 2.4423773288726807,
"learning_rate": 8.609655172413792e-07,
"loss": 0.105,
"step": 11880
},
{
"epoch": 4.008066666666666,
"grad_norm": 3.157292604446411,
"learning_rate": 8.595862068965517e-07,
"loss": 0.0756,
"step": 11885
},
{
"epoch": 4.0084,
"grad_norm": 3.0233206748962402,
"learning_rate": 8.58206896551724e-07,
"loss": 0.0829,
"step": 11890
},
{
"epoch": 4.008733333333334,
"grad_norm": 3.358638286590576,
"learning_rate": 8.568275862068966e-07,
"loss": 0.0838,
"step": 11895
},
{
"epoch": 4.009066666666667,
"grad_norm": 3.736022472381592,
"learning_rate": 8.554482758620689e-07,
"loss": 0.1377,
"step": 11900
},
{
"epoch": 4.0094,
"grad_norm": 3.917501926422119,
"learning_rate": 8.540689655172414e-07,
"loss": 0.0776,
"step": 11905
},
{
"epoch": 4.009733333333333,
"grad_norm": 3.0256521701812744,
"learning_rate": 8.526896551724137e-07,
"loss": 0.1024,
"step": 11910
},
{
"epoch": 4.010066666666667,
"grad_norm": 3.1207637786865234,
"learning_rate": 8.513103448275861e-07,
"loss": 0.0784,
"step": 11915
},
{
"epoch": 4.0104,
"grad_norm": 3.4567348957061768,
"learning_rate": 8.499310344827586e-07,
"loss": 0.0731,
"step": 11920
},
{
"epoch": 4.0107333333333335,
"grad_norm": 3.023005723953247,
"learning_rate": 8.48551724137931e-07,
"loss": 0.0733,
"step": 11925
},
{
"epoch": 4.011066666666666,
"grad_norm": 2.3652994632720947,
"learning_rate": 8.471724137931034e-07,
"loss": 0.0886,
"step": 11930
},
{
"epoch": 4.0114,
"grad_norm": 4.146409034729004,
"learning_rate": 8.457931034482758e-07,
"loss": 0.1198,
"step": 11935
},
{
"epoch": 4.011733333333333,
"grad_norm": 3.667948007583618,
"learning_rate": 8.444137931034483e-07,
"loss": 0.072,
"step": 11940
},
{
"epoch": 4.012066666666667,
"grad_norm": 2.771521806716919,
"learning_rate": 8.430344827586207e-07,
"loss": 0.1178,
"step": 11945
},
{
"epoch": 4.0124,
"grad_norm": 3.1634113788604736,
"learning_rate": 8.41655172413793e-07,
"loss": 0.107,
"step": 11950
},
{
"epoch": 4.012733333333333,
"grad_norm": 3.0591869354248047,
"learning_rate": 8.402758620689655e-07,
"loss": 0.0888,
"step": 11955
},
{
"epoch": 4.013066666666667,
"grad_norm": 3.368868350982666,
"learning_rate": 8.388965517241379e-07,
"loss": 0.0884,
"step": 11960
},
{
"epoch": 4.0134,
"grad_norm": 3.7147469520568848,
"learning_rate": 8.375172413793103e-07,
"loss": 0.0797,
"step": 11965
},
{
"epoch": 4.013733333333334,
"grad_norm": 3.10611629486084,
"learning_rate": 8.361379310344827e-07,
"loss": 0.0828,
"step": 11970
},
{
"epoch": 4.0140666666666664,
"grad_norm": 3.281848192214966,
"learning_rate": 8.34758620689655e-07,
"loss": 0.1178,
"step": 11975
},
{
"epoch": 4.0144,
"grad_norm": 3.2157599925994873,
"learning_rate": 8.333793103448276e-07,
"loss": 0.0895,
"step": 11980
},
{
"epoch": 4.014733333333333,
"grad_norm": 3.557180166244507,
"learning_rate": 8.319999999999999e-07,
"loss": 0.1007,
"step": 11985
},
{
"epoch": 4.015066666666667,
"grad_norm": 2.854917049407959,
"learning_rate": 8.306206896551724e-07,
"loss": 0.0863,
"step": 11990
},
{
"epoch": 4.0154,
"grad_norm": 2.7035117149353027,
"learning_rate": 8.292413793103447e-07,
"loss": 0.0881,
"step": 11995
},
{
"epoch": 4.015733333333333,
"grad_norm": 3.303386688232422,
"learning_rate": 8.278620689655173e-07,
"loss": 0.0952,
"step": 12000
},
{
"epoch": 4.015733333333333,
"eval_loss": 0.22301289439201355,
"eval_runtime": 140.1879,
"eval_samples_per_second": 4.28,
"eval_steps_per_second": 1.07,
"eval_wer": 10.850140413581823,
"step": 12000
}
],
"logging_steps": 5,
"max_steps": 15000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 1000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 6.547967198783078e+20,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}