| { |
| "best_global_step": 12000, |
| "best_metric": 10.850140413581823, |
| "best_model_checkpoint": "./adamw_15k_steps/checkpoint-12000", |
| "epoch": 4.015733333333333, |
| "eval_steps": 1000, |
| "global_step": 12000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0003333333333333333, |
| "grad_norm": 7.8681135177612305, |
| "learning_rate": 3.2e-08, |
| "loss": 0.639, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.0006666666666666666, |
| "grad_norm": 6.706113338470459, |
| "learning_rate": 7.2e-08, |
| "loss": 0.5652, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.001, |
| "grad_norm": 7.400564193725586, |
| "learning_rate": 1.12e-07, |
| "loss": 0.601, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.0013333333333333333, |
| "grad_norm": 7.946199417114258, |
| "learning_rate": 1.5199999999999998e-07, |
| "loss": 0.5519, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.0016666666666666668, |
| "grad_norm": 8.106812477111816, |
| "learning_rate": 1.92e-07, |
| "loss": 0.5649, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.002, |
| "grad_norm": 8.46447467803955, |
| "learning_rate": 2.32e-07, |
| "loss": 0.5187, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.0023333333333333335, |
| "grad_norm": 9.849543571472168, |
| "learning_rate": 2.72e-07, |
| "loss": 0.5673, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 7.367623329162598, |
| "learning_rate": 3.12e-07, |
| "loss": 0.5324, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.003, |
| "grad_norm": 8.326878547668457, |
| "learning_rate": 3.52e-07, |
| "loss": 0.4839, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.0033333333333333335, |
| "grad_norm": 9.736270904541016, |
| "learning_rate": 3.92e-07, |
| "loss": 0.4942, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.0036666666666666666, |
| "grad_norm": 8.761847496032715, |
| "learning_rate": 4.3199999999999995e-07, |
| "loss": 0.4491, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.004, |
| "grad_norm": 6.445558547973633, |
| "learning_rate": 4.7199999999999994e-07, |
| "loss": 0.3525, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.004333333333333333, |
| "grad_norm": 6.869565486907959, |
| "learning_rate": 5.12e-07, |
| "loss": 0.3532, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.004666666666666667, |
| "grad_norm": 6.356194972991943, |
| "learning_rate": 5.520000000000001e-07, |
| "loss": 0.3789, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.005, |
| "grad_norm": 8.927465438842773, |
| "learning_rate": 5.919999999999999e-07, |
| "loss": 0.4214, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 4.772860527038574, |
| "learning_rate": 6.319999999999999e-07, |
| "loss": 0.3988, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.005666666666666667, |
| "grad_norm": 6.015639781951904, |
| "learning_rate": 6.72e-07, |
| "loss": 0.3499, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.006, |
| "grad_norm": 5.377685070037842, |
| "learning_rate": 7.119999999999999e-07, |
| "loss": 0.3558, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.006333333333333333, |
| "grad_norm": 5.61927604675293, |
| "learning_rate": 7.52e-07, |
| "loss": 0.3782, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 5.671990871429443, |
| "learning_rate": 7.92e-07, |
| "loss": 0.3256, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.007, |
| "grad_norm": 6.509945869445801, |
| "learning_rate": 8.319999999999999e-07, |
| "loss": 0.3377, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.007333333333333333, |
| "grad_norm": 5.520636558532715, |
| "learning_rate": 8.72e-07, |
| "loss": 0.2935, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.007666666666666666, |
| "grad_norm": 6.7343854904174805, |
| "learning_rate": 9.12e-07, |
| "loss": 0.3279, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 5.827164173126221, |
| "learning_rate": 9.52e-07, |
| "loss": 0.2642, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.008333333333333333, |
| "grad_norm": 9.217341423034668, |
| "learning_rate": 9.92e-07, |
| "loss": 0.3682, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.008666666666666666, |
| "grad_norm": 5.258895397186279, |
| "learning_rate": 1.032e-06, |
| "loss": 0.3186, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.009, |
| "grad_norm": 5.387553691864014, |
| "learning_rate": 1.072e-06, |
| "loss": 0.2694, |
| "step": 135 |
| }, |
| { |
| "epoch": 0.009333333333333334, |
| "grad_norm": 6.299449920654297, |
| "learning_rate": 1.1120000000000001e-06, |
| "loss": 0.3321, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.009666666666666667, |
| "grad_norm": 5.274661064147949, |
| "learning_rate": 1.152e-06, |
| "loss": 0.3319, |
| "step": 145 |
| }, |
| { |
| "epoch": 0.01, |
| "grad_norm": 5.529350280761719, |
| "learning_rate": 1.192e-06, |
| "loss": 0.2997, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.010333333333333333, |
| "grad_norm": 6.594914436340332, |
| "learning_rate": 1.232e-06, |
| "loss": 0.3021, |
| "step": 155 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 6.538723468780518, |
| "learning_rate": 1.272e-06, |
| "loss": 0.3648, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.011, |
| "grad_norm": 5.191473007202148, |
| "learning_rate": 1.312e-06, |
| "loss": 0.261, |
| "step": 165 |
| }, |
| { |
| "epoch": 0.011333333333333334, |
| "grad_norm": 4.366311073303223, |
| "learning_rate": 1.352e-06, |
| "loss": 0.3138, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.011666666666666667, |
| "grad_norm": 5.694831371307373, |
| "learning_rate": 1.3919999999999998e-06, |
| "loss": 0.3573, |
| "step": 175 |
| }, |
| { |
| "epoch": 0.012, |
| "grad_norm": 6.382267475128174, |
| "learning_rate": 1.4319999999999998e-06, |
| "loss": 0.3696, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.012333333333333333, |
| "grad_norm": 5.446365833282471, |
| "learning_rate": 1.4719999999999998e-06, |
| "loss": 0.3153, |
| "step": 185 |
| }, |
| { |
| "epoch": 0.012666666666666666, |
| "grad_norm": 5.738370895385742, |
| "learning_rate": 1.5119999999999999e-06, |
| "loss": 0.2276, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.013, |
| "grad_norm": 6.272266864776611, |
| "learning_rate": 1.552e-06, |
| "loss": 0.3016, |
| "step": 195 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 5.668388843536377, |
| "learning_rate": 1.592e-06, |
| "loss": 0.3069, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.013666666666666667, |
| "grad_norm": 4.9069719314575195, |
| "learning_rate": 1.6319999999999998e-06, |
| "loss": 0.256, |
| "step": 205 |
| }, |
| { |
| "epoch": 0.014, |
| "grad_norm": 5.196625709533691, |
| "learning_rate": 1.6719999999999998e-06, |
| "loss": 0.3474, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.014333333333333333, |
| "grad_norm": 5.849911689758301, |
| "learning_rate": 1.7119999999999999e-06, |
| "loss": 0.3752, |
| "step": 215 |
| }, |
| { |
| "epoch": 0.014666666666666666, |
| "grad_norm": 5.384067535400391, |
| "learning_rate": 1.752e-06, |
| "loss": 0.309, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.015, |
| "grad_norm": 5.837971210479736, |
| "learning_rate": 1.792e-06, |
| "loss": 0.3327, |
| "step": 225 |
| }, |
| { |
| "epoch": 0.015333333333333332, |
| "grad_norm": 5.132436275482178, |
| "learning_rate": 1.832e-06, |
| "loss": 0.3123, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.015666666666666666, |
| "grad_norm": 5.337721824645996, |
| "learning_rate": 1.872e-06, |
| "loss": 0.3283, |
| "step": 235 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 6.517800331115723, |
| "learning_rate": 1.9119999999999997e-06, |
| "loss": 0.3038, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.01633333333333333, |
| "grad_norm": 5.586582183837891, |
| "learning_rate": 1.9519999999999997e-06, |
| "loss": 0.2755, |
| "step": 245 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 5.217918872833252, |
| "learning_rate": 1.9919999999999997e-06, |
| "loss": 0.2844, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.017, |
| "grad_norm": 6.155360221862793, |
| "learning_rate": 2.0319999999999998e-06, |
| "loss": 0.2717, |
| "step": 255 |
| }, |
| { |
| "epoch": 0.017333333333333333, |
| "grad_norm": 4.993013858795166, |
| "learning_rate": 2.072e-06, |
| "loss": 0.2607, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.017666666666666667, |
| "grad_norm": 5.713470458984375, |
| "learning_rate": 2.112e-06, |
| "loss": 0.3016, |
| "step": 265 |
| }, |
| { |
| "epoch": 0.018, |
| "grad_norm": 6.255653381347656, |
| "learning_rate": 2.152e-06, |
| "loss": 0.2981, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.018333333333333333, |
| "grad_norm": 4.8478803634643555, |
| "learning_rate": 2.192e-06, |
| "loss": 0.2597, |
| "step": 275 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 5.257438659667969, |
| "learning_rate": 2.232e-06, |
| "loss": 0.2801, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.019, |
| "grad_norm": 5.840615272521973, |
| "learning_rate": 2.2719999999999996e-06, |
| "loss": 0.2367, |
| "step": 285 |
| }, |
| { |
| "epoch": 0.019333333333333334, |
| "grad_norm": 4.748403549194336, |
| "learning_rate": 2.3119999999999996e-06, |
| "loss": 0.281, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.019666666666666666, |
| "grad_norm": 6.234288215637207, |
| "learning_rate": 2.3519999999999997e-06, |
| "loss": 0.2956, |
| "step": 295 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 5.9594550132751465, |
| "learning_rate": 2.3919999999999997e-06, |
| "loss": 0.2442, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.02033333333333333, |
| "grad_norm": 6.6537628173828125, |
| "learning_rate": 2.4319999999999998e-06, |
| "loss": 0.3109, |
| "step": 305 |
| }, |
| { |
| "epoch": 0.020666666666666667, |
| "grad_norm": 5.695614814758301, |
| "learning_rate": 2.472e-06, |
| "loss": 0.2785, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.021, |
| "grad_norm": 5.461732864379883, |
| "learning_rate": 2.512e-06, |
| "loss": 0.2641, |
| "step": 315 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 5.420622825622559, |
| "learning_rate": 2.552e-06, |
| "loss": 0.2852, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.021666666666666667, |
| "grad_norm": 5.171116828918457, |
| "learning_rate": 2.592e-06, |
| "loss": 0.2668, |
| "step": 325 |
| }, |
| { |
| "epoch": 0.022, |
| "grad_norm": 4.647777080535889, |
| "learning_rate": 2.632e-06, |
| "loss": 0.2441, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.022333333333333334, |
| "grad_norm": 5.5714802742004395, |
| "learning_rate": 2.672e-06, |
| "loss": 0.2588, |
| "step": 335 |
| }, |
| { |
| "epoch": 0.02266666666666667, |
| "grad_norm": 6.230645656585693, |
| "learning_rate": 2.712e-06, |
| "loss": 0.2875, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.023, |
| "grad_norm": 4.334135055541992, |
| "learning_rate": 2.7519999999999997e-06, |
| "loss": 0.3584, |
| "step": 345 |
| }, |
| { |
| "epoch": 0.023333333333333334, |
| "grad_norm": 5.431742191314697, |
| "learning_rate": 2.7919999999999997e-06, |
| "loss": 0.2909, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.023666666666666666, |
| "grad_norm": 5.0013322830200195, |
| "learning_rate": 2.8319999999999997e-06, |
| "loss": 0.2719, |
| "step": 355 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 4.761520862579346, |
| "learning_rate": 2.8719999999999998e-06, |
| "loss": 0.3427, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.024333333333333332, |
| "grad_norm": 4.424616813659668, |
| "learning_rate": 2.912e-06, |
| "loss": 0.2715, |
| "step": 365 |
| }, |
| { |
| "epoch": 0.024666666666666667, |
| "grad_norm": 6.290023326873779, |
| "learning_rate": 2.952e-06, |
| "loss": 0.3269, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.025, |
| "grad_norm": 4.335691452026367, |
| "learning_rate": 2.992e-06, |
| "loss": 0.3132, |
| "step": 375 |
| }, |
| { |
| "epoch": 0.025333333333333333, |
| "grad_norm": 4.69550895690918, |
| "learning_rate": 3.032e-06, |
| "loss": 0.2616, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.025666666666666667, |
| "grad_norm": 5.710431098937988, |
| "learning_rate": 3.072e-06, |
| "loss": 0.2529, |
| "step": 385 |
| }, |
| { |
| "epoch": 0.026, |
| "grad_norm": 7.724772930145264, |
| "learning_rate": 3.112e-06, |
| "loss": 0.3924, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.026333333333333334, |
| "grad_norm": 5.0790581703186035, |
| "learning_rate": 3.152e-06, |
| "loss": 0.3372, |
| "step": 395 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 5.25242805480957, |
| "learning_rate": 3.192e-06, |
| "loss": 0.2778, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.027, |
| "grad_norm": 4.29576301574707, |
| "learning_rate": 3.232e-06, |
| "loss": 0.2769, |
| "step": 405 |
| }, |
| { |
| "epoch": 0.027333333333333334, |
| "grad_norm": 5.750261306762695, |
| "learning_rate": 3.2719999999999998e-06, |
| "loss": 0.2802, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.027666666666666666, |
| "grad_norm": 7.249492645263672, |
| "learning_rate": 3.312e-06, |
| "loss": 0.3346, |
| "step": 415 |
| }, |
| { |
| "epoch": 0.028, |
| "grad_norm": 6.898212909698486, |
| "learning_rate": 3.352e-06, |
| "loss": 0.3048, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.028333333333333332, |
| "grad_norm": 6.2024102210998535, |
| "learning_rate": 3.392e-06, |
| "loss": 0.271, |
| "step": 425 |
| }, |
| { |
| "epoch": 0.028666666666666667, |
| "grad_norm": 5.421449184417725, |
| "learning_rate": 3.432e-06, |
| "loss": 0.309, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.029, |
| "grad_norm": 6.628218650817871, |
| "learning_rate": 3.472e-06, |
| "loss": 0.325, |
| "step": 435 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 6.001244068145752, |
| "learning_rate": 3.512e-06, |
| "loss": 0.2704, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.029666666666666668, |
| "grad_norm": 4.657049179077148, |
| "learning_rate": 3.552e-06, |
| "loss": 0.291, |
| "step": 445 |
| }, |
| { |
| "epoch": 0.03, |
| "grad_norm": 5.157937526702881, |
| "learning_rate": 3.592e-06, |
| "loss": 0.2969, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.030333333333333334, |
| "grad_norm": 5.487798690795898, |
| "learning_rate": 3.632e-06, |
| "loss": 0.276, |
| "step": 455 |
| }, |
| { |
| "epoch": 0.030666666666666665, |
| "grad_norm": 5.191402435302734, |
| "learning_rate": 3.672e-06, |
| "loss": 0.2643, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.031, |
| "grad_norm": 4.667324542999268, |
| "learning_rate": 3.712e-06, |
| "loss": 0.2973, |
| "step": 465 |
| }, |
| { |
| "epoch": 0.03133333333333333, |
| "grad_norm": 5.773773670196533, |
| "learning_rate": 3.7519999999999994e-06, |
| "loss": 0.3295, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.03166666666666667, |
| "grad_norm": 5.1708574295043945, |
| "learning_rate": 3.7919999999999994e-06, |
| "loss": 0.2873, |
| "step": 475 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 6.870123863220215, |
| "learning_rate": 3.832e-06, |
| "loss": 0.3149, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.03233333333333333, |
| "grad_norm": 6.7079315185546875, |
| "learning_rate": 3.8719999999999995e-06, |
| "loss": 0.3704, |
| "step": 485 |
| }, |
| { |
| "epoch": 0.03266666666666666, |
| "grad_norm": 5.312646865844727, |
| "learning_rate": 3.912e-06, |
| "loss": 0.2829, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.033, |
| "grad_norm": 5.318368911743164, |
| "learning_rate": 3.952e-06, |
| "loss": 0.2417, |
| "step": 495 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 6.014054775238037, |
| "learning_rate": 3.992e-06, |
| "loss": 0.2943, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.033666666666666664, |
| "grad_norm": 6.240344524383545, |
| "learning_rate": 3.998896551724138e-06, |
| "loss": 0.352, |
| "step": 505 |
| }, |
| { |
| "epoch": 0.034, |
| "grad_norm": 5.4214982986450195, |
| "learning_rate": 3.99751724137931e-06, |
| "loss": 0.2561, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.034333333333333334, |
| "grad_norm": 5.578619480133057, |
| "learning_rate": 3.996137931034483e-06, |
| "loss": 0.2904, |
| "step": 515 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 4.170753002166748, |
| "learning_rate": 3.994758620689655e-06, |
| "loss": 0.2783, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.035, |
| "grad_norm": 5.15231990814209, |
| "learning_rate": 3.993379310344827e-06, |
| "loss": 0.281, |
| "step": 525 |
| }, |
| { |
| "epoch": 0.035333333333333335, |
| "grad_norm": 5.5472331047058105, |
| "learning_rate": 3.992e-06, |
| "loss": 0.2876, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.035666666666666666, |
| "grad_norm": 7.079174041748047, |
| "learning_rate": 3.990620689655172e-06, |
| "loss": 0.259, |
| "step": 535 |
| }, |
| { |
| "epoch": 0.036, |
| "grad_norm": 6.044969081878662, |
| "learning_rate": 3.9892413793103445e-06, |
| "loss": 0.3019, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.036333333333333336, |
| "grad_norm": 5.32633638381958, |
| "learning_rate": 3.987862068965517e-06, |
| "loss": 0.272, |
| "step": 545 |
| }, |
| { |
| "epoch": 0.03666666666666667, |
| "grad_norm": 5.296838760375977, |
| "learning_rate": 3.986482758620689e-06, |
| "loss": 0.2502, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.037, |
| "grad_norm": 4.822333812713623, |
| "learning_rate": 3.985103448275862e-06, |
| "loss": 0.2736, |
| "step": 555 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 5.437860012054443, |
| "learning_rate": 3.983724137931034e-06, |
| "loss": 0.2762, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.03766666666666667, |
| "grad_norm": 5.294252872467041, |
| "learning_rate": 3.982344827586207e-06, |
| "loss": 0.3186, |
| "step": 565 |
| }, |
| { |
| "epoch": 0.038, |
| "grad_norm": 5.104955673217773, |
| "learning_rate": 3.980965517241379e-06, |
| "loss": 0.2888, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.03833333333333333, |
| "grad_norm": 4.825579643249512, |
| "learning_rate": 3.9795862068965515e-06, |
| "loss": 0.3047, |
| "step": 575 |
| }, |
| { |
| "epoch": 0.03866666666666667, |
| "grad_norm": 5.44915246963501, |
| "learning_rate": 3.978206896551724e-06, |
| "loss": 0.26, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.039, |
| "grad_norm": 5.301170825958252, |
| "learning_rate": 3.976827586206896e-06, |
| "loss": 0.2992, |
| "step": 585 |
| }, |
| { |
| "epoch": 0.03933333333333333, |
| "grad_norm": 5.062160015106201, |
| "learning_rate": 3.975448275862069e-06, |
| "loss": 0.297, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.03966666666666667, |
| "grad_norm": 4.502527713775635, |
| "learning_rate": 3.974068965517241e-06, |
| "loss": 0.2565, |
| "step": 595 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 5.063446521759033, |
| "learning_rate": 3.972689655172414e-06, |
| "loss": 0.2771, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.04033333333333333, |
| "grad_norm": 4.817838191986084, |
| "learning_rate": 3.971310344827587e-06, |
| "loss": 0.2757, |
| "step": 605 |
| }, |
| { |
| "epoch": 0.04066666666666666, |
| "grad_norm": 4.215132236480713, |
| "learning_rate": 3.969931034482758e-06, |
| "loss": 0.2727, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.041, |
| "grad_norm": 5.817486763000488, |
| "learning_rate": 3.968551724137931e-06, |
| "loss": 0.2668, |
| "step": 615 |
| }, |
| { |
| "epoch": 0.04133333333333333, |
| "grad_norm": 6.173072814941406, |
| "learning_rate": 3.967172413793104e-06, |
| "loss": 0.3288, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.041666666666666664, |
| "grad_norm": 4.746486186981201, |
| "learning_rate": 3.9657931034482755e-06, |
| "loss": 0.3251, |
| "step": 625 |
| }, |
| { |
| "epoch": 0.042, |
| "grad_norm": 5.031108856201172, |
| "learning_rate": 3.964413793103448e-06, |
| "loss": 0.2623, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.042333333333333334, |
| "grad_norm": 5.381565570831299, |
| "learning_rate": 3.96303448275862e-06, |
| "loss": 0.2702, |
| "step": 635 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 5.521668434143066, |
| "learning_rate": 3.961655172413793e-06, |
| "loss": 0.2871, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.043, |
| "grad_norm": 5.110403060913086, |
| "learning_rate": 3.960275862068965e-06, |
| "loss": 0.2616, |
| "step": 645 |
| }, |
| { |
| "epoch": 0.043333333333333335, |
| "grad_norm": 4.950959205627441, |
| "learning_rate": 3.958896551724138e-06, |
| "loss": 0.3074, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.043666666666666666, |
| "grad_norm": 4.852400302886963, |
| "learning_rate": 3.957517241379311e-06, |
| "loss": 0.2758, |
| "step": 655 |
| }, |
| { |
| "epoch": 0.044, |
| "grad_norm": 6.835658550262451, |
| "learning_rate": 3.9561379310344825e-06, |
| "loss": 0.2716, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.044333333333333336, |
| "grad_norm": 5.471399784088135, |
| "learning_rate": 3.954758620689655e-06, |
| "loss": 0.3054, |
| "step": 665 |
| }, |
| { |
| "epoch": 0.04466666666666667, |
| "grad_norm": 5.511785507202148, |
| "learning_rate": 3.953379310344828e-06, |
| "loss": 0.2631, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.045, |
| "grad_norm": 4.6403350830078125, |
| "learning_rate": 3.952e-06, |
| "loss": 0.2521, |
| "step": 675 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 5.979584693908691, |
| "learning_rate": 3.950620689655172e-06, |
| "loss": 0.3324, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.04566666666666667, |
| "grad_norm": 6.192240238189697, |
| "learning_rate": 3.949241379310345e-06, |
| "loss": 0.3047, |
| "step": 685 |
| }, |
| { |
| "epoch": 0.046, |
| "grad_norm": 4.901388645172119, |
| "learning_rate": 3.947862068965517e-06, |
| "loss": 0.2527, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.04633333333333333, |
| "grad_norm": 4.955352783203125, |
| "learning_rate": 3.946482758620689e-06, |
| "loss": 0.2754, |
| "step": 695 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 5.042239189147949, |
| "learning_rate": 3.945103448275862e-06, |
| "loss": 0.3105, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.047, |
| "grad_norm": 5.504079341888428, |
| "learning_rate": 3.943724137931035e-06, |
| "loss": 0.3149, |
| "step": 705 |
| }, |
| { |
| "epoch": 0.04733333333333333, |
| "grad_norm": 5.746407985687256, |
| "learning_rate": 3.9423448275862065e-06, |
| "loss": 0.2838, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.04766666666666667, |
| "grad_norm": 4.522651672363281, |
| "learning_rate": 3.940965517241379e-06, |
| "loss": 0.3182, |
| "step": 715 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 5.204158782958984, |
| "learning_rate": 3.939586206896552e-06, |
| "loss": 0.3231, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.04833333333333333, |
| "grad_norm": 4.524038791656494, |
| "learning_rate": 3.938206896551724e-06, |
| "loss": 0.2711, |
| "step": 725 |
| }, |
| { |
| "epoch": 0.048666666666666664, |
| "grad_norm": 4.675572395324707, |
| "learning_rate": 3.936827586206896e-06, |
| "loss": 0.2778, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.049, |
| "grad_norm": 6.818597793579102, |
| "learning_rate": 3.935448275862069e-06, |
| "loss": 0.3141, |
| "step": 735 |
| }, |
| { |
| "epoch": 0.04933333333333333, |
| "grad_norm": 4.870628833770752, |
| "learning_rate": 3.934068965517241e-06, |
| "loss": 0.2741, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.049666666666666665, |
| "grad_norm": 4.924275875091553, |
| "learning_rate": 3.9326896551724135e-06, |
| "loss": 0.2505, |
| "step": 745 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 4.999272346496582, |
| "learning_rate": 3.931310344827586e-06, |
| "loss": 0.2927, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.050333333333333334, |
| "grad_norm": 5.06833028793335, |
| "learning_rate": 3.929931034482759e-06, |
| "loss": 0.2852, |
| "step": 755 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 4.892880916595459, |
| "learning_rate": 3.928551724137931e-06, |
| "loss": 0.2851, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.051, |
| "grad_norm": 7.122994422912598, |
| "learning_rate": 3.927172413793103e-06, |
| "loss": 0.3028, |
| "step": 765 |
| }, |
| { |
| "epoch": 0.051333333333333335, |
| "grad_norm": 4.35882043838501, |
| "learning_rate": 3.925793103448276e-06, |
| "loss": 0.2841, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.051666666666666666, |
| "grad_norm": 5.122171401977539, |
| "learning_rate": 3.924413793103448e-06, |
| "loss": 0.2419, |
| "step": 775 |
| }, |
| { |
| "epoch": 0.052, |
| "grad_norm": 4.626972198486328, |
| "learning_rate": 3.92303448275862e-06, |
| "loss": 0.2852, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.052333333333333336, |
| "grad_norm": 5.0259504318237305, |
| "learning_rate": 3.921655172413793e-06, |
| "loss": 0.2915, |
| "step": 785 |
| }, |
| { |
| "epoch": 0.05266666666666667, |
| "grad_norm": 5.1319260597229, |
| "learning_rate": 3.920275862068966e-06, |
| "loss": 0.2395, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.053, |
| "grad_norm": 6.219261169433594, |
| "learning_rate": 3.9188965517241375e-06, |
| "loss": 0.2563, |
| "step": 795 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 9.795665740966797, |
| "learning_rate": 3.91751724137931e-06, |
| "loss": 0.3215, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.05366666666666667, |
| "grad_norm": 5.90310525894165, |
| "learning_rate": 3.916137931034483e-06, |
| "loss": 0.2673, |
| "step": 805 |
| }, |
| { |
| "epoch": 0.054, |
| "grad_norm": 5.309284687042236, |
| "learning_rate": 3.914758620689655e-06, |
| "loss": 0.2557, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.05433333333333333, |
| "grad_norm": 4.818344593048096, |
| "learning_rate": 3.913379310344827e-06, |
| "loss": 0.329, |
| "step": 815 |
| }, |
| { |
| "epoch": 0.05466666666666667, |
| "grad_norm": 5.163924217224121, |
| "learning_rate": 3.912e-06, |
| "loss": 0.2812, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.055, |
| "grad_norm": 5.454361438751221, |
| "learning_rate": 3.910620689655172e-06, |
| "loss": 0.2778, |
| "step": 825 |
| }, |
| { |
| "epoch": 0.05533333333333333, |
| "grad_norm": 4.6273722648620605, |
| "learning_rate": 3.9092413793103445e-06, |
| "loss": 0.2945, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.05566666666666667, |
| "grad_norm": 6.013551235198975, |
| "learning_rate": 3.907862068965517e-06, |
| "loss": 0.2624, |
| "step": 835 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 5.0454020500183105, |
| "learning_rate": 3.90648275862069e-06, |
| "loss": 0.2891, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.05633333333333333, |
| "grad_norm": 5.594552993774414, |
| "learning_rate": 3.9051034482758624e-06, |
| "loss": 0.2771, |
| "step": 845 |
| }, |
| { |
| "epoch": 0.056666666666666664, |
| "grad_norm": 5.8433098793029785, |
| "learning_rate": 3.903724137931034e-06, |
| "loss": 0.2708, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.057, |
| "grad_norm": 5.145798206329346, |
| "learning_rate": 3.902344827586207e-06, |
| "loss": 0.28, |
| "step": 855 |
| }, |
| { |
| "epoch": 0.05733333333333333, |
| "grad_norm": 5.682314395904541, |
| "learning_rate": 3.900965517241379e-06, |
| "loss": 0.2851, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.057666666666666665, |
| "grad_norm": 4.193619728088379, |
| "learning_rate": 3.899586206896551e-06, |
| "loss": 0.2584, |
| "step": 865 |
| }, |
| { |
| "epoch": 0.058, |
| "grad_norm": 5.782890796661377, |
| "learning_rate": 3.898206896551724e-06, |
| "loss": 0.2312, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.058333333333333334, |
| "grad_norm": 5.957684516906738, |
| "learning_rate": 3.896827586206896e-06, |
| "loss": 0.3455, |
| "step": 875 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 5.391818046569824, |
| "learning_rate": 3.8954482758620685e-06, |
| "loss": 0.3104, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.059, |
| "grad_norm": 5.226023197174072, |
| "learning_rate": 3.894068965517241e-06, |
| "loss": 0.2548, |
| "step": 885 |
| }, |
| { |
| "epoch": 0.059333333333333335, |
| "grad_norm": 4.266899108886719, |
| "learning_rate": 3.892689655172414e-06, |
| "loss": 0.2694, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.059666666666666666, |
| "grad_norm": 5.6492133140563965, |
| "learning_rate": 3.8913103448275865e-06, |
| "loss": 0.2958, |
| "step": 895 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 5.625582695007324, |
| "learning_rate": 3.889931034482758e-06, |
| "loss": 0.2865, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.060333333333333336, |
| "grad_norm": 4.771749973297119, |
| "learning_rate": 3.888551724137931e-06, |
| "loss": 0.2501, |
| "step": 905 |
| }, |
| { |
| "epoch": 0.06066666666666667, |
| "grad_norm": 5.669247150421143, |
| "learning_rate": 3.887172413793104e-06, |
| "loss": 0.2576, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.061, |
| "grad_norm": 4.88996696472168, |
| "learning_rate": 3.8857931034482755e-06, |
| "loss": 0.2331, |
| "step": 915 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 4.976366996765137, |
| "learning_rate": 3.884413793103448e-06, |
| "loss": 0.2708, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.06166666666666667, |
| "grad_norm": 5.664881229400635, |
| "learning_rate": 3.88303448275862e-06, |
| "loss": 0.2602, |
| "step": 925 |
| }, |
| { |
| "epoch": 0.062, |
| "grad_norm": 5.961103439331055, |
| "learning_rate": 3.8816551724137934e-06, |
| "loss": 0.2735, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.06233333333333333, |
| "grad_norm": 5.700056552886963, |
| "learning_rate": 3.880275862068965e-06, |
| "loss": 0.3038, |
| "step": 935 |
| }, |
| { |
| "epoch": 0.06266666666666666, |
| "grad_norm": 5.433390140533447, |
| "learning_rate": 3.878896551724138e-06, |
| "loss": 0.2416, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.063, |
| "grad_norm": 4.917166709899902, |
| "learning_rate": 3.8775172413793106e-06, |
| "loss": 0.298, |
| "step": 945 |
| }, |
| { |
| "epoch": 0.06333333333333334, |
| "grad_norm": 5.239724159240723, |
| "learning_rate": 3.876137931034482e-06, |
| "loss": 0.2779, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.06366666666666666, |
| "grad_norm": 6.1338276863098145, |
| "learning_rate": 3.874758620689655e-06, |
| "loss": 0.2999, |
| "step": 955 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 4.84409236907959, |
| "learning_rate": 3.873379310344828e-06, |
| "loss": 0.3013, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.06433333333333334, |
| "grad_norm": 5.039527416229248, |
| "learning_rate": 3.8719999999999995e-06, |
| "loss": 0.2673, |
| "step": 965 |
| }, |
| { |
| "epoch": 0.06466666666666666, |
| "grad_norm": 3.8581650257110596, |
| "learning_rate": 3.870620689655172e-06, |
| "loss": 0.2622, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.065, |
| "grad_norm": 5.322226047515869, |
| "learning_rate": 3.869241379310345e-06, |
| "loss": 0.3039, |
| "step": 975 |
| }, |
| { |
| "epoch": 0.06533333333333333, |
| "grad_norm": 5.590739727020264, |
| "learning_rate": 3.8678620689655175e-06, |
| "loss": 0.3001, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.06566666666666666, |
| "grad_norm": 4.952889919281006, |
| "learning_rate": 3.866482758620689e-06, |
| "loss": 0.26, |
| "step": 985 |
| }, |
| { |
| "epoch": 0.066, |
| "grad_norm": 4.7487874031066895, |
| "learning_rate": 3.865103448275862e-06, |
| "loss": 0.3203, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.06633333333333333, |
| "grad_norm": 4.813299655914307, |
| "learning_rate": 3.863724137931035e-06, |
| "loss": 0.2324, |
| "step": 995 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 5.511954307556152, |
| "learning_rate": 3.8623448275862065e-06, |
| "loss": 0.3325, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "eval_loss": 0.25945043563842773, |
| "eval_runtime": 139.0804, |
| "eval_samples_per_second": 4.314, |
| "eval_steps_per_second": 1.079, |
| "eval_wer": 13.224406433495023, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.067, |
| "grad_norm": 7.003694534301758, |
| "learning_rate": 3.860965517241379e-06, |
| "loss": 0.2561, |
| "step": 1005 |
| }, |
| { |
| "epoch": 0.06733333333333333, |
| "grad_norm": 4.3975348472595215, |
| "learning_rate": 3.859586206896552e-06, |
| "loss": 0.2514, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.06766666666666667, |
| "grad_norm": 6.0388336181640625, |
| "learning_rate": 3.858206896551724e-06, |
| "loss": 0.314, |
| "step": 1015 |
| }, |
| { |
| "epoch": 0.068, |
| "grad_norm": 5.268043041229248, |
| "learning_rate": 3.856827586206896e-06, |
| "loss": 0.2906, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.06833333333333333, |
| "grad_norm": 4.4202375411987305, |
| "learning_rate": 3.855448275862069e-06, |
| "loss": 0.2776, |
| "step": 1025 |
| }, |
| { |
| "epoch": 0.06866666666666667, |
| "grad_norm": 4.538000583648682, |
| "learning_rate": 3.8540689655172416e-06, |
| "loss": 0.2682, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.069, |
| "grad_norm": 4.032087802886963, |
| "learning_rate": 3.852689655172413e-06, |
| "loss": 0.2626, |
| "step": 1035 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 5.682154655456543, |
| "learning_rate": 3.851310344827586e-06, |
| "loss": 0.2946, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.06966666666666667, |
| "grad_norm": 4.8471503257751465, |
| "learning_rate": 3.849931034482759e-06, |
| "loss": 0.2579, |
| "step": 1045 |
| }, |
| { |
| "epoch": 0.07, |
| "grad_norm": 5.817379951477051, |
| "learning_rate": 3.8485517241379305e-06, |
| "loss": 0.2991, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.07033333333333333, |
| "grad_norm": 4.270869731903076, |
| "learning_rate": 3.847172413793103e-06, |
| "loss": 0.2907, |
| "step": 1055 |
| }, |
| { |
| "epoch": 0.07066666666666667, |
| "grad_norm": 4.319159030914307, |
| "learning_rate": 3.845793103448276e-06, |
| "loss": 0.2121, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.071, |
| "grad_norm": 4.93163537979126, |
| "learning_rate": 3.844413793103448e-06, |
| "loss": 0.3029, |
| "step": 1065 |
| }, |
| { |
| "epoch": 0.07133333333333333, |
| "grad_norm": 6.254386901855469, |
| "learning_rate": 3.84303448275862e-06, |
| "loss": 0.2434, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.07166666666666667, |
| "grad_norm": 6.222066402435303, |
| "learning_rate": 3.841655172413793e-06, |
| "loss": 0.2908, |
| "step": 1075 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 5.005525588989258, |
| "learning_rate": 3.840275862068966e-06, |
| "loss": 0.2616, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.07233333333333333, |
| "grad_norm": 4.870983600616455, |
| "learning_rate": 3.8388965517241374e-06, |
| "loss": 0.3037, |
| "step": 1085 |
| }, |
| { |
| "epoch": 0.07266666666666667, |
| "grad_norm": 6.23946475982666, |
| "learning_rate": 3.83751724137931e-06, |
| "loss": 0.2738, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.073, |
| "grad_norm": 5.525810241699219, |
| "learning_rate": 3.836137931034483e-06, |
| "loss": 0.2528, |
| "step": 1095 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 6.459913730621338, |
| "learning_rate": 3.834758620689655e-06, |
| "loss": 0.3016, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.07366666666666667, |
| "grad_norm": 4.946430206298828, |
| "learning_rate": 3.833379310344827e-06, |
| "loss": 0.2482, |
| "step": 1105 |
| }, |
| { |
| "epoch": 0.074, |
| "grad_norm": 3.902616024017334, |
| "learning_rate": 3.832e-06, |
| "loss": 0.2747, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.07433333333333333, |
| "grad_norm": 5.0336809158325195, |
| "learning_rate": 3.830620689655172e-06, |
| "loss": 0.2884, |
| "step": 1115 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 5.140960693359375, |
| "learning_rate": 3.829241379310345e-06, |
| "loss": 0.2646, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.075, |
| "grad_norm": 4.812443256378174, |
| "learning_rate": 3.827862068965517e-06, |
| "loss": 0.2302, |
| "step": 1125 |
| }, |
| { |
| "epoch": 0.07533333333333334, |
| "grad_norm": 4.4208879470825195, |
| "learning_rate": 3.82648275862069e-06, |
| "loss": 0.3537, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.07566666666666666, |
| "grad_norm": 4.314350128173828, |
| "learning_rate": 3.825103448275862e-06, |
| "loss": 0.2998, |
| "step": 1135 |
| }, |
| { |
| "epoch": 0.076, |
| "grad_norm": 4.672874927520752, |
| "learning_rate": 3.823724137931034e-06, |
| "loss": 0.2848, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.07633333333333334, |
| "grad_norm": 4.471819877624512, |
| "learning_rate": 3.822344827586207e-06, |
| "loss": 0.2543, |
| "step": 1145 |
| }, |
| { |
| "epoch": 0.07666666666666666, |
| "grad_norm": 4.000628471374512, |
| "learning_rate": 3.820965517241379e-06, |
| "loss": 0.3088, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.077, |
| "grad_norm": 4.908796787261963, |
| "learning_rate": 3.819586206896551e-06, |
| "loss": 0.2784, |
| "step": 1155 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 4.480701923370361, |
| "learning_rate": 3.818206896551724e-06, |
| "loss": 0.2934, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.07766666666666666, |
| "grad_norm": 5.785653114318848, |
| "learning_rate": 3.816827586206897e-06, |
| "loss": 0.2518, |
| "step": 1165 |
| }, |
| { |
| "epoch": 0.078, |
| "grad_norm": 5.864141464233398, |
| "learning_rate": 3.815448275862069e-06, |
| "loss": 0.3377, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.07833333333333334, |
| "grad_norm": 5.776226997375488, |
| "learning_rate": 3.8140689655172415e-06, |
| "loss": 0.3108, |
| "step": 1175 |
| }, |
| { |
| "epoch": 0.07866666666666666, |
| "grad_norm": 5.228902816772461, |
| "learning_rate": 3.8126896551724138e-06, |
| "loss": 0.3004, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.079, |
| "grad_norm": 5.371283531188965, |
| "learning_rate": 3.811310344827586e-06, |
| "loss": 0.3444, |
| "step": 1185 |
| }, |
| { |
| "epoch": 0.07933333333333334, |
| "grad_norm": 4.180716514587402, |
| "learning_rate": 3.8099310344827582e-06, |
| "loss": 0.2921, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.07966666666666666, |
| "grad_norm": 4.9367899894714355, |
| "learning_rate": 3.808551724137931e-06, |
| "loss": 0.2494, |
| "step": 1195 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 6.15248966217041, |
| "learning_rate": 3.807172413793103e-06, |
| "loss": 0.2862, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.08033333333333334, |
| "grad_norm": 3.990583896636963, |
| "learning_rate": 3.8057931034482754e-06, |
| "loss": 0.2312, |
| "step": 1205 |
| }, |
| { |
| "epoch": 0.08066666666666666, |
| "grad_norm": 5.060131549835205, |
| "learning_rate": 3.804413793103448e-06, |
| "loss": 0.2277, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.081, |
| "grad_norm": 4.86639928817749, |
| "learning_rate": 3.8030344827586207e-06, |
| "loss": 0.2859, |
| "step": 1215 |
| }, |
| { |
| "epoch": 0.08133333333333333, |
| "grad_norm": 6.692898750305176, |
| "learning_rate": 3.801655172413793e-06, |
| "loss": 0.3708, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.08166666666666667, |
| "grad_norm": 4.608207702636719, |
| "learning_rate": 3.8002758620689656e-06, |
| "loss": 0.2656, |
| "step": 1225 |
| }, |
| { |
| "epoch": 0.082, |
| "grad_norm": 6.591036319732666, |
| "learning_rate": 3.798896551724138e-06, |
| "loss": 0.2934, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.08233333333333333, |
| "grad_norm": 5.0066819190979, |
| "learning_rate": 3.79751724137931e-06, |
| "loss": 0.281, |
| "step": 1235 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 6.584254741668701, |
| "learning_rate": 3.7961379310344827e-06, |
| "loss": 0.3168, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.083, |
| "grad_norm": 4.0762248039245605, |
| "learning_rate": 3.794758620689655e-06, |
| "loss": 0.2344, |
| "step": 1245 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 4.990663051605225, |
| "learning_rate": 3.793379310344827e-06, |
| "loss": 0.2368, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.08366666666666667, |
| "grad_norm": 4.102662086486816, |
| "learning_rate": 3.7919999999999994e-06, |
| "loss": 0.2505, |
| "step": 1255 |
| }, |
| { |
| "epoch": 0.084, |
| "grad_norm": 4.488475322723389, |
| "learning_rate": 3.7906206896551725e-06, |
| "loss": 0.2309, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.08433333333333333, |
| "grad_norm": 4.8415021896362305, |
| "learning_rate": 3.7892413793103448e-06, |
| "loss": 0.258, |
| "step": 1265 |
| }, |
| { |
| "epoch": 0.08466666666666667, |
| "grad_norm": 5.566763877868652, |
| "learning_rate": 3.787862068965517e-06, |
| "loss": 0.2825, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.085, |
| "grad_norm": 4.509488582611084, |
| "learning_rate": 3.7864827586206897e-06, |
| "loss": 0.2838, |
| "step": 1275 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 6.387430667877197, |
| "learning_rate": 3.785103448275862e-06, |
| "loss": 0.2634, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.08566666666666667, |
| "grad_norm": 5.3504838943481445, |
| "learning_rate": 3.783724137931034e-06, |
| "loss": 0.2674, |
| "step": 1285 |
| }, |
| { |
| "epoch": 0.086, |
| "grad_norm": 4.691121578216553, |
| "learning_rate": 3.782344827586207e-06, |
| "loss": 0.2884, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.08633333333333333, |
| "grad_norm": 6.012605667114258, |
| "learning_rate": 3.780965517241379e-06, |
| "loss": 0.2448, |
| "step": 1295 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 5.194992542266846, |
| "learning_rate": 3.7795862068965513e-06, |
| "loss": 0.2451, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.087, |
| "grad_norm": 4.778232574462891, |
| "learning_rate": 3.778206896551724e-06, |
| "loss": 0.2286, |
| "step": 1305 |
| }, |
| { |
| "epoch": 0.08733333333333333, |
| "grad_norm": 5.313968658447266, |
| "learning_rate": 3.7768275862068966e-06, |
| "loss": 0.2541, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.08766666666666667, |
| "grad_norm": 5.243144512176514, |
| "learning_rate": 3.775448275862069e-06, |
| "loss": 0.3151, |
| "step": 1315 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 4.918150424957275, |
| "learning_rate": 3.7740689655172415e-06, |
| "loss": 0.2596, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.08833333333333333, |
| "grad_norm": 6.457653522491455, |
| "learning_rate": 3.7726896551724137e-06, |
| "loss": 0.3397, |
| "step": 1325 |
| }, |
| { |
| "epoch": 0.08866666666666667, |
| "grad_norm": 4.918553352355957, |
| "learning_rate": 3.771310344827586e-06, |
| "loss": 0.237, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.089, |
| "grad_norm": 5.038596153259277, |
| "learning_rate": 3.769931034482758e-06, |
| "loss": 0.2729, |
| "step": 1335 |
| }, |
| { |
| "epoch": 0.08933333333333333, |
| "grad_norm": 5.273203372955322, |
| "learning_rate": 3.768551724137931e-06, |
| "loss": 0.2552, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.08966666666666667, |
| "grad_norm": 4.90943717956543, |
| "learning_rate": 3.767172413793103e-06, |
| "loss": 0.274, |
| "step": 1345 |
| }, |
| { |
| "epoch": 0.09, |
| "grad_norm": 5.091463088989258, |
| "learning_rate": 3.7657931034482753e-06, |
| "loss": 0.2795, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.09033333333333333, |
| "grad_norm": 4.01015043258667, |
| "learning_rate": 3.7644137931034484e-06, |
| "loss": 0.2526, |
| "step": 1355 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 4.550036430358887, |
| "learning_rate": 3.7630344827586207e-06, |
| "loss": 0.2465, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.091, |
| "grad_norm": 5.008514404296875, |
| "learning_rate": 3.761655172413793e-06, |
| "loss": 0.2468, |
| "step": 1365 |
| }, |
| { |
| "epoch": 0.09133333333333334, |
| "grad_norm": 4.9785614013671875, |
| "learning_rate": 3.7602758620689656e-06, |
| "loss": 0.2339, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.09166666666666666, |
| "grad_norm": 4.061981678009033, |
| "learning_rate": 3.758896551724138e-06, |
| "loss": 0.2275, |
| "step": 1375 |
| }, |
| { |
| "epoch": 0.092, |
| "grad_norm": 6.866710662841797, |
| "learning_rate": 3.75751724137931e-06, |
| "loss": 0.3138, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.09233333333333334, |
| "grad_norm": 5.299499034881592, |
| "learning_rate": 3.7561379310344827e-06, |
| "loss": 0.2687, |
| "step": 1385 |
| }, |
| { |
| "epoch": 0.09266666666666666, |
| "grad_norm": 5.11612606048584, |
| "learning_rate": 3.754758620689655e-06, |
| "loss": 0.3068, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.093, |
| "grad_norm": 4.906528949737549, |
| "learning_rate": 3.753379310344827e-06, |
| "loss": 0.2683, |
| "step": 1395 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 4.881203651428223, |
| "learning_rate": 3.7519999999999994e-06, |
| "loss": 0.2192, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.09366666666666666, |
| "grad_norm": 5.611764430999756, |
| "learning_rate": 3.7506206896551725e-06, |
| "loss": 0.2534, |
| "step": 1405 |
| }, |
| { |
| "epoch": 0.094, |
| "grad_norm": 4.44486665725708, |
| "learning_rate": 3.7492413793103447e-06, |
| "loss": 0.2349, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.09433333333333334, |
| "grad_norm": 4.563302993774414, |
| "learning_rate": 3.747862068965517e-06, |
| "loss": 0.261, |
| "step": 1415 |
| }, |
| { |
| "epoch": 0.09466666666666666, |
| "grad_norm": 4.244008541107178, |
| "learning_rate": 3.7464827586206896e-06, |
| "loss": 0.2793, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.095, |
| "grad_norm": 5.097350120544434, |
| "learning_rate": 3.745103448275862e-06, |
| "loss": 0.291, |
| "step": 1425 |
| }, |
| { |
| "epoch": 0.09533333333333334, |
| "grad_norm": 5.585333824157715, |
| "learning_rate": 3.743724137931034e-06, |
| "loss": 0.2653, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.09566666666666666, |
| "grad_norm": 3.88558030128479, |
| "learning_rate": 3.7423448275862068e-06, |
| "loss": 0.3022, |
| "step": 1435 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 4.54000186920166, |
| "learning_rate": 3.740965517241379e-06, |
| "loss": 0.2747, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.09633333333333334, |
| "grad_norm": 3.8508284091949463, |
| "learning_rate": 3.7395862068965512e-06, |
| "loss": 0.2619, |
| "step": 1445 |
| }, |
| { |
| "epoch": 0.09666666666666666, |
| "grad_norm": 4.385409355163574, |
| "learning_rate": 3.7382068965517243e-06, |
| "loss": 0.2479, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.097, |
| "grad_norm": 5.179412841796875, |
| "learning_rate": 3.7368275862068965e-06, |
| "loss": 0.2886, |
| "step": 1455 |
| }, |
| { |
| "epoch": 0.09733333333333333, |
| "grad_norm": 5.31596040725708, |
| "learning_rate": 3.7354482758620688e-06, |
| "loss": 0.2543, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.09766666666666667, |
| "grad_norm": 4.653109073638916, |
| "learning_rate": 3.7340689655172414e-06, |
| "loss": 0.2662, |
| "step": 1465 |
| }, |
| { |
| "epoch": 0.098, |
| "grad_norm": 5.061960220336914, |
| "learning_rate": 3.7326896551724137e-06, |
| "loss": 0.3106, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.09833333333333333, |
| "grad_norm": 4.722198009490967, |
| "learning_rate": 3.731310344827586e-06, |
| "loss": 0.2542, |
| "step": 1475 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 5.234065055847168, |
| "learning_rate": 3.729931034482758e-06, |
| "loss": 0.2314, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.099, |
| "grad_norm": 5.877997875213623, |
| "learning_rate": 3.728551724137931e-06, |
| "loss": 0.2618, |
| "step": 1485 |
| }, |
| { |
| "epoch": 0.09933333333333333, |
| "grad_norm": 5.040881633758545, |
| "learning_rate": 3.727172413793103e-06, |
| "loss": 0.2594, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.09966666666666667, |
| "grad_norm": 4.136047840118408, |
| "learning_rate": 3.7257931034482757e-06, |
| "loss": 0.2977, |
| "step": 1495 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 4.5455522537231445, |
| "learning_rate": 3.7244137931034484e-06, |
| "loss": 0.2542, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.10033333333333333, |
| "grad_norm": 4.754386901855469, |
| "learning_rate": 3.7230344827586206e-06, |
| "loss": 0.2584, |
| "step": 1505 |
| }, |
| { |
| "epoch": 0.10066666666666667, |
| "grad_norm": 5.083920478820801, |
| "learning_rate": 3.721655172413793e-06, |
| "loss": 0.2453, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.101, |
| "grad_norm": 5.068266868591309, |
| "learning_rate": 3.7202758620689655e-06, |
| "loss": 0.3788, |
| "step": 1515 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 4.6681718826293945, |
| "learning_rate": 3.7188965517241377e-06, |
| "loss": 0.3632, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.10166666666666667, |
| "grad_norm": 4.75352144241333, |
| "learning_rate": 3.71751724137931e-06, |
| "loss": 0.2456, |
| "step": 1525 |
| }, |
| { |
| "epoch": 0.102, |
| "grad_norm": 4.979728698730469, |
| "learning_rate": 3.7161379310344826e-06, |
| "loss": 0.2734, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.10233333333333333, |
| "grad_norm": 4.664429664611816, |
| "learning_rate": 3.714758620689655e-06, |
| "loss": 0.2404, |
| "step": 1535 |
| }, |
| { |
| "epoch": 0.10266666666666667, |
| "grad_norm": 4.773996353149414, |
| "learning_rate": 3.713379310344827e-06, |
| "loss": 0.2234, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.103, |
| "grad_norm": 5.295383453369141, |
| "learning_rate": 3.712e-06, |
| "loss": 0.2996, |
| "step": 1545 |
| }, |
| { |
| "epoch": 0.10333333333333333, |
| "grad_norm": 5.3843674659729, |
| "learning_rate": 3.7106206896551724e-06, |
| "loss": 0.2469, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.10366666666666667, |
| "grad_norm": 4.073385715484619, |
| "learning_rate": 3.7092413793103447e-06, |
| "loss": 0.2974, |
| "step": 1555 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 5.766740322113037, |
| "learning_rate": 3.707862068965517e-06, |
| "loss": 0.3043, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.10433333333333333, |
| "grad_norm": 4.732587814331055, |
| "learning_rate": 3.7064827586206896e-06, |
| "loss": 0.2583, |
| "step": 1565 |
| }, |
| { |
| "epoch": 0.10466666666666667, |
| "grad_norm": 4.8575263023376465, |
| "learning_rate": 3.705103448275862e-06, |
| "loss": 0.3531, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.105, |
| "grad_norm": 5.241917133331299, |
| "learning_rate": 3.703724137931034e-06, |
| "loss": 0.2694, |
| "step": 1575 |
| }, |
| { |
| "epoch": 0.10533333333333333, |
| "grad_norm": 5.0814433097839355, |
| "learning_rate": 3.7023448275862067e-06, |
| "loss": 0.2592, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.10566666666666667, |
| "grad_norm": 5.138918876647949, |
| "learning_rate": 3.700965517241379e-06, |
| "loss": 0.2356, |
| "step": 1585 |
| }, |
| { |
| "epoch": 0.106, |
| "grad_norm": 4.869070529937744, |
| "learning_rate": 3.6995862068965516e-06, |
| "loss": 0.2821, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.10633333333333334, |
| "grad_norm": 3.5198214054107666, |
| "learning_rate": 3.6982068965517243e-06, |
| "loss": 0.2631, |
| "step": 1595 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 5.768096923828125, |
| "learning_rate": 3.6968275862068965e-06, |
| "loss": 0.2592, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.107, |
| "grad_norm": 5.376443862915039, |
| "learning_rate": 3.6954482758620687e-06, |
| "loss": 0.2922, |
| "step": 1605 |
| }, |
| { |
| "epoch": 0.10733333333333334, |
| "grad_norm": 4.455847263336182, |
| "learning_rate": 3.6940689655172414e-06, |
| "loss": 0.3444, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.10766666666666666, |
| "grad_norm": 5.24611234664917, |
| "learning_rate": 3.6926896551724136e-06, |
| "loss": 0.2527, |
| "step": 1615 |
| }, |
| { |
| "epoch": 0.108, |
| "grad_norm": 4.859856128692627, |
| "learning_rate": 3.691310344827586e-06, |
| "loss": 0.3186, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.10833333333333334, |
| "grad_norm": 4.707637310028076, |
| "learning_rate": 3.6899310344827585e-06, |
| "loss": 0.2355, |
| "step": 1625 |
| }, |
| { |
| "epoch": 0.10866666666666666, |
| "grad_norm": 4.985675811767578, |
| "learning_rate": 3.6885517241379308e-06, |
| "loss": 0.2337, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.109, |
| "grad_norm": 4.2930827140808105, |
| "learning_rate": 3.687172413793103e-06, |
| "loss": 0.2256, |
| "step": 1635 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 5.156063079833984, |
| "learning_rate": 3.6857931034482757e-06, |
| "loss": 0.2643, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.10966666666666666, |
| "grad_norm": 5.340132236480713, |
| "learning_rate": 3.6844137931034483e-06, |
| "loss": 0.2794, |
| "step": 1645 |
| }, |
| { |
| "epoch": 0.11, |
| "grad_norm": 4.3220319747924805, |
| "learning_rate": 3.6830344827586206e-06, |
| "loss": 0.2199, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.11033333333333334, |
| "grad_norm": 5.682506561279297, |
| "learning_rate": 3.681655172413793e-06, |
| "loss": 0.2873, |
| "step": 1655 |
| }, |
| { |
| "epoch": 0.11066666666666666, |
| "grad_norm": 5.9761176109313965, |
| "learning_rate": 3.6802758620689655e-06, |
| "loss": 0.2611, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.111, |
| "grad_norm": 4.950174331665039, |
| "learning_rate": 3.6788965517241377e-06, |
| "loss": 0.2557, |
| "step": 1665 |
| }, |
| { |
| "epoch": 0.11133333333333334, |
| "grad_norm": 5.053467273712158, |
| "learning_rate": 3.67751724137931e-06, |
| "loss": 0.2746, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.11166666666666666, |
| "grad_norm": 4.110051155090332, |
| "learning_rate": 3.6761379310344826e-06, |
| "loss": 0.2382, |
| "step": 1675 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 4.34512186050415, |
| "learning_rate": 3.674758620689655e-06, |
| "loss": 0.2822, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.11233333333333333, |
| "grad_norm": 4.521066188812256, |
| "learning_rate": 3.6733793103448275e-06, |
| "loss": 0.2488, |
| "step": 1685 |
| }, |
| { |
| "epoch": 0.11266666666666666, |
| "grad_norm": 7.6328959465026855, |
| "learning_rate": 3.672e-06, |
| "loss": 0.2313, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.113, |
| "grad_norm": 4.275876998901367, |
| "learning_rate": 3.6706206896551724e-06, |
| "loss": 0.2901, |
| "step": 1695 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 4.789595603942871, |
| "learning_rate": 3.6692413793103446e-06, |
| "loss": 0.2413, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.11366666666666667, |
| "grad_norm": 4.3701581954956055, |
| "learning_rate": 3.667862068965517e-06, |
| "loss": 0.2769, |
| "step": 1705 |
| }, |
| { |
| "epoch": 0.114, |
| "grad_norm": 5.730388164520264, |
| "learning_rate": 3.6664827586206895e-06, |
| "loss": 0.2637, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.11433333333333333, |
| "grad_norm": 4.73004150390625, |
| "learning_rate": 3.6651034482758618e-06, |
| "loss": 0.2917, |
| "step": 1715 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 4.420704364776611, |
| "learning_rate": 3.663724137931034e-06, |
| "loss": 0.2515, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.115, |
| "grad_norm": 5.096787929534912, |
| "learning_rate": 3.6623448275862067e-06, |
| "loss": 0.2771, |
| "step": 1725 |
| }, |
| { |
| "epoch": 0.11533333333333333, |
| "grad_norm": 4.935615539550781, |
| "learning_rate": 3.6609655172413793e-06, |
| "loss": 0.2652, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.11566666666666667, |
| "grad_norm": 5.216274738311768, |
| "learning_rate": 3.6595862068965516e-06, |
| "loss": 0.2334, |
| "step": 1735 |
| }, |
| { |
| "epoch": 0.116, |
| "grad_norm": 4.653584957122803, |
| "learning_rate": 3.6582068965517242e-06, |
| "loss": 0.2181, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.11633333333333333, |
| "grad_norm": 5.3647308349609375, |
| "learning_rate": 3.6568275862068965e-06, |
| "loss": 0.2554, |
| "step": 1745 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 4.96422004699707, |
| "learning_rate": 3.6554482758620687e-06, |
| "loss": 0.2996, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.117, |
| "grad_norm": 4.40029764175415, |
| "learning_rate": 3.6540689655172414e-06, |
| "loss": 0.2818, |
| "step": 1755 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 5.796911716461182, |
| "learning_rate": 3.6526896551724136e-06, |
| "loss": 0.2599, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.11766666666666667, |
| "grad_norm": 5.33125114440918, |
| "learning_rate": 3.651310344827586e-06, |
| "loss": 0.2605, |
| "step": 1765 |
| }, |
| { |
| "epoch": 0.118, |
| "grad_norm": 4.7566375732421875, |
| "learning_rate": 3.6499310344827585e-06, |
| "loss": 0.2126, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.11833333333333333, |
| "grad_norm": 5.305136203765869, |
| "learning_rate": 3.6485517241379307e-06, |
| "loss": 0.289, |
| "step": 1775 |
| }, |
| { |
| "epoch": 0.11866666666666667, |
| "grad_norm": 3.6046323776245117, |
| "learning_rate": 3.6471724137931034e-06, |
| "loss": 0.2685, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.119, |
| "grad_norm": 4.755594730377197, |
| "learning_rate": 3.6457931034482756e-06, |
| "loss": 0.2511, |
| "step": 1785 |
| }, |
| { |
| "epoch": 0.11933333333333333, |
| "grad_norm": 3.969334125518799, |
| "learning_rate": 3.6444137931034483e-06, |
| "loss": 0.2285, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.11966666666666667, |
| "grad_norm": 5.696120738983154, |
| "learning_rate": 3.6430344827586205e-06, |
| "loss": 0.3646, |
| "step": 1795 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 4.790066719055176, |
| "learning_rate": 3.6416551724137928e-06, |
| "loss": 0.2953, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.12033333333333333, |
| "grad_norm": 4.5103254318237305, |
| "learning_rate": 3.6402758620689654e-06, |
| "loss": 0.2181, |
| "step": 1805 |
| }, |
| { |
| "epoch": 0.12066666666666667, |
| "grad_norm": 5.52761697769165, |
| "learning_rate": 3.6388965517241377e-06, |
| "loss": 0.264, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.121, |
| "grad_norm": 4.574708938598633, |
| "learning_rate": 3.63751724137931e-06, |
| "loss": 0.246, |
| "step": 1815 |
| }, |
| { |
| "epoch": 0.12133333333333333, |
| "grad_norm": 4.654568195343018, |
| "learning_rate": 3.6361379310344826e-06, |
| "loss": 0.2545, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.12166666666666667, |
| "grad_norm": 4.912635803222656, |
| "learning_rate": 3.6347586206896552e-06, |
| "loss": 0.2144, |
| "step": 1825 |
| }, |
| { |
| "epoch": 0.122, |
| "grad_norm": 4.409463405609131, |
| "learning_rate": 3.6333793103448275e-06, |
| "loss": 0.2722, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.12233333333333334, |
| "grad_norm": 4.783137798309326, |
| "learning_rate": 3.632e-06, |
| "loss": 0.2539, |
| "step": 1835 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 3.953408718109131, |
| "learning_rate": 3.6306206896551724e-06, |
| "loss": 0.2511, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.123, |
| "grad_norm": 5.506841659545898, |
| "learning_rate": 3.6292413793103446e-06, |
| "loss": 0.3607, |
| "step": 1845 |
| }, |
| { |
| "epoch": 0.12333333333333334, |
| "grad_norm": 5.287622451782227, |
| "learning_rate": 3.6278620689655173e-06, |
| "loss": 0.2571, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.12366666666666666, |
| "grad_norm": 4.334446430206299, |
| "learning_rate": 3.6264827586206895e-06, |
| "loss": 0.2215, |
| "step": 1855 |
| }, |
| { |
| "epoch": 0.124, |
| "grad_norm": 3.9684669971466064, |
| "learning_rate": 3.6251034482758617e-06, |
| "loss": 0.2143, |
| "step": 1860 |
| }, |
| { |
| "epoch": 0.12433333333333334, |
| "grad_norm": 5.23777437210083, |
| "learning_rate": 3.623724137931034e-06, |
| "loss": 0.2634, |
| "step": 1865 |
| }, |
| { |
| "epoch": 0.12466666666666666, |
| "grad_norm": 4.917655944824219, |
| "learning_rate": 3.6223448275862066e-06, |
| "loss": 0.2587, |
| "step": 1870 |
| }, |
| { |
| "epoch": 0.125, |
| "grad_norm": 3.844343900680542, |
| "learning_rate": 3.6209655172413793e-06, |
| "loss": 0.279, |
| "step": 1875 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 4.376672267913818, |
| "learning_rate": 3.6195862068965515e-06, |
| "loss": 0.2553, |
| "step": 1880 |
| }, |
| { |
| "epoch": 0.12566666666666668, |
| "grad_norm": 5.425791263580322, |
| "learning_rate": 3.618206896551724e-06, |
| "loss": 0.2259, |
| "step": 1885 |
| }, |
| { |
| "epoch": 0.126, |
| "grad_norm": 4.359671592712402, |
| "learning_rate": 3.6168275862068964e-06, |
| "loss": 0.2285, |
| "step": 1890 |
| }, |
| { |
| "epoch": 0.12633333333333333, |
| "grad_norm": 5.705598831176758, |
| "learning_rate": 3.6154482758620687e-06, |
| "loss": 0.2865, |
| "step": 1895 |
| }, |
| { |
| "epoch": 0.12666666666666668, |
| "grad_norm": 4.676022529602051, |
| "learning_rate": 3.6140689655172413e-06, |
| "loss": 0.249, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.127, |
| "grad_norm": 5.047347545623779, |
| "learning_rate": 3.6126896551724136e-06, |
| "loss": 0.2186, |
| "step": 1905 |
| }, |
| { |
| "epoch": 0.12733333333333333, |
| "grad_norm": 7.939009666442871, |
| "learning_rate": 3.611310344827586e-06, |
| "loss": 0.3171, |
| "step": 1910 |
| }, |
| { |
| "epoch": 0.12766666666666668, |
| "grad_norm": 4.111150741577148, |
| "learning_rate": 3.6099310344827585e-06, |
| "loss": 0.3106, |
| "step": 1915 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 4.176487445831299, |
| "learning_rate": 3.608551724137931e-06, |
| "loss": 0.2749, |
| "step": 1920 |
| }, |
| { |
| "epoch": 0.12833333333333333, |
| "grad_norm": 3.7570016384124756, |
| "learning_rate": 3.6071724137931034e-06, |
| "loss": 0.2301, |
| "step": 1925 |
| }, |
| { |
| "epoch": 0.12866666666666668, |
| "grad_norm": 4.7978997230529785, |
| "learning_rate": 3.605793103448276e-06, |
| "loss": 0.2145, |
| "step": 1930 |
| }, |
| { |
| "epoch": 0.129, |
| "grad_norm": 5.743479251861572, |
| "learning_rate": 3.6044137931034483e-06, |
| "loss": 0.2948, |
| "step": 1935 |
| }, |
| { |
| "epoch": 0.12933333333333333, |
| "grad_norm": 5.575948238372803, |
| "learning_rate": 3.6030344827586205e-06, |
| "loss": 0.3013, |
| "step": 1940 |
| }, |
| { |
| "epoch": 0.12966666666666668, |
| "grad_norm": 4.671169281005859, |
| "learning_rate": 3.6016551724137927e-06, |
| "loss": 0.2661, |
| "step": 1945 |
| }, |
| { |
| "epoch": 0.13, |
| "grad_norm": 4.274127006530762, |
| "learning_rate": 3.6002758620689654e-06, |
| "loss": 0.2818, |
| "step": 1950 |
| }, |
| { |
| "epoch": 0.13033333333333333, |
| "grad_norm": 5.743216514587402, |
| "learning_rate": 3.5988965517241376e-06, |
| "loss": 0.2928, |
| "step": 1955 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 4.869400501251221, |
| "learning_rate": 3.59751724137931e-06, |
| "loss": 0.3071, |
| "step": 1960 |
| }, |
| { |
| "epoch": 0.131, |
| "grad_norm": 3.830754041671753, |
| "learning_rate": 3.5961379310344825e-06, |
| "loss": 0.2607, |
| "step": 1965 |
| }, |
| { |
| "epoch": 0.13133333333333333, |
| "grad_norm": 4.715906143188477, |
| "learning_rate": 3.594758620689655e-06, |
| "loss": 0.2491, |
| "step": 1970 |
| }, |
| { |
| "epoch": 0.13166666666666665, |
| "grad_norm": 3.761927604675293, |
| "learning_rate": 3.5933793103448274e-06, |
| "loss": 0.2198, |
| "step": 1975 |
| }, |
| { |
| "epoch": 0.132, |
| "grad_norm": 6.094804286956787, |
| "learning_rate": 3.592e-06, |
| "loss": 0.2619, |
| "step": 1980 |
| }, |
| { |
| "epoch": 0.13233333333333333, |
| "grad_norm": 3.8962111473083496, |
| "learning_rate": 3.5906206896551723e-06, |
| "loss": 0.2507, |
| "step": 1985 |
| }, |
| { |
| "epoch": 0.13266666666666665, |
| "grad_norm": 3.830124855041504, |
| "learning_rate": 3.5892413793103446e-06, |
| "loss": 0.1978, |
| "step": 1990 |
| }, |
| { |
| "epoch": 0.133, |
| "grad_norm": 6.0126519203186035, |
| "learning_rate": 3.5878620689655172e-06, |
| "loss": 0.2732, |
| "step": 1995 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 5.614018440246582, |
| "learning_rate": 3.5864827586206895e-06, |
| "loss": 0.2506, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "eval_loss": 0.2459840327501297, |
| "eval_runtime": 139.0467, |
| "eval_samples_per_second": 4.315, |
| "eval_steps_per_second": 1.079, |
| "eval_wer": 12.841460301250956, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.13366666666666666, |
| "grad_norm": 4.154967308044434, |
| "learning_rate": 3.5851034482758617e-06, |
| "loss": 0.2197, |
| "step": 2005 |
| }, |
| { |
| "epoch": 0.134, |
| "grad_norm": 4.249428749084473, |
| "learning_rate": 3.583724137931034e-06, |
| "loss": 0.2279, |
| "step": 2010 |
| }, |
| { |
| "epoch": 0.13433333333333333, |
| "grad_norm": 4.329864501953125, |
| "learning_rate": 3.582344827586207e-06, |
| "loss": 0.2307, |
| "step": 2015 |
| }, |
| { |
| "epoch": 0.13466666666666666, |
| "grad_norm": 4.257216453552246, |
| "learning_rate": 3.5809655172413793e-06, |
| "loss": 0.235, |
| "step": 2020 |
| }, |
| { |
| "epoch": 0.135, |
| "grad_norm": 5.581985950469971, |
| "learning_rate": 3.5795862068965515e-06, |
| "loss": 0.2293, |
| "step": 2025 |
| }, |
| { |
| "epoch": 0.13533333333333333, |
| "grad_norm": 4.35102653503418, |
| "learning_rate": 3.578206896551724e-06, |
| "loss": 0.2495, |
| "step": 2030 |
| }, |
| { |
| "epoch": 0.13566666666666666, |
| "grad_norm": 5.571939945220947, |
| "learning_rate": 3.5768275862068964e-06, |
| "loss": 0.2917, |
| "step": 2035 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 4.097556114196777, |
| "learning_rate": 3.5754482758620686e-06, |
| "loss": 0.2618, |
| "step": 2040 |
| }, |
| { |
| "epoch": 0.13633333333333333, |
| "grad_norm": 5.674405097961426, |
| "learning_rate": 3.5740689655172413e-06, |
| "loss": 0.2504, |
| "step": 2045 |
| }, |
| { |
| "epoch": 0.13666666666666666, |
| "grad_norm": 4.936873912811279, |
| "learning_rate": 3.5726896551724135e-06, |
| "loss": 0.2538, |
| "step": 2050 |
| }, |
| { |
| "epoch": 0.137, |
| "grad_norm": 5.362658977508545, |
| "learning_rate": 3.5713103448275858e-06, |
| "loss": 0.2302, |
| "step": 2055 |
| }, |
| { |
| "epoch": 0.13733333333333334, |
| "grad_norm": 4.990427017211914, |
| "learning_rate": 3.569931034482759e-06, |
| "loss": 0.2876, |
| "step": 2060 |
| }, |
| { |
| "epoch": 0.13766666666666666, |
| "grad_norm": 5.1737775802612305, |
| "learning_rate": 3.568551724137931e-06, |
| "loss": 0.2783, |
| "step": 2065 |
| }, |
| { |
| "epoch": 0.138, |
| "grad_norm": 4.937466621398926, |
| "learning_rate": 3.5671724137931033e-06, |
| "loss": 0.2213, |
| "step": 2070 |
| }, |
| { |
| "epoch": 0.13833333333333334, |
| "grad_norm": 4.43440580368042, |
| "learning_rate": 3.565793103448276e-06, |
| "loss": 0.2015, |
| "step": 2075 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 4.639272689819336, |
| "learning_rate": 3.5644137931034482e-06, |
| "loss": 0.2258, |
| "step": 2080 |
| }, |
| { |
| "epoch": 0.139, |
| "grad_norm": 5.828295707702637, |
| "learning_rate": 3.5630344827586205e-06, |
| "loss": 0.2736, |
| "step": 2085 |
| }, |
| { |
| "epoch": 0.13933333333333334, |
| "grad_norm": 4.2289204597473145, |
| "learning_rate": 3.5616551724137927e-06, |
| "loss": 0.2581, |
| "step": 2090 |
| }, |
| { |
| "epoch": 0.13966666666666666, |
| "grad_norm": 5.363533020019531, |
| "learning_rate": 3.5602758620689653e-06, |
| "loss": 0.2715, |
| "step": 2095 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 3.8318686485290527, |
| "learning_rate": 3.5588965517241376e-06, |
| "loss": 0.2433, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.14033333333333334, |
| "grad_norm": 5.367889881134033, |
| "learning_rate": 3.55751724137931e-06, |
| "loss": 0.2187, |
| "step": 2105 |
| }, |
| { |
| "epoch": 0.14066666666666666, |
| "grad_norm": 3.9531843662261963, |
| "learning_rate": 3.556137931034483e-06, |
| "loss": 0.2192, |
| "step": 2110 |
| }, |
| { |
| "epoch": 0.141, |
| "grad_norm": 4.264510631561279, |
| "learning_rate": 3.554758620689655e-06, |
| "loss": 0.2598, |
| "step": 2115 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 6.129741668701172, |
| "learning_rate": 3.5533793103448274e-06, |
| "loss": 0.3208, |
| "step": 2120 |
| }, |
| { |
| "epoch": 0.14166666666666666, |
| "grad_norm": 4.258221626281738, |
| "learning_rate": 3.552e-06, |
| "loss": 0.2139, |
| "step": 2125 |
| }, |
| { |
| "epoch": 0.142, |
| "grad_norm": 4.926301956176758, |
| "learning_rate": 3.5506206896551723e-06, |
| "loss": 0.2869, |
| "step": 2130 |
| }, |
| { |
| "epoch": 0.14233333333333334, |
| "grad_norm": 4.224712371826172, |
| "learning_rate": 3.5492413793103445e-06, |
| "loss": 0.2594, |
| "step": 2135 |
| }, |
| { |
| "epoch": 0.14266666666666666, |
| "grad_norm": 5.91023063659668, |
| "learning_rate": 3.547862068965517e-06, |
| "loss": 0.2365, |
| "step": 2140 |
| }, |
| { |
| "epoch": 0.143, |
| "grad_norm": 5.212203025817871, |
| "learning_rate": 3.5464827586206894e-06, |
| "loss": 0.2513, |
| "step": 2145 |
| }, |
| { |
| "epoch": 0.14333333333333334, |
| "grad_norm": 4.251794815063477, |
| "learning_rate": 3.5451034482758617e-06, |
| "loss": 0.2229, |
| "step": 2150 |
| }, |
| { |
| "epoch": 0.14366666666666666, |
| "grad_norm": 5.3950018882751465, |
| "learning_rate": 3.5437241379310347e-06, |
| "loss": 0.2609, |
| "step": 2155 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 5.376851558685303, |
| "learning_rate": 3.542344827586207e-06, |
| "loss": 0.2746, |
| "step": 2160 |
| }, |
| { |
| "epoch": 0.14433333333333334, |
| "grad_norm": 5.448855876922607, |
| "learning_rate": 3.540965517241379e-06, |
| "loss": 0.246, |
| "step": 2165 |
| }, |
| { |
| "epoch": 0.14466666666666667, |
| "grad_norm": 4.98777961730957, |
| "learning_rate": 3.5395862068965514e-06, |
| "loss": 0.288, |
| "step": 2170 |
| }, |
| { |
| "epoch": 0.145, |
| "grad_norm": 5.549157619476318, |
| "learning_rate": 3.538206896551724e-06, |
| "loss": 0.3256, |
| "step": 2175 |
| }, |
| { |
| "epoch": 0.14533333333333334, |
| "grad_norm": 4.930784702301025, |
| "learning_rate": 3.5368275862068963e-06, |
| "loss": 0.2619, |
| "step": 2180 |
| }, |
| { |
| "epoch": 0.14566666666666667, |
| "grad_norm": 4.573493957519531, |
| "learning_rate": 3.5354482758620686e-06, |
| "loss": 0.2702, |
| "step": 2185 |
| }, |
| { |
| "epoch": 0.146, |
| "grad_norm": 5.128422260284424, |
| "learning_rate": 3.5340689655172412e-06, |
| "loss": 0.239, |
| "step": 2190 |
| }, |
| { |
| "epoch": 0.14633333333333334, |
| "grad_norm": 4.46385383605957, |
| "learning_rate": 3.5326896551724135e-06, |
| "loss": 0.2256, |
| "step": 2195 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 4.944850444793701, |
| "learning_rate": 3.5313103448275857e-06, |
| "loss": 0.2419, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.147, |
| "grad_norm": 4.948612689971924, |
| "learning_rate": 3.529931034482759e-06, |
| "loss": 0.23, |
| "step": 2205 |
| }, |
| { |
| "epoch": 0.14733333333333334, |
| "grad_norm": 5.370577812194824, |
| "learning_rate": 3.528551724137931e-06, |
| "loss": 0.2468, |
| "step": 2210 |
| }, |
| { |
| "epoch": 0.14766666666666667, |
| "grad_norm": 5.873105525970459, |
| "learning_rate": 3.5271724137931033e-06, |
| "loss": 0.2693, |
| "step": 2215 |
| }, |
| { |
| "epoch": 0.148, |
| "grad_norm": 4.9380669593811035, |
| "learning_rate": 3.525793103448276e-06, |
| "loss": 0.2683, |
| "step": 2220 |
| }, |
| { |
| "epoch": 0.14833333333333334, |
| "grad_norm": 4.294095039367676, |
| "learning_rate": 3.524413793103448e-06, |
| "loss": 0.2156, |
| "step": 2225 |
| }, |
| { |
| "epoch": 0.14866666666666667, |
| "grad_norm": 5.501603126525879, |
| "learning_rate": 3.5230344827586204e-06, |
| "loss": 0.2744, |
| "step": 2230 |
| }, |
| { |
| "epoch": 0.149, |
| "grad_norm": 4.894035816192627, |
| "learning_rate": 3.5216551724137926e-06, |
| "loss": 0.3078, |
| "step": 2235 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 6.057002067565918, |
| "learning_rate": 3.5202758620689653e-06, |
| "loss": 0.2876, |
| "step": 2240 |
| }, |
| { |
| "epoch": 0.14966666666666667, |
| "grad_norm": 4.819766044616699, |
| "learning_rate": 3.5188965517241375e-06, |
| "loss": 0.2505, |
| "step": 2245 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 4.762735366821289, |
| "learning_rate": 3.51751724137931e-06, |
| "loss": 0.2172, |
| "step": 2250 |
| }, |
| { |
| "epoch": 0.15033333333333335, |
| "grad_norm": 4.795835018157959, |
| "learning_rate": 3.516137931034483e-06, |
| "loss": 0.262, |
| "step": 2255 |
| }, |
| { |
| "epoch": 0.15066666666666667, |
| "grad_norm": 5.1595988273620605, |
| "learning_rate": 3.514758620689655e-06, |
| "loss": 0.2576, |
| "step": 2260 |
| }, |
| { |
| "epoch": 0.151, |
| "grad_norm": 4.844261646270752, |
| "learning_rate": 3.5133793103448273e-06, |
| "loss": 0.2359, |
| "step": 2265 |
| }, |
| { |
| "epoch": 0.15133333333333332, |
| "grad_norm": 5.151372909545898, |
| "learning_rate": 3.512e-06, |
| "loss": 0.2517, |
| "step": 2270 |
| }, |
| { |
| "epoch": 0.15166666666666667, |
| "grad_norm": 4.588495254516602, |
| "learning_rate": 3.5106206896551722e-06, |
| "loss": 0.2623, |
| "step": 2275 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 5.8936238288879395, |
| "learning_rate": 3.5092413793103445e-06, |
| "loss": 0.2997, |
| "step": 2280 |
| }, |
| { |
| "epoch": 0.15233333333333332, |
| "grad_norm": 4.8859429359436035, |
| "learning_rate": 3.507862068965517e-06, |
| "loss": 0.2375, |
| "step": 2285 |
| }, |
| { |
| "epoch": 0.15266666666666667, |
| "grad_norm": 4.650790691375732, |
| "learning_rate": 3.5064827586206894e-06, |
| "loss": 0.2244, |
| "step": 2290 |
| }, |
| { |
| "epoch": 0.153, |
| "grad_norm": 4.137133598327637, |
| "learning_rate": 3.505103448275862e-06, |
| "loss": 0.2971, |
| "step": 2295 |
| }, |
| { |
| "epoch": 0.15333333333333332, |
| "grad_norm": 4.2419867515563965, |
| "learning_rate": 3.5037241379310347e-06, |
| "loss": 0.2279, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.15366666666666667, |
| "grad_norm": 5.029589653015137, |
| "learning_rate": 3.502344827586207e-06, |
| "loss": 0.2596, |
| "step": 2305 |
| }, |
| { |
| "epoch": 0.154, |
| "grad_norm": 4.471005439758301, |
| "learning_rate": 3.500965517241379e-06, |
| "loss": 0.3024, |
| "step": 2310 |
| }, |
| { |
| "epoch": 0.15433333333333332, |
| "grad_norm": 5.1212873458862305, |
| "learning_rate": 3.4995862068965514e-06, |
| "loss": 0.2624, |
| "step": 2315 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 5.068171977996826, |
| "learning_rate": 3.498206896551724e-06, |
| "loss": 0.2339, |
| "step": 2320 |
| }, |
| { |
| "epoch": 0.155, |
| "grad_norm": 5.837029457092285, |
| "learning_rate": 3.4968275862068963e-06, |
| "loss": 0.2202, |
| "step": 2325 |
| }, |
| { |
| "epoch": 0.15533333333333332, |
| "grad_norm": 5.233797073364258, |
| "learning_rate": 3.4954482758620685e-06, |
| "loss": 0.2307, |
| "step": 2330 |
| }, |
| { |
| "epoch": 0.15566666666666668, |
| "grad_norm": 5.003569602966309, |
| "learning_rate": 3.494068965517241e-06, |
| "loss": 0.2488, |
| "step": 2335 |
| }, |
| { |
| "epoch": 0.156, |
| "grad_norm": 5.215402126312256, |
| "learning_rate": 3.4926896551724134e-06, |
| "loss": 0.2539, |
| "step": 2340 |
| }, |
| { |
| "epoch": 0.15633333333333332, |
| "grad_norm": 4.594287872314453, |
| "learning_rate": 3.491310344827586e-06, |
| "loss": 0.2237, |
| "step": 2345 |
| }, |
| { |
| "epoch": 0.15666666666666668, |
| "grad_norm": 4.945546627044678, |
| "learning_rate": 3.4899310344827588e-06, |
| "loss": 0.2709, |
| "step": 2350 |
| }, |
| { |
| "epoch": 0.157, |
| "grad_norm": 4.1710405349731445, |
| "learning_rate": 3.488551724137931e-06, |
| "loss": 0.256, |
| "step": 2355 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 4.216401100158691, |
| "learning_rate": 3.4871724137931032e-06, |
| "loss": 0.2312, |
| "step": 2360 |
| }, |
| { |
| "epoch": 0.15766666666666668, |
| "grad_norm": 7.646403789520264, |
| "learning_rate": 3.485793103448276e-06, |
| "loss": 0.2226, |
| "step": 2365 |
| }, |
| { |
| "epoch": 0.158, |
| "grad_norm": 5.661412239074707, |
| "learning_rate": 3.484413793103448e-06, |
| "loss": 0.2836, |
| "step": 2370 |
| }, |
| { |
| "epoch": 0.15833333333333333, |
| "grad_norm": 4.148995399475098, |
| "learning_rate": 3.4830344827586204e-06, |
| "loss": 0.2199, |
| "step": 2375 |
| }, |
| { |
| "epoch": 0.15866666666666668, |
| "grad_norm": 5.131689071655273, |
| "learning_rate": 3.4816551724137926e-06, |
| "loss": 0.224, |
| "step": 2380 |
| }, |
| { |
| "epoch": 0.159, |
| "grad_norm": 5.204654693603516, |
| "learning_rate": 3.4802758620689653e-06, |
| "loss": 0.2941, |
| "step": 2385 |
| }, |
| { |
| "epoch": 0.15933333333333333, |
| "grad_norm": 3.511678457260132, |
| "learning_rate": 3.478896551724138e-06, |
| "loss": 0.2614, |
| "step": 2390 |
| }, |
| { |
| "epoch": 0.15966666666666668, |
| "grad_norm": 4.553131103515625, |
| "learning_rate": 3.47751724137931e-06, |
| "loss": 0.2632, |
| "step": 2395 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 5.157543659210205, |
| "learning_rate": 3.476137931034483e-06, |
| "loss": 0.2876, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.16033333333333333, |
| "grad_norm": 3.918602466583252, |
| "learning_rate": 3.474758620689655e-06, |
| "loss": 0.2588, |
| "step": 2405 |
| }, |
| { |
| "epoch": 0.16066666666666668, |
| "grad_norm": 4.780972957611084, |
| "learning_rate": 3.4733793103448273e-06, |
| "loss": 0.2275, |
| "step": 2410 |
| }, |
| { |
| "epoch": 0.161, |
| "grad_norm": 4.756047248840332, |
| "learning_rate": 3.472e-06, |
| "loss": 0.2483, |
| "step": 2415 |
| }, |
| { |
| "epoch": 0.16133333333333333, |
| "grad_norm": 4.1159796714782715, |
| "learning_rate": 3.470620689655172e-06, |
| "loss": 0.2468, |
| "step": 2420 |
| }, |
| { |
| "epoch": 0.16166666666666665, |
| "grad_norm": 4.943764686584473, |
| "learning_rate": 3.4692413793103444e-06, |
| "loss": 0.2405, |
| "step": 2425 |
| }, |
| { |
| "epoch": 0.162, |
| "grad_norm": 4.706329345703125, |
| "learning_rate": 3.467862068965517e-06, |
| "loss": 0.2334, |
| "step": 2430 |
| }, |
| { |
| "epoch": 0.16233333333333333, |
| "grad_norm": 4.787866115570068, |
| "learning_rate": 3.4664827586206893e-06, |
| "loss": 0.2039, |
| "step": 2435 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 5.41939115524292, |
| "learning_rate": 3.465103448275862e-06, |
| "loss": 0.2358, |
| "step": 2440 |
| }, |
| { |
| "epoch": 0.163, |
| "grad_norm": 4.854283809661865, |
| "learning_rate": 3.4637241379310347e-06, |
| "loss": 0.3065, |
| "step": 2445 |
| }, |
| { |
| "epoch": 0.16333333333333333, |
| "grad_norm": 4.342837810516357, |
| "learning_rate": 3.462344827586207e-06, |
| "loss": 0.2439, |
| "step": 2450 |
| }, |
| { |
| "epoch": 0.16366666666666665, |
| "grad_norm": 4.5327467918396, |
| "learning_rate": 3.460965517241379e-06, |
| "loss": 0.2369, |
| "step": 2455 |
| }, |
| { |
| "epoch": 0.164, |
| "grad_norm": 4.487262725830078, |
| "learning_rate": 3.4595862068965514e-06, |
| "loss": 0.2357, |
| "step": 2460 |
| }, |
| { |
| "epoch": 0.16433333333333333, |
| "grad_norm": 5.004885196685791, |
| "learning_rate": 3.458206896551724e-06, |
| "loss": 0.2793, |
| "step": 2465 |
| }, |
| { |
| "epoch": 0.16466666666666666, |
| "grad_norm": 4.2630720138549805, |
| "learning_rate": 3.4568275862068963e-06, |
| "loss": 0.2387, |
| "step": 2470 |
| }, |
| { |
| "epoch": 0.165, |
| "grad_norm": 4.213596343994141, |
| "learning_rate": 3.4554482758620685e-06, |
| "loss": 0.2692, |
| "step": 2475 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 4.435369968414307, |
| "learning_rate": 3.454068965517241e-06, |
| "loss": 0.2383, |
| "step": 2480 |
| }, |
| { |
| "epoch": 0.16566666666666666, |
| "grad_norm": 4.381566524505615, |
| "learning_rate": 3.452689655172414e-06, |
| "loss": 0.2346, |
| "step": 2485 |
| }, |
| { |
| "epoch": 0.166, |
| "grad_norm": 4.610717296600342, |
| "learning_rate": 3.451310344827586e-06, |
| "loss": 0.2693, |
| "step": 2490 |
| }, |
| { |
| "epoch": 0.16633333333333333, |
| "grad_norm": 4.803826808929443, |
| "learning_rate": 3.4499310344827587e-06, |
| "loss": 0.2621, |
| "step": 2495 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 5.030712604522705, |
| "learning_rate": 3.448551724137931e-06, |
| "loss": 0.221, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.167, |
| "grad_norm": 5.310883522033691, |
| "learning_rate": 3.447172413793103e-06, |
| "loss": 0.3361, |
| "step": 2505 |
| }, |
| { |
| "epoch": 0.16733333333333333, |
| "grad_norm": 4.664628028869629, |
| "learning_rate": 3.445793103448276e-06, |
| "loss": 0.2712, |
| "step": 2510 |
| }, |
| { |
| "epoch": 0.16766666666666666, |
| "grad_norm": 5.701126575469971, |
| "learning_rate": 3.444413793103448e-06, |
| "loss": 0.2519, |
| "step": 2515 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 4.844892501831055, |
| "learning_rate": 3.4430344827586203e-06, |
| "loss": 0.259, |
| "step": 2520 |
| }, |
| { |
| "epoch": 0.16833333333333333, |
| "grad_norm": 4.996426105499268, |
| "learning_rate": 3.4416551724137926e-06, |
| "loss": 0.2989, |
| "step": 2525 |
| }, |
| { |
| "epoch": 0.16866666666666666, |
| "grad_norm": 5.930837631225586, |
| "learning_rate": 3.4402758620689652e-06, |
| "loss": 0.2757, |
| "step": 2530 |
| }, |
| { |
| "epoch": 0.169, |
| "grad_norm": 5.188756942749023, |
| "learning_rate": 3.438896551724138e-06, |
| "loss": 0.2358, |
| "step": 2535 |
| }, |
| { |
| "epoch": 0.16933333333333334, |
| "grad_norm": 4.6273980140686035, |
| "learning_rate": 3.43751724137931e-06, |
| "loss": 0.2401, |
| "step": 2540 |
| }, |
| { |
| "epoch": 0.16966666666666666, |
| "grad_norm": 4.5921244621276855, |
| "learning_rate": 3.4361379310344828e-06, |
| "loss": 0.2348, |
| "step": 2545 |
| }, |
| { |
| "epoch": 0.17, |
| "grad_norm": 5.124880313873291, |
| "learning_rate": 3.434758620689655e-06, |
| "loss": 0.2643, |
| "step": 2550 |
| }, |
| { |
| "epoch": 0.17033333333333334, |
| "grad_norm": 6.715496063232422, |
| "learning_rate": 3.4333793103448273e-06, |
| "loss": 0.2708, |
| "step": 2555 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 6.6964569091796875, |
| "learning_rate": 3.432e-06, |
| "loss": 0.2458, |
| "step": 2560 |
| }, |
| { |
| "epoch": 0.171, |
| "grad_norm": 4.795800685882568, |
| "learning_rate": 3.430620689655172e-06, |
| "loss": 0.2324, |
| "step": 2565 |
| }, |
| { |
| "epoch": 0.17133333333333334, |
| "grad_norm": 3.8317222595214844, |
| "learning_rate": 3.4292413793103444e-06, |
| "loss": 0.2517, |
| "step": 2570 |
| }, |
| { |
| "epoch": 0.17166666666666666, |
| "grad_norm": 4.472997188568115, |
| "learning_rate": 3.427862068965517e-06, |
| "loss": 0.2665, |
| "step": 2575 |
| }, |
| { |
| "epoch": 0.172, |
| "grad_norm": 4.820406436920166, |
| "learning_rate": 3.4264827586206897e-06, |
| "loss": 0.2264, |
| "step": 2580 |
| }, |
| { |
| "epoch": 0.17233333333333334, |
| "grad_norm": 5.391660213470459, |
| "learning_rate": 3.425103448275862e-06, |
| "loss": 0.2135, |
| "step": 2585 |
| }, |
| { |
| "epoch": 0.17266666666666666, |
| "grad_norm": 4.6451826095581055, |
| "learning_rate": 3.4237241379310346e-06, |
| "loss": 0.2836, |
| "step": 2590 |
| }, |
| { |
| "epoch": 0.173, |
| "grad_norm": 4.49055814743042, |
| "learning_rate": 3.422344827586207e-06, |
| "loss": 0.2308, |
| "step": 2595 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 5.0107879638671875, |
| "learning_rate": 3.420965517241379e-06, |
| "loss": 0.2968, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.17366666666666666, |
| "grad_norm": 3.8328466415405273, |
| "learning_rate": 3.4195862068965513e-06, |
| "loss": 0.2349, |
| "step": 2605 |
| }, |
| { |
| "epoch": 0.174, |
| "grad_norm": 3.9946630001068115, |
| "learning_rate": 3.418206896551724e-06, |
| "loss": 0.2257, |
| "step": 2610 |
| }, |
| { |
| "epoch": 0.17433333333333334, |
| "grad_norm": 4.578595161437988, |
| "learning_rate": 3.4168275862068962e-06, |
| "loss": 0.3094, |
| "step": 2615 |
| }, |
| { |
| "epoch": 0.17466666666666666, |
| "grad_norm": 5.1284403800964355, |
| "learning_rate": 3.4154482758620685e-06, |
| "loss": 0.2356, |
| "step": 2620 |
| }, |
| { |
| "epoch": 0.175, |
| "grad_norm": 4.232314586639404, |
| "learning_rate": 3.4140689655172415e-06, |
| "loss": 0.3326, |
| "step": 2625 |
| }, |
| { |
| "epoch": 0.17533333333333334, |
| "grad_norm": 3.733417272567749, |
| "learning_rate": 3.4126896551724138e-06, |
| "loss": 0.2147, |
| "step": 2630 |
| }, |
| { |
| "epoch": 0.17566666666666667, |
| "grad_norm": 4.887419700622559, |
| "learning_rate": 3.411310344827586e-06, |
| "loss": 0.276, |
| "step": 2635 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 4.4829487800598145, |
| "learning_rate": 3.4099310344827587e-06, |
| "loss": 0.2378, |
| "step": 2640 |
| }, |
| { |
| "epoch": 0.17633333333333334, |
| "grad_norm": 4.235691070556641, |
| "learning_rate": 3.408551724137931e-06, |
| "loss": 0.2616, |
| "step": 2645 |
| }, |
| { |
| "epoch": 0.17666666666666667, |
| "grad_norm": 3.984076499938965, |
| "learning_rate": 3.407172413793103e-06, |
| "loss": 0.2524, |
| "step": 2650 |
| }, |
| { |
| "epoch": 0.177, |
| "grad_norm": 5.258695125579834, |
| "learning_rate": 3.405793103448276e-06, |
| "loss": 0.3402, |
| "step": 2655 |
| }, |
| { |
| "epoch": 0.17733333333333334, |
| "grad_norm": 5.336690902709961, |
| "learning_rate": 3.404413793103448e-06, |
| "loss": 0.2594, |
| "step": 2660 |
| }, |
| { |
| "epoch": 0.17766666666666667, |
| "grad_norm": 4.353331565856934, |
| "learning_rate": 3.4030344827586203e-06, |
| "loss": 0.2925, |
| "step": 2665 |
| }, |
| { |
| "epoch": 0.178, |
| "grad_norm": 4.605171203613281, |
| "learning_rate": 3.401655172413793e-06, |
| "loss": 0.2036, |
| "step": 2670 |
| }, |
| { |
| "epoch": 0.17833333333333334, |
| "grad_norm": 3.893324136734009, |
| "learning_rate": 3.4002758620689656e-06, |
| "loss": 0.2366, |
| "step": 2675 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 5.866611957550049, |
| "learning_rate": 3.398896551724138e-06, |
| "loss": 0.2779, |
| "step": 2680 |
| }, |
| { |
| "epoch": 0.179, |
| "grad_norm": 5.001673221588135, |
| "learning_rate": 3.39751724137931e-06, |
| "loss": 0.2699, |
| "step": 2685 |
| }, |
| { |
| "epoch": 0.17933333333333334, |
| "grad_norm": 5.7341179847717285, |
| "learning_rate": 3.3961379310344827e-06, |
| "loss": 0.2814, |
| "step": 2690 |
| }, |
| { |
| "epoch": 0.17966666666666667, |
| "grad_norm": 4.609294414520264, |
| "learning_rate": 3.394758620689655e-06, |
| "loss": 0.2453, |
| "step": 2695 |
| }, |
| { |
| "epoch": 0.18, |
| "grad_norm": 4.3003950119018555, |
| "learning_rate": 3.3933793103448272e-06, |
| "loss": 0.2285, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.18033333333333335, |
| "grad_norm": 4.246911525726318, |
| "learning_rate": 3.392e-06, |
| "loss": 0.2352, |
| "step": 2705 |
| }, |
| { |
| "epoch": 0.18066666666666667, |
| "grad_norm": 4.514093399047852, |
| "learning_rate": 3.390620689655172e-06, |
| "loss": 0.2549, |
| "step": 2710 |
| }, |
| { |
| "epoch": 0.181, |
| "grad_norm": 4.857088565826416, |
| "learning_rate": 3.3892413793103444e-06, |
| "loss": 0.2817, |
| "step": 2715 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 5.2309250831604, |
| "learning_rate": 3.3878620689655174e-06, |
| "loss": 0.2711, |
| "step": 2720 |
| }, |
| { |
| "epoch": 0.18166666666666667, |
| "grad_norm": 4.656536102294922, |
| "learning_rate": 3.3864827586206897e-06, |
| "loss": 0.2508, |
| "step": 2725 |
| }, |
| { |
| "epoch": 0.182, |
| "grad_norm": 4.105226516723633, |
| "learning_rate": 3.385103448275862e-06, |
| "loss": 0.226, |
| "step": 2730 |
| }, |
| { |
| "epoch": 0.18233333333333332, |
| "grad_norm": 5.7455596923828125, |
| "learning_rate": 3.3837241379310346e-06, |
| "loss": 0.2654, |
| "step": 2735 |
| }, |
| { |
| "epoch": 0.18266666666666667, |
| "grad_norm": 4.733729362487793, |
| "learning_rate": 3.382344827586207e-06, |
| "loss": 0.2499, |
| "step": 2740 |
| }, |
| { |
| "epoch": 0.183, |
| "grad_norm": 3.436405897140503, |
| "learning_rate": 3.380965517241379e-06, |
| "loss": 0.2114, |
| "step": 2745 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 5.654386043548584, |
| "learning_rate": 3.3795862068965513e-06, |
| "loss": 0.2277, |
| "step": 2750 |
| }, |
| { |
| "epoch": 0.18366666666666667, |
| "grad_norm": 6.039766311645508, |
| "learning_rate": 3.378206896551724e-06, |
| "loss": 0.2834, |
| "step": 2755 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 4.6503424644470215, |
| "learning_rate": 3.376827586206896e-06, |
| "loss": 0.2078, |
| "step": 2760 |
| }, |
| { |
| "epoch": 0.18433333333333332, |
| "grad_norm": 5.1060028076171875, |
| "learning_rate": 3.3754482758620684e-06, |
| "loss": 0.2848, |
| "step": 2765 |
| }, |
| { |
| "epoch": 0.18466666666666667, |
| "grad_norm": 4.1396708488464355, |
| "learning_rate": 3.3740689655172415e-06, |
| "loss": 0.2576, |
| "step": 2770 |
| }, |
| { |
| "epoch": 0.185, |
| "grad_norm": 5.115489959716797, |
| "learning_rate": 3.3726896551724137e-06, |
| "loss": 0.2833, |
| "step": 2775 |
| }, |
| { |
| "epoch": 0.18533333333333332, |
| "grad_norm": 3.9723570346832275, |
| "learning_rate": 3.371310344827586e-06, |
| "loss": 0.2454, |
| "step": 2780 |
| }, |
| { |
| "epoch": 0.18566666666666667, |
| "grad_norm": 4.776898384094238, |
| "learning_rate": 3.3699310344827586e-06, |
| "loss": 0.2763, |
| "step": 2785 |
| }, |
| { |
| "epoch": 0.186, |
| "grad_norm": 4.0240278244018555, |
| "learning_rate": 3.368551724137931e-06, |
| "loss": 0.2591, |
| "step": 2790 |
| }, |
| { |
| "epoch": 0.18633333333333332, |
| "grad_norm": 5.07747220993042, |
| "learning_rate": 3.367172413793103e-06, |
| "loss": 0.2262, |
| "step": 2795 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 4.789224624633789, |
| "learning_rate": 3.3657931034482758e-06, |
| "loss": 0.237, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.187, |
| "grad_norm": 4.838815212249756, |
| "learning_rate": 3.364413793103448e-06, |
| "loss": 0.212, |
| "step": 2805 |
| }, |
| { |
| "epoch": 0.18733333333333332, |
| "grad_norm": 4.1041412353515625, |
| "learning_rate": 3.3630344827586202e-06, |
| "loss": 0.2389, |
| "step": 2810 |
| }, |
| { |
| "epoch": 0.18766666666666668, |
| "grad_norm": 3.9281668663024902, |
| "learning_rate": 3.3616551724137933e-06, |
| "loss": 0.2025, |
| "step": 2815 |
| }, |
| { |
| "epoch": 0.188, |
| "grad_norm": 4.125972747802734, |
| "learning_rate": 3.3602758620689656e-06, |
| "loss": 0.2024, |
| "step": 2820 |
| }, |
| { |
| "epoch": 0.18833333333333332, |
| "grad_norm": 4.832058906555176, |
| "learning_rate": 3.358896551724138e-06, |
| "loss": 0.27, |
| "step": 2825 |
| }, |
| { |
| "epoch": 0.18866666666666668, |
| "grad_norm": 5.967172622680664, |
| "learning_rate": 3.35751724137931e-06, |
| "loss": 0.2495, |
| "step": 2830 |
| }, |
| { |
| "epoch": 0.189, |
| "grad_norm": 4.961123943328857, |
| "learning_rate": 3.3561379310344827e-06, |
| "loss": 0.2149, |
| "step": 2835 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 4.156426906585693, |
| "learning_rate": 3.354758620689655e-06, |
| "loss": 0.2665, |
| "step": 2840 |
| }, |
| { |
| "epoch": 0.18966666666666668, |
| "grad_norm": 4.564237594604492, |
| "learning_rate": 3.353379310344827e-06, |
| "loss": 0.2181, |
| "step": 2845 |
| }, |
| { |
| "epoch": 0.19, |
| "grad_norm": 4.784379005432129, |
| "learning_rate": 3.352e-06, |
| "loss": 0.2189, |
| "step": 2850 |
| }, |
| { |
| "epoch": 0.19033333333333333, |
| "grad_norm": 3.5423190593719482, |
| "learning_rate": 3.350620689655172e-06, |
| "loss": 0.2418, |
| "step": 2855 |
| }, |
| { |
| "epoch": 0.19066666666666668, |
| "grad_norm": 3.952510118484497, |
| "learning_rate": 3.3492413793103447e-06, |
| "loss": 0.2624, |
| "step": 2860 |
| }, |
| { |
| "epoch": 0.191, |
| "grad_norm": 5.3700337409973145, |
| "learning_rate": 3.3478620689655174e-06, |
| "loss": 0.2359, |
| "step": 2865 |
| }, |
| { |
| "epoch": 0.19133333333333333, |
| "grad_norm": 4.878916263580322, |
| "learning_rate": 3.3464827586206896e-06, |
| "loss": 0.2487, |
| "step": 2870 |
| }, |
| { |
| "epoch": 0.19166666666666668, |
| "grad_norm": 3.750455617904663, |
| "learning_rate": 3.345103448275862e-06, |
| "loss": 0.2065, |
| "step": 2875 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 6.108488082885742, |
| "learning_rate": 3.3437241379310345e-06, |
| "loss": 0.2646, |
| "step": 2880 |
| }, |
| { |
| "epoch": 0.19233333333333333, |
| "grad_norm": 5.342141628265381, |
| "learning_rate": 3.3423448275862068e-06, |
| "loss": 0.2193, |
| "step": 2885 |
| }, |
| { |
| "epoch": 0.19266666666666668, |
| "grad_norm": 4.559185981750488, |
| "learning_rate": 3.340965517241379e-06, |
| "loss": 0.3068, |
| "step": 2890 |
| }, |
| { |
| "epoch": 0.193, |
| "grad_norm": 3.8077902793884277, |
| "learning_rate": 3.3395862068965517e-06, |
| "loss": 0.2698, |
| "step": 2895 |
| }, |
| { |
| "epoch": 0.19333333333333333, |
| "grad_norm": 4.816911220550537, |
| "learning_rate": 3.338206896551724e-06, |
| "loss": 0.2383, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.19366666666666665, |
| "grad_norm": 5.662405014038086, |
| "learning_rate": 3.336827586206896e-06, |
| "loss": 0.2976, |
| "step": 2905 |
| }, |
| { |
| "epoch": 0.194, |
| "grad_norm": 5.0890936851501465, |
| "learning_rate": 3.335448275862069e-06, |
| "loss": 0.3457, |
| "step": 2910 |
| }, |
| { |
| "epoch": 0.19433333333333333, |
| "grad_norm": 4.810048580169678, |
| "learning_rate": 3.3340689655172415e-06, |
| "loss": 0.2545, |
| "step": 2915 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 5.465974807739258, |
| "learning_rate": 3.3326896551724137e-06, |
| "loss": 0.2639, |
| "step": 2920 |
| }, |
| { |
| "epoch": 0.195, |
| "grad_norm": 4.7607927322387695, |
| "learning_rate": 3.331310344827586e-06, |
| "loss": 0.2599, |
| "step": 2925 |
| }, |
| { |
| "epoch": 0.19533333333333333, |
| "grad_norm": 4.343291759490967, |
| "learning_rate": 3.3299310344827586e-06, |
| "loss": 0.2344, |
| "step": 2930 |
| }, |
| { |
| "epoch": 0.19566666666666666, |
| "grad_norm": 5.0552778244018555, |
| "learning_rate": 3.328551724137931e-06, |
| "loss": 0.2283, |
| "step": 2935 |
| }, |
| { |
| "epoch": 0.196, |
| "grad_norm": 4.829711437225342, |
| "learning_rate": 3.327172413793103e-06, |
| "loss": 0.3655, |
| "step": 2940 |
| }, |
| { |
| "epoch": 1.0002666666666666, |
| "grad_norm": 3.4949984550476074, |
| "learning_rate": 3.3257931034482757e-06, |
| "loss": 0.2038, |
| "step": 2945 |
| }, |
| { |
| "epoch": 1.0006, |
| "grad_norm": 4.251642227172852, |
| "learning_rate": 3.324413793103448e-06, |
| "loss": 0.2422, |
| "step": 2950 |
| }, |
| { |
| "epoch": 1.0009333333333332, |
| "grad_norm": 3.75738787651062, |
| "learning_rate": 3.3230344827586206e-06, |
| "loss": 0.2113, |
| "step": 2955 |
| }, |
| { |
| "epoch": 1.0012666666666667, |
| "grad_norm": 3.388909101486206, |
| "learning_rate": 3.3216551724137933e-06, |
| "loss": 0.1937, |
| "step": 2960 |
| }, |
| { |
| "epoch": 1.0016, |
| "grad_norm": 4.3214497566223145, |
| "learning_rate": 3.3202758620689655e-06, |
| "loss": 0.2291, |
| "step": 2965 |
| }, |
| { |
| "epoch": 1.0019333333333333, |
| "grad_norm": 4.865558624267578, |
| "learning_rate": 3.3188965517241378e-06, |
| "loss": 0.2242, |
| "step": 2970 |
| }, |
| { |
| "epoch": 1.0022666666666666, |
| "grad_norm": 3.5226480960845947, |
| "learning_rate": 3.3175172413793104e-06, |
| "loss": 0.1968, |
| "step": 2975 |
| }, |
| { |
| "epoch": 1.0026, |
| "grad_norm": 4.301427364349365, |
| "learning_rate": 3.3161379310344827e-06, |
| "loss": 0.1687, |
| "step": 2980 |
| }, |
| { |
| "epoch": 1.0029333333333332, |
| "grad_norm": 4.259810924530029, |
| "learning_rate": 3.314758620689655e-06, |
| "loss": 0.2035, |
| "step": 2985 |
| }, |
| { |
| "epoch": 1.0032666666666668, |
| "grad_norm": 4.693942546844482, |
| "learning_rate": 3.313379310344827e-06, |
| "loss": 0.2366, |
| "step": 2990 |
| }, |
| { |
| "epoch": 1.0036, |
| "grad_norm": 4.454593181610107, |
| "learning_rate": 3.312e-06, |
| "loss": 0.1951, |
| "step": 2995 |
| }, |
| { |
| "epoch": 1.0039333333333333, |
| "grad_norm": 5.165683269500732, |
| "learning_rate": 3.310620689655172e-06, |
| "loss": 0.2012, |
| "step": 3000 |
| }, |
| { |
| "epoch": 1.0039333333333333, |
| "eval_loss": 0.23444338142871857, |
| "eval_runtime": 138.8572, |
| "eval_samples_per_second": 4.321, |
| "eval_steps_per_second": 1.08, |
| "eval_wer": 12.279805973959663, |
| "step": 3000 |
| }, |
| { |
| "epoch": 1.0042666666666666, |
| "grad_norm": 3.7630887031555176, |
| "learning_rate": 3.3092413793103447e-06, |
| "loss": 0.1909, |
| "step": 3005 |
| }, |
| { |
| "epoch": 1.0046, |
| "grad_norm": 5.058170318603516, |
| "learning_rate": 3.3078620689655174e-06, |
| "loss": 0.1481, |
| "step": 3010 |
| }, |
| { |
| "epoch": 1.0049333333333332, |
| "grad_norm": 3.2936718463897705, |
| "learning_rate": 3.3064827586206896e-06, |
| "loss": 0.1527, |
| "step": 3015 |
| }, |
| { |
| "epoch": 1.0052666666666668, |
| "grad_norm": 4.079516887664795, |
| "learning_rate": 3.305103448275862e-06, |
| "loss": 0.1882, |
| "step": 3020 |
| }, |
| { |
| "epoch": 1.0056, |
| "grad_norm": 3.6755354404449463, |
| "learning_rate": 3.3037241379310345e-06, |
| "loss": 0.1316, |
| "step": 3025 |
| }, |
| { |
| "epoch": 1.0059333333333333, |
| "grad_norm": 3.8584976196289062, |
| "learning_rate": 3.3023448275862067e-06, |
| "loss": 0.1674, |
| "step": 3030 |
| }, |
| { |
| "epoch": 1.0062666666666666, |
| "grad_norm": 3.816880941390991, |
| "learning_rate": 3.300965517241379e-06, |
| "loss": 0.1907, |
| "step": 3035 |
| }, |
| { |
| "epoch": 1.0066, |
| "grad_norm": 3.5711309909820557, |
| "learning_rate": 3.2995862068965516e-06, |
| "loss": 0.1336, |
| "step": 3040 |
| }, |
| { |
| "epoch": 1.0069333333333332, |
| "grad_norm": 3.798013687133789, |
| "learning_rate": 3.298206896551724e-06, |
| "loss": 0.1499, |
| "step": 3045 |
| }, |
| { |
| "epoch": 1.0072666666666668, |
| "grad_norm": 4.890843391418457, |
| "learning_rate": 3.2968275862068965e-06, |
| "loss": 0.2151, |
| "step": 3050 |
| }, |
| { |
| "epoch": 1.0076, |
| "grad_norm": 3.8821091651916504, |
| "learning_rate": 3.2954482758620688e-06, |
| "loss": 0.1992, |
| "step": 3055 |
| }, |
| { |
| "epoch": 1.0079333333333333, |
| "grad_norm": 4.8673248291015625, |
| "learning_rate": 3.2940689655172414e-06, |
| "loss": 0.185, |
| "step": 3060 |
| }, |
| { |
| "epoch": 1.0082666666666666, |
| "grad_norm": 4.067516803741455, |
| "learning_rate": 3.2926896551724137e-06, |
| "loss": 0.2063, |
| "step": 3065 |
| }, |
| { |
| "epoch": 1.0086, |
| "grad_norm": 4.3480329513549805, |
| "learning_rate": 3.291310344827586e-06, |
| "loss": 0.202, |
| "step": 3070 |
| }, |
| { |
| "epoch": 1.0089333333333332, |
| "grad_norm": 3.9027059078216553, |
| "learning_rate": 3.2899310344827586e-06, |
| "loss": 0.1982, |
| "step": 3075 |
| }, |
| { |
| "epoch": 1.0092666666666668, |
| "grad_norm": 3.708803653717041, |
| "learning_rate": 3.288551724137931e-06, |
| "loss": 0.2497, |
| "step": 3080 |
| }, |
| { |
| "epoch": 1.0096, |
| "grad_norm": 4.1015424728393555, |
| "learning_rate": 3.287172413793103e-06, |
| "loss": 0.1959, |
| "step": 3085 |
| }, |
| { |
| "epoch": 1.0099333333333333, |
| "grad_norm": 3.7574470043182373, |
| "learning_rate": 3.2857931034482757e-06, |
| "loss": 0.1831, |
| "step": 3090 |
| }, |
| { |
| "epoch": 1.0102666666666666, |
| "grad_norm": 3.5008668899536133, |
| "learning_rate": 3.2844137931034484e-06, |
| "loss": 0.1775, |
| "step": 3095 |
| }, |
| { |
| "epoch": 1.0106, |
| "grad_norm": 3.8982155323028564, |
| "learning_rate": 3.2830344827586206e-06, |
| "loss": 0.2011, |
| "step": 3100 |
| }, |
| { |
| "epoch": 1.0109333333333332, |
| "grad_norm": 5.034063816070557, |
| "learning_rate": 3.2816551724137933e-06, |
| "loss": 0.209, |
| "step": 3105 |
| }, |
| { |
| "epoch": 1.0112666666666668, |
| "grad_norm": 3.708975076675415, |
| "learning_rate": 3.2802758620689655e-06, |
| "loss": 0.206, |
| "step": 3110 |
| }, |
| { |
| "epoch": 1.0116, |
| "grad_norm": 3.9706759452819824, |
| "learning_rate": 3.2788965517241377e-06, |
| "loss": 0.1918, |
| "step": 3115 |
| }, |
| { |
| "epoch": 1.0119333333333334, |
| "grad_norm": 3.984116315841675, |
| "learning_rate": 3.2775172413793104e-06, |
| "loss": 0.2163, |
| "step": 3120 |
| }, |
| { |
| "epoch": 1.0122666666666666, |
| "grad_norm": 5.8934173583984375, |
| "learning_rate": 3.2761379310344826e-06, |
| "loss": 0.2608, |
| "step": 3125 |
| }, |
| { |
| "epoch": 1.0126, |
| "grad_norm": 4.748132705688477, |
| "learning_rate": 3.274758620689655e-06, |
| "loss": 0.2407, |
| "step": 3130 |
| }, |
| { |
| "epoch": 1.0129333333333332, |
| "grad_norm": 5.090843200683594, |
| "learning_rate": 3.273379310344827e-06, |
| "loss": 0.2375, |
| "step": 3135 |
| }, |
| { |
| "epoch": 1.0132666666666668, |
| "grad_norm": 4.086766242980957, |
| "learning_rate": 3.2719999999999998e-06, |
| "loss": 0.2068, |
| "step": 3140 |
| }, |
| { |
| "epoch": 1.0136, |
| "grad_norm": 5.127700328826904, |
| "learning_rate": 3.2706206896551724e-06, |
| "loss": 0.2281, |
| "step": 3145 |
| }, |
| { |
| "epoch": 1.0139333333333334, |
| "grad_norm": 4.562211513519287, |
| "learning_rate": 3.2692413793103447e-06, |
| "loss": 0.281, |
| "step": 3150 |
| }, |
| { |
| "epoch": 1.0142666666666666, |
| "grad_norm": 4.463860511779785, |
| "learning_rate": 3.2678620689655173e-06, |
| "loss": 0.2361, |
| "step": 3155 |
| }, |
| { |
| "epoch": 1.0146, |
| "grad_norm": 4.80808162689209, |
| "learning_rate": 3.2664827586206896e-06, |
| "loss": 0.2556, |
| "step": 3160 |
| }, |
| { |
| "epoch": 1.0149333333333332, |
| "grad_norm": 4.368381977081299, |
| "learning_rate": 3.265103448275862e-06, |
| "loss": 0.2362, |
| "step": 3165 |
| }, |
| { |
| "epoch": 1.0152666666666668, |
| "grad_norm": 5.268251895904541, |
| "learning_rate": 3.2637241379310345e-06, |
| "loss": 0.2408, |
| "step": 3170 |
| }, |
| { |
| "epoch": 1.0156, |
| "grad_norm": 4.445746421813965, |
| "learning_rate": 3.2623448275862067e-06, |
| "loss": 0.2018, |
| "step": 3175 |
| }, |
| { |
| "epoch": 1.0159333333333334, |
| "grad_norm": 4.361732006072998, |
| "learning_rate": 3.260965517241379e-06, |
| "loss": 0.2134, |
| "step": 3180 |
| }, |
| { |
| "epoch": 1.0162666666666667, |
| "grad_norm": 4.289709091186523, |
| "learning_rate": 3.2595862068965516e-06, |
| "loss": 0.222, |
| "step": 3185 |
| }, |
| { |
| "epoch": 1.0166, |
| "grad_norm": 4.434460639953613, |
| "learning_rate": 3.2582068965517242e-06, |
| "loss": 0.2018, |
| "step": 3190 |
| }, |
| { |
| "epoch": 1.0169333333333332, |
| "grad_norm": 3.44372820854187, |
| "learning_rate": 3.2568275862068965e-06, |
| "loss": 0.21, |
| "step": 3195 |
| }, |
| { |
| "epoch": 1.0172666666666668, |
| "grad_norm": 5.500320911407471, |
| "learning_rate": 3.255448275862069e-06, |
| "loss": 0.2029, |
| "step": 3200 |
| }, |
| { |
| "epoch": 1.0176, |
| "grad_norm": 3.647191286087036, |
| "learning_rate": 3.2540689655172414e-06, |
| "loss": 0.2666, |
| "step": 3205 |
| }, |
| { |
| "epoch": 1.0179333333333334, |
| "grad_norm": 5.200259208679199, |
| "learning_rate": 3.2526896551724136e-06, |
| "loss": 0.2285, |
| "step": 3210 |
| }, |
| { |
| "epoch": 1.0182666666666667, |
| "grad_norm": 4.9900102615356445, |
| "learning_rate": 3.251310344827586e-06, |
| "loss": 0.2263, |
| "step": 3215 |
| }, |
| { |
| "epoch": 1.0186, |
| "grad_norm": 4.464180946350098, |
| "learning_rate": 3.2499310344827585e-06, |
| "loss": 0.1887, |
| "step": 3220 |
| }, |
| { |
| "epoch": 1.0189333333333332, |
| "grad_norm": 3.559330463409424, |
| "learning_rate": 3.2485517241379308e-06, |
| "loss": 0.2447, |
| "step": 3225 |
| }, |
| { |
| "epoch": 1.0192666666666668, |
| "grad_norm": 3.701608896255493, |
| "learning_rate": 3.247172413793103e-06, |
| "loss": 0.168, |
| "step": 3230 |
| }, |
| { |
| "epoch": 1.0196, |
| "grad_norm": 4.096370697021484, |
| "learning_rate": 3.2457931034482757e-06, |
| "loss": 0.1994, |
| "step": 3235 |
| }, |
| { |
| "epoch": 1.0199333333333334, |
| "grad_norm": 4.785329818725586, |
| "learning_rate": 3.2444137931034483e-06, |
| "loss": 0.2353, |
| "step": 3240 |
| }, |
| { |
| "epoch": 1.0202666666666667, |
| "grad_norm": 4.224263668060303, |
| "learning_rate": 3.2430344827586206e-06, |
| "loss": 0.2036, |
| "step": 3245 |
| }, |
| { |
| "epoch": 1.0206, |
| "grad_norm": 4.927604675292969, |
| "learning_rate": 3.241655172413793e-06, |
| "loss": 0.3024, |
| "step": 3250 |
| }, |
| { |
| "epoch": 1.0209333333333332, |
| "grad_norm": 4.49512243270874, |
| "learning_rate": 3.2402758620689654e-06, |
| "loss": 0.2074, |
| "step": 3255 |
| }, |
| { |
| "epoch": 1.0212666666666668, |
| "grad_norm": 3.2073464393615723, |
| "learning_rate": 3.2388965517241377e-06, |
| "loss": 0.1872, |
| "step": 3260 |
| }, |
| { |
| "epoch": 1.0216, |
| "grad_norm": 3.708272933959961, |
| "learning_rate": 3.2375172413793103e-06, |
| "loss": 0.2165, |
| "step": 3265 |
| }, |
| { |
| "epoch": 1.0219333333333334, |
| "grad_norm": 3.688525676727295, |
| "learning_rate": 3.2361379310344826e-06, |
| "loss": 0.1811, |
| "step": 3270 |
| }, |
| { |
| "epoch": 1.0222666666666667, |
| "grad_norm": 3.9060750007629395, |
| "learning_rate": 3.234758620689655e-06, |
| "loss": 0.2347, |
| "step": 3275 |
| }, |
| { |
| "epoch": 1.0226, |
| "grad_norm": 4.962421417236328, |
| "learning_rate": 3.233379310344827e-06, |
| "loss": 0.182, |
| "step": 3280 |
| }, |
| { |
| "epoch": 1.0229333333333333, |
| "grad_norm": 3.9890761375427246, |
| "learning_rate": 3.232e-06, |
| "loss": 0.1922, |
| "step": 3285 |
| }, |
| { |
| "epoch": 1.0232666666666668, |
| "grad_norm": 4.4562458992004395, |
| "learning_rate": 3.2306206896551724e-06, |
| "loss": 0.2098, |
| "step": 3290 |
| }, |
| { |
| "epoch": 1.0236, |
| "grad_norm": 5.162217617034912, |
| "learning_rate": 3.2292413793103446e-06, |
| "loss": 0.1922, |
| "step": 3295 |
| }, |
| { |
| "epoch": 1.0239333333333334, |
| "grad_norm": 5.276288986206055, |
| "learning_rate": 3.2278620689655173e-06, |
| "loss": 0.1876, |
| "step": 3300 |
| }, |
| { |
| "epoch": 1.0242666666666667, |
| "grad_norm": 4.711269855499268, |
| "learning_rate": 3.2264827586206895e-06, |
| "loss": 0.2109, |
| "step": 3305 |
| }, |
| { |
| "epoch": 1.0246, |
| "grad_norm": 4.391339302062988, |
| "learning_rate": 3.2251034482758618e-06, |
| "loss": 0.2139, |
| "step": 3310 |
| }, |
| { |
| "epoch": 1.0249333333333333, |
| "grad_norm": 3.997645139694214, |
| "learning_rate": 3.2237241379310344e-06, |
| "loss": 0.1698, |
| "step": 3315 |
| }, |
| { |
| "epoch": 1.0252666666666668, |
| "grad_norm": 3.2267558574676514, |
| "learning_rate": 3.2223448275862066e-06, |
| "loss": 0.179, |
| "step": 3320 |
| }, |
| { |
| "epoch": 1.0256, |
| "grad_norm": 4.2319111824035645, |
| "learning_rate": 3.220965517241379e-06, |
| "loss": 0.2338, |
| "step": 3325 |
| }, |
| { |
| "epoch": 1.0259333333333334, |
| "grad_norm": 3.426051378250122, |
| "learning_rate": 3.2195862068965515e-06, |
| "loss": 0.1647, |
| "step": 3330 |
| }, |
| { |
| "epoch": 1.0262666666666667, |
| "grad_norm": 3.3006865978240967, |
| "learning_rate": 3.218206896551724e-06, |
| "loss": 0.1576, |
| "step": 3335 |
| }, |
| { |
| "epoch": 1.0266, |
| "grad_norm": 4.378168106079102, |
| "learning_rate": 3.2168275862068964e-06, |
| "loss": 0.1901, |
| "step": 3340 |
| }, |
| { |
| "epoch": 1.0269333333333333, |
| "grad_norm": 5.147646903991699, |
| "learning_rate": 3.215448275862069e-06, |
| "loss": 0.1682, |
| "step": 3345 |
| }, |
| { |
| "epoch": 1.0272666666666668, |
| "grad_norm": 4.058917045593262, |
| "learning_rate": 3.2140689655172413e-06, |
| "loss": 0.1877, |
| "step": 3350 |
| }, |
| { |
| "epoch": 1.0276, |
| "grad_norm": 4.000892639160156, |
| "learning_rate": 3.2126896551724136e-06, |
| "loss": 0.2084, |
| "step": 3355 |
| }, |
| { |
| "epoch": 1.0279333333333334, |
| "grad_norm": 3.0352602005004883, |
| "learning_rate": 3.211310344827586e-06, |
| "loss": 0.2037, |
| "step": 3360 |
| }, |
| { |
| "epoch": 1.0282666666666667, |
| "grad_norm": 4.52240514755249, |
| "learning_rate": 3.2099310344827585e-06, |
| "loss": 0.2006, |
| "step": 3365 |
| }, |
| { |
| "epoch": 1.0286, |
| "grad_norm": 3.595707416534424, |
| "learning_rate": 3.2085517241379307e-06, |
| "loss": 0.1681, |
| "step": 3370 |
| }, |
| { |
| "epoch": 1.0289333333333333, |
| "grad_norm": 4.7902936935424805, |
| "learning_rate": 3.207172413793103e-06, |
| "loss": 0.2526, |
| "step": 3375 |
| }, |
| { |
| "epoch": 1.0292666666666668, |
| "grad_norm": 3.4989466667175293, |
| "learning_rate": 3.205793103448276e-06, |
| "loss": 0.1738, |
| "step": 3380 |
| }, |
| { |
| "epoch": 1.0296, |
| "grad_norm": 4.579338073730469, |
| "learning_rate": 3.2044137931034483e-06, |
| "loss": 0.1961, |
| "step": 3385 |
| }, |
| { |
| "epoch": 1.0299333333333334, |
| "grad_norm": 4.113155364990234, |
| "learning_rate": 3.2030344827586205e-06, |
| "loss": 0.1966, |
| "step": 3390 |
| }, |
| { |
| "epoch": 1.0302666666666667, |
| "grad_norm": 5.247110366821289, |
| "learning_rate": 3.201655172413793e-06, |
| "loss": 0.2133, |
| "step": 3395 |
| }, |
| { |
| "epoch": 1.0306, |
| "grad_norm": 4.388834476470947, |
| "learning_rate": 3.2002758620689654e-06, |
| "loss": 0.1995, |
| "step": 3400 |
| }, |
| { |
| "epoch": 1.0309333333333333, |
| "grad_norm": 5.551411151885986, |
| "learning_rate": 3.1988965517241376e-06, |
| "loss": 0.2236, |
| "step": 3405 |
| }, |
| { |
| "epoch": 1.0312666666666668, |
| "grad_norm": 4.183872699737549, |
| "learning_rate": 3.1975172413793103e-06, |
| "loss": 0.1659, |
| "step": 3410 |
| }, |
| { |
| "epoch": 1.0316, |
| "grad_norm": 3.8768043518066406, |
| "learning_rate": 3.1961379310344825e-06, |
| "loss": 0.2295, |
| "step": 3415 |
| }, |
| { |
| "epoch": 1.0319333333333334, |
| "grad_norm": 4.20235538482666, |
| "learning_rate": 3.1947586206896548e-06, |
| "loss": 0.1712, |
| "step": 3420 |
| }, |
| { |
| "epoch": 1.0322666666666667, |
| "grad_norm": 3.7663445472717285, |
| "learning_rate": 3.193379310344828e-06, |
| "loss": 0.2281, |
| "step": 3425 |
| }, |
| { |
| "epoch": 1.0326, |
| "grad_norm": 5.9546685218811035, |
| "learning_rate": 3.192e-06, |
| "loss": 0.1973, |
| "step": 3430 |
| }, |
| { |
| "epoch": 1.0329333333333333, |
| "grad_norm": 4.071985721588135, |
| "learning_rate": 3.1906206896551723e-06, |
| "loss": 0.2054, |
| "step": 3435 |
| }, |
| { |
| "epoch": 1.0332666666666666, |
| "grad_norm": 5.176264762878418, |
| "learning_rate": 3.1892413793103446e-06, |
| "loss": 0.1994, |
| "step": 3440 |
| }, |
| { |
| "epoch": 1.0336, |
| "grad_norm": 3.963297128677368, |
| "learning_rate": 3.1878620689655172e-06, |
| "loss": 0.1849, |
| "step": 3445 |
| }, |
| { |
| "epoch": 1.0339333333333334, |
| "grad_norm": 4.035712718963623, |
| "learning_rate": 3.1864827586206895e-06, |
| "loss": 0.184, |
| "step": 3450 |
| }, |
| { |
| "epoch": 1.0342666666666667, |
| "grad_norm": 3.4552323818206787, |
| "learning_rate": 3.1851034482758617e-06, |
| "loss": 0.1895, |
| "step": 3455 |
| }, |
| { |
| "epoch": 1.0346, |
| "grad_norm": 3.8243696689605713, |
| "learning_rate": 3.1837241379310344e-06, |
| "loss": 0.191, |
| "step": 3460 |
| }, |
| { |
| "epoch": 1.0349333333333333, |
| "grad_norm": 3.533039093017578, |
| "learning_rate": 3.1823448275862066e-06, |
| "loss": 0.1591, |
| "step": 3465 |
| }, |
| { |
| "epoch": 1.0352666666666668, |
| "grad_norm": 4.106102466583252, |
| "learning_rate": 3.180965517241379e-06, |
| "loss": 0.2006, |
| "step": 3470 |
| }, |
| { |
| "epoch": 1.0356, |
| "grad_norm": 3.587372303009033, |
| "learning_rate": 3.179586206896552e-06, |
| "loss": 0.154, |
| "step": 3475 |
| }, |
| { |
| "epoch": 1.0359333333333334, |
| "grad_norm": 3.8791685104370117, |
| "learning_rate": 3.178206896551724e-06, |
| "loss": 0.2502, |
| "step": 3480 |
| }, |
| { |
| "epoch": 1.0362666666666667, |
| "grad_norm": 4.646202564239502, |
| "learning_rate": 3.1768275862068964e-06, |
| "loss": 0.2084, |
| "step": 3485 |
| }, |
| { |
| "epoch": 1.0366, |
| "grad_norm": 4.669162273406982, |
| "learning_rate": 3.175448275862069e-06, |
| "loss": 0.2138, |
| "step": 3490 |
| }, |
| { |
| "epoch": 1.0369333333333333, |
| "grad_norm": 3.882847547531128, |
| "learning_rate": 3.1740689655172413e-06, |
| "loss": 0.2208, |
| "step": 3495 |
| }, |
| { |
| "epoch": 1.0372666666666666, |
| "grad_norm": 4.695615291595459, |
| "learning_rate": 3.1726896551724135e-06, |
| "loss": 0.2188, |
| "step": 3500 |
| }, |
| { |
| "epoch": 1.0376, |
| "grad_norm": 3.413388967514038, |
| "learning_rate": 3.1713103448275858e-06, |
| "loss": 0.1746, |
| "step": 3505 |
| }, |
| { |
| "epoch": 1.0379333333333334, |
| "grad_norm": 3.3137855529785156, |
| "learning_rate": 3.1699310344827584e-06, |
| "loss": 0.1657, |
| "step": 3510 |
| }, |
| { |
| "epoch": 1.0382666666666667, |
| "grad_norm": 3.8661205768585205, |
| "learning_rate": 3.1685517241379307e-06, |
| "loss": 0.2199, |
| "step": 3515 |
| }, |
| { |
| "epoch": 1.0386, |
| "grad_norm": 3.643791675567627, |
| "learning_rate": 3.1671724137931033e-06, |
| "loss": 0.1542, |
| "step": 3520 |
| }, |
| { |
| "epoch": 1.0389333333333333, |
| "grad_norm": 3.955091714859009, |
| "learning_rate": 3.165793103448276e-06, |
| "loss": 0.1641, |
| "step": 3525 |
| }, |
| { |
| "epoch": 1.0392666666666666, |
| "grad_norm": 3.7957170009613037, |
| "learning_rate": 3.1644137931034482e-06, |
| "loss": 0.1911, |
| "step": 3530 |
| }, |
| { |
| "epoch": 1.0396, |
| "grad_norm": 4.432152271270752, |
| "learning_rate": 3.1630344827586205e-06, |
| "loss": 0.1884, |
| "step": 3535 |
| }, |
| { |
| "epoch": 1.0399333333333334, |
| "grad_norm": 3.359846830368042, |
| "learning_rate": 3.161655172413793e-06, |
| "loss": 0.1674, |
| "step": 3540 |
| }, |
| { |
| "epoch": 1.0402666666666667, |
| "grad_norm": 4.731626510620117, |
| "learning_rate": 3.1602758620689654e-06, |
| "loss": 0.1871, |
| "step": 3545 |
| }, |
| { |
| "epoch": 1.0406, |
| "grad_norm": 3.7631399631500244, |
| "learning_rate": 3.1588965517241376e-06, |
| "loss": 0.2136, |
| "step": 3550 |
| }, |
| { |
| "epoch": 1.0409333333333333, |
| "grad_norm": 4.278292655944824, |
| "learning_rate": 3.1575172413793103e-06, |
| "loss": 0.1958, |
| "step": 3555 |
| }, |
| { |
| "epoch": 1.0412666666666666, |
| "grad_norm": 4.066004276275635, |
| "learning_rate": 3.1561379310344825e-06, |
| "loss": 0.2206, |
| "step": 3560 |
| }, |
| { |
| "epoch": 1.0416, |
| "grad_norm": 4.494546413421631, |
| "learning_rate": 3.1547586206896547e-06, |
| "loss": 0.2025, |
| "step": 3565 |
| }, |
| { |
| "epoch": 1.0419333333333334, |
| "grad_norm": 3.467820644378662, |
| "learning_rate": 3.153379310344828e-06, |
| "loss": 0.2135, |
| "step": 3570 |
| }, |
| { |
| "epoch": 1.0422666666666667, |
| "grad_norm": 4.746524810791016, |
| "learning_rate": 3.152e-06, |
| "loss": 0.1888, |
| "step": 3575 |
| }, |
| { |
| "epoch": 1.0426, |
| "grad_norm": 3.6339330673217773, |
| "learning_rate": 3.1506206896551723e-06, |
| "loss": 0.1759, |
| "step": 3580 |
| }, |
| { |
| "epoch": 1.0429333333333333, |
| "grad_norm": 5.353305816650391, |
| "learning_rate": 3.1492413793103445e-06, |
| "loss": 0.1957, |
| "step": 3585 |
| }, |
| { |
| "epoch": 1.0432666666666666, |
| "grad_norm": 4.319478511810303, |
| "learning_rate": 3.147862068965517e-06, |
| "loss": 0.1924, |
| "step": 3590 |
| }, |
| { |
| "epoch": 1.0436, |
| "grad_norm": 3.649482488632202, |
| "learning_rate": 3.1464827586206894e-06, |
| "loss": 0.1976, |
| "step": 3595 |
| }, |
| { |
| "epoch": 1.0439333333333334, |
| "grad_norm": 3.8759238719940186, |
| "learning_rate": 3.1451034482758617e-06, |
| "loss": 0.1748, |
| "step": 3600 |
| }, |
| { |
| "epoch": 1.0442666666666667, |
| "grad_norm": 5.296712875366211, |
| "learning_rate": 3.1437241379310343e-06, |
| "loss": 0.2466, |
| "step": 3605 |
| }, |
| { |
| "epoch": 1.0446, |
| "grad_norm": 3.317796230316162, |
| "learning_rate": 3.1423448275862066e-06, |
| "loss": 0.1958, |
| "step": 3610 |
| }, |
| { |
| "epoch": 1.0449333333333333, |
| "grad_norm": 3.99485182762146, |
| "learning_rate": 3.1409655172413792e-06, |
| "loss": 0.219, |
| "step": 3615 |
| }, |
| { |
| "epoch": 1.0452666666666666, |
| "grad_norm": 2.9838738441467285, |
| "learning_rate": 3.139586206896552e-06, |
| "loss": 0.1545, |
| "step": 3620 |
| }, |
| { |
| "epoch": 1.0456, |
| "grad_norm": 4.66552209854126, |
| "learning_rate": 3.138206896551724e-06, |
| "loss": 0.2351, |
| "step": 3625 |
| }, |
| { |
| "epoch": 1.0459333333333334, |
| "grad_norm": 3.717733860015869, |
| "learning_rate": 3.1368275862068964e-06, |
| "loss": 0.1671, |
| "step": 3630 |
| }, |
| { |
| "epoch": 1.0462666666666667, |
| "grad_norm": 3.64137864112854, |
| "learning_rate": 3.135448275862069e-06, |
| "loss": 0.1988, |
| "step": 3635 |
| }, |
| { |
| "epoch": 1.0466, |
| "grad_norm": 3.9805660247802734, |
| "learning_rate": 3.1340689655172413e-06, |
| "loss": 0.2213, |
| "step": 3640 |
| }, |
| { |
| "epoch": 1.0469333333333333, |
| "grad_norm": 4.7378339767456055, |
| "learning_rate": 3.1326896551724135e-06, |
| "loss": 0.1979, |
| "step": 3645 |
| }, |
| { |
| "epoch": 1.0472666666666666, |
| "grad_norm": 4.871990203857422, |
| "learning_rate": 3.1313103448275857e-06, |
| "loss": 0.2044, |
| "step": 3650 |
| }, |
| { |
| "epoch": 1.0476, |
| "grad_norm": 4.227668285369873, |
| "learning_rate": 3.1299310344827584e-06, |
| "loss": 0.1717, |
| "step": 3655 |
| }, |
| { |
| "epoch": 1.0479333333333334, |
| "grad_norm": 4.246823310852051, |
| "learning_rate": 3.128551724137931e-06, |
| "loss": 0.2326, |
| "step": 3660 |
| }, |
| { |
| "epoch": 1.0482666666666667, |
| "grad_norm": 3.4186837673187256, |
| "learning_rate": 3.1271724137931033e-06, |
| "loss": 0.1619, |
| "step": 3665 |
| }, |
| { |
| "epoch": 1.0486, |
| "grad_norm": 4.648886203765869, |
| "learning_rate": 3.125793103448276e-06, |
| "loss": 0.1986, |
| "step": 3670 |
| }, |
| { |
| "epoch": 1.0489333333333333, |
| "grad_norm": 5.317938804626465, |
| "learning_rate": 3.124413793103448e-06, |
| "loss": 0.2063, |
| "step": 3675 |
| }, |
| { |
| "epoch": 1.0492666666666666, |
| "grad_norm": 4.476776599884033, |
| "learning_rate": 3.1230344827586204e-06, |
| "loss": 0.1925, |
| "step": 3680 |
| }, |
| { |
| "epoch": 1.0496, |
| "grad_norm": 3.589637041091919, |
| "learning_rate": 3.121655172413793e-06, |
| "loss": 0.199, |
| "step": 3685 |
| }, |
| { |
| "epoch": 1.0499333333333334, |
| "grad_norm": 5.552938938140869, |
| "learning_rate": 3.1202758620689653e-06, |
| "loss": 0.2303, |
| "step": 3690 |
| }, |
| { |
| "epoch": 1.0502666666666667, |
| "grad_norm": 4.239089488983154, |
| "learning_rate": 3.1188965517241376e-06, |
| "loss": 0.1644, |
| "step": 3695 |
| }, |
| { |
| "epoch": 1.0506, |
| "grad_norm": 4.648257255554199, |
| "learning_rate": 3.1175172413793102e-06, |
| "loss": 0.2364, |
| "step": 3700 |
| }, |
| { |
| "epoch": 1.0509333333333333, |
| "grad_norm": 5.070471286773682, |
| "learning_rate": 3.1161379310344825e-06, |
| "loss": 0.2363, |
| "step": 3705 |
| }, |
| { |
| "epoch": 1.0512666666666666, |
| "grad_norm": 5.2760539054870605, |
| "learning_rate": 3.114758620689655e-06, |
| "loss": 0.2216, |
| "step": 3710 |
| }, |
| { |
| "epoch": 1.0516, |
| "grad_norm": 5.112910270690918, |
| "learning_rate": 3.1133793103448278e-06, |
| "loss": 0.2141, |
| "step": 3715 |
| }, |
| { |
| "epoch": 1.0519333333333334, |
| "grad_norm": 4.717859745025635, |
| "learning_rate": 3.112e-06, |
| "loss": 0.2009, |
| "step": 3720 |
| }, |
| { |
| "epoch": 1.0522666666666667, |
| "grad_norm": 4.894160270690918, |
| "learning_rate": 3.1106206896551723e-06, |
| "loss": 0.1853, |
| "step": 3725 |
| }, |
| { |
| "epoch": 1.0526, |
| "grad_norm": 5.59440803527832, |
| "learning_rate": 3.1092413793103445e-06, |
| "loss": 0.2313, |
| "step": 3730 |
| }, |
| { |
| "epoch": 1.0529333333333333, |
| "grad_norm": 5.3291707038879395, |
| "learning_rate": 3.107862068965517e-06, |
| "loss": 0.1965, |
| "step": 3735 |
| }, |
| { |
| "epoch": 1.0532666666666666, |
| "grad_norm": 4.112637996673584, |
| "learning_rate": 3.1064827586206894e-06, |
| "loss": 0.2689, |
| "step": 3740 |
| }, |
| { |
| "epoch": 1.0536, |
| "grad_norm": 5.865375995635986, |
| "learning_rate": 3.1051034482758616e-06, |
| "loss": 0.2346, |
| "step": 3745 |
| }, |
| { |
| "epoch": 1.0539333333333334, |
| "grad_norm": 4.408691883087158, |
| "learning_rate": 3.1037241379310343e-06, |
| "loss": 0.2514, |
| "step": 3750 |
| }, |
| { |
| "epoch": 1.0542666666666667, |
| "grad_norm": 4.8006205558776855, |
| "learning_rate": 3.102344827586207e-06, |
| "loss": 0.2206, |
| "step": 3755 |
| }, |
| { |
| "epoch": 1.0546, |
| "grad_norm": 5.385299205780029, |
| "learning_rate": 3.100965517241379e-06, |
| "loss": 0.2552, |
| "step": 3760 |
| }, |
| { |
| "epoch": 1.0549333333333333, |
| "grad_norm": 4.512875556945801, |
| "learning_rate": 3.099586206896552e-06, |
| "loss": 0.1898, |
| "step": 3765 |
| }, |
| { |
| "epoch": 1.0552666666666666, |
| "grad_norm": 4.165173530578613, |
| "learning_rate": 3.098206896551724e-06, |
| "loss": 0.3024, |
| "step": 3770 |
| }, |
| { |
| "epoch": 1.0556, |
| "grad_norm": 3.932673454284668, |
| "learning_rate": 3.0968275862068963e-06, |
| "loss": 0.1942, |
| "step": 3775 |
| }, |
| { |
| "epoch": 1.0559333333333334, |
| "grad_norm": 3.3296172618865967, |
| "learning_rate": 3.095448275862069e-06, |
| "loss": 0.2054, |
| "step": 3780 |
| }, |
| { |
| "epoch": 1.0562666666666667, |
| "grad_norm": 3.992089033126831, |
| "learning_rate": 3.0940689655172412e-06, |
| "loss": 0.167, |
| "step": 3785 |
| }, |
| { |
| "epoch": 1.0566, |
| "grad_norm": 3.4820895195007324, |
| "learning_rate": 3.0926896551724135e-06, |
| "loss": 0.1475, |
| "step": 3790 |
| }, |
| { |
| "epoch": 1.0569333333333333, |
| "grad_norm": 5.051333427429199, |
| "learning_rate": 3.0913103448275857e-06, |
| "loss": 0.2781, |
| "step": 3795 |
| }, |
| { |
| "epoch": 1.0572666666666666, |
| "grad_norm": 3.6183791160583496, |
| "learning_rate": 3.0899310344827584e-06, |
| "loss": 0.2042, |
| "step": 3800 |
| }, |
| { |
| "epoch": 1.0576, |
| "grad_norm": 4.3645243644714355, |
| "learning_rate": 3.088551724137931e-06, |
| "loss": 0.162, |
| "step": 3805 |
| }, |
| { |
| "epoch": 1.0579333333333334, |
| "grad_norm": 4.305047988891602, |
| "learning_rate": 3.0871724137931033e-06, |
| "loss": 0.2386, |
| "step": 3810 |
| }, |
| { |
| "epoch": 1.0582666666666667, |
| "grad_norm": 4.209627628326416, |
| "learning_rate": 3.085793103448276e-06, |
| "loss": 0.2291, |
| "step": 3815 |
| }, |
| { |
| "epoch": 1.0586, |
| "grad_norm": 4.50907564163208, |
| "learning_rate": 3.084413793103448e-06, |
| "loss": 0.171, |
| "step": 3820 |
| }, |
| { |
| "epoch": 1.0589333333333333, |
| "grad_norm": 4.226495265960693, |
| "learning_rate": 3.0830344827586204e-06, |
| "loss": 0.1879, |
| "step": 3825 |
| }, |
| { |
| "epoch": 1.0592666666666666, |
| "grad_norm": 5.424273490905762, |
| "learning_rate": 3.081655172413793e-06, |
| "loss": 0.2011, |
| "step": 3830 |
| }, |
| { |
| "epoch": 1.0596, |
| "grad_norm": 3.443089246749878, |
| "learning_rate": 3.0802758620689653e-06, |
| "loss": 0.1845, |
| "step": 3835 |
| }, |
| { |
| "epoch": 1.0599333333333334, |
| "grad_norm": 5.67151403427124, |
| "learning_rate": 3.0788965517241375e-06, |
| "loss": 0.209, |
| "step": 3840 |
| }, |
| { |
| "epoch": 1.0602666666666667, |
| "grad_norm": 4.465269565582275, |
| "learning_rate": 3.07751724137931e-06, |
| "loss": 0.1923, |
| "step": 3845 |
| }, |
| { |
| "epoch": 1.0606, |
| "grad_norm": 4.850132465362549, |
| "learning_rate": 3.076137931034483e-06, |
| "loss": 0.2131, |
| "step": 3850 |
| }, |
| { |
| "epoch": 1.0609333333333333, |
| "grad_norm": 4.652693271636963, |
| "learning_rate": 3.074758620689655e-06, |
| "loss": 0.233, |
| "step": 3855 |
| }, |
| { |
| "epoch": 1.0612666666666666, |
| "grad_norm": 4.815736293792725, |
| "learning_rate": 3.0733793103448277e-06, |
| "loss": 0.2008, |
| "step": 3860 |
| }, |
| { |
| "epoch": 1.0616, |
| "grad_norm": 4.697230339050293, |
| "learning_rate": 3.072e-06, |
| "loss": 0.31, |
| "step": 3865 |
| }, |
| { |
| "epoch": 1.0619333333333334, |
| "grad_norm": 4.672793865203857, |
| "learning_rate": 3.0706206896551722e-06, |
| "loss": 0.2109, |
| "step": 3870 |
| }, |
| { |
| "epoch": 1.0622666666666667, |
| "grad_norm": 5.066920280456543, |
| "learning_rate": 3.0692413793103445e-06, |
| "loss": 0.1986, |
| "step": 3875 |
| }, |
| { |
| "epoch": 1.0626, |
| "grad_norm": 4.078789234161377, |
| "learning_rate": 3.067862068965517e-06, |
| "loss": 0.1737, |
| "step": 3880 |
| }, |
| { |
| "epoch": 1.0629333333333333, |
| "grad_norm": 4.136058330535889, |
| "learning_rate": 3.0664827586206894e-06, |
| "loss": 0.1837, |
| "step": 3885 |
| }, |
| { |
| "epoch": 1.0632666666666666, |
| "grad_norm": 3.653874397277832, |
| "learning_rate": 3.0651034482758616e-06, |
| "loss": 0.2169, |
| "step": 3890 |
| }, |
| { |
| "epoch": 1.0636, |
| "grad_norm": 3.3892691135406494, |
| "learning_rate": 3.0637241379310342e-06, |
| "loss": 0.167, |
| "step": 3895 |
| }, |
| { |
| "epoch": 1.0639333333333334, |
| "grad_norm": 3.95196795463562, |
| "learning_rate": 3.062344827586207e-06, |
| "loss": 0.1978, |
| "step": 3900 |
| }, |
| { |
| "epoch": 1.0642666666666667, |
| "grad_norm": 3.911151885986328, |
| "learning_rate": 3.060965517241379e-06, |
| "loss": 0.1862, |
| "step": 3905 |
| }, |
| { |
| "epoch": 1.0646, |
| "grad_norm": 4.3409552574157715, |
| "learning_rate": 3.059586206896552e-06, |
| "loss": 0.242, |
| "step": 3910 |
| }, |
| { |
| "epoch": 1.0649333333333333, |
| "grad_norm": 4.812688827514648, |
| "learning_rate": 3.058206896551724e-06, |
| "loss": 0.1786, |
| "step": 3915 |
| }, |
| { |
| "epoch": 1.0652666666666666, |
| "grad_norm": 4.161563873291016, |
| "learning_rate": 3.0568275862068963e-06, |
| "loss": 0.1774, |
| "step": 3920 |
| }, |
| { |
| "epoch": 1.0656, |
| "grad_norm": 5.180776119232178, |
| "learning_rate": 3.055448275862069e-06, |
| "loss": 0.191, |
| "step": 3925 |
| }, |
| { |
| "epoch": 1.0659333333333334, |
| "grad_norm": 4.710734844207764, |
| "learning_rate": 3.054068965517241e-06, |
| "loss": 0.2186, |
| "step": 3930 |
| }, |
| { |
| "epoch": 1.0662666666666667, |
| "grad_norm": 4.065145015716553, |
| "learning_rate": 3.0526896551724134e-06, |
| "loss": 0.1978, |
| "step": 3935 |
| }, |
| { |
| "epoch": 1.0666, |
| "grad_norm": 3.9113762378692627, |
| "learning_rate": 3.051310344827586e-06, |
| "loss": 0.1683, |
| "step": 3940 |
| }, |
| { |
| "epoch": 1.0669333333333333, |
| "grad_norm": 5.384532928466797, |
| "learning_rate": 3.0499310344827587e-06, |
| "loss": 0.2197, |
| "step": 3945 |
| }, |
| { |
| "epoch": 1.0672666666666666, |
| "grad_norm": 5.0923380851745605, |
| "learning_rate": 3.048551724137931e-06, |
| "loss": 0.1868, |
| "step": 3950 |
| }, |
| { |
| "epoch": 1.0676, |
| "grad_norm": 5.146890640258789, |
| "learning_rate": 3.0471724137931032e-06, |
| "loss": 0.1935, |
| "step": 3955 |
| }, |
| { |
| "epoch": 1.0679333333333334, |
| "grad_norm": 4.69185209274292, |
| "learning_rate": 3.045793103448276e-06, |
| "loss": 0.1969, |
| "step": 3960 |
| }, |
| { |
| "epoch": 1.0682666666666667, |
| "grad_norm": 3.563713550567627, |
| "learning_rate": 3.044413793103448e-06, |
| "loss": 0.166, |
| "step": 3965 |
| }, |
| { |
| "epoch": 1.0686, |
| "grad_norm": 5.871016025543213, |
| "learning_rate": 3.0430344827586203e-06, |
| "loss": 0.2253, |
| "step": 3970 |
| }, |
| { |
| "epoch": 1.0689333333333333, |
| "grad_norm": 3.954554319381714, |
| "learning_rate": 3.041655172413793e-06, |
| "loss": 0.1674, |
| "step": 3975 |
| }, |
| { |
| "epoch": 1.0692666666666666, |
| "grad_norm": 4.5953569412231445, |
| "learning_rate": 3.0402758620689652e-06, |
| "loss": 0.2718, |
| "step": 3980 |
| }, |
| { |
| "epoch": 1.0695999999999999, |
| "grad_norm": 5.061355113983154, |
| "learning_rate": 3.0388965517241375e-06, |
| "loss": 0.1897, |
| "step": 3985 |
| }, |
| { |
| "epoch": 1.0699333333333334, |
| "grad_norm": 3.9905238151550293, |
| "learning_rate": 3.0375172413793106e-06, |
| "loss": 0.1749, |
| "step": 3990 |
| }, |
| { |
| "epoch": 1.0702666666666667, |
| "grad_norm": 3.580721616744995, |
| "learning_rate": 3.036137931034483e-06, |
| "loss": 0.1835, |
| "step": 3995 |
| }, |
| { |
| "epoch": 1.0706, |
| "grad_norm": 4.102931976318359, |
| "learning_rate": 3.034758620689655e-06, |
| "loss": 0.2343, |
| "step": 4000 |
| }, |
| { |
| "epoch": 1.0706, |
| "eval_loss": 0.2268410176038742, |
| "eval_runtime": 138.2212, |
| "eval_samples_per_second": 4.341, |
| "eval_steps_per_second": 1.085, |
| "eval_wer": 11.399029869798314, |
| "step": 4000 |
| }, |
| { |
| "epoch": 1.0709333333333333, |
| "grad_norm": 4.876556396484375, |
| "learning_rate": 3.0333793103448277e-06, |
| "loss": 0.1746, |
| "step": 4005 |
| }, |
| { |
| "epoch": 1.0712666666666666, |
| "grad_norm": 4.110330104827881, |
| "learning_rate": 3.032e-06, |
| "loss": 0.1855, |
| "step": 4010 |
| }, |
| { |
| "epoch": 1.0716, |
| "grad_norm": 3.2885100841522217, |
| "learning_rate": 3.030620689655172e-06, |
| "loss": 0.1696, |
| "step": 4015 |
| }, |
| { |
| "epoch": 1.0719333333333334, |
| "grad_norm": 4.894953727722168, |
| "learning_rate": 3.0292413793103444e-06, |
| "loss": 0.1763, |
| "step": 4020 |
| }, |
| { |
| "epoch": 1.0722666666666667, |
| "grad_norm": 3.9903762340545654, |
| "learning_rate": 3.027862068965517e-06, |
| "loss": 0.212, |
| "step": 4025 |
| }, |
| { |
| "epoch": 1.0726, |
| "grad_norm": 3.7582547664642334, |
| "learning_rate": 3.0264827586206893e-06, |
| "loss": 0.1878, |
| "step": 4030 |
| }, |
| { |
| "epoch": 1.0729333333333333, |
| "grad_norm": 3.9547064304351807, |
| "learning_rate": 3.0251034482758615e-06, |
| "loss": 0.1642, |
| "step": 4035 |
| }, |
| { |
| "epoch": 1.0732666666666666, |
| "grad_norm": 4.206972122192383, |
| "learning_rate": 3.0237241379310346e-06, |
| "loss": 0.1587, |
| "step": 4040 |
| }, |
| { |
| "epoch": 1.0735999999999999, |
| "grad_norm": 3.920929431915283, |
| "learning_rate": 3.022344827586207e-06, |
| "loss": 0.2444, |
| "step": 4045 |
| }, |
| { |
| "epoch": 1.0739333333333334, |
| "grad_norm": 3.9810147285461426, |
| "learning_rate": 3.020965517241379e-06, |
| "loss": 0.1823, |
| "step": 4050 |
| }, |
| { |
| "epoch": 1.0742666666666667, |
| "grad_norm": 4.789390563964844, |
| "learning_rate": 3.0195862068965518e-06, |
| "loss": 0.2364, |
| "step": 4055 |
| }, |
| { |
| "epoch": 1.0746, |
| "grad_norm": 4.057789325714111, |
| "learning_rate": 3.018206896551724e-06, |
| "loss": 0.187, |
| "step": 4060 |
| }, |
| { |
| "epoch": 1.0749333333333333, |
| "grad_norm": 5.300390720367432, |
| "learning_rate": 3.0168275862068962e-06, |
| "loss": 0.2875, |
| "step": 4065 |
| }, |
| { |
| "epoch": 1.0752666666666666, |
| "grad_norm": 3.4985101222991943, |
| "learning_rate": 3.015448275862069e-06, |
| "loss": 0.1993, |
| "step": 4070 |
| }, |
| { |
| "epoch": 1.0756000000000001, |
| "grad_norm": 3.110759973526001, |
| "learning_rate": 3.014068965517241e-06, |
| "loss": 0.2151, |
| "step": 4075 |
| }, |
| { |
| "epoch": 1.0759333333333334, |
| "grad_norm": 4.66387414932251, |
| "learning_rate": 3.0126896551724134e-06, |
| "loss": 0.2036, |
| "step": 4080 |
| }, |
| { |
| "epoch": 1.0762666666666667, |
| "grad_norm": 4.885064601898193, |
| "learning_rate": 3.0113103448275865e-06, |
| "loss": 0.2476, |
| "step": 4085 |
| }, |
| { |
| "epoch": 1.0766, |
| "grad_norm": 4.288619518280029, |
| "learning_rate": 3.0099310344827587e-06, |
| "loss": 0.1904, |
| "step": 4090 |
| }, |
| { |
| "epoch": 1.0769333333333333, |
| "grad_norm": 3.69870924949646, |
| "learning_rate": 3.008551724137931e-06, |
| "loss": 0.2235, |
| "step": 4095 |
| }, |
| { |
| "epoch": 1.0772666666666666, |
| "grad_norm": 4.05826997756958, |
| "learning_rate": 3.007172413793103e-06, |
| "loss": 0.2252, |
| "step": 4100 |
| }, |
| { |
| "epoch": 1.0776, |
| "grad_norm": 4.888148784637451, |
| "learning_rate": 3.005793103448276e-06, |
| "loss": 0.2561, |
| "step": 4105 |
| }, |
| { |
| "epoch": 1.0779333333333334, |
| "grad_norm": 4.877688407897949, |
| "learning_rate": 3.004413793103448e-06, |
| "loss": 0.2113, |
| "step": 4110 |
| }, |
| { |
| "epoch": 1.0782666666666667, |
| "grad_norm": 5.413600444793701, |
| "learning_rate": 3.0030344827586203e-06, |
| "loss": 0.2256, |
| "step": 4115 |
| }, |
| { |
| "epoch": 1.0786, |
| "grad_norm": 4.270473957061768, |
| "learning_rate": 3.001655172413793e-06, |
| "loss": 0.2396, |
| "step": 4120 |
| }, |
| { |
| "epoch": 1.0789333333333333, |
| "grad_norm": 4.500417232513428, |
| "learning_rate": 3.000275862068965e-06, |
| "loss": 0.2096, |
| "step": 4125 |
| }, |
| { |
| "epoch": 1.0792666666666666, |
| "grad_norm": 5.2032976150512695, |
| "learning_rate": 2.9988965517241374e-06, |
| "loss": 0.2856, |
| "step": 4130 |
| }, |
| { |
| "epoch": 1.0796000000000001, |
| "grad_norm": 3.901552438735962, |
| "learning_rate": 2.9975172413793105e-06, |
| "loss": 0.2042, |
| "step": 4135 |
| }, |
| { |
| "epoch": 1.0799333333333334, |
| "grad_norm": 4.482265472412109, |
| "learning_rate": 2.9961379310344828e-06, |
| "loss": 0.2789, |
| "step": 4140 |
| }, |
| { |
| "epoch": 1.0802666666666667, |
| "grad_norm": 4.165291786193848, |
| "learning_rate": 2.994758620689655e-06, |
| "loss": 0.2469, |
| "step": 4145 |
| }, |
| { |
| "epoch": 1.0806, |
| "grad_norm": 4.953929901123047, |
| "learning_rate": 2.9933793103448277e-06, |
| "loss": 0.2223, |
| "step": 4150 |
| }, |
| { |
| "epoch": 1.0809333333333333, |
| "grad_norm": 3.369699001312256, |
| "learning_rate": 2.992e-06, |
| "loss": 0.1778, |
| "step": 4155 |
| }, |
| { |
| "epoch": 1.0812666666666666, |
| "grad_norm": 4.080148220062256, |
| "learning_rate": 2.990620689655172e-06, |
| "loss": 0.2358, |
| "step": 4160 |
| }, |
| { |
| "epoch": 1.0816, |
| "grad_norm": 4.838709831237793, |
| "learning_rate": 2.989241379310345e-06, |
| "loss": 0.1956, |
| "step": 4165 |
| }, |
| { |
| "epoch": 1.0819333333333334, |
| "grad_norm": 3.5639090538024902, |
| "learning_rate": 2.987862068965517e-06, |
| "loss": 0.1918, |
| "step": 4170 |
| }, |
| { |
| "epoch": 1.0822666666666667, |
| "grad_norm": 4.2466559410095215, |
| "learning_rate": 2.9864827586206893e-06, |
| "loss": 0.1803, |
| "step": 4175 |
| }, |
| { |
| "epoch": 1.0826, |
| "grad_norm": 4.495343208312988, |
| "learning_rate": 2.985103448275862e-06, |
| "loss": 0.1952, |
| "step": 4180 |
| }, |
| { |
| "epoch": 1.0829333333333333, |
| "grad_norm": 3.988090991973877, |
| "learning_rate": 2.9837241379310346e-06, |
| "loss": 0.1831, |
| "step": 4185 |
| }, |
| { |
| "epoch": 1.0832666666666666, |
| "grad_norm": 5.0828022956848145, |
| "learning_rate": 2.982344827586207e-06, |
| "loss": 0.177, |
| "step": 4190 |
| }, |
| { |
| "epoch": 1.0836, |
| "grad_norm": 4.129793643951416, |
| "learning_rate": 2.980965517241379e-06, |
| "loss": 0.1925, |
| "step": 4195 |
| }, |
| { |
| "epoch": 1.0839333333333334, |
| "grad_norm": 3.910735607147217, |
| "learning_rate": 2.9795862068965517e-06, |
| "loss": 0.1656, |
| "step": 4200 |
| }, |
| { |
| "epoch": 1.0842666666666667, |
| "grad_norm": 4.47676944732666, |
| "learning_rate": 2.978206896551724e-06, |
| "loss": 0.2102, |
| "step": 4205 |
| }, |
| { |
| "epoch": 1.0846, |
| "grad_norm": 3.7634642124176025, |
| "learning_rate": 2.976827586206896e-06, |
| "loss": 0.1772, |
| "step": 4210 |
| }, |
| { |
| "epoch": 1.0849333333333333, |
| "grad_norm": 4.9601922035217285, |
| "learning_rate": 2.975448275862069e-06, |
| "loss": 0.1989, |
| "step": 4215 |
| }, |
| { |
| "epoch": 1.0852666666666666, |
| "grad_norm": 4.601022720336914, |
| "learning_rate": 2.974068965517241e-06, |
| "loss": 0.1825, |
| "step": 4220 |
| }, |
| { |
| "epoch": 1.0856, |
| "grad_norm": 4.730509281158447, |
| "learning_rate": 2.9726896551724138e-06, |
| "loss": 0.1598, |
| "step": 4225 |
| }, |
| { |
| "epoch": 1.0859333333333334, |
| "grad_norm": 4.796960353851318, |
| "learning_rate": 2.9713103448275864e-06, |
| "loss": 0.1897, |
| "step": 4230 |
| }, |
| { |
| "epoch": 1.0862666666666667, |
| "grad_norm": 4.407510757446289, |
| "learning_rate": 2.9699310344827587e-06, |
| "loss": 0.2468, |
| "step": 4235 |
| }, |
| { |
| "epoch": 1.0866, |
| "grad_norm": 3.56827974319458, |
| "learning_rate": 2.968551724137931e-06, |
| "loss": 0.1966, |
| "step": 4240 |
| }, |
| { |
| "epoch": 1.0869333333333333, |
| "grad_norm": 4.364830017089844, |
| "learning_rate": 2.9671724137931036e-06, |
| "loss": 0.1815, |
| "step": 4245 |
| }, |
| { |
| "epoch": 1.0872666666666666, |
| "grad_norm": 3.9958388805389404, |
| "learning_rate": 2.965793103448276e-06, |
| "loss": 0.163, |
| "step": 4250 |
| }, |
| { |
| "epoch": 1.0876, |
| "grad_norm": 4.383339881896973, |
| "learning_rate": 2.964413793103448e-06, |
| "loss": 0.1843, |
| "step": 4255 |
| }, |
| { |
| "epoch": 1.0879333333333334, |
| "grad_norm": 4.407564640045166, |
| "learning_rate": 2.9630344827586203e-06, |
| "loss": 0.2141, |
| "step": 4260 |
| }, |
| { |
| "epoch": 1.0882666666666667, |
| "grad_norm": 3.8947925567626953, |
| "learning_rate": 2.961655172413793e-06, |
| "loss": 0.1907, |
| "step": 4265 |
| }, |
| { |
| "epoch": 1.0886, |
| "grad_norm": 4.602950096130371, |
| "learning_rate": 2.960275862068965e-06, |
| "loss": 0.2073, |
| "step": 4270 |
| }, |
| { |
| "epoch": 1.0889333333333333, |
| "grad_norm": 4.016214370727539, |
| "learning_rate": 2.958896551724138e-06, |
| "loss": 0.1899, |
| "step": 4275 |
| }, |
| { |
| "epoch": 1.0892666666666666, |
| "grad_norm": 4.071616172790527, |
| "learning_rate": 2.9575172413793105e-06, |
| "loss": 0.1744, |
| "step": 4280 |
| }, |
| { |
| "epoch": 1.0896, |
| "grad_norm": 4.90535306930542, |
| "learning_rate": 2.9561379310344827e-06, |
| "loss": 0.2292, |
| "step": 4285 |
| }, |
| { |
| "epoch": 1.0899333333333334, |
| "grad_norm": 4.6877899169921875, |
| "learning_rate": 2.954758620689655e-06, |
| "loss": 0.2133, |
| "step": 4290 |
| }, |
| { |
| "epoch": 1.0902666666666667, |
| "grad_norm": 4.8565568923950195, |
| "learning_rate": 2.9533793103448276e-06, |
| "loss": 0.2033, |
| "step": 4295 |
| }, |
| { |
| "epoch": 1.0906, |
| "grad_norm": 4.437283992767334, |
| "learning_rate": 2.952e-06, |
| "loss": 0.1895, |
| "step": 4300 |
| }, |
| { |
| "epoch": 1.0909333333333333, |
| "grad_norm": 3.8942887783050537, |
| "learning_rate": 2.950620689655172e-06, |
| "loss": 0.2173, |
| "step": 4305 |
| }, |
| { |
| "epoch": 1.0912666666666666, |
| "grad_norm": 4.399665832519531, |
| "learning_rate": 2.9492413793103448e-06, |
| "loss": 0.2351, |
| "step": 4310 |
| }, |
| { |
| "epoch": 1.0916, |
| "grad_norm": 3.764101028442383, |
| "learning_rate": 2.947862068965517e-06, |
| "loss": 0.1524, |
| "step": 4315 |
| }, |
| { |
| "epoch": 1.0919333333333334, |
| "grad_norm": 4.842204570770264, |
| "learning_rate": 2.9464827586206897e-06, |
| "loss": 0.1682, |
| "step": 4320 |
| }, |
| { |
| "epoch": 1.0922666666666667, |
| "grad_norm": 3.149669885635376, |
| "learning_rate": 2.945103448275862e-06, |
| "loss": 0.1731, |
| "step": 4325 |
| }, |
| { |
| "epoch": 1.0926, |
| "grad_norm": 3.956570625305176, |
| "learning_rate": 2.9437241379310346e-06, |
| "loss": 0.1599, |
| "step": 4330 |
| }, |
| { |
| "epoch": 1.0929333333333333, |
| "grad_norm": 4.893487453460693, |
| "learning_rate": 2.942344827586207e-06, |
| "loss": 0.1968, |
| "step": 4335 |
| }, |
| { |
| "epoch": 1.0932666666666666, |
| "grad_norm": 3.495042085647583, |
| "learning_rate": 2.940965517241379e-06, |
| "loss": 0.1556, |
| "step": 4340 |
| }, |
| { |
| "epoch": 1.0936, |
| "grad_norm": 3.724201202392578, |
| "learning_rate": 2.9395862068965517e-06, |
| "loss": 0.1823, |
| "step": 4345 |
| }, |
| { |
| "epoch": 1.0939333333333334, |
| "grad_norm": 3.40342116355896, |
| "learning_rate": 2.938206896551724e-06, |
| "loss": 0.1844, |
| "step": 4350 |
| }, |
| { |
| "epoch": 1.0942666666666667, |
| "grad_norm": 3.983743667602539, |
| "learning_rate": 2.936827586206896e-06, |
| "loss": 0.1951, |
| "step": 4355 |
| }, |
| { |
| "epoch": 1.0946, |
| "grad_norm": 4.165203094482422, |
| "learning_rate": 2.935448275862069e-06, |
| "loss": 0.2019, |
| "step": 4360 |
| }, |
| { |
| "epoch": 1.0949333333333333, |
| "grad_norm": 4.881627559661865, |
| "learning_rate": 2.934068965517241e-06, |
| "loss": 0.1788, |
| "step": 4365 |
| }, |
| { |
| "epoch": 1.0952666666666666, |
| "grad_norm": 4.997315883636475, |
| "learning_rate": 2.9326896551724137e-06, |
| "loss": 0.2112, |
| "step": 4370 |
| }, |
| { |
| "epoch": 1.0956, |
| "grad_norm": 4.4181132316589355, |
| "learning_rate": 2.9313103448275864e-06, |
| "loss": 0.1757, |
| "step": 4375 |
| }, |
| { |
| "epoch": 1.0959333333333334, |
| "grad_norm": 5.474098205566406, |
| "learning_rate": 2.9299310344827586e-06, |
| "loss": 0.2404, |
| "step": 4380 |
| }, |
| { |
| "epoch": 1.0962666666666667, |
| "grad_norm": 4.443711757659912, |
| "learning_rate": 2.928551724137931e-06, |
| "loss": 0.2079, |
| "step": 4385 |
| }, |
| { |
| "epoch": 1.0966, |
| "grad_norm": 3.8749783039093018, |
| "learning_rate": 2.9271724137931035e-06, |
| "loss": 0.2402, |
| "step": 4390 |
| }, |
| { |
| "epoch": 1.0969333333333333, |
| "grad_norm": 3.3482859134674072, |
| "learning_rate": 2.9257931034482758e-06, |
| "loss": 0.2293, |
| "step": 4395 |
| }, |
| { |
| "epoch": 1.0972666666666666, |
| "grad_norm": 4.840886116027832, |
| "learning_rate": 2.924413793103448e-06, |
| "loss": 0.2063, |
| "step": 4400 |
| }, |
| { |
| "epoch": 1.0976, |
| "grad_norm": 5.348876953125, |
| "learning_rate": 2.9230344827586202e-06, |
| "loss": 0.2203, |
| "step": 4405 |
| }, |
| { |
| "epoch": 1.0979333333333334, |
| "grad_norm": 4.477566719055176, |
| "learning_rate": 2.921655172413793e-06, |
| "loss": 0.1992, |
| "step": 4410 |
| }, |
| { |
| "epoch": 1.0982666666666667, |
| "grad_norm": 4.385368824005127, |
| "learning_rate": 2.9202758620689655e-06, |
| "loss": 0.1758, |
| "step": 4415 |
| }, |
| { |
| "epoch": 1.0986, |
| "grad_norm": 5.30516242980957, |
| "learning_rate": 2.9188965517241378e-06, |
| "loss": 0.239, |
| "step": 4420 |
| }, |
| { |
| "epoch": 1.0989333333333333, |
| "grad_norm": 5.109501838684082, |
| "learning_rate": 2.9175172413793104e-06, |
| "loss": 0.2201, |
| "step": 4425 |
| }, |
| { |
| "epoch": 1.0992666666666666, |
| "grad_norm": 4.417385101318359, |
| "learning_rate": 2.9161379310344827e-06, |
| "loss": 0.192, |
| "step": 4430 |
| }, |
| { |
| "epoch": 1.0996, |
| "grad_norm": 3.6924843788146973, |
| "learning_rate": 2.914758620689655e-06, |
| "loss": 0.2265, |
| "step": 4435 |
| }, |
| { |
| "epoch": 1.0999333333333334, |
| "grad_norm": 4.569225311279297, |
| "learning_rate": 2.9133793103448276e-06, |
| "loss": 0.2105, |
| "step": 4440 |
| }, |
| { |
| "epoch": 1.1002666666666667, |
| "grad_norm": 3.942950963973999, |
| "learning_rate": 2.912e-06, |
| "loss": 0.2081, |
| "step": 4445 |
| }, |
| { |
| "epoch": 1.1006, |
| "grad_norm": 3.613032817840576, |
| "learning_rate": 2.910620689655172e-06, |
| "loss": 0.1844, |
| "step": 4450 |
| }, |
| { |
| "epoch": 1.1009333333333333, |
| "grad_norm": 5.1066131591796875, |
| "learning_rate": 2.9092413793103447e-06, |
| "loss": 0.1967, |
| "step": 4455 |
| }, |
| { |
| "epoch": 1.1012666666666666, |
| "grad_norm": 4.886391639709473, |
| "learning_rate": 2.907862068965517e-06, |
| "loss": 0.188, |
| "step": 4460 |
| }, |
| { |
| "epoch": 1.1016, |
| "grad_norm": 3.572789192199707, |
| "learning_rate": 2.9064827586206896e-06, |
| "loss": 0.1525, |
| "step": 4465 |
| }, |
| { |
| "epoch": 1.1019333333333334, |
| "grad_norm": 3.4419796466827393, |
| "learning_rate": 2.9051034482758623e-06, |
| "loss": 0.1826, |
| "step": 4470 |
| }, |
| { |
| "epoch": 1.1022666666666667, |
| "grad_norm": 4.468290328979492, |
| "learning_rate": 2.9037241379310345e-06, |
| "loss": 0.199, |
| "step": 4475 |
| }, |
| { |
| "epoch": 1.1026, |
| "grad_norm": 5.7574076652526855, |
| "learning_rate": 2.9023448275862067e-06, |
| "loss": 0.2697, |
| "step": 4480 |
| }, |
| { |
| "epoch": 1.1029333333333333, |
| "grad_norm": 4.674327373504639, |
| "learning_rate": 2.900965517241379e-06, |
| "loss": 0.1546, |
| "step": 4485 |
| }, |
| { |
| "epoch": 1.1032666666666666, |
| "grad_norm": 4.679714202880859, |
| "learning_rate": 2.8995862068965516e-06, |
| "loss": 0.1934, |
| "step": 4490 |
| }, |
| { |
| "epoch": 1.1036, |
| "grad_norm": 4.581182956695557, |
| "learning_rate": 2.898206896551724e-06, |
| "loss": 0.2217, |
| "step": 4495 |
| }, |
| { |
| "epoch": 1.1039333333333334, |
| "grad_norm": 4.956315517425537, |
| "learning_rate": 2.896827586206896e-06, |
| "loss": 0.2422, |
| "step": 4500 |
| }, |
| { |
| "epoch": 1.1042666666666667, |
| "grad_norm": 3.650285005569458, |
| "learning_rate": 2.8954482758620688e-06, |
| "loss": 0.1317, |
| "step": 4505 |
| }, |
| { |
| "epoch": 1.1046, |
| "grad_norm": 4.513254642486572, |
| "learning_rate": 2.8940689655172414e-06, |
| "loss": 0.2146, |
| "step": 4510 |
| }, |
| { |
| "epoch": 1.1049333333333333, |
| "grad_norm": 3.55983829498291, |
| "learning_rate": 2.8926896551724137e-06, |
| "loss": 0.1783, |
| "step": 4515 |
| }, |
| { |
| "epoch": 1.1052666666666666, |
| "grad_norm": 4.265017509460449, |
| "learning_rate": 2.8913103448275863e-06, |
| "loss": 0.1758, |
| "step": 4520 |
| }, |
| { |
| "epoch": 1.1056, |
| "grad_norm": 4.156493186950684, |
| "learning_rate": 2.8899310344827586e-06, |
| "loss": 0.1898, |
| "step": 4525 |
| }, |
| { |
| "epoch": 1.1059333333333334, |
| "grad_norm": 4.1872406005859375, |
| "learning_rate": 2.888551724137931e-06, |
| "loss": 0.2069, |
| "step": 4530 |
| }, |
| { |
| "epoch": 1.1062666666666667, |
| "grad_norm": 3.242173910140991, |
| "learning_rate": 2.8871724137931035e-06, |
| "loss": 0.2084, |
| "step": 4535 |
| }, |
| { |
| "epoch": 1.1066, |
| "grad_norm": 4.0468292236328125, |
| "learning_rate": 2.8857931034482757e-06, |
| "loss": 0.1787, |
| "step": 4540 |
| }, |
| { |
| "epoch": 1.1069333333333333, |
| "grad_norm": 3.2678468227386475, |
| "learning_rate": 2.884413793103448e-06, |
| "loss": 0.1837, |
| "step": 4545 |
| }, |
| { |
| "epoch": 1.1072666666666666, |
| "grad_norm": 3.554248571395874, |
| "learning_rate": 2.88303448275862e-06, |
| "loss": 0.1483, |
| "step": 4550 |
| }, |
| { |
| "epoch": 1.1076, |
| "grad_norm": 3.46049427986145, |
| "learning_rate": 2.8816551724137933e-06, |
| "loss": 0.1815, |
| "step": 4555 |
| }, |
| { |
| "epoch": 1.1079333333333334, |
| "grad_norm": 4.22011137008667, |
| "learning_rate": 2.8802758620689655e-06, |
| "loss": 0.163, |
| "step": 4560 |
| }, |
| { |
| "epoch": 1.1082666666666667, |
| "grad_norm": 3.987525463104248, |
| "learning_rate": 2.8788965517241377e-06, |
| "loss": 0.1505, |
| "step": 4565 |
| }, |
| { |
| "epoch": 1.1086, |
| "grad_norm": 5.824914455413818, |
| "learning_rate": 2.8775172413793104e-06, |
| "loss": 0.2732, |
| "step": 4570 |
| }, |
| { |
| "epoch": 1.1089333333333333, |
| "grad_norm": 4.02011775970459, |
| "learning_rate": 2.8761379310344826e-06, |
| "loss": 0.2066, |
| "step": 4575 |
| }, |
| { |
| "epoch": 1.1092666666666666, |
| "grad_norm": 3.7263333797454834, |
| "learning_rate": 2.874758620689655e-06, |
| "loss": 0.1959, |
| "step": 4580 |
| }, |
| { |
| "epoch": 1.1096, |
| "grad_norm": 3.231119155883789, |
| "learning_rate": 2.8733793103448275e-06, |
| "loss": 0.1523, |
| "step": 4585 |
| }, |
| { |
| "epoch": 1.1099333333333332, |
| "grad_norm": 3.4508893489837646, |
| "learning_rate": 2.8719999999999998e-06, |
| "loss": 0.1596, |
| "step": 4590 |
| }, |
| { |
| "epoch": 1.1102666666666667, |
| "grad_norm": 5.301802635192871, |
| "learning_rate": 2.870620689655172e-06, |
| "loss": 0.1994, |
| "step": 4595 |
| }, |
| { |
| "epoch": 1.1106, |
| "grad_norm": 3.6685116291046143, |
| "learning_rate": 2.8692413793103447e-06, |
| "loss": 0.1824, |
| "step": 4600 |
| }, |
| { |
| "epoch": 1.1109333333333333, |
| "grad_norm": 4.879263401031494, |
| "learning_rate": 2.8678620689655173e-06, |
| "loss": 0.1789, |
| "step": 4605 |
| }, |
| { |
| "epoch": 1.1112666666666666, |
| "grad_norm": 4.326107501983643, |
| "learning_rate": 2.8664827586206896e-06, |
| "loss": 0.2, |
| "step": 4610 |
| }, |
| { |
| "epoch": 1.1116, |
| "grad_norm": 3.3059206008911133, |
| "learning_rate": 2.8651034482758622e-06, |
| "loss": 0.2188, |
| "step": 4615 |
| }, |
| { |
| "epoch": 1.1119333333333334, |
| "grad_norm": 5.0130486488342285, |
| "learning_rate": 2.8637241379310345e-06, |
| "loss": 0.2403, |
| "step": 4620 |
| }, |
| { |
| "epoch": 1.1122666666666667, |
| "grad_norm": 4.662135601043701, |
| "learning_rate": 2.8623448275862067e-06, |
| "loss": 0.1851, |
| "step": 4625 |
| }, |
| { |
| "epoch": 1.1126, |
| "grad_norm": 7.146907329559326, |
| "learning_rate": 2.860965517241379e-06, |
| "loss": 0.1482, |
| "step": 4630 |
| }, |
| { |
| "epoch": 1.1129333333333333, |
| "grad_norm": 4.4374847412109375, |
| "learning_rate": 2.8595862068965516e-06, |
| "loss": 0.1872, |
| "step": 4635 |
| }, |
| { |
| "epoch": 1.1132666666666666, |
| "grad_norm": 4.843354225158691, |
| "learning_rate": 2.858206896551724e-06, |
| "loss": 0.2323, |
| "step": 4640 |
| }, |
| { |
| "epoch": 1.1136, |
| "grad_norm": 3.995206594467163, |
| "learning_rate": 2.856827586206896e-06, |
| "loss": 0.1724, |
| "step": 4645 |
| }, |
| { |
| "epoch": 1.1139333333333332, |
| "grad_norm": 4.626944065093994, |
| "learning_rate": 2.855448275862069e-06, |
| "loss": 0.2481, |
| "step": 4650 |
| }, |
| { |
| "epoch": 1.1142666666666667, |
| "grad_norm": 4.230355739593506, |
| "learning_rate": 2.8540689655172414e-06, |
| "loss": 0.2059, |
| "step": 4655 |
| }, |
| { |
| "epoch": 1.1146, |
| "grad_norm": 3.855186700820923, |
| "learning_rate": 2.8526896551724136e-06, |
| "loss": 0.1772, |
| "step": 4660 |
| }, |
| { |
| "epoch": 1.1149333333333333, |
| "grad_norm": 4.355653762817383, |
| "learning_rate": 2.8513103448275863e-06, |
| "loss": 0.1841, |
| "step": 4665 |
| }, |
| { |
| "epoch": 1.1152666666666666, |
| "grad_norm": 3.413299560546875, |
| "learning_rate": 2.8499310344827585e-06, |
| "loss": 0.1614, |
| "step": 4670 |
| }, |
| { |
| "epoch": 1.1156, |
| "grad_norm": 4.973278522491455, |
| "learning_rate": 2.8485517241379308e-06, |
| "loss": 0.1663, |
| "step": 4675 |
| }, |
| { |
| "epoch": 1.1159333333333334, |
| "grad_norm": 4.464892864227295, |
| "learning_rate": 2.8471724137931034e-06, |
| "loss": 0.1872, |
| "step": 4680 |
| }, |
| { |
| "epoch": 1.1162666666666667, |
| "grad_norm": 5.563607215881348, |
| "learning_rate": 2.8457931034482757e-06, |
| "loss": 0.2125, |
| "step": 4685 |
| }, |
| { |
| "epoch": 1.1166, |
| "grad_norm": 3.4745309352874756, |
| "learning_rate": 2.844413793103448e-06, |
| "loss": 0.1895, |
| "step": 4690 |
| }, |
| { |
| "epoch": 1.1169333333333333, |
| "grad_norm": 4.8930792808532715, |
| "learning_rate": 2.84303448275862e-06, |
| "loss": 0.175, |
| "step": 4695 |
| }, |
| { |
| "epoch": 1.1172666666666666, |
| "grad_norm": 4.708552837371826, |
| "learning_rate": 2.8416551724137932e-06, |
| "loss": 0.2302, |
| "step": 4700 |
| }, |
| { |
| "epoch": 1.1176, |
| "grad_norm": 4.1199798583984375, |
| "learning_rate": 2.8402758620689655e-06, |
| "loss": 0.1935, |
| "step": 4705 |
| }, |
| { |
| "epoch": 1.1179333333333332, |
| "grad_norm": 3.9816079139709473, |
| "learning_rate": 2.8388965517241377e-06, |
| "loss": 0.1952, |
| "step": 4710 |
| }, |
| { |
| "epoch": 1.1182666666666667, |
| "grad_norm": 3.914416551589966, |
| "learning_rate": 2.8375172413793104e-06, |
| "loss": 0.2051, |
| "step": 4715 |
| }, |
| { |
| "epoch": 1.1186, |
| "grad_norm": 4.918084144592285, |
| "learning_rate": 2.8361379310344826e-06, |
| "loss": 0.181, |
| "step": 4720 |
| }, |
| { |
| "epoch": 1.1189333333333333, |
| "grad_norm": 3.7524545192718506, |
| "learning_rate": 2.834758620689655e-06, |
| "loss": 0.1895, |
| "step": 4725 |
| }, |
| { |
| "epoch": 1.1192666666666666, |
| "grad_norm": 4.190952777862549, |
| "learning_rate": 2.8333793103448275e-06, |
| "loss": 0.2072, |
| "step": 4730 |
| }, |
| { |
| "epoch": 1.1196, |
| "grad_norm": 3.681546688079834, |
| "learning_rate": 2.8319999999999997e-06, |
| "loss": 0.1737, |
| "step": 4735 |
| }, |
| { |
| "epoch": 1.1199333333333334, |
| "grad_norm": 5.234808444976807, |
| "learning_rate": 2.830620689655172e-06, |
| "loss": 0.2442, |
| "step": 4740 |
| }, |
| { |
| "epoch": 1.1202666666666667, |
| "grad_norm": 3.9235680103302, |
| "learning_rate": 2.829241379310345e-06, |
| "loss": 0.2095, |
| "step": 4745 |
| }, |
| { |
| "epoch": 1.1206, |
| "grad_norm": 3.7643444538116455, |
| "learning_rate": 2.8278620689655173e-06, |
| "loss": 0.1935, |
| "step": 4750 |
| }, |
| { |
| "epoch": 1.1209333333333333, |
| "grad_norm": 4.407737731933594, |
| "learning_rate": 2.8264827586206895e-06, |
| "loss": 0.1941, |
| "step": 4755 |
| }, |
| { |
| "epoch": 1.1212666666666666, |
| "grad_norm": 3.320873498916626, |
| "learning_rate": 2.825103448275862e-06, |
| "loss": 0.1777, |
| "step": 4760 |
| }, |
| { |
| "epoch": 1.1216, |
| "grad_norm": 3.7639729976654053, |
| "learning_rate": 2.8237241379310344e-06, |
| "loss": 0.1787, |
| "step": 4765 |
| }, |
| { |
| "epoch": 1.1219333333333332, |
| "grad_norm": 4.011973857879639, |
| "learning_rate": 2.8223448275862067e-06, |
| "loss": 0.1821, |
| "step": 4770 |
| }, |
| { |
| "epoch": 1.1222666666666667, |
| "grad_norm": 4.560912609100342, |
| "learning_rate": 2.820965517241379e-06, |
| "loss": 0.1888, |
| "step": 4775 |
| }, |
| { |
| "epoch": 1.1226, |
| "grad_norm": 4.736232280731201, |
| "learning_rate": 2.8195862068965516e-06, |
| "loss": 0.1985, |
| "step": 4780 |
| }, |
| { |
| "epoch": 1.1229333333333333, |
| "grad_norm": 4.1751627922058105, |
| "learning_rate": 2.818206896551724e-06, |
| "loss": 0.1842, |
| "step": 4785 |
| }, |
| { |
| "epoch": 1.1232666666666666, |
| "grad_norm": 3.8032777309417725, |
| "learning_rate": 2.8168275862068965e-06, |
| "loss": 0.1939, |
| "step": 4790 |
| }, |
| { |
| "epoch": 1.1236, |
| "grad_norm": 4.563346862792969, |
| "learning_rate": 2.815448275862069e-06, |
| "loss": 0.1607, |
| "step": 4795 |
| }, |
| { |
| "epoch": 1.1239333333333335, |
| "grad_norm": 3.5407750606536865, |
| "learning_rate": 2.8140689655172414e-06, |
| "loss": 0.2057, |
| "step": 4800 |
| }, |
| { |
| "epoch": 1.1242666666666667, |
| "grad_norm": 4.015341281890869, |
| "learning_rate": 2.8126896551724136e-06, |
| "loss": 0.2087, |
| "step": 4805 |
| }, |
| { |
| "epoch": 1.1246, |
| "grad_norm": 5.5382561683654785, |
| "learning_rate": 2.8113103448275863e-06, |
| "loss": 0.1925, |
| "step": 4810 |
| }, |
| { |
| "epoch": 1.1249333333333333, |
| "grad_norm": 4.097034454345703, |
| "learning_rate": 2.8099310344827585e-06, |
| "loss": 0.2092, |
| "step": 4815 |
| }, |
| { |
| "epoch": 1.1252666666666666, |
| "grad_norm": 3.994246244430542, |
| "learning_rate": 2.8085517241379307e-06, |
| "loss": 0.1999, |
| "step": 4820 |
| }, |
| { |
| "epoch": 1.1256, |
| "grad_norm": 4.980210781097412, |
| "learning_rate": 2.8071724137931034e-06, |
| "loss": 0.2522, |
| "step": 4825 |
| }, |
| { |
| "epoch": 1.1259333333333332, |
| "grad_norm": 5.69704008102417, |
| "learning_rate": 2.8057931034482756e-06, |
| "loss": 0.2447, |
| "step": 4830 |
| }, |
| { |
| "epoch": 1.1262666666666667, |
| "grad_norm": 4.367610454559326, |
| "learning_rate": 2.804413793103448e-06, |
| "loss": 0.2244, |
| "step": 4835 |
| }, |
| { |
| "epoch": 1.1266, |
| "grad_norm": 4.881072044372559, |
| "learning_rate": 2.803034482758621e-06, |
| "loss": 0.1531, |
| "step": 4840 |
| }, |
| { |
| "epoch": 1.1269333333333333, |
| "grad_norm": 6.344549655914307, |
| "learning_rate": 2.801655172413793e-06, |
| "loss": 0.2531, |
| "step": 4845 |
| }, |
| { |
| "epoch": 1.1272666666666666, |
| "grad_norm": 4.571545600891113, |
| "learning_rate": 2.8002758620689654e-06, |
| "loss": 0.2557, |
| "step": 4850 |
| }, |
| { |
| "epoch": 1.1276, |
| "grad_norm": 4.428611755371094, |
| "learning_rate": 2.7988965517241377e-06, |
| "loss": 0.2433, |
| "step": 4855 |
| }, |
| { |
| "epoch": 1.1279333333333335, |
| "grad_norm": 3.478060483932495, |
| "learning_rate": 2.7975172413793103e-06, |
| "loss": 0.2125, |
| "step": 4860 |
| }, |
| { |
| "epoch": 1.1282666666666668, |
| "grad_norm": 4.306246757507324, |
| "learning_rate": 2.7961379310344826e-06, |
| "loss": 0.1583, |
| "step": 4865 |
| }, |
| { |
| "epoch": 1.1286, |
| "grad_norm": 5.304801940917969, |
| "learning_rate": 2.794758620689655e-06, |
| "loss": 0.1917, |
| "step": 4870 |
| }, |
| { |
| "epoch": 1.1289333333333333, |
| "grad_norm": 4.3496623039245605, |
| "learning_rate": 2.7933793103448275e-06, |
| "loss": 0.1868, |
| "step": 4875 |
| }, |
| { |
| "epoch": 1.1292666666666666, |
| "grad_norm": 4.872969150543213, |
| "learning_rate": 2.7919999999999997e-06, |
| "loss": 0.3008, |
| "step": 4880 |
| }, |
| { |
| "epoch": 1.1296, |
| "grad_norm": 5.376682758331299, |
| "learning_rate": 2.7906206896551724e-06, |
| "loss": 0.1846, |
| "step": 4885 |
| }, |
| { |
| "epoch": 1.1299333333333332, |
| "grad_norm": 4.408675670623779, |
| "learning_rate": 2.789241379310345e-06, |
| "loss": 0.1979, |
| "step": 4890 |
| }, |
| { |
| "epoch": 1.1302666666666668, |
| "grad_norm": 5.009186744689941, |
| "learning_rate": 2.7878620689655173e-06, |
| "loss": 0.2189, |
| "step": 4895 |
| }, |
| { |
| "epoch": 1.1306, |
| "grad_norm": 4.575723648071289, |
| "learning_rate": 2.7864827586206895e-06, |
| "loss": 0.191, |
| "step": 4900 |
| }, |
| { |
| "epoch": 1.1309333333333333, |
| "grad_norm": 4.254824161529541, |
| "learning_rate": 2.785103448275862e-06, |
| "loss": 0.2155, |
| "step": 4905 |
| }, |
| { |
| "epoch": 1.1312666666666666, |
| "grad_norm": 3.905532121658325, |
| "learning_rate": 2.7837241379310344e-06, |
| "loss": 0.1899, |
| "step": 4910 |
| }, |
| { |
| "epoch": 1.1316, |
| "grad_norm": 5.507880687713623, |
| "learning_rate": 2.7823448275862066e-06, |
| "loss": 0.2256, |
| "step": 4915 |
| }, |
| { |
| "epoch": 1.1319333333333335, |
| "grad_norm": 4.343334674835205, |
| "learning_rate": 2.780965517241379e-06, |
| "loss": 0.1657, |
| "step": 4920 |
| }, |
| { |
| "epoch": 1.1322666666666668, |
| "grad_norm": 4.475545883178711, |
| "learning_rate": 2.7795862068965515e-06, |
| "loss": 0.1989, |
| "step": 4925 |
| }, |
| { |
| "epoch": 1.1326, |
| "grad_norm": 5.1606903076171875, |
| "learning_rate": 2.7782068965517238e-06, |
| "loss": 0.2428, |
| "step": 4930 |
| }, |
| { |
| "epoch": 1.1329333333333333, |
| "grad_norm": 5.443267345428467, |
| "learning_rate": 2.7768275862068964e-06, |
| "loss": 0.2046, |
| "step": 4935 |
| }, |
| { |
| "epoch": 1.1332666666666666, |
| "grad_norm": 3.020538568496704, |
| "learning_rate": 2.775448275862069e-06, |
| "loss": 0.1744, |
| "step": 4940 |
| }, |
| { |
| "epoch": 1.1336, |
| "grad_norm": 3.7136950492858887, |
| "learning_rate": 2.7740689655172413e-06, |
| "loss": 0.1995, |
| "step": 4945 |
| }, |
| { |
| "epoch": 1.1339333333333332, |
| "grad_norm": 4.379866600036621, |
| "learning_rate": 2.7726896551724136e-06, |
| "loss": 0.3399, |
| "step": 4950 |
| }, |
| { |
| "epoch": 1.1342666666666668, |
| "grad_norm": 4.760313034057617, |
| "learning_rate": 2.7713103448275862e-06, |
| "loss": 0.225, |
| "step": 4955 |
| }, |
| { |
| "epoch": 1.1346, |
| "grad_norm": 4.204442977905273, |
| "learning_rate": 2.7699310344827585e-06, |
| "loss": 0.2272, |
| "step": 4960 |
| }, |
| { |
| "epoch": 1.1349333333333333, |
| "grad_norm": 4.384819030761719, |
| "learning_rate": 2.7685517241379307e-06, |
| "loss": 0.228, |
| "step": 4965 |
| }, |
| { |
| "epoch": 1.1352666666666666, |
| "grad_norm": 3.8497352600097656, |
| "learning_rate": 2.7671724137931034e-06, |
| "loss": 0.2212, |
| "step": 4970 |
| }, |
| { |
| "epoch": 1.1356, |
| "grad_norm": 4.877221584320068, |
| "learning_rate": 2.7657931034482756e-06, |
| "loss": 0.2536, |
| "step": 4975 |
| }, |
| { |
| "epoch": 1.1359333333333332, |
| "grad_norm": 3.7856905460357666, |
| "learning_rate": 2.7644137931034483e-06, |
| "loss": 0.2111, |
| "step": 4980 |
| }, |
| { |
| "epoch": 1.1362666666666668, |
| "grad_norm": 4.839357376098633, |
| "learning_rate": 2.763034482758621e-06, |
| "loss": 0.1918, |
| "step": 4985 |
| }, |
| { |
| "epoch": 1.1366, |
| "grad_norm": 3.634368896484375, |
| "learning_rate": 2.761655172413793e-06, |
| "loss": 0.1906, |
| "step": 4990 |
| }, |
| { |
| "epoch": 1.1369333333333334, |
| "grad_norm": 3.3249456882476807, |
| "learning_rate": 2.7602758620689654e-06, |
| "loss": 0.2133, |
| "step": 4995 |
| }, |
| { |
| "epoch": 1.1372666666666666, |
| "grad_norm": 4.269469261169434, |
| "learning_rate": 2.7588965517241376e-06, |
| "loss": 0.2004, |
| "step": 5000 |
| }, |
| { |
| "epoch": 1.1372666666666666, |
| "eval_loss": 0.22218205034732819, |
| "eval_runtime": 137.1702, |
| "eval_samples_per_second": 4.374, |
| "eval_steps_per_second": 1.094, |
| "eval_wer": 11.450089354097523, |
| "step": 5000 |
| }, |
| { |
| "epoch": 1.1376, |
| "grad_norm": 3.6362509727478027, |
| "learning_rate": 2.7575172413793103e-06, |
| "loss": 0.1785, |
| "step": 5005 |
| }, |
| { |
| "epoch": 1.1379333333333332, |
| "grad_norm": 4.418122291564941, |
| "learning_rate": 2.7561379310344825e-06, |
| "loss": 0.1665, |
| "step": 5010 |
| }, |
| { |
| "epoch": 1.1382666666666668, |
| "grad_norm": 4.212091445922852, |
| "learning_rate": 2.7547586206896548e-06, |
| "loss": 0.1843, |
| "step": 5015 |
| }, |
| { |
| "epoch": 1.1386, |
| "grad_norm": 3.4938228130340576, |
| "learning_rate": 2.7533793103448274e-06, |
| "loss": 0.1876, |
| "step": 5020 |
| }, |
| { |
| "epoch": 1.1389333333333334, |
| "grad_norm": 3.74359393119812, |
| "learning_rate": 2.7519999999999997e-06, |
| "loss": 0.144, |
| "step": 5025 |
| }, |
| { |
| "epoch": 1.1392666666666666, |
| "grad_norm": 3.883995532989502, |
| "learning_rate": 2.7506206896551723e-06, |
| "loss": 0.1694, |
| "step": 5030 |
| }, |
| { |
| "epoch": 1.1396, |
| "grad_norm": 4.399216651916504, |
| "learning_rate": 2.749241379310345e-06, |
| "loss": 0.1732, |
| "step": 5035 |
| }, |
| { |
| "epoch": 1.1399333333333332, |
| "grad_norm": 4.641524314880371, |
| "learning_rate": 2.7478620689655172e-06, |
| "loss": 0.1767, |
| "step": 5040 |
| }, |
| { |
| "epoch": 1.1402666666666668, |
| "grad_norm": 3.757779359817505, |
| "learning_rate": 2.7464827586206895e-06, |
| "loss": 0.1938, |
| "step": 5045 |
| }, |
| { |
| "epoch": 1.1406, |
| "grad_norm": 4.3538899421691895, |
| "learning_rate": 2.745103448275862e-06, |
| "loss": 0.2211, |
| "step": 5050 |
| }, |
| { |
| "epoch": 1.1409333333333334, |
| "grad_norm": 3.578556537628174, |
| "learning_rate": 2.7437241379310343e-06, |
| "loss": 0.192, |
| "step": 5055 |
| }, |
| { |
| "epoch": 1.1412666666666667, |
| "grad_norm": 4.390420913696289, |
| "learning_rate": 2.7423448275862066e-06, |
| "loss": 0.195, |
| "step": 5060 |
| }, |
| { |
| "epoch": 1.1416, |
| "grad_norm": 4.332846164703369, |
| "learning_rate": 2.740965517241379e-06, |
| "loss": 0.2194, |
| "step": 5065 |
| }, |
| { |
| "epoch": 1.1419333333333332, |
| "grad_norm": 4.345626354217529, |
| "learning_rate": 2.7395862068965515e-06, |
| "loss": 0.1912, |
| "step": 5070 |
| }, |
| { |
| "epoch": 1.1422666666666668, |
| "grad_norm": 3.979213237762451, |
| "learning_rate": 2.738206896551724e-06, |
| "loss": 0.1914, |
| "step": 5075 |
| }, |
| { |
| "epoch": 1.1426, |
| "grad_norm": 4.0453948974609375, |
| "learning_rate": 2.7368275862068964e-06, |
| "loss": 0.2032, |
| "step": 5080 |
| }, |
| { |
| "epoch": 1.1429333333333334, |
| "grad_norm": 4.972130298614502, |
| "learning_rate": 2.735448275862069e-06, |
| "loss": 0.1831, |
| "step": 5085 |
| }, |
| { |
| "epoch": 1.1432666666666667, |
| "grad_norm": 4.726823329925537, |
| "learning_rate": 2.7340689655172413e-06, |
| "loss": 0.202, |
| "step": 5090 |
| }, |
| { |
| "epoch": 1.1436, |
| "grad_norm": 5.029985427856445, |
| "learning_rate": 2.7326896551724135e-06, |
| "loss": 0.2521, |
| "step": 5095 |
| }, |
| { |
| "epoch": 1.1439333333333332, |
| "grad_norm": 3.465513229370117, |
| "learning_rate": 2.731310344827586e-06, |
| "loss": 0.1612, |
| "step": 5100 |
| }, |
| { |
| "epoch": 1.1442666666666668, |
| "grad_norm": 4.140130996704102, |
| "learning_rate": 2.7299310344827584e-06, |
| "loss": 0.1746, |
| "step": 5105 |
| }, |
| { |
| "epoch": 1.1446, |
| "grad_norm": 4.352369785308838, |
| "learning_rate": 2.7285517241379307e-06, |
| "loss": 0.1632, |
| "step": 5110 |
| }, |
| { |
| "epoch": 1.1449333333333334, |
| "grad_norm": 4.439798355102539, |
| "learning_rate": 2.7271724137931033e-06, |
| "loss": 0.1629, |
| "step": 5115 |
| }, |
| { |
| "epoch": 1.1452666666666667, |
| "grad_norm": 4.279767036437988, |
| "learning_rate": 2.725793103448276e-06, |
| "loss": 0.186, |
| "step": 5120 |
| }, |
| { |
| "epoch": 1.1456, |
| "grad_norm": 4.694298267364502, |
| "learning_rate": 2.724413793103448e-06, |
| "loss": 0.1609, |
| "step": 5125 |
| }, |
| { |
| "epoch": 1.1459333333333332, |
| "grad_norm": 4.133419036865234, |
| "learning_rate": 2.723034482758621e-06, |
| "loss": 0.1678, |
| "step": 5130 |
| }, |
| { |
| "epoch": 1.1462666666666665, |
| "grad_norm": 4.086022853851318, |
| "learning_rate": 2.721655172413793e-06, |
| "loss": 0.1963, |
| "step": 5135 |
| }, |
| { |
| "epoch": 1.1466, |
| "grad_norm": 4.062281131744385, |
| "learning_rate": 2.7202758620689653e-06, |
| "loss": 0.2177, |
| "step": 5140 |
| }, |
| { |
| "epoch": 1.1469333333333334, |
| "grad_norm": 3.842663049697876, |
| "learning_rate": 2.7188965517241376e-06, |
| "loss": 0.2066, |
| "step": 5145 |
| }, |
| { |
| "epoch": 1.1472666666666667, |
| "grad_norm": 4.185869216918945, |
| "learning_rate": 2.7175172413793102e-06, |
| "loss": 0.1963, |
| "step": 5150 |
| }, |
| { |
| "epoch": 1.1476, |
| "grad_norm": 4.886322498321533, |
| "learning_rate": 2.7161379310344825e-06, |
| "loss": 0.2015, |
| "step": 5155 |
| }, |
| { |
| "epoch": 1.1479333333333333, |
| "grad_norm": 4.741457939147949, |
| "learning_rate": 2.7147586206896547e-06, |
| "loss": 0.2075, |
| "step": 5160 |
| }, |
| { |
| "epoch": 1.1482666666666668, |
| "grad_norm": 4.308309555053711, |
| "learning_rate": 2.7133793103448274e-06, |
| "loss": 0.1876, |
| "step": 5165 |
| }, |
| { |
| "epoch": 1.1486, |
| "grad_norm": 4.164566516876221, |
| "learning_rate": 2.712e-06, |
| "loss": 0.182, |
| "step": 5170 |
| }, |
| { |
| "epoch": 1.1489333333333334, |
| "grad_norm": 3.667811393737793, |
| "learning_rate": 2.7106206896551723e-06, |
| "loss": 0.2232, |
| "step": 5175 |
| }, |
| { |
| "epoch": 1.1492666666666667, |
| "grad_norm": 4.263617992401123, |
| "learning_rate": 2.709241379310345e-06, |
| "loss": 0.1764, |
| "step": 5180 |
| }, |
| { |
| "epoch": 1.1496, |
| "grad_norm": 3.409736156463623, |
| "learning_rate": 2.707862068965517e-06, |
| "loss": 0.1883, |
| "step": 5185 |
| }, |
| { |
| "epoch": 1.1499333333333333, |
| "grad_norm": 4.180192470550537, |
| "learning_rate": 2.7064827586206894e-06, |
| "loss": 0.1867, |
| "step": 5190 |
| }, |
| { |
| "epoch": 1.1502666666666665, |
| "grad_norm": 4.132522106170654, |
| "learning_rate": 2.705103448275862e-06, |
| "loss": 0.1931, |
| "step": 5195 |
| }, |
| { |
| "epoch": 1.1506, |
| "grad_norm": 4.568750381469727, |
| "learning_rate": 2.7037241379310343e-06, |
| "loss": 0.2476, |
| "step": 5200 |
| }, |
| { |
| "epoch": 1.1509333333333334, |
| "grad_norm": 4.722099304199219, |
| "learning_rate": 2.7023448275862065e-06, |
| "loss": 0.2099, |
| "step": 5205 |
| }, |
| { |
| "epoch": 1.1512666666666667, |
| "grad_norm": 3.8684873580932617, |
| "learning_rate": 2.700965517241379e-06, |
| "loss": 0.2245, |
| "step": 5210 |
| }, |
| { |
| "epoch": 1.1516, |
| "grad_norm": 3.5794153213500977, |
| "learning_rate": 2.699586206896552e-06, |
| "loss": 0.1653, |
| "step": 5215 |
| }, |
| { |
| "epoch": 1.1519333333333333, |
| "grad_norm": 3.6119391918182373, |
| "learning_rate": 2.698206896551724e-06, |
| "loss": 0.1761, |
| "step": 5220 |
| }, |
| { |
| "epoch": 1.1522666666666668, |
| "grad_norm": 3.7972981929779053, |
| "learning_rate": 2.6968275862068963e-06, |
| "loss": 0.1785, |
| "step": 5225 |
| }, |
| { |
| "epoch": 1.1526, |
| "grad_norm": 4.842169284820557, |
| "learning_rate": 2.695448275862069e-06, |
| "loss": 0.2337, |
| "step": 5230 |
| }, |
| { |
| "epoch": 1.1529333333333334, |
| "grad_norm": 3.4502532482147217, |
| "learning_rate": 2.6940689655172412e-06, |
| "loss": 0.2077, |
| "step": 5235 |
| }, |
| { |
| "epoch": 1.1532666666666667, |
| "grad_norm": 3.4482548236846924, |
| "learning_rate": 2.6926896551724135e-06, |
| "loss": 0.163, |
| "step": 5240 |
| }, |
| { |
| "epoch": 1.1536, |
| "grad_norm": 4.342613220214844, |
| "learning_rate": 2.691310344827586e-06, |
| "loss": 0.1848, |
| "step": 5245 |
| }, |
| { |
| "epoch": 1.1539333333333333, |
| "grad_norm": 4.090986728668213, |
| "learning_rate": 2.6899310344827584e-06, |
| "loss": 0.1776, |
| "step": 5250 |
| }, |
| { |
| "epoch": 1.1542666666666666, |
| "grad_norm": 4.537845611572266, |
| "learning_rate": 2.6885517241379306e-06, |
| "loss": 0.2145, |
| "step": 5255 |
| }, |
| { |
| "epoch": 1.1546, |
| "grad_norm": 3.7832870483398438, |
| "learning_rate": 2.6871724137931033e-06, |
| "loss": 0.1667, |
| "step": 5260 |
| }, |
| { |
| "epoch": 1.1549333333333334, |
| "grad_norm": 4.331830024719238, |
| "learning_rate": 2.685793103448276e-06, |
| "loss": 0.1955, |
| "step": 5265 |
| }, |
| { |
| "epoch": 1.1552666666666667, |
| "grad_norm": 4.489880084991455, |
| "learning_rate": 2.684413793103448e-06, |
| "loss": 0.2373, |
| "step": 5270 |
| }, |
| { |
| "epoch": 1.1556, |
| "grad_norm": 3.1144156455993652, |
| "learning_rate": 2.683034482758621e-06, |
| "loss": 0.1475, |
| "step": 5275 |
| }, |
| { |
| "epoch": 1.1559333333333333, |
| "grad_norm": 3.966062068939209, |
| "learning_rate": 2.681655172413793e-06, |
| "loss": 0.1972, |
| "step": 5280 |
| }, |
| { |
| "epoch": 1.1562666666666668, |
| "grad_norm": 3.8982529640197754, |
| "learning_rate": 2.6802758620689653e-06, |
| "loss": 0.167, |
| "step": 5285 |
| }, |
| { |
| "epoch": 1.1566, |
| "grad_norm": 4.348316669464111, |
| "learning_rate": 2.678896551724138e-06, |
| "loss": 0.1798, |
| "step": 5290 |
| }, |
| { |
| "epoch": 1.1569333333333334, |
| "grad_norm": 4.5591607093811035, |
| "learning_rate": 2.67751724137931e-06, |
| "loss": 0.175, |
| "step": 5295 |
| }, |
| { |
| "epoch": 1.1572666666666667, |
| "grad_norm": 3.9797098636627197, |
| "learning_rate": 2.6761379310344824e-06, |
| "loss": 0.1895, |
| "step": 5300 |
| }, |
| { |
| "epoch": 1.1576, |
| "grad_norm": 4.154595375061035, |
| "learning_rate": 2.6747586206896547e-06, |
| "loss": 0.1654, |
| "step": 5305 |
| }, |
| { |
| "epoch": 1.1579333333333333, |
| "grad_norm": 3.974168300628662, |
| "learning_rate": 2.6733793103448278e-06, |
| "loss": 0.1927, |
| "step": 5310 |
| }, |
| { |
| "epoch": 1.1582666666666666, |
| "grad_norm": 3.83962345123291, |
| "learning_rate": 2.672e-06, |
| "loss": 0.1875, |
| "step": 5315 |
| }, |
| { |
| "epoch": 1.1586, |
| "grad_norm": 5.381604194641113, |
| "learning_rate": 2.6706206896551722e-06, |
| "loss": 0.1782, |
| "step": 5320 |
| }, |
| { |
| "epoch": 1.1589333333333334, |
| "grad_norm": 4.654579162597656, |
| "learning_rate": 2.669241379310345e-06, |
| "loss": 0.2006, |
| "step": 5325 |
| }, |
| { |
| "epoch": 1.1592666666666667, |
| "grad_norm": 4.560925006866455, |
| "learning_rate": 2.667862068965517e-06, |
| "loss": 0.2029, |
| "step": 5330 |
| }, |
| { |
| "epoch": 1.1596, |
| "grad_norm": 5.027436256408691, |
| "learning_rate": 2.6664827586206894e-06, |
| "loss": 0.1945, |
| "step": 5335 |
| }, |
| { |
| "epoch": 1.1599333333333333, |
| "grad_norm": 4.1756792068481445, |
| "learning_rate": 2.665103448275862e-06, |
| "loss": 0.1938, |
| "step": 5340 |
| }, |
| { |
| "epoch": 1.1602666666666668, |
| "grad_norm": 4.538050174713135, |
| "learning_rate": 2.6637241379310343e-06, |
| "loss": 0.196, |
| "step": 5345 |
| }, |
| { |
| "epoch": 1.1606, |
| "grad_norm": 4.5956501960754395, |
| "learning_rate": 2.6623448275862065e-06, |
| "loss": 0.2112, |
| "step": 5350 |
| }, |
| { |
| "epoch": 1.1609333333333334, |
| "grad_norm": 3.1964244842529297, |
| "learning_rate": 2.6609655172413796e-06, |
| "loss": 0.1974, |
| "step": 5355 |
| }, |
| { |
| "epoch": 1.1612666666666667, |
| "grad_norm": 3.3779561519622803, |
| "learning_rate": 2.659586206896552e-06, |
| "loss": 0.2654, |
| "step": 5360 |
| }, |
| { |
| "epoch": 1.1616, |
| "grad_norm": 4.518371105194092, |
| "learning_rate": 2.658206896551724e-06, |
| "loss": 0.2293, |
| "step": 5365 |
| }, |
| { |
| "epoch": 1.1619333333333333, |
| "grad_norm": 4.308935165405273, |
| "learning_rate": 2.6568275862068963e-06, |
| "loss": 0.1941, |
| "step": 5370 |
| }, |
| { |
| "epoch": 1.1622666666666666, |
| "grad_norm": 4.0899834632873535, |
| "learning_rate": 2.655448275862069e-06, |
| "loss": 0.1812, |
| "step": 5375 |
| }, |
| { |
| "epoch": 1.1626, |
| "grad_norm": 3.8920445442199707, |
| "learning_rate": 2.654068965517241e-06, |
| "loss": 0.164, |
| "step": 5380 |
| }, |
| { |
| "epoch": 1.1629333333333334, |
| "grad_norm": 3.8093814849853516, |
| "learning_rate": 2.6526896551724134e-06, |
| "loss": 0.1659, |
| "step": 5385 |
| }, |
| { |
| "epoch": 1.1632666666666667, |
| "grad_norm": 4.044894218444824, |
| "learning_rate": 2.651310344827586e-06, |
| "loss": 0.1786, |
| "step": 5390 |
| }, |
| { |
| "epoch": 1.1636, |
| "grad_norm": 4.1796674728393555, |
| "learning_rate": 2.6499310344827583e-06, |
| "loss": 0.2143, |
| "step": 5395 |
| }, |
| { |
| "epoch": 1.1639333333333333, |
| "grad_norm": 3.6118078231811523, |
| "learning_rate": 2.6485517241379306e-06, |
| "loss": 0.158, |
| "step": 5400 |
| }, |
| { |
| "epoch": 1.1642666666666668, |
| "grad_norm": 3.5010926723480225, |
| "learning_rate": 2.6471724137931037e-06, |
| "loss": 0.2, |
| "step": 5405 |
| }, |
| { |
| "epoch": 1.1646, |
| "grad_norm": 3.7809059619903564, |
| "learning_rate": 2.645793103448276e-06, |
| "loss": 0.2195, |
| "step": 5410 |
| }, |
| { |
| "epoch": 1.1649333333333334, |
| "grad_norm": 4.180829048156738, |
| "learning_rate": 2.644413793103448e-06, |
| "loss": 0.2264, |
| "step": 5415 |
| }, |
| { |
| "epoch": 1.1652666666666667, |
| "grad_norm": 4.222664833068848, |
| "learning_rate": 2.643034482758621e-06, |
| "loss": 0.1678, |
| "step": 5420 |
| }, |
| { |
| "epoch": 1.1656, |
| "grad_norm": 4.0066237449646, |
| "learning_rate": 2.641655172413793e-06, |
| "loss": 0.2051, |
| "step": 5425 |
| }, |
| { |
| "epoch": 1.1659333333333333, |
| "grad_norm": 4.288041114807129, |
| "learning_rate": 2.6402758620689653e-06, |
| "loss": 0.1806, |
| "step": 5430 |
| }, |
| { |
| "epoch": 1.1662666666666666, |
| "grad_norm": 4.851680278778076, |
| "learning_rate": 2.638896551724138e-06, |
| "loss": 0.239, |
| "step": 5435 |
| }, |
| { |
| "epoch": 1.1666, |
| "grad_norm": 4.772148132324219, |
| "learning_rate": 2.63751724137931e-06, |
| "loss": 0.206, |
| "step": 5440 |
| }, |
| { |
| "epoch": 1.1669333333333334, |
| "grad_norm": 3.7656898498535156, |
| "learning_rate": 2.6361379310344824e-06, |
| "loss": 0.1997, |
| "step": 5445 |
| }, |
| { |
| "epoch": 1.1672666666666667, |
| "grad_norm": 4.0738911628723145, |
| "learning_rate": 2.634758620689655e-06, |
| "loss": 0.184, |
| "step": 5450 |
| }, |
| { |
| "epoch": 1.1676, |
| "grad_norm": 5.001456260681152, |
| "learning_rate": 2.6333793103448277e-06, |
| "loss": 0.2095, |
| "step": 5455 |
| }, |
| { |
| "epoch": 1.1679333333333333, |
| "grad_norm": 3.3780059814453125, |
| "learning_rate": 2.632e-06, |
| "loss": 0.1465, |
| "step": 5460 |
| }, |
| { |
| "epoch": 1.1682666666666668, |
| "grad_norm": 4.282598972320557, |
| "learning_rate": 2.630620689655172e-06, |
| "loss": 0.2624, |
| "step": 5465 |
| }, |
| { |
| "epoch": 1.1686, |
| "grad_norm": 3.6612470149993896, |
| "learning_rate": 2.629241379310345e-06, |
| "loss": 0.1827, |
| "step": 5470 |
| }, |
| { |
| "epoch": 1.1689333333333334, |
| "grad_norm": 4.536810874938965, |
| "learning_rate": 2.627862068965517e-06, |
| "loss": 0.1798, |
| "step": 5475 |
| }, |
| { |
| "epoch": 1.1692666666666667, |
| "grad_norm": 4.173494338989258, |
| "learning_rate": 2.6264827586206893e-06, |
| "loss": 0.1622, |
| "step": 5480 |
| }, |
| { |
| "epoch": 1.1696, |
| "grad_norm": 4.766840934753418, |
| "learning_rate": 2.625103448275862e-06, |
| "loss": 0.1699, |
| "step": 5485 |
| }, |
| { |
| "epoch": 1.1699333333333333, |
| "grad_norm": 5.3170270919799805, |
| "learning_rate": 2.6237241379310342e-06, |
| "loss": 0.1875, |
| "step": 5490 |
| }, |
| { |
| "epoch": 1.1702666666666666, |
| "grad_norm": 5.210724353790283, |
| "learning_rate": 2.6223448275862065e-06, |
| "loss": 0.1643, |
| "step": 5495 |
| }, |
| { |
| "epoch": 1.1706, |
| "grad_norm": 4.620442867279053, |
| "learning_rate": 2.6209655172413795e-06, |
| "loss": 0.221, |
| "step": 5500 |
| }, |
| { |
| "epoch": 1.1709333333333334, |
| "grad_norm": 3.9850666522979736, |
| "learning_rate": 2.6195862068965518e-06, |
| "loss": 0.1808, |
| "step": 5505 |
| }, |
| { |
| "epoch": 1.1712666666666667, |
| "grad_norm": 4.121875762939453, |
| "learning_rate": 2.618206896551724e-06, |
| "loss": 0.1994, |
| "step": 5510 |
| }, |
| { |
| "epoch": 1.1716, |
| "grad_norm": 3.990981340408325, |
| "learning_rate": 2.6168275862068967e-06, |
| "loss": 0.2255, |
| "step": 5515 |
| }, |
| { |
| "epoch": 1.1719333333333333, |
| "grad_norm": 5.155255317687988, |
| "learning_rate": 2.615448275862069e-06, |
| "loss": 0.1899, |
| "step": 5520 |
| }, |
| { |
| "epoch": 1.1722666666666668, |
| "grad_norm": 4.6461615562438965, |
| "learning_rate": 2.614068965517241e-06, |
| "loss": 0.1808, |
| "step": 5525 |
| }, |
| { |
| "epoch": 1.1726, |
| "grad_norm": 4.348207473754883, |
| "learning_rate": 2.6126896551724134e-06, |
| "loss": 0.1858, |
| "step": 5530 |
| }, |
| { |
| "epoch": 1.1729333333333334, |
| "grad_norm": 5.090117454528809, |
| "learning_rate": 2.611310344827586e-06, |
| "loss": 0.2089, |
| "step": 5535 |
| }, |
| { |
| "epoch": 1.1732666666666667, |
| "grad_norm": 5.377852439880371, |
| "learning_rate": 2.6099310344827583e-06, |
| "loss": 0.1642, |
| "step": 5540 |
| }, |
| { |
| "epoch": 1.1736, |
| "grad_norm": 4.564538478851318, |
| "learning_rate": 2.608551724137931e-06, |
| "loss": 0.2181, |
| "step": 5545 |
| }, |
| { |
| "epoch": 1.1739333333333333, |
| "grad_norm": 3.6597437858581543, |
| "learning_rate": 2.6071724137931036e-06, |
| "loss": 0.2205, |
| "step": 5550 |
| }, |
| { |
| "epoch": 1.1742666666666666, |
| "grad_norm": 4.818310737609863, |
| "learning_rate": 2.605793103448276e-06, |
| "loss": 0.2219, |
| "step": 5555 |
| }, |
| { |
| "epoch": 1.1746, |
| "grad_norm": 3.765043020248413, |
| "learning_rate": 2.604413793103448e-06, |
| "loss": 0.1556, |
| "step": 5560 |
| }, |
| { |
| "epoch": 1.1749333333333334, |
| "grad_norm": 4.182652950286865, |
| "learning_rate": 2.6030344827586207e-06, |
| "loss": 0.1773, |
| "step": 5565 |
| }, |
| { |
| "epoch": 1.1752666666666667, |
| "grad_norm": 3.571772336959839, |
| "learning_rate": 2.601655172413793e-06, |
| "loss": 0.212, |
| "step": 5570 |
| }, |
| { |
| "epoch": 1.1756, |
| "grad_norm": 4.352745056152344, |
| "learning_rate": 2.6002758620689652e-06, |
| "loss": 0.2092, |
| "step": 5575 |
| }, |
| { |
| "epoch": 1.1759333333333333, |
| "grad_norm": 3.973794460296631, |
| "learning_rate": 2.598896551724138e-06, |
| "loss": 0.1917, |
| "step": 5580 |
| }, |
| { |
| "epoch": 1.1762666666666666, |
| "grad_norm": 5.188632488250732, |
| "learning_rate": 2.59751724137931e-06, |
| "loss": 0.2377, |
| "step": 5585 |
| }, |
| { |
| "epoch": 1.1766, |
| "grad_norm": 3.8647232055664062, |
| "learning_rate": 2.5961379310344824e-06, |
| "loss": 0.1737, |
| "step": 5590 |
| }, |
| { |
| "epoch": 1.1769333333333334, |
| "grad_norm": 3.9960756301879883, |
| "learning_rate": 2.5947586206896554e-06, |
| "loss": 0.2156, |
| "step": 5595 |
| }, |
| { |
| "epoch": 1.1772666666666667, |
| "grad_norm": 4.197457313537598, |
| "learning_rate": 2.5933793103448277e-06, |
| "loss": 0.1812, |
| "step": 5600 |
| }, |
| { |
| "epoch": 1.1776, |
| "grad_norm": 4.95630407333374, |
| "learning_rate": 2.592e-06, |
| "loss": 0.182, |
| "step": 5605 |
| }, |
| { |
| "epoch": 1.1779333333333333, |
| "grad_norm": 4.5366387367248535, |
| "learning_rate": 2.590620689655172e-06, |
| "loss": 0.1975, |
| "step": 5610 |
| }, |
| { |
| "epoch": 1.1782666666666666, |
| "grad_norm": 3.710115909576416, |
| "learning_rate": 2.589241379310345e-06, |
| "loss": 0.2009, |
| "step": 5615 |
| }, |
| { |
| "epoch": 1.1786, |
| "grad_norm": 4.694946765899658, |
| "learning_rate": 2.587862068965517e-06, |
| "loss": 0.2191, |
| "step": 5620 |
| }, |
| { |
| "epoch": 1.1789333333333334, |
| "grad_norm": 3.8793816566467285, |
| "learning_rate": 2.5864827586206893e-06, |
| "loss": 0.1906, |
| "step": 5625 |
| }, |
| { |
| "epoch": 1.1792666666666667, |
| "grad_norm": 5.386185169219971, |
| "learning_rate": 2.585103448275862e-06, |
| "loss": 0.1894, |
| "step": 5630 |
| }, |
| { |
| "epoch": 1.1796, |
| "grad_norm": 4.052608966827393, |
| "learning_rate": 2.583724137931034e-06, |
| "loss": 0.1682, |
| "step": 5635 |
| }, |
| { |
| "epoch": 1.1799333333333333, |
| "grad_norm": 4.280359268188477, |
| "learning_rate": 2.582344827586207e-06, |
| "loss": 0.2106, |
| "step": 5640 |
| }, |
| { |
| "epoch": 1.1802666666666666, |
| "grad_norm": 5.458491802215576, |
| "learning_rate": 2.5809655172413795e-06, |
| "loss": 0.2485, |
| "step": 5645 |
| }, |
| { |
| "epoch": 1.1806, |
| "grad_norm": 4.3142924308776855, |
| "learning_rate": 2.5795862068965517e-06, |
| "loss": 0.2342, |
| "step": 5650 |
| }, |
| { |
| "epoch": 1.1809333333333334, |
| "grad_norm": 4.577561855316162, |
| "learning_rate": 2.578206896551724e-06, |
| "loss": 0.1901, |
| "step": 5655 |
| }, |
| { |
| "epoch": 1.1812666666666667, |
| "grad_norm": 3.9250996112823486, |
| "learning_rate": 2.5768275862068966e-06, |
| "loss": 0.1453, |
| "step": 5660 |
| }, |
| { |
| "epoch": 1.1816, |
| "grad_norm": 4.495615005493164, |
| "learning_rate": 2.575448275862069e-06, |
| "loss": 0.209, |
| "step": 5665 |
| }, |
| { |
| "epoch": 1.1819333333333333, |
| "grad_norm": 4.680577278137207, |
| "learning_rate": 2.574068965517241e-06, |
| "loss": 0.2325, |
| "step": 5670 |
| }, |
| { |
| "epoch": 1.1822666666666666, |
| "grad_norm": 5.013704299926758, |
| "learning_rate": 2.5726896551724134e-06, |
| "loss": 0.1724, |
| "step": 5675 |
| }, |
| { |
| "epoch": 1.1826, |
| "grad_norm": 3.649595260620117, |
| "learning_rate": 2.571310344827586e-06, |
| "loss": 0.1794, |
| "step": 5680 |
| }, |
| { |
| "epoch": 1.1829333333333334, |
| "grad_norm": 4.131871700286865, |
| "learning_rate": 2.5699310344827587e-06, |
| "loss": 0.1715, |
| "step": 5685 |
| }, |
| { |
| "epoch": 1.1832666666666667, |
| "grad_norm": 3.885258436203003, |
| "learning_rate": 2.568551724137931e-06, |
| "loss": 0.1686, |
| "step": 5690 |
| }, |
| { |
| "epoch": 1.1836, |
| "grad_norm": 3.905090808868408, |
| "learning_rate": 2.5671724137931036e-06, |
| "loss": 0.1591, |
| "step": 5695 |
| }, |
| { |
| "epoch": 1.1839333333333333, |
| "grad_norm": 3.501511812210083, |
| "learning_rate": 2.565793103448276e-06, |
| "loss": 0.1829, |
| "step": 5700 |
| }, |
| { |
| "epoch": 1.1842666666666666, |
| "grad_norm": 4.774788856506348, |
| "learning_rate": 2.564413793103448e-06, |
| "loss": 0.1672, |
| "step": 5705 |
| }, |
| { |
| "epoch": 1.1846, |
| "grad_norm": 4.170146942138672, |
| "learning_rate": 2.5630344827586207e-06, |
| "loss": 0.2022, |
| "step": 5710 |
| }, |
| { |
| "epoch": 1.1849333333333334, |
| "grad_norm": 4.3361382484436035, |
| "learning_rate": 2.561655172413793e-06, |
| "loss": 0.164, |
| "step": 5715 |
| }, |
| { |
| "epoch": 1.1852666666666667, |
| "grad_norm": 4.41452169418335, |
| "learning_rate": 2.560275862068965e-06, |
| "loss": 0.2085, |
| "step": 5720 |
| }, |
| { |
| "epoch": 1.1856, |
| "grad_norm": 4.213366985321045, |
| "learning_rate": 2.558896551724138e-06, |
| "loss": 0.2094, |
| "step": 5725 |
| }, |
| { |
| "epoch": 1.1859333333333333, |
| "grad_norm": 4.418910026550293, |
| "learning_rate": 2.55751724137931e-06, |
| "loss": 0.1877, |
| "step": 5730 |
| }, |
| { |
| "epoch": 1.1862666666666666, |
| "grad_norm": 5.433710098266602, |
| "learning_rate": 2.5561379310344827e-06, |
| "loss": 0.2082, |
| "step": 5735 |
| }, |
| { |
| "epoch": 1.1865999999999999, |
| "grad_norm": 3.9778237342834473, |
| "learning_rate": 2.5547586206896554e-06, |
| "loss": 0.195, |
| "step": 5740 |
| }, |
| { |
| "epoch": 1.1869333333333334, |
| "grad_norm": 2.914391040802002, |
| "learning_rate": 2.5533793103448276e-06, |
| "loss": 0.1669, |
| "step": 5745 |
| }, |
| { |
| "epoch": 1.1872666666666667, |
| "grad_norm": 3.020949125289917, |
| "learning_rate": 2.552e-06, |
| "loss": 0.194, |
| "step": 5750 |
| }, |
| { |
| "epoch": 1.1876, |
| "grad_norm": 4.662065505981445, |
| "learning_rate": 2.550620689655172e-06, |
| "loss": 0.1947, |
| "step": 5755 |
| }, |
| { |
| "epoch": 1.1879333333333333, |
| "grad_norm": 5.251242160797119, |
| "learning_rate": 2.5492413793103448e-06, |
| "loss": 0.205, |
| "step": 5760 |
| }, |
| { |
| "epoch": 1.1882666666666666, |
| "grad_norm": 4.292612552642822, |
| "learning_rate": 2.547862068965517e-06, |
| "loss": 0.1703, |
| "step": 5765 |
| }, |
| { |
| "epoch": 1.1886, |
| "grad_norm": 4.258412837982178, |
| "learning_rate": 2.5464827586206892e-06, |
| "loss": 0.2039, |
| "step": 5770 |
| }, |
| { |
| "epoch": 1.1889333333333334, |
| "grad_norm": 4.016767978668213, |
| "learning_rate": 2.545103448275862e-06, |
| "loss": 0.166, |
| "step": 5775 |
| }, |
| { |
| "epoch": 1.1892666666666667, |
| "grad_norm": 3.79431414604187, |
| "learning_rate": 2.5437241379310346e-06, |
| "loss": 0.1524, |
| "step": 5780 |
| }, |
| { |
| "epoch": 1.1896, |
| "grad_norm": 4.945562362670898, |
| "learning_rate": 2.542344827586207e-06, |
| "loss": 0.1993, |
| "step": 5785 |
| }, |
| { |
| "epoch": 1.1899333333333333, |
| "grad_norm": 4.6653008460998535, |
| "learning_rate": 2.5409655172413795e-06, |
| "loss": 0.2085, |
| "step": 5790 |
| }, |
| { |
| "epoch": 1.1902666666666666, |
| "grad_norm": 3.278367519378662, |
| "learning_rate": 2.5395862068965517e-06, |
| "loss": 0.1632, |
| "step": 5795 |
| }, |
| { |
| "epoch": 1.1905999999999999, |
| "grad_norm": 4.977532863616943, |
| "learning_rate": 2.538206896551724e-06, |
| "loss": 0.2225, |
| "step": 5800 |
| }, |
| { |
| "epoch": 1.1909333333333334, |
| "grad_norm": 5.525883674621582, |
| "learning_rate": 2.5368275862068966e-06, |
| "loss": 0.2035, |
| "step": 5805 |
| }, |
| { |
| "epoch": 1.1912666666666667, |
| "grad_norm": 4.043654918670654, |
| "learning_rate": 2.535448275862069e-06, |
| "loss": 0.1655, |
| "step": 5810 |
| }, |
| { |
| "epoch": 1.1916, |
| "grad_norm": 3.2852120399475098, |
| "learning_rate": 2.534068965517241e-06, |
| "loss": 0.1756, |
| "step": 5815 |
| }, |
| { |
| "epoch": 1.1919333333333333, |
| "grad_norm": 3.764739990234375, |
| "learning_rate": 2.5326896551724133e-06, |
| "loss": 0.1862, |
| "step": 5820 |
| }, |
| { |
| "epoch": 1.1922666666666666, |
| "grad_norm": 3.2456486225128174, |
| "learning_rate": 2.531310344827586e-06, |
| "loss": 0.1713, |
| "step": 5825 |
| }, |
| { |
| "epoch": 1.1926, |
| "grad_norm": 3.5262532234191895, |
| "learning_rate": 2.5299310344827586e-06, |
| "loss": 0.1701, |
| "step": 5830 |
| }, |
| { |
| "epoch": 1.1929333333333334, |
| "grad_norm": 4.578812122344971, |
| "learning_rate": 2.528551724137931e-06, |
| "loss": 0.2007, |
| "step": 5835 |
| }, |
| { |
| "epoch": 1.1932666666666667, |
| "grad_norm": 4.017645359039307, |
| "learning_rate": 2.5271724137931035e-06, |
| "loss": 0.1798, |
| "step": 5840 |
| }, |
| { |
| "epoch": 1.1936, |
| "grad_norm": 3.869948625564575, |
| "learning_rate": 2.5257931034482758e-06, |
| "loss": 0.1891, |
| "step": 5845 |
| }, |
| { |
| "epoch": 1.1939333333333333, |
| "grad_norm": 4.228075981140137, |
| "learning_rate": 2.524413793103448e-06, |
| "loss": 0.1813, |
| "step": 5850 |
| }, |
| { |
| "epoch": 1.1942666666666666, |
| "grad_norm": 4.79827880859375, |
| "learning_rate": 2.5230344827586207e-06, |
| "loss": 0.2075, |
| "step": 5855 |
| }, |
| { |
| "epoch": 1.1945999999999999, |
| "grad_norm": 3.552340507507324, |
| "learning_rate": 2.521655172413793e-06, |
| "loss": 0.1833, |
| "step": 5860 |
| }, |
| { |
| "epoch": 1.1949333333333334, |
| "grad_norm": 4.267887592315674, |
| "learning_rate": 2.520275862068965e-06, |
| "loss": 0.2216, |
| "step": 5865 |
| }, |
| { |
| "epoch": 1.1952666666666667, |
| "grad_norm": 4.0750250816345215, |
| "learning_rate": 2.518896551724138e-06, |
| "loss": 0.2081, |
| "step": 5870 |
| }, |
| { |
| "epoch": 1.1956, |
| "grad_norm": 4.056178569793701, |
| "learning_rate": 2.5175172413793105e-06, |
| "loss": 0.1675, |
| "step": 5875 |
| }, |
| { |
| "epoch": 1.1959333333333333, |
| "grad_norm": 3.9616215229034424, |
| "learning_rate": 2.5161379310344827e-06, |
| "loss": 0.179, |
| "step": 5880 |
| }, |
| { |
| "epoch": 2.0002, |
| "grad_norm": 3.4019455909729004, |
| "learning_rate": 2.5147586206896554e-06, |
| "loss": 0.2171, |
| "step": 5885 |
| }, |
| { |
| "epoch": 2.0005333333333333, |
| "grad_norm": 3.327521562576294, |
| "learning_rate": 2.5133793103448276e-06, |
| "loss": 0.1311, |
| "step": 5890 |
| }, |
| { |
| "epoch": 2.0008666666666666, |
| "grad_norm": 2.4559452533721924, |
| "learning_rate": 2.512e-06, |
| "loss": 0.1262, |
| "step": 5895 |
| }, |
| { |
| "epoch": 2.0012, |
| "grad_norm": 3.422168493270874, |
| "learning_rate": 2.510620689655172e-06, |
| "loss": 0.1526, |
| "step": 5900 |
| }, |
| { |
| "epoch": 2.001533333333333, |
| "grad_norm": 4.129306793212891, |
| "learning_rate": 2.5092413793103447e-06, |
| "loss": 0.1984, |
| "step": 5905 |
| }, |
| { |
| "epoch": 2.0018666666666665, |
| "grad_norm": 3.987211227416992, |
| "learning_rate": 2.507862068965517e-06, |
| "loss": 0.1695, |
| "step": 5910 |
| }, |
| { |
| "epoch": 2.0022, |
| "grad_norm": 3.9452011585235596, |
| "learning_rate": 2.506482758620689e-06, |
| "loss": 0.1741, |
| "step": 5915 |
| }, |
| { |
| "epoch": 2.0025333333333335, |
| "grad_norm": 4.8507537841796875, |
| "learning_rate": 2.5051034482758623e-06, |
| "loss": 0.1724, |
| "step": 5920 |
| }, |
| { |
| "epoch": 2.002866666666667, |
| "grad_norm": 3.538630247116089, |
| "learning_rate": 2.5037241379310345e-06, |
| "loss": 0.1389, |
| "step": 5925 |
| }, |
| { |
| "epoch": 2.0032, |
| "grad_norm": 3.8724489212036133, |
| "learning_rate": 2.5023448275862068e-06, |
| "loss": 0.1536, |
| "step": 5930 |
| }, |
| { |
| "epoch": 2.0035333333333334, |
| "grad_norm": 3.0832672119140625, |
| "learning_rate": 2.5009655172413794e-06, |
| "loss": 0.1258, |
| "step": 5935 |
| }, |
| { |
| "epoch": 2.0038666666666667, |
| "grad_norm": 4.680577754974365, |
| "learning_rate": 2.4995862068965517e-06, |
| "loss": 0.1837, |
| "step": 5940 |
| }, |
| { |
| "epoch": 2.0042, |
| "grad_norm": 3.051957368850708, |
| "learning_rate": 2.498206896551724e-06, |
| "loss": 0.1414, |
| "step": 5945 |
| }, |
| { |
| "epoch": 2.0045333333333333, |
| "grad_norm": 3.573773145675659, |
| "learning_rate": 2.4968275862068966e-06, |
| "loss": 0.1369, |
| "step": 5950 |
| }, |
| { |
| "epoch": 2.0048666666666666, |
| "grad_norm": 3.4350762367248535, |
| "learning_rate": 2.495448275862069e-06, |
| "loss": 0.1644, |
| "step": 5955 |
| }, |
| { |
| "epoch": 2.0052, |
| "grad_norm": 4.305556297302246, |
| "learning_rate": 2.494068965517241e-06, |
| "loss": 0.1652, |
| "step": 5960 |
| }, |
| { |
| "epoch": 2.005533333333333, |
| "grad_norm": 4.270698547363281, |
| "learning_rate": 2.4926896551724133e-06, |
| "loss": 0.1815, |
| "step": 5965 |
| }, |
| { |
| "epoch": 2.0058666666666665, |
| "grad_norm": 3.4140586853027344, |
| "learning_rate": 2.4913103448275864e-06, |
| "loss": 0.1314, |
| "step": 5970 |
| }, |
| { |
| "epoch": 2.0062, |
| "grad_norm": 4.222008228302002, |
| "learning_rate": 2.4899310344827586e-06, |
| "loss": 0.1584, |
| "step": 5975 |
| }, |
| { |
| "epoch": 2.0065333333333335, |
| "grad_norm": 3.956826686859131, |
| "learning_rate": 2.488551724137931e-06, |
| "loss": 0.162, |
| "step": 5980 |
| }, |
| { |
| "epoch": 2.006866666666667, |
| "grad_norm": 3.809159517288208, |
| "learning_rate": 2.4871724137931035e-06, |
| "loss": 0.1593, |
| "step": 5985 |
| }, |
| { |
| "epoch": 2.0072, |
| "grad_norm": 4.637021541595459, |
| "learning_rate": 2.4857931034482757e-06, |
| "loss": 0.1509, |
| "step": 5990 |
| }, |
| { |
| "epoch": 2.0075333333333334, |
| "grad_norm": 3.9600725173950195, |
| "learning_rate": 2.484413793103448e-06, |
| "loss": 0.1701, |
| "step": 5995 |
| }, |
| { |
| "epoch": 2.0078666666666667, |
| "grad_norm": 3.3591468334198, |
| "learning_rate": 2.4830344827586206e-06, |
| "loss": 0.1595, |
| "step": 6000 |
| }, |
| { |
| "epoch": 2.0078666666666667, |
| "eval_loss": 0.2206214964389801, |
| "eval_runtime": 137.8347, |
| "eval_samples_per_second": 4.353, |
| "eval_steps_per_second": 1.088, |
| "eval_wer": 11.233086545825888, |
| "step": 6000 |
| }, |
| { |
| "epoch": 2.0082, |
| "grad_norm": 2.9284799098968506, |
| "learning_rate": 2.481655172413793e-06, |
| "loss": 0.1483, |
| "step": 6005 |
| }, |
| { |
| "epoch": 2.0085333333333333, |
| "grad_norm": 3.9744112491607666, |
| "learning_rate": 2.480275862068965e-06, |
| "loss": 0.1641, |
| "step": 6010 |
| }, |
| { |
| "epoch": 2.0088666666666666, |
| "grad_norm": 4.071737289428711, |
| "learning_rate": 2.478896551724138e-06, |
| "loss": 0.1512, |
| "step": 6015 |
| }, |
| { |
| "epoch": 2.0092, |
| "grad_norm": 4.080634117126465, |
| "learning_rate": 2.4775172413793104e-06, |
| "loss": 0.1675, |
| "step": 6020 |
| }, |
| { |
| "epoch": 2.009533333333333, |
| "grad_norm": 4.3488030433654785, |
| "learning_rate": 2.4761379310344827e-06, |
| "loss": 0.1461, |
| "step": 6025 |
| }, |
| { |
| "epoch": 2.0098666666666665, |
| "grad_norm": 3.0543127059936523, |
| "learning_rate": 2.4747586206896553e-06, |
| "loss": 0.1414, |
| "step": 6030 |
| }, |
| { |
| "epoch": 2.0102, |
| "grad_norm": 5.4342145919799805, |
| "learning_rate": 2.4733793103448276e-06, |
| "loss": 0.171, |
| "step": 6035 |
| }, |
| { |
| "epoch": 2.0105333333333335, |
| "grad_norm": 3.0767934322357178, |
| "learning_rate": 2.472e-06, |
| "loss": 0.1077, |
| "step": 6040 |
| }, |
| { |
| "epoch": 2.010866666666667, |
| "grad_norm": 4.758918762207031, |
| "learning_rate": 2.470620689655172e-06, |
| "loss": 0.1667, |
| "step": 6045 |
| }, |
| { |
| "epoch": 2.0112, |
| "grad_norm": 3.507658004760742, |
| "learning_rate": 2.4692413793103447e-06, |
| "loss": 0.126, |
| "step": 6050 |
| }, |
| { |
| "epoch": 2.0115333333333334, |
| "grad_norm": 3.546591281890869, |
| "learning_rate": 2.467862068965517e-06, |
| "loss": 0.1446, |
| "step": 6055 |
| }, |
| { |
| "epoch": 2.0118666666666667, |
| "grad_norm": 3.361182689666748, |
| "learning_rate": 2.466482758620689e-06, |
| "loss": 0.1397, |
| "step": 6060 |
| }, |
| { |
| "epoch": 2.0122, |
| "grad_norm": 3.401625633239746, |
| "learning_rate": 2.4651034482758623e-06, |
| "loss": 0.1308, |
| "step": 6065 |
| }, |
| { |
| "epoch": 2.0125333333333333, |
| "grad_norm": 3.72898530960083, |
| "learning_rate": 2.4637241379310345e-06, |
| "loss": 0.1361, |
| "step": 6070 |
| }, |
| { |
| "epoch": 2.0128666666666666, |
| "grad_norm": 3.7618777751922607, |
| "learning_rate": 2.4623448275862067e-06, |
| "loss": 0.1716, |
| "step": 6075 |
| }, |
| { |
| "epoch": 2.0132, |
| "grad_norm": 3.8370299339294434, |
| "learning_rate": 2.4609655172413794e-06, |
| "loss": 0.1797, |
| "step": 6080 |
| }, |
| { |
| "epoch": 2.013533333333333, |
| "grad_norm": 4.010655879974365, |
| "learning_rate": 2.4595862068965516e-06, |
| "loss": 0.156, |
| "step": 6085 |
| }, |
| { |
| "epoch": 2.0138666666666665, |
| "grad_norm": 3.4017035961151123, |
| "learning_rate": 2.458206896551724e-06, |
| "loss": 0.146, |
| "step": 6090 |
| }, |
| { |
| "epoch": 2.0142, |
| "grad_norm": 3.2852694988250732, |
| "learning_rate": 2.4568275862068965e-06, |
| "loss": 0.1541, |
| "step": 6095 |
| }, |
| { |
| "epoch": 2.0145333333333335, |
| "grad_norm": 4.687168121337891, |
| "learning_rate": 2.4554482758620688e-06, |
| "loss": 0.1638, |
| "step": 6100 |
| }, |
| { |
| "epoch": 2.014866666666667, |
| "grad_norm": 4.25932502746582, |
| "learning_rate": 2.454068965517241e-06, |
| "loss": 0.1555, |
| "step": 6105 |
| }, |
| { |
| "epoch": 2.0152, |
| "grad_norm": 3.5426619052886963, |
| "learning_rate": 2.452689655172414e-06, |
| "loss": 0.191, |
| "step": 6110 |
| }, |
| { |
| "epoch": 2.0155333333333334, |
| "grad_norm": 3.8437821865081787, |
| "learning_rate": 2.4513103448275863e-06, |
| "loss": 0.1708, |
| "step": 6115 |
| }, |
| { |
| "epoch": 2.0158666666666667, |
| "grad_norm": 3.993281126022339, |
| "learning_rate": 2.4499310344827586e-06, |
| "loss": 0.1333, |
| "step": 6120 |
| }, |
| { |
| "epoch": 2.0162, |
| "grad_norm": 3.7849533557891846, |
| "learning_rate": 2.448551724137931e-06, |
| "loss": 0.1457, |
| "step": 6125 |
| }, |
| { |
| "epoch": 2.0165333333333333, |
| "grad_norm": 3.9170854091644287, |
| "learning_rate": 2.4471724137931035e-06, |
| "loss": 0.1498, |
| "step": 6130 |
| }, |
| { |
| "epoch": 2.0168666666666666, |
| "grad_norm": 4.545523643493652, |
| "learning_rate": 2.4457931034482757e-06, |
| "loss": 0.1845, |
| "step": 6135 |
| }, |
| { |
| "epoch": 2.0172, |
| "grad_norm": 5.464803218841553, |
| "learning_rate": 2.444413793103448e-06, |
| "loss": 0.1622, |
| "step": 6140 |
| }, |
| { |
| "epoch": 2.017533333333333, |
| "grad_norm": 3.933396816253662, |
| "learning_rate": 2.4430344827586206e-06, |
| "loss": 0.1631, |
| "step": 6145 |
| }, |
| { |
| "epoch": 2.0178666666666665, |
| "grad_norm": 3.6314265727996826, |
| "learning_rate": 2.441655172413793e-06, |
| "loss": 0.141, |
| "step": 6150 |
| }, |
| { |
| "epoch": 2.0182, |
| "grad_norm": 4.516257286071777, |
| "learning_rate": 2.440275862068965e-06, |
| "loss": 0.1871, |
| "step": 6155 |
| }, |
| { |
| "epoch": 2.0185333333333335, |
| "grad_norm": 3.838791608810425, |
| "learning_rate": 2.438896551724138e-06, |
| "loss": 0.1688, |
| "step": 6160 |
| }, |
| { |
| "epoch": 2.018866666666667, |
| "grad_norm": 4.129659175872803, |
| "learning_rate": 2.4375172413793104e-06, |
| "loss": 0.177, |
| "step": 6165 |
| }, |
| { |
| "epoch": 2.0192, |
| "grad_norm": 4.023396968841553, |
| "learning_rate": 2.4361379310344826e-06, |
| "loss": 0.1957, |
| "step": 6170 |
| }, |
| { |
| "epoch": 2.0195333333333334, |
| "grad_norm": 4.311656475067139, |
| "learning_rate": 2.4347586206896553e-06, |
| "loss": 0.2098, |
| "step": 6175 |
| }, |
| { |
| "epoch": 2.0198666666666667, |
| "grad_norm": 4.429049968719482, |
| "learning_rate": 2.4333793103448275e-06, |
| "loss": 0.168, |
| "step": 6180 |
| }, |
| { |
| "epoch": 2.0202, |
| "grad_norm": 3.8686649799346924, |
| "learning_rate": 2.4319999999999998e-06, |
| "loss": 0.1929, |
| "step": 6185 |
| }, |
| { |
| "epoch": 2.0205333333333333, |
| "grad_norm": 4.216354846954346, |
| "learning_rate": 2.430620689655172e-06, |
| "loss": 0.2161, |
| "step": 6190 |
| }, |
| { |
| "epoch": 2.0208666666666666, |
| "grad_norm": 3.234408140182495, |
| "learning_rate": 2.4292413793103447e-06, |
| "loss": 0.1503, |
| "step": 6195 |
| }, |
| { |
| "epoch": 2.0212, |
| "grad_norm": 3.1274430751800537, |
| "learning_rate": 2.427862068965517e-06, |
| "loss": 0.1423, |
| "step": 6200 |
| }, |
| { |
| "epoch": 2.021533333333333, |
| "grad_norm": 4.326944828033447, |
| "learning_rate": 2.4264827586206896e-06, |
| "loss": 0.2044, |
| "step": 6205 |
| }, |
| { |
| "epoch": 2.0218666666666665, |
| "grad_norm": 4.822159290313721, |
| "learning_rate": 2.425103448275862e-06, |
| "loss": 0.1711, |
| "step": 6210 |
| }, |
| { |
| "epoch": 2.0222, |
| "grad_norm": 3.8796615600585938, |
| "learning_rate": 2.4237241379310344e-06, |
| "loss": 0.1645, |
| "step": 6215 |
| }, |
| { |
| "epoch": 2.0225333333333335, |
| "grad_norm": 3.7455146312713623, |
| "learning_rate": 2.4223448275862067e-06, |
| "loss": 0.1295, |
| "step": 6220 |
| }, |
| { |
| "epoch": 2.022866666666667, |
| "grad_norm": 5.32850456237793, |
| "learning_rate": 2.4209655172413793e-06, |
| "loss": 0.1758, |
| "step": 6225 |
| }, |
| { |
| "epoch": 2.0232, |
| "grad_norm": 4.442831993103027, |
| "learning_rate": 2.4195862068965516e-06, |
| "loss": 0.1825, |
| "step": 6230 |
| }, |
| { |
| "epoch": 2.0235333333333334, |
| "grad_norm": 3.199673652648926, |
| "learning_rate": 2.418206896551724e-06, |
| "loss": 0.1572, |
| "step": 6235 |
| }, |
| { |
| "epoch": 2.0238666666666667, |
| "grad_norm": 3.3632278442382812, |
| "learning_rate": 2.4168275862068965e-06, |
| "loss": 0.1659, |
| "step": 6240 |
| }, |
| { |
| "epoch": 2.0242, |
| "grad_norm": 4.634693145751953, |
| "learning_rate": 2.4154482758620687e-06, |
| "loss": 0.2139, |
| "step": 6245 |
| }, |
| { |
| "epoch": 2.0245333333333333, |
| "grad_norm": 3.2010443210601807, |
| "learning_rate": 2.4140689655172414e-06, |
| "loss": 0.1856, |
| "step": 6250 |
| }, |
| { |
| "epoch": 2.0248666666666666, |
| "grad_norm": 3.9895453453063965, |
| "learning_rate": 2.412689655172414e-06, |
| "loss": 0.1342, |
| "step": 6255 |
| }, |
| { |
| "epoch": 2.0252, |
| "grad_norm": 3.4072585105895996, |
| "learning_rate": 2.4113103448275863e-06, |
| "loss": 0.1595, |
| "step": 6260 |
| }, |
| { |
| "epoch": 2.025533333333333, |
| "grad_norm": 2.9930360317230225, |
| "learning_rate": 2.4099310344827585e-06, |
| "loss": 0.1384, |
| "step": 6265 |
| }, |
| { |
| "epoch": 2.0258666666666665, |
| "grad_norm": 2.727341651916504, |
| "learning_rate": 2.4085517241379308e-06, |
| "loss": 0.1209, |
| "step": 6270 |
| }, |
| { |
| "epoch": 2.0262000000000002, |
| "grad_norm": 4.323426246643066, |
| "learning_rate": 2.4071724137931034e-06, |
| "loss": 0.1497, |
| "step": 6275 |
| }, |
| { |
| "epoch": 2.0265333333333335, |
| "grad_norm": 3.2896206378936768, |
| "learning_rate": 2.4057931034482756e-06, |
| "loss": 0.131, |
| "step": 6280 |
| }, |
| { |
| "epoch": 2.026866666666667, |
| "grad_norm": 2.9699478149414062, |
| "learning_rate": 2.404413793103448e-06, |
| "loss": 0.1459, |
| "step": 6285 |
| }, |
| { |
| "epoch": 2.0272, |
| "grad_norm": 4.548412322998047, |
| "learning_rate": 2.4030344827586205e-06, |
| "loss": 0.1991, |
| "step": 6290 |
| }, |
| { |
| "epoch": 2.0275333333333334, |
| "grad_norm": 3.393186569213867, |
| "learning_rate": 2.4016551724137928e-06, |
| "loss": 0.1493, |
| "step": 6295 |
| }, |
| { |
| "epoch": 2.0278666666666667, |
| "grad_norm": 3.3088104724884033, |
| "learning_rate": 2.4002758620689654e-06, |
| "loss": 0.1252, |
| "step": 6300 |
| }, |
| { |
| "epoch": 2.0282, |
| "grad_norm": 3.849470376968384, |
| "learning_rate": 2.398896551724138e-06, |
| "loss": 0.1263, |
| "step": 6305 |
| }, |
| { |
| "epoch": 2.0285333333333333, |
| "grad_norm": 3.925218343734741, |
| "learning_rate": 2.3975172413793103e-06, |
| "loss": 0.1329, |
| "step": 6310 |
| }, |
| { |
| "epoch": 2.0288666666666666, |
| "grad_norm": 4.449056625366211, |
| "learning_rate": 2.3961379310344826e-06, |
| "loss": 0.2031, |
| "step": 6315 |
| }, |
| { |
| "epoch": 2.0292, |
| "grad_norm": 3.771261692047119, |
| "learning_rate": 2.3947586206896552e-06, |
| "loss": 0.1642, |
| "step": 6320 |
| }, |
| { |
| "epoch": 2.029533333333333, |
| "grad_norm": 5.380645275115967, |
| "learning_rate": 2.3933793103448275e-06, |
| "loss": 0.1506, |
| "step": 6325 |
| }, |
| { |
| "epoch": 2.0298666666666665, |
| "grad_norm": 4.063842296600342, |
| "learning_rate": 2.3919999999999997e-06, |
| "loss": 0.1281, |
| "step": 6330 |
| }, |
| { |
| "epoch": 2.0302, |
| "grad_norm": 4.147593021392822, |
| "learning_rate": 2.390620689655172e-06, |
| "loss": 0.1447, |
| "step": 6335 |
| }, |
| { |
| "epoch": 2.0305333333333335, |
| "grad_norm": 3.8172614574432373, |
| "learning_rate": 2.3892413793103446e-06, |
| "loss": 0.1312, |
| "step": 6340 |
| }, |
| { |
| "epoch": 2.030866666666667, |
| "grad_norm": 3.4617791175842285, |
| "learning_rate": 2.3878620689655173e-06, |
| "loss": 0.1383, |
| "step": 6345 |
| }, |
| { |
| "epoch": 2.0312, |
| "grad_norm": 4.281315803527832, |
| "learning_rate": 2.3864827586206895e-06, |
| "loss": 0.17, |
| "step": 6350 |
| }, |
| { |
| "epoch": 2.0315333333333334, |
| "grad_norm": 3.4667415618896484, |
| "learning_rate": 2.385103448275862e-06, |
| "loss": 0.1325, |
| "step": 6355 |
| }, |
| { |
| "epoch": 2.0318666666666667, |
| "grad_norm": 3.9889936447143555, |
| "learning_rate": 2.3837241379310344e-06, |
| "loss": 0.1503, |
| "step": 6360 |
| }, |
| { |
| "epoch": 2.0322, |
| "grad_norm": 3.5625672340393066, |
| "learning_rate": 2.3823448275862066e-06, |
| "loss": 0.1718, |
| "step": 6365 |
| }, |
| { |
| "epoch": 2.0325333333333333, |
| "grad_norm": 3.3936870098114014, |
| "learning_rate": 2.3809655172413793e-06, |
| "loss": 0.1454, |
| "step": 6370 |
| }, |
| { |
| "epoch": 2.0328666666666666, |
| "grad_norm": 4.005795001983643, |
| "learning_rate": 2.3795862068965515e-06, |
| "loss": 0.1403, |
| "step": 6375 |
| }, |
| { |
| "epoch": 2.0332, |
| "grad_norm": 3.5315492153167725, |
| "learning_rate": 2.3782068965517238e-06, |
| "loss": 0.1947, |
| "step": 6380 |
| }, |
| { |
| "epoch": 2.033533333333333, |
| "grad_norm": 4.18626070022583, |
| "learning_rate": 2.3768275862068964e-06, |
| "loss": 0.1897, |
| "step": 6385 |
| }, |
| { |
| "epoch": 2.0338666666666665, |
| "grad_norm": 3.3266947269439697, |
| "learning_rate": 2.3754482758620687e-06, |
| "loss": 0.1864, |
| "step": 6390 |
| }, |
| { |
| "epoch": 2.0342, |
| "grad_norm": 3.423628568649292, |
| "learning_rate": 2.3740689655172413e-06, |
| "loss": 0.1758, |
| "step": 6395 |
| }, |
| { |
| "epoch": 2.0345333333333335, |
| "grad_norm": 4.604902744293213, |
| "learning_rate": 2.372689655172414e-06, |
| "loss": 0.1602, |
| "step": 6400 |
| }, |
| { |
| "epoch": 2.034866666666667, |
| "grad_norm": 3.3750133514404297, |
| "learning_rate": 2.3713103448275862e-06, |
| "loss": 0.1275, |
| "step": 6405 |
| }, |
| { |
| "epoch": 2.0352, |
| "grad_norm": 3.67788028717041, |
| "learning_rate": 2.3699310344827585e-06, |
| "loss": 0.1861, |
| "step": 6410 |
| }, |
| { |
| "epoch": 2.0355333333333334, |
| "grad_norm": 3.170454740524292, |
| "learning_rate": 2.3685517241379307e-06, |
| "loss": 0.1391, |
| "step": 6415 |
| }, |
| { |
| "epoch": 2.0358666666666667, |
| "grad_norm": 3.2502217292785645, |
| "learning_rate": 2.3671724137931034e-06, |
| "loss": 0.1752, |
| "step": 6420 |
| }, |
| { |
| "epoch": 2.0362, |
| "grad_norm": 2.555879831314087, |
| "learning_rate": 2.3657931034482756e-06, |
| "loss": 0.1277, |
| "step": 6425 |
| }, |
| { |
| "epoch": 2.0365333333333333, |
| "grad_norm": 4.388481140136719, |
| "learning_rate": 2.364413793103448e-06, |
| "loss": 0.1407, |
| "step": 6430 |
| }, |
| { |
| "epoch": 2.0368666666666666, |
| "grad_norm": 3.942352533340454, |
| "learning_rate": 2.3630344827586205e-06, |
| "loss": 0.1408, |
| "step": 6435 |
| }, |
| { |
| "epoch": 2.0372, |
| "grad_norm": 3.781611680984497, |
| "learning_rate": 2.361655172413793e-06, |
| "loss": 0.1564, |
| "step": 6440 |
| }, |
| { |
| "epoch": 2.037533333333333, |
| "grad_norm": 2.880706548690796, |
| "learning_rate": 2.3602758620689654e-06, |
| "loss": 0.1202, |
| "step": 6445 |
| }, |
| { |
| "epoch": 2.0378666666666665, |
| "grad_norm": 3.471635103225708, |
| "learning_rate": 2.358896551724138e-06, |
| "loss": 0.1428, |
| "step": 6450 |
| }, |
| { |
| "epoch": 2.0382, |
| "grad_norm": 3.567894697189331, |
| "learning_rate": 2.3575172413793103e-06, |
| "loss": 0.158, |
| "step": 6455 |
| }, |
| { |
| "epoch": 2.0385333333333335, |
| "grad_norm": 3.51959490776062, |
| "learning_rate": 2.3561379310344825e-06, |
| "loss": 0.1662, |
| "step": 6460 |
| }, |
| { |
| "epoch": 2.038866666666667, |
| "grad_norm": 4.260256290435791, |
| "learning_rate": 2.354758620689655e-06, |
| "loss": 0.1684, |
| "step": 6465 |
| }, |
| { |
| "epoch": 2.0392, |
| "grad_norm": 4.1639814376831055, |
| "learning_rate": 2.3533793103448274e-06, |
| "loss": 0.1402, |
| "step": 6470 |
| }, |
| { |
| "epoch": 2.0395333333333334, |
| "grad_norm": 4.518980026245117, |
| "learning_rate": 2.3519999999999997e-06, |
| "loss": 0.174, |
| "step": 6475 |
| }, |
| { |
| "epoch": 2.0398666666666667, |
| "grad_norm": 2.8983957767486572, |
| "learning_rate": 2.3506206896551723e-06, |
| "loss": 0.1276, |
| "step": 6480 |
| }, |
| { |
| "epoch": 2.0402, |
| "grad_norm": 2.9927074909210205, |
| "learning_rate": 2.349241379310345e-06, |
| "loss": 0.1126, |
| "step": 6485 |
| }, |
| { |
| "epoch": 2.0405333333333333, |
| "grad_norm": 3.5172576904296875, |
| "learning_rate": 2.3478620689655172e-06, |
| "loss": 0.1656, |
| "step": 6490 |
| }, |
| { |
| "epoch": 2.0408666666666666, |
| "grad_norm": 3.429349422454834, |
| "learning_rate": 2.3464827586206895e-06, |
| "loss": 0.118, |
| "step": 6495 |
| }, |
| { |
| "epoch": 2.0412, |
| "grad_norm": 3.425743579864502, |
| "learning_rate": 2.345103448275862e-06, |
| "loss": 0.1391, |
| "step": 6500 |
| }, |
| { |
| "epoch": 2.041533333333333, |
| "grad_norm": 3.7436938285827637, |
| "learning_rate": 2.3437241379310344e-06, |
| "loss": 0.2033, |
| "step": 6505 |
| }, |
| { |
| "epoch": 2.0418666666666665, |
| "grad_norm": 3.489729642868042, |
| "learning_rate": 2.3423448275862066e-06, |
| "loss": 0.1212, |
| "step": 6510 |
| }, |
| { |
| "epoch": 2.0422, |
| "grad_norm": 3.3328723907470703, |
| "learning_rate": 2.3409655172413793e-06, |
| "loss": 0.1589, |
| "step": 6515 |
| }, |
| { |
| "epoch": 2.0425333333333335, |
| "grad_norm": 3.7650060653686523, |
| "learning_rate": 2.3395862068965515e-06, |
| "loss": 0.1648, |
| "step": 6520 |
| }, |
| { |
| "epoch": 2.042866666666667, |
| "grad_norm": 3.9741337299346924, |
| "learning_rate": 2.3382068965517237e-06, |
| "loss": 0.1524, |
| "step": 6525 |
| }, |
| { |
| "epoch": 2.0432, |
| "grad_norm": 4.822859287261963, |
| "learning_rate": 2.3368275862068964e-06, |
| "loss": 0.1426, |
| "step": 6530 |
| }, |
| { |
| "epoch": 2.0435333333333334, |
| "grad_norm": 3.7760298252105713, |
| "learning_rate": 2.335448275862069e-06, |
| "loss": 0.1211, |
| "step": 6535 |
| }, |
| { |
| "epoch": 2.0438666666666667, |
| "grad_norm": 4.335626602172852, |
| "learning_rate": 2.3340689655172413e-06, |
| "loss": 0.1393, |
| "step": 6540 |
| }, |
| { |
| "epoch": 2.0442, |
| "grad_norm": 4.315268516540527, |
| "learning_rate": 2.332689655172414e-06, |
| "loss": 0.1602, |
| "step": 6545 |
| }, |
| { |
| "epoch": 2.0445333333333333, |
| "grad_norm": 3.516709089279175, |
| "learning_rate": 2.331310344827586e-06, |
| "loss": 0.1635, |
| "step": 6550 |
| }, |
| { |
| "epoch": 2.0448666666666666, |
| "grad_norm": 3.8193275928497314, |
| "learning_rate": 2.3299310344827584e-06, |
| "loss": 0.1211, |
| "step": 6555 |
| }, |
| { |
| "epoch": 2.0452, |
| "grad_norm": 3.7311155796051025, |
| "learning_rate": 2.328551724137931e-06, |
| "loss": 0.1326, |
| "step": 6560 |
| }, |
| { |
| "epoch": 2.045533333333333, |
| "grad_norm": 4.1056294441223145, |
| "learning_rate": 2.3271724137931033e-06, |
| "loss": 0.126, |
| "step": 6565 |
| }, |
| { |
| "epoch": 2.0458666666666665, |
| "grad_norm": 3.9369068145751953, |
| "learning_rate": 2.3257931034482756e-06, |
| "loss": 0.1227, |
| "step": 6570 |
| }, |
| { |
| "epoch": 2.0462, |
| "grad_norm": 4.026267051696777, |
| "learning_rate": 2.324413793103448e-06, |
| "loss": 0.1445, |
| "step": 6575 |
| }, |
| { |
| "epoch": 2.0465333333333335, |
| "grad_norm": 3.5593764781951904, |
| "learning_rate": 2.323034482758621e-06, |
| "loss": 0.1353, |
| "step": 6580 |
| }, |
| { |
| "epoch": 2.046866666666667, |
| "grad_norm": 3.4588921070098877, |
| "learning_rate": 2.321655172413793e-06, |
| "loss": 0.1364, |
| "step": 6585 |
| }, |
| { |
| "epoch": 2.0472, |
| "grad_norm": 3.3075644969940186, |
| "learning_rate": 2.3202758620689654e-06, |
| "loss": 0.1217, |
| "step": 6590 |
| }, |
| { |
| "epoch": 2.0475333333333334, |
| "grad_norm": 4.4023213386535645, |
| "learning_rate": 2.318896551724138e-06, |
| "loss": 0.1313, |
| "step": 6595 |
| }, |
| { |
| "epoch": 2.0478666666666667, |
| "grad_norm": 3.8876852989196777, |
| "learning_rate": 2.3175172413793103e-06, |
| "loss": 0.1354, |
| "step": 6600 |
| }, |
| { |
| "epoch": 2.0482, |
| "grad_norm": 4.24415397644043, |
| "learning_rate": 2.3161379310344825e-06, |
| "loss": 0.1639, |
| "step": 6605 |
| }, |
| { |
| "epoch": 2.0485333333333333, |
| "grad_norm": 4.411092281341553, |
| "learning_rate": 2.314758620689655e-06, |
| "loss": 0.1336, |
| "step": 6610 |
| }, |
| { |
| "epoch": 2.0488666666666666, |
| "grad_norm": 3.6144371032714844, |
| "learning_rate": 2.3133793103448274e-06, |
| "loss": 0.1653, |
| "step": 6615 |
| }, |
| { |
| "epoch": 2.0492, |
| "grad_norm": 5.215307712554932, |
| "learning_rate": 2.3119999999999996e-06, |
| "loss": 0.1527, |
| "step": 6620 |
| }, |
| { |
| "epoch": 2.049533333333333, |
| "grad_norm": 3.1551544666290283, |
| "learning_rate": 2.3106206896551723e-06, |
| "loss": 0.1258, |
| "step": 6625 |
| }, |
| { |
| "epoch": 2.0498666666666665, |
| "grad_norm": 4.284775733947754, |
| "learning_rate": 2.309241379310345e-06, |
| "loss": 0.1898, |
| "step": 6630 |
| }, |
| { |
| "epoch": 2.0502, |
| "grad_norm": 3.991194725036621, |
| "learning_rate": 2.307862068965517e-06, |
| "loss": 0.1668, |
| "step": 6635 |
| }, |
| { |
| "epoch": 2.0505333333333335, |
| "grad_norm": 3.812314033508301, |
| "learning_rate": 2.3064827586206894e-06, |
| "loss": 0.1808, |
| "step": 6640 |
| }, |
| { |
| "epoch": 2.050866666666667, |
| "grad_norm": 4.20827579498291, |
| "learning_rate": 2.305103448275862e-06, |
| "loss": 0.1458, |
| "step": 6645 |
| }, |
| { |
| "epoch": 2.0512, |
| "grad_norm": 4.6467814445495605, |
| "learning_rate": 2.3037241379310343e-06, |
| "loss": 0.18, |
| "step": 6650 |
| }, |
| { |
| "epoch": 2.0515333333333334, |
| "grad_norm": 3.6880829334259033, |
| "learning_rate": 2.3023448275862066e-06, |
| "loss": 0.1744, |
| "step": 6655 |
| }, |
| { |
| "epoch": 2.0518666666666667, |
| "grad_norm": 4.063170433044434, |
| "learning_rate": 2.3009655172413792e-06, |
| "loss": 0.2025, |
| "step": 6660 |
| }, |
| { |
| "epoch": 2.0522, |
| "grad_norm": 3.556711196899414, |
| "learning_rate": 2.2995862068965515e-06, |
| "loss": 0.1397, |
| "step": 6665 |
| }, |
| { |
| "epoch": 2.0525333333333333, |
| "grad_norm": 4.976069450378418, |
| "learning_rate": 2.2982068965517237e-06, |
| "loss": 0.1743, |
| "step": 6670 |
| }, |
| { |
| "epoch": 2.0528666666666666, |
| "grad_norm": 3.9152138233184814, |
| "learning_rate": 2.2968275862068968e-06, |
| "loss": 0.1458, |
| "step": 6675 |
| }, |
| { |
| "epoch": 2.0532, |
| "grad_norm": 3.247225046157837, |
| "learning_rate": 2.295448275862069e-06, |
| "loss": 0.2112, |
| "step": 6680 |
| }, |
| { |
| "epoch": 2.053533333333333, |
| "grad_norm": 5.032403469085693, |
| "learning_rate": 2.2940689655172413e-06, |
| "loss": 0.1716, |
| "step": 6685 |
| }, |
| { |
| "epoch": 2.0538666666666665, |
| "grad_norm": 4.110071182250977, |
| "learning_rate": 2.292689655172414e-06, |
| "loss": 0.2302, |
| "step": 6690 |
| }, |
| { |
| "epoch": 2.0542, |
| "grad_norm": 3.942296028137207, |
| "learning_rate": 2.291310344827586e-06, |
| "loss": 0.1478, |
| "step": 6695 |
| }, |
| { |
| "epoch": 2.0545333333333335, |
| "grad_norm": 3.944687843322754, |
| "learning_rate": 2.2899310344827584e-06, |
| "loss": 0.1675, |
| "step": 6700 |
| }, |
| { |
| "epoch": 2.054866666666667, |
| "grad_norm": 5.045147895812988, |
| "learning_rate": 2.288551724137931e-06, |
| "loss": 0.1839, |
| "step": 6705 |
| }, |
| { |
| "epoch": 2.0552, |
| "grad_norm": 3.712198257446289, |
| "learning_rate": 2.2871724137931033e-06, |
| "loss": 0.1493, |
| "step": 6710 |
| }, |
| { |
| "epoch": 2.0555333333333334, |
| "grad_norm": 4.228917121887207, |
| "learning_rate": 2.2857931034482755e-06, |
| "loss": 0.1789, |
| "step": 6715 |
| }, |
| { |
| "epoch": 2.0558666666666667, |
| "grad_norm": 4.081727027893066, |
| "learning_rate": 2.284413793103448e-06, |
| "loss": 0.1717, |
| "step": 6720 |
| }, |
| { |
| "epoch": 2.0562, |
| "grad_norm": 3.436938524246216, |
| "learning_rate": 2.283034482758621e-06, |
| "loss": 0.143, |
| "step": 6725 |
| }, |
| { |
| "epoch": 2.0565333333333333, |
| "grad_norm": 3.524822473526001, |
| "learning_rate": 2.281655172413793e-06, |
| "loss": 0.1572, |
| "step": 6730 |
| }, |
| { |
| "epoch": 2.0568666666666666, |
| "grad_norm": 5.371495723724365, |
| "learning_rate": 2.2802758620689653e-06, |
| "loss": 0.2243, |
| "step": 6735 |
| }, |
| { |
| "epoch": 2.0572, |
| "grad_norm": 3.7512853145599365, |
| "learning_rate": 2.278896551724138e-06, |
| "loss": 0.1328, |
| "step": 6740 |
| }, |
| { |
| "epoch": 2.057533333333333, |
| "grad_norm": 3.7617597579956055, |
| "learning_rate": 2.2775172413793102e-06, |
| "loss": 0.1715, |
| "step": 6745 |
| }, |
| { |
| "epoch": 2.0578666666666665, |
| "grad_norm": 4.0587077140808105, |
| "learning_rate": 2.2761379310344825e-06, |
| "loss": 0.1181, |
| "step": 6750 |
| }, |
| { |
| "epoch": 2.0582, |
| "grad_norm": 4.450170516967773, |
| "learning_rate": 2.274758620689655e-06, |
| "loss": 0.1645, |
| "step": 6755 |
| }, |
| { |
| "epoch": 2.0585333333333335, |
| "grad_norm": 4.999514102935791, |
| "learning_rate": 2.2733793103448274e-06, |
| "loss": 0.2015, |
| "step": 6760 |
| }, |
| { |
| "epoch": 2.058866666666667, |
| "grad_norm": 3.5825555324554443, |
| "learning_rate": 2.2719999999999996e-06, |
| "loss": 0.1773, |
| "step": 6765 |
| }, |
| { |
| "epoch": 2.0592, |
| "grad_norm": 3.1739566326141357, |
| "learning_rate": 2.2706206896551727e-06, |
| "loss": 0.1891, |
| "step": 6770 |
| }, |
| { |
| "epoch": 2.0595333333333334, |
| "grad_norm": 3.8231146335601807, |
| "learning_rate": 2.269241379310345e-06, |
| "loss": 0.144, |
| "step": 6775 |
| }, |
| { |
| "epoch": 2.0598666666666667, |
| "grad_norm": 3.907348155975342, |
| "learning_rate": 2.267862068965517e-06, |
| "loss": 0.1639, |
| "step": 6780 |
| }, |
| { |
| "epoch": 2.0602, |
| "grad_norm": 5.400709629058838, |
| "learning_rate": 2.26648275862069e-06, |
| "loss": 0.1909, |
| "step": 6785 |
| }, |
| { |
| "epoch": 2.0605333333333333, |
| "grad_norm": 2.642490863800049, |
| "learning_rate": 2.265103448275862e-06, |
| "loss": 0.1902, |
| "step": 6790 |
| }, |
| { |
| "epoch": 2.0608666666666666, |
| "grad_norm": 4.5889811515808105, |
| "learning_rate": 2.2637241379310343e-06, |
| "loss": 0.1868, |
| "step": 6795 |
| }, |
| { |
| "epoch": 2.0612, |
| "grad_norm": 3.4620330333709717, |
| "learning_rate": 2.2623448275862065e-06, |
| "loss": 0.1625, |
| "step": 6800 |
| }, |
| { |
| "epoch": 2.061533333333333, |
| "grad_norm": 3.7081997394561768, |
| "learning_rate": 2.260965517241379e-06, |
| "loss": 0.1579, |
| "step": 6805 |
| }, |
| { |
| "epoch": 2.0618666666666665, |
| "grad_norm": 3.6131811141967773, |
| "learning_rate": 2.2595862068965514e-06, |
| "loss": 0.1138, |
| "step": 6810 |
| }, |
| { |
| "epoch": 2.0622, |
| "grad_norm": 4.773049831390381, |
| "learning_rate": 2.258206896551724e-06, |
| "loss": 0.1752, |
| "step": 6815 |
| }, |
| { |
| "epoch": 2.0625333333333336, |
| "grad_norm": 3.7803397178649902, |
| "learning_rate": 2.2568275862068967e-06, |
| "loss": 0.152, |
| "step": 6820 |
| }, |
| { |
| "epoch": 2.062866666666667, |
| "grad_norm": 3.8516604900360107, |
| "learning_rate": 2.255448275862069e-06, |
| "loss": 0.145, |
| "step": 6825 |
| }, |
| { |
| "epoch": 2.0632, |
| "grad_norm": 3.1208994388580322, |
| "learning_rate": 2.2540689655172412e-06, |
| "loss": 0.1193, |
| "step": 6830 |
| }, |
| { |
| "epoch": 2.0635333333333334, |
| "grad_norm": 4.044172286987305, |
| "learning_rate": 2.252689655172414e-06, |
| "loss": 0.1979, |
| "step": 6835 |
| }, |
| { |
| "epoch": 2.0638666666666667, |
| "grad_norm": 3.7968876361846924, |
| "learning_rate": 2.251310344827586e-06, |
| "loss": 0.145, |
| "step": 6840 |
| }, |
| { |
| "epoch": 2.0642, |
| "grad_norm": 3.4734935760498047, |
| "learning_rate": 2.2499310344827584e-06, |
| "loss": 0.18, |
| "step": 6845 |
| }, |
| { |
| "epoch": 2.0645333333333333, |
| "grad_norm": 3.1294267177581787, |
| "learning_rate": 2.248551724137931e-06, |
| "loss": 0.1462, |
| "step": 6850 |
| }, |
| { |
| "epoch": 2.0648666666666666, |
| "grad_norm": 4.181737422943115, |
| "learning_rate": 2.2471724137931032e-06, |
| "loss": 0.1487, |
| "step": 6855 |
| }, |
| { |
| "epoch": 2.0652, |
| "grad_norm": 4.402034282684326, |
| "learning_rate": 2.2457931034482755e-06, |
| "loss": 0.1711, |
| "step": 6860 |
| }, |
| { |
| "epoch": 2.065533333333333, |
| "grad_norm": 4.110632419586182, |
| "learning_rate": 2.2444137931034486e-06, |
| "loss": 0.1662, |
| "step": 6865 |
| }, |
| { |
| "epoch": 2.0658666666666665, |
| "grad_norm": 3.2670960426330566, |
| "learning_rate": 2.243034482758621e-06, |
| "loss": 0.1623, |
| "step": 6870 |
| }, |
| { |
| "epoch": 2.0662, |
| "grad_norm": 4.23391056060791, |
| "learning_rate": 2.241655172413793e-06, |
| "loss": 0.139, |
| "step": 6875 |
| }, |
| { |
| "epoch": 2.066533333333333, |
| "grad_norm": 4.4274373054504395, |
| "learning_rate": 2.2402758620689653e-06, |
| "loss": 0.1211, |
| "step": 6880 |
| }, |
| { |
| "epoch": 2.066866666666667, |
| "grad_norm": 3.7422409057617188, |
| "learning_rate": 2.238896551724138e-06, |
| "loss": 0.1392, |
| "step": 6885 |
| }, |
| { |
| "epoch": 2.0672, |
| "grad_norm": 3.9725828170776367, |
| "learning_rate": 2.23751724137931e-06, |
| "loss": 0.1487, |
| "step": 6890 |
| }, |
| { |
| "epoch": 2.0675333333333334, |
| "grad_norm": 3.564913511276245, |
| "learning_rate": 2.2361379310344824e-06, |
| "loss": 0.1431, |
| "step": 6895 |
| }, |
| { |
| "epoch": 2.0678666666666667, |
| "grad_norm": 4.6742353439331055, |
| "learning_rate": 2.234758620689655e-06, |
| "loss": 0.1506, |
| "step": 6900 |
| }, |
| { |
| "epoch": 2.0682, |
| "grad_norm": 3.743089437484741, |
| "learning_rate": 2.2333793103448273e-06, |
| "loss": 0.1506, |
| "step": 6905 |
| }, |
| { |
| "epoch": 2.0685333333333333, |
| "grad_norm": 3.730095863342285, |
| "learning_rate": 2.232e-06, |
| "loss": 0.1487, |
| "step": 6910 |
| }, |
| { |
| "epoch": 2.0688666666666666, |
| "grad_norm": 4.04982852935791, |
| "learning_rate": 2.2306206896551726e-06, |
| "loss": 0.1353, |
| "step": 6915 |
| }, |
| { |
| "epoch": 2.0692, |
| "grad_norm": 5.054067611694336, |
| "learning_rate": 2.229241379310345e-06, |
| "loss": 0.151, |
| "step": 6920 |
| }, |
| { |
| "epoch": 2.0695333333333332, |
| "grad_norm": 4.367348670959473, |
| "learning_rate": 2.227862068965517e-06, |
| "loss": 0.1701, |
| "step": 6925 |
| }, |
| { |
| "epoch": 2.0698666666666665, |
| "grad_norm": 4.669203758239746, |
| "learning_rate": 2.2264827586206898e-06, |
| "loss": 0.1251, |
| "step": 6930 |
| }, |
| { |
| "epoch": 2.0702, |
| "grad_norm": 4.2126617431640625, |
| "learning_rate": 2.225103448275862e-06, |
| "loss": 0.1769, |
| "step": 6935 |
| }, |
| { |
| "epoch": 2.0705333333333336, |
| "grad_norm": 3.720592498779297, |
| "learning_rate": 2.2237241379310342e-06, |
| "loss": 0.1748, |
| "step": 6940 |
| }, |
| { |
| "epoch": 2.070866666666667, |
| "grad_norm": 3.8916945457458496, |
| "learning_rate": 2.2223448275862065e-06, |
| "loss": 0.1786, |
| "step": 6945 |
| }, |
| { |
| "epoch": 2.0712, |
| "grad_norm": 3.7122035026550293, |
| "learning_rate": 2.220965517241379e-06, |
| "loss": 0.1542, |
| "step": 6950 |
| }, |
| { |
| "epoch": 2.0715333333333334, |
| "grad_norm": 4.1157026290893555, |
| "learning_rate": 2.2195862068965514e-06, |
| "loss": 0.1748, |
| "step": 6955 |
| }, |
| { |
| "epoch": 2.0718666666666667, |
| "grad_norm": 4.15557861328125, |
| "learning_rate": 2.218206896551724e-06, |
| "loss": 0.136, |
| "step": 6960 |
| }, |
| { |
| "epoch": 2.0722, |
| "grad_norm": 3.75467586517334, |
| "learning_rate": 2.2168275862068967e-06, |
| "loss": 0.1305, |
| "step": 6965 |
| }, |
| { |
| "epoch": 2.0725333333333333, |
| "grad_norm": 3.990755081176758, |
| "learning_rate": 2.215448275862069e-06, |
| "loss": 0.1651, |
| "step": 6970 |
| }, |
| { |
| "epoch": 2.0728666666666666, |
| "grad_norm": 3.0888497829437256, |
| "learning_rate": 2.214068965517241e-06, |
| "loss": 0.1834, |
| "step": 6975 |
| }, |
| { |
| "epoch": 2.0732, |
| "grad_norm": 3.9069995880126953, |
| "learning_rate": 2.212689655172414e-06, |
| "loss": 0.1465, |
| "step": 6980 |
| }, |
| { |
| "epoch": 2.0735333333333332, |
| "grad_norm": 3.751314163208008, |
| "learning_rate": 2.211310344827586e-06, |
| "loss": 0.1475, |
| "step": 6985 |
| }, |
| { |
| "epoch": 2.0738666666666665, |
| "grad_norm": 3.257397413253784, |
| "learning_rate": 2.2099310344827583e-06, |
| "loss": 0.1467, |
| "step": 6990 |
| }, |
| { |
| "epoch": 2.0742, |
| "grad_norm": 4.131998538970947, |
| "learning_rate": 2.208551724137931e-06, |
| "loss": 0.1363, |
| "step": 6995 |
| }, |
| { |
| "epoch": 2.074533333333333, |
| "grad_norm": 3.626477003097534, |
| "learning_rate": 2.207172413793103e-06, |
| "loss": 0.1536, |
| "step": 7000 |
| }, |
| { |
| "epoch": 2.074533333333333, |
| "eval_loss": 0.21925389766693115, |
| "eval_runtime": 138.3271, |
| "eval_samples_per_second": 4.338, |
| "eval_steps_per_second": 1.084, |
| "eval_wer": 11.475619096247128, |
| "step": 7000 |
| }, |
| { |
| "epoch": 2.074866666666667, |
| "grad_norm": 3.922133445739746, |
| "learning_rate": 2.205793103448276e-06, |
| "loss": 0.1821, |
| "step": 7005 |
| }, |
| { |
| "epoch": 2.0752, |
| "grad_norm": 3.888953924179077, |
| "learning_rate": 2.2044137931034485e-06, |
| "loss": 0.1394, |
| "step": 7010 |
| }, |
| { |
| "epoch": 2.0755333333333335, |
| "grad_norm": 3.2622451782226562, |
| "learning_rate": 2.2030344827586208e-06, |
| "loss": 0.129, |
| "step": 7015 |
| }, |
| { |
| "epoch": 2.0758666666666667, |
| "grad_norm": 4.794111728668213, |
| "learning_rate": 2.201655172413793e-06, |
| "loss": 0.1508, |
| "step": 7020 |
| }, |
| { |
| "epoch": 2.0762, |
| "grad_norm": 3.4692211151123047, |
| "learning_rate": 2.2002758620689652e-06, |
| "loss": 0.1779, |
| "step": 7025 |
| }, |
| { |
| "epoch": 2.0765333333333333, |
| "grad_norm": 3.5335543155670166, |
| "learning_rate": 2.198896551724138e-06, |
| "loss": 0.1341, |
| "step": 7030 |
| }, |
| { |
| "epoch": 2.0768666666666666, |
| "grad_norm": 4.610071659088135, |
| "learning_rate": 2.19751724137931e-06, |
| "loss": 0.1583, |
| "step": 7035 |
| }, |
| { |
| "epoch": 2.0772, |
| "grad_norm": 3.739980936050415, |
| "learning_rate": 2.1961379310344824e-06, |
| "loss": 0.1513, |
| "step": 7040 |
| }, |
| { |
| "epoch": 2.0775333333333332, |
| "grad_norm": 3.6064891815185547, |
| "learning_rate": 2.194758620689655e-06, |
| "loss": 0.1962, |
| "step": 7045 |
| }, |
| { |
| "epoch": 2.0778666666666665, |
| "grad_norm": 3.831463575363159, |
| "learning_rate": 2.1933793103448277e-06, |
| "loss": 0.1448, |
| "step": 7050 |
| }, |
| { |
| "epoch": 2.0782, |
| "grad_norm": 3.5602200031280518, |
| "learning_rate": 2.192e-06, |
| "loss": 0.1657, |
| "step": 7055 |
| }, |
| { |
| "epoch": 2.078533333333333, |
| "grad_norm": 4.79341983795166, |
| "learning_rate": 2.1906206896551726e-06, |
| "loss": 0.1956, |
| "step": 7060 |
| }, |
| { |
| "epoch": 2.078866666666667, |
| "grad_norm": 3.699897527694702, |
| "learning_rate": 2.189241379310345e-06, |
| "loss": 0.1833, |
| "step": 7065 |
| }, |
| { |
| "epoch": 2.0792, |
| "grad_norm": 4.393587112426758, |
| "learning_rate": 2.187862068965517e-06, |
| "loss": 0.1667, |
| "step": 7070 |
| }, |
| { |
| "epoch": 2.0795333333333335, |
| "grad_norm": 3.7398903369903564, |
| "learning_rate": 2.1864827586206897e-06, |
| "loss": 0.1704, |
| "step": 7075 |
| }, |
| { |
| "epoch": 2.0798666666666668, |
| "grad_norm": 4.504492282867432, |
| "learning_rate": 2.185103448275862e-06, |
| "loss": 0.1927, |
| "step": 7080 |
| }, |
| { |
| "epoch": 2.0802, |
| "grad_norm": 4.033944129943848, |
| "learning_rate": 2.183724137931034e-06, |
| "loss": 0.1403, |
| "step": 7085 |
| }, |
| { |
| "epoch": 2.0805333333333333, |
| "grad_norm": 3.927112579345703, |
| "learning_rate": 2.1823448275862064e-06, |
| "loss": 0.1837, |
| "step": 7090 |
| }, |
| { |
| "epoch": 2.0808666666666666, |
| "grad_norm": 4.071290493011475, |
| "learning_rate": 2.180965517241379e-06, |
| "loss": 0.1303, |
| "step": 7095 |
| }, |
| { |
| "epoch": 2.0812, |
| "grad_norm": 5.423714637756348, |
| "learning_rate": 2.1795862068965518e-06, |
| "loss": 0.1579, |
| "step": 7100 |
| }, |
| { |
| "epoch": 2.0815333333333332, |
| "grad_norm": 5.649503231048584, |
| "learning_rate": 2.178206896551724e-06, |
| "loss": 0.203, |
| "step": 7105 |
| }, |
| { |
| "epoch": 2.0818666666666665, |
| "grad_norm": 4.837689399719238, |
| "learning_rate": 2.1768275862068967e-06, |
| "loss": 0.1397, |
| "step": 7110 |
| }, |
| { |
| "epoch": 2.0822, |
| "grad_norm": 3.4435794353485107, |
| "learning_rate": 2.175448275862069e-06, |
| "loss": 0.1291, |
| "step": 7115 |
| }, |
| { |
| "epoch": 2.082533333333333, |
| "grad_norm": 3.9933724403381348, |
| "learning_rate": 2.174068965517241e-06, |
| "loss": 0.1375, |
| "step": 7120 |
| }, |
| { |
| "epoch": 2.082866666666667, |
| "grad_norm": 3.218576192855835, |
| "learning_rate": 2.172689655172414e-06, |
| "loss": 0.1177, |
| "step": 7125 |
| }, |
| { |
| "epoch": 2.0832, |
| "grad_norm": 3.144493579864502, |
| "learning_rate": 2.171310344827586e-06, |
| "loss": 0.1393, |
| "step": 7130 |
| }, |
| { |
| "epoch": 2.0835333333333335, |
| "grad_norm": 4.224937915802002, |
| "learning_rate": 2.1699310344827583e-06, |
| "loss": 0.1709, |
| "step": 7135 |
| }, |
| { |
| "epoch": 2.0838666666666668, |
| "grad_norm": 4.219892978668213, |
| "learning_rate": 2.168551724137931e-06, |
| "loss": 0.1502, |
| "step": 7140 |
| }, |
| { |
| "epoch": 2.0842, |
| "grad_norm": 3.722003698348999, |
| "learning_rate": 2.1671724137931036e-06, |
| "loss": 0.1541, |
| "step": 7145 |
| }, |
| { |
| "epoch": 2.0845333333333333, |
| "grad_norm": 3.8973941802978516, |
| "learning_rate": 2.165793103448276e-06, |
| "loss": 0.1379, |
| "step": 7150 |
| }, |
| { |
| "epoch": 2.0848666666666666, |
| "grad_norm": 3.3449296951293945, |
| "learning_rate": 2.1644137931034485e-06, |
| "loss": 0.1515, |
| "step": 7155 |
| }, |
| { |
| "epoch": 2.0852, |
| "grad_norm": 3.9079978466033936, |
| "learning_rate": 2.1630344827586207e-06, |
| "loss": 0.1518, |
| "step": 7160 |
| }, |
| { |
| "epoch": 2.0855333333333332, |
| "grad_norm": 3.549809455871582, |
| "learning_rate": 2.161655172413793e-06, |
| "loss": 0.1691, |
| "step": 7165 |
| }, |
| { |
| "epoch": 2.0858666666666665, |
| "grad_norm": 3.45920729637146, |
| "learning_rate": 2.160275862068965e-06, |
| "loss": 0.116, |
| "step": 7170 |
| }, |
| { |
| "epoch": 2.0862, |
| "grad_norm": 4.075089454650879, |
| "learning_rate": 2.158896551724138e-06, |
| "loss": 0.1566, |
| "step": 7175 |
| }, |
| { |
| "epoch": 2.086533333333333, |
| "grad_norm": 5.295050621032715, |
| "learning_rate": 2.15751724137931e-06, |
| "loss": 0.2106, |
| "step": 7180 |
| }, |
| { |
| "epoch": 2.086866666666667, |
| "grad_norm": 3.751497507095337, |
| "learning_rate": 2.1561379310344823e-06, |
| "loss": 0.1253, |
| "step": 7185 |
| }, |
| { |
| "epoch": 2.0872, |
| "grad_norm": 3.404095411300659, |
| "learning_rate": 2.154758620689655e-06, |
| "loss": 0.1275, |
| "step": 7190 |
| }, |
| { |
| "epoch": 2.0875333333333335, |
| "grad_norm": 3.2637887001037598, |
| "learning_rate": 2.1533793103448277e-06, |
| "loss": 0.1178, |
| "step": 7195 |
| }, |
| { |
| "epoch": 2.0878666666666668, |
| "grad_norm": 3.813154935836792, |
| "learning_rate": 2.152e-06, |
| "loss": 0.1444, |
| "step": 7200 |
| }, |
| { |
| "epoch": 2.0882, |
| "grad_norm": 3.623206853866577, |
| "learning_rate": 2.1506206896551726e-06, |
| "loss": 0.1768, |
| "step": 7205 |
| }, |
| { |
| "epoch": 2.0885333333333334, |
| "grad_norm": 3.298654556274414, |
| "learning_rate": 2.149241379310345e-06, |
| "loss": 0.1391, |
| "step": 7210 |
| }, |
| { |
| "epoch": 2.0888666666666666, |
| "grad_norm": 3.854390859603882, |
| "learning_rate": 2.147862068965517e-06, |
| "loss": 0.1414, |
| "step": 7215 |
| }, |
| { |
| "epoch": 2.0892, |
| "grad_norm": 3.9394309520721436, |
| "learning_rate": 2.1464827586206897e-06, |
| "loss": 0.1432, |
| "step": 7220 |
| }, |
| { |
| "epoch": 2.0895333333333332, |
| "grad_norm": 3.7726545333862305, |
| "learning_rate": 2.145103448275862e-06, |
| "loss": 0.1467, |
| "step": 7225 |
| }, |
| { |
| "epoch": 2.0898666666666665, |
| "grad_norm": 3.3038113117218018, |
| "learning_rate": 2.143724137931034e-06, |
| "loss": 0.1266, |
| "step": 7230 |
| }, |
| { |
| "epoch": 2.0902, |
| "grad_norm": 4.220552921295166, |
| "learning_rate": 2.1423448275862064e-06, |
| "loss": 0.1736, |
| "step": 7235 |
| }, |
| { |
| "epoch": 2.090533333333333, |
| "grad_norm": 3.4808144569396973, |
| "learning_rate": 2.1409655172413795e-06, |
| "loss": 0.1472, |
| "step": 7240 |
| }, |
| { |
| "epoch": 2.090866666666667, |
| "grad_norm": 3.325847864151001, |
| "learning_rate": 2.1395862068965517e-06, |
| "loss": 0.1366, |
| "step": 7245 |
| }, |
| { |
| "epoch": 2.0912, |
| "grad_norm": 3.5776450634002686, |
| "learning_rate": 2.138206896551724e-06, |
| "loss": 0.147, |
| "step": 7250 |
| }, |
| { |
| "epoch": 2.0915333333333335, |
| "grad_norm": 3.711270809173584, |
| "learning_rate": 2.1368275862068966e-06, |
| "loss": 0.1495, |
| "step": 7255 |
| }, |
| { |
| "epoch": 2.0918666666666668, |
| "grad_norm": 3.0170485973358154, |
| "learning_rate": 2.135448275862069e-06, |
| "loss": 0.1279, |
| "step": 7260 |
| }, |
| { |
| "epoch": 2.0922, |
| "grad_norm": 3.493748426437378, |
| "learning_rate": 2.134068965517241e-06, |
| "loss": 0.1421, |
| "step": 7265 |
| }, |
| { |
| "epoch": 2.0925333333333334, |
| "grad_norm": 3.3370070457458496, |
| "learning_rate": 2.1326896551724138e-06, |
| "loss": 0.1504, |
| "step": 7270 |
| }, |
| { |
| "epoch": 2.0928666666666667, |
| "grad_norm": 3.520612955093384, |
| "learning_rate": 2.131310344827586e-06, |
| "loss": 0.1396, |
| "step": 7275 |
| }, |
| { |
| "epoch": 2.0932, |
| "grad_norm": 4.096695423126221, |
| "learning_rate": 2.1299310344827582e-06, |
| "loss": 0.1225, |
| "step": 7280 |
| }, |
| { |
| "epoch": 2.0935333333333332, |
| "grad_norm": 3.9768941402435303, |
| "learning_rate": 2.1285517241379313e-06, |
| "loss": 0.161, |
| "step": 7285 |
| }, |
| { |
| "epoch": 2.0938666666666665, |
| "grad_norm": 4.0855584144592285, |
| "learning_rate": 2.1271724137931036e-06, |
| "loss": 0.2005, |
| "step": 7290 |
| }, |
| { |
| "epoch": 2.0942, |
| "grad_norm": 3.242534875869751, |
| "learning_rate": 2.1257931034482758e-06, |
| "loss": 0.1151, |
| "step": 7295 |
| }, |
| { |
| "epoch": 2.094533333333333, |
| "grad_norm": 3.7387003898620605, |
| "learning_rate": 2.1244137931034484e-06, |
| "loss": 0.1424, |
| "step": 7300 |
| }, |
| { |
| "epoch": 2.094866666666667, |
| "grad_norm": 3.9830329418182373, |
| "learning_rate": 2.1230344827586207e-06, |
| "loss": 0.1209, |
| "step": 7305 |
| }, |
| { |
| "epoch": 2.0952, |
| "grad_norm": 3.434047222137451, |
| "learning_rate": 2.121655172413793e-06, |
| "loss": 0.1587, |
| "step": 7310 |
| }, |
| { |
| "epoch": 2.0955333333333335, |
| "grad_norm": 4.966354846954346, |
| "learning_rate": 2.120275862068965e-06, |
| "loss": 0.185, |
| "step": 7315 |
| }, |
| { |
| "epoch": 2.0958666666666668, |
| "grad_norm": 3.3523054122924805, |
| "learning_rate": 2.118896551724138e-06, |
| "loss": 0.2296, |
| "step": 7320 |
| }, |
| { |
| "epoch": 2.0962, |
| "grad_norm": 3.7074153423309326, |
| "learning_rate": 2.11751724137931e-06, |
| "loss": 0.1469, |
| "step": 7325 |
| }, |
| { |
| "epoch": 2.0965333333333334, |
| "grad_norm": 4.574906826019287, |
| "learning_rate": 2.1161379310344823e-06, |
| "loss": 0.1765, |
| "step": 7330 |
| }, |
| { |
| "epoch": 2.0968666666666667, |
| "grad_norm": 3.384641408920288, |
| "learning_rate": 2.1147586206896554e-06, |
| "loss": 0.1393, |
| "step": 7335 |
| }, |
| { |
| "epoch": 2.0972, |
| "grad_norm": 3.8656980991363525, |
| "learning_rate": 2.1133793103448276e-06, |
| "loss": 0.1227, |
| "step": 7340 |
| }, |
| { |
| "epoch": 2.0975333333333332, |
| "grad_norm": 4.578719139099121, |
| "learning_rate": 2.112e-06, |
| "loss": 0.1518, |
| "step": 7345 |
| }, |
| { |
| "epoch": 2.0978666666666665, |
| "grad_norm": 3.5584146976470947, |
| "learning_rate": 2.1106206896551725e-06, |
| "loss": 0.1153, |
| "step": 7350 |
| }, |
| { |
| "epoch": 2.0982, |
| "grad_norm": 4.185518264770508, |
| "learning_rate": 2.1092413793103448e-06, |
| "loss": 0.1511, |
| "step": 7355 |
| }, |
| { |
| "epoch": 2.098533333333333, |
| "grad_norm": 3.7117464542388916, |
| "learning_rate": 2.107862068965517e-06, |
| "loss": 0.1699, |
| "step": 7360 |
| }, |
| { |
| "epoch": 2.098866666666667, |
| "grad_norm": 3.3748395442962646, |
| "learning_rate": 2.1064827586206896e-06, |
| "loss": 0.1406, |
| "step": 7365 |
| }, |
| { |
| "epoch": 2.0992, |
| "grad_norm": 5.840545177459717, |
| "learning_rate": 2.105103448275862e-06, |
| "loss": 0.1364, |
| "step": 7370 |
| }, |
| { |
| "epoch": 2.0995333333333335, |
| "grad_norm": 3.8785436153411865, |
| "learning_rate": 2.103724137931034e-06, |
| "loss": 0.1516, |
| "step": 7375 |
| }, |
| { |
| "epoch": 2.0998666666666668, |
| "grad_norm": 3.683256149291992, |
| "learning_rate": 2.102344827586207e-06, |
| "loss": 0.1498, |
| "step": 7380 |
| }, |
| { |
| "epoch": 2.1002, |
| "grad_norm": 3.869828939437866, |
| "learning_rate": 2.1009655172413794e-06, |
| "loss": 0.1188, |
| "step": 7385 |
| }, |
| { |
| "epoch": 2.1005333333333334, |
| "grad_norm": 3.9915361404418945, |
| "learning_rate": 2.0995862068965517e-06, |
| "loss": 0.1788, |
| "step": 7390 |
| }, |
| { |
| "epoch": 2.1008666666666667, |
| "grad_norm": 3.87319278717041, |
| "learning_rate": 2.098206896551724e-06, |
| "loss": 0.1665, |
| "step": 7395 |
| }, |
| { |
| "epoch": 2.1012, |
| "grad_norm": 4.562397480010986, |
| "learning_rate": 2.0968275862068966e-06, |
| "loss": 0.1443, |
| "step": 7400 |
| }, |
| { |
| "epoch": 2.1015333333333333, |
| "grad_norm": 3.8572700023651123, |
| "learning_rate": 2.095448275862069e-06, |
| "loss": 0.171, |
| "step": 7405 |
| }, |
| { |
| "epoch": 2.1018666666666665, |
| "grad_norm": 4.074642181396484, |
| "learning_rate": 2.094068965517241e-06, |
| "loss": 0.1278, |
| "step": 7410 |
| }, |
| { |
| "epoch": 2.1022, |
| "grad_norm": 4.116250038146973, |
| "learning_rate": 2.0926896551724137e-06, |
| "loss": 0.1506, |
| "step": 7415 |
| }, |
| { |
| "epoch": 2.102533333333333, |
| "grad_norm": 4.123210906982422, |
| "learning_rate": 2.091310344827586e-06, |
| "loss": 0.1752, |
| "step": 7420 |
| }, |
| { |
| "epoch": 2.1028666666666664, |
| "grad_norm": 3.7808568477630615, |
| "learning_rate": 2.089931034482758e-06, |
| "loss": 0.136, |
| "step": 7425 |
| }, |
| { |
| "epoch": 2.1032, |
| "grad_norm": 4.416501522064209, |
| "learning_rate": 2.0885517241379313e-06, |
| "loss": 0.1848, |
| "step": 7430 |
| }, |
| { |
| "epoch": 2.1035333333333335, |
| "grad_norm": 3.8800084590911865, |
| "learning_rate": 2.0871724137931035e-06, |
| "loss": 0.1685, |
| "step": 7435 |
| }, |
| { |
| "epoch": 2.1038666666666668, |
| "grad_norm": 4.5299973487854, |
| "learning_rate": 2.0857931034482757e-06, |
| "loss": 0.1241, |
| "step": 7440 |
| }, |
| { |
| "epoch": 2.1042, |
| "grad_norm": 4.004883289337158, |
| "learning_rate": 2.0844137931034484e-06, |
| "loss": 0.1446, |
| "step": 7445 |
| }, |
| { |
| "epoch": 2.1045333333333334, |
| "grad_norm": 2.8622915744781494, |
| "learning_rate": 2.0830344827586206e-06, |
| "loss": 0.1536, |
| "step": 7450 |
| }, |
| { |
| "epoch": 2.1048666666666667, |
| "grad_norm": 4.724384307861328, |
| "learning_rate": 2.081655172413793e-06, |
| "loss": 0.1192, |
| "step": 7455 |
| }, |
| { |
| "epoch": 2.1052, |
| "grad_norm": 3.037681818008423, |
| "learning_rate": 2.080275862068965e-06, |
| "loss": 0.1404, |
| "step": 7460 |
| }, |
| { |
| "epoch": 2.1055333333333333, |
| "grad_norm": 3.978952407836914, |
| "learning_rate": 2.0788965517241378e-06, |
| "loss": 0.1326, |
| "step": 7465 |
| }, |
| { |
| "epoch": 2.1058666666666666, |
| "grad_norm": 3.0445716381073, |
| "learning_rate": 2.07751724137931e-06, |
| "loss": 0.1615, |
| "step": 7470 |
| }, |
| { |
| "epoch": 2.1062, |
| "grad_norm": 3.994690418243408, |
| "learning_rate": 2.0761379310344827e-06, |
| "loss": 0.1751, |
| "step": 7475 |
| }, |
| { |
| "epoch": 2.106533333333333, |
| "grad_norm": 4.449130535125732, |
| "learning_rate": 2.0747586206896553e-06, |
| "loss": 0.1749, |
| "step": 7480 |
| }, |
| { |
| "epoch": 2.106866666666667, |
| "grad_norm": 4.643054485321045, |
| "learning_rate": 2.0733793103448276e-06, |
| "loss": 0.2167, |
| "step": 7485 |
| }, |
| { |
| "epoch": 2.1072, |
| "grad_norm": 4.296535491943359, |
| "learning_rate": 2.072e-06, |
| "loss": 0.1435, |
| "step": 7490 |
| }, |
| { |
| "epoch": 2.1075333333333335, |
| "grad_norm": 4.520917892456055, |
| "learning_rate": 2.0706206896551725e-06, |
| "loss": 0.1921, |
| "step": 7495 |
| }, |
| { |
| "epoch": 2.1078666666666668, |
| "grad_norm": 3.8882267475128174, |
| "learning_rate": 2.0692413793103447e-06, |
| "loss": 0.1647, |
| "step": 7500 |
| }, |
| { |
| "epoch": 2.1082, |
| "grad_norm": 4.189269542694092, |
| "learning_rate": 2.067862068965517e-06, |
| "loss": 0.2007, |
| "step": 7505 |
| }, |
| { |
| "epoch": 2.1085333333333334, |
| "grad_norm": 4.519824981689453, |
| "learning_rate": 2.0664827586206896e-06, |
| "loss": 0.1791, |
| "step": 7510 |
| }, |
| { |
| "epoch": 2.1088666666666667, |
| "grad_norm": 3.1068503856658936, |
| "learning_rate": 2.065103448275862e-06, |
| "loss": 0.1505, |
| "step": 7515 |
| }, |
| { |
| "epoch": 2.1092, |
| "grad_norm": 4.406242847442627, |
| "learning_rate": 2.063724137931034e-06, |
| "loss": 0.1781, |
| "step": 7520 |
| }, |
| { |
| "epoch": 2.1095333333333333, |
| "grad_norm": 3.427713632583618, |
| "learning_rate": 2.062344827586207e-06, |
| "loss": 0.1703, |
| "step": 7525 |
| }, |
| { |
| "epoch": 2.1098666666666666, |
| "grad_norm": 5.198995590209961, |
| "learning_rate": 2.0609655172413794e-06, |
| "loss": 0.206, |
| "step": 7530 |
| }, |
| { |
| "epoch": 2.1102, |
| "grad_norm": 3.9831323623657227, |
| "learning_rate": 2.0595862068965516e-06, |
| "loss": 0.1588, |
| "step": 7535 |
| }, |
| { |
| "epoch": 2.110533333333333, |
| "grad_norm": 4.110867023468018, |
| "learning_rate": 2.058206896551724e-06, |
| "loss": 0.1732, |
| "step": 7540 |
| }, |
| { |
| "epoch": 2.1108666666666664, |
| "grad_norm": 4.439542770385742, |
| "learning_rate": 2.0568275862068965e-06, |
| "loss": 0.1533, |
| "step": 7545 |
| }, |
| { |
| "epoch": 2.1112, |
| "grad_norm": 2.786781072616577, |
| "learning_rate": 2.0554482758620688e-06, |
| "loss": 0.1075, |
| "step": 7550 |
| }, |
| { |
| "epoch": 2.1115333333333335, |
| "grad_norm": 4.361269950866699, |
| "learning_rate": 2.054068965517241e-06, |
| "loss": 0.132, |
| "step": 7555 |
| }, |
| { |
| "epoch": 2.111866666666667, |
| "grad_norm": 2.961472272872925, |
| "learning_rate": 2.0526896551724137e-06, |
| "loss": 0.1834, |
| "step": 7560 |
| }, |
| { |
| "epoch": 2.1122, |
| "grad_norm": 4.263070583343506, |
| "learning_rate": 2.051310344827586e-06, |
| "loss": 0.1481, |
| "step": 7565 |
| }, |
| { |
| "epoch": 2.1125333333333334, |
| "grad_norm": 3.9604413509368896, |
| "learning_rate": 2.0499310344827586e-06, |
| "loss": 0.1724, |
| "step": 7570 |
| }, |
| { |
| "epoch": 2.1128666666666667, |
| "grad_norm": 4.883656024932861, |
| "learning_rate": 2.0485517241379312e-06, |
| "loss": 0.181, |
| "step": 7575 |
| }, |
| { |
| "epoch": 2.1132, |
| "grad_norm": 4.123628616333008, |
| "learning_rate": 2.0471724137931035e-06, |
| "loss": 0.159, |
| "step": 7580 |
| }, |
| { |
| "epoch": 2.1135333333333333, |
| "grad_norm": 3.2786355018615723, |
| "learning_rate": 2.0457931034482757e-06, |
| "loss": 0.1717, |
| "step": 7585 |
| }, |
| { |
| "epoch": 2.1138666666666666, |
| "grad_norm": 4.5266804695129395, |
| "learning_rate": 2.0444137931034484e-06, |
| "loss": 0.1818, |
| "step": 7590 |
| }, |
| { |
| "epoch": 2.1142, |
| "grad_norm": 3.8377764225006104, |
| "learning_rate": 2.0430344827586206e-06, |
| "loss": 0.1226, |
| "step": 7595 |
| }, |
| { |
| "epoch": 2.114533333333333, |
| "grad_norm": 3.637533664703369, |
| "learning_rate": 2.041655172413793e-06, |
| "loss": 0.1571, |
| "step": 7600 |
| }, |
| { |
| "epoch": 2.114866666666667, |
| "grad_norm": 4.15459680557251, |
| "learning_rate": 2.0402758620689655e-06, |
| "loss": 0.1398, |
| "step": 7605 |
| }, |
| { |
| "epoch": 2.1152, |
| "grad_norm": 3.467616558074951, |
| "learning_rate": 2.0388965517241377e-06, |
| "loss": 0.1746, |
| "step": 7610 |
| }, |
| { |
| "epoch": 2.1155333333333335, |
| "grad_norm": 4.374525547027588, |
| "learning_rate": 2.0375172413793104e-06, |
| "loss": 0.1507, |
| "step": 7615 |
| }, |
| { |
| "epoch": 2.115866666666667, |
| "grad_norm": 4.990701675415039, |
| "learning_rate": 2.0361379310344826e-06, |
| "loss": 0.1987, |
| "step": 7620 |
| }, |
| { |
| "epoch": 2.1162, |
| "grad_norm": 3.5260660648345947, |
| "learning_rate": 2.0347586206896553e-06, |
| "loss": 0.1488, |
| "step": 7625 |
| }, |
| { |
| "epoch": 2.1165333333333334, |
| "grad_norm": 3.705177068710327, |
| "learning_rate": 2.0333793103448275e-06, |
| "loss": 0.1725, |
| "step": 7630 |
| }, |
| { |
| "epoch": 2.1168666666666667, |
| "grad_norm": 4.082669734954834, |
| "learning_rate": 2.0319999999999998e-06, |
| "loss": 0.1541, |
| "step": 7635 |
| }, |
| { |
| "epoch": 2.1172, |
| "grad_norm": 3.1704165935516357, |
| "learning_rate": 2.0306206896551724e-06, |
| "loss": 0.1292, |
| "step": 7640 |
| }, |
| { |
| "epoch": 2.1175333333333333, |
| "grad_norm": 3.3394253253936768, |
| "learning_rate": 2.0292413793103447e-06, |
| "loss": 0.1294, |
| "step": 7645 |
| }, |
| { |
| "epoch": 2.1178666666666666, |
| "grad_norm": 3.7952277660369873, |
| "learning_rate": 2.027862068965517e-06, |
| "loss": 0.1546, |
| "step": 7650 |
| }, |
| { |
| "epoch": 2.1182, |
| "grad_norm": 4.168078422546387, |
| "learning_rate": 2.0264827586206896e-06, |
| "loss": 0.1344, |
| "step": 7655 |
| }, |
| { |
| "epoch": 2.118533333333333, |
| "grad_norm": 4.414212226867676, |
| "learning_rate": 2.025103448275862e-06, |
| "loss": 0.1833, |
| "step": 7660 |
| }, |
| { |
| "epoch": 2.1188666666666665, |
| "grad_norm": 3.386073112487793, |
| "learning_rate": 2.0237241379310345e-06, |
| "loss": 0.14, |
| "step": 7665 |
| }, |
| { |
| "epoch": 2.1192, |
| "grad_norm": 5.26906156539917, |
| "learning_rate": 2.022344827586207e-06, |
| "loss": 0.1954, |
| "step": 7670 |
| }, |
| { |
| "epoch": 2.1195333333333335, |
| "grad_norm": 3.942183256149292, |
| "learning_rate": 2.0209655172413794e-06, |
| "loss": 0.1744, |
| "step": 7675 |
| }, |
| { |
| "epoch": 2.119866666666667, |
| "grad_norm": 4.6427202224731445, |
| "learning_rate": 2.0195862068965516e-06, |
| "loss": 0.1677, |
| "step": 7680 |
| }, |
| { |
| "epoch": 2.1202, |
| "grad_norm": 4.297618865966797, |
| "learning_rate": 2.018206896551724e-06, |
| "loss": 0.1462, |
| "step": 7685 |
| }, |
| { |
| "epoch": 2.1205333333333334, |
| "grad_norm": 3.8949220180511475, |
| "learning_rate": 2.0168275862068965e-06, |
| "loss": 0.1087, |
| "step": 7690 |
| }, |
| { |
| "epoch": 2.1208666666666667, |
| "grad_norm": 3.6529507637023926, |
| "learning_rate": 2.0154482758620687e-06, |
| "loss": 0.1404, |
| "step": 7695 |
| }, |
| { |
| "epoch": 2.1212, |
| "grad_norm": 4.2960524559021, |
| "learning_rate": 2.014068965517241e-06, |
| "loss": 0.1949, |
| "step": 7700 |
| }, |
| { |
| "epoch": 2.1215333333333333, |
| "grad_norm": 3.903557538986206, |
| "learning_rate": 2.0126896551724136e-06, |
| "loss": 0.1503, |
| "step": 7705 |
| }, |
| { |
| "epoch": 2.1218666666666666, |
| "grad_norm": 4.214975833892822, |
| "learning_rate": 2.0113103448275863e-06, |
| "loss": 0.1568, |
| "step": 7710 |
| }, |
| { |
| "epoch": 2.1222, |
| "grad_norm": 3.1488230228424072, |
| "learning_rate": 2.0099310344827585e-06, |
| "loss": 0.1421, |
| "step": 7715 |
| }, |
| { |
| "epoch": 2.122533333333333, |
| "grad_norm": 4.408772945404053, |
| "learning_rate": 2.008551724137931e-06, |
| "loss": 0.173, |
| "step": 7720 |
| }, |
| { |
| "epoch": 2.1228666666666665, |
| "grad_norm": 3.646116018295288, |
| "learning_rate": 2.0071724137931034e-06, |
| "loss": 0.1405, |
| "step": 7725 |
| }, |
| { |
| "epoch": 2.1232, |
| "grad_norm": 4.132920742034912, |
| "learning_rate": 2.0057931034482757e-06, |
| "loss": 0.1626, |
| "step": 7730 |
| }, |
| { |
| "epoch": 2.1235333333333335, |
| "grad_norm": 4.206435203552246, |
| "learning_rate": 2.0044137931034483e-06, |
| "loss": 0.1454, |
| "step": 7735 |
| }, |
| { |
| "epoch": 2.123866666666667, |
| "grad_norm": 3.519291639328003, |
| "learning_rate": 2.0030344827586206e-06, |
| "loss": 0.1414, |
| "step": 7740 |
| }, |
| { |
| "epoch": 2.1242, |
| "grad_norm": 3.4968624114990234, |
| "learning_rate": 2.001655172413793e-06, |
| "loss": 0.1552, |
| "step": 7745 |
| }, |
| { |
| "epoch": 2.1245333333333334, |
| "grad_norm": 3.607034206390381, |
| "learning_rate": 2.0002758620689655e-06, |
| "loss": 0.1787, |
| "step": 7750 |
| }, |
| { |
| "epoch": 2.1248666666666667, |
| "grad_norm": 4.205872058868408, |
| "learning_rate": 1.9988965517241377e-06, |
| "loss": 0.1637, |
| "step": 7755 |
| }, |
| { |
| "epoch": 2.1252, |
| "grad_norm": 3.8468146324157715, |
| "learning_rate": 1.9975172413793104e-06, |
| "loss": 0.1491, |
| "step": 7760 |
| }, |
| { |
| "epoch": 2.1255333333333333, |
| "grad_norm": 3.9270269870758057, |
| "learning_rate": 1.9961379310344826e-06, |
| "loss": 0.1546, |
| "step": 7765 |
| }, |
| { |
| "epoch": 2.1258666666666666, |
| "grad_norm": 3.687591314315796, |
| "learning_rate": 1.9947586206896553e-06, |
| "loss": 0.181, |
| "step": 7770 |
| }, |
| { |
| "epoch": 2.1262, |
| "grad_norm": 3.684657096862793, |
| "learning_rate": 1.9933793103448275e-06, |
| "loss": 0.175, |
| "step": 7775 |
| }, |
| { |
| "epoch": 2.126533333333333, |
| "grad_norm": 3.959773540496826, |
| "learning_rate": 1.9919999999999997e-06, |
| "loss": 0.1688, |
| "step": 7780 |
| }, |
| { |
| "epoch": 2.1268666666666665, |
| "grad_norm": 4.446990489959717, |
| "learning_rate": 1.9906206896551724e-06, |
| "loss": 0.1759, |
| "step": 7785 |
| }, |
| { |
| "epoch": 2.1272, |
| "grad_norm": 3.9164199829101562, |
| "learning_rate": 1.9892413793103446e-06, |
| "loss": 0.1446, |
| "step": 7790 |
| }, |
| { |
| "epoch": 2.1275333333333335, |
| "grad_norm": 3.8270504474639893, |
| "learning_rate": 1.9878620689655173e-06, |
| "loss": 0.23, |
| "step": 7795 |
| }, |
| { |
| "epoch": 2.127866666666667, |
| "grad_norm": 3.4129297733306885, |
| "learning_rate": 1.9864827586206895e-06, |
| "loss": 0.2068, |
| "step": 7800 |
| }, |
| { |
| "epoch": 2.1282, |
| "grad_norm": 3.801025390625, |
| "learning_rate": 1.9851034482758618e-06, |
| "loss": 0.1896, |
| "step": 7805 |
| }, |
| { |
| "epoch": 2.1285333333333334, |
| "grad_norm": 4.211307048797607, |
| "learning_rate": 1.9837241379310344e-06, |
| "loss": 0.2484, |
| "step": 7810 |
| }, |
| { |
| "epoch": 2.1288666666666667, |
| "grad_norm": 3.498392343521118, |
| "learning_rate": 1.982344827586207e-06, |
| "loss": 0.1496, |
| "step": 7815 |
| }, |
| { |
| "epoch": 2.1292, |
| "grad_norm": 5.023584365844727, |
| "learning_rate": 1.9809655172413793e-06, |
| "loss": 0.1553, |
| "step": 7820 |
| }, |
| { |
| "epoch": 2.1295333333333333, |
| "grad_norm": 3.951573133468628, |
| "learning_rate": 1.9795862068965516e-06, |
| "loss": 0.1316, |
| "step": 7825 |
| }, |
| { |
| "epoch": 2.1298666666666666, |
| "grad_norm": 4.510411739349365, |
| "learning_rate": 1.9782068965517242e-06, |
| "loss": 0.2272, |
| "step": 7830 |
| }, |
| { |
| "epoch": 2.1302, |
| "grad_norm": 3.3330047130584717, |
| "learning_rate": 1.9768275862068965e-06, |
| "loss": 0.1643, |
| "step": 7835 |
| }, |
| { |
| "epoch": 2.130533333333333, |
| "grad_norm": 3.661222457885742, |
| "learning_rate": 1.975448275862069e-06, |
| "loss": 0.1454, |
| "step": 7840 |
| }, |
| { |
| "epoch": 2.1308666666666665, |
| "grad_norm": 5.079435348510742, |
| "learning_rate": 1.9740689655172414e-06, |
| "loss": 0.1702, |
| "step": 7845 |
| }, |
| { |
| "epoch": 2.1312, |
| "grad_norm": 6.023196697235107, |
| "learning_rate": 1.9726896551724136e-06, |
| "loss": 0.1289, |
| "step": 7850 |
| }, |
| { |
| "epoch": 2.1315333333333335, |
| "grad_norm": 3.029942750930786, |
| "learning_rate": 1.9713103448275863e-06, |
| "loss": 0.1412, |
| "step": 7855 |
| }, |
| { |
| "epoch": 2.131866666666667, |
| "grad_norm": 5.063018321990967, |
| "learning_rate": 1.9699310344827585e-06, |
| "loss": 0.1738, |
| "step": 7860 |
| }, |
| { |
| "epoch": 2.1322, |
| "grad_norm": 4.71124267578125, |
| "learning_rate": 1.968551724137931e-06, |
| "loss": 0.1972, |
| "step": 7865 |
| }, |
| { |
| "epoch": 2.1325333333333334, |
| "grad_norm": 3.9992754459381104, |
| "learning_rate": 1.9671724137931034e-06, |
| "loss": 0.1621, |
| "step": 7870 |
| }, |
| { |
| "epoch": 2.1328666666666667, |
| "grad_norm": 3.8277359008789062, |
| "learning_rate": 1.9657931034482756e-06, |
| "loss": 0.1883, |
| "step": 7875 |
| }, |
| { |
| "epoch": 2.1332, |
| "grad_norm": 4.417627811431885, |
| "learning_rate": 1.9644137931034483e-06, |
| "loss": 0.1878, |
| "step": 7880 |
| }, |
| { |
| "epoch": 2.1335333333333333, |
| "grad_norm": 4.686520576477051, |
| "learning_rate": 1.9630344827586205e-06, |
| "loss": 0.1883, |
| "step": 7885 |
| }, |
| { |
| "epoch": 2.1338666666666666, |
| "grad_norm": 4.109803199768066, |
| "learning_rate": 1.961655172413793e-06, |
| "loss": 0.1767, |
| "step": 7890 |
| }, |
| { |
| "epoch": 2.1342, |
| "grad_norm": 4.489066123962402, |
| "learning_rate": 1.9602758620689654e-06, |
| "loss": 0.2076, |
| "step": 7895 |
| }, |
| { |
| "epoch": 2.134533333333333, |
| "grad_norm": 4.182468891143799, |
| "learning_rate": 1.9588965517241377e-06, |
| "loss": 0.1724, |
| "step": 7900 |
| }, |
| { |
| "epoch": 2.1348666666666665, |
| "grad_norm": 5.5826802253723145, |
| "learning_rate": 1.9575172413793103e-06, |
| "loss": 0.1574, |
| "step": 7905 |
| }, |
| { |
| "epoch": 2.1352, |
| "grad_norm": 4.128483772277832, |
| "learning_rate": 1.956137931034483e-06, |
| "loss": 0.1486, |
| "step": 7910 |
| }, |
| { |
| "epoch": 2.1355333333333335, |
| "grad_norm": 4.2858991622924805, |
| "learning_rate": 1.9547586206896552e-06, |
| "loss": 0.1672, |
| "step": 7915 |
| }, |
| { |
| "epoch": 2.135866666666667, |
| "grad_norm": 4.280251502990723, |
| "learning_rate": 1.9533793103448275e-06, |
| "loss": 0.1536, |
| "step": 7920 |
| }, |
| { |
| "epoch": 2.1362, |
| "grad_norm": 3.5940074920654297, |
| "learning_rate": 1.9519999999999997e-06, |
| "loss": 0.1515, |
| "step": 7925 |
| }, |
| { |
| "epoch": 2.1365333333333334, |
| "grad_norm": 3.568645715713501, |
| "learning_rate": 1.9506206896551724e-06, |
| "loss": 0.1488, |
| "step": 7930 |
| }, |
| { |
| "epoch": 2.1368666666666667, |
| "grad_norm": 4.062258720397949, |
| "learning_rate": 1.949241379310345e-06, |
| "loss": 0.1334, |
| "step": 7935 |
| }, |
| { |
| "epoch": 2.1372, |
| "grad_norm": 3.241791009902954, |
| "learning_rate": 1.9478620689655172e-06, |
| "loss": 0.1603, |
| "step": 7940 |
| }, |
| { |
| "epoch": 2.1375333333333333, |
| "grad_norm": 3.8876595497131348, |
| "learning_rate": 1.9464827586206895e-06, |
| "loss": 0.1686, |
| "step": 7945 |
| }, |
| { |
| "epoch": 2.1378666666666666, |
| "grad_norm": 4.375921726226807, |
| "learning_rate": 1.9451034482758617e-06, |
| "loss": 0.1732, |
| "step": 7950 |
| }, |
| { |
| "epoch": 2.1382, |
| "grad_norm": 4.465551376342773, |
| "learning_rate": 1.9437241379310344e-06, |
| "loss": 0.1294, |
| "step": 7955 |
| }, |
| { |
| "epoch": 2.138533333333333, |
| "grad_norm": 2.9878158569335938, |
| "learning_rate": 1.942344827586207e-06, |
| "loss": 0.1417, |
| "step": 7960 |
| }, |
| { |
| "epoch": 2.1388666666666665, |
| "grad_norm": 2.9558074474334717, |
| "learning_rate": 1.9409655172413793e-06, |
| "loss": 0.1158, |
| "step": 7965 |
| }, |
| { |
| "epoch": 2.1391999999999998, |
| "grad_norm": 4.454432964324951, |
| "learning_rate": 1.9395862068965515e-06, |
| "loss": 0.1432, |
| "step": 7970 |
| }, |
| { |
| "epoch": 2.1395333333333335, |
| "grad_norm": 4.049233436584473, |
| "learning_rate": 1.938206896551724e-06, |
| "loss": 0.1675, |
| "step": 7975 |
| }, |
| { |
| "epoch": 2.139866666666667, |
| "grad_norm": 2.7268948554992676, |
| "learning_rate": 1.9368275862068964e-06, |
| "loss": 0.1455, |
| "step": 7980 |
| }, |
| { |
| "epoch": 2.1402, |
| "grad_norm": 3.5670552253723145, |
| "learning_rate": 1.935448275862069e-06, |
| "loss": 0.1388, |
| "step": 7985 |
| }, |
| { |
| "epoch": 2.1405333333333334, |
| "grad_norm": 3.5169382095336914, |
| "learning_rate": 1.9340689655172413e-06, |
| "loss": 0.1225, |
| "step": 7990 |
| }, |
| { |
| "epoch": 2.1408666666666667, |
| "grad_norm": 3.916700601577759, |
| "learning_rate": 1.9326896551724136e-06, |
| "loss": 0.1767, |
| "step": 7995 |
| }, |
| { |
| "epoch": 2.1412, |
| "grad_norm": 3.5488085746765137, |
| "learning_rate": 1.9313103448275862e-06, |
| "loss": 0.1728, |
| "step": 8000 |
| }, |
| { |
| "epoch": 2.1412, |
| "eval_loss": 0.21526865661144257, |
| "eval_runtime": 137.7459, |
| "eval_samples_per_second": 4.356, |
| "eval_steps_per_second": 1.089, |
| "eval_wer": 11.271381159050293, |
| "step": 8000 |
| }, |
| { |
| "epoch": 2.1415333333333333, |
| "grad_norm": 3.5232622623443604, |
| "learning_rate": 1.9299310344827585e-06, |
| "loss": 0.1272, |
| "step": 8005 |
| }, |
| { |
| "epoch": 2.1418666666666666, |
| "grad_norm": 3.959883213043213, |
| "learning_rate": 1.928551724137931e-06, |
| "loss": 0.1514, |
| "step": 8010 |
| }, |
| { |
| "epoch": 2.1422, |
| "grad_norm": 3.3533003330230713, |
| "learning_rate": 1.9271724137931033e-06, |
| "loss": 0.1217, |
| "step": 8015 |
| }, |
| { |
| "epoch": 2.142533333333333, |
| "grad_norm": 3.159801721572876, |
| "learning_rate": 1.9257931034482756e-06, |
| "loss": 0.1368, |
| "step": 8020 |
| }, |
| { |
| "epoch": 2.1428666666666665, |
| "grad_norm": 3.688117504119873, |
| "learning_rate": 1.9244137931034482e-06, |
| "loss": 0.1514, |
| "step": 8025 |
| }, |
| { |
| "epoch": 2.1432, |
| "grad_norm": 3.9753034114837646, |
| "learning_rate": 1.9230344827586205e-06, |
| "loss": 0.1485, |
| "step": 8030 |
| }, |
| { |
| "epoch": 2.1435333333333335, |
| "grad_norm": 4.067863464355469, |
| "learning_rate": 1.921655172413793e-06, |
| "loss": 0.1483, |
| "step": 8035 |
| }, |
| { |
| "epoch": 2.143866666666667, |
| "grad_norm": 4.069934368133545, |
| "learning_rate": 1.9202758620689654e-06, |
| "loss": 0.16, |
| "step": 8040 |
| }, |
| { |
| "epoch": 2.1442, |
| "grad_norm": 3.1546711921691895, |
| "learning_rate": 1.9188965517241376e-06, |
| "loss": 0.1588, |
| "step": 8045 |
| }, |
| { |
| "epoch": 2.1445333333333334, |
| "grad_norm": 4.220521450042725, |
| "learning_rate": 1.9175172413793103e-06, |
| "loss": 0.164, |
| "step": 8050 |
| }, |
| { |
| "epoch": 2.1448666666666667, |
| "grad_norm": 4.239305019378662, |
| "learning_rate": 1.916137931034483e-06, |
| "loss": 0.1268, |
| "step": 8055 |
| }, |
| { |
| "epoch": 2.1452, |
| "grad_norm": 3.7235920429229736, |
| "learning_rate": 1.914758620689655e-06, |
| "loss": 0.1322, |
| "step": 8060 |
| }, |
| { |
| "epoch": 2.1455333333333333, |
| "grad_norm": 3.906445026397705, |
| "learning_rate": 1.9133793103448274e-06, |
| "loss": 0.1687, |
| "step": 8065 |
| }, |
| { |
| "epoch": 2.1458666666666666, |
| "grad_norm": 3.9240214824676514, |
| "learning_rate": 1.9119999999999997e-06, |
| "loss": 0.1482, |
| "step": 8070 |
| }, |
| { |
| "epoch": 2.1462, |
| "grad_norm": 4.666675090789795, |
| "learning_rate": 1.9106206896551723e-06, |
| "loss": 0.1517, |
| "step": 8075 |
| }, |
| { |
| "epoch": 2.146533333333333, |
| "grad_norm": 3.2189595699310303, |
| "learning_rate": 1.909241379310345e-06, |
| "loss": 0.1347, |
| "step": 8080 |
| }, |
| { |
| "epoch": 2.1468666666666665, |
| "grad_norm": 4.857850551605225, |
| "learning_rate": 1.907862068965517e-06, |
| "loss": 0.2023, |
| "step": 8085 |
| }, |
| { |
| "epoch": 2.1471999999999998, |
| "grad_norm": 3.833641529083252, |
| "learning_rate": 1.9064827586206894e-06, |
| "loss": 0.1481, |
| "step": 8090 |
| }, |
| { |
| "epoch": 2.1475333333333335, |
| "grad_norm": 4.382359027862549, |
| "learning_rate": 1.905103448275862e-06, |
| "loss": 0.1679, |
| "step": 8095 |
| }, |
| { |
| "epoch": 2.147866666666667, |
| "grad_norm": 4.568116664886475, |
| "learning_rate": 1.9037241379310346e-06, |
| "loss": 0.1789, |
| "step": 8100 |
| }, |
| { |
| "epoch": 2.1482, |
| "grad_norm": 3.440861940383911, |
| "learning_rate": 1.9023448275862068e-06, |
| "loss": 0.1405, |
| "step": 8105 |
| }, |
| { |
| "epoch": 2.1485333333333334, |
| "grad_norm": 3.7788281440734863, |
| "learning_rate": 1.9009655172413792e-06, |
| "loss": 0.1471, |
| "step": 8110 |
| }, |
| { |
| "epoch": 2.1488666666666667, |
| "grad_norm": 4.138926029205322, |
| "learning_rate": 1.8995862068965515e-06, |
| "loss": 0.1607, |
| "step": 8115 |
| }, |
| { |
| "epoch": 2.1492, |
| "grad_norm": 3.8638267517089844, |
| "learning_rate": 1.898206896551724e-06, |
| "loss": 0.1326, |
| "step": 8120 |
| }, |
| { |
| "epoch": 2.1495333333333333, |
| "grad_norm": 5.205294609069824, |
| "learning_rate": 1.8968275862068966e-06, |
| "loss": 0.1521, |
| "step": 8125 |
| }, |
| { |
| "epoch": 2.1498666666666666, |
| "grad_norm": 3.736191987991333, |
| "learning_rate": 1.8954482758620688e-06, |
| "loss": 0.123, |
| "step": 8130 |
| }, |
| { |
| "epoch": 2.1502, |
| "grad_norm": 3.284804344177246, |
| "learning_rate": 1.8940689655172413e-06, |
| "loss": 0.1468, |
| "step": 8135 |
| }, |
| { |
| "epoch": 2.150533333333333, |
| "grad_norm": 3.204585313796997, |
| "learning_rate": 1.8926896551724137e-06, |
| "loss": 0.1397, |
| "step": 8140 |
| }, |
| { |
| "epoch": 2.1508666666666665, |
| "grad_norm": 4.732002258300781, |
| "learning_rate": 1.8913103448275862e-06, |
| "loss": 0.1869, |
| "step": 8145 |
| }, |
| { |
| "epoch": 2.1512000000000002, |
| "grad_norm": 3.870253086090088, |
| "learning_rate": 1.8899310344827586e-06, |
| "loss": 0.153, |
| "step": 8150 |
| }, |
| { |
| "epoch": 2.1515333333333335, |
| "grad_norm": 4.250088691711426, |
| "learning_rate": 1.8885517241379309e-06, |
| "loss": 0.159, |
| "step": 8155 |
| }, |
| { |
| "epoch": 2.151866666666667, |
| "grad_norm": 4.497228622436523, |
| "learning_rate": 1.8871724137931033e-06, |
| "loss": 0.1825, |
| "step": 8160 |
| }, |
| { |
| "epoch": 2.1522, |
| "grad_norm": 4.305934906005859, |
| "learning_rate": 1.8857931034482758e-06, |
| "loss": 0.1338, |
| "step": 8165 |
| }, |
| { |
| "epoch": 2.1525333333333334, |
| "grad_norm": 6.173018932342529, |
| "learning_rate": 1.8844137931034482e-06, |
| "loss": 0.2208, |
| "step": 8170 |
| }, |
| { |
| "epoch": 2.1528666666666667, |
| "grad_norm": 3.7534828186035156, |
| "learning_rate": 1.8830344827586207e-06, |
| "loss": 0.1466, |
| "step": 8175 |
| }, |
| { |
| "epoch": 2.1532, |
| "grad_norm": 4.5661468505859375, |
| "learning_rate": 1.881655172413793e-06, |
| "loss": 0.1394, |
| "step": 8180 |
| }, |
| { |
| "epoch": 2.1535333333333333, |
| "grad_norm": 3.2051525115966797, |
| "learning_rate": 1.8802758620689653e-06, |
| "loss": 0.1398, |
| "step": 8185 |
| }, |
| { |
| "epoch": 2.1538666666666666, |
| "grad_norm": 4.009622573852539, |
| "learning_rate": 1.8788965517241378e-06, |
| "loss": 0.1279, |
| "step": 8190 |
| }, |
| { |
| "epoch": 2.1542, |
| "grad_norm": 4.417429447174072, |
| "learning_rate": 1.8775172413793102e-06, |
| "loss": 0.1402, |
| "step": 8195 |
| }, |
| { |
| "epoch": 2.154533333333333, |
| "grad_norm": 4.157866954803467, |
| "learning_rate": 1.8761379310344827e-06, |
| "loss": 0.1416, |
| "step": 8200 |
| }, |
| { |
| "epoch": 2.1548666666666665, |
| "grad_norm": 5.456273555755615, |
| "learning_rate": 1.8747586206896551e-06, |
| "loss": 0.1774, |
| "step": 8205 |
| }, |
| { |
| "epoch": 2.1552, |
| "grad_norm": 4.373351573944092, |
| "learning_rate": 1.8733793103448274e-06, |
| "loss": 0.1623, |
| "step": 8210 |
| }, |
| { |
| "epoch": 2.1555333333333335, |
| "grad_norm": 3.606292486190796, |
| "learning_rate": 1.872e-06, |
| "loss": 0.1783, |
| "step": 8215 |
| }, |
| { |
| "epoch": 2.155866666666667, |
| "grad_norm": 2.8683555126190186, |
| "learning_rate": 1.8706206896551725e-06, |
| "loss": 0.1456, |
| "step": 8220 |
| }, |
| { |
| "epoch": 2.1562, |
| "grad_norm": 4.756180286407471, |
| "learning_rate": 1.8692413793103447e-06, |
| "loss": 0.1349, |
| "step": 8225 |
| }, |
| { |
| "epoch": 2.1565333333333334, |
| "grad_norm": 3.5604751110076904, |
| "learning_rate": 1.8678620689655172e-06, |
| "loss": 0.1652, |
| "step": 8230 |
| }, |
| { |
| "epoch": 2.1568666666666667, |
| "grad_norm": 3.298671245574951, |
| "learning_rate": 1.8664827586206894e-06, |
| "loss": 0.1558, |
| "step": 8235 |
| }, |
| { |
| "epoch": 2.1572, |
| "grad_norm": 4.017250061035156, |
| "learning_rate": 1.865103448275862e-06, |
| "loss": 0.1834, |
| "step": 8240 |
| }, |
| { |
| "epoch": 2.1575333333333333, |
| "grad_norm": 3.721139669418335, |
| "learning_rate": 1.8637241379310345e-06, |
| "loss": 0.1918, |
| "step": 8245 |
| }, |
| { |
| "epoch": 2.1578666666666666, |
| "grad_norm": 5.082814693450928, |
| "learning_rate": 1.8623448275862068e-06, |
| "loss": 0.135, |
| "step": 8250 |
| }, |
| { |
| "epoch": 2.1582, |
| "grad_norm": 3.383303642272949, |
| "learning_rate": 1.8609655172413792e-06, |
| "loss": 0.1382, |
| "step": 8255 |
| }, |
| { |
| "epoch": 2.158533333333333, |
| "grad_norm": 4.598973274230957, |
| "learning_rate": 1.8595862068965517e-06, |
| "loss": 0.1357, |
| "step": 8260 |
| }, |
| { |
| "epoch": 2.1588666666666665, |
| "grad_norm": 4.520269393920898, |
| "learning_rate": 1.858206896551724e-06, |
| "loss": 0.2124, |
| "step": 8265 |
| }, |
| { |
| "epoch": 2.1592000000000002, |
| "grad_norm": 4.322984218597412, |
| "learning_rate": 1.8568275862068965e-06, |
| "loss": 0.177, |
| "step": 8270 |
| }, |
| { |
| "epoch": 2.1595333333333335, |
| "grad_norm": 4.300741672515869, |
| "learning_rate": 1.8554482758620688e-06, |
| "loss": 0.1436, |
| "step": 8275 |
| }, |
| { |
| "epoch": 2.159866666666667, |
| "grad_norm": 4.1086554527282715, |
| "learning_rate": 1.8540689655172412e-06, |
| "loss": 0.1482, |
| "step": 8280 |
| }, |
| { |
| "epoch": 2.1602, |
| "grad_norm": 3.534214973449707, |
| "learning_rate": 1.8526896551724137e-06, |
| "loss": 0.1851, |
| "step": 8285 |
| }, |
| { |
| "epoch": 2.1605333333333334, |
| "grad_norm": 3.127505302429199, |
| "learning_rate": 1.8513103448275861e-06, |
| "loss": 0.1541, |
| "step": 8290 |
| }, |
| { |
| "epoch": 2.1608666666666667, |
| "grad_norm": 4.561563014984131, |
| "learning_rate": 1.8499310344827586e-06, |
| "loss": 0.1669, |
| "step": 8295 |
| }, |
| { |
| "epoch": 2.1612, |
| "grad_norm": 3.6182634830474854, |
| "learning_rate": 1.8485517241379308e-06, |
| "loss": 0.1353, |
| "step": 8300 |
| }, |
| { |
| "epoch": 2.1615333333333333, |
| "grad_norm": 3.6034393310546875, |
| "learning_rate": 1.8471724137931033e-06, |
| "loss": 0.1745, |
| "step": 8305 |
| }, |
| { |
| "epoch": 2.1618666666666666, |
| "grad_norm": 3.932777166366577, |
| "learning_rate": 1.845793103448276e-06, |
| "loss": 0.1282, |
| "step": 8310 |
| }, |
| { |
| "epoch": 2.1622, |
| "grad_norm": 3.576974391937256, |
| "learning_rate": 1.8444137931034482e-06, |
| "loss": 0.1404, |
| "step": 8315 |
| }, |
| { |
| "epoch": 2.162533333333333, |
| "grad_norm": 4.214875221252441, |
| "learning_rate": 1.8430344827586206e-06, |
| "loss": 0.1537, |
| "step": 8320 |
| }, |
| { |
| "epoch": 2.1628666666666665, |
| "grad_norm": 3.206268787384033, |
| "learning_rate": 1.841655172413793e-06, |
| "loss": 0.1335, |
| "step": 8325 |
| }, |
| { |
| "epoch": 2.1632, |
| "grad_norm": 3.312103271484375, |
| "learning_rate": 1.8402758620689653e-06, |
| "loss": 0.1679, |
| "step": 8330 |
| }, |
| { |
| "epoch": 2.1635333333333335, |
| "grad_norm": 3.4624552726745605, |
| "learning_rate": 1.838896551724138e-06, |
| "loss": 0.1672, |
| "step": 8335 |
| }, |
| { |
| "epoch": 2.163866666666667, |
| "grad_norm": 4.053277969360352, |
| "learning_rate": 1.8375172413793102e-06, |
| "loss": 0.1398, |
| "step": 8340 |
| }, |
| { |
| "epoch": 2.1642, |
| "grad_norm": 3.646374225616455, |
| "learning_rate": 1.8361379310344826e-06, |
| "loss": 0.1408, |
| "step": 8345 |
| }, |
| { |
| "epoch": 2.1645333333333334, |
| "grad_norm": 4.11189603805542, |
| "learning_rate": 1.834758620689655e-06, |
| "loss": 0.1406, |
| "step": 8350 |
| }, |
| { |
| "epoch": 2.1648666666666667, |
| "grad_norm": 3.126028299331665, |
| "learning_rate": 1.8333793103448273e-06, |
| "loss": 0.1719, |
| "step": 8355 |
| }, |
| { |
| "epoch": 2.1652, |
| "grad_norm": 3.728790521621704, |
| "learning_rate": 1.832e-06, |
| "loss": 0.1563, |
| "step": 8360 |
| }, |
| { |
| "epoch": 2.1655333333333333, |
| "grad_norm": 4.10999059677124, |
| "learning_rate": 1.8306206896551724e-06, |
| "loss": 0.1761, |
| "step": 8365 |
| }, |
| { |
| "epoch": 2.1658666666666666, |
| "grad_norm": 3.48075270652771, |
| "learning_rate": 1.8292413793103447e-06, |
| "loss": 0.132, |
| "step": 8370 |
| }, |
| { |
| "epoch": 2.1662, |
| "grad_norm": 3.1271069049835205, |
| "learning_rate": 1.8278620689655171e-06, |
| "loss": 0.1345, |
| "step": 8375 |
| }, |
| { |
| "epoch": 2.166533333333333, |
| "grad_norm": 5.037559986114502, |
| "learning_rate": 1.8264827586206896e-06, |
| "loss": 0.1576, |
| "step": 8380 |
| }, |
| { |
| "epoch": 2.1668666666666665, |
| "grad_norm": 4.991491794586182, |
| "learning_rate": 1.825103448275862e-06, |
| "loss": 0.1607, |
| "step": 8385 |
| }, |
| { |
| "epoch": 2.1672, |
| "grad_norm": 3.7590858936309814, |
| "learning_rate": 1.8237241379310345e-06, |
| "loss": 0.1493, |
| "step": 8390 |
| }, |
| { |
| "epoch": 2.1675333333333335, |
| "grad_norm": 4.343997001647949, |
| "learning_rate": 1.8223448275862067e-06, |
| "loss": 0.1619, |
| "step": 8395 |
| }, |
| { |
| "epoch": 2.167866666666667, |
| "grad_norm": 4.275284290313721, |
| "learning_rate": 1.8209655172413792e-06, |
| "loss": 0.1566, |
| "step": 8400 |
| }, |
| { |
| "epoch": 2.1682, |
| "grad_norm": 5.474055767059326, |
| "learning_rate": 1.8195862068965518e-06, |
| "loss": 0.1256, |
| "step": 8405 |
| }, |
| { |
| "epoch": 2.1685333333333334, |
| "grad_norm": 4.446492671966553, |
| "learning_rate": 1.818206896551724e-06, |
| "loss": 0.1407, |
| "step": 8410 |
| }, |
| { |
| "epoch": 2.1688666666666667, |
| "grad_norm": 3.7689285278320312, |
| "learning_rate": 1.8168275862068965e-06, |
| "loss": 0.1318, |
| "step": 8415 |
| }, |
| { |
| "epoch": 2.1692, |
| "grad_norm": 3.66825008392334, |
| "learning_rate": 1.8154482758620687e-06, |
| "loss": 0.1496, |
| "step": 8420 |
| }, |
| { |
| "epoch": 2.1695333333333333, |
| "grad_norm": 4.186960697174072, |
| "learning_rate": 1.8140689655172412e-06, |
| "loss": 0.1164, |
| "step": 8425 |
| }, |
| { |
| "epoch": 2.1698666666666666, |
| "grad_norm": 2.956852912902832, |
| "learning_rate": 1.8126896551724139e-06, |
| "loss": 0.1262, |
| "step": 8430 |
| }, |
| { |
| "epoch": 2.1702, |
| "grad_norm": 5.9926323890686035, |
| "learning_rate": 1.811310344827586e-06, |
| "loss": 0.1641, |
| "step": 8435 |
| }, |
| { |
| "epoch": 2.170533333333333, |
| "grad_norm": 4.226884841918945, |
| "learning_rate": 1.8099310344827585e-06, |
| "loss": 0.1661, |
| "step": 8440 |
| }, |
| { |
| "epoch": 2.1708666666666665, |
| "grad_norm": 3.088512897491455, |
| "learning_rate": 1.808551724137931e-06, |
| "loss": 0.1436, |
| "step": 8445 |
| }, |
| { |
| "epoch": 2.1712, |
| "grad_norm": 4.03468656539917, |
| "learning_rate": 1.8071724137931032e-06, |
| "loss": 0.1315, |
| "step": 8450 |
| }, |
| { |
| "epoch": 2.1715333333333335, |
| "grad_norm": 4.595294952392578, |
| "learning_rate": 1.8057931034482759e-06, |
| "loss": 0.1868, |
| "step": 8455 |
| }, |
| { |
| "epoch": 2.171866666666667, |
| "grad_norm": 3.287555694580078, |
| "learning_rate": 1.8044137931034481e-06, |
| "loss": 0.1327, |
| "step": 8460 |
| }, |
| { |
| "epoch": 2.1722, |
| "grad_norm": 3.081728219985962, |
| "learning_rate": 1.8030344827586206e-06, |
| "loss": 0.1141, |
| "step": 8465 |
| }, |
| { |
| "epoch": 2.1725333333333334, |
| "grad_norm": 3.949039936065674, |
| "learning_rate": 1.801655172413793e-06, |
| "loss": 0.1544, |
| "step": 8470 |
| }, |
| { |
| "epoch": 2.1728666666666667, |
| "grad_norm": 4.855032920837402, |
| "learning_rate": 1.8002758620689655e-06, |
| "loss": 0.19, |
| "step": 8475 |
| }, |
| { |
| "epoch": 2.1732, |
| "grad_norm": 3.3504321575164795, |
| "learning_rate": 1.798896551724138e-06, |
| "loss": 0.1343, |
| "step": 8480 |
| }, |
| { |
| "epoch": 2.1735333333333333, |
| "grad_norm": 3.221022129058838, |
| "learning_rate": 1.7975172413793104e-06, |
| "loss": 0.2011, |
| "step": 8485 |
| }, |
| { |
| "epoch": 2.1738666666666666, |
| "grad_norm": 4.804887294769287, |
| "learning_rate": 1.7961379310344826e-06, |
| "loss": 0.1673, |
| "step": 8490 |
| }, |
| { |
| "epoch": 2.1742, |
| "grad_norm": 3.5726826190948486, |
| "learning_rate": 1.794758620689655e-06, |
| "loss": 0.1542, |
| "step": 8495 |
| }, |
| { |
| "epoch": 2.174533333333333, |
| "grad_norm": 3.9310481548309326, |
| "learning_rate": 1.7933793103448275e-06, |
| "loss": 0.15, |
| "step": 8500 |
| }, |
| { |
| "epoch": 2.1748666666666665, |
| "grad_norm": 4.455894947052002, |
| "learning_rate": 1.792e-06, |
| "loss": 0.1275, |
| "step": 8505 |
| }, |
| { |
| "epoch": 2.1752, |
| "grad_norm": 4.744019031524658, |
| "learning_rate": 1.7906206896551724e-06, |
| "loss": 0.17, |
| "step": 8510 |
| }, |
| { |
| "epoch": 2.1755333333333335, |
| "grad_norm": 5.374943256378174, |
| "learning_rate": 1.7892413793103446e-06, |
| "loss": 0.1728, |
| "step": 8515 |
| }, |
| { |
| "epoch": 2.175866666666667, |
| "grad_norm": 3.3343522548675537, |
| "learning_rate": 1.787862068965517e-06, |
| "loss": 0.1522, |
| "step": 8520 |
| }, |
| { |
| "epoch": 2.1762, |
| "grad_norm": 3.9378371238708496, |
| "learning_rate": 1.7864827586206897e-06, |
| "loss": 0.1279, |
| "step": 8525 |
| }, |
| { |
| "epoch": 2.1765333333333334, |
| "grad_norm": 3.869333028793335, |
| "learning_rate": 1.785103448275862e-06, |
| "loss": 0.1642, |
| "step": 8530 |
| }, |
| { |
| "epoch": 2.1768666666666667, |
| "grad_norm": 4.777926445007324, |
| "learning_rate": 1.7837241379310344e-06, |
| "loss": 0.1321, |
| "step": 8535 |
| }, |
| { |
| "epoch": 2.1772, |
| "grad_norm": 3.3414337635040283, |
| "learning_rate": 1.7823448275862067e-06, |
| "loss": 0.1357, |
| "step": 8540 |
| }, |
| { |
| "epoch": 2.1775333333333333, |
| "grad_norm": 4.182128429412842, |
| "learning_rate": 1.7809655172413793e-06, |
| "loss": 0.1439, |
| "step": 8545 |
| }, |
| { |
| "epoch": 2.1778666666666666, |
| "grad_norm": 4.353799343109131, |
| "learning_rate": 1.7795862068965518e-06, |
| "loss": 0.1125, |
| "step": 8550 |
| }, |
| { |
| "epoch": 2.1782, |
| "grad_norm": 4.375477313995361, |
| "learning_rate": 1.778206896551724e-06, |
| "loss": 0.164, |
| "step": 8555 |
| }, |
| { |
| "epoch": 2.178533333333333, |
| "grad_norm": 3.4945335388183594, |
| "learning_rate": 1.7768275862068965e-06, |
| "loss": 0.1544, |
| "step": 8560 |
| }, |
| { |
| "epoch": 2.1788666666666665, |
| "grad_norm": 4.1269354820251465, |
| "learning_rate": 1.7754482758620687e-06, |
| "loss": 0.1422, |
| "step": 8565 |
| }, |
| { |
| "epoch": 2.1792, |
| "grad_norm": 3.8401618003845215, |
| "learning_rate": 1.7740689655172414e-06, |
| "loss": 0.1304, |
| "step": 8570 |
| }, |
| { |
| "epoch": 2.1795333333333335, |
| "grad_norm": 3.9661614894866943, |
| "learning_rate": 1.7726896551724138e-06, |
| "loss": 0.1666, |
| "step": 8575 |
| }, |
| { |
| "epoch": 2.179866666666667, |
| "grad_norm": 3.4680862426757812, |
| "learning_rate": 1.771310344827586e-06, |
| "loss": 0.1182, |
| "step": 8580 |
| }, |
| { |
| "epoch": 2.1802, |
| "grad_norm": 2.7374706268310547, |
| "learning_rate": 1.7699310344827585e-06, |
| "loss": 0.1205, |
| "step": 8585 |
| }, |
| { |
| "epoch": 2.1805333333333334, |
| "grad_norm": 3.9679887294769287, |
| "learning_rate": 1.768551724137931e-06, |
| "loss": 0.1152, |
| "step": 8590 |
| }, |
| { |
| "epoch": 2.1808666666666667, |
| "grad_norm": 3.9719510078430176, |
| "learning_rate": 1.7671724137931034e-06, |
| "loss": 0.1602, |
| "step": 8595 |
| }, |
| { |
| "epoch": 2.1812, |
| "grad_norm": 5.028110504150391, |
| "learning_rate": 1.7657931034482758e-06, |
| "loss": 0.2604, |
| "step": 8600 |
| }, |
| { |
| "epoch": 2.1815333333333333, |
| "grad_norm": 3.4604058265686035, |
| "learning_rate": 1.764413793103448e-06, |
| "loss": 0.1524, |
| "step": 8605 |
| }, |
| { |
| "epoch": 2.1818666666666666, |
| "grad_norm": 3.3679041862487793, |
| "learning_rate": 1.7630344827586205e-06, |
| "loss": 0.1114, |
| "step": 8610 |
| }, |
| { |
| "epoch": 2.1822, |
| "grad_norm": 2.889110565185547, |
| "learning_rate": 1.7616551724137932e-06, |
| "loss": 0.1353, |
| "step": 8615 |
| }, |
| { |
| "epoch": 2.182533333333333, |
| "grad_norm": 4.661477565765381, |
| "learning_rate": 1.7602758620689654e-06, |
| "loss": 0.1558, |
| "step": 8620 |
| }, |
| { |
| "epoch": 2.1828666666666665, |
| "grad_norm": 3.864149570465088, |
| "learning_rate": 1.7588965517241379e-06, |
| "loss": 0.1392, |
| "step": 8625 |
| }, |
| { |
| "epoch": 2.1832, |
| "grad_norm": 3.6767807006835938, |
| "learning_rate": 1.7575172413793103e-06, |
| "loss": 0.1464, |
| "step": 8630 |
| }, |
| { |
| "epoch": 2.183533333333333, |
| "grad_norm": 4.2633891105651855, |
| "learning_rate": 1.7561379310344826e-06, |
| "loss": 0.1668, |
| "step": 8635 |
| }, |
| { |
| "epoch": 2.183866666666667, |
| "grad_norm": 4.703251838684082, |
| "learning_rate": 1.7547586206896552e-06, |
| "loss": 0.1739, |
| "step": 8640 |
| }, |
| { |
| "epoch": 2.1842, |
| "grad_norm": 3.5388970375061035, |
| "learning_rate": 1.7533793103448275e-06, |
| "loss": 0.1704, |
| "step": 8645 |
| }, |
| { |
| "epoch": 2.1845333333333334, |
| "grad_norm": 3.8639373779296875, |
| "learning_rate": 1.752e-06, |
| "loss": 0.1274, |
| "step": 8650 |
| }, |
| { |
| "epoch": 2.1848666666666667, |
| "grad_norm": 3.1938366889953613, |
| "learning_rate": 1.7506206896551724e-06, |
| "loss": 0.112, |
| "step": 8655 |
| }, |
| { |
| "epoch": 2.1852, |
| "grad_norm": 4.140189170837402, |
| "learning_rate": 1.7492413793103446e-06, |
| "loss": 0.1369, |
| "step": 8660 |
| }, |
| { |
| "epoch": 2.1855333333333333, |
| "grad_norm": 3.9703152179718018, |
| "learning_rate": 1.7478620689655173e-06, |
| "loss": 0.1294, |
| "step": 8665 |
| }, |
| { |
| "epoch": 2.1858666666666666, |
| "grad_norm": 2.8397016525268555, |
| "learning_rate": 1.7464827586206897e-06, |
| "loss": 0.1847, |
| "step": 8670 |
| }, |
| { |
| "epoch": 2.1862, |
| "grad_norm": 4.075649261474609, |
| "learning_rate": 1.745103448275862e-06, |
| "loss": 0.1625, |
| "step": 8675 |
| }, |
| { |
| "epoch": 2.186533333333333, |
| "grad_norm": 3.020195484161377, |
| "learning_rate": 1.7437241379310344e-06, |
| "loss": 0.1815, |
| "step": 8680 |
| }, |
| { |
| "epoch": 2.1868666666666665, |
| "grad_norm": 4.173330307006836, |
| "learning_rate": 1.7423448275862066e-06, |
| "loss": 0.1307, |
| "step": 8685 |
| }, |
| { |
| "epoch": 2.1872, |
| "grad_norm": 3.982363224029541, |
| "learning_rate": 1.7409655172413793e-06, |
| "loss": 0.1613, |
| "step": 8690 |
| }, |
| { |
| "epoch": 2.1875333333333336, |
| "grad_norm": 4.021744728088379, |
| "learning_rate": 1.7395862068965517e-06, |
| "loss": 0.1755, |
| "step": 8695 |
| }, |
| { |
| "epoch": 2.187866666666667, |
| "grad_norm": 4.122310161590576, |
| "learning_rate": 1.738206896551724e-06, |
| "loss": 0.2093, |
| "step": 8700 |
| }, |
| { |
| "epoch": 2.1882, |
| "grad_norm": 3.324096441268921, |
| "learning_rate": 1.7368275862068964e-06, |
| "loss": 0.1626, |
| "step": 8705 |
| }, |
| { |
| "epoch": 2.1885333333333334, |
| "grad_norm": 3.9189541339874268, |
| "learning_rate": 1.735448275862069e-06, |
| "loss": 0.1557, |
| "step": 8710 |
| }, |
| { |
| "epoch": 2.1888666666666667, |
| "grad_norm": 4.058740615844727, |
| "learning_rate": 1.7340689655172413e-06, |
| "loss": 0.2072, |
| "step": 8715 |
| }, |
| { |
| "epoch": 2.1892, |
| "grad_norm": 4.0295610427856445, |
| "learning_rate": 1.7326896551724138e-06, |
| "loss": 0.1381, |
| "step": 8720 |
| }, |
| { |
| "epoch": 2.1895333333333333, |
| "grad_norm": 3.0452046394348145, |
| "learning_rate": 1.731310344827586e-06, |
| "loss": 0.193, |
| "step": 8725 |
| }, |
| { |
| "epoch": 2.1898666666666666, |
| "grad_norm": 3.2471485137939453, |
| "learning_rate": 1.7299310344827585e-06, |
| "loss": 0.1535, |
| "step": 8730 |
| }, |
| { |
| "epoch": 2.1902, |
| "grad_norm": 3.27593731880188, |
| "learning_rate": 1.7285517241379311e-06, |
| "loss": 0.1579, |
| "step": 8735 |
| }, |
| { |
| "epoch": 2.190533333333333, |
| "grad_norm": 2.973141670227051, |
| "learning_rate": 1.7271724137931034e-06, |
| "loss": 0.1329, |
| "step": 8740 |
| }, |
| { |
| "epoch": 2.1908666666666665, |
| "grad_norm": 3.8436200618743896, |
| "learning_rate": 1.7257931034482758e-06, |
| "loss": 0.1604, |
| "step": 8745 |
| }, |
| { |
| "epoch": 2.1912, |
| "grad_norm": 4.40897798538208, |
| "learning_rate": 1.724413793103448e-06, |
| "loss": 0.1805, |
| "step": 8750 |
| }, |
| { |
| "epoch": 2.191533333333333, |
| "grad_norm": 4.241269588470459, |
| "learning_rate": 1.7230344827586205e-06, |
| "loss": 0.1424, |
| "step": 8755 |
| }, |
| { |
| "epoch": 2.191866666666667, |
| "grad_norm": 3.716587781906128, |
| "learning_rate": 1.7216551724137932e-06, |
| "loss": 0.1395, |
| "step": 8760 |
| }, |
| { |
| "epoch": 2.1922, |
| "grad_norm": 4.128037929534912, |
| "learning_rate": 1.7202758620689654e-06, |
| "loss": 0.129, |
| "step": 8765 |
| }, |
| { |
| "epoch": 2.1925333333333334, |
| "grad_norm": 3.789893388748169, |
| "learning_rate": 1.7188965517241378e-06, |
| "loss": 0.1195, |
| "step": 8770 |
| }, |
| { |
| "epoch": 2.1928666666666667, |
| "grad_norm": 4.065726280212402, |
| "learning_rate": 1.7175172413793103e-06, |
| "loss": 0.1795, |
| "step": 8775 |
| }, |
| { |
| "epoch": 2.1932, |
| "grad_norm": 3.332552671432495, |
| "learning_rate": 1.7161379310344827e-06, |
| "loss": 0.1542, |
| "step": 8780 |
| }, |
| { |
| "epoch": 2.1935333333333333, |
| "grad_norm": 3.5648553371429443, |
| "learning_rate": 1.7147586206896552e-06, |
| "loss": 0.1336, |
| "step": 8785 |
| }, |
| { |
| "epoch": 2.1938666666666666, |
| "grad_norm": 2.74189829826355, |
| "learning_rate": 1.7133793103448274e-06, |
| "loss": 0.1145, |
| "step": 8790 |
| }, |
| { |
| "epoch": 2.1942, |
| "grad_norm": 6.111897945404053, |
| "learning_rate": 1.7119999999999999e-06, |
| "loss": 0.2038, |
| "step": 8795 |
| }, |
| { |
| "epoch": 2.1945333333333332, |
| "grad_norm": 4.204073905944824, |
| "learning_rate": 1.7106206896551723e-06, |
| "loss": 0.1419, |
| "step": 8800 |
| }, |
| { |
| "epoch": 2.1948666666666665, |
| "grad_norm": 3.7847278118133545, |
| "learning_rate": 1.7092413793103448e-06, |
| "loss": 0.1568, |
| "step": 8805 |
| }, |
| { |
| "epoch": 2.1952, |
| "grad_norm": 3.485211133956909, |
| "learning_rate": 1.7078620689655172e-06, |
| "loss": 0.1143, |
| "step": 8810 |
| }, |
| { |
| "epoch": 2.1955333333333336, |
| "grad_norm": 3.633013963699341, |
| "learning_rate": 1.7064827586206897e-06, |
| "loss": 0.1652, |
| "step": 8815 |
| }, |
| { |
| "epoch": 2.195866666666667, |
| "grad_norm": 4.063668727874756, |
| "learning_rate": 1.705103448275862e-06, |
| "loss": 0.1298, |
| "step": 8820 |
| }, |
| { |
| "epoch": 3.0001333333333333, |
| "grad_norm": 2.539724349975586, |
| "learning_rate": 1.7037241379310344e-06, |
| "loss": 0.1426, |
| "step": 8825 |
| }, |
| { |
| "epoch": 3.0004666666666666, |
| "grad_norm": 3.1480917930603027, |
| "learning_rate": 1.7023448275862068e-06, |
| "loss": 0.1267, |
| "step": 8830 |
| }, |
| { |
| "epoch": 3.0008, |
| "grad_norm": 2.630356550216675, |
| "learning_rate": 1.7009655172413793e-06, |
| "loss": 0.1082, |
| "step": 8835 |
| }, |
| { |
| "epoch": 3.001133333333333, |
| "grad_norm": 2.65017032623291, |
| "learning_rate": 1.6995862068965517e-06, |
| "loss": 0.1201, |
| "step": 8840 |
| }, |
| { |
| "epoch": 3.0014666666666665, |
| "grad_norm": 3.7857720851898193, |
| "learning_rate": 1.698206896551724e-06, |
| "loss": 0.1071, |
| "step": 8845 |
| }, |
| { |
| "epoch": 3.0018, |
| "grad_norm": 2.6381359100341797, |
| "learning_rate": 1.6968275862068964e-06, |
| "loss": 0.1171, |
| "step": 8850 |
| }, |
| { |
| "epoch": 3.0021333333333335, |
| "grad_norm": 3.8909502029418945, |
| "learning_rate": 1.695448275862069e-06, |
| "loss": 0.1487, |
| "step": 8855 |
| }, |
| { |
| "epoch": 3.002466666666667, |
| "grad_norm": 2.907451868057251, |
| "learning_rate": 1.6940689655172413e-06, |
| "loss": 0.0999, |
| "step": 8860 |
| }, |
| { |
| "epoch": 3.0028, |
| "grad_norm": 2.5638723373413086, |
| "learning_rate": 1.6926896551724137e-06, |
| "loss": 0.0943, |
| "step": 8865 |
| }, |
| { |
| "epoch": 3.0031333333333334, |
| "grad_norm": 3.138784408569336, |
| "learning_rate": 1.691310344827586e-06, |
| "loss": 0.1472, |
| "step": 8870 |
| }, |
| { |
| "epoch": 3.0034666666666667, |
| "grad_norm": 3.014455556869507, |
| "learning_rate": 1.6899310344827586e-06, |
| "loss": 0.099, |
| "step": 8875 |
| }, |
| { |
| "epoch": 3.0038, |
| "grad_norm": 3.37086820602417, |
| "learning_rate": 1.688551724137931e-06, |
| "loss": 0.1157, |
| "step": 8880 |
| }, |
| { |
| "epoch": 3.0041333333333333, |
| "grad_norm": 3.136986255645752, |
| "learning_rate": 1.6871724137931033e-06, |
| "loss": 0.1039, |
| "step": 8885 |
| }, |
| { |
| "epoch": 3.0044666666666666, |
| "grad_norm": 4.7203216552734375, |
| "learning_rate": 1.6857931034482758e-06, |
| "loss": 0.1345, |
| "step": 8890 |
| }, |
| { |
| "epoch": 3.0048, |
| "grad_norm": 3.3336660861968994, |
| "learning_rate": 1.6844137931034482e-06, |
| "loss": 0.1162, |
| "step": 8895 |
| }, |
| { |
| "epoch": 3.005133333333333, |
| "grad_norm": 3.5961718559265137, |
| "learning_rate": 1.6830344827586207e-06, |
| "loss": 0.1302, |
| "step": 8900 |
| }, |
| { |
| "epoch": 3.0054666666666665, |
| "grad_norm": 3.593472957611084, |
| "learning_rate": 1.6816551724137931e-06, |
| "loss": 0.1505, |
| "step": 8905 |
| }, |
| { |
| "epoch": 3.0058, |
| "grad_norm": 4.182474136352539, |
| "learning_rate": 1.6802758620689653e-06, |
| "loss": 0.1184, |
| "step": 8910 |
| }, |
| { |
| "epoch": 3.0061333333333335, |
| "grad_norm": 3.40610671043396, |
| "learning_rate": 1.6788965517241378e-06, |
| "loss": 0.0938, |
| "step": 8915 |
| }, |
| { |
| "epoch": 3.006466666666667, |
| "grad_norm": 3.2819924354553223, |
| "learning_rate": 1.6775172413793102e-06, |
| "loss": 0.1489, |
| "step": 8920 |
| }, |
| { |
| "epoch": 3.0068, |
| "grad_norm": 3.2076609134674072, |
| "learning_rate": 1.6761379310344827e-06, |
| "loss": 0.1239, |
| "step": 8925 |
| }, |
| { |
| "epoch": 3.0071333333333334, |
| "grad_norm": 4.770686149597168, |
| "learning_rate": 1.6747586206896551e-06, |
| "loss": 0.1569, |
| "step": 8930 |
| }, |
| { |
| "epoch": 3.0074666666666667, |
| "grad_norm": 3.113126516342163, |
| "learning_rate": 1.6733793103448276e-06, |
| "loss": 0.1053, |
| "step": 8935 |
| }, |
| { |
| "epoch": 3.0078, |
| "grad_norm": 4.634932994842529, |
| "learning_rate": 1.6719999999999998e-06, |
| "loss": 0.1118, |
| "step": 8940 |
| }, |
| { |
| "epoch": 3.0081333333333333, |
| "grad_norm": 3.3963279724121094, |
| "learning_rate": 1.6706206896551725e-06, |
| "loss": 0.1306, |
| "step": 8945 |
| }, |
| { |
| "epoch": 3.0084666666666666, |
| "grad_norm": 3.59763503074646, |
| "learning_rate": 1.6692413793103447e-06, |
| "loss": 0.1204, |
| "step": 8950 |
| }, |
| { |
| "epoch": 3.0088, |
| "grad_norm": 3.581852436065674, |
| "learning_rate": 1.6678620689655172e-06, |
| "loss": 0.0992, |
| "step": 8955 |
| }, |
| { |
| "epoch": 3.009133333333333, |
| "grad_norm": 3.3116209506988525, |
| "learning_rate": 1.6664827586206896e-06, |
| "loss": 0.1131, |
| "step": 8960 |
| }, |
| { |
| "epoch": 3.0094666666666665, |
| "grad_norm": 4.672176837921143, |
| "learning_rate": 1.6651034482758619e-06, |
| "loss": 0.1365, |
| "step": 8965 |
| }, |
| { |
| "epoch": 3.0098, |
| "grad_norm": 3.792673110961914, |
| "learning_rate": 1.6637241379310345e-06, |
| "loss": 0.1698, |
| "step": 8970 |
| }, |
| { |
| "epoch": 3.0101333333333335, |
| "grad_norm": 3.4112062454223633, |
| "learning_rate": 1.6623448275862068e-06, |
| "loss": 0.1381, |
| "step": 8975 |
| }, |
| { |
| "epoch": 3.010466666666667, |
| "grad_norm": 4.230578422546387, |
| "learning_rate": 1.6609655172413792e-06, |
| "loss": 0.1487, |
| "step": 8980 |
| }, |
| { |
| "epoch": 3.0108, |
| "grad_norm": 5.316370964050293, |
| "learning_rate": 1.6595862068965517e-06, |
| "loss": 0.115, |
| "step": 8985 |
| }, |
| { |
| "epoch": 3.0111333333333334, |
| "grad_norm": 3.447941303253174, |
| "learning_rate": 1.658206896551724e-06, |
| "loss": 0.1094, |
| "step": 8990 |
| }, |
| { |
| "epoch": 3.0114666666666667, |
| "grad_norm": 3.4434168338775635, |
| "learning_rate": 1.6568275862068966e-06, |
| "loss": 0.1602, |
| "step": 8995 |
| }, |
| { |
| "epoch": 3.0118, |
| "grad_norm": 4.347789764404297, |
| "learning_rate": 1.655448275862069e-06, |
| "loss": 0.1574, |
| "step": 9000 |
| }, |
| { |
| "epoch": 3.0118, |
| "eval_loss": 0.21846872568130493, |
| "eval_runtime": 137.2533, |
| "eval_samples_per_second": 4.371, |
| "eval_steps_per_second": 1.093, |
| "eval_wer": 11.169262190451876, |
| "step": 9000 |
| }, |
| { |
| "epoch": 3.0121333333333333, |
| "grad_norm": 4.629955291748047, |
| "learning_rate": 1.6540689655172412e-06, |
| "loss": 0.1379, |
| "step": 9005 |
| }, |
| { |
| "epoch": 3.0124666666666666, |
| "grad_norm": 2.9406256675720215, |
| "learning_rate": 1.6526896551724137e-06, |
| "loss": 0.1228, |
| "step": 9010 |
| }, |
| { |
| "epoch": 3.0128, |
| "grad_norm": 3.049663782119751, |
| "learning_rate": 1.651310344827586e-06, |
| "loss": 0.1293, |
| "step": 9015 |
| }, |
| { |
| "epoch": 3.013133333333333, |
| "grad_norm": 3.150233507156372, |
| "learning_rate": 1.6499310344827586e-06, |
| "loss": 0.1262, |
| "step": 9020 |
| }, |
| { |
| "epoch": 3.0134666666666665, |
| "grad_norm": 3.872096300125122, |
| "learning_rate": 1.648551724137931e-06, |
| "loss": 0.1841, |
| "step": 9025 |
| }, |
| { |
| "epoch": 3.0138, |
| "grad_norm": 3.682234048843384, |
| "learning_rate": 1.6471724137931033e-06, |
| "loss": 0.1454, |
| "step": 9030 |
| }, |
| { |
| "epoch": 3.0141333333333336, |
| "grad_norm": 2.8203773498535156, |
| "learning_rate": 1.6457931034482757e-06, |
| "loss": 0.1442, |
| "step": 9035 |
| }, |
| { |
| "epoch": 3.014466666666667, |
| "grad_norm": 3.316957712173462, |
| "learning_rate": 1.6444137931034484e-06, |
| "loss": 0.0985, |
| "step": 9040 |
| }, |
| { |
| "epoch": 3.0148, |
| "grad_norm": 3.019538402557373, |
| "learning_rate": 1.6430344827586206e-06, |
| "loss": 0.0923, |
| "step": 9045 |
| }, |
| { |
| "epoch": 3.0151333333333334, |
| "grad_norm": 3.5272879600524902, |
| "learning_rate": 1.641655172413793e-06, |
| "loss": 0.103, |
| "step": 9050 |
| }, |
| { |
| "epoch": 3.0154666666666667, |
| "grad_norm": 3.8035950660705566, |
| "learning_rate": 1.6402758620689653e-06, |
| "loss": 0.0966, |
| "step": 9055 |
| }, |
| { |
| "epoch": 3.0158, |
| "grad_norm": 2.990640640258789, |
| "learning_rate": 1.6388965517241378e-06, |
| "loss": 0.0944, |
| "step": 9060 |
| }, |
| { |
| "epoch": 3.0161333333333333, |
| "grad_norm": 3.5581140518188477, |
| "learning_rate": 1.6375172413793104e-06, |
| "loss": 0.1009, |
| "step": 9065 |
| }, |
| { |
| "epoch": 3.0164666666666666, |
| "grad_norm": 3.0962257385253906, |
| "learning_rate": 1.6361379310344827e-06, |
| "loss": 0.1072, |
| "step": 9070 |
| }, |
| { |
| "epoch": 3.0168, |
| "grad_norm": 4.13941764831543, |
| "learning_rate": 1.634758620689655e-06, |
| "loss": 0.1105, |
| "step": 9075 |
| }, |
| { |
| "epoch": 3.0171333333333332, |
| "grad_norm": 3.4292047023773193, |
| "learning_rate": 1.6333793103448276e-06, |
| "loss": 0.0997, |
| "step": 9080 |
| }, |
| { |
| "epoch": 3.0174666666666665, |
| "grad_norm": 4.204373359680176, |
| "learning_rate": 1.6319999999999998e-06, |
| "loss": 0.1125, |
| "step": 9085 |
| }, |
| { |
| "epoch": 3.0178, |
| "grad_norm": 3.8537063598632812, |
| "learning_rate": 1.6306206896551725e-06, |
| "loss": 0.1583, |
| "step": 9090 |
| }, |
| { |
| "epoch": 3.018133333333333, |
| "grad_norm": 3.4400527477264404, |
| "learning_rate": 1.6292413793103447e-06, |
| "loss": 0.1638, |
| "step": 9095 |
| }, |
| { |
| "epoch": 3.018466666666667, |
| "grad_norm": 4.959253787994385, |
| "learning_rate": 1.6278620689655171e-06, |
| "loss": 0.1298, |
| "step": 9100 |
| }, |
| { |
| "epoch": 3.0188, |
| "grad_norm": 3.712973117828369, |
| "learning_rate": 1.6264827586206896e-06, |
| "loss": 0.1006, |
| "step": 9105 |
| }, |
| { |
| "epoch": 3.0191333333333334, |
| "grad_norm": 4.025108814239502, |
| "learning_rate": 1.625103448275862e-06, |
| "loss": 0.1476, |
| "step": 9110 |
| }, |
| { |
| "epoch": 3.0194666666666667, |
| "grad_norm": 4.32798957824707, |
| "learning_rate": 1.6237241379310345e-06, |
| "loss": 0.1014, |
| "step": 9115 |
| }, |
| { |
| "epoch": 3.0198, |
| "grad_norm": 2.9364922046661377, |
| "learning_rate": 1.622344827586207e-06, |
| "loss": 0.123, |
| "step": 9120 |
| }, |
| { |
| "epoch": 3.0201333333333333, |
| "grad_norm": 4.004990577697754, |
| "learning_rate": 1.6209655172413792e-06, |
| "loss": 0.0987, |
| "step": 9125 |
| }, |
| { |
| "epoch": 3.0204666666666666, |
| "grad_norm": 4.291645050048828, |
| "learning_rate": 1.6195862068965516e-06, |
| "loss": 0.1219, |
| "step": 9130 |
| }, |
| { |
| "epoch": 3.0208, |
| "grad_norm": 3.9014573097229004, |
| "learning_rate": 1.618206896551724e-06, |
| "loss": 0.1313, |
| "step": 9135 |
| }, |
| { |
| "epoch": 3.0211333333333332, |
| "grad_norm": 3.630902051925659, |
| "learning_rate": 1.6168275862068965e-06, |
| "loss": 0.1452, |
| "step": 9140 |
| }, |
| { |
| "epoch": 3.0214666666666665, |
| "grad_norm": 3.670945167541504, |
| "learning_rate": 1.615448275862069e-06, |
| "loss": 0.1356, |
| "step": 9145 |
| }, |
| { |
| "epoch": 3.0218, |
| "grad_norm": 4.48456335067749, |
| "learning_rate": 1.6140689655172412e-06, |
| "loss": 0.1451, |
| "step": 9150 |
| }, |
| { |
| "epoch": 3.022133333333333, |
| "grad_norm": 2.9850361347198486, |
| "learning_rate": 1.6126896551724137e-06, |
| "loss": 0.0971, |
| "step": 9155 |
| }, |
| { |
| "epoch": 3.022466666666667, |
| "grad_norm": 3.8875746726989746, |
| "learning_rate": 1.6113103448275863e-06, |
| "loss": 0.1032, |
| "step": 9160 |
| }, |
| { |
| "epoch": 3.0228, |
| "grad_norm": 4.1555047035217285, |
| "learning_rate": 1.6099310344827585e-06, |
| "loss": 0.1318, |
| "step": 9165 |
| }, |
| { |
| "epoch": 3.0231333333333335, |
| "grad_norm": 3.7684998512268066, |
| "learning_rate": 1.608551724137931e-06, |
| "loss": 0.1098, |
| "step": 9170 |
| }, |
| { |
| "epoch": 3.0234666666666667, |
| "grad_norm": 3.7158780097961426, |
| "learning_rate": 1.6071724137931032e-06, |
| "loss": 0.1293, |
| "step": 9175 |
| }, |
| { |
| "epoch": 3.0238, |
| "grad_norm": 2.7922279834747314, |
| "learning_rate": 1.605793103448276e-06, |
| "loss": 0.1009, |
| "step": 9180 |
| }, |
| { |
| "epoch": 3.0241333333333333, |
| "grad_norm": 3.8994603157043457, |
| "learning_rate": 1.6044137931034483e-06, |
| "loss": 0.0957, |
| "step": 9185 |
| }, |
| { |
| "epoch": 3.0244666666666666, |
| "grad_norm": 3.6409683227539062, |
| "learning_rate": 1.6030344827586206e-06, |
| "loss": 0.1296, |
| "step": 9190 |
| }, |
| { |
| "epoch": 3.0248, |
| "grad_norm": 3.3072190284729004, |
| "learning_rate": 1.601655172413793e-06, |
| "loss": 0.1199, |
| "step": 9195 |
| }, |
| { |
| "epoch": 3.0251333333333332, |
| "grad_norm": 3.7103517055511475, |
| "learning_rate": 1.6002758620689653e-06, |
| "loss": 0.1251, |
| "step": 9200 |
| }, |
| { |
| "epoch": 3.0254666666666665, |
| "grad_norm": 3.9387073516845703, |
| "learning_rate": 1.598896551724138e-06, |
| "loss": 0.1474, |
| "step": 9205 |
| }, |
| { |
| "epoch": 3.0258, |
| "grad_norm": 3.7062556743621826, |
| "learning_rate": 1.5975172413793104e-06, |
| "loss": 0.1192, |
| "step": 9210 |
| }, |
| { |
| "epoch": 3.026133333333333, |
| "grad_norm": 5.077581405639648, |
| "learning_rate": 1.5961379310344826e-06, |
| "loss": 0.1502, |
| "step": 9215 |
| }, |
| { |
| "epoch": 3.026466666666667, |
| "grad_norm": 3.8413007259368896, |
| "learning_rate": 1.594758620689655e-06, |
| "loss": 0.1461, |
| "step": 9220 |
| }, |
| { |
| "epoch": 3.0268, |
| "grad_norm": 3.794663906097412, |
| "learning_rate": 1.5933793103448275e-06, |
| "loss": 0.135, |
| "step": 9225 |
| }, |
| { |
| "epoch": 3.0271333333333335, |
| "grad_norm": 4.478463649749756, |
| "learning_rate": 1.592e-06, |
| "loss": 0.1158, |
| "step": 9230 |
| }, |
| { |
| "epoch": 3.0274666666666668, |
| "grad_norm": 3.3673126697540283, |
| "learning_rate": 1.5906206896551724e-06, |
| "loss": 0.1139, |
| "step": 9235 |
| }, |
| { |
| "epoch": 3.0278, |
| "grad_norm": 3.524531602859497, |
| "learning_rate": 1.5892413793103446e-06, |
| "loss": 0.1568, |
| "step": 9240 |
| }, |
| { |
| "epoch": 3.0281333333333333, |
| "grad_norm": 4.0221638679504395, |
| "learning_rate": 1.587862068965517e-06, |
| "loss": 0.0987, |
| "step": 9245 |
| }, |
| { |
| "epoch": 3.0284666666666666, |
| "grad_norm": 2.6176412105560303, |
| "learning_rate": 1.5864827586206895e-06, |
| "loss": 0.178, |
| "step": 9250 |
| }, |
| { |
| "epoch": 3.0288, |
| "grad_norm": 3.5416202545166016, |
| "learning_rate": 1.585103448275862e-06, |
| "loss": 0.1024, |
| "step": 9255 |
| }, |
| { |
| "epoch": 3.0291333333333332, |
| "grad_norm": 3.216890335083008, |
| "learning_rate": 1.5837241379310344e-06, |
| "loss": 0.1159, |
| "step": 9260 |
| }, |
| { |
| "epoch": 3.0294666666666665, |
| "grad_norm": 3.4409103393554688, |
| "learning_rate": 1.5823448275862069e-06, |
| "loss": 0.1258, |
| "step": 9265 |
| }, |
| { |
| "epoch": 3.0298, |
| "grad_norm": 3.538853168487549, |
| "learning_rate": 1.5809655172413791e-06, |
| "loss": 0.1166, |
| "step": 9270 |
| }, |
| { |
| "epoch": 3.030133333333333, |
| "grad_norm": 4.390598297119141, |
| "learning_rate": 1.5795862068965518e-06, |
| "loss": 0.1306, |
| "step": 9275 |
| }, |
| { |
| "epoch": 3.030466666666667, |
| "grad_norm": 3.76890230178833, |
| "learning_rate": 1.578206896551724e-06, |
| "loss": 0.1081, |
| "step": 9280 |
| }, |
| { |
| "epoch": 3.0308, |
| "grad_norm": 2.9830398559570312, |
| "learning_rate": 1.5768275862068965e-06, |
| "loss": 0.1488, |
| "step": 9285 |
| }, |
| { |
| "epoch": 3.0311333333333335, |
| "grad_norm": 2.948573589324951, |
| "learning_rate": 1.575448275862069e-06, |
| "loss": 0.1535, |
| "step": 9290 |
| }, |
| { |
| "epoch": 3.0314666666666668, |
| "grad_norm": 3.2220051288604736, |
| "learning_rate": 1.5740689655172412e-06, |
| "loss": 0.0981, |
| "step": 9295 |
| }, |
| { |
| "epoch": 3.0318, |
| "grad_norm": 2.9556524753570557, |
| "learning_rate": 1.5726896551724138e-06, |
| "loss": 0.107, |
| "step": 9300 |
| }, |
| { |
| "epoch": 3.0321333333333333, |
| "grad_norm": 3.7836482524871826, |
| "learning_rate": 1.5713103448275863e-06, |
| "loss": 0.1021, |
| "step": 9305 |
| }, |
| { |
| "epoch": 3.0324666666666666, |
| "grad_norm": 4.98045015335083, |
| "learning_rate": 1.5699310344827585e-06, |
| "loss": 0.1473, |
| "step": 9310 |
| }, |
| { |
| "epoch": 3.0328, |
| "grad_norm": 3.7003581523895264, |
| "learning_rate": 1.568551724137931e-06, |
| "loss": 0.1, |
| "step": 9315 |
| }, |
| { |
| "epoch": 3.0331333333333332, |
| "grad_norm": 3.3061602115631104, |
| "learning_rate": 1.5671724137931032e-06, |
| "loss": 0.1711, |
| "step": 9320 |
| }, |
| { |
| "epoch": 3.0334666666666665, |
| "grad_norm": 3.595574140548706, |
| "learning_rate": 1.5657931034482759e-06, |
| "loss": 0.0951, |
| "step": 9325 |
| }, |
| { |
| "epoch": 3.0338, |
| "grad_norm": 3.2724099159240723, |
| "learning_rate": 1.5644137931034483e-06, |
| "loss": 0.1288, |
| "step": 9330 |
| }, |
| { |
| "epoch": 3.034133333333333, |
| "grad_norm": 3.070297956466675, |
| "learning_rate": 1.5630344827586205e-06, |
| "loss": 0.104, |
| "step": 9335 |
| }, |
| { |
| "epoch": 3.034466666666667, |
| "grad_norm": 2.6131012439727783, |
| "learning_rate": 1.561655172413793e-06, |
| "loss": 0.1194, |
| "step": 9340 |
| }, |
| { |
| "epoch": 3.0348, |
| "grad_norm": 3.4743731021881104, |
| "learning_rate": 1.5602758620689657e-06, |
| "loss": 0.108, |
| "step": 9345 |
| }, |
| { |
| "epoch": 3.0351333333333335, |
| "grad_norm": 3.9024970531463623, |
| "learning_rate": 1.5588965517241379e-06, |
| "loss": 0.1121, |
| "step": 9350 |
| }, |
| { |
| "epoch": 3.0354666666666668, |
| "grad_norm": 3.286496639251709, |
| "learning_rate": 1.5575172413793103e-06, |
| "loss": 0.1236, |
| "step": 9355 |
| }, |
| { |
| "epoch": 3.0358, |
| "grad_norm": 3.407349109649658, |
| "learning_rate": 1.5561379310344826e-06, |
| "loss": 0.1252, |
| "step": 9360 |
| }, |
| { |
| "epoch": 3.0361333333333334, |
| "grad_norm": 2.8448264598846436, |
| "learning_rate": 1.554758620689655e-06, |
| "loss": 0.1137, |
| "step": 9365 |
| }, |
| { |
| "epoch": 3.0364666666666666, |
| "grad_norm": 3.4842593669891357, |
| "learning_rate": 1.5533793103448277e-06, |
| "loss": 0.1318, |
| "step": 9370 |
| }, |
| { |
| "epoch": 3.0368, |
| "grad_norm": 3.5775935649871826, |
| "learning_rate": 1.552e-06, |
| "loss": 0.1709, |
| "step": 9375 |
| }, |
| { |
| "epoch": 3.0371333333333332, |
| "grad_norm": 3.455056667327881, |
| "learning_rate": 1.5506206896551724e-06, |
| "loss": 0.1124, |
| "step": 9380 |
| }, |
| { |
| "epoch": 3.0374666666666665, |
| "grad_norm": 3.249504327774048, |
| "learning_rate": 1.5492413793103446e-06, |
| "loss": 0.1136, |
| "step": 9385 |
| }, |
| { |
| "epoch": 3.0378, |
| "grad_norm": 3.305485725402832, |
| "learning_rate": 1.547862068965517e-06, |
| "loss": 0.1115, |
| "step": 9390 |
| }, |
| { |
| "epoch": 3.038133333333333, |
| "grad_norm": 4.278693675994873, |
| "learning_rate": 1.5464827586206897e-06, |
| "loss": 0.1098, |
| "step": 9395 |
| }, |
| { |
| "epoch": 3.038466666666667, |
| "grad_norm": 3.5658819675445557, |
| "learning_rate": 1.545103448275862e-06, |
| "loss": 0.1377, |
| "step": 9400 |
| }, |
| { |
| "epoch": 3.0388, |
| "grad_norm": 4.900520324707031, |
| "learning_rate": 1.5437241379310344e-06, |
| "loss": 0.1896, |
| "step": 9405 |
| }, |
| { |
| "epoch": 3.0391333333333335, |
| "grad_norm": 3.2976443767547607, |
| "learning_rate": 1.5423448275862069e-06, |
| "loss": 0.0946, |
| "step": 9410 |
| }, |
| { |
| "epoch": 3.0394666666666668, |
| "grad_norm": 3.0675580501556396, |
| "learning_rate": 1.540965517241379e-06, |
| "loss": 0.1338, |
| "step": 9415 |
| }, |
| { |
| "epoch": 3.0398, |
| "grad_norm": 4.276395320892334, |
| "learning_rate": 1.5395862068965517e-06, |
| "loss": 0.1532, |
| "step": 9420 |
| }, |
| { |
| "epoch": 3.0401333333333334, |
| "grad_norm": 4.125718116760254, |
| "learning_rate": 1.538206896551724e-06, |
| "loss": 0.1116, |
| "step": 9425 |
| }, |
| { |
| "epoch": 3.0404666666666667, |
| "grad_norm": 3.7554707527160645, |
| "learning_rate": 1.5368275862068964e-06, |
| "loss": 0.1458, |
| "step": 9430 |
| }, |
| { |
| "epoch": 3.0408, |
| "grad_norm": 3.5874321460723877, |
| "learning_rate": 1.5354482758620689e-06, |
| "loss": 0.1216, |
| "step": 9435 |
| }, |
| { |
| "epoch": 3.0411333333333332, |
| "grad_norm": 3.19573712348938, |
| "learning_rate": 1.5340689655172413e-06, |
| "loss": 0.0801, |
| "step": 9440 |
| }, |
| { |
| "epoch": 3.0414666666666665, |
| "grad_norm": 3.8198704719543457, |
| "learning_rate": 1.5326896551724138e-06, |
| "loss": 0.1825, |
| "step": 9445 |
| }, |
| { |
| "epoch": 3.0418, |
| "grad_norm": 3.6654012203216553, |
| "learning_rate": 1.5313103448275862e-06, |
| "loss": 0.1006, |
| "step": 9450 |
| }, |
| { |
| "epoch": 3.042133333333333, |
| "grad_norm": 3.8197760581970215, |
| "learning_rate": 1.5299310344827585e-06, |
| "loss": 0.1144, |
| "step": 9455 |
| }, |
| { |
| "epoch": 3.042466666666667, |
| "grad_norm": 3.896749496459961, |
| "learning_rate": 1.528551724137931e-06, |
| "loss": 0.0974, |
| "step": 9460 |
| }, |
| { |
| "epoch": 3.0428, |
| "grad_norm": 4.4020094871521, |
| "learning_rate": 1.5271724137931034e-06, |
| "loss": 0.1439, |
| "step": 9465 |
| }, |
| { |
| "epoch": 3.0431333333333335, |
| "grad_norm": 4.44556999206543, |
| "learning_rate": 1.5257931034482758e-06, |
| "loss": 0.1212, |
| "step": 9470 |
| }, |
| { |
| "epoch": 3.0434666666666668, |
| "grad_norm": 4.154641151428223, |
| "learning_rate": 1.5244137931034483e-06, |
| "loss": 0.1355, |
| "step": 9475 |
| }, |
| { |
| "epoch": 3.0438, |
| "grad_norm": 3.2818968296051025, |
| "learning_rate": 1.5230344827586205e-06, |
| "loss": 0.1138, |
| "step": 9480 |
| }, |
| { |
| "epoch": 3.0441333333333334, |
| "grad_norm": 3.9070241451263428, |
| "learning_rate": 1.521655172413793e-06, |
| "loss": 0.0923, |
| "step": 9485 |
| }, |
| { |
| "epoch": 3.0444666666666667, |
| "grad_norm": 4.5131330490112305, |
| "learning_rate": 1.5202758620689656e-06, |
| "loss": 0.1586, |
| "step": 9490 |
| }, |
| { |
| "epoch": 3.0448, |
| "grad_norm": 3.2859296798706055, |
| "learning_rate": 1.5188965517241378e-06, |
| "loss": 0.1002, |
| "step": 9495 |
| }, |
| { |
| "epoch": 3.0451333333333332, |
| "grad_norm": 3.572122812271118, |
| "learning_rate": 1.5175172413793103e-06, |
| "loss": 0.101, |
| "step": 9500 |
| }, |
| { |
| "epoch": 3.0454666666666665, |
| "grad_norm": 3.683112859725952, |
| "learning_rate": 1.5161379310344825e-06, |
| "loss": 0.1152, |
| "step": 9505 |
| }, |
| { |
| "epoch": 3.0458, |
| "grad_norm": 3.89717173576355, |
| "learning_rate": 1.5147586206896552e-06, |
| "loss": 0.1109, |
| "step": 9510 |
| }, |
| { |
| "epoch": 3.046133333333333, |
| "grad_norm": 3.888115882873535, |
| "learning_rate": 1.5133793103448276e-06, |
| "loss": 0.1373, |
| "step": 9515 |
| }, |
| { |
| "epoch": 3.046466666666667, |
| "grad_norm": 3.9829416275024414, |
| "learning_rate": 1.5119999999999999e-06, |
| "loss": 0.1088, |
| "step": 9520 |
| }, |
| { |
| "epoch": 3.0468, |
| "grad_norm": 3.8838016986846924, |
| "learning_rate": 1.5106206896551723e-06, |
| "loss": 0.1375, |
| "step": 9525 |
| }, |
| { |
| "epoch": 3.0471333333333335, |
| "grad_norm": 3.7164580821990967, |
| "learning_rate": 1.5092413793103448e-06, |
| "loss": 0.106, |
| "step": 9530 |
| }, |
| { |
| "epoch": 3.0474666666666668, |
| "grad_norm": 4.986276626586914, |
| "learning_rate": 1.5078620689655172e-06, |
| "loss": 0.1528, |
| "step": 9535 |
| }, |
| { |
| "epoch": 3.0478, |
| "grad_norm": 3.253887891769409, |
| "learning_rate": 1.5064827586206897e-06, |
| "loss": 0.141, |
| "step": 9540 |
| }, |
| { |
| "epoch": 3.0481333333333334, |
| "grad_norm": 3.3866772651672363, |
| "learning_rate": 1.505103448275862e-06, |
| "loss": 0.0878, |
| "step": 9545 |
| }, |
| { |
| "epoch": 3.0484666666666667, |
| "grad_norm": 3.6049654483795166, |
| "learning_rate": 1.5037241379310344e-06, |
| "loss": 0.1425, |
| "step": 9550 |
| }, |
| { |
| "epoch": 3.0488, |
| "grad_norm": 3.2754223346710205, |
| "learning_rate": 1.5023448275862068e-06, |
| "loss": 0.0803, |
| "step": 9555 |
| }, |
| { |
| "epoch": 3.0491333333333333, |
| "grad_norm": 3.4710190296173096, |
| "learning_rate": 1.5009655172413793e-06, |
| "loss": 0.1079, |
| "step": 9560 |
| }, |
| { |
| "epoch": 3.0494666666666665, |
| "grad_norm": 3.296415328979492, |
| "learning_rate": 1.4995862068965517e-06, |
| "loss": 0.1512, |
| "step": 9565 |
| }, |
| { |
| "epoch": 3.0498, |
| "grad_norm": 3.700373649597168, |
| "learning_rate": 1.4982068965517242e-06, |
| "loss": 0.1188, |
| "step": 9570 |
| }, |
| { |
| "epoch": 3.050133333333333, |
| "grad_norm": 3.681427478790283, |
| "learning_rate": 1.4968275862068964e-06, |
| "loss": 0.1179, |
| "step": 9575 |
| }, |
| { |
| "epoch": 3.050466666666667, |
| "grad_norm": 3.5094079971313477, |
| "learning_rate": 1.495448275862069e-06, |
| "loss": 0.1084, |
| "step": 9580 |
| }, |
| { |
| "epoch": 3.0508, |
| "grad_norm": 3.996792793273926, |
| "learning_rate": 1.4940689655172413e-06, |
| "loss": 0.1275, |
| "step": 9585 |
| }, |
| { |
| "epoch": 3.0511333333333335, |
| "grad_norm": 5.432217121124268, |
| "learning_rate": 1.4926896551724137e-06, |
| "loss": 0.1819, |
| "step": 9590 |
| }, |
| { |
| "epoch": 3.0514666666666668, |
| "grad_norm": 3.9535973072052, |
| "learning_rate": 1.4913103448275862e-06, |
| "loss": 0.1462, |
| "step": 9595 |
| }, |
| { |
| "epoch": 3.0518, |
| "grad_norm": 3.6771373748779297, |
| "learning_rate": 1.4899310344827584e-06, |
| "loss": 0.1605, |
| "step": 9600 |
| }, |
| { |
| "epoch": 3.0521333333333334, |
| "grad_norm": 3.2249722480773926, |
| "learning_rate": 1.488551724137931e-06, |
| "loss": 0.0955, |
| "step": 9605 |
| }, |
| { |
| "epoch": 3.0524666666666667, |
| "grad_norm": 3.5227978229522705, |
| "learning_rate": 1.4871724137931033e-06, |
| "loss": 0.1154, |
| "step": 9610 |
| }, |
| { |
| "epoch": 3.0528, |
| "grad_norm": 4.009605884552002, |
| "learning_rate": 1.4857931034482758e-06, |
| "loss": 0.0897, |
| "step": 9615 |
| }, |
| { |
| "epoch": 3.0531333333333333, |
| "grad_norm": 3.666917085647583, |
| "learning_rate": 1.4844137931034482e-06, |
| "loss": 0.1192, |
| "step": 9620 |
| }, |
| { |
| "epoch": 3.0534666666666666, |
| "grad_norm": 3.558495044708252, |
| "learning_rate": 1.4830344827586205e-06, |
| "loss": 0.114, |
| "step": 9625 |
| }, |
| { |
| "epoch": 3.0538, |
| "grad_norm": 3.240527868270874, |
| "learning_rate": 1.4816551724137931e-06, |
| "loss": 0.1303, |
| "step": 9630 |
| }, |
| { |
| "epoch": 3.054133333333333, |
| "grad_norm": 3.1053049564361572, |
| "learning_rate": 1.4802758620689656e-06, |
| "loss": 0.1656, |
| "step": 9635 |
| }, |
| { |
| "epoch": 3.0544666666666664, |
| "grad_norm": 3.117603302001953, |
| "learning_rate": 1.4788965517241378e-06, |
| "loss": 0.1524, |
| "step": 9640 |
| }, |
| { |
| "epoch": 3.0548, |
| "grad_norm": 4.373559474945068, |
| "learning_rate": 1.4775172413793103e-06, |
| "loss": 0.1529, |
| "step": 9645 |
| }, |
| { |
| "epoch": 3.0551333333333335, |
| "grad_norm": 3.975339651107788, |
| "learning_rate": 1.4761379310344825e-06, |
| "loss": 0.1055, |
| "step": 9650 |
| }, |
| { |
| "epoch": 3.0554666666666668, |
| "grad_norm": 3.0194833278656006, |
| "learning_rate": 1.4747586206896552e-06, |
| "loss": 0.1193, |
| "step": 9655 |
| }, |
| { |
| "epoch": 3.0558, |
| "grad_norm": 3.9133169651031494, |
| "learning_rate": 1.4733793103448276e-06, |
| "loss": 0.1242, |
| "step": 9660 |
| }, |
| { |
| "epoch": 3.0561333333333334, |
| "grad_norm": 3.7636635303497314, |
| "learning_rate": 1.4719999999999998e-06, |
| "loss": 0.1188, |
| "step": 9665 |
| }, |
| { |
| "epoch": 3.0564666666666667, |
| "grad_norm": 3.161651611328125, |
| "learning_rate": 1.4706206896551723e-06, |
| "loss": 0.1249, |
| "step": 9670 |
| }, |
| { |
| "epoch": 3.0568, |
| "grad_norm": 4.220159530639648, |
| "learning_rate": 1.469241379310345e-06, |
| "loss": 0.1324, |
| "step": 9675 |
| }, |
| { |
| "epoch": 3.0571333333333333, |
| "grad_norm": 3.3463799953460693, |
| "learning_rate": 1.4678620689655172e-06, |
| "loss": 0.1052, |
| "step": 9680 |
| }, |
| { |
| "epoch": 3.0574666666666666, |
| "grad_norm": 3.6713685989379883, |
| "learning_rate": 1.4664827586206896e-06, |
| "loss": 0.1138, |
| "step": 9685 |
| }, |
| { |
| "epoch": 3.0578, |
| "grad_norm": 3.3017044067382812, |
| "learning_rate": 1.4651034482758619e-06, |
| "loss": 0.0956, |
| "step": 9690 |
| }, |
| { |
| "epoch": 3.058133333333333, |
| "grad_norm": 3.7839577198028564, |
| "learning_rate": 1.4637241379310343e-06, |
| "loss": 0.1298, |
| "step": 9695 |
| }, |
| { |
| "epoch": 3.058466666666667, |
| "grad_norm": 4.022205829620361, |
| "learning_rate": 1.462344827586207e-06, |
| "loss": 0.1257, |
| "step": 9700 |
| }, |
| { |
| "epoch": 3.0588, |
| "grad_norm": 3.567577362060547, |
| "learning_rate": 1.4609655172413792e-06, |
| "loss": 0.1509, |
| "step": 9705 |
| }, |
| { |
| "epoch": 3.0591333333333335, |
| "grad_norm": 3.810065746307373, |
| "learning_rate": 1.4595862068965517e-06, |
| "loss": 0.0986, |
| "step": 9710 |
| }, |
| { |
| "epoch": 3.059466666666667, |
| "grad_norm": 3.9192984104156494, |
| "learning_rate": 1.4582068965517241e-06, |
| "loss": 0.0969, |
| "step": 9715 |
| }, |
| { |
| "epoch": 3.0598, |
| "grad_norm": 4.7874250411987305, |
| "learning_rate": 1.4568275862068964e-06, |
| "loss": 0.1261, |
| "step": 9720 |
| }, |
| { |
| "epoch": 3.0601333333333334, |
| "grad_norm": 3.218153715133667, |
| "learning_rate": 1.455448275862069e-06, |
| "loss": 0.1053, |
| "step": 9725 |
| }, |
| { |
| "epoch": 3.0604666666666667, |
| "grad_norm": 3.207300901412964, |
| "learning_rate": 1.4540689655172413e-06, |
| "loss": 0.1198, |
| "step": 9730 |
| }, |
| { |
| "epoch": 3.0608, |
| "grad_norm": 3.807784080505371, |
| "learning_rate": 1.4526896551724137e-06, |
| "loss": 0.099, |
| "step": 9735 |
| }, |
| { |
| "epoch": 3.0611333333333333, |
| "grad_norm": 2.9800631999969482, |
| "learning_rate": 1.4513103448275862e-06, |
| "loss": 0.1319, |
| "step": 9740 |
| }, |
| { |
| "epoch": 3.0614666666666666, |
| "grad_norm": 3.1332738399505615, |
| "learning_rate": 1.4499310344827586e-06, |
| "loss": 0.12, |
| "step": 9745 |
| }, |
| { |
| "epoch": 3.0618, |
| "grad_norm": 3.5641047954559326, |
| "learning_rate": 1.448551724137931e-06, |
| "loss": 0.1227, |
| "step": 9750 |
| }, |
| { |
| "epoch": 3.062133333333333, |
| "grad_norm": 3.4133753776550293, |
| "learning_rate": 1.4471724137931035e-06, |
| "loss": 0.1168, |
| "step": 9755 |
| }, |
| { |
| "epoch": 3.0624666666666664, |
| "grad_norm": 3.5068392753601074, |
| "learning_rate": 1.4457931034482757e-06, |
| "loss": 0.1518, |
| "step": 9760 |
| }, |
| { |
| "epoch": 3.0628, |
| "grad_norm": 2.3612239360809326, |
| "learning_rate": 1.4444137931034482e-06, |
| "loss": 0.0918, |
| "step": 9765 |
| }, |
| { |
| "epoch": 3.0631333333333335, |
| "grad_norm": 4.133335590362549, |
| "learning_rate": 1.4430344827586206e-06, |
| "loss": 0.1128, |
| "step": 9770 |
| }, |
| { |
| "epoch": 3.063466666666667, |
| "grad_norm": 3.4736006259918213, |
| "learning_rate": 1.441655172413793e-06, |
| "loss": 0.1219, |
| "step": 9775 |
| }, |
| { |
| "epoch": 3.0638, |
| "grad_norm": 3.0375216007232666, |
| "learning_rate": 1.4402758620689655e-06, |
| "loss": 0.152, |
| "step": 9780 |
| }, |
| { |
| "epoch": 3.0641333333333334, |
| "grad_norm": 3.7021749019622803, |
| "learning_rate": 1.4388965517241378e-06, |
| "loss": 0.1079, |
| "step": 9785 |
| }, |
| { |
| "epoch": 3.0644666666666667, |
| "grad_norm": 3.4906094074249268, |
| "learning_rate": 1.4375172413793102e-06, |
| "loss": 0.1222, |
| "step": 9790 |
| }, |
| { |
| "epoch": 3.0648, |
| "grad_norm": 3.8730874061584473, |
| "learning_rate": 1.4361379310344829e-06, |
| "loss": 0.1111, |
| "step": 9795 |
| }, |
| { |
| "epoch": 3.0651333333333333, |
| "grad_norm": 4.699617862701416, |
| "learning_rate": 1.4347586206896551e-06, |
| "loss": 0.1974, |
| "step": 9800 |
| }, |
| { |
| "epoch": 3.0654666666666666, |
| "grad_norm": 4.562955379486084, |
| "learning_rate": 1.4333793103448276e-06, |
| "loss": 0.1446, |
| "step": 9805 |
| }, |
| { |
| "epoch": 3.0658, |
| "grad_norm": 2.8153727054595947, |
| "learning_rate": 1.4319999999999998e-06, |
| "loss": 0.0916, |
| "step": 9810 |
| }, |
| { |
| "epoch": 3.066133333333333, |
| "grad_norm": 4.157346725463867, |
| "learning_rate": 1.4306206896551722e-06, |
| "loss": 0.1048, |
| "step": 9815 |
| }, |
| { |
| "epoch": 3.0664666666666665, |
| "grad_norm": 3.464782953262329, |
| "learning_rate": 1.429241379310345e-06, |
| "loss": 0.1086, |
| "step": 9820 |
| }, |
| { |
| "epoch": 3.0668, |
| "grad_norm": 3.7958030700683594, |
| "learning_rate": 1.4278620689655171e-06, |
| "loss": 0.1103, |
| "step": 9825 |
| }, |
| { |
| "epoch": 3.0671333333333335, |
| "grad_norm": 3.587458610534668, |
| "learning_rate": 1.4264827586206896e-06, |
| "loss": 0.1302, |
| "step": 9830 |
| }, |
| { |
| "epoch": 3.067466666666667, |
| "grad_norm": 4.161714553833008, |
| "learning_rate": 1.4251034482758618e-06, |
| "loss": 0.1429, |
| "step": 9835 |
| }, |
| { |
| "epoch": 3.0678, |
| "grad_norm": 3.2464241981506348, |
| "learning_rate": 1.4237241379310345e-06, |
| "loss": 0.1039, |
| "step": 9840 |
| }, |
| { |
| "epoch": 3.0681333333333334, |
| "grad_norm": 3.8423023223876953, |
| "learning_rate": 1.422344827586207e-06, |
| "loss": 0.1276, |
| "step": 9845 |
| }, |
| { |
| "epoch": 3.0684666666666667, |
| "grad_norm": 4.572516441345215, |
| "learning_rate": 1.4209655172413792e-06, |
| "loss": 0.108, |
| "step": 9850 |
| }, |
| { |
| "epoch": 3.0688, |
| "grad_norm": 2.6932926177978516, |
| "learning_rate": 1.4195862068965516e-06, |
| "loss": 0.1196, |
| "step": 9855 |
| }, |
| { |
| "epoch": 3.0691333333333333, |
| "grad_norm": 3.200352668762207, |
| "learning_rate": 1.418206896551724e-06, |
| "loss": 0.1391, |
| "step": 9860 |
| }, |
| { |
| "epoch": 3.0694666666666666, |
| "grad_norm": 3.707923412322998, |
| "learning_rate": 1.4168275862068965e-06, |
| "loss": 0.1172, |
| "step": 9865 |
| }, |
| { |
| "epoch": 3.0698, |
| "grad_norm": 3.586658239364624, |
| "learning_rate": 1.415448275862069e-06, |
| "loss": 0.1073, |
| "step": 9870 |
| }, |
| { |
| "epoch": 3.070133333333333, |
| "grad_norm": 3.9943246841430664, |
| "learning_rate": 1.4140689655172412e-06, |
| "loss": 0.1422, |
| "step": 9875 |
| }, |
| { |
| "epoch": 3.0704666666666665, |
| "grad_norm": 4.525385856628418, |
| "learning_rate": 1.4126896551724137e-06, |
| "loss": 0.1369, |
| "step": 9880 |
| }, |
| { |
| "epoch": 3.0708, |
| "grad_norm": 4.468423366546631, |
| "learning_rate": 1.4113103448275861e-06, |
| "loss": 0.116, |
| "step": 9885 |
| }, |
| { |
| "epoch": 3.0711333333333335, |
| "grad_norm": 3.3256771564483643, |
| "learning_rate": 1.4099310344827586e-06, |
| "loss": 0.0963, |
| "step": 9890 |
| }, |
| { |
| "epoch": 3.071466666666667, |
| "grad_norm": 4.154018878936768, |
| "learning_rate": 1.408551724137931e-06, |
| "loss": 0.1406, |
| "step": 9895 |
| }, |
| { |
| "epoch": 3.0718, |
| "grad_norm": 3.431687355041504, |
| "learning_rate": 1.4071724137931035e-06, |
| "loss": 0.1075, |
| "step": 9900 |
| }, |
| { |
| "epoch": 3.0721333333333334, |
| "grad_norm": 3.103231430053711, |
| "learning_rate": 1.4057931034482757e-06, |
| "loss": 0.1221, |
| "step": 9905 |
| }, |
| { |
| "epoch": 3.0724666666666667, |
| "grad_norm": 4.421375274658203, |
| "learning_rate": 1.4044137931034484e-06, |
| "loss": 0.1375, |
| "step": 9910 |
| }, |
| { |
| "epoch": 3.0728, |
| "grad_norm": 4.023528099060059, |
| "learning_rate": 1.4030344827586206e-06, |
| "loss": 0.1186, |
| "step": 9915 |
| }, |
| { |
| "epoch": 3.0731333333333333, |
| "grad_norm": 4.148938179016113, |
| "learning_rate": 1.401655172413793e-06, |
| "loss": 0.1501, |
| "step": 9920 |
| }, |
| { |
| "epoch": 3.0734666666666666, |
| "grad_norm": 3.775146961212158, |
| "learning_rate": 1.4002758620689655e-06, |
| "loss": 0.1143, |
| "step": 9925 |
| }, |
| { |
| "epoch": 3.0738, |
| "grad_norm": 4.040100574493408, |
| "learning_rate": 1.3988965517241377e-06, |
| "loss": 0.1075, |
| "step": 9930 |
| }, |
| { |
| "epoch": 3.074133333333333, |
| "grad_norm": 3.866244077682495, |
| "learning_rate": 1.3975172413793104e-06, |
| "loss": 0.1283, |
| "step": 9935 |
| }, |
| { |
| "epoch": 3.0744666666666665, |
| "grad_norm": 4.490005016326904, |
| "learning_rate": 1.3961379310344828e-06, |
| "loss": 0.1203, |
| "step": 9940 |
| }, |
| { |
| "epoch": 3.0748, |
| "grad_norm": 4.239720344543457, |
| "learning_rate": 1.394758620689655e-06, |
| "loss": 0.1289, |
| "step": 9945 |
| }, |
| { |
| "epoch": 3.0751333333333335, |
| "grad_norm": 4.578120231628418, |
| "learning_rate": 1.3933793103448275e-06, |
| "loss": 0.1052, |
| "step": 9950 |
| }, |
| { |
| "epoch": 3.075466666666667, |
| "grad_norm": 4.03363561630249, |
| "learning_rate": 1.3919999999999998e-06, |
| "loss": 0.1028, |
| "step": 9955 |
| }, |
| { |
| "epoch": 3.0758, |
| "grad_norm": 3.7015795707702637, |
| "learning_rate": 1.3906206896551724e-06, |
| "loss": 0.1433, |
| "step": 9960 |
| }, |
| { |
| "epoch": 3.0761333333333334, |
| "grad_norm": 4.1098175048828125, |
| "learning_rate": 1.3892413793103449e-06, |
| "loss": 0.1442, |
| "step": 9965 |
| }, |
| { |
| "epoch": 3.0764666666666667, |
| "grad_norm": 4.897979736328125, |
| "learning_rate": 1.387862068965517e-06, |
| "loss": 0.1361, |
| "step": 9970 |
| }, |
| { |
| "epoch": 3.0768, |
| "grad_norm": 4.547065734863281, |
| "learning_rate": 1.3864827586206896e-06, |
| "loss": 0.1468, |
| "step": 9975 |
| }, |
| { |
| "epoch": 3.0771333333333333, |
| "grad_norm": 2.948629140853882, |
| "learning_rate": 1.3851034482758618e-06, |
| "loss": 0.1342, |
| "step": 9980 |
| }, |
| { |
| "epoch": 3.0774666666666666, |
| "grad_norm": 3.9705653190612793, |
| "learning_rate": 1.3837241379310345e-06, |
| "loss": 0.1195, |
| "step": 9985 |
| }, |
| { |
| "epoch": 3.0778, |
| "grad_norm": 5.227104187011719, |
| "learning_rate": 1.382344827586207e-06, |
| "loss": 0.1707, |
| "step": 9990 |
| }, |
| { |
| "epoch": 3.078133333333333, |
| "grad_norm": 4.129624843597412, |
| "learning_rate": 1.3809655172413791e-06, |
| "loss": 0.1454, |
| "step": 9995 |
| }, |
| { |
| "epoch": 3.0784666666666665, |
| "grad_norm": 3.8669140338897705, |
| "learning_rate": 1.3795862068965516e-06, |
| "loss": 0.1414, |
| "step": 10000 |
| }, |
| { |
| "epoch": 3.0784666666666665, |
| "eval_loss": 0.2151545137166977, |
| "eval_runtime": 138.0545, |
| "eval_samples_per_second": 4.346, |
| "eval_steps_per_second": 1.087, |
| "eval_wer": 11.13096757722747, |
| "step": 10000 |
| }, |
| { |
| "epoch": 3.0788, |
| "grad_norm": 3.996640682220459, |
| "learning_rate": 1.3782068965517242e-06, |
| "loss": 0.1244, |
| "step": 10005 |
| }, |
| { |
| "epoch": 3.0791333333333335, |
| "grad_norm": 3.5360796451568604, |
| "learning_rate": 1.3768275862068965e-06, |
| "loss": 0.1091, |
| "step": 10010 |
| }, |
| { |
| "epoch": 3.079466666666667, |
| "grad_norm": 3.8392021656036377, |
| "learning_rate": 1.375448275862069e-06, |
| "loss": 0.1368, |
| "step": 10015 |
| }, |
| { |
| "epoch": 3.0798, |
| "grad_norm": 3.7925262451171875, |
| "learning_rate": 1.3740689655172412e-06, |
| "loss": 0.1524, |
| "step": 10020 |
| }, |
| { |
| "epoch": 3.0801333333333334, |
| "grad_norm": 4.564311504364014, |
| "learning_rate": 1.3726896551724136e-06, |
| "loss": 0.1555, |
| "step": 10025 |
| }, |
| { |
| "epoch": 3.0804666666666667, |
| "grad_norm": 3.548948287963867, |
| "learning_rate": 1.3713103448275863e-06, |
| "loss": 0.1373, |
| "step": 10030 |
| }, |
| { |
| "epoch": 3.0808, |
| "grad_norm": 3.7858855724334717, |
| "learning_rate": 1.3699310344827585e-06, |
| "loss": 0.1649, |
| "step": 10035 |
| }, |
| { |
| "epoch": 3.0811333333333333, |
| "grad_norm": 3.785684585571289, |
| "learning_rate": 1.368551724137931e-06, |
| "loss": 0.1519, |
| "step": 10040 |
| }, |
| { |
| "epoch": 3.0814666666666666, |
| "grad_norm": 3.667558193206787, |
| "learning_rate": 1.3671724137931034e-06, |
| "loss": 0.1295, |
| "step": 10045 |
| }, |
| { |
| "epoch": 3.0818, |
| "grad_norm": 3.5948028564453125, |
| "learning_rate": 1.3657931034482757e-06, |
| "loss": 0.1146, |
| "step": 10050 |
| }, |
| { |
| "epoch": 3.082133333333333, |
| "grad_norm": 3.646559000015259, |
| "learning_rate": 1.3644137931034483e-06, |
| "loss": 0.1156, |
| "step": 10055 |
| }, |
| { |
| "epoch": 3.0824666666666665, |
| "grad_norm": 3.977006673812866, |
| "learning_rate": 1.3630344827586206e-06, |
| "loss": 0.1703, |
| "step": 10060 |
| }, |
| { |
| "epoch": 3.0828, |
| "grad_norm": 3.335867166519165, |
| "learning_rate": 1.361655172413793e-06, |
| "loss": 0.1446, |
| "step": 10065 |
| }, |
| { |
| "epoch": 3.0831333333333335, |
| "grad_norm": 3.488189935684204, |
| "learning_rate": 1.3602758620689654e-06, |
| "loss": 0.1302, |
| "step": 10070 |
| }, |
| { |
| "epoch": 3.083466666666667, |
| "grad_norm": 4.849493980407715, |
| "learning_rate": 1.358896551724138e-06, |
| "loss": 0.1243, |
| "step": 10075 |
| }, |
| { |
| "epoch": 3.0838, |
| "grad_norm": 4.077585220336914, |
| "learning_rate": 1.3575172413793103e-06, |
| "loss": 0.0981, |
| "step": 10080 |
| }, |
| { |
| "epoch": 3.0841333333333334, |
| "grad_norm": 2.933472156524658, |
| "learning_rate": 1.3561379310344828e-06, |
| "loss": 0.1095, |
| "step": 10085 |
| }, |
| { |
| "epoch": 3.0844666666666667, |
| "grad_norm": 2.764552593231201, |
| "learning_rate": 1.354758620689655e-06, |
| "loss": 0.0996, |
| "step": 10090 |
| }, |
| { |
| "epoch": 3.0848, |
| "grad_norm": 3.538461446762085, |
| "learning_rate": 1.3533793103448275e-06, |
| "loss": 0.1857, |
| "step": 10095 |
| }, |
| { |
| "epoch": 3.0851333333333333, |
| "grad_norm": 5.365030288696289, |
| "learning_rate": 1.352e-06, |
| "loss": 0.1223, |
| "step": 10100 |
| }, |
| { |
| "epoch": 3.0854666666666666, |
| "grad_norm": 4.125615119934082, |
| "learning_rate": 1.3506206896551724e-06, |
| "loss": 0.1064, |
| "step": 10105 |
| }, |
| { |
| "epoch": 3.0858, |
| "grad_norm": 3.770752191543579, |
| "learning_rate": 1.3492413793103448e-06, |
| "loss": 0.2049, |
| "step": 10110 |
| }, |
| { |
| "epoch": 3.086133333333333, |
| "grad_norm": 5.2621941566467285, |
| "learning_rate": 1.347862068965517e-06, |
| "loss": 0.1523, |
| "step": 10115 |
| }, |
| { |
| "epoch": 3.0864666666666665, |
| "grad_norm": 3.5793795585632324, |
| "learning_rate": 1.3464827586206895e-06, |
| "loss": 0.1531, |
| "step": 10120 |
| }, |
| { |
| "epoch": 3.0868, |
| "grad_norm": 3.9691388607025146, |
| "learning_rate": 1.3451034482758622e-06, |
| "loss": 0.1256, |
| "step": 10125 |
| }, |
| { |
| "epoch": 3.0871333333333335, |
| "grad_norm": 3.4311025142669678, |
| "learning_rate": 1.3437241379310344e-06, |
| "loss": 0.1523, |
| "step": 10130 |
| }, |
| { |
| "epoch": 3.087466666666667, |
| "grad_norm": 4.1608357429504395, |
| "learning_rate": 1.3423448275862069e-06, |
| "loss": 0.1418, |
| "step": 10135 |
| }, |
| { |
| "epoch": 3.0878, |
| "grad_norm": 3.0559632778167725, |
| "learning_rate": 1.340965517241379e-06, |
| "loss": 0.1115, |
| "step": 10140 |
| }, |
| { |
| "epoch": 3.0881333333333334, |
| "grad_norm": 3.1799354553222656, |
| "learning_rate": 1.3395862068965518e-06, |
| "loss": 0.1321, |
| "step": 10145 |
| }, |
| { |
| "epoch": 3.0884666666666667, |
| "grad_norm": 3.6046626567840576, |
| "learning_rate": 1.3382068965517242e-06, |
| "loss": 0.1141, |
| "step": 10150 |
| }, |
| { |
| "epoch": 3.0888, |
| "grad_norm": 3.940310001373291, |
| "learning_rate": 1.3368275862068964e-06, |
| "loss": 0.1486, |
| "step": 10155 |
| }, |
| { |
| "epoch": 3.0891333333333333, |
| "grad_norm": 3.5510153770446777, |
| "learning_rate": 1.3354482758620689e-06, |
| "loss": 0.1421, |
| "step": 10160 |
| }, |
| { |
| "epoch": 3.0894666666666666, |
| "grad_norm": 4.632082462310791, |
| "learning_rate": 1.3340689655172413e-06, |
| "loss": 0.1127, |
| "step": 10165 |
| }, |
| { |
| "epoch": 3.0898, |
| "grad_norm": 3.9303252696990967, |
| "learning_rate": 1.3326896551724138e-06, |
| "loss": 0.1563, |
| "step": 10170 |
| }, |
| { |
| "epoch": 3.090133333333333, |
| "grad_norm": 5.55647087097168, |
| "learning_rate": 1.3313103448275862e-06, |
| "loss": 0.1894, |
| "step": 10175 |
| }, |
| { |
| "epoch": 3.0904666666666665, |
| "grad_norm": 2.744114875793457, |
| "learning_rate": 1.3299310344827585e-06, |
| "loss": 0.1167, |
| "step": 10180 |
| }, |
| { |
| "epoch": 3.0908, |
| "grad_norm": 3.892972946166992, |
| "learning_rate": 1.328551724137931e-06, |
| "loss": 0.1274, |
| "step": 10185 |
| }, |
| { |
| "epoch": 3.0911333333333335, |
| "grad_norm": 4.232187747955322, |
| "learning_rate": 1.3271724137931034e-06, |
| "loss": 0.1127, |
| "step": 10190 |
| }, |
| { |
| "epoch": 3.091466666666667, |
| "grad_norm": 3.388176918029785, |
| "learning_rate": 1.3257931034482758e-06, |
| "loss": 0.1348, |
| "step": 10195 |
| }, |
| { |
| "epoch": 3.0918, |
| "grad_norm": 2.967561721801758, |
| "learning_rate": 1.3244137931034483e-06, |
| "loss": 0.1101, |
| "step": 10200 |
| }, |
| { |
| "epoch": 3.0921333333333334, |
| "grad_norm": 3.6141135692596436, |
| "learning_rate": 1.3230344827586207e-06, |
| "loss": 0.1058, |
| "step": 10205 |
| }, |
| { |
| "epoch": 3.0924666666666667, |
| "grad_norm": 3.638741970062256, |
| "learning_rate": 1.321655172413793e-06, |
| "loss": 0.1462, |
| "step": 10210 |
| }, |
| { |
| "epoch": 3.0928, |
| "grad_norm": 4.456836223602295, |
| "learning_rate": 1.3202758620689654e-06, |
| "loss": 0.1824, |
| "step": 10215 |
| }, |
| { |
| "epoch": 3.0931333333333333, |
| "grad_norm": 3.9638330936431885, |
| "learning_rate": 1.3188965517241379e-06, |
| "loss": 0.1411, |
| "step": 10220 |
| }, |
| { |
| "epoch": 3.0934666666666666, |
| "grad_norm": 4.482806205749512, |
| "learning_rate": 1.3175172413793103e-06, |
| "loss": 0.222, |
| "step": 10225 |
| }, |
| { |
| "epoch": 3.0938, |
| "grad_norm": 4.472507476806641, |
| "learning_rate": 1.3161379310344828e-06, |
| "loss": 0.0975, |
| "step": 10230 |
| }, |
| { |
| "epoch": 3.094133333333333, |
| "grad_norm": 3.6130850315093994, |
| "learning_rate": 1.314758620689655e-06, |
| "loss": 0.1294, |
| "step": 10235 |
| }, |
| { |
| "epoch": 3.0944666666666665, |
| "grad_norm": 3.7916407585144043, |
| "learning_rate": 1.3133793103448277e-06, |
| "loss": 0.096, |
| "step": 10240 |
| }, |
| { |
| "epoch": 3.0948, |
| "grad_norm": 4.743300914764404, |
| "learning_rate": 1.312e-06, |
| "loss": 0.1876, |
| "step": 10245 |
| }, |
| { |
| "epoch": 3.0951333333333335, |
| "grad_norm": 3.6078076362609863, |
| "learning_rate": 1.3106206896551723e-06, |
| "loss": 0.108, |
| "step": 10250 |
| }, |
| { |
| "epoch": 3.095466666666667, |
| "grad_norm": 3.596766471862793, |
| "learning_rate": 1.3092413793103448e-06, |
| "loss": 0.1414, |
| "step": 10255 |
| }, |
| { |
| "epoch": 3.0958, |
| "grad_norm": 3.1616384983062744, |
| "learning_rate": 1.307862068965517e-06, |
| "loss": 0.0936, |
| "step": 10260 |
| }, |
| { |
| "epoch": 3.0961333333333334, |
| "grad_norm": 2.6668713092803955, |
| "learning_rate": 1.3064827586206897e-06, |
| "loss": 0.1349, |
| "step": 10265 |
| }, |
| { |
| "epoch": 3.0964666666666667, |
| "grad_norm": 3.2159035205841064, |
| "learning_rate": 1.3051034482758621e-06, |
| "loss": 0.1007, |
| "step": 10270 |
| }, |
| { |
| "epoch": 3.0968, |
| "grad_norm": 3.23105525970459, |
| "learning_rate": 1.3037241379310344e-06, |
| "loss": 0.1123, |
| "step": 10275 |
| }, |
| { |
| "epoch": 3.0971333333333333, |
| "grad_norm": 3.9854116439819336, |
| "learning_rate": 1.3023448275862068e-06, |
| "loss": 0.1032, |
| "step": 10280 |
| }, |
| { |
| "epoch": 3.0974666666666666, |
| "grad_norm": 3.63157320022583, |
| "learning_rate": 1.300965517241379e-06, |
| "loss": 0.1155, |
| "step": 10285 |
| }, |
| { |
| "epoch": 3.0978, |
| "grad_norm": 3.9124128818511963, |
| "learning_rate": 1.2995862068965517e-06, |
| "loss": 0.0991, |
| "step": 10290 |
| }, |
| { |
| "epoch": 3.098133333333333, |
| "grad_norm": 4.035768985748291, |
| "learning_rate": 1.2982068965517242e-06, |
| "loss": 0.1395, |
| "step": 10295 |
| }, |
| { |
| "epoch": 3.0984666666666665, |
| "grad_norm": 3.3441524505615234, |
| "learning_rate": 1.2968275862068964e-06, |
| "loss": 0.1338, |
| "step": 10300 |
| }, |
| { |
| "epoch": 3.0987999999999998, |
| "grad_norm": 3.586026906967163, |
| "learning_rate": 1.2954482758620689e-06, |
| "loss": 0.1139, |
| "step": 10305 |
| }, |
| { |
| "epoch": 3.0991333333333335, |
| "grad_norm": 3.015698194503784, |
| "learning_rate": 1.2940689655172415e-06, |
| "loss": 0.0962, |
| "step": 10310 |
| }, |
| { |
| "epoch": 3.099466666666667, |
| "grad_norm": 3.7036643028259277, |
| "learning_rate": 1.2926896551724138e-06, |
| "loss": 0.1113, |
| "step": 10315 |
| }, |
| { |
| "epoch": 3.0998, |
| "grad_norm": 3.6607093811035156, |
| "learning_rate": 1.2913103448275862e-06, |
| "loss": 0.1385, |
| "step": 10320 |
| }, |
| { |
| "epoch": 3.1001333333333334, |
| "grad_norm": 3.6044538021087646, |
| "learning_rate": 1.2899310344827584e-06, |
| "loss": 0.1105, |
| "step": 10325 |
| }, |
| { |
| "epoch": 3.1004666666666667, |
| "grad_norm": 3.68890643119812, |
| "learning_rate": 1.2885517241379309e-06, |
| "loss": 0.1298, |
| "step": 10330 |
| }, |
| { |
| "epoch": 3.1008, |
| "grad_norm": 3.2712888717651367, |
| "learning_rate": 1.2871724137931035e-06, |
| "loss": 0.1523, |
| "step": 10335 |
| }, |
| { |
| "epoch": 3.1011333333333333, |
| "grad_norm": 3.4765255451202393, |
| "learning_rate": 1.2857931034482758e-06, |
| "loss": 0.1165, |
| "step": 10340 |
| }, |
| { |
| "epoch": 3.1014666666666666, |
| "grad_norm": 3.53548002243042, |
| "learning_rate": 1.2844137931034482e-06, |
| "loss": 0.1367, |
| "step": 10345 |
| }, |
| { |
| "epoch": 3.1018, |
| "grad_norm": 3.6743979454040527, |
| "learning_rate": 1.2830344827586207e-06, |
| "loss": 0.1195, |
| "step": 10350 |
| }, |
| { |
| "epoch": 3.102133333333333, |
| "grad_norm": 2.819240093231201, |
| "learning_rate": 1.281655172413793e-06, |
| "loss": 0.1036, |
| "step": 10355 |
| }, |
| { |
| "epoch": 3.1024666666666665, |
| "grad_norm": 4.219951629638672, |
| "learning_rate": 1.2802758620689656e-06, |
| "loss": 0.1354, |
| "step": 10360 |
| }, |
| { |
| "epoch": 3.1028000000000002, |
| "grad_norm": 4.273504257202148, |
| "learning_rate": 1.2788965517241378e-06, |
| "loss": 0.0997, |
| "step": 10365 |
| }, |
| { |
| "epoch": 3.1031333333333335, |
| "grad_norm": 4.44210958480835, |
| "learning_rate": 1.2775172413793103e-06, |
| "loss": 0.1233, |
| "step": 10370 |
| }, |
| { |
| "epoch": 3.103466666666667, |
| "grad_norm": 3.8101072311401367, |
| "learning_rate": 1.2761379310344827e-06, |
| "loss": 0.1222, |
| "step": 10375 |
| }, |
| { |
| "epoch": 3.1038, |
| "grad_norm": 3.7589430809020996, |
| "learning_rate": 1.274758620689655e-06, |
| "loss": 0.1143, |
| "step": 10380 |
| }, |
| { |
| "epoch": 3.1041333333333334, |
| "grad_norm": 3.1892545223236084, |
| "learning_rate": 1.2733793103448276e-06, |
| "loss": 0.0986, |
| "step": 10385 |
| }, |
| { |
| "epoch": 3.1044666666666667, |
| "grad_norm": 3.034914970397949, |
| "learning_rate": 1.272e-06, |
| "loss": 0.142, |
| "step": 10390 |
| }, |
| { |
| "epoch": 3.1048, |
| "grad_norm": 3.335789203643799, |
| "learning_rate": 1.2706206896551723e-06, |
| "loss": 0.0852, |
| "step": 10395 |
| }, |
| { |
| "epoch": 3.1051333333333333, |
| "grad_norm": 3.760930299758911, |
| "learning_rate": 1.2692413793103447e-06, |
| "loss": 0.1321, |
| "step": 10400 |
| }, |
| { |
| "epoch": 3.1054666666666666, |
| "grad_norm": 3.2370388507843018, |
| "learning_rate": 1.2678620689655172e-06, |
| "loss": 0.0938, |
| "step": 10405 |
| }, |
| { |
| "epoch": 3.1058, |
| "grad_norm": 5.059003829956055, |
| "learning_rate": 1.2664827586206896e-06, |
| "loss": 0.1234, |
| "step": 10410 |
| }, |
| { |
| "epoch": 3.106133333333333, |
| "grad_norm": 3.7076058387756348, |
| "learning_rate": 1.265103448275862e-06, |
| "loss": 0.1214, |
| "step": 10415 |
| }, |
| { |
| "epoch": 3.1064666666666665, |
| "grad_norm": 3.9566967487335205, |
| "learning_rate": 1.2637241379310343e-06, |
| "loss": 0.1239, |
| "step": 10420 |
| }, |
| { |
| "epoch": 3.1068, |
| "grad_norm": 2.865980625152588, |
| "learning_rate": 1.2623448275862068e-06, |
| "loss": 0.1327, |
| "step": 10425 |
| }, |
| { |
| "epoch": 3.1071333333333335, |
| "grad_norm": 3.8682289123535156, |
| "learning_rate": 1.2609655172413794e-06, |
| "loss": 0.1209, |
| "step": 10430 |
| }, |
| { |
| "epoch": 3.107466666666667, |
| "grad_norm": 4.29340934753418, |
| "learning_rate": 1.2595862068965517e-06, |
| "loss": 0.1321, |
| "step": 10435 |
| }, |
| { |
| "epoch": 3.1078, |
| "grad_norm": 4.072025299072266, |
| "learning_rate": 1.2582068965517241e-06, |
| "loss": 0.1362, |
| "step": 10440 |
| }, |
| { |
| "epoch": 3.1081333333333334, |
| "grad_norm": 3.630307912826538, |
| "learning_rate": 1.2568275862068964e-06, |
| "loss": 0.1296, |
| "step": 10445 |
| }, |
| { |
| "epoch": 3.1084666666666667, |
| "grad_norm": 3.4611058235168457, |
| "learning_rate": 1.2554482758620688e-06, |
| "loss": 0.1135, |
| "step": 10450 |
| }, |
| { |
| "epoch": 3.1088, |
| "grad_norm": 4.336033344268799, |
| "learning_rate": 1.2540689655172415e-06, |
| "loss": 0.14, |
| "step": 10455 |
| }, |
| { |
| "epoch": 3.1091333333333333, |
| "grad_norm": 4.57904052734375, |
| "learning_rate": 1.2526896551724137e-06, |
| "loss": 0.152, |
| "step": 10460 |
| }, |
| { |
| "epoch": 3.1094666666666666, |
| "grad_norm": 3.789177656173706, |
| "learning_rate": 1.2513103448275862e-06, |
| "loss": 0.1435, |
| "step": 10465 |
| }, |
| { |
| "epoch": 3.1098, |
| "grad_norm": 3.5479393005371094, |
| "learning_rate": 1.2499310344827584e-06, |
| "loss": 0.143, |
| "step": 10470 |
| }, |
| { |
| "epoch": 3.110133333333333, |
| "grad_norm": 4.554353713989258, |
| "learning_rate": 1.248551724137931e-06, |
| "loss": 0.1122, |
| "step": 10475 |
| }, |
| { |
| "epoch": 3.1104666666666665, |
| "grad_norm": 3.6915698051452637, |
| "learning_rate": 1.2471724137931035e-06, |
| "loss": 0.1078, |
| "step": 10480 |
| }, |
| { |
| "epoch": 3.1108, |
| "grad_norm": 4.116068363189697, |
| "learning_rate": 1.2457931034482757e-06, |
| "loss": 0.1518, |
| "step": 10485 |
| }, |
| { |
| "epoch": 3.1111333333333335, |
| "grad_norm": 3.5479066371917725, |
| "learning_rate": 1.2444137931034482e-06, |
| "loss": 0.115, |
| "step": 10490 |
| }, |
| { |
| "epoch": 3.111466666666667, |
| "grad_norm": 4.481450080871582, |
| "learning_rate": 1.2430344827586206e-06, |
| "loss": 0.1133, |
| "step": 10495 |
| }, |
| { |
| "epoch": 3.1118, |
| "grad_norm": 3.2450110912323, |
| "learning_rate": 1.241655172413793e-06, |
| "loss": 0.1045, |
| "step": 10500 |
| }, |
| { |
| "epoch": 3.1121333333333334, |
| "grad_norm": 3.4612340927124023, |
| "learning_rate": 1.2402758620689655e-06, |
| "loss": 0.1025, |
| "step": 10505 |
| }, |
| { |
| "epoch": 3.1124666666666667, |
| "grad_norm": 3.703700542449951, |
| "learning_rate": 1.2388965517241378e-06, |
| "loss": 0.095, |
| "step": 10510 |
| }, |
| { |
| "epoch": 3.1128, |
| "grad_norm": 3.065117359161377, |
| "learning_rate": 1.2375172413793102e-06, |
| "loss": 0.1132, |
| "step": 10515 |
| }, |
| { |
| "epoch": 3.1131333333333333, |
| "grad_norm": 5.1802873611450195, |
| "learning_rate": 1.2361379310344827e-06, |
| "loss": 0.1623, |
| "step": 10520 |
| }, |
| { |
| "epoch": 3.1134666666666666, |
| "grad_norm": 4.305116176605225, |
| "learning_rate": 1.2347586206896551e-06, |
| "loss": 0.112, |
| "step": 10525 |
| }, |
| { |
| "epoch": 3.1138, |
| "grad_norm": 2.9388232231140137, |
| "learning_rate": 1.2333793103448276e-06, |
| "loss": 0.0993, |
| "step": 10530 |
| }, |
| { |
| "epoch": 3.114133333333333, |
| "grad_norm": 5.201348781585693, |
| "learning_rate": 1.232e-06, |
| "loss": 0.1392, |
| "step": 10535 |
| }, |
| { |
| "epoch": 3.1144666666666665, |
| "grad_norm": 4.728110313415527, |
| "learning_rate": 1.2306206896551723e-06, |
| "loss": 0.1397, |
| "step": 10540 |
| }, |
| { |
| "epoch": 3.1148, |
| "grad_norm": 4.256076812744141, |
| "learning_rate": 1.2292413793103447e-06, |
| "loss": 0.1437, |
| "step": 10545 |
| }, |
| { |
| "epoch": 3.1151333333333335, |
| "grad_norm": 4.218815326690674, |
| "learning_rate": 1.2278620689655172e-06, |
| "loss": 0.0905, |
| "step": 10550 |
| }, |
| { |
| "epoch": 3.115466666666667, |
| "grad_norm": 4.170873165130615, |
| "learning_rate": 1.2264827586206896e-06, |
| "loss": 0.1218, |
| "step": 10555 |
| }, |
| { |
| "epoch": 3.1158, |
| "grad_norm": 4.890690326690674, |
| "learning_rate": 1.225103448275862e-06, |
| "loss": 0.1518, |
| "step": 10560 |
| }, |
| { |
| "epoch": 3.1161333333333334, |
| "grad_norm": 4.365133762359619, |
| "learning_rate": 1.2237241379310343e-06, |
| "loss": 0.1651, |
| "step": 10565 |
| }, |
| { |
| "epoch": 3.1164666666666667, |
| "grad_norm": 4.976833343505859, |
| "learning_rate": 1.222344827586207e-06, |
| "loss": 0.1328, |
| "step": 10570 |
| }, |
| { |
| "epoch": 3.1168, |
| "grad_norm": 4.960318565368652, |
| "learning_rate": 1.2209655172413794e-06, |
| "loss": 0.1308, |
| "step": 10575 |
| }, |
| { |
| "epoch": 3.1171333333333333, |
| "grad_norm": 4.8937458992004395, |
| "learning_rate": 1.2195862068965516e-06, |
| "loss": 0.1598, |
| "step": 10580 |
| }, |
| { |
| "epoch": 3.1174666666666666, |
| "grad_norm": 3.756993055343628, |
| "learning_rate": 1.218206896551724e-06, |
| "loss": 0.1311, |
| "step": 10585 |
| }, |
| { |
| "epoch": 3.1178, |
| "grad_norm": 4.717544078826904, |
| "learning_rate": 1.2168275862068963e-06, |
| "loss": 0.1691, |
| "step": 10590 |
| }, |
| { |
| "epoch": 3.118133333333333, |
| "grad_norm": 3.9451236724853516, |
| "learning_rate": 1.215448275862069e-06, |
| "loss": 0.1112, |
| "step": 10595 |
| }, |
| { |
| "epoch": 3.1184666666666665, |
| "grad_norm": 3.652914047241211, |
| "learning_rate": 1.2140689655172414e-06, |
| "loss": 0.1134, |
| "step": 10600 |
| }, |
| { |
| "epoch": 3.1188, |
| "grad_norm": 3.0365517139434814, |
| "learning_rate": 1.2126896551724137e-06, |
| "loss": 0.1298, |
| "step": 10605 |
| }, |
| { |
| "epoch": 3.1191333333333335, |
| "grad_norm": 4.4182233810424805, |
| "learning_rate": 1.2113103448275861e-06, |
| "loss": 0.1237, |
| "step": 10610 |
| }, |
| { |
| "epoch": 3.119466666666667, |
| "grad_norm": 3.757007598876953, |
| "learning_rate": 1.2099310344827584e-06, |
| "loss": 0.139, |
| "step": 10615 |
| }, |
| { |
| "epoch": 3.1198, |
| "grad_norm": 3.7715535163879395, |
| "learning_rate": 1.208551724137931e-06, |
| "loss": 0.1322, |
| "step": 10620 |
| }, |
| { |
| "epoch": 3.1201333333333334, |
| "grad_norm": 3.6792795658111572, |
| "learning_rate": 1.2071724137931035e-06, |
| "loss": 0.142, |
| "step": 10625 |
| }, |
| { |
| "epoch": 3.1204666666666667, |
| "grad_norm": 3.7322895526885986, |
| "learning_rate": 1.2057931034482757e-06, |
| "loss": 0.1142, |
| "step": 10630 |
| }, |
| { |
| "epoch": 3.1208, |
| "grad_norm": 4.074817657470703, |
| "learning_rate": 1.2044137931034482e-06, |
| "loss": 0.116, |
| "step": 10635 |
| }, |
| { |
| "epoch": 3.1211333333333333, |
| "grad_norm": 3.159771203994751, |
| "learning_rate": 1.2030344827586208e-06, |
| "loss": 0.1085, |
| "step": 10640 |
| }, |
| { |
| "epoch": 3.1214666666666666, |
| "grad_norm": 3.867138624191284, |
| "learning_rate": 1.201655172413793e-06, |
| "loss": 0.1229, |
| "step": 10645 |
| }, |
| { |
| "epoch": 3.1218, |
| "grad_norm": 4.077703475952148, |
| "learning_rate": 1.2002758620689655e-06, |
| "loss": 0.1515, |
| "step": 10650 |
| }, |
| { |
| "epoch": 3.122133333333333, |
| "grad_norm": 4.26039981842041, |
| "learning_rate": 1.1988965517241377e-06, |
| "loss": 0.1483, |
| "step": 10655 |
| }, |
| { |
| "epoch": 3.1224666666666665, |
| "grad_norm": 3.6894726753234863, |
| "learning_rate": 1.1975172413793102e-06, |
| "loss": 0.1298, |
| "step": 10660 |
| }, |
| { |
| "epoch": 3.1228, |
| "grad_norm": 4.0900468826293945, |
| "learning_rate": 1.1961379310344828e-06, |
| "loss": 0.1048, |
| "step": 10665 |
| }, |
| { |
| "epoch": 3.1231333333333335, |
| "grad_norm": 3.9871182441711426, |
| "learning_rate": 1.194758620689655e-06, |
| "loss": 0.0932, |
| "step": 10670 |
| }, |
| { |
| "epoch": 3.123466666666667, |
| "grad_norm": 3.4371209144592285, |
| "learning_rate": 1.1933793103448275e-06, |
| "loss": 0.1051, |
| "step": 10675 |
| }, |
| { |
| "epoch": 3.1238, |
| "grad_norm": 3.3936007022857666, |
| "learning_rate": 1.192e-06, |
| "loss": 0.1276, |
| "step": 10680 |
| }, |
| { |
| "epoch": 3.1241333333333334, |
| "grad_norm": 3.814096450805664, |
| "learning_rate": 1.1906206896551722e-06, |
| "loss": 0.1292, |
| "step": 10685 |
| }, |
| { |
| "epoch": 3.1244666666666667, |
| "grad_norm": 4.335970401763916, |
| "learning_rate": 1.1892413793103449e-06, |
| "loss": 0.1456, |
| "step": 10690 |
| }, |
| { |
| "epoch": 3.1248, |
| "grad_norm": 4.3228983879089355, |
| "learning_rate": 1.1878620689655171e-06, |
| "loss": 0.119, |
| "step": 10695 |
| }, |
| { |
| "epoch": 3.1251333333333333, |
| "grad_norm": 3.2616641521453857, |
| "learning_rate": 1.1864827586206896e-06, |
| "loss": 0.1151, |
| "step": 10700 |
| }, |
| { |
| "epoch": 3.1254666666666666, |
| "grad_norm": 3.7150323390960693, |
| "learning_rate": 1.185103448275862e-06, |
| "loss": 0.1581, |
| "step": 10705 |
| }, |
| { |
| "epoch": 3.1258, |
| "grad_norm": 3.531252145767212, |
| "learning_rate": 1.1837241379310345e-06, |
| "loss": 0.1257, |
| "step": 10710 |
| }, |
| { |
| "epoch": 3.126133333333333, |
| "grad_norm": 3.1670119762420654, |
| "learning_rate": 1.182344827586207e-06, |
| "loss": 0.0836, |
| "step": 10715 |
| }, |
| { |
| "epoch": 3.1264666666666665, |
| "grad_norm": 3.3919363021850586, |
| "learning_rate": 1.1809655172413794e-06, |
| "loss": 0.1031, |
| "step": 10720 |
| }, |
| { |
| "epoch": 3.1268, |
| "grad_norm": 4.267131328582764, |
| "learning_rate": 1.1795862068965516e-06, |
| "loss": 0.1409, |
| "step": 10725 |
| }, |
| { |
| "epoch": 3.127133333333333, |
| "grad_norm": 3.664895534515381, |
| "learning_rate": 1.178206896551724e-06, |
| "loss": 0.1271, |
| "step": 10730 |
| }, |
| { |
| "epoch": 3.127466666666667, |
| "grad_norm": 5.976982593536377, |
| "learning_rate": 1.1768275862068965e-06, |
| "loss": 0.1818, |
| "step": 10735 |
| }, |
| { |
| "epoch": 3.1278, |
| "grad_norm": 3.8469417095184326, |
| "learning_rate": 1.175448275862069e-06, |
| "loss": 0.1317, |
| "step": 10740 |
| }, |
| { |
| "epoch": 3.1281333333333334, |
| "grad_norm": 3.3952291011810303, |
| "learning_rate": 1.1740689655172414e-06, |
| "loss": 0.1239, |
| "step": 10745 |
| }, |
| { |
| "epoch": 3.1284666666666667, |
| "grad_norm": 3.541522264480591, |
| "learning_rate": 1.1726896551724136e-06, |
| "loss": 0.1153, |
| "step": 10750 |
| }, |
| { |
| "epoch": 3.1288, |
| "grad_norm": 3.9640679359436035, |
| "learning_rate": 1.171310344827586e-06, |
| "loss": 0.1311, |
| "step": 10755 |
| }, |
| { |
| "epoch": 3.1291333333333333, |
| "grad_norm": 3.732511520385742, |
| "learning_rate": 1.1699310344827587e-06, |
| "loss": 0.0935, |
| "step": 10760 |
| }, |
| { |
| "epoch": 3.1294666666666666, |
| "grad_norm": 3.3035073280334473, |
| "learning_rate": 1.168551724137931e-06, |
| "loss": 0.099, |
| "step": 10765 |
| }, |
| { |
| "epoch": 3.1298, |
| "grad_norm": 4.173254489898682, |
| "learning_rate": 1.1671724137931034e-06, |
| "loss": 0.1226, |
| "step": 10770 |
| }, |
| { |
| "epoch": 3.130133333333333, |
| "grad_norm": 4.59857177734375, |
| "learning_rate": 1.1657931034482757e-06, |
| "loss": 0.1011, |
| "step": 10775 |
| }, |
| { |
| "epoch": 3.1304666666666665, |
| "grad_norm": 4.927716255187988, |
| "learning_rate": 1.1644137931034481e-06, |
| "loss": 0.1772, |
| "step": 10780 |
| }, |
| { |
| "epoch": 3.1308, |
| "grad_norm": 3.51751708984375, |
| "learning_rate": 1.1630344827586208e-06, |
| "loss": 0.111, |
| "step": 10785 |
| }, |
| { |
| "epoch": 3.1311333333333335, |
| "grad_norm": 2.9985132217407227, |
| "learning_rate": 1.161655172413793e-06, |
| "loss": 0.1153, |
| "step": 10790 |
| }, |
| { |
| "epoch": 3.131466666666667, |
| "grad_norm": 3.6003358364105225, |
| "learning_rate": 1.1602758620689655e-06, |
| "loss": 0.1219, |
| "step": 10795 |
| }, |
| { |
| "epoch": 3.1318, |
| "grad_norm": 3.485626459121704, |
| "learning_rate": 1.158896551724138e-06, |
| "loss": 0.0861, |
| "step": 10800 |
| }, |
| { |
| "epoch": 3.1321333333333334, |
| "grad_norm": 4.250816822052002, |
| "learning_rate": 1.1575172413793104e-06, |
| "loss": 0.1324, |
| "step": 10805 |
| }, |
| { |
| "epoch": 3.1324666666666667, |
| "grad_norm": 3.031370162963867, |
| "learning_rate": 1.1561379310344828e-06, |
| "loss": 0.1007, |
| "step": 10810 |
| }, |
| { |
| "epoch": 3.1328, |
| "grad_norm": 5.077173709869385, |
| "learning_rate": 1.154758620689655e-06, |
| "loss": 0.1367, |
| "step": 10815 |
| }, |
| { |
| "epoch": 3.1331333333333333, |
| "grad_norm": 3.9092049598693848, |
| "learning_rate": 1.1533793103448275e-06, |
| "loss": 0.1295, |
| "step": 10820 |
| }, |
| { |
| "epoch": 3.1334666666666666, |
| "grad_norm": 4.2345356941223145, |
| "learning_rate": 1.152e-06, |
| "loss": 0.1438, |
| "step": 10825 |
| }, |
| { |
| "epoch": 3.1338, |
| "grad_norm": 3.644237995147705, |
| "learning_rate": 1.1506206896551724e-06, |
| "loss": 0.1134, |
| "step": 10830 |
| }, |
| { |
| "epoch": 3.134133333333333, |
| "grad_norm": 3.2955996990203857, |
| "learning_rate": 1.1492413793103448e-06, |
| "loss": 0.1194, |
| "step": 10835 |
| }, |
| { |
| "epoch": 3.1344666666666665, |
| "grad_norm": 4.0510478019714355, |
| "learning_rate": 1.1478620689655173e-06, |
| "loss": 0.1185, |
| "step": 10840 |
| }, |
| { |
| "epoch": 3.1348, |
| "grad_norm": 3.5826263427734375, |
| "learning_rate": 1.1464827586206895e-06, |
| "loss": 0.1407, |
| "step": 10845 |
| }, |
| { |
| "epoch": 3.135133333333333, |
| "grad_norm": 4.386380195617676, |
| "learning_rate": 1.145103448275862e-06, |
| "loss": 0.108, |
| "step": 10850 |
| }, |
| { |
| "epoch": 3.135466666666667, |
| "grad_norm": 3.0576095581054688, |
| "learning_rate": 1.1437241379310344e-06, |
| "loss": 0.137, |
| "step": 10855 |
| }, |
| { |
| "epoch": 3.1358, |
| "grad_norm": 3.588376522064209, |
| "learning_rate": 1.1423448275862069e-06, |
| "loss": 0.1139, |
| "step": 10860 |
| }, |
| { |
| "epoch": 3.1361333333333334, |
| "grad_norm": 3.2220280170440674, |
| "learning_rate": 1.1409655172413793e-06, |
| "loss": 0.1446, |
| "step": 10865 |
| }, |
| { |
| "epoch": 3.1364666666666667, |
| "grad_norm": 3.884505271911621, |
| "learning_rate": 1.1395862068965516e-06, |
| "loss": 0.1083, |
| "step": 10870 |
| }, |
| { |
| "epoch": 3.1368, |
| "grad_norm": 3.9818637371063232, |
| "learning_rate": 1.1382068965517242e-06, |
| "loss": 0.1024, |
| "step": 10875 |
| }, |
| { |
| "epoch": 3.1371333333333333, |
| "grad_norm": 4.275274753570557, |
| "learning_rate": 1.1368275862068967e-06, |
| "loss": 0.1416, |
| "step": 10880 |
| }, |
| { |
| "epoch": 3.1374666666666666, |
| "grad_norm": 3.1379175186157227, |
| "learning_rate": 1.135448275862069e-06, |
| "loss": 0.0991, |
| "step": 10885 |
| }, |
| { |
| "epoch": 3.1378, |
| "grad_norm": 4.130918502807617, |
| "learning_rate": 1.1340689655172414e-06, |
| "loss": 0.1231, |
| "step": 10890 |
| }, |
| { |
| "epoch": 3.138133333333333, |
| "grad_norm": 3.362971544265747, |
| "learning_rate": 1.1326896551724136e-06, |
| "loss": 0.1064, |
| "step": 10895 |
| }, |
| { |
| "epoch": 3.1384666666666665, |
| "grad_norm": 3.992236852645874, |
| "learning_rate": 1.1313103448275862e-06, |
| "loss": 0.0944, |
| "step": 10900 |
| }, |
| { |
| "epoch": 3.1388, |
| "grad_norm": 4.799851417541504, |
| "learning_rate": 1.1299310344827587e-06, |
| "loss": 0.1704, |
| "step": 10905 |
| }, |
| { |
| "epoch": 3.1391333333333336, |
| "grad_norm": 3.7183337211608887, |
| "learning_rate": 1.128551724137931e-06, |
| "loss": 0.1318, |
| "step": 10910 |
| }, |
| { |
| "epoch": 3.139466666666667, |
| "grad_norm": 3.4529244899749756, |
| "learning_rate": 1.1271724137931034e-06, |
| "loss": 0.1234, |
| "step": 10915 |
| }, |
| { |
| "epoch": 3.1398, |
| "grad_norm": 2.150162935256958, |
| "learning_rate": 1.1257931034482756e-06, |
| "loss": 0.0956, |
| "step": 10920 |
| }, |
| { |
| "epoch": 3.1401333333333334, |
| "grad_norm": 2.968789577484131, |
| "learning_rate": 1.1244137931034483e-06, |
| "loss": 0.1416, |
| "step": 10925 |
| }, |
| { |
| "epoch": 3.1404666666666667, |
| "grad_norm": 3.5411696434020996, |
| "learning_rate": 1.1230344827586207e-06, |
| "loss": 0.1583, |
| "step": 10930 |
| }, |
| { |
| "epoch": 3.1408, |
| "grad_norm": 3.4134440422058105, |
| "learning_rate": 1.121655172413793e-06, |
| "loss": 0.0811, |
| "step": 10935 |
| }, |
| { |
| "epoch": 3.1411333333333333, |
| "grad_norm": 3.2367703914642334, |
| "learning_rate": 1.1202758620689654e-06, |
| "loss": 0.1033, |
| "step": 10940 |
| }, |
| { |
| "epoch": 3.1414666666666666, |
| "grad_norm": 3.544282913208008, |
| "learning_rate": 1.1188965517241379e-06, |
| "loss": 0.1638, |
| "step": 10945 |
| }, |
| { |
| "epoch": 3.1418, |
| "grad_norm": 4.135570049285889, |
| "learning_rate": 1.1175172413793103e-06, |
| "loss": 0.0986, |
| "step": 10950 |
| }, |
| { |
| "epoch": 3.1421333333333332, |
| "grad_norm": 3.966614007949829, |
| "learning_rate": 1.1161379310344828e-06, |
| "loss": 0.1324, |
| "step": 10955 |
| }, |
| { |
| "epoch": 3.1424666666666665, |
| "grad_norm": 4.45792293548584, |
| "learning_rate": 1.114758620689655e-06, |
| "loss": 0.1203, |
| "step": 10960 |
| }, |
| { |
| "epoch": 3.1428, |
| "grad_norm": 3.802588939666748, |
| "learning_rate": 1.1133793103448274e-06, |
| "loss": 0.1555, |
| "step": 10965 |
| }, |
| { |
| "epoch": 3.143133333333333, |
| "grad_norm": 4.903188705444336, |
| "learning_rate": 1.1120000000000001e-06, |
| "loss": 0.1538, |
| "step": 10970 |
| }, |
| { |
| "epoch": 3.143466666666667, |
| "grad_norm": 3.8604860305786133, |
| "learning_rate": 1.1106206896551723e-06, |
| "loss": 0.1404, |
| "step": 10975 |
| }, |
| { |
| "epoch": 3.1438, |
| "grad_norm": 3.5122451782226562, |
| "learning_rate": 1.1092413793103448e-06, |
| "loss": 0.1177, |
| "step": 10980 |
| }, |
| { |
| "epoch": 3.1441333333333334, |
| "grad_norm": 3.8989648818969727, |
| "learning_rate": 1.1078620689655172e-06, |
| "loss": 0.1128, |
| "step": 10985 |
| }, |
| { |
| "epoch": 3.1444666666666667, |
| "grad_norm": 3.2486085891723633, |
| "learning_rate": 1.1064827586206895e-06, |
| "loss": 0.1369, |
| "step": 10990 |
| }, |
| { |
| "epoch": 3.1448, |
| "grad_norm": 4.76756477355957, |
| "learning_rate": 1.1051034482758621e-06, |
| "loss": 0.1436, |
| "step": 10995 |
| }, |
| { |
| "epoch": 3.1451333333333333, |
| "grad_norm": 3.242360830307007, |
| "learning_rate": 1.1037241379310344e-06, |
| "loss": 0.1105, |
| "step": 11000 |
| }, |
| { |
| "epoch": 3.1451333333333333, |
| "eval_loss": 0.21625454723834991, |
| "eval_runtime": 139.1217, |
| "eval_samples_per_second": 4.313, |
| "eval_steps_per_second": 1.078, |
| "eval_wer": 11.48838396732193, |
| "step": 11000 |
| }, |
| { |
| "epoch": 3.1454666666666666, |
| "grad_norm": 3.257913827896118, |
| "learning_rate": 1.1023448275862068e-06, |
| "loss": 0.1063, |
| "step": 11005 |
| }, |
| { |
| "epoch": 3.1458, |
| "grad_norm": 3.9775197505950928, |
| "learning_rate": 1.1009655172413793e-06, |
| "loss": 0.1004, |
| "step": 11010 |
| }, |
| { |
| "epoch": 3.1461333333333332, |
| "grad_norm": 2.74399471282959, |
| "learning_rate": 1.0995862068965515e-06, |
| "loss": 0.1133, |
| "step": 11015 |
| }, |
| { |
| "epoch": 3.1464666666666665, |
| "grad_norm": 4.073766708374023, |
| "learning_rate": 1.0982068965517242e-06, |
| "loss": 0.1127, |
| "step": 11020 |
| }, |
| { |
| "epoch": 3.1468, |
| "grad_norm": 3.816695213317871, |
| "learning_rate": 1.0968275862068966e-06, |
| "loss": 0.1277, |
| "step": 11025 |
| }, |
| { |
| "epoch": 3.1471333333333336, |
| "grad_norm": 4.856080532073975, |
| "learning_rate": 1.0954482758620689e-06, |
| "loss": 0.1532, |
| "step": 11030 |
| }, |
| { |
| "epoch": 3.147466666666667, |
| "grad_norm": 3.316800117492676, |
| "learning_rate": 1.0940689655172413e-06, |
| "loss": 0.1079, |
| "step": 11035 |
| }, |
| { |
| "epoch": 3.1478, |
| "grad_norm": 3.2388341426849365, |
| "learning_rate": 1.0926896551724138e-06, |
| "loss": 0.1399, |
| "step": 11040 |
| }, |
| { |
| "epoch": 3.1481333333333335, |
| "grad_norm": 4.24043083190918, |
| "learning_rate": 1.0913103448275862e-06, |
| "loss": 0.129, |
| "step": 11045 |
| }, |
| { |
| "epoch": 3.1484666666666667, |
| "grad_norm": 4.13203239440918, |
| "learning_rate": 1.0899310344827587e-06, |
| "loss": 0.1257, |
| "step": 11050 |
| }, |
| { |
| "epoch": 3.1488, |
| "grad_norm": 4.07288122177124, |
| "learning_rate": 1.088551724137931e-06, |
| "loss": 0.1082, |
| "step": 11055 |
| }, |
| { |
| "epoch": 3.1491333333333333, |
| "grad_norm": 4.2372145652771, |
| "learning_rate": 1.0871724137931033e-06, |
| "loss": 0.1295, |
| "step": 11060 |
| }, |
| { |
| "epoch": 3.1494666666666666, |
| "grad_norm": 3.7961506843566895, |
| "learning_rate": 1.085793103448276e-06, |
| "loss": 0.1027, |
| "step": 11065 |
| }, |
| { |
| "epoch": 3.1498, |
| "grad_norm": 4.484466552734375, |
| "learning_rate": 1.0844137931034482e-06, |
| "loss": 0.1445, |
| "step": 11070 |
| }, |
| { |
| "epoch": 3.1501333333333332, |
| "grad_norm": 3.1614105701446533, |
| "learning_rate": 1.0830344827586207e-06, |
| "loss": 0.1245, |
| "step": 11075 |
| }, |
| { |
| "epoch": 3.1504666666666665, |
| "grad_norm": 4.640326976776123, |
| "learning_rate": 1.081655172413793e-06, |
| "loss": 0.1185, |
| "step": 11080 |
| }, |
| { |
| "epoch": 3.1508, |
| "grad_norm": 3.374824285507202, |
| "learning_rate": 1.0802758620689654e-06, |
| "loss": 0.1054, |
| "step": 11085 |
| }, |
| { |
| "epoch": 3.151133333333333, |
| "grad_norm": 3.6071701049804688, |
| "learning_rate": 1.078896551724138e-06, |
| "loss": 0.0998, |
| "step": 11090 |
| }, |
| { |
| "epoch": 3.151466666666667, |
| "grad_norm": 4.138154029846191, |
| "learning_rate": 1.0775172413793103e-06, |
| "loss": 0.126, |
| "step": 11095 |
| }, |
| { |
| "epoch": 3.1518, |
| "grad_norm": 3.0040457248687744, |
| "learning_rate": 1.0761379310344827e-06, |
| "loss": 0.092, |
| "step": 11100 |
| }, |
| { |
| "epoch": 3.1521333333333335, |
| "grad_norm": 3.696608543395996, |
| "learning_rate": 1.074758620689655e-06, |
| "loss": 0.1423, |
| "step": 11105 |
| }, |
| { |
| "epoch": 3.1524666666666668, |
| "grad_norm": 4.555488109588623, |
| "learning_rate": 1.0733793103448274e-06, |
| "loss": 0.1636, |
| "step": 11110 |
| }, |
| { |
| "epoch": 3.1528, |
| "grad_norm": 3.590470314025879, |
| "learning_rate": 1.072e-06, |
| "loss": 0.1295, |
| "step": 11115 |
| }, |
| { |
| "epoch": 3.1531333333333333, |
| "grad_norm": 4.454814910888672, |
| "learning_rate": 1.0706206896551723e-06, |
| "loss": 0.1218, |
| "step": 11120 |
| }, |
| { |
| "epoch": 3.1534666666666666, |
| "grad_norm": 3.3021135330200195, |
| "learning_rate": 1.0692413793103448e-06, |
| "loss": 0.1202, |
| "step": 11125 |
| }, |
| { |
| "epoch": 3.1538, |
| "grad_norm": 4.106543064117432, |
| "learning_rate": 1.0678620689655172e-06, |
| "loss": 0.134, |
| "step": 11130 |
| }, |
| { |
| "epoch": 3.1541333333333332, |
| "grad_norm": 3.962252140045166, |
| "learning_rate": 1.0664827586206897e-06, |
| "loss": 0.1075, |
| "step": 11135 |
| }, |
| { |
| "epoch": 3.1544666666666665, |
| "grad_norm": 3.1145286560058594, |
| "learning_rate": 1.065103448275862e-06, |
| "loss": 0.1391, |
| "step": 11140 |
| }, |
| { |
| "epoch": 3.1548, |
| "grad_norm": 4.332203388214111, |
| "learning_rate": 1.0637241379310343e-06, |
| "loss": 0.1272, |
| "step": 11145 |
| }, |
| { |
| "epoch": 3.1551333333333336, |
| "grad_norm": 2.9342081546783447, |
| "learning_rate": 1.0623448275862068e-06, |
| "loss": 0.1023, |
| "step": 11150 |
| }, |
| { |
| "epoch": 3.155466666666667, |
| "grad_norm": 3.5210816860198975, |
| "learning_rate": 1.0609655172413792e-06, |
| "loss": 0.1945, |
| "step": 11155 |
| }, |
| { |
| "epoch": 3.1558, |
| "grad_norm": 3.0766563415527344, |
| "learning_rate": 1.0595862068965517e-06, |
| "loss": 0.0974, |
| "step": 11160 |
| }, |
| { |
| "epoch": 3.1561333333333335, |
| "grad_norm": 3.3893978595733643, |
| "learning_rate": 1.0582068965517241e-06, |
| "loss": 0.1445, |
| "step": 11165 |
| }, |
| { |
| "epoch": 3.1564666666666668, |
| "grad_norm": 3.350029706954956, |
| "learning_rate": 1.0568275862068966e-06, |
| "loss": 0.0927, |
| "step": 11170 |
| }, |
| { |
| "epoch": 3.1568, |
| "grad_norm": 3.751157283782959, |
| "learning_rate": 1.0554482758620688e-06, |
| "loss": 0.123, |
| "step": 11175 |
| }, |
| { |
| "epoch": 3.1571333333333333, |
| "grad_norm": 3.256519317626953, |
| "learning_rate": 1.0540689655172413e-06, |
| "loss": 0.1132, |
| "step": 11180 |
| }, |
| { |
| "epoch": 3.1574666666666666, |
| "grad_norm": 2.7681188583374023, |
| "learning_rate": 1.0526896551724137e-06, |
| "loss": 0.0957, |
| "step": 11185 |
| }, |
| { |
| "epoch": 3.1578, |
| "grad_norm": 4.9340667724609375, |
| "learning_rate": 1.0513103448275862e-06, |
| "loss": 0.1276, |
| "step": 11190 |
| }, |
| { |
| "epoch": 3.1581333333333332, |
| "grad_norm": 3.9707071781158447, |
| "learning_rate": 1.0499310344827586e-06, |
| "loss": 0.144, |
| "step": 11195 |
| }, |
| { |
| "epoch": 3.1584666666666665, |
| "grad_norm": 4.298243045806885, |
| "learning_rate": 1.0485517241379309e-06, |
| "loss": 0.1734, |
| "step": 11200 |
| }, |
| { |
| "epoch": 3.1588, |
| "grad_norm": 3.9184322357177734, |
| "learning_rate": 1.0471724137931035e-06, |
| "loss": 0.094, |
| "step": 11205 |
| }, |
| { |
| "epoch": 3.159133333333333, |
| "grad_norm": 3.741377115249634, |
| "learning_rate": 1.045793103448276e-06, |
| "loss": 0.1215, |
| "step": 11210 |
| }, |
| { |
| "epoch": 3.159466666666667, |
| "grad_norm": 4.62982702255249, |
| "learning_rate": 1.0444137931034482e-06, |
| "loss": 0.1551, |
| "step": 11215 |
| }, |
| { |
| "epoch": 3.1598, |
| "grad_norm": 3.4716312885284424, |
| "learning_rate": 1.0430344827586207e-06, |
| "loss": 0.0976, |
| "step": 11220 |
| }, |
| { |
| "epoch": 3.1601333333333335, |
| "grad_norm": 4.447044849395752, |
| "learning_rate": 1.0416551724137929e-06, |
| "loss": 0.0963, |
| "step": 11225 |
| }, |
| { |
| "epoch": 3.1604666666666668, |
| "grad_norm": 3.4925308227539062, |
| "learning_rate": 1.0402758620689655e-06, |
| "loss": 0.1303, |
| "step": 11230 |
| }, |
| { |
| "epoch": 3.1608, |
| "grad_norm": 3.4067769050598145, |
| "learning_rate": 1.038896551724138e-06, |
| "loss": 0.1699, |
| "step": 11235 |
| }, |
| { |
| "epoch": 3.1611333333333334, |
| "grad_norm": 4.410013198852539, |
| "learning_rate": 1.0375172413793102e-06, |
| "loss": 0.1202, |
| "step": 11240 |
| }, |
| { |
| "epoch": 3.1614666666666666, |
| "grad_norm": 2.8956611156463623, |
| "learning_rate": 1.0361379310344827e-06, |
| "loss": 0.0989, |
| "step": 11245 |
| }, |
| { |
| "epoch": 3.1618, |
| "grad_norm": 3.65350079536438, |
| "learning_rate": 1.0347586206896551e-06, |
| "loss": 0.0842, |
| "step": 11250 |
| }, |
| { |
| "epoch": 3.1621333333333332, |
| "grad_norm": 3.0125489234924316, |
| "learning_rate": 1.0333793103448276e-06, |
| "loss": 0.138, |
| "step": 11255 |
| }, |
| { |
| "epoch": 3.1624666666666665, |
| "grad_norm": 4.406427383422852, |
| "learning_rate": 1.032e-06, |
| "loss": 0.1272, |
| "step": 11260 |
| }, |
| { |
| "epoch": 3.1628, |
| "grad_norm": 3.2507541179656982, |
| "learning_rate": 1.0306206896551723e-06, |
| "loss": 0.1097, |
| "step": 11265 |
| }, |
| { |
| "epoch": 3.163133333333333, |
| "grad_norm": 3.8086438179016113, |
| "learning_rate": 1.0292413793103447e-06, |
| "loss": 0.1235, |
| "step": 11270 |
| }, |
| { |
| "epoch": 3.163466666666667, |
| "grad_norm": 3.936859369277954, |
| "learning_rate": 1.0278620689655174e-06, |
| "loss": 0.1135, |
| "step": 11275 |
| }, |
| { |
| "epoch": 3.1638, |
| "grad_norm": 4.147543907165527, |
| "learning_rate": 1.0264827586206896e-06, |
| "loss": 0.1505, |
| "step": 11280 |
| }, |
| { |
| "epoch": 3.1641333333333335, |
| "grad_norm": 4.5223307609558105, |
| "learning_rate": 1.025103448275862e-06, |
| "loss": 0.1218, |
| "step": 11285 |
| }, |
| { |
| "epoch": 3.1644666666666668, |
| "grad_norm": 3.4818384647369385, |
| "learning_rate": 1.0237241379310343e-06, |
| "loss": 0.0828, |
| "step": 11290 |
| }, |
| { |
| "epoch": 3.1648, |
| "grad_norm": 2.720883369445801, |
| "learning_rate": 1.0223448275862067e-06, |
| "loss": 0.0982, |
| "step": 11295 |
| }, |
| { |
| "epoch": 3.1651333333333334, |
| "grad_norm": 3.4577271938323975, |
| "learning_rate": 1.0209655172413794e-06, |
| "loss": 0.1369, |
| "step": 11300 |
| }, |
| { |
| "epoch": 3.1654666666666667, |
| "grad_norm": 3.8356244564056396, |
| "learning_rate": 1.0195862068965516e-06, |
| "loss": 0.0941, |
| "step": 11305 |
| }, |
| { |
| "epoch": 3.1658, |
| "grad_norm": 4.9618754386901855, |
| "learning_rate": 1.018206896551724e-06, |
| "loss": 0.1244, |
| "step": 11310 |
| }, |
| { |
| "epoch": 3.1661333333333332, |
| "grad_norm": 3.8449361324310303, |
| "learning_rate": 1.0168275862068965e-06, |
| "loss": 0.1626, |
| "step": 11315 |
| }, |
| { |
| "epoch": 3.1664666666666665, |
| "grad_norm": 4.0659284591674805, |
| "learning_rate": 1.0154482758620688e-06, |
| "loss": 0.1104, |
| "step": 11320 |
| }, |
| { |
| "epoch": 3.1668, |
| "grad_norm": 4.606715679168701, |
| "learning_rate": 1.0140689655172414e-06, |
| "loss": 0.1303, |
| "step": 11325 |
| }, |
| { |
| "epoch": 3.167133333333333, |
| "grad_norm": 3.882478952407837, |
| "learning_rate": 1.0126896551724137e-06, |
| "loss": 0.1208, |
| "step": 11330 |
| }, |
| { |
| "epoch": 3.167466666666667, |
| "grad_norm": 3.4454171657562256, |
| "learning_rate": 1.0113103448275861e-06, |
| "loss": 0.1181, |
| "step": 11335 |
| }, |
| { |
| "epoch": 3.1678, |
| "grad_norm": 3.3926291465759277, |
| "learning_rate": 1.0099310344827586e-06, |
| "loss": 0.1234, |
| "step": 11340 |
| }, |
| { |
| "epoch": 3.1681333333333335, |
| "grad_norm": 4.010322570800781, |
| "learning_rate": 1.0085517241379308e-06, |
| "loss": 0.1516, |
| "step": 11345 |
| }, |
| { |
| "epoch": 3.1684666666666668, |
| "grad_norm": 4.193769931793213, |
| "learning_rate": 1.0071724137931035e-06, |
| "loss": 0.1143, |
| "step": 11350 |
| }, |
| { |
| "epoch": 3.1688, |
| "grad_norm": 3.828843355178833, |
| "learning_rate": 1.005793103448276e-06, |
| "loss": 0.1385, |
| "step": 11355 |
| }, |
| { |
| "epoch": 3.1691333333333334, |
| "grad_norm": 3.6923646926879883, |
| "learning_rate": 1.0044137931034482e-06, |
| "loss": 0.155, |
| "step": 11360 |
| }, |
| { |
| "epoch": 3.1694666666666667, |
| "grad_norm": 4.8472747802734375, |
| "learning_rate": 1.0030344827586206e-06, |
| "loss": 0.1621, |
| "step": 11365 |
| }, |
| { |
| "epoch": 3.1698, |
| "grad_norm": 3.7839255332946777, |
| "learning_rate": 1.001655172413793e-06, |
| "loss": 0.1137, |
| "step": 11370 |
| }, |
| { |
| "epoch": 3.1701333333333332, |
| "grad_norm": 3.1415975093841553, |
| "learning_rate": 1.0002758620689655e-06, |
| "loss": 0.1233, |
| "step": 11375 |
| }, |
| { |
| "epoch": 3.1704666666666665, |
| "grad_norm": 3.098907709121704, |
| "learning_rate": 9.98896551724138e-07, |
| "loss": 0.1355, |
| "step": 11380 |
| }, |
| { |
| "epoch": 3.1708, |
| "grad_norm": 4.023937702178955, |
| "learning_rate": 9.975172413793102e-07, |
| "loss": 0.1345, |
| "step": 11385 |
| }, |
| { |
| "epoch": 3.171133333333333, |
| "grad_norm": 3.4900336265563965, |
| "learning_rate": 9.961379310344826e-07, |
| "loss": 0.1484, |
| "step": 11390 |
| }, |
| { |
| "epoch": 3.1714666666666664, |
| "grad_norm": 3.7556633949279785, |
| "learning_rate": 9.94758620689655e-07, |
| "loss": 0.14, |
| "step": 11395 |
| }, |
| { |
| "epoch": 3.1718, |
| "grad_norm": 4.302180290222168, |
| "learning_rate": 9.933793103448275e-07, |
| "loss": 0.1161, |
| "step": 11400 |
| }, |
| { |
| "epoch": 3.1721333333333335, |
| "grad_norm": 4.842629432678223, |
| "learning_rate": 9.92e-07, |
| "loss": 0.1481, |
| "step": 11405 |
| }, |
| { |
| "epoch": 3.1724666666666668, |
| "grad_norm": 3.6063475608825684, |
| "learning_rate": 9.906206896551722e-07, |
| "loss": 0.1166, |
| "step": 11410 |
| }, |
| { |
| "epoch": 3.1728, |
| "grad_norm": 3.3511264324188232, |
| "learning_rate": 9.892413793103449e-07, |
| "loss": 0.111, |
| "step": 11415 |
| }, |
| { |
| "epoch": 3.1731333333333334, |
| "grad_norm": 4.066712856292725, |
| "learning_rate": 9.878620689655171e-07, |
| "loss": 0.1514, |
| "step": 11420 |
| }, |
| { |
| "epoch": 3.1734666666666667, |
| "grad_norm": 4.23630952835083, |
| "learning_rate": 9.864827586206896e-07, |
| "loss": 0.1332, |
| "step": 11425 |
| }, |
| { |
| "epoch": 3.1738, |
| "grad_norm": 3.69537615776062, |
| "learning_rate": 9.85103448275862e-07, |
| "loss": 0.1548, |
| "step": 11430 |
| }, |
| { |
| "epoch": 3.1741333333333333, |
| "grad_norm": 4.02853536605835, |
| "learning_rate": 9.837241379310345e-07, |
| "loss": 0.1252, |
| "step": 11435 |
| }, |
| { |
| "epoch": 3.1744666666666665, |
| "grad_norm": 3.5623393058776855, |
| "learning_rate": 9.82344827586207e-07, |
| "loss": 0.1098, |
| "step": 11440 |
| }, |
| { |
| "epoch": 3.1748, |
| "grad_norm": 3.4090816974639893, |
| "learning_rate": 9.809655172413792e-07, |
| "loss": 0.0918, |
| "step": 11445 |
| }, |
| { |
| "epoch": 3.175133333333333, |
| "grad_norm": 3.200495958328247, |
| "learning_rate": 9.795862068965516e-07, |
| "loss": 0.0897, |
| "step": 11450 |
| }, |
| { |
| "epoch": 3.175466666666667, |
| "grad_norm": 3.247596502304077, |
| "learning_rate": 9.78206896551724e-07, |
| "loss": 0.1231, |
| "step": 11455 |
| }, |
| { |
| "epoch": 3.1758, |
| "grad_norm": 4.432947158813477, |
| "learning_rate": 9.768275862068965e-07, |
| "loss": 0.1014, |
| "step": 11460 |
| }, |
| { |
| "epoch": 3.1761333333333335, |
| "grad_norm": 3.2055153846740723, |
| "learning_rate": 9.75448275862069e-07, |
| "loss": 0.1161, |
| "step": 11465 |
| }, |
| { |
| "epoch": 3.1764666666666668, |
| "grad_norm": 3.0054171085357666, |
| "learning_rate": 9.740689655172414e-07, |
| "loss": 0.1082, |
| "step": 11470 |
| }, |
| { |
| "epoch": 3.1768, |
| "grad_norm": 3.225543975830078, |
| "learning_rate": 9.726896551724139e-07, |
| "loss": 0.0878, |
| "step": 11475 |
| }, |
| { |
| "epoch": 3.1771333333333334, |
| "grad_norm": 3.2011003494262695, |
| "learning_rate": 9.71310344827586e-07, |
| "loss": 0.1094, |
| "step": 11480 |
| }, |
| { |
| "epoch": 3.1774666666666667, |
| "grad_norm": 2.78452205657959, |
| "learning_rate": 9.699310344827585e-07, |
| "loss": 0.1223, |
| "step": 11485 |
| }, |
| { |
| "epoch": 3.1778, |
| "grad_norm": 3.7415049076080322, |
| "learning_rate": 9.68551724137931e-07, |
| "loss": 0.1335, |
| "step": 11490 |
| }, |
| { |
| "epoch": 3.1781333333333333, |
| "grad_norm": 3.844025135040283, |
| "learning_rate": 9.671724137931034e-07, |
| "loss": 0.1249, |
| "step": 11495 |
| }, |
| { |
| "epoch": 3.1784666666666666, |
| "grad_norm": 3.727860689163208, |
| "learning_rate": 9.657931034482759e-07, |
| "loss": 0.0897, |
| "step": 11500 |
| }, |
| { |
| "epoch": 3.1788, |
| "grad_norm": 3.7526516914367676, |
| "learning_rate": 9.644137931034483e-07, |
| "loss": 0.1048, |
| "step": 11505 |
| }, |
| { |
| "epoch": 3.179133333333333, |
| "grad_norm": 5.0751447677612305, |
| "learning_rate": 9.630344827586206e-07, |
| "loss": 0.112, |
| "step": 11510 |
| }, |
| { |
| "epoch": 3.1794666666666664, |
| "grad_norm": 3.638728618621826, |
| "learning_rate": 9.61655172413793e-07, |
| "loss": 0.1408, |
| "step": 11515 |
| }, |
| { |
| "epoch": 3.1798, |
| "grad_norm": 4.104787349700928, |
| "learning_rate": 9.602758620689655e-07, |
| "loss": 0.1053, |
| "step": 11520 |
| }, |
| { |
| "epoch": 3.1801333333333335, |
| "grad_norm": 3.876075029373169, |
| "learning_rate": 9.58896551724138e-07, |
| "loss": 0.1091, |
| "step": 11525 |
| }, |
| { |
| "epoch": 3.1804666666666668, |
| "grad_norm": 3.4228522777557373, |
| "learning_rate": 9.575172413793104e-07, |
| "loss": 0.1192, |
| "step": 11530 |
| }, |
| { |
| "epoch": 3.1808, |
| "grad_norm": 3.695359945297241, |
| "learning_rate": 9.561379310344826e-07, |
| "loss": 0.1338, |
| "step": 11535 |
| }, |
| { |
| "epoch": 3.1811333333333334, |
| "grad_norm": 4.151112079620361, |
| "learning_rate": 9.547586206896553e-07, |
| "loss": 0.1097, |
| "step": 11540 |
| }, |
| { |
| "epoch": 3.1814666666666667, |
| "grad_norm": 3.7210211753845215, |
| "learning_rate": 9.533793103448275e-07, |
| "loss": 0.1062, |
| "step": 11545 |
| }, |
| { |
| "epoch": 3.1818, |
| "grad_norm": 3.5571415424346924, |
| "learning_rate": 9.52e-07, |
| "loss": 0.1579, |
| "step": 11550 |
| }, |
| { |
| "epoch": 3.1821333333333333, |
| "grad_norm": 4.391376972198486, |
| "learning_rate": 9.506206896551724e-07, |
| "loss": 0.1546, |
| "step": 11555 |
| }, |
| { |
| "epoch": 3.1824666666666666, |
| "grad_norm": 4.067860126495361, |
| "learning_rate": 9.492413793103447e-07, |
| "loss": 0.1284, |
| "step": 11560 |
| }, |
| { |
| "epoch": 3.1828, |
| "grad_norm": 4.069371700286865, |
| "learning_rate": 9.478620689655172e-07, |
| "loss": 0.1298, |
| "step": 11565 |
| }, |
| { |
| "epoch": 3.183133333333333, |
| "grad_norm": 3.5552937984466553, |
| "learning_rate": 9.464827586206896e-07, |
| "loss": 0.1032, |
| "step": 11570 |
| }, |
| { |
| "epoch": 3.183466666666667, |
| "grad_norm": 3.9518773555755615, |
| "learning_rate": 9.451034482758621e-07, |
| "loss": 0.1263, |
| "step": 11575 |
| }, |
| { |
| "epoch": 3.1838, |
| "grad_norm": 3.752544641494751, |
| "learning_rate": 9.437241379310344e-07, |
| "loss": 0.1286, |
| "step": 11580 |
| }, |
| { |
| "epoch": 3.1841333333333335, |
| "grad_norm": 3.8621153831481934, |
| "learning_rate": 9.423448275862068e-07, |
| "loss": 0.1186, |
| "step": 11585 |
| }, |
| { |
| "epoch": 3.184466666666667, |
| "grad_norm": 2.9975900650024414, |
| "learning_rate": 9.409655172413793e-07, |
| "loss": 0.1286, |
| "step": 11590 |
| }, |
| { |
| "epoch": 3.1848, |
| "grad_norm": 3.364678382873535, |
| "learning_rate": 9.395862068965517e-07, |
| "loss": 0.1046, |
| "step": 11595 |
| }, |
| { |
| "epoch": 3.1851333333333334, |
| "grad_norm": 3.5356502532958984, |
| "learning_rate": 9.382068965517241e-07, |
| "loss": 0.0894, |
| "step": 11600 |
| }, |
| { |
| "epoch": 3.1854666666666667, |
| "grad_norm": 2.6523029804229736, |
| "learning_rate": 9.368275862068965e-07, |
| "loss": 0.0961, |
| "step": 11605 |
| }, |
| { |
| "epoch": 3.1858, |
| "grad_norm": 4.011308193206787, |
| "learning_rate": 9.354482758620689e-07, |
| "loss": 0.1124, |
| "step": 11610 |
| }, |
| { |
| "epoch": 3.1861333333333333, |
| "grad_norm": 3.4851319789886475, |
| "learning_rate": 9.340689655172414e-07, |
| "loss": 0.1066, |
| "step": 11615 |
| }, |
| { |
| "epoch": 3.1864666666666666, |
| "grad_norm": 3.6874606609344482, |
| "learning_rate": 9.326896551724137e-07, |
| "loss": 0.1025, |
| "step": 11620 |
| }, |
| { |
| "epoch": 3.1868, |
| "grad_norm": 3.4741806983947754, |
| "learning_rate": 9.313103448275862e-07, |
| "loss": 0.1093, |
| "step": 11625 |
| }, |
| { |
| "epoch": 3.187133333333333, |
| "grad_norm": 4.731088638305664, |
| "learning_rate": 9.299310344827586e-07, |
| "loss": 0.1333, |
| "step": 11630 |
| }, |
| { |
| "epoch": 3.1874666666666664, |
| "grad_norm": 4.179452419281006, |
| "learning_rate": 9.28551724137931e-07, |
| "loss": 0.0782, |
| "step": 11635 |
| }, |
| { |
| "epoch": 3.1878, |
| "grad_norm": 3.4660122394561768, |
| "learning_rate": 9.271724137931034e-07, |
| "loss": 0.0968, |
| "step": 11640 |
| }, |
| { |
| "epoch": 3.1881333333333335, |
| "grad_norm": 3.173128604888916, |
| "learning_rate": 9.257931034482757e-07, |
| "loss": 0.0849, |
| "step": 11645 |
| }, |
| { |
| "epoch": 3.188466666666667, |
| "grad_norm": 4.242127895355225, |
| "learning_rate": 9.244137931034483e-07, |
| "loss": 0.1408, |
| "step": 11650 |
| }, |
| { |
| "epoch": 3.1888, |
| "grad_norm": 2.967674732208252, |
| "learning_rate": 9.230344827586206e-07, |
| "loss": 0.1181, |
| "step": 11655 |
| }, |
| { |
| "epoch": 3.1891333333333334, |
| "grad_norm": 3.6537790298461914, |
| "learning_rate": 9.216551724137931e-07, |
| "loss": 0.1212, |
| "step": 11660 |
| }, |
| { |
| "epoch": 3.1894666666666667, |
| "grad_norm": 4.012179851531982, |
| "learning_rate": 9.202758620689654e-07, |
| "loss": 0.105, |
| "step": 11665 |
| }, |
| { |
| "epoch": 3.1898, |
| "grad_norm": 3.1177618503570557, |
| "learning_rate": 9.18896551724138e-07, |
| "loss": 0.1258, |
| "step": 11670 |
| }, |
| { |
| "epoch": 3.1901333333333333, |
| "grad_norm": 3.2957189083099365, |
| "learning_rate": 9.175172413793103e-07, |
| "loss": 0.1053, |
| "step": 11675 |
| }, |
| { |
| "epoch": 3.1904666666666666, |
| "grad_norm": 3.2841341495513916, |
| "learning_rate": 9.161379310344827e-07, |
| "loss": 0.1204, |
| "step": 11680 |
| }, |
| { |
| "epoch": 3.1908, |
| "grad_norm": 4.222930431365967, |
| "learning_rate": 9.147586206896551e-07, |
| "loss": 0.105, |
| "step": 11685 |
| }, |
| { |
| "epoch": 3.191133333333333, |
| "grad_norm": 4.13801908493042, |
| "learning_rate": 9.133793103448276e-07, |
| "loss": 0.1079, |
| "step": 11690 |
| }, |
| { |
| "epoch": 3.191466666666667, |
| "grad_norm": 3.3677818775177, |
| "learning_rate": 9.12e-07, |
| "loss": 0.1054, |
| "step": 11695 |
| }, |
| { |
| "epoch": 3.1918, |
| "grad_norm": 4.869099140167236, |
| "learning_rate": 9.106206896551724e-07, |
| "loss": 0.1235, |
| "step": 11700 |
| }, |
| { |
| "epoch": 3.1921333333333335, |
| "grad_norm": 5.588912010192871, |
| "learning_rate": 9.092413793103448e-07, |
| "loss": 0.1235, |
| "step": 11705 |
| }, |
| { |
| "epoch": 3.192466666666667, |
| "grad_norm": 3.0313968658447266, |
| "learning_rate": 9.078620689655173e-07, |
| "loss": 0.0952, |
| "step": 11710 |
| }, |
| { |
| "epoch": 3.1928, |
| "grad_norm": 3.1648051738739014, |
| "learning_rate": 9.064827586206896e-07, |
| "loss": 0.1169, |
| "step": 11715 |
| }, |
| { |
| "epoch": 3.1931333333333334, |
| "grad_norm": 4.407665729522705, |
| "learning_rate": 9.05103448275862e-07, |
| "loss": 0.097, |
| "step": 11720 |
| }, |
| { |
| "epoch": 3.1934666666666667, |
| "grad_norm": 3.2968454360961914, |
| "learning_rate": 9.037241379310344e-07, |
| "loss": 0.1042, |
| "step": 11725 |
| }, |
| { |
| "epoch": 3.1938, |
| "grad_norm": 4.946019649505615, |
| "learning_rate": 9.023448275862069e-07, |
| "loss": 0.1352, |
| "step": 11730 |
| }, |
| { |
| "epoch": 3.1941333333333333, |
| "grad_norm": 3.3684799671173096, |
| "learning_rate": 9.009655172413793e-07, |
| "loss": 0.1033, |
| "step": 11735 |
| }, |
| { |
| "epoch": 3.1944666666666666, |
| "grad_norm": 4.070157051086426, |
| "learning_rate": 8.995862068965517e-07, |
| "loss": 0.1198, |
| "step": 11740 |
| }, |
| { |
| "epoch": 3.1948, |
| "grad_norm": 2.985649347305298, |
| "learning_rate": 8.982068965517241e-07, |
| "loss": 0.1308, |
| "step": 11745 |
| }, |
| { |
| "epoch": 3.195133333333333, |
| "grad_norm": 3.186408281326294, |
| "learning_rate": 8.968275862068964e-07, |
| "loss": 0.0959, |
| "step": 11750 |
| }, |
| { |
| "epoch": 3.1954666666666665, |
| "grad_norm": 3.5271453857421875, |
| "learning_rate": 8.95448275862069e-07, |
| "loss": 0.1175, |
| "step": 11755 |
| }, |
| { |
| "epoch": 3.1958, |
| "grad_norm": 4.286133289337158, |
| "learning_rate": 8.940689655172413e-07, |
| "loss": 0.0981, |
| "step": 11760 |
| }, |
| { |
| "epoch": 4.000066666666667, |
| "grad_norm": 3.852144956588745, |
| "learning_rate": 8.926896551724138e-07, |
| "loss": 0.1092, |
| "step": 11765 |
| }, |
| { |
| "epoch": 4.0004, |
| "grad_norm": 2.359714984893799, |
| "learning_rate": 8.913103448275861e-07, |
| "loss": 0.0982, |
| "step": 11770 |
| }, |
| { |
| "epoch": 4.000733333333334, |
| "grad_norm": 3.267225503921509, |
| "learning_rate": 8.899310344827587e-07, |
| "loss": 0.0947, |
| "step": 11775 |
| }, |
| { |
| "epoch": 4.0010666666666665, |
| "grad_norm": 3.4340498447418213, |
| "learning_rate": 8.88551724137931e-07, |
| "loss": 0.0898, |
| "step": 11780 |
| }, |
| { |
| "epoch": 4.0014, |
| "grad_norm": 3.7093160152435303, |
| "learning_rate": 8.871724137931034e-07, |
| "loss": 0.1167, |
| "step": 11785 |
| }, |
| { |
| "epoch": 4.001733333333333, |
| "grad_norm": 3.491961717605591, |
| "learning_rate": 8.857931034482758e-07, |
| "loss": 0.1353, |
| "step": 11790 |
| }, |
| { |
| "epoch": 4.002066666666667, |
| "grad_norm": 3.1120567321777344, |
| "learning_rate": 8.844137931034483e-07, |
| "loss": 0.1097, |
| "step": 11795 |
| }, |
| { |
| "epoch": 4.0024, |
| "grad_norm": 3.7733826637268066, |
| "learning_rate": 8.830344827586207e-07, |
| "loss": 0.1216, |
| "step": 11800 |
| }, |
| { |
| "epoch": 4.0027333333333335, |
| "grad_norm": 3.99910044670105, |
| "learning_rate": 8.81655172413793e-07, |
| "loss": 0.1119, |
| "step": 11805 |
| }, |
| { |
| "epoch": 4.003066666666666, |
| "grad_norm": 3.343719720840454, |
| "learning_rate": 8.802758620689654e-07, |
| "loss": 0.0976, |
| "step": 11810 |
| }, |
| { |
| "epoch": 4.0034, |
| "grad_norm": 3.286072254180908, |
| "learning_rate": 8.788965517241379e-07, |
| "loss": 0.0907, |
| "step": 11815 |
| }, |
| { |
| "epoch": 4.003733333333333, |
| "grad_norm": 3.1599345207214355, |
| "learning_rate": 8.775172413793103e-07, |
| "loss": 0.0781, |
| "step": 11820 |
| }, |
| { |
| "epoch": 4.004066666666667, |
| "grad_norm": 3.587409496307373, |
| "learning_rate": 8.761379310344827e-07, |
| "loss": 0.1052, |
| "step": 11825 |
| }, |
| { |
| "epoch": 4.0044, |
| "grad_norm": 3.36879301071167, |
| "learning_rate": 8.747586206896551e-07, |
| "loss": 0.0748, |
| "step": 11830 |
| }, |
| { |
| "epoch": 4.004733333333333, |
| "grad_norm": 3.4844284057617188, |
| "learning_rate": 8.733793103448276e-07, |
| "loss": 0.1008, |
| "step": 11835 |
| }, |
| { |
| "epoch": 4.005066666666667, |
| "grad_norm": 3.1570310592651367, |
| "learning_rate": 8.72e-07, |
| "loss": 0.0997, |
| "step": 11840 |
| }, |
| { |
| "epoch": 4.0054, |
| "grad_norm": 3.236266613006592, |
| "learning_rate": 8.706206896551723e-07, |
| "loss": 0.0877, |
| "step": 11845 |
| }, |
| { |
| "epoch": 4.005733333333334, |
| "grad_norm": 3.3424742221832275, |
| "learning_rate": 8.692413793103448e-07, |
| "loss": 0.1013, |
| "step": 11850 |
| }, |
| { |
| "epoch": 4.006066666666666, |
| "grad_norm": 2.7490155696868896, |
| "learning_rate": 8.678620689655172e-07, |
| "loss": 0.0664, |
| "step": 11855 |
| }, |
| { |
| "epoch": 4.0064, |
| "grad_norm": 4.206040382385254, |
| "learning_rate": 8.664827586206897e-07, |
| "loss": 0.082, |
| "step": 11860 |
| }, |
| { |
| "epoch": 4.006733333333333, |
| "grad_norm": 3.450316905975342, |
| "learning_rate": 8.65103448275862e-07, |
| "loss": 0.1, |
| "step": 11865 |
| }, |
| { |
| "epoch": 4.007066666666667, |
| "grad_norm": 4.00970458984375, |
| "learning_rate": 8.637241379310345e-07, |
| "loss": 0.1303, |
| "step": 11870 |
| }, |
| { |
| "epoch": 4.0074, |
| "grad_norm": 3.4662065505981445, |
| "learning_rate": 8.623448275862069e-07, |
| "loss": 0.0924, |
| "step": 11875 |
| }, |
| { |
| "epoch": 4.007733333333333, |
| "grad_norm": 2.4423773288726807, |
| "learning_rate": 8.609655172413792e-07, |
| "loss": 0.105, |
| "step": 11880 |
| }, |
| { |
| "epoch": 4.008066666666666, |
| "grad_norm": 3.157292604446411, |
| "learning_rate": 8.595862068965517e-07, |
| "loss": 0.0756, |
| "step": 11885 |
| }, |
| { |
| "epoch": 4.0084, |
| "grad_norm": 3.0233206748962402, |
| "learning_rate": 8.58206896551724e-07, |
| "loss": 0.0829, |
| "step": 11890 |
| }, |
| { |
| "epoch": 4.008733333333334, |
| "grad_norm": 3.358638286590576, |
| "learning_rate": 8.568275862068966e-07, |
| "loss": 0.0838, |
| "step": 11895 |
| }, |
| { |
| "epoch": 4.009066666666667, |
| "grad_norm": 3.736022472381592, |
| "learning_rate": 8.554482758620689e-07, |
| "loss": 0.1377, |
| "step": 11900 |
| }, |
| { |
| "epoch": 4.0094, |
| "grad_norm": 3.917501926422119, |
| "learning_rate": 8.540689655172414e-07, |
| "loss": 0.0776, |
| "step": 11905 |
| }, |
| { |
| "epoch": 4.009733333333333, |
| "grad_norm": 3.0256521701812744, |
| "learning_rate": 8.526896551724137e-07, |
| "loss": 0.1024, |
| "step": 11910 |
| }, |
| { |
| "epoch": 4.010066666666667, |
| "grad_norm": 3.1207637786865234, |
| "learning_rate": 8.513103448275861e-07, |
| "loss": 0.0784, |
| "step": 11915 |
| }, |
| { |
| "epoch": 4.0104, |
| "grad_norm": 3.4567348957061768, |
| "learning_rate": 8.499310344827586e-07, |
| "loss": 0.0731, |
| "step": 11920 |
| }, |
| { |
| "epoch": 4.0107333333333335, |
| "grad_norm": 3.023005723953247, |
| "learning_rate": 8.48551724137931e-07, |
| "loss": 0.0733, |
| "step": 11925 |
| }, |
| { |
| "epoch": 4.011066666666666, |
| "grad_norm": 2.3652994632720947, |
| "learning_rate": 8.471724137931034e-07, |
| "loss": 0.0886, |
| "step": 11930 |
| }, |
| { |
| "epoch": 4.0114, |
| "grad_norm": 4.146409034729004, |
| "learning_rate": 8.457931034482758e-07, |
| "loss": 0.1198, |
| "step": 11935 |
| }, |
| { |
| "epoch": 4.011733333333333, |
| "grad_norm": 3.667948007583618, |
| "learning_rate": 8.444137931034483e-07, |
| "loss": 0.072, |
| "step": 11940 |
| }, |
| { |
| "epoch": 4.012066666666667, |
| "grad_norm": 2.771521806716919, |
| "learning_rate": 8.430344827586207e-07, |
| "loss": 0.1178, |
| "step": 11945 |
| }, |
| { |
| "epoch": 4.0124, |
| "grad_norm": 3.1634113788604736, |
| "learning_rate": 8.41655172413793e-07, |
| "loss": 0.107, |
| "step": 11950 |
| }, |
| { |
| "epoch": 4.012733333333333, |
| "grad_norm": 3.0591869354248047, |
| "learning_rate": 8.402758620689655e-07, |
| "loss": 0.0888, |
| "step": 11955 |
| }, |
| { |
| "epoch": 4.013066666666667, |
| "grad_norm": 3.368868350982666, |
| "learning_rate": 8.388965517241379e-07, |
| "loss": 0.0884, |
| "step": 11960 |
| }, |
| { |
| "epoch": 4.0134, |
| "grad_norm": 3.7147469520568848, |
| "learning_rate": 8.375172413793103e-07, |
| "loss": 0.0797, |
| "step": 11965 |
| }, |
| { |
| "epoch": 4.013733333333334, |
| "grad_norm": 3.10611629486084, |
| "learning_rate": 8.361379310344827e-07, |
| "loss": 0.0828, |
| "step": 11970 |
| }, |
| { |
| "epoch": 4.0140666666666664, |
| "grad_norm": 3.281848192214966, |
| "learning_rate": 8.34758620689655e-07, |
| "loss": 0.1178, |
| "step": 11975 |
| }, |
| { |
| "epoch": 4.0144, |
| "grad_norm": 3.2157599925994873, |
| "learning_rate": 8.333793103448276e-07, |
| "loss": 0.0895, |
| "step": 11980 |
| }, |
| { |
| "epoch": 4.014733333333333, |
| "grad_norm": 3.557180166244507, |
| "learning_rate": 8.319999999999999e-07, |
| "loss": 0.1007, |
| "step": 11985 |
| }, |
| { |
| "epoch": 4.015066666666667, |
| "grad_norm": 2.854917049407959, |
| "learning_rate": 8.306206896551724e-07, |
| "loss": 0.0863, |
| "step": 11990 |
| }, |
| { |
| "epoch": 4.0154, |
| "grad_norm": 2.7035117149353027, |
| "learning_rate": 8.292413793103447e-07, |
| "loss": 0.0881, |
| "step": 11995 |
| }, |
| { |
| "epoch": 4.015733333333333, |
| "grad_norm": 3.303386688232422, |
| "learning_rate": 8.278620689655173e-07, |
| "loss": 0.0952, |
| "step": 12000 |
| }, |
| { |
| "epoch": 4.015733333333333, |
| "eval_loss": 0.22301289439201355, |
| "eval_runtime": 140.1879, |
| "eval_samples_per_second": 4.28, |
| "eval_steps_per_second": 1.07, |
| "eval_wer": 10.850140413581823, |
| "step": 12000 |
| } |
| ], |
| "logging_steps": 5, |
| "max_steps": 15000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 9223372036854775807, |
| "save_steps": 1000, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 6.547967198783078e+20, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|