{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.5666666666666667, "eval_steps": 100, "global_step": 1700, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008333333333333333, "grad_norm": 14.301618576049805, "learning_rate": 4.800000000000001e-06, "loss": 2.5911, "step": 25 }, { "epoch": 0.016666666666666666, "grad_norm": 9.841421127319336, "learning_rate": 9.800000000000001e-06, "loss": 1.1863, "step": 50 }, { "epoch": 0.025, "grad_norm": 9.154348373413086, "learning_rate": 9.918644067796611e-06, "loss": 0.8093, "step": 75 }, { "epoch": 0.03333333333333333, "grad_norm": 8.530077934265137, "learning_rate": 9.833898305084747e-06, "loss": 0.6805, "step": 100 }, { "epoch": 0.03333333333333333, "eval_loss": 0.5591385364532471, "eval_runtime": 31.6571, "eval_samples_per_second": 1.579, "eval_steps_per_second": 0.411, "eval_wer": 44.651162790697676, "step": 100 }, { "epoch": 0.041666666666666664, "grad_norm": 9.107830047607422, "learning_rate": 9.749152542372882e-06, "loss": 0.5636, "step": 125 }, { "epoch": 0.05, "grad_norm": 8.091423988342285, "learning_rate": 9.664406779661017e-06, "loss": 0.4729, "step": 150 }, { "epoch": 0.058333333333333334, "grad_norm": 6.065707683563232, "learning_rate": 9.579661016949154e-06, "loss": 0.4313, "step": 175 }, { "epoch": 0.06666666666666667, "grad_norm": 5.886789798736572, "learning_rate": 9.494915254237289e-06, "loss": 0.4189, "step": 200 }, { "epoch": 0.06666666666666667, "eval_loss": 0.29914724826812744, "eval_runtime": 31.2581, "eval_samples_per_second": 1.6, "eval_steps_per_second": 0.416, "eval_wer": 34.18604651162791, "step": 200 }, { "epoch": 0.075, "grad_norm": 5.359210968017578, "learning_rate": 9.410169491525425e-06, "loss": 0.3577, "step": 225 }, { "epoch": 0.08333333333333333, "grad_norm": 6.733967304229736, "learning_rate": 9.32542372881356e-06, "loss": 0.3464, "step": 250 }, { "epoch": 0.09166666666666666, "grad_norm": 6.77088737487793, "learning_rate": 9.240677966101695e-06, "loss": 0.3152, "step": 275 }, { "epoch": 0.1, "grad_norm": 5.020869255065918, "learning_rate": 9.155932203389832e-06, "loss": 0.3113, "step": 300 }, { "epoch": 0.1, "eval_loss": 0.25590869784355164, "eval_runtime": 30.3892, "eval_samples_per_second": 1.645, "eval_steps_per_second": 0.428, "eval_wer": 30.0, "step": 300 }, { "epoch": 0.10833333333333334, "grad_norm": 4.7404465675354, "learning_rate": 9.071186440677966e-06, "loss": 0.2687, "step": 325 }, { "epoch": 0.11666666666666667, "grad_norm": 5.799556732177734, "learning_rate": 8.986440677966103e-06, "loss": 0.2579, "step": 350 }, { "epoch": 0.125, "grad_norm": 5.17623233795166, "learning_rate": 8.901694915254238e-06, "loss": 0.2683, "step": 375 }, { "epoch": 0.13333333333333333, "grad_norm": 5.461397171020508, "learning_rate": 8.816949152542373e-06, "loss": 0.2622, "step": 400 }, { "epoch": 0.13333333333333333, "eval_loss": 0.2302173525094986, "eval_runtime": 30.0067, "eval_samples_per_second": 1.666, "eval_steps_per_second": 0.433, "eval_wer": 26.976744186046513, "step": 400 }, { "epoch": 0.14166666666666666, "grad_norm": 5.005754470825195, "learning_rate": 8.73220338983051e-06, "loss": 0.254, "step": 425 }, { "epoch": 0.15, "grad_norm": 7.049324989318848, "learning_rate": 8.647457627118644e-06, "loss": 0.2503, "step": 450 }, { "epoch": 0.15833333333333333, "grad_norm": 4.588349342346191, "learning_rate": 8.56271186440678e-06, "loss": 0.2564, "step": 475 }, { "epoch": 0.16666666666666666, "grad_norm": 6.5539984703063965, "learning_rate": 8.477966101694916e-06, "loss": 0.2249, "step": 500 }, { "epoch": 0.16666666666666666, "eval_loss": 0.21013318002223969, "eval_runtime": 30.8371, "eval_samples_per_second": 1.621, "eval_steps_per_second": 0.422, "eval_wer": 27.44186046511628, "step": 500 }, { "epoch": 0.175, "grad_norm": 5.766194820404053, "learning_rate": 8.39322033898305e-06, "loss": 0.2376, "step": 525 }, { "epoch": 0.18333333333333332, "grad_norm": 4.760487079620361, "learning_rate": 8.308474576271187e-06, "loss": 0.2301, "step": 550 }, { "epoch": 0.19166666666666668, "grad_norm": 6.605999946594238, "learning_rate": 8.223728813559324e-06, "loss": 0.2385, "step": 575 }, { "epoch": 0.2, "grad_norm": 6.127011775970459, "learning_rate": 8.138983050847459e-06, "loss": 0.2416, "step": 600 }, { "epoch": 0.2, "eval_loss": 0.1913887858390808, "eval_runtime": 30.2544, "eval_samples_per_second": 1.653, "eval_steps_per_second": 0.43, "eval_wer": 26.51162790697674, "step": 600 }, { "epoch": 0.20833333333333334, "grad_norm": 7.45020055770874, "learning_rate": 8.054237288135594e-06, "loss": 0.2491, "step": 625 }, { "epoch": 0.21666666666666667, "grad_norm": 5.812323093414307, "learning_rate": 7.96949152542373e-06, "loss": 0.2281, "step": 650 }, { "epoch": 0.225, "grad_norm": 5.469272613525391, "learning_rate": 7.884745762711865e-06, "loss": 0.228, "step": 675 }, { "epoch": 0.23333333333333334, "grad_norm": 8.342656135559082, "learning_rate": 7.800000000000002e-06, "loss": 0.2692, "step": 700 }, { "epoch": 0.23333333333333334, "eval_loss": 0.19376912713050842, "eval_runtime": 30.1725, "eval_samples_per_second": 1.657, "eval_steps_per_second": 0.431, "eval_wer": 25.813953488372093, "step": 700 }, { "epoch": 0.24166666666666667, "grad_norm": 6.1778564453125, "learning_rate": 7.715254237288136e-06, "loss": 0.3117, "step": 725 }, { "epoch": 0.25, "grad_norm": 6.219127178192139, "learning_rate": 7.630508474576271e-06, "loss": 0.2877, "step": 750 }, { "epoch": 0.25833333333333336, "grad_norm": 5.735612392425537, "learning_rate": 7.545762711864407e-06, "loss": 0.2667, "step": 775 }, { "epoch": 0.26666666666666666, "grad_norm": 7.407346725463867, "learning_rate": 7.461016949152543e-06, "loss": 0.2712, "step": 800 }, { "epoch": 0.26666666666666666, "eval_loss": 0.2028380036354065, "eval_runtime": 30.1352, "eval_samples_per_second": 1.659, "eval_steps_per_second": 0.431, "eval_wer": 25.581395348837212, "step": 800 }, { "epoch": 0.275, "grad_norm": 6.598769187927246, "learning_rate": 7.3762711864406785e-06, "loss": 0.2646, "step": 825 }, { "epoch": 0.2833333333333333, "grad_norm": 7.305006980895996, "learning_rate": 7.291525423728815e-06, "loss": 0.2576, "step": 850 }, { "epoch": 0.2916666666666667, "grad_norm": 5.428302764892578, "learning_rate": 7.206779661016949e-06, "loss": 0.2572, "step": 875 }, { "epoch": 0.3, "grad_norm": 6.203150749206543, "learning_rate": 7.122033898305085e-06, "loss": 0.2415, "step": 900 }, { "epoch": 0.3, "eval_loss": 0.2069590985774994, "eval_runtime": 30.1855, "eval_samples_per_second": 1.656, "eval_steps_per_second": 0.431, "eval_wer": 23.02325581395349, "step": 900 }, { "epoch": 0.30833333333333335, "grad_norm": 6.383209705352783, "learning_rate": 7.037288135593221e-06, "loss": 0.2328, "step": 925 }, { "epoch": 0.31666666666666665, "grad_norm": 5.5666279792785645, "learning_rate": 6.952542372881357e-06, "loss": 0.2324, "step": 950 }, { "epoch": 0.325, "grad_norm": 7.117390155792236, "learning_rate": 6.867796610169493e-06, "loss": 0.218, "step": 975 }, { "epoch": 0.3333333333333333, "grad_norm": 6.636458873748779, "learning_rate": 6.783050847457627e-06, "loss": 0.2172, "step": 1000 }, { "epoch": 0.3333333333333333, "eval_loss": 0.19906912744045258, "eval_runtime": 30.9763, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.42, "eval_wer": 23.72093023255814, "step": 1000 }, { "epoch": 0.3416666666666667, "grad_norm": 6.437325954437256, "learning_rate": 6.6983050847457635e-06, "loss": 0.2328, "step": 1025 }, { "epoch": 0.35, "grad_norm": 5.583366394042969, "learning_rate": 6.613559322033899e-06, "loss": 0.2235, "step": 1050 }, { "epoch": 0.35833333333333334, "grad_norm": 4.921070098876953, "learning_rate": 6.528813559322035e-06, "loss": 0.2326, "step": 1075 }, { "epoch": 0.36666666666666664, "grad_norm": 8.010602951049805, "learning_rate": 6.444067796610171e-06, "loss": 0.2885, "step": 1100 }, { "epoch": 0.36666666666666664, "eval_loss": 0.18929298222064972, "eval_runtime": 29.6328, "eval_samples_per_second": 1.687, "eval_steps_per_second": 0.439, "eval_wer": 22.55813953488372, "step": 1100 }, { "epoch": 0.375, "grad_norm": 6.264009475708008, "learning_rate": 6.3593220338983056e-06, "loss": 0.238, "step": 1125 }, { "epoch": 0.38333333333333336, "grad_norm": 6.035742282867432, "learning_rate": 6.274576271186441e-06, "loss": 0.2112, "step": 1150 }, { "epoch": 0.39166666666666666, "grad_norm": 5.764890670776367, "learning_rate": 6.189830508474577e-06, "loss": 0.1921, "step": 1175 }, { "epoch": 0.4, "grad_norm": 7.657561302185059, "learning_rate": 6.105084745762713e-06, "loss": 0.188, "step": 1200 }, { "epoch": 0.4, "eval_loss": 0.18318532407283783, "eval_runtime": 29.7362, "eval_samples_per_second": 1.681, "eval_steps_per_second": 0.437, "eval_wer": 21.627906976744185, "step": 1200 }, { "epoch": 0.4083333333333333, "grad_norm": 4.8827385902404785, "learning_rate": 6.020338983050848e-06, "loss": 0.1799, "step": 1225 }, { "epoch": 0.4166666666666667, "grad_norm": 5.376316070556641, "learning_rate": 5.935593220338983e-06, "loss": 0.1836, "step": 1250 }, { "epoch": 0.425, "grad_norm": 5.580814838409424, "learning_rate": 5.850847457627119e-06, "loss": 0.1945, "step": 1275 }, { "epoch": 0.43333333333333335, "grad_norm": 7.14733362197876, "learning_rate": 5.766101694915255e-06, "loss": 0.1877, "step": 1300 }, { "epoch": 0.43333333333333335, "eval_loss": 0.1844736486673355, "eval_runtime": 29.7323, "eval_samples_per_second": 1.682, "eval_steps_per_second": 0.437, "eval_wer": 22.325581395348838, "step": 1300 }, { "epoch": 0.44166666666666665, "grad_norm": 5.891394138336182, "learning_rate": 5.6813559322033906e-06, "loss": 0.1703, "step": 1325 }, { "epoch": 0.45, "grad_norm": 5.314630508422852, "learning_rate": 5.5966101694915254e-06, "loss": 0.1806, "step": 1350 }, { "epoch": 0.4583333333333333, "grad_norm": 5.346804618835449, "learning_rate": 5.511864406779661e-06, "loss": 0.1943, "step": 1375 }, { "epoch": 0.4666666666666667, "grad_norm": 9.024127960205078, "learning_rate": 5.427118644067797e-06, "loss": 0.1689, "step": 1400 }, { "epoch": 0.4666666666666667, "eval_loss": 0.18630634248256683, "eval_runtime": 29.9588, "eval_samples_per_second": 1.669, "eval_steps_per_second": 0.434, "eval_wer": 24.186046511627907, "step": 1400 }, { "epoch": 0.475, "grad_norm": 5.976679801940918, "learning_rate": 5.342372881355933e-06, "loss": 0.1731, "step": 1425 }, { "epoch": 0.48333333333333334, "grad_norm": 4.596950054168701, "learning_rate": 5.257627118644068e-06, "loss": 0.1756, "step": 1450 }, { "epoch": 0.49166666666666664, "grad_norm": 4.674180507659912, "learning_rate": 5.172881355932203e-06, "loss": 0.1529, "step": 1475 }, { "epoch": 0.5, "grad_norm": 7.345108985900879, "learning_rate": 5.088135593220339e-06, "loss": 0.1547, "step": 1500 }, { "epoch": 0.5, "eval_loss": 0.17312730848789215, "eval_runtime": 29.6686, "eval_samples_per_second": 1.685, "eval_steps_per_second": 0.438, "eval_wer": 21.627906976744185, "step": 1500 }, { "epoch": 0.5083333333333333, "grad_norm": 5.215652942657471, "learning_rate": 5.003389830508475e-06, "loss": 0.1795, "step": 1525 }, { "epoch": 0.5166666666666667, "grad_norm": 5.4353718757629395, "learning_rate": 4.9186440677966104e-06, "loss": 0.1722, "step": 1550 }, { "epoch": 0.525, "grad_norm": 5.193563938140869, "learning_rate": 4.833898305084746e-06, "loss": 0.1784, "step": 1575 }, { "epoch": 0.5333333333333333, "grad_norm": 4.616910457611084, "learning_rate": 4.749152542372882e-06, "loss": 0.2, "step": 1600 }, { "epoch": 0.5333333333333333, "eval_loss": 0.16243678331375122, "eval_runtime": 30.3332, "eval_samples_per_second": 1.648, "eval_steps_per_second": 0.429, "eval_wer": 20.0, "step": 1600 }, { "epoch": 0.5416666666666666, "grad_norm": 5.015653610229492, "learning_rate": 4.664406779661017e-06, "loss": 0.2083, "step": 1625 }, { "epoch": 0.55, "grad_norm": 4.902927398681641, "learning_rate": 4.5796610169491525e-06, "loss": 0.169, "step": 1650 }, { "epoch": 0.5583333333333333, "grad_norm": 4.99751615524292, "learning_rate": 4.494915254237289e-06, "loss": 0.1714, "step": 1675 }, { "epoch": 0.5666666666666667, "grad_norm": 7.1267547607421875, "learning_rate": 4.410169491525424e-06, "loss": 0.1989, "step": 1700 }, { "epoch": 0.5666666666666667, "eval_loss": 0.15818500518798828, "eval_runtime": 29.6656, "eval_samples_per_second": 1.685, "eval_steps_per_second": 0.438, "eval_wer": 17.441860465116278, "step": 1700 } ], "logging_steps": 25, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 7.849522888704e+18, "train_batch_size": 8, "trial_name": null, "trial_params": null }