| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.5666666666666667, | |
| "eval_steps": 100, | |
| "global_step": 1700, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 14.301618576049805, | |
| "learning_rate": 4.800000000000001e-06, | |
| "loss": 2.5911, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 9.841421127319336, | |
| "learning_rate": 9.800000000000001e-06, | |
| "loss": 1.1863, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 9.154348373413086, | |
| "learning_rate": 9.918644067796611e-06, | |
| "loss": 0.8093, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 8.530077934265137, | |
| "learning_rate": 9.833898305084747e-06, | |
| "loss": 0.6805, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "eval_loss": 0.5591385364532471, | |
| "eval_runtime": 31.6571, | |
| "eval_samples_per_second": 1.579, | |
| "eval_steps_per_second": 0.411, | |
| "eval_wer": 44.651162790697676, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 9.107830047607422, | |
| "learning_rate": 9.749152542372882e-06, | |
| "loss": 0.5636, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 8.091423988342285, | |
| "learning_rate": 9.664406779661017e-06, | |
| "loss": 0.4729, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 6.065707683563232, | |
| "learning_rate": 9.579661016949154e-06, | |
| "loss": 0.4313, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 5.886789798736572, | |
| "learning_rate": 9.494915254237289e-06, | |
| "loss": 0.4189, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "eval_loss": 0.29914724826812744, | |
| "eval_runtime": 31.2581, | |
| "eval_samples_per_second": 1.6, | |
| "eval_steps_per_second": 0.416, | |
| "eval_wer": 34.18604651162791, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 5.359210968017578, | |
| "learning_rate": 9.410169491525425e-06, | |
| "loss": 0.3577, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 6.733967304229736, | |
| "learning_rate": 9.32542372881356e-06, | |
| "loss": 0.3464, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 6.77088737487793, | |
| "learning_rate": 9.240677966101695e-06, | |
| "loss": 0.3152, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 5.020869255065918, | |
| "learning_rate": 9.155932203389832e-06, | |
| "loss": 0.3113, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "eval_loss": 0.25590869784355164, | |
| "eval_runtime": 30.3892, | |
| "eval_samples_per_second": 1.645, | |
| "eval_steps_per_second": 0.428, | |
| "eval_wer": 30.0, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.10833333333333334, | |
| "grad_norm": 4.7404465675354, | |
| "learning_rate": 9.071186440677966e-06, | |
| "loss": 0.2687, | |
| "step": 325 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 5.799556732177734, | |
| "learning_rate": 8.986440677966103e-06, | |
| "loss": 0.2579, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.125, | |
| "grad_norm": 5.17623233795166, | |
| "learning_rate": 8.901694915254238e-06, | |
| "loss": 0.2683, | |
| "step": 375 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 5.461397171020508, | |
| "learning_rate": 8.816949152542373e-06, | |
| "loss": 0.2622, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "eval_loss": 0.2302173525094986, | |
| "eval_runtime": 30.0067, | |
| "eval_samples_per_second": 1.666, | |
| "eval_steps_per_second": 0.433, | |
| "eval_wer": 26.976744186046513, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.14166666666666666, | |
| "grad_norm": 5.005754470825195, | |
| "learning_rate": 8.73220338983051e-06, | |
| "loss": 0.254, | |
| "step": 425 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 7.049324989318848, | |
| "learning_rate": 8.647457627118644e-06, | |
| "loss": 0.2503, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.15833333333333333, | |
| "grad_norm": 4.588349342346191, | |
| "learning_rate": 8.56271186440678e-06, | |
| "loss": 0.2564, | |
| "step": 475 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 6.5539984703063965, | |
| "learning_rate": 8.477966101694916e-06, | |
| "loss": 0.2249, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "eval_loss": 0.21013318002223969, | |
| "eval_runtime": 30.8371, | |
| "eval_samples_per_second": 1.621, | |
| "eval_steps_per_second": 0.422, | |
| "eval_wer": 27.44186046511628, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.175, | |
| "grad_norm": 5.766194820404053, | |
| "learning_rate": 8.39322033898305e-06, | |
| "loss": 0.2376, | |
| "step": 525 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 4.760487079620361, | |
| "learning_rate": 8.308474576271187e-06, | |
| "loss": 0.2301, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.19166666666666668, | |
| "grad_norm": 6.605999946594238, | |
| "learning_rate": 8.223728813559324e-06, | |
| "loss": 0.2385, | |
| "step": 575 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 6.127011775970459, | |
| "learning_rate": 8.138983050847459e-06, | |
| "loss": 0.2416, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "eval_loss": 0.1913887858390808, | |
| "eval_runtime": 30.2544, | |
| "eval_samples_per_second": 1.653, | |
| "eval_steps_per_second": 0.43, | |
| "eval_wer": 26.51162790697674, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 7.45020055770874, | |
| "learning_rate": 8.054237288135594e-06, | |
| "loss": 0.2491, | |
| "step": 625 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 5.812323093414307, | |
| "learning_rate": 7.96949152542373e-06, | |
| "loss": 0.2281, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.225, | |
| "grad_norm": 5.469272613525391, | |
| "learning_rate": 7.884745762711865e-06, | |
| "loss": 0.228, | |
| "step": 675 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 8.342656135559082, | |
| "learning_rate": 7.800000000000002e-06, | |
| "loss": 0.2692, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "eval_loss": 0.19376912713050842, | |
| "eval_runtime": 30.1725, | |
| "eval_samples_per_second": 1.657, | |
| "eval_steps_per_second": 0.431, | |
| "eval_wer": 25.813953488372093, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.24166666666666667, | |
| "grad_norm": 6.1778564453125, | |
| "learning_rate": 7.715254237288136e-06, | |
| "loss": 0.3117, | |
| "step": 725 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 6.219127178192139, | |
| "learning_rate": 7.630508474576271e-06, | |
| "loss": 0.2877, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.25833333333333336, | |
| "grad_norm": 5.735612392425537, | |
| "learning_rate": 7.545762711864407e-06, | |
| "loss": 0.2667, | |
| "step": 775 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 7.407346725463867, | |
| "learning_rate": 7.461016949152543e-06, | |
| "loss": 0.2712, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "eval_loss": 0.2028380036354065, | |
| "eval_runtime": 30.1352, | |
| "eval_samples_per_second": 1.659, | |
| "eval_steps_per_second": 0.431, | |
| "eval_wer": 25.581395348837212, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.275, | |
| "grad_norm": 6.598769187927246, | |
| "learning_rate": 7.3762711864406785e-06, | |
| "loss": 0.2646, | |
| "step": 825 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 7.305006980895996, | |
| "learning_rate": 7.291525423728815e-06, | |
| "loss": 0.2576, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.2916666666666667, | |
| "grad_norm": 5.428302764892578, | |
| "learning_rate": 7.206779661016949e-06, | |
| "loss": 0.2572, | |
| "step": 875 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 6.203150749206543, | |
| "learning_rate": 7.122033898305085e-06, | |
| "loss": 0.2415, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "eval_loss": 0.2069590985774994, | |
| "eval_runtime": 30.1855, | |
| "eval_samples_per_second": 1.656, | |
| "eval_steps_per_second": 0.431, | |
| "eval_wer": 23.02325581395349, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.30833333333333335, | |
| "grad_norm": 6.383209705352783, | |
| "learning_rate": 7.037288135593221e-06, | |
| "loss": 0.2328, | |
| "step": 925 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 5.5666279792785645, | |
| "learning_rate": 6.952542372881357e-06, | |
| "loss": 0.2324, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.325, | |
| "grad_norm": 7.117390155792236, | |
| "learning_rate": 6.867796610169493e-06, | |
| "loss": 0.218, | |
| "step": 975 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 6.636458873748779, | |
| "learning_rate": 6.783050847457627e-06, | |
| "loss": 0.2172, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "eval_loss": 0.19906912744045258, | |
| "eval_runtime": 30.9763, | |
| "eval_samples_per_second": 1.614, | |
| "eval_steps_per_second": 0.42, | |
| "eval_wer": 23.72093023255814, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.3416666666666667, | |
| "grad_norm": 6.437325954437256, | |
| "learning_rate": 6.6983050847457635e-06, | |
| "loss": 0.2328, | |
| "step": 1025 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 5.583366394042969, | |
| "learning_rate": 6.613559322033899e-06, | |
| "loss": 0.2235, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.35833333333333334, | |
| "grad_norm": 4.921070098876953, | |
| "learning_rate": 6.528813559322035e-06, | |
| "loss": 0.2326, | |
| "step": 1075 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 8.010602951049805, | |
| "learning_rate": 6.444067796610171e-06, | |
| "loss": 0.2885, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "eval_loss": 0.18929298222064972, | |
| "eval_runtime": 29.6328, | |
| "eval_samples_per_second": 1.687, | |
| "eval_steps_per_second": 0.439, | |
| "eval_wer": 22.55813953488372, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.375, | |
| "grad_norm": 6.264009475708008, | |
| "learning_rate": 6.3593220338983056e-06, | |
| "loss": 0.238, | |
| "step": 1125 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 6.035742282867432, | |
| "learning_rate": 6.274576271186441e-06, | |
| "loss": 0.2112, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.39166666666666666, | |
| "grad_norm": 5.764890670776367, | |
| "learning_rate": 6.189830508474577e-06, | |
| "loss": 0.1921, | |
| "step": 1175 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 7.657561302185059, | |
| "learning_rate": 6.105084745762713e-06, | |
| "loss": 0.188, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "eval_loss": 0.18318532407283783, | |
| "eval_runtime": 29.7362, | |
| "eval_samples_per_second": 1.681, | |
| "eval_steps_per_second": 0.437, | |
| "eval_wer": 21.627906976744185, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.4083333333333333, | |
| "grad_norm": 4.8827385902404785, | |
| "learning_rate": 6.020338983050848e-06, | |
| "loss": 0.1799, | |
| "step": 1225 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 5.376316070556641, | |
| "learning_rate": 5.935593220338983e-06, | |
| "loss": 0.1836, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.425, | |
| "grad_norm": 5.580814838409424, | |
| "learning_rate": 5.850847457627119e-06, | |
| "loss": 0.1945, | |
| "step": 1275 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 7.14733362197876, | |
| "learning_rate": 5.766101694915255e-06, | |
| "loss": 0.1877, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "eval_loss": 0.1844736486673355, | |
| "eval_runtime": 29.7323, | |
| "eval_samples_per_second": 1.682, | |
| "eval_steps_per_second": 0.437, | |
| "eval_wer": 22.325581395348838, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.44166666666666665, | |
| "grad_norm": 5.891394138336182, | |
| "learning_rate": 5.6813559322033906e-06, | |
| "loss": 0.1703, | |
| "step": 1325 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 5.314630508422852, | |
| "learning_rate": 5.5966101694915254e-06, | |
| "loss": 0.1806, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.4583333333333333, | |
| "grad_norm": 5.346804618835449, | |
| "learning_rate": 5.511864406779661e-06, | |
| "loss": 0.1943, | |
| "step": 1375 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 9.024127960205078, | |
| "learning_rate": 5.427118644067797e-06, | |
| "loss": 0.1689, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "eval_loss": 0.18630634248256683, | |
| "eval_runtime": 29.9588, | |
| "eval_samples_per_second": 1.669, | |
| "eval_steps_per_second": 0.434, | |
| "eval_wer": 24.186046511627907, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.475, | |
| "grad_norm": 5.976679801940918, | |
| "learning_rate": 5.342372881355933e-06, | |
| "loss": 0.1731, | |
| "step": 1425 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 4.596950054168701, | |
| "learning_rate": 5.257627118644068e-06, | |
| "loss": 0.1756, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.49166666666666664, | |
| "grad_norm": 4.674180507659912, | |
| "learning_rate": 5.172881355932203e-06, | |
| "loss": 0.1529, | |
| "step": 1475 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 7.345108985900879, | |
| "learning_rate": 5.088135593220339e-06, | |
| "loss": 0.1547, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "eval_loss": 0.17312730848789215, | |
| "eval_runtime": 29.6686, | |
| "eval_samples_per_second": 1.685, | |
| "eval_steps_per_second": 0.438, | |
| "eval_wer": 21.627906976744185, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.5083333333333333, | |
| "grad_norm": 5.215652942657471, | |
| "learning_rate": 5.003389830508475e-06, | |
| "loss": 0.1795, | |
| "step": 1525 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 5.4353718757629395, | |
| "learning_rate": 4.9186440677966104e-06, | |
| "loss": 0.1722, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.525, | |
| "grad_norm": 5.193563938140869, | |
| "learning_rate": 4.833898305084746e-06, | |
| "loss": 0.1784, | |
| "step": 1575 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 4.616910457611084, | |
| "learning_rate": 4.749152542372882e-06, | |
| "loss": 0.2, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "eval_loss": 0.16243678331375122, | |
| "eval_runtime": 30.3332, | |
| "eval_samples_per_second": 1.648, | |
| "eval_steps_per_second": 0.429, | |
| "eval_wer": 20.0, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.5416666666666666, | |
| "grad_norm": 5.015653610229492, | |
| "learning_rate": 4.664406779661017e-06, | |
| "loss": 0.2083, | |
| "step": 1625 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 4.902927398681641, | |
| "learning_rate": 4.5796610169491525e-06, | |
| "loss": 0.169, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.5583333333333333, | |
| "grad_norm": 4.99751615524292, | |
| "learning_rate": 4.494915254237289e-06, | |
| "loss": 0.1714, | |
| "step": 1675 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 7.1267547607421875, | |
| "learning_rate": 4.410169491525424e-06, | |
| "loss": 0.1989, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "eval_loss": 0.15818500518798828, | |
| "eval_runtime": 29.6656, | |
| "eval_samples_per_second": 1.685, | |
| "eval_steps_per_second": 0.438, | |
| "eval_wer": 17.441860465116278, | |
| "step": 1700 | |
| } | |
| ], | |
| "logging_steps": 25, | |
| "max_steps": 3000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9223372036854775807, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 7.849522888704e+18, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |