trocr_streets / trainer_state.json

Upload 8 files

f3eda05 verified 7 months ago

65.1 kB

Invalid JSON: Unexpected token 'I', ..."ad_norm": Infinity, "... is not valid JSON

	{
	"best_global_step": 415,
	"best_metric": 0.2885131265635832,
	"best_model_checkpoint": "trocr\\checkpoint-415",
	"epoch": 0.603112840466926,
	"eval_steps": 5,
	"global_step": 465,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0025940337224383916,
	"grad_norm": Infinity,
	"learning_rate": 0.0,
	"loss": 8.3361,
	"step": 2
	},
	{
	"epoch": 0.005188067444876783,
	"grad_norm": 42.44731521606445,
	"learning_rate": 0.0,
	"loss": 9.0712,
	"step": 4
	},
	{
	"epoch": 0.00648508430609598,
	"eval_cer": 0.9740181451005214,
	"eval_loss": 10.673304557800293,
	"eval_runtime": 121.4924,
	"eval_samples_per_second": 21.763,
	"eval_steps_per_second": 2.724,
	"step": 5
	},
	{
	"epoch": 0.007782101167315175,
	"grad_norm": 50.13338088989258,
	"learning_rate": 1.2000000000000002e-07,
	"loss": 9.0523,
	"step": 6
	},
	{
	"epoch": 0.010376134889753566,
	"grad_norm": 54.91879653930664,
	"learning_rate": 2.4000000000000003e-07,
	"loss": 8.6874,
	"step": 8
	},
	{
	"epoch": 0.01297016861219196,
	"grad_norm": 57.007408142089844,
	"learning_rate": 3.6e-07,
	"loss": 9.1085,
	"step": 10
	},
	{
	"epoch": 0.01297016861219196,
	"eval_cer": 0.9735660246556349,
	"eval_loss": 10.574353218078613,
	"eval_runtime": 92.0698,
	"eval_samples_per_second": 28.717,
	"eval_steps_per_second": 3.595,
	"step": 10
	},
	{
	"epoch": 0.01556420233463035,
	"grad_norm": 65.91108703613281,
	"learning_rate": 4.800000000000001e-07,
	"loss": 8.1886,
	"step": 12
	},
	{
	"epoch": 0.018158236057068743,
	"grad_norm": 34.232662200927734,
	"learning_rate": 6.000000000000001e-07,
	"loss": 8.3056,
	"step": 14
	},
	{
	"epoch": 0.019455252918287938,
	"eval_cer": 0.9708231606233234,
	"eval_loss": 10.372063636779785,
	"eval_runtime": 93.5905,
	"eval_samples_per_second": 28.251,
	"eval_steps_per_second": 3.537,
	"step": 15
	},
	{
	"epoch": 0.020752269779507133,
	"grad_norm": 42.87216567993164,
	"learning_rate": 7.2e-07,
	"loss": 8.7293,
	"step": 16
	},
	{
	"epoch": 0.023346303501945526,
	"grad_norm": 39.21005630493164,
	"learning_rate": 8.4e-07,
	"loss": 8.6748,
	"step": 18
	},
	{
	"epoch": 0.02594033722438392,
	"grad_norm": 94.66182708740234,
	"learning_rate": 9.600000000000001e-07,
	"loss": 8.2991,
	"step": 20
	},
	{
	"epoch": 0.02594033722438392,
	"eval_cer": 0.9659101184555565,
	"eval_loss": 10.076202392578125,
	"eval_runtime": 88.5272,
	"eval_samples_per_second": 29.867,
	"eval_steps_per_second": 3.739,
	"step": 20
	},
	{
	"epoch": 0.028534370946822308,
	"grad_norm": 34.152923583984375,
	"learning_rate": 1.08e-06,
	"loss": 8.3962,
	"step": 22
	},
	{
	"epoch": 0.0311284046692607,
	"grad_norm": NaN,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 8.2708,
	"step": 24
	},
	{
	"epoch": 0.0324254215304799,
	"eval_cer": 0.9612683485547217,
	"eval_loss": 9.797987937927246,
	"eval_runtime": 96.7288,
	"eval_samples_per_second": 27.334,
	"eval_steps_per_second": 3.422,
	"step": 25
	},
	{
	"epoch": 0.03372243839169909,
	"grad_norm": 45.9756965637207,
	"learning_rate": 1.26e-06,
	"loss": 7.8454,
	"step": 26
	},
	{
	"epoch": 0.03631647211413749,
	"grad_norm": 32.557674407958984,
	"learning_rate": 1.38e-06,
	"loss": 8.2102,
	"step": 28
	},
	{
	"epoch": 0.038910505836575876,
	"grad_norm": 32.354164123535156,
	"learning_rate": 1.5e-06,
	"loss": 8.6184,
	"step": 30
	},
	{
	"epoch": 0.038910505836575876,
	"eval_cer": 0.9502366096994906,
	"eval_loss": 9.3967866897583,
	"eval_runtime": 98.634,
	"eval_samples_per_second": 26.806,
	"eval_steps_per_second": 3.356,
	"step": 30
	},
	{
	"epoch": 0.041504539559014265,
	"grad_norm": 33.6341667175293,
	"learning_rate": 1.62e-06,
	"loss": 8.1516,
	"step": 32
	},
	{
	"epoch": 0.04409857328145266,
	"grad_norm": 39.92112350463867,
	"learning_rate": 1.74e-06,
	"loss": 8.0678,
	"step": 34
	},
	{
	"epoch": 0.04539559014267185,
	"eval_cer": 0.9342315459505078,
	"eval_loss": 9.007755279541016,
	"eval_runtime": 81.7686,
	"eval_samples_per_second": 32.335,
	"eval_steps_per_second": 4.048,
	"step": 35
	},
	{
	"epoch": 0.04669260700389105,
	"grad_norm": 29.05873680114746,
	"learning_rate": 1.86e-06,
	"loss": 7.6011,
	"step": 36
	},
	{
	"epoch": 0.04928664072632944,
	"grad_norm": 25.371105194091797,
	"learning_rate": 1.98e-06,
	"loss": 7.2863,
	"step": 38
	},
	{
	"epoch": 0.05188067444876784,
	"grad_norm": 26.220144271850586,
	"learning_rate": 2.1000000000000002e-06,
	"loss": 7.699,
	"step": 40
	},
	{
	"epoch": 0.05188067444876784,
	"eval_cer": 0.9170509690448202,
	"eval_loss": 8.67233657836914,
	"eval_runtime": 84.2938,
	"eval_samples_per_second": 31.366,
	"eval_steps_per_second": 3.927,
	"step": 40
	},
	{
	"epoch": 0.054474708171206226,
	"grad_norm": 29.047372817993164,
	"learning_rate": 2.22e-06,
	"loss": 7.8821,
	"step": 42
	},
	{
	"epoch": 0.057068741893644616,
	"grad_norm": 27.84252166748047,
	"learning_rate": 2.34e-06,
	"loss": 7.091,
	"step": 44
	},
	{
	"epoch": 0.058365758754863814,
	"eval_cer": 0.9047231515809145,
	"eval_loss": 8.38408088684082,
	"eval_runtime": 92.3132,
	"eval_samples_per_second": 28.642,
	"eval_steps_per_second": 3.586,
	"step": 45
	},
	{
	"epoch": 0.05966277561608301,
	"grad_norm": 22.684850692749023,
	"learning_rate": 2.46e-06,
	"loss": 7.4182,
	"step": 46
	},
	{
	"epoch": 0.0622568093385214,
	"grad_norm": 33.87125778198242,
	"learning_rate": 2.58e-06,
	"loss": 7.2075,
	"step": 48
	},
	{
	"epoch": 0.0648508430609598,
	"grad_norm": 21.509159088134766,
	"learning_rate": 2.7e-06,
	"loss": 7.1052,
	"step": 50
	},
	{
	"epoch": 0.0648508430609598,
	"eval_cer": 0.899629261235193,
	"eval_loss": 8.13282585144043,
	"eval_runtime": 101.5177,
	"eval_samples_per_second": 26.045,
	"eval_steps_per_second": 3.261,
	"step": 50
	},
	{
	"epoch": 0.06744487678339818,
	"grad_norm": NaN,
	"learning_rate": 2.82e-06,
	"loss": 6.7926,
	"step": 52
	},
	{
	"epoch": 0.07003891050583658,
	"grad_norm": 21.155956268310547,
	"learning_rate": 2.88e-06,
	"loss": 6.8734,
	"step": 54
	},
	{
	"epoch": 0.07133592736705577,
	"eval_cer": 0.8984236067154957,
	"eval_loss": 7.93735408782959,
	"eval_runtime": 106.5732,
	"eval_samples_per_second": 24.809,
	"eval_steps_per_second": 3.106,
	"step": 55
	},
	{
	"epoch": 0.07263294422827497,
	"grad_norm": 19.74744415283203,
	"learning_rate": 3e-06,
	"loss": 6.8722,
	"step": 56
	},
	{
	"epoch": 0.07522697795071336,
	"grad_norm": 319.0416564941406,
	"learning_rate": 3.1199999999999998e-06,
	"loss": 6.4253,
	"step": 58
	},
	{
	"epoch": 0.07782101167315175,
	"grad_norm": 23.68337631225586,
	"learning_rate": 3.24e-06,
	"loss": 6.8842,
	"step": 60
	},
	{
	"epoch": 0.07782101167315175,
	"eval_cer": 0.8882056846610604,
	"eval_loss": 7.703160285949707,
	"eval_runtime": 110.1461,
	"eval_samples_per_second": 24.004,
	"eval_steps_per_second": 3.005,
	"step": 60
	},
	{
	"epoch": 0.08041504539559015,
	"grad_norm": 20.635147094726562,
	"learning_rate": 3.36e-06,
	"loss": 6.2162,
	"step": 62
	},
	{
	"epoch": 0.08300907911802853,
	"grad_norm": 19.55179786682129,
	"learning_rate": 3.48e-06,
	"loss": 6.7139,
	"step": 64
	},
	{
	"epoch": 0.08430609597924774,
	"eval_cer": 0.8779576212436326,
	"eval_loss": 7.470834255218506,
	"eval_runtime": 111.6785,
	"eval_samples_per_second": 23.675,
	"eval_steps_per_second": 2.964,
	"step": 65
	},
	{
	"epoch": 0.08560311284046693,
	"grad_norm": 17.086580276489258,
	"learning_rate": 3.6e-06,
	"loss": 6.6201,
	"step": 66
	},
	{
	"epoch": 0.08819714656290532,
	"grad_norm": 15.556456565856934,
	"learning_rate": 3.72e-06,
	"loss": 6.093,
	"step": 68
	},
	{
	"epoch": 0.0907911802853437,
	"grad_norm": 49.20164489746094,
	"learning_rate": 3.8400000000000005e-06,
	"loss": 5.9421,
	"step": 70
	},
	{
	"epoch": 0.0907911802853437,
	"eval_cer": 0.8584561593875275,
	"eval_loss": 7.236043930053711,
	"eval_runtime": 126.8066,
	"eval_samples_per_second": 20.851,
	"eval_steps_per_second": 2.61,
	"step": 70
	},
	{
	"epoch": 0.0933852140077821,
	"grad_norm": 17.137556076049805,
	"learning_rate": 3.96e-06,
	"loss": 6.7995,
	"step": 72
	},
	{
	"epoch": 0.0959792477302205,
	"grad_norm": 24.586021423339844,
	"learning_rate": 4.080000000000001e-06,
	"loss": 6.043,
	"step": 74
	},
	{
	"epoch": 0.09727626459143969,
	"eval_cer": 0.8255719323627815,
	"eval_loss": 7.014294624328613,
	"eval_runtime": 128.9469,
	"eval_samples_per_second": 20.505,
	"eval_steps_per_second": 2.567,
	"step": 75
	},
	{
	"epoch": 0.09857328145265888,
	"grad_norm": 17.460948944091797,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 6.0706,
	"step": 76
	},
	{
	"epoch": 0.10116731517509728,
	"grad_norm": 26.46303939819336,
	"learning_rate": 4.32e-06,
	"loss": 6.7666,
	"step": 78
	},
	{
	"epoch": 0.10376134889753567,
	"grad_norm": 32.067054748535156,
	"learning_rate": 4.44e-06,
	"loss": 6.0295,
	"step": 80
	},
	{
	"epoch": 0.10376134889753567,
	"eval_cer": 0.782530066009585,
	"eval_loss": 6.801568984985352,
	"eval_runtime": 114.6152,
	"eval_samples_per_second": 23.069,
	"eval_steps_per_second": 2.888,
	"step": 80
	},
	{
	"epoch": 0.10635538261997406,
	"grad_norm": 14.94288158416748,
	"learning_rate": 4.56e-06,
	"loss": 5.7654,
	"step": 82
	},
	{
	"epoch": 0.10894941634241245,
	"grad_norm": 21.89992904663086,
	"learning_rate": 4.68e-06,
	"loss": 5.7672,
	"step": 84
	},
	{
	"epoch": 0.11024643320363164,
	"eval_cer": 0.7390059378485095,
	"eval_loss": 6.629735469818115,
	"eval_runtime": 116.8302,
	"eval_samples_per_second": 22.631,
	"eval_steps_per_second": 2.833,
	"step": 85
	},
	{
	"epoch": 0.11154345006485085,
	"grad_norm": 23.829565048217773,
	"learning_rate": 4.800000000000001e-06,
	"loss": 5.4628,
	"step": 86
	},
	{
	"epoch": 0.11413748378728923,
	"grad_norm": 18.05320930480957,
	"learning_rate": 4.92e-06,
	"loss": 5.1534,
	"step": 88
	},
	{
	"epoch": 0.11673151750972763,
	"grad_norm": 25.233701705932617,
	"learning_rate": 5.04e-06,
	"loss": 5.3042,
	"step": 90
	},
	{
	"epoch": 0.11673151750972763,
	"eval_cer": 0.7084124544111885,
	"eval_loss": 6.476639747619629,
	"eval_runtime": 118.7446,
	"eval_samples_per_second": 22.266,
	"eval_steps_per_second": 2.787,
	"step": 90
	},
	{
	"epoch": 0.11932555123216602,
	"grad_norm": 35.21253967285156,
	"learning_rate": 5.16e-06,
	"loss": 5.4296,
	"step": 92
	},
	{
	"epoch": 0.1219195849546044,
	"grad_norm": 17.080265045166016,
	"learning_rate": 5.279999999999999e-06,
	"loss": 5.3031,
	"step": 94
	},
	{
	"epoch": 0.12321660181582361,
	"eval_cer": 0.6901467884377731,
	"eval_loss": 6.346051216125488,
	"eval_runtime": 119.9281,
	"eval_samples_per_second": 22.047,
	"eval_steps_per_second": 2.76,
	"step": 95
	},
	{
	"epoch": 0.1245136186770428,
	"grad_norm": 14.830784797668457,
	"learning_rate": 5.4e-06,
	"loss": 5.4933,
	"step": 96
	},
	{
	"epoch": 0.12710765239948119,
	"grad_norm": 14.9316987991333,
	"learning_rate": 5.52e-06,
	"loss": 5.3361,
	"step": 98
	},
	{
	"epoch": 0.1297016861219196,
	"grad_norm": 42.79384994506836,
	"learning_rate": 5.64e-06,
	"loss": 4.6843,
	"step": 100
	},
	{
	"epoch": 0.1297016861219196,
	"eval_cer": 0.6729059288061006,
	"eval_loss": 6.210666179656982,
	"eval_runtime": 120.5118,
	"eval_samples_per_second": 21.94,
	"eval_steps_per_second": 2.747,
	"step": 100
	},
	{
	"epoch": 0.13229571984435798,
	"grad_norm": 69.97132110595703,
	"learning_rate": 5.76e-06,
	"loss": 5.278,
	"step": 102
	},
	{
	"epoch": 0.13488975356679636,
	"grad_norm": 68.64286041259766,
	"learning_rate": 5.8800000000000005e-06,
	"loss": 5.3985,
	"step": 104
	},
	{
	"epoch": 0.13618677042801555,
	"eval_cer": 0.6567501582421557,
	"eval_loss": 6.105401039123535,
	"eval_runtime": 120.3425,
	"eval_samples_per_second": 21.971,
	"eval_steps_per_second": 2.75,
	"step": 105
	},
	{
	"epoch": 0.13748378728923477,
	"grad_norm": 16.881147384643555,
	"learning_rate": 6e-06,
	"loss": 5.5177,
	"step": 106
	},
	{
	"epoch": 0.14007782101167315,
	"grad_norm": 13.392465591430664,
	"learning_rate": 6.12e-06,
	"loss": 5.6112,
	"step": 108
	},
	{
	"epoch": 0.14267185473411154,
	"grad_norm": 12.735469818115234,
	"learning_rate": 6.2399999999999995e-06,
	"loss": 4.3825,
	"step": 110
	},
	{
	"epoch": 0.14267185473411154,
	"eval_cer": 0.6333303191970341,
	"eval_loss": 5.990973472595215,
	"eval_runtime": 122.2904,
	"eval_samples_per_second": 21.621,
	"eval_steps_per_second": 2.707,
	"step": 110
	},
	{
	"epoch": 0.14526588845654995,
	"grad_norm": 13.771244049072266,
	"learning_rate": 6.36e-06,
	"loss": 4.9807,
	"step": 112
	},
	{
	"epoch": 0.14785992217898833,
	"grad_norm": 16.60836410522461,
	"learning_rate": 6.48e-06,
	"loss": 5.0463,
	"step": 114
	},
	{
	"epoch": 0.14915693904020752,
	"eval_cer": 0.6150345118606263,
	"eval_loss": 5.89418363571167,
	"eval_runtime": 115.3341,
	"eval_samples_per_second": 22.925,
	"eval_steps_per_second": 2.87,
	"step": 115
	},
	{
	"epoch": 0.1504539559014267,
	"grad_norm": 11.2271146774292,
	"learning_rate": 6.6e-06,
	"loss": 5.1669,
	"step": 116
	},
	{
	"epoch": 0.15304798962386512,
	"grad_norm": 14.511568069458008,
	"learning_rate": 6.72e-06,
	"loss": 4.883,
	"step": 118
	},
	{
	"epoch": 0.1556420233463035,
	"grad_norm": 12.640761375427246,
	"learning_rate": 6.840000000000001e-06,
	"loss": 5.3346,
	"step": 120
	},
	{
	"epoch": 0.1556420233463035,
	"eval_cer": 0.6130451819031256,
	"eval_loss": 5.80028772354126,
	"eval_runtime": 113.846,
	"eval_samples_per_second": 23.224,
	"eval_steps_per_second": 2.907,
	"step": 120
	},
	{
	"epoch": 0.1582360570687419,
	"grad_norm": 10.243730545043945,
	"learning_rate": 6.96e-06,
	"loss": 4.669,
	"step": 122
	},
	{
	"epoch": 0.1608300907911803,
	"grad_norm": 19.194486618041992,
	"learning_rate": 7.08e-06,
	"loss": 5.2001,
	"step": 124
	},
	{
	"epoch": 0.1621271076523995,
	"eval_cer": 0.6162703077433161,
	"eval_loss": 5.716529369354248,
	"eval_runtime": 113.3314,
	"eval_samples_per_second": 23.33,
	"eval_steps_per_second": 2.921,
	"step": 125
	},
	{
	"epoch": 0.16342412451361868,
	"grad_norm": 25.41460418701172,
	"learning_rate": 7.2e-06,
	"loss": 4.8738,
	"step": 126
	},
	{
	"epoch": 0.16601815823605706,
	"grad_norm": 11.016427040100098,
	"learning_rate": 7.32e-06,
	"loss": 5.5428,
	"step": 128
	},
	{
	"epoch": 0.16861219195849547,
	"grad_norm": 19.337942123413086,
	"learning_rate": 7.44e-06,
	"loss": 5.097,
	"step": 130
	},
	{
	"epoch": 0.16861219195849547,
	"eval_cer": 0.6253127166410465,
	"eval_loss": 5.637584686279297,
	"eval_runtime": 111.6419,
	"eval_samples_per_second": 23.683,
	"eval_steps_per_second": 2.965,
	"step": 130
	},
	{
	"epoch": 0.17120622568093385,
	"grad_norm": 14.668910026550293,
	"learning_rate": 7.5600000000000005e-06,
	"loss": 5.1702,
	"step": 132
	},
	{
	"epoch": 0.17380025940337224,
	"grad_norm": 14.700507164001465,
	"learning_rate": 7.680000000000001e-06,
	"loss": 5.1842,
	"step": 134
	},
	{
	"epoch": 0.17509727626459143,
	"eval_cer": 0.6279952979473732,
	"eval_loss": 5.5578293800354,
	"eval_runtime": 115.7363,
	"eval_samples_per_second": 22.845,
	"eval_steps_per_second": 2.86,
	"step": 135
	},
	{
	"epoch": 0.17639429312581065,
	"grad_norm": 11.149736404418945,
	"learning_rate": 7.8e-06,
	"loss": 5.1527,
	"step": 136
	},
	{
	"epoch": 0.17898832684824903,
	"grad_norm": 12.17773723602295,
	"learning_rate": 7.92e-06,
	"loss": 5.3414,
	"step": 138
	},
	{
	"epoch": 0.1815823605706874,
	"grad_norm": 15.777327537536621,
	"learning_rate": 8.040000000000001e-06,
	"loss": 5.1606,
	"step": 140
	},
	{
	"epoch": 0.1815823605706874,
	"eval_cer": 0.611960092835398,
	"eval_loss": 5.470022201538086,
	"eval_runtime": 115.9413,
	"eval_samples_per_second": 22.805,
	"eval_steps_per_second": 2.855,
	"step": 140
	},
	{
	"epoch": 0.18417639429312582,
	"grad_norm": 22.217771530151367,
	"learning_rate": 8.160000000000001e-06,
	"loss": 5.0028,
	"step": 142
	},
	{
	"epoch": 0.1867704280155642,
	"grad_norm": 13.488722801208496,
	"learning_rate": 8.28e-06,
	"loss": 4.7495,
	"step": 144
	},
	{
	"epoch": 0.1880674448767834,
	"eval_cer": 0.6009886367061519,
	"eval_loss": 5.381906509399414,
	"eval_runtime": 109.493,
	"eval_samples_per_second": 24.148,
	"eval_steps_per_second": 3.023,
	"step": 145
	},
	{
	"epoch": 0.1893644617380026,
	"grad_norm": 12.898096084594727,
	"learning_rate": 8.400000000000001e-06,
	"loss": 4.847,
	"step": 146
	},
	{
	"epoch": 0.191958495460441,
	"grad_norm": 13.653580665588379,
	"learning_rate": 8.52e-06,
	"loss": 5.2004,
	"step": 148
	},
	{
	"epoch": 0.19455252918287938,
	"grad_norm": 10.915148735046387,
	"learning_rate": 8.64e-06,
	"loss": 4.9847,
	"step": 150
	},
	{
	"epoch": 0.19455252918287938,
	"eval_cer": 0.594960364107665,
	"eval_loss": 5.297786712646484,
	"eval_runtime": 108.0527,
	"eval_samples_per_second": 24.47,
	"eval_steps_per_second": 3.063,
	"step": 150
	},
	{
	"epoch": 0.19714656290531776,
	"grad_norm": 23.160659790039062,
	"learning_rate": 8.759999999999999e-06,
	"loss": 4.7818,
	"step": 152
	},
	{
	"epoch": 0.19974059662775617,
	"grad_norm": 14.993002891540527,
	"learning_rate": 8.88e-06,
	"loss": 4.7727,
	"step": 154
	},
	{
	"epoch": 0.20103761348897536,
	"eval_cer": 0.5589715766946981,
	"eval_loss": 5.1952223777771,
	"eval_runtime": 111.9206,
	"eval_samples_per_second": 23.624,
	"eval_steps_per_second": 2.957,
	"step": 155
	},
	{
	"epoch": 0.20233463035019456,
	"grad_norm": 13.507874488830566,
	"learning_rate": 9e-06,
	"loss": 4.4196,
	"step": 156
	},
	{
	"epoch": 0.20492866407263294,
	"grad_norm": 12.171915054321289,
	"learning_rate": 9.12e-06,
	"loss": 4.088,
	"step": 158
	},
	{
	"epoch": 0.20752269779507135,
	"grad_norm": 10.198915481567383,
	"learning_rate": 9.24e-06,
	"loss": 4.0656,
	"step": 160
	},
	{
	"epoch": 0.20752269779507135,
	"eval_cer": 0.5371492298881756,
	"eval_loss": 5.124251365661621,
	"eval_runtime": 115.3755,
	"eval_samples_per_second": 22.916,
	"eval_steps_per_second": 2.869,
	"step": 160
	},
	{
	"epoch": 0.21011673151750973,
	"grad_norm": 10.800135612487793,
	"learning_rate": 9.36e-06,
	"loss": 4.2534,
	"step": 162
	},
	{
	"epoch": 0.2127107652399481,
	"grad_norm": 28.48563575744629,
	"learning_rate": 9.48e-06,
	"loss": 4.0234,
	"step": 164
	},
	{
	"epoch": 0.2140077821011673,
	"eval_cer": 0.530246857762908,
	"eval_loss": 5.063826084136963,
	"eval_runtime": 114.849,
	"eval_samples_per_second": 23.022,
	"eval_steps_per_second": 2.882,
	"step": 165
	},
	{
	"epoch": 0.21530479896238652,
	"grad_norm": 20.067386627197266,
	"learning_rate": 9.600000000000001e-06,
	"loss": 4.3631,
	"step": 166
	},
	{
	"epoch": 0.2178988326848249,
	"grad_norm": 16.29481315612793,
	"learning_rate": 9.72e-06,
	"loss": 4.4636,
	"step": 168
	},
	{
	"epoch": 0.2204928664072633,
	"grad_norm": 101.64680480957031,
	"learning_rate": 9.84e-06,
	"loss": 5.033,
	"step": 170
	},
	{
	"epoch": 0.2204928664072633,
	"eval_cer": 0.5299755854959761,
	"eval_loss": 4.967648029327393,
	"eval_runtime": 111.3501,
	"eval_samples_per_second": 23.745,
	"eval_steps_per_second": 2.973,
	"step": 170
	},
	{
	"epoch": 0.2230869001297017,
	"grad_norm": 22.31951904296875,
	"learning_rate": 9.960000000000001e-06,
	"loss": 4.0891,
	"step": 172
	},
	{
	"epoch": 0.22568093385214008,
	"grad_norm": 56.18452072143555,
	"learning_rate": 1.008e-05,
	"loss": 4.284,
	"step": 174
	},
	{
	"epoch": 0.22697795071335927,
	"eval_cer": 0.520179642523435,
	"eval_loss": 4.895947456359863,
	"eval_runtime": 112.6531,
	"eval_samples_per_second": 23.47,
	"eval_steps_per_second": 2.938,
	"step": 175
	},
	{
	"epoch": 0.22827496757457846,
	"grad_norm": 13.42766284942627,
	"learning_rate": 1.02e-05,
	"loss": 4.4092,
	"step": 176
	},
	{
	"epoch": 0.23086900129701687,
	"grad_norm": 21.44829559326172,
	"learning_rate": 1.032e-05,
	"loss": 4.1597,
	"step": 178
	},
	{
	"epoch": 0.23346303501945526,
	"grad_norm": 14.215667724609375,
	"learning_rate": 1.044e-05,
	"loss": 3.8574,
	"step": 180
	},
	{
	"epoch": 0.23346303501945526,
	"eval_cer": 0.5017632697350575,
	"eval_loss": 4.84341287612915,
	"eval_runtime": 115.4414,
	"eval_samples_per_second": 22.903,
	"eval_steps_per_second": 2.867,
	"step": 180
	},
	{
	"epoch": 0.23605706874189364,
	"grad_norm": 13.1805419921875,
	"learning_rate": 1.0559999999999999e-05,
	"loss": 4.0776,
	"step": 182
	},
	{
	"epoch": 0.23865110246433205,
	"grad_norm": 98.30623626708984,
	"learning_rate": 1.068e-05,
	"loss": 4.2507,
	"step": 184
	},
	{
	"epoch": 0.23994811932555124,
	"eval_cer": 0.48886276637429543,
	"eval_loss": 4.78084135055542,
	"eval_runtime": 123.8484,
	"eval_samples_per_second": 21.349,
	"eval_steps_per_second": 2.673,
	"step": 185
	},
	{
	"epoch": 0.24124513618677043,
	"grad_norm": 35.59674072265625,
	"learning_rate": 1.08e-05,
	"loss": 4.1455,
	"step": 186
	},
	{
	"epoch": 0.2438391699092088,
	"grad_norm": 21.6286563873291,
	"learning_rate": 1.092e-05,
	"loss": 5.0675,
	"step": 188
	},
	{
	"epoch": 0.24643320363164722,
	"grad_norm": 17.0408878326416,
	"learning_rate": 1.104e-05,
	"loss": 3.953,
	"step": 190
	},
	{
	"epoch": 0.24643320363164722,
	"eval_cer": 0.47979021611357264,
	"eval_loss": 4.711887836456299,
	"eval_runtime": 135.169,
	"eval_samples_per_second": 19.561,
	"eval_steps_per_second": 2.449,
	"step": 190
	},
	{
	"epoch": 0.2490272373540856,
	"grad_norm": 24.359798431396484,
	"learning_rate": 1.116e-05,
	"loss": 4.4154,
	"step": 192
	},
	{
	"epoch": 0.251621271076524,
	"grad_norm": 13.193626403808594,
	"learning_rate": 1.128e-05,
	"loss": 4.3269,
	"step": 194
	},
	{
	"epoch": 0.2529182879377432,
	"eval_cer": 0.4659251891370528,
	"eval_loss": 4.614772319793701,
	"eval_runtime": 132.7599,
	"eval_samples_per_second": 19.916,
	"eval_steps_per_second": 2.493,
	"step": 195
	},
	{
	"epoch": 0.25421530479896237,
	"grad_norm": 14.497838973999023,
	"learning_rate": 1.1400000000000001e-05,
	"loss": 4.0266,
	"step": 196
	},
	{
	"epoch": 0.25680933852140075,
	"grad_norm": 12.457406997680664,
	"learning_rate": 1.152e-05,
	"loss": 4.3069,
	"step": 198
	},
	{
	"epoch": 0.2594033722438392,
	"grad_norm": 18.889881134033203,
	"learning_rate": 1.164e-05,
	"loss": 4.1068,
	"step": 200
	},
	{
	"epoch": 0.2594033722438392,
	"eval_cer": 0.4684872049914097,
	"eval_loss": 4.578884601593018,
	"eval_runtime": 129.8465,
	"eval_samples_per_second": 20.363,
	"eval_steps_per_second": 2.549,
	"step": 200
	},
	{
	"epoch": 0.2619974059662776,
	"grad_norm": 11.648727416992188,
	"learning_rate": 1.1760000000000001e-05,
	"loss": 3.7185,
	"step": 202
	},
	{
	"epoch": 0.26459143968871596,
	"grad_norm": 13.08809757232666,
	"learning_rate": 1.1880000000000001e-05,
	"loss": 4.1442,
	"step": 204
	},
	{
	"epoch": 0.26588845654993515,
	"eval_cer": 0.46004762335352806,
	"eval_loss": 4.4956889152526855,
	"eval_runtime": 114.7341,
	"eval_samples_per_second": 23.045,
	"eval_steps_per_second": 2.885,
	"step": 205
	},
	{
	"epoch": 0.26718547341115434,
	"grad_norm": 12.64474105834961,
	"learning_rate": 1.2e-05,
	"loss": 3.7967,
	"step": 206
	},
	{
	"epoch": 0.2697795071335927,
	"grad_norm": 12.794676780700684,
	"learning_rate": 1.2120000000000001e-05,
	"loss": 3.8475,
	"step": 208
	},
	{
	"epoch": 0.2723735408560311,
	"grad_norm": 13.091010093688965,
	"learning_rate": 1.224e-05,
	"loss": 3.5213,
	"step": 210
	},
	{
	"epoch": 0.2723735408560311,
	"eval_cer": 0.43729089429424,
	"eval_loss": 4.389532089233398,
	"eval_runtime": 111.3543,
	"eval_samples_per_second": 23.744,
	"eval_steps_per_second": 2.972,
	"step": 210
	},
	{
	"epoch": 0.27496757457846954,
	"grad_norm": 13.716208457946777,
	"learning_rate": 1.236e-05,
	"loss": 4.0241,
	"step": 212
	},
	{
	"epoch": 0.2775616083009079,
	"grad_norm": 14.271407127380371,
	"learning_rate": 1.2479999999999999e-05,
	"loss": 4.1152,
	"step": 214
	},
	{
	"epoch": 0.2788586251621271,
	"eval_cer": 0.449709135847123,
	"eval_loss": 4.357320308685303,
	"eval_runtime": 113.2044,
	"eval_samples_per_second": 23.356,
	"eval_steps_per_second": 2.924,
	"step": 215
	},
	{
	"epoch": 0.2801556420233463,
	"grad_norm": 12.267643928527832,
	"learning_rate": 1.26e-05,
	"loss": 3.2922,
	"step": 216
	},
	{
	"epoch": 0.2827496757457847,
	"grad_norm": 13.182437896728516,
	"learning_rate": 1.272e-05,
	"loss": 3.8861,
	"step": 218
	},
	{
	"epoch": 0.2853437094682231,
	"grad_norm": 12.376786231994629,
	"learning_rate": 1.284e-05,
	"loss": 3.5171,
	"step": 220
	},
	{
	"epoch": 0.2853437094682231,
	"eval_cer": 0.45802815203303493,
	"eval_loss": 4.331967830657959,
	"eval_runtime": 114.1848,
	"eval_samples_per_second": 23.155,
	"eval_steps_per_second": 2.899,
	"step": 220
	},
	{
	"epoch": 0.28793774319066145,
	"grad_norm": 11.612021446228027,
	"learning_rate": 1.296e-05,
	"loss": 4.1036,
	"step": 222
	},
	{
	"epoch": 0.2905317769130999,
	"grad_norm": 12.48078727722168,
	"learning_rate": 1.308e-05,
	"loss": 3.1498,
	"step": 224
	},
	{
	"epoch": 0.2918287937743191,
	"eval_cer": 0.4402146065045061,
	"eval_loss": 4.2296319007873535,
	"eval_runtime": 118.3956,
	"eval_samples_per_second": 22.332,
	"eval_steps_per_second": 2.796,
	"step": 225
	},
	{
	"epoch": 0.2931258106355383,
	"grad_norm": 28.98529815673828,
	"learning_rate": 1.32e-05,
	"loss": 3.7617,
	"step": 226
	},
	{
	"epoch": 0.29571984435797666,
	"grad_norm": 16.19705581665039,
	"learning_rate": 1.3320000000000001e-05,
	"loss": 4.0489,
	"step": 228
	},
	{
	"epoch": 0.29831387808041504,
	"grad_norm": 12.226841926574707,
	"learning_rate": 1.344e-05,
	"loss": 3.6797,
	"step": 230
	},
	{
	"epoch": 0.29831387808041504,
	"eval_cer": 0.43195587304457905,
	"eval_loss": 4.158808708190918,
	"eval_runtime": 112.6694,
	"eval_samples_per_second": 23.467,
	"eval_steps_per_second": 2.938,
	"step": 230
	},
	{
	"epoch": 0.3009079118028534,
	"grad_norm": 20.419113159179688,
	"learning_rate": 1.356e-05,
	"loss": 3.6434,
	"step": 232
	},
	{
	"epoch": 0.3035019455252918,
	"grad_norm": 18.819181442260742,
	"learning_rate": 1.3680000000000001e-05,
	"loss": 3.2154,
	"step": 234
	},
	{
	"epoch": 0.30479896238651105,
	"eval_cer": 0.4050697772553275,
	"eval_loss": 4.025953769683838,
	"eval_runtime": 113.1476,
	"eval_samples_per_second": 23.368,
	"eval_steps_per_second": 2.925,
	"step": 235
	},
	{
	"epoch": 0.30609597924773024,
	"grad_norm": 12.357544898986816,
	"learning_rate": 1.3800000000000002e-05,
	"loss": 3.9309,
	"step": 236
	},
	{
	"epoch": 0.3086900129701686,
	"grad_norm": 14.584222793579102,
	"learning_rate": 1.392e-05,
	"loss": 3.5647,
	"step": 238
	},
	{
	"epoch": 0.311284046692607,
	"grad_norm": 11.948848724365234,
	"learning_rate": 1.4040000000000001e-05,
	"loss": 3.439,
	"step": 240
	},
	{
	"epoch": 0.311284046692607,
	"eval_cer": 0.3937064834071797,
	"eval_loss": 3.905667304992676,
	"eval_runtime": 113.4696,
	"eval_samples_per_second": 23.301,
	"eval_steps_per_second": 2.917,
	"step": 240
	},
	{
	"epoch": 0.3138780804150454,
	"grad_norm": 13.00888729095459,
	"learning_rate": 1.416e-05,
	"loss": 3.2106,
	"step": 242
	},
	{
	"epoch": 0.3164721141374838,
	"grad_norm": 12.678916931152344,
	"learning_rate": 1.428e-05,
	"loss": 3.4027,
	"step": 244
	},
	{
	"epoch": 0.31776913099870296,
	"eval_cer": 0.3925912529764596,
	"eval_loss": 3.8874895572662354,
	"eval_runtime": 189.1601,
	"eval_samples_per_second": 13.978,
	"eval_steps_per_second": 1.75,
	"step": 245
	},
	{
	"epoch": 0.31906614785992216,
	"grad_norm": 16.414127349853516,
	"learning_rate": 1.44e-05,
	"loss": 2.5058,
	"step": 246
	},
	{
	"epoch": 0.3216601815823606,
	"grad_norm": 16.07786750793457,
	"learning_rate": 1.452e-05,
	"loss": 3.3537,
	"step": 248
	},
	{
	"epoch": 0.324254215304799,
	"grad_norm": 15.625645637512207,
	"learning_rate": 1.464e-05,
	"loss": 3.6318,
	"step": 250
	},
	{
	"epoch": 0.324254215304799,
	"eval_cer": 0.3870151008228592,
	"eval_loss": 3.824657917022705,
	"eval_runtime": 233.078,
	"eval_samples_per_second": 11.344,
	"eval_steps_per_second": 1.42,
	"step": 250
	},
	{
	"epoch": 0.32684824902723736,
	"grad_norm": 16.048980712890625,
	"learning_rate": 1.4760000000000001e-05,
	"loss": 3.6032,
	"step": 252
	},
	{
	"epoch": 0.32944228274967574,
	"grad_norm": 12.714573860168457,
	"learning_rate": 1.488e-05,
	"loss": 3.8301,
	"step": 254
	},
	{
	"epoch": 0.33073929961089493,
	"eval_cer": 0.374446152455014,
	"eval_loss": 3.690356969833374,
	"eval_runtime": 139.2198,
	"eval_samples_per_second": 18.992,
	"eval_steps_per_second": 2.378,
	"step": 255
	},
	{
	"epoch": 0.3320363164721141,
	"grad_norm": 12.425498962402344,
	"learning_rate": 1.5e-05,
	"loss": 3.0105,
	"step": 256
	},
	{
	"epoch": 0.3346303501945525,
	"grad_norm": 13.164816856384277,
	"learning_rate": 1.5120000000000001e-05,
	"loss": 3.6224,
	"step": 258
	},
	{
	"epoch": 0.33722438391699094,
	"grad_norm": 14.977278709411621,
	"learning_rate": 1.524e-05,
	"loss": 3.2017,
	"step": 260
	},
	{
	"epoch": 0.33722438391699094,
	"eval_cer": 0.3727582361274377,
	"eval_loss": 3.6364212036132812,
	"eval_runtime": 123.239,
	"eval_samples_per_second": 21.454,
	"eval_steps_per_second": 2.686,
	"step": 260
	},
	{
	"epoch": 0.3398184176394293,
	"grad_norm": 16.265350341796875,
	"learning_rate": 1.5360000000000002e-05,
	"loss": 3.9344,
	"step": 262
	},
	{
	"epoch": 0.3424124513618677,
	"grad_norm": 13.141109466552734,
	"learning_rate": 1.548e-05,
	"loss": 2.757,
	"step": 264
	},
	{
	"epoch": 0.3437094682230869,
	"eval_cer": 0.3830062995448654,
	"eval_loss": 3.622190475463867,
	"eval_runtime": 117.2686,
	"eval_samples_per_second": 22.547,
	"eval_steps_per_second": 2.823,
	"step": 265
	},
	{
	"epoch": 0.3450064850843061,
	"grad_norm": 12.868675231933594,
	"learning_rate": 1.56e-05,
	"loss": 3.4981,
	"step": 266
	},
	{
	"epoch": 0.3476005188067445,
	"grad_norm": 12.726391792297363,
	"learning_rate": 1.5720000000000002e-05,
	"loss": 2.9291,
	"step": 268
	},
	{
	"epoch": 0.35019455252918286,
	"grad_norm": 31.09647560119629,
	"learning_rate": 1.584e-05,
	"loss": 3.1786,
	"step": 270
	},
	{
	"epoch": 0.35019455252918286,
	"eval_cer": 0.3782741055550532,
	"eval_loss": 3.598266124725342,
	"eval_runtime": 115.8076,
	"eval_samples_per_second": 22.831,
	"eval_steps_per_second": 2.858,
	"step": 270
	},
	{
	"epoch": 0.3527885862516213,
	"grad_norm": 12.694645881652832,
	"learning_rate": 1.596e-05,
	"loss": 3.2305,
	"step": 272
	},
	{
	"epoch": 0.3553826199740597,
	"grad_norm": 20.454267501831055,
	"learning_rate": 1.6080000000000002e-05,
	"loss": 2.9721,
	"step": 274
	},
	{
	"epoch": 0.35667963683527887,
	"eval_cer": 0.3755613828857341,
	"eval_loss": 3.512030839920044,
	"eval_runtime": 133.3206,
	"eval_samples_per_second": 19.832,
	"eval_steps_per_second": 2.483,
	"step": 275
	},
	{
	"epoch": 0.35797665369649806,
	"grad_norm": 20.09004783630371,
	"learning_rate": 1.62e-05,
	"loss": 3.0882,
	"step": 276
	},
	{
	"epoch": 0.36057068741893644,
	"grad_norm": 16.710346221923828,
	"learning_rate": 1.6320000000000003e-05,
	"loss": 2.762,
	"step": 278
	},
	{
	"epoch": 0.3631647211413748,
	"grad_norm": 19.519004821777344,
	"learning_rate": 1.6440000000000002e-05,
	"loss": 3.0841,
	"step": 280
	},
	{
	"epoch": 0.3631647211413748,
	"eval_cer": 0.36691081170690537,
	"eval_loss": 3.4976441860198975,
	"eval_runtime": 135.0965,
	"eval_samples_per_second": 19.571,
	"eval_steps_per_second": 2.45,
	"step": 280
	},
	{
	"epoch": 0.3657587548638132,
	"grad_norm": 13.175090789794922,
	"learning_rate": 1.656e-05,
	"loss": 3.5364,
	"step": 282
	},
	{
	"epoch": 0.36835278858625164,
	"grad_norm": 16.523889541625977,
	"learning_rate": 1.6680000000000003e-05,
	"loss": 2.6431,
	"step": 284
	},
	{
	"epoch": 0.36964980544747084,
	"eval_cer": 0.3738734665581578,
	"eval_loss": 3.458583116531372,
	"eval_runtime": 229.2061,
	"eval_samples_per_second": 11.535,
	"eval_steps_per_second": 1.444,
	"step": 285
	},
	{
	"epoch": 0.37094682230869,
	"grad_norm": 14.984639167785645,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 4.2237,
	"step": 286
	},
	{
	"epoch": 0.3735408560311284,
	"grad_norm": 13.299590110778809,
	"learning_rate": 1.6919999999999997e-05,
	"loss": 2.6747,
	"step": 288
	},
	{
	"epoch": 0.3761348897535668,
	"grad_norm": 12.275932312011719,
	"learning_rate": 1.704e-05,
	"loss": 2.3366,
	"step": 290
	},
	{
	"epoch": 0.3761348897535668,
	"eval_cer": 0.3661271362691021,
	"eval_loss": 3.3806421756744385,
	"eval_runtime": 245.1909,
	"eval_samples_per_second": 10.783,
	"eval_steps_per_second": 1.35,
	"step": 290
	},
	{
	"epoch": 0.3787289234760052,
	"grad_norm": 14.83483600616455,
	"learning_rate": 1.716e-05,
	"loss": 3.1826,
	"step": 292
	},
	{
	"epoch": 0.38132295719844356,
	"grad_norm": 14.161396026611328,
	"learning_rate": 1.728e-05,
	"loss": 3.5359,
	"step": 294
	},
	{
	"epoch": 0.38261997405966275,
	"eval_cer": 0.3429182867649275,
	"eval_loss": 3.350353956222534,
	"eval_runtime": 219.4263,
	"eval_samples_per_second": 12.05,
	"eval_steps_per_second": 1.508,
	"step": 295
	},
	{
	"epoch": 0.383916990920882,
	"grad_norm": 12.273178100585938,
	"learning_rate": 1.74e-05,
	"loss": 3.6439,
	"step": 296
	},
	{
	"epoch": 0.3865110246433204,
	"grad_norm": 14.881448745727539,
	"learning_rate": 1.7519999999999998e-05,
	"loss": 3.6943,
	"step": 298
	},
	{
	"epoch": 0.38910505836575876,
	"grad_norm": 14.406302452087402,
	"learning_rate": 1.764e-05,
	"loss": 3.4593,
	"step": 300
	},
	{
	"epoch": 0.38910505836575876,
	"eval_cer": 0.3484040148295506,
	"eval_loss": 3.2906293869018555,
	"eval_runtime": 141.4541,
	"eval_samples_per_second": 18.692,
	"eval_steps_per_second": 2.34,
	"step": 300
	},
	{
	"epoch": 0.39169909208819714,
	"grad_norm": 15.321798324584961,
	"learning_rate": 1.776e-05,
	"loss": 3.1981,
	"step": 302
	},
	{
	"epoch": 0.3942931258106355,
	"grad_norm": 12.990147590637207,
	"learning_rate": 1.7879999999999998e-05,
	"loss": 3.1501,
	"step": 304
	},
	{
	"epoch": 0.3955901426718547,
	"eval_cer": 0.34671609850197427,
	"eval_loss": 3.222804069519043,
	"eval_runtime": 189.6181,
	"eval_samples_per_second": 13.944,
	"eval_steps_per_second": 1.746,
	"step": 305
	},
	{
	"epoch": 0.3968871595330739,
	"grad_norm": 11.798747062683105,
	"learning_rate": 1.8e-05,
	"loss": 3.6844,
	"step": 306
	},
	{
	"epoch": 0.39948119325551235,
	"grad_norm": 15.285426139831543,
	"learning_rate": 1.812e-05,
	"loss": 2.115,
	"step": 308
	},
	{
	"epoch": 0.40207522697795073,
	"grad_norm": 14.921792984008789,
	"learning_rate": 1.824e-05,
	"loss": 2.8101,
	"step": 310
	},
	{
	"epoch": 0.40207522697795073,
	"eval_cer": 0.342466166320041,
	"eval_loss": 3.1945455074310303,
	"eval_runtime": 145.2418,
	"eval_samples_per_second": 18.204,
	"eval_steps_per_second": 2.279,
	"step": 310
	},
	{
	"epoch": 0.4046692607003891,
	"grad_norm": 12.135457992553711,
	"learning_rate": 1.836e-05,
	"loss": 3.4391,
	"step": 312
	},
	{
	"epoch": 0.4072632944228275,
	"grad_norm": 14.905659675598145,
	"learning_rate": 1.848e-05,
	"loss": 2.8493,
	"step": 314
	},
	{
	"epoch": 0.4085603112840467,
	"eval_cer": 0.35328691563432496,
	"eval_loss": 3.176107883453369,
	"eval_runtime": 245.7678,
	"eval_samples_per_second": 10.758,
	"eval_steps_per_second": 1.347,
	"step": 315
	},
	{
	"epoch": 0.4098573281452659,
	"grad_norm": 13.051637649536133,
	"learning_rate": 1.86e-05,
	"loss": 2.8454,
	"step": 316
	},
	{
	"epoch": 0.41245136186770426,
	"grad_norm": 14.108623504638672,
	"learning_rate": 1.872e-05,
	"loss": 3.4802,
	"step": 318
	},
	{
	"epoch": 0.4150453955901427,
	"grad_norm": 19.467906951904297,
	"learning_rate": 1.884e-05,
	"loss": 2.8067,
	"step": 320
	},
	{
	"epoch": 0.4150453955901427,
	"eval_cer": 0.3708593302589143,
	"eval_loss": 3.1531643867492676,
	"eval_runtime": 211.2143,
	"eval_samples_per_second": 12.518,
	"eval_steps_per_second": 1.567,
	"step": 320
	},
	{
	"epoch": 0.4176394293125811,
	"grad_norm": 15.744620323181152,
	"learning_rate": 1.896e-05,
	"loss": 2.2496,
	"step": 322
	},
	{
	"epoch": 0.42023346303501946,
	"grad_norm": 14.49579906463623,
	"learning_rate": 1.908e-05,
	"loss": 2.7236,
	"step": 324
	},
	{
	"epoch": 0.42153047989623865,
	"eval_cer": 0.35376917744220393,
	"eval_loss": 3.1204159259796143,
	"eval_runtime": 194.3013,
	"eval_samples_per_second": 13.608,
	"eval_steps_per_second": 1.704,
	"step": 325
	},
	{
	"epoch": 0.42282749675745784,
	"grad_norm": 16.304920196533203,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 2.785,
	"step": 326
	},
	{
	"epoch": 0.4254215304798962,
	"grad_norm": 12.900490760803223,
	"learning_rate": 1.932e-05,
	"loss": 2.5259,
	"step": 328
	},
	{
	"epoch": 0.4280155642023346,
	"grad_norm": 15.345794677734375,
	"learning_rate": 1.944e-05,
	"loss": 3.023,
	"step": 330
	},
	{
	"epoch": 0.4280155642023346,
	"eval_cer": 0.3658558640021702,
	"eval_loss": 3.054361581802368,
	"eval_runtime": 234.2094,
	"eval_samples_per_second": 11.289,
	"eval_steps_per_second": 1.413,
	"step": 330
	},
	{
	"epoch": 0.43060959792477305,
	"grad_norm": 17.006378173828125,
	"learning_rate": 1.9560000000000002e-05,
	"loss": 2.5932,
	"step": 332
	},
	{
	"epoch": 0.43320363164721143,
	"grad_norm": 12.188159942626953,
	"learning_rate": 1.968e-05,
	"loss": 3.1202,
	"step": 334
	},
	{
	"epoch": 0.4345006485084306,
	"eval_cer": 0.35904391596588,
	"eval_loss": 3.008192300796509,
	"eval_runtime": 161.9322,
	"eval_samples_per_second": 16.328,
	"eval_steps_per_second": 2.044,
	"step": 335
	},
	{
	"epoch": 0.4357976653696498,
	"grad_norm": 13.4000883102417,
	"learning_rate": 1.98e-05,
	"loss": 2.9631,
	"step": 336
	},
	{
	"epoch": 0.4383916990920882,
	"grad_norm": 12.92082691192627,
	"learning_rate": 1.9920000000000002e-05,
	"loss": 2.6806,
	"step": 338
	},
	{
	"epoch": 0.4409857328145266,
	"grad_norm": 19.443449020385742,
	"learning_rate": 2.004e-05,
	"loss": 2.6839,
	"step": 340
	},
	{
	"epoch": 0.4409857328145266,
	"eval_cer": 0.34593242306417094,
	"eval_loss": 2.986955404281616,
	"eval_runtime": 209.5827,
	"eval_samples_per_second": 12.616,
	"eval_steps_per_second": 1.579,
	"step": 340
	},
	{
	"epoch": 0.44357976653696496,
	"grad_norm": 13.657390594482422,
	"learning_rate": 2.016e-05,
	"loss": 3.3844,
	"step": 342
	},
	{
	"epoch": 0.4461738002594034,
	"grad_norm": 12.142219543457031,
	"learning_rate": 2.0280000000000002e-05,
	"loss": 2.5051,
	"step": 344
	},
	{
	"epoch": 0.4474708171206226,
	"eval_cer": 0.34991108297917234,
	"eval_loss": 2.9238357543945312,
	"eval_runtime": 172.4959,
	"eval_samples_per_second": 15.328,
	"eval_steps_per_second": 1.919,
	"step": 345
	},
	{
	"epoch": 0.4487678339818418,
	"grad_norm": 11.67302417755127,
	"learning_rate": 2.04e-05,
	"loss": 2.6669,
	"step": 346
	},
	{
	"epoch": 0.45136186770428016,
	"grad_norm": 9.952072143554688,
	"learning_rate": 2.0520000000000003e-05,
	"loss": 3.1192,
	"step": 348
	},
	{
	"epoch": 0.45395590142671854,
	"grad_norm": 13.724016189575195,
	"learning_rate": 2.064e-05,
	"loss": 3.026,
	"step": 350
	},
	{
	"epoch": 0.45395590142671854,
	"eval_cer": 0.35256352292250653,
	"eval_loss": 2.923769235610962,
	"eval_runtime": 178.4978,
	"eval_samples_per_second": 14.813,
	"eval_steps_per_second": 1.854,
	"step": 350
	},
	{
	"epoch": 0.4565499351491569,
	"grad_norm": 12.271801948547363,
	"learning_rate": 2.0759999999999998e-05,
	"loss": 2.0673,
	"step": 352
	},
	{
	"epoch": 0.4591439688715953,
	"grad_norm": 11.006880760192871,
	"learning_rate": 2.088e-05,
	"loss": 2.1873,
	"step": 354
	},
	{
	"epoch": 0.4604409857328145,
	"eval_cer": 0.3467763812279591,
	"eval_loss": 2.878007173538208,
	"eval_runtime": 239.5277,
	"eval_samples_per_second": 11.038,
	"eval_steps_per_second": 1.382,
	"step": 355
	},
	{
	"epoch": 0.46173800259403375,
	"grad_norm": 20.289621353149414,
	"learning_rate": 2.1e-05,
	"loss": 2.8391,
	"step": 356
	},
	{
	"epoch": 0.46433203631647213,
	"grad_norm": 12.577980995178223,
	"learning_rate": 2.1119999999999998e-05,
	"loss": 2.2868,
	"step": 358
	},
	{
	"epoch": 0.4669260700389105,
	"grad_norm": 12.996379852294922,
	"learning_rate": 2.124e-05,
	"loss": 2.8355,
	"step": 360
	},
	{
	"epoch": 0.4669260700389105,
	"eval_cer": 0.32480332760647435,
	"eval_loss": 2.820495843887329,
	"eval_runtime": 183.724,
	"eval_samples_per_second": 14.391,
	"eval_steps_per_second": 1.802,
	"step": 360
	},
	{
	"epoch": 0.4695201037613489,
	"grad_norm": 20.477155685424805,
	"learning_rate": 2.136e-05,
	"loss": 2.8462,
	"step": 362
	},
	{
	"epoch": 0.4721141374837873,
	"grad_norm": 32.31524658203125,
	"learning_rate": 2.148e-05,
	"loss": 2.0954,
	"step": 364
	},
	{
	"epoch": 0.47341115434500647,
	"eval_cer": 0.3083160020496127,
	"eval_loss": 2.8296797275543213,
	"eval_runtime": 276.3938,
	"eval_samples_per_second": 9.566,
	"eval_steps_per_second": 1.198,
	"step": 365
	},
	{
	"epoch": 0.47470817120622566,
	"grad_norm": 14.220911026000977,
	"learning_rate": 2.16e-05,
	"loss": 2.4953,
	"step": 366
	},
	{
	"epoch": 0.4773022049286641,
	"grad_norm": 16.390596389770508,
	"learning_rate": 2.172e-05,
	"loss": 2.624,
	"step": 368
	},
	{
	"epoch": 0.4798962386511025,
	"grad_norm": 14.07410717010498,
	"learning_rate": 2.184e-05,
	"loss": 2.9978,
	"step": 370
	},
	{
	"epoch": 0.4798962386511025,
	"eval_cer": 0.3032522530668837,
	"eval_loss": 2.793341875076294,
	"eval_runtime": 279.1859,
	"eval_samples_per_second": 9.47,
	"eval_steps_per_second": 1.186,
	"step": 370
	},
	{
	"epoch": 0.48249027237354086,
	"grad_norm": 24.049970626831055,
	"learning_rate": 2.196e-05,
	"loss": 2.9861,
	"step": 372
	},
	{
	"epoch": 0.48508430609597925,
	"grad_norm": 10.874021530151367,
	"learning_rate": 2.208e-05,
	"loss": 2.1597,
	"step": 374
	},
	{
	"epoch": 0.48638132295719844,
	"eval_cer": 0.3145251228260542,
	"eval_loss": 2.7285666465759277,
	"eval_runtime": 309.9236,
	"eval_samples_per_second": 8.531,
	"eval_steps_per_second": 1.068,
	"step": 375
	},
	{
	"epoch": 0.4876783398184176,
	"grad_norm": 12.51282787322998,
	"learning_rate": 2.22e-05,
	"loss": 2.2976,
	"step": 376
	},
	{
	"epoch": 0.490272373540856,
	"grad_norm": 11.6898775100708,
	"learning_rate": 2.232e-05,
	"loss": 2.703,
	"step": 378
	},
	{
	"epoch": 0.49286640726329445,
	"grad_norm": 14.729179382324219,
	"learning_rate": 2.2440000000000002e-05,
	"loss": 2.0108,
	"step": 380
	},
	{
	"epoch": 0.49286640726329445,
	"eval_cer": 0.31328932694336437,
	"eval_loss": 2.689061403274536,
	"eval_runtime": 188.7169,
	"eval_samples_per_second": 14.01,
	"eval_steps_per_second": 1.754,
	"step": 380
	},
	{
	"epoch": 0.49546044098573283,
	"grad_norm": 11.870194435119629,
	"learning_rate": 2.256e-05,
	"loss": 2.2467,
	"step": 382
	},
	{
	"epoch": 0.4980544747081712,
	"grad_norm": 12.500712394714355,
	"learning_rate": 2.268e-05,
	"loss": 2.0565,
	"step": 384
	},
	{
	"epoch": 0.4993514915693904,
	"eval_cer": 0.3065075202700666,
	"eval_loss": 2.683504104614258,
	"eval_runtime": 139.7652,
	"eval_samples_per_second": 18.917,
	"eval_steps_per_second": 2.368,
	"step": 385
	},
	{
	"epoch": 0.5006485084306096,
	"grad_norm": 17.805166244506836,
	"learning_rate": 2.2800000000000002e-05,
	"loss": 2.0304,
	"step": 386
	},
	{
	"epoch": 0.503242542153048,
	"grad_norm": 10.874719619750977,
	"learning_rate": 2.292e-05,
	"loss": 2.2385,
	"step": 388
	},
	{
	"epoch": 0.5058365758754864,
	"grad_norm": 19.65207862854004,
	"learning_rate": 2.304e-05,
	"loss": 2.2806,
	"step": 390
	},
	{
	"epoch": 0.5058365758754864,
	"eval_cer": 0.310697169726015,
	"eval_loss": 2.64746356010437,
	"eval_runtime": 158.3003,
	"eval_samples_per_second": 16.702,
	"eval_steps_per_second": 2.091,
	"step": 390
	},
	{
	"epoch": 0.5084306095979247,
	"grad_norm": 11.749553680419922,
	"learning_rate": 2.3160000000000002e-05,
	"loss": 2.0118,
	"step": 392
	},
	{
	"epoch": 0.5110246433203631,
	"grad_norm": 12.608861923217773,
	"learning_rate": 2.328e-05,
	"loss": 1.8522,
	"step": 394
	},
	{
	"epoch": 0.5123216601815823,
	"eval_cer": 0.32664195074901287,
	"eval_loss": 2.6235055923461914,
	"eval_runtime": 186.0047,
	"eval_samples_per_second": 14.215,
	"eval_steps_per_second": 1.78,
	"step": 395
	},
	{
	"epoch": 0.5136186770428015,
	"grad_norm": 15.640968322753906,
	"learning_rate": 2.3400000000000003e-05,
	"loss": 2.5232,
	"step": 396
	},
	{
	"epoch": 0.51621271076524,
	"grad_norm": 12.88823127746582,
	"learning_rate": 2.3520000000000002e-05,
	"loss": 2.196,
	"step": 398
	},
	{
	"epoch": 0.5188067444876784,
	"grad_norm": 12.094499588012695,
	"learning_rate": 2.364e-05,
	"loss": 2.3092,
	"step": 400
	},
	{
	"epoch": 0.5188067444876784,
	"eval_cer": 0.3185640654670404,
	"eval_loss": 2.6280529499053955,
	"eval_runtime": 155.4528,
	"eval_samples_per_second": 17.008,
	"eval_steps_per_second": 2.129,
	"step": 400
	},
	{
	"epoch": 0.5214007782101168,
	"grad_norm": 27.93305015563965,
	"learning_rate": 2.3760000000000003e-05,
	"loss": 2.1069,
	"step": 402
	},
	{
	"epoch": 0.5239948119325551,
	"grad_norm": 14.44329833984375,
	"learning_rate": 2.3880000000000002e-05,
	"loss": 2.513,
	"step": 404
	},
	{
	"epoch": 0.5252918287937743,
	"eval_cer": 0.2939988546282063,
	"eval_loss": 2.567127227783203,
	"eval_runtime": 158.9316,
	"eval_samples_per_second": 16.636,
	"eval_steps_per_second": 2.083,
	"step": 405
	},
	{
	"epoch": 0.5265888456549935,
	"grad_norm": 12.40060806274414,
	"learning_rate": 2.4e-05,
	"loss": 2.412,
	"step": 406
	},
	{
	"epoch": 0.5291828793774319,
	"grad_norm": 12.270583152770996,
	"learning_rate": 2.4120000000000003e-05,
	"loss": 2.0339,
	"step": 408
	},
	{
	"epoch": 0.5317769130998703,
	"grad_norm": 17.22001838684082,
	"learning_rate": 2.4240000000000002e-05,
	"loss": 2.0117,
	"step": 410
	},
	{
	"epoch": 0.5317769130998703,
	"eval_cer": 0.2961388914006691,
	"eval_loss": 2.5344009399414062,
	"eval_runtime": 164.3351,
	"eval_samples_per_second": 16.089,
	"eval_steps_per_second": 2.014,
	"step": 410
	},
	{
	"epoch": 0.5343709468223087,
	"grad_norm": 10.44601058959961,
	"learning_rate": 2.4360000000000004e-05,
	"loss": 1.6976,
	"step": 412
	},
	{
	"epoch": 0.5369649805447471,
	"grad_norm": 16.720975875854492,
	"learning_rate": 2.448e-05,
	"loss": 3.0921,
	"step": 414
	},
	{
	"epoch": 0.5382619974059663,
	"eval_cer": 0.2885131265635832,
	"eval_loss": 2.51837158203125,
	"eval_runtime": 169.9004,
	"eval_samples_per_second": 15.562,
	"eval_steps_per_second": 1.948,
	"step": 415
	},
	{
	"epoch": 0.5395590142671854,
	"grad_norm": 11.013751983642578,
	"learning_rate": 2.4599999999999998e-05,
	"loss": 1.8176,
	"step": 416
	},
	{
	"epoch": 0.5421530479896238,
	"grad_norm": 13.207280158996582,
	"learning_rate": 2.472e-05,
	"loss": 2.0911,
	"step": 418
	},
	{
	"epoch": 0.5447470817120622,
	"grad_norm": 13.864497184753418,
	"learning_rate": 2.484e-05,
	"loss": 2.1863,
	"step": 420
	},
	{
	"epoch": 0.5447470817120622,
	"eval_cer": 0.3223920185670796,
	"eval_loss": 2.489891767501831,
	"eval_runtime": 198.7131,
	"eval_samples_per_second": 13.306,
	"eval_steps_per_second": 1.666,
	"step": 420
	},
	{
	"epoch": 0.5473411154345007,
	"grad_norm": 13.306368827819824,
	"learning_rate": 2.4959999999999998e-05,
	"loss": 2.1374,
	"step": 422
	},
	{
	"epoch": 0.5499351491569391,
	"grad_norm": 14.835345268249512,
	"learning_rate": 2.508e-05,
	"loss": 2.0687,
	"step": 424
	},
	{
	"epoch": 0.5512321660181583,
	"eval_cer": 0.3371612864333725,
	"eval_loss": 2.540318250656128,
	"eval_runtime": 177.6188,
	"eval_samples_per_second": 14.886,
	"eval_steps_per_second": 1.864,
	"step": 425
	},
	{
	"epoch": 0.5525291828793775,
	"grad_norm": 15.374982833862305,
	"learning_rate": 2.52e-05,
	"loss": 2.0655,
	"step": 426
	},
	{
	"epoch": 0.5551232166018158,
	"grad_norm": 14.928581237792969,
	"learning_rate": 2.5319999999999998e-05,
	"loss": 2.7183,
	"step": 428
	},
	{
	"epoch": 0.5577172503242542,
	"grad_norm": 14.489096641540527,
	"learning_rate": 2.544e-05,
	"loss": 2.0051,
	"step": 430
	},
	{
	"epoch": 0.5577172503242542,
	"eval_cer": 0.31229466196461403,
	"eval_loss": 2.4285073280334473,
	"eval_runtime": 181.8863,
	"eval_samples_per_second": 14.537,
	"eval_steps_per_second": 1.82,
	"step": 430
	},
	{
	"epoch": 0.5603112840466926,
	"grad_norm": 11.531155586242676,
	"learning_rate": 2.556e-05,
	"loss": 2.2619,
	"step": 432
	},
	{
	"epoch": 0.562905317769131,
	"grad_norm": 17.837749481201172,
	"learning_rate": 2.568e-05,
	"loss": 2.5056,
	"step": 434
	},
	{
	"epoch": 0.5642023346303502,
	"eval_cer": 0.3202519817946168,
	"eval_loss": 2.4498050212860107,
	"eval_runtime": 230.2751,
	"eval_samples_per_second": 11.482,
	"eval_steps_per_second": 1.437,
	"step": 435
	},
	{
	"epoch": 0.5654993514915694,
	"grad_norm": 13.783636093139648,
	"learning_rate": 2.58e-05,
	"loss": 2.0943,
	"step": 436
	},
	{
	"epoch": 0.5680933852140078,
	"grad_norm": 17.753210067749023,
	"learning_rate": 2.592e-05,
	"loss": 2.12,
	"step": 438
	},
	{
	"epoch": 0.5706874189364461,
	"grad_norm": 15.3496732711792,
	"learning_rate": 2.604e-05,
	"loss": 2.2611,
	"step": 440
	},
	{
	"epoch": 0.5706874189364461,
	"eval_cer": 0.33478011875697017,
	"eval_loss": 2.4362807273864746,
	"eval_runtime": 233.7715,
	"eval_samples_per_second": 11.31,
	"eval_steps_per_second": 1.416,
	"step": 440
	},
	{
	"epoch": 0.5732814526588845,
	"grad_norm": 12.754862785339355,
	"learning_rate": 2.616e-05,
	"loss": 1.7839,
	"step": 442
	},
	{
	"epoch": 0.5758754863813229,
	"grad_norm": 15.386824607849121,
	"learning_rate": 2.628e-05,
	"loss": 2.4994,
	"step": 444
	},
	{
	"epoch": 0.5771725032425421,
	"eval_cer": 0.310908159266962,
	"eval_loss": 2.458259105682373,
	"eval_runtime": 167.458,
	"eval_samples_per_second": 15.789,
	"eval_steps_per_second": 1.977,
	"step": 445
	},
	{
	"epoch": 0.5784695201037614,
	"grad_norm": 14.832752227783203,
	"learning_rate": 2.64e-05,
	"loss": 2.0773,
	"step": 446
	},
	{
	"epoch": 0.5810635538261998,
	"grad_norm": 15.057633399963379,
	"learning_rate": 2.652e-05,
	"loss": 2.0135,
	"step": 448
	},
	{
	"epoch": 0.5836575875486382,
	"grad_norm": 17.804443359375,
	"learning_rate": 2.6640000000000002e-05,
	"loss": 2.4173,
	"step": 450
	},
	{
	"epoch": 0.5836575875486382,
	"eval_cer": 0.3094312324803328,
	"eval_loss": 2.376800060272217,
	"eval_runtime": 172.2385,
	"eval_samples_per_second": 15.351,
	"eval_steps_per_second": 1.922,
	"step": 450
	},
	{
	"epoch": 0.5862516212710766,
	"grad_norm": 22.79265022277832,
	"learning_rate": 2.676e-05,
	"loss": 1.9889,
	"step": 452
	},
	{
	"epoch": 0.5888456549935149,
	"grad_norm": 11.24325942993164,
	"learning_rate": 2.688e-05,
	"loss": 2.9177,
	"step": 454
	},
	{
	"epoch": 0.5901426718547341,
	"eval_cer": 0.31289748922446275,
	"eval_loss": 2.4268851280212402,
	"eval_runtime": 150.7156,
	"eval_samples_per_second": 17.543,
	"eval_steps_per_second": 2.196,
	"step": 455
	},
	{
	"epoch": 0.5914396887159533,
	"grad_norm": 14.807707786560059,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 1.6092,
	"step": 456
	},
	{
	"epoch": 0.5940337224383917,
	"grad_norm": 16.166181564331055,
	"learning_rate": 2.712e-05,
	"loss": 2.2921,
	"step": 458
	},
	{
	"epoch": 0.5966277561608301,
	"grad_norm": 18.733001708984375,
	"learning_rate": 2.724e-05,
	"loss": 2.4549,
	"step": 460
	},
	{
	"epoch": 0.5966277561608301,
	"eval_cer": 0.3229647044639359,
	"eval_loss": 2.331587076187134,
	"eval_runtime": 176.3172,
	"eval_samples_per_second": 14.996,
	"eval_steps_per_second": 1.877,
	"step": 460
	},
	{
	"epoch": 0.5992217898832685,
	"grad_norm": 13.820377349853516,
	"learning_rate": 2.7360000000000002e-05,
	"loss": 2.3386,
	"step": 462
	},
	{
	"epoch": 0.6018158236057068,
	"grad_norm": 11.139546394348145,
	"learning_rate": 2.748e-05,
	"loss": 2.3171,
	"step": 464
	},
	{
	"epoch": 0.603112840466926,
	"eval_cer": 0.3494589625342858,
	"eval_loss": 2.3250718116760254,
	"eval_runtime": 227.8398,
	"eval_samples_per_second": 11.605,
	"eval_steps_per_second": 1.453,
	"step": 465
	}
	],
	"logging_steps": 2,
	"max_steps": 77100,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 5,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 10
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.783620910505001e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}