whisper-medium-ph / trainer_state.json

End of training

8e56c9c verified 5 months ago

36.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 7.407709414381023,
	"eval_steps": 1000,
	"global_step": 5000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.037064492216456635,
	"grad_norm": 14.615763664245605,
	"learning_rate": 4.800000000000001e-07,
	"loss": 1.4607,
	"step": 25
	},
	{
	"epoch": 0.07412898443291327,
	"grad_norm": 10.59756851196289,
	"learning_rate": 9.800000000000001e-07,
	"loss": 1.176,
	"step": 50
	},
	{
	"epoch": 0.1111934766493699,
	"grad_norm": 7.142136573791504,
	"learning_rate": 1.48e-06,
	"loss": 0.9267,
	"step": 75
	},
	{
	"epoch": 0.14825796886582654,
	"grad_norm": 9.191902160644531,
	"learning_rate": 1.98e-06,
	"loss": 0.7253,
	"step": 100
	},
	{
	"epoch": 0.18532246108228317,
	"grad_norm": 10.320201873779297,
	"learning_rate": 2.4800000000000004e-06,
	"loss": 0.7047,
	"step": 125
	},
	{
	"epoch": 0.2223869532987398,
	"grad_norm": 8.486912727355957,
	"learning_rate": 2.9800000000000003e-06,
	"loss": 0.6634,
	"step": 150
	},
	{
	"epoch": 0.25945144551519644,
	"grad_norm": 9.802300453186035,
	"learning_rate": 3.48e-06,
	"loss": 0.5786,
	"step": 175
	},
	{
	"epoch": 0.2965159377316531,
	"grad_norm": 9.568249702453613,
	"learning_rate": 3.980000000000001e-06,
	"loss": 0.5857,
	"step": 200
	},
	{
	"epoch": 0.3335804299481097,
	"grad_norm": 7.968526840209961,
	"learning_rate": 4.48e-06,
	"loss": 0.5385,
	"step": 225
	},
	{
	"epoch": 0.37064492216456635,
	"grad_norm": 7.507795810699463,
	"learning_rate": 4.980000000000001e-06,
	"loss": 0.5151,
	"step": 250
	},
	{
	"epoch": 0.407709414381023,
	"grad_norm": 6.258375644683838,
	"learning_rate": 5.480000000000001e-06,
	"loss": 0.4649,
	"step": 275
	},
	{
	"epoch": 0.4447739065974796,
	"grad_norm": 9.89697551727295,
	"learning_rate": 5.98e-06,
	"loss": 0.4209,
	"step": 300
	},
	{
	"epoch": 0.48183839881393625,
	"grad_norm": 7.8507490158081055,
	"learning_rate": 6.480000000000001e-06,
	"loss": 0.4459,
	"step": 325
	},
	{
	"epoch": 0.5189028910303929,
	"grad_norm": 5.835811138153076,
	"learning_rate": 6.98e-06,
	"loss": 0.4141,
	"step": 350
	},
	{
	"epoch": 0.5559673832468495,
	"grad_norm": 6.767547607421875,
	"learning_rate": 7.48e-06,
	"loss": 0.4108,
	"step": 375
	},
	{
	"epoch": 0.5930318754633062,
	"grad_norm": 5.9475884437561035,
	"learning_rate": 7.980000000000002e-06,
	"loss": 0.41,
	"step": 400
	},
	{
	"epoch": 0.6300963676797627,
	"grad_norm": 7.767906188964844,
	"learning_rate": 8.48e-06,
	"loss": 0.3781,
	"step": 425
	},
	{
	"epoch": 0.6671608598962194,
	"grad_norm": 6.990137100219727,
	"learning_rate": 8.98e-06,
	"loss": 0.39,
	"step": 450
	},
	{
	"epoch": 0.704225352112676,
	"grad_norm": 5.607441425323486,
	"learning_rate": 9.48e-06,
	"loss": 0.3783,
	"step": 475
	},
	{
	"epoch": 0.7412898443291327,
	"grad_norm": 6.288857936859131,
	"learning_rate": 9.980000000000001e-06,
	"loss": 0.3559,
	"step": 500
	},
	{
	"epoch": 0.7783543365455893,
	"grad_norm": 6.985698699951172,
	"learning_rate": 9.946666666666667e-06,
	"loss": 0.3595,
	"step": 525
	},
	{
	"epoch": 0.815418828762046,
	"grad_norm": 6.037854194641113,
	"learning_rate": 9.891111111111113e-06,
	"loss": 0.3163,
	"step": 550
	},
	{
	"epoch": 0.8524833209785025,
	"grad_norm": 5.8710784912109375,
	"learning_rate": 9.835555555555556e-06,
	"loss": 0.3502,
	"step": 575
	},
	{
	"epoch": 0.8895478131949592,
	"grad_norm": 6.342834949493408,
	"learning_rate": 9.780000000000001e-06,
	"loss": 0.317,
	"step": 600
	},
	{
	"epoch": 0.9266123054114158,
	"grad_norm": 5.589534759521484,
	"learning_rate": 9.724444444444445e-06,
	"loss": 0.3228,
	"step": 625
	},
	{
	"epoch": 0.9636767976278725,
	"grad_norm": 7.743918418884277,
	"learning_rate": 9.66888888888889e-06,
	"loss": 0.3144,
	"step": 650
	},
	{
	"epoch": 1.0,
	"grad_norm": 10.073568344116211,
	"learning_rate": 9.613333333333335e-06,
	"loss": 0.2939,
	"step": 675
	},
	{
	"epoch": 1.0370644922164567,
	"grad_norm": 4.640520095825195,
	"learning_rate": 9.557777777777777e-06,
	"loss": 0.1939,
	"step": 700
	},
	{
	"epoch": 1.0741289844329134,
	"grad_norm": 3.2049508094787598,
	"learning_rate": 9.502222222222223e-06,
	"loss": 0.1929,
	"step": 725
	},
	{
	"epoch": 1.1111934766493698,
	"grad_norm": 3.9065611362457275,
	"learning_rate": 9.446666666666667e-06,
	"loss": 0.1998,
	"step": 750
	},
	{
	"epoch": 1.1482579688658265,
	"grad_norm": 3.7471649646759033,
	"learning_rate": 9.391111111111111e-06,
	"loss": 0.2007,
	"step": 775
	},
	{
	"epoch": 1.1853224610822832,
	"grad_norm": 3.952751874923706,
	"learning_rate": 9.335555555555557e-06,
	"loss": 0.1863,
	"step": 800
	},
	{
	"epoch": 1.2223869532987397,
	"grad_norm": 5.39549446105957,
	"learning_rate": 9.280000000000001e-06,
	"loss": 0.1953,
	"step": 825
	},
	{
	"epoch": 1.2594514455151964,
	"grad_norm": 4.03216552734375,
	"learning_rate": 9.224444444444445e-06,
	"loss": 0.2065,
	"step": 850
	},
	{
	"epoch": 1.296515937731653,
	"grad_norm": 3.854651689529419,
	"learning_rate": 9.168888888888889e-06,
	"loss": 0.1703,
	"step": 875
	},
	{
	"epoch": 1.3335804299481098,
	"grad_norm": 4.835360050201416,
	"learning_rate": 9.113333333333335e-06,
	"loss": 0.1692,
	"step": 900
	},
	{
	"epoch": 1.3706449221645665,
	"grad_norm": 5.247130393981934,
	"learning_rate": 9.057777777777779e-06,
	"loss": 0.1982,
	"step": 925
	},
	{
	"epoch": 1.407709414381023,
	"grad_norm": 3.9537737369537354,
	"learning_rate": 9.002222222222223e-06,
	"loss": 0.1661,
	"step": 950
	},
	{
	"epoch": 1.4447739065974796,
	"grad_norm": 4.887810230255127,
	"learning_rate": 8.946666666666669e-06,
	"loss": 0.1836,
	"step": 975
	},
	{
	"epoch": 1.4818383988139363,
	"grad_norm": 3.6338751316070557,
	"learning_rate": 8.891111111111111e-06,
	"loss": 0.1822,
	"step": 1000
	},
	{
	"epoch": 1.4818383988139363,
	"eval_loss": 0.2655850648880005,
	"eval_runtime": 730.9503,
	"eval_samples_per_second": 3.947,
	"eval_steps_per_second": 0.494,
	"eval_wer": 0.14449384404924762,
	"step": 1000
	},
	{
	"epoch": 1.5189028910303928,
	"grad_norm": 4.078255653381348,
	"learning_rate": 8.835555555555557e-06,
	"loss": 0.1661,
	"step": 1025
	},
	{
	"epoch": 1.5559673832468495,
	"grad_norm": 3.9311952590942383,
	"learning_rate": 8.78e-06,
	"loss": 0.1725,
	"step": 1050
	},
	{
	"epoch": 1.5930318754633062,
	"grad_norm": 4.800196170806885,
	"learning_rate": 8.724444444444445e-06,
	"loss": 0.1704,
	"step": 1075
	},
	{
	"epoch": 1.6300963676797626,
	"grad_norm": 4.550530910491943,
	"learning_rate": 8.66888888888889e-06,
	"loss": 0.1793,
	"step": 1100
	},
	{
	"epoch": 1.6671608598962195,
	"grad_norm": 6.508624076843262,
	"learning_rate": 8.613333333333333e-06,
	"loss": 0.1619,
	"step": 1125
	},
	{
	"epoch": 1.704225352112676,
	"grad_norm": 4.16792106628418,
	"learning_rate": 8.557777777777778e-06,
	"loss": 0.1652,
	"step": 1150
	},
	{
	"epoch": 1.7412898443291327,
	"grad_norm": 4.420657157897949,
	"learning_rate": 8.502222222222223e-06,
	"loss": 0.16,
	"step": 1175
	},
	{
	"epoch": 1.7783543365455894,
	"grad_norm": 4.781569004058838,
	"learning_rate": 8.446666666666668e-06,
	"loss": 0.1695,
	"step": 1200
	},
	{
	"epoch": 1.8154188287620459,
	"grad_norm": 3.877307176589966,
	"learning_rate": 8.391111111111112e-06,
	"loss": 0.1529,
	"step": 1225
	},
	{
	"epoch": 1.8524833209785025,
	"grad_norm": 4.159163475036621,
	"learning_rate": 8.335555555555556e-06,
	"loss": 0.1619,
	"step": 1250
	},
	{
	"epoch": 1.8895478131949592,
	"grad_norm": 3.6631579399108887,
	"learning_rate": 8.28e-06,
	"loss": 0.1654,
	"step": 1275
	},
	{
	"epoch": 1.9266123054114157,
	"grad_norm": 4.1784210205078125,
	"learning_rate": 8.224444444444444e-06,
	"loss": 0.1494,
	"step": 1300
	},
	{
	"epoch": 1.9636767976278726,
	"grad_norm": 5.867852210998535,
	"learning_rate": 8.16888888888889e-06,
	"loss": 0.1443,
	"step": 1325
	},
	{
	"epoch": 2.0,
	"grad_norm": 5.817214012145996,
	"learning_rate": 8.113333333333334e-06,
	"loss": 0.139,
	"step": 1350
	},
	{
	"epoch": 2.0370644922164565,
	"grad_norm": 2.3572022914886475,
	"learning_rate": 8.057777777777778e-06,
	"loss": 0.0614,
	"step": 1375
	},
	{
	"epoch": 2.0741289844329134,
	"grad_norm": 2.2769412994384766,
	"learning_rate": 8.002222222222222e-06,
	"loss": 0.0606,
	"step": 1400
	},
	{
	"epoch": 2.11119347664937,
	"grad_norm": 2.474583864212036,
	"learning_rate": 7.946666666666666e-06,
	"loss": 0.0716,
	"step": 1425
	},
	{
	"epoch": 2.1482579688658268,
	"grad_norm": 2.5783841609954834,
	"learning_rate": 7.891111111111112e-06,
	"loss": 0.065,
	"step": 1450
	},
	{
	"epoch": 2.1853224610822832,
	"grad_norm": 1.6132420301437378,
	"learning_rate": 7.835555555555556e-06,
	"loss": 0.067,
	"step": 1475
	},
	{
	"epoch": 2.2223869532987397,
	"grad_norm": 3.8042001724243164,
	"learning_rate": 7.78e-06,
	"loss": 0.0724,
	"step": 1500
	},
	{
	"epoch": 2.2594514455151966,
	"grad_norm": 2.2419843673706055,
	"learning_rate": 7.724444444444446e-06,
	"loss": 0.0761,
	"step": 1525
	},
	{
	"epoch": 2.296515937731653,
	"grad_norm": 2.706354856491089,
	"learning_rate": 7.66888888888889e-06,
	"loss": 0.0659,
	"step": 1550
	},
	{
	"epoch": 2.3335804299481095,
	"grad_norm": 2.8394265174865723,
	"learning_rate": 7.613333333333334e-06,
	"loss": 0.0688,
	"step": 1575
	},
	{
	"epoch": 2.3706449221645665,
	"grad_norm": 2.383784770965576,
	"learning_rate": 7.557777777777779e-06,
	"loss": 0.0729,
	"step": 1600
	},
	{
	"epoch": 2.407709414381023,
	"grad_norm": 3.0959832668304443,
	"learning_rate": 7.502222222222223e-06,
	"loss": 0.0626,
	"step": 1625
	},
	{
	"epoch": 2.4447739065974794,
	"grad_norm": 2.927393913269043,
	"learning_rate": 7.446666666666668e-06,
	"loss": 0.0677,
	"step": 1650
	},
	{
	"epoch": 2.4818383988139363,
	"grad_norm": 2.644434928894043,
	"learning_rate": 7.3911111111111125e-06,
	"loss": 0.0644,
	"step": 1675
	},
	{
	"epoch": 2.5189028910303928,
	"grad_norm": 2.9071755409240723,
	"learning_rate": 7.335555555555556e-06,
	"loss": 0.061,
	"step": 1700
	},
	{
	"epoch": 2.5559673832468492,
	"grad_norm": 2.6862034797668457,
	"learning_rate": 7.280000000000001e-06,
	"loss": 0.0615,
	"step": 1725
	},
	{
	"epoch": 2.593031875463306,
	"grad_norm": 3.1184046268463135,
	"learning_rate": 7.224444444444445e-06,
	"loss": 0.0714,
	"step": 1750
	},
	{
	"epoch": 2.6300963676797626,
	"grad_norm": 1.7592053413391113,
	"learning_rate": 7.1688888888888895e-06,
	"loss": 0.0704,
	"step": 1775
	},
	{
	"epoch": 2.6671608598962195,
	"grad_norm": 2.9316508769989014,
	"learning_rate": 7.113333333333334e-06,
	"loss": 0.0689,
	"step": 1800
	},
	{
	"epoch": 2.704225352112676,
	"grad_norm": 2.1934666633605957,
	"learning_rate": 7.057777777777778e-06,
	"loss": 0.0721,
	"step": 1825
	},
	{
	"epoch": 2.741289844329133,
	"grad_norm": 3.4919371604919434,
	"learning_rate": 7.0022222222222225e-06,
	"loss": 0.0638,
	"step": 1850
	},
	{
	"epoch": 2.7783543365455894,
	"grad_norm": 2.723252058029175,
	"learning_rate": 6.946666666666667e-06,
	"loss": 0.0598,
	"step": 1875
	},
	{
	"epoch": 2.815418828762046,
	"grad_norm": 1.8668267726898193,
	"learning_rate": 6.891111111111111e-06,
	"loss": 0.0607,
	"step": 1900
	},
	{
	"epoch": 2.8524833209785028,
	"grad_norm": 2.0989866256713867,
	"learning_rate": 6.835555555555556e-06,
	"loss": 0.0821,
	"step": 1925
	},
	{
	"epoch": 2.8895478131949592,
	"grad_norm": 2.9375364780426025,
	"learning_rate": 6.780000000000001e-06,
	"loss": 0.0636,
	"step": 1950
	},
	{
	"epoch": 2.9266123054114157,
	"grad_norm": 2.1375315189361572,
	"learning_rate": 6.724444444444444e-06,
	"loss": 0.0723,
	"step": 1975
	},
	{
	"epoch": 2.9636767976278726,
	"grad_norm": 2.5874264240264893,
	"learning_rate": 6.668888888888889e-06,
	"loss": 0.0706,
	"step": 2000
	},
	{
	"epoch": 2.9636767976278726,
	"eval_loss": 0.2490690052509308,
	"eval_runtime": 730.2087,
	"eval_samples_per_second": 3.951,
	"eval_steps_per_second": 0.494,
	"eval_wer": 0.12696648426812585,
	"step": 2000
	},
	{
	"epoch": 3.0,
	"grad_norm": 6.509148597717285,
	"learning_rate": 6.613333333333334e-06,
	"loss": 0.0587,
	"step": 2025
	},
	{
	"epoch": 3.0370644922164565,
	"grad_norm": 1.9590086936950684,
	"learning_rate": 6.557777777777778e-06,
	"loss": 0.0241,
	"step": 2050
	},
	{
	"epoch": 3.0741289844329134,
	"grad_norm": 1.4612740278244019,
	"learning_rate": 6.502222222222223e-06,
	"loss": 0.0267,
	"step": 2075
	},
	{
	"epoch": 3.11119347664937,
	"grad_norm": 0.9522780179977417,
	"learning_rate": 6.446666666666668e-06,
	"loss": 0.023,
	"step": 2100
	},
	{
	"epoch": 3.1482579688658268,
	"grad_norm": 1.891400694847107,
	"learning_rate": 6.391111111111111e-06,
	"loss": 0.0281,
	"step": 2125
	},
	{
	"epoch": 3.1853224610822832,
	"grad_norm": 1.0783302783966064,
	"learning_rate": 6.335555555555556e-06,
	"loss": 0.0246,
	"step": 2150
	},
	{
	"epoch": 3.2223869532987397,
	"grad_norm": 1.3504562377929688,
	"learning_rate": 6.280000000000001e-06,
	"loss": 0.0244,
	"step": 2175
	},
	{
	"epoch": 3.2594514455151966,
	"grad_norm": 1.8768439292907715,
	"learning_rate": 6.224444444444445e-06,
	"loss": 0.0264,
	"step": 2200
	},
	{
	"epoch": 3.296515937731653,
	"grad_norm": 1.5083887577056885,
	"learning_rate": 6.16888888888889e-06,
	"loss": 0.0248,
	"step": 2225
	},
	{
	"epoch": 3.3335804299481095,
	"grad_norm": 3.5768120288848877,
	"learning_rate": 6.113333333333333e-06,
	"loss": 0.0316,
	"step": 2250
	},
	{
	"epoch": 3.3706449221645665,
	"grad_norm": 1.1493444442749023,
	"learning_rate": 6.057777777777778e-06,
	"loss": 0.0294,
	"step": 2275
	},
	{
	"epoch": 3.407709414381023,
	"grad_norm": 2.3746306896209717,
	"learning_rate": 6.002222222222223e-06,
	"loss": 0.0263,
	"step": 2300
	},
	{
	"epoch": 3.4447739065974794,
	"grad_norm": 2.144634485244751,
	"learning_rate": 5.946666666666668e-06,
	"loss": 0.0348,
	"step": 2325
	},
	{
	"epoch": 3.4818383988139363,
	"grad_norm": 1.5002686977386475,
	"learning_rate": 5.891111111111112e-06,
	"loss": 0.0228,
	"step": 2350
	},
	{
	"epoch": 3.5189028910303928,
	"grad_norm": 1.6059187650680542,
	"learning_rate": 5.8355555555555565e-06,
	"loss": 0.0239,
	"step": 2375
	},
	{
	"epoch": 3.5559673832468492,
	"grad_norm": 2.757420778274536,
	"learning_rate": 5.78e-06,
	"loss": 0.0277,
	"step": 2400
	},
	{
	"epoch": 3.593031875463306,
	"grad_norm": 1.3977222442626953,
	"learning_rate": 5.724444444444445e-06,
	"loss": 0.0224,
	"step": 2425
	},
	{
	"epoch": 3.6300963676797626,
	"grad_norm": 1.9618048667907715,
	"learning_rate": 5.6688888888888895e-06,
	"loss": 0.026,
	"step": 2450
	},
	{
	"epoch": 3.6671608598962195,
	"grad_norm": 0.898245632648468,
	"learning_rate": 5.613333333333334e-06,
	"loss": 0.0326,
	"step": 2475
	},
	{
	"epoch": 3.704225352112676,
	"grad_norm": 1.8148616552352905,
	"learning_rate": 5.557777777777778e-06,
	"loss": 0.0213,
	"step": 2500
	},
	{
	"epoch": 3.741289844329133,
	"grad_norm": 1.308030366897583,
	"learning_rate": 5.5022222222222224e-06,
	"loss": 0.0192,
	"step": 2525
	},
	{
	"epoch": 3.7783543365455894,
	"grad_norm": 1.6680744886398315,
	"learning_rate": 5.4466666666666665e-06,
	"loss": 0.027,
	"step": 2550
	},
	{
	"epoch": 3.815418828762046,
	"grad_norm": 3.235917568206787,
	"learning_rate": 5.391111111111111e-06,
	"loss": 0.0242,
	"step": 2575
	},
	{
	"epoch": 3.8524833209785028,
	"grad_norm": 2.096780300140381,
	"learning_rate": 5.335555555555556e-06,
	"loss": 0.0243,
	"step": 2600
	},
	{
	"epoch": 3.8895478131949592,
	"grad_norm": 1.8445031642913818,
	"learning_rate": 5.28e-06,
	"loss": 0.024,
	"step": 2625
	},
	{
	"epoch": 3.9266123054114157,
	"grad_norm": 1.357937216758728,
	"learning_rate": 5.224444444444445e-06,
	"loss": 0.0244,
	"step": 2650
	},
	{
	"epoch": 3.9636767976278726,
	"grad_norm": 1.0413466691970825,
	"learning_rate": 5.168888888888889e-06,
	"loss": 0.0221,
	"step": 2675
	},
	{
	"epoch": 4.0,
	"grad_norm": 3.0572996139526367,
	"learning_rate": 5.113333333333333e-06,
	"loss": 0.0206,
	"step": 2700
	},
	{
	"epoch": 4.037064492216457,
	"grad_norm": 0.9961848258972168,
	"learning_rate": 5.057777777777778e-06,
	"loss": 0.0136,
	"step": 2725
	},
	{
	"epoch": 4.074128984432913,
	"grad_norm": 1.0248702764511108,
	"learning_rate": 5.002222222222223e-06,
	"loss": 0.009,
	"step": 2750
	},
	{
	"epoch": 4.11119347664937,
	"grad_norm": 0.6142157912254333,
	"learning_rate": 4.946666666666667e-06,
	"loss": 0.0113,
	"step": 2775
	},
	{
	"epoch": 4.148257968865827,
	"grad_norm": 0.27292531728744507,
	"learning_rate": 4.891111111111111e-06,
	"loss": 0.009,
	"step": 2800
	},
	{
	"epoch": 4.185322461082283,
	"grad_norm": 2.2906312942504883,
	"learning_rate": 4.835555555555556e-06,
	"loss": 0.0073,
	"step": 2825
	},
	{
	"epoch": 4.22238695329874,
	"grad_norm": 1.0498850345611572,
	"learning_rate": 4.78e-06,
	"loss": 0.0093,
	"step": 2850
	},
	{
	"epoch": 4.259451445515197,
	"grad_norm": 1.1574844121932983,
	"learning_rate": 4.724444444444445e-06,
	"loss": 0.0159,
	"step": 2875
	},
	{
	"epoch": 4.2965159377316535,
	"grad_norm": 0.7209671139717102,
	"learning_rate": 4.66888888888889e-06,
	"loss": 0.0088,
	"step": 2900
	},
	{
	"epoch": 4.3335804299481095,
	"grad_norm": 1.168841004371643,
	"learning_rate": 4.613333333333334e-06,
	"loss": 0.0094,
	"step": 2925
	},
	{
	"epoch": 4.3706449221645665,
	"grad_norm": 0.6153778433799744,
	"learning_rate": 4.557777777777778e-06,
	"loss": 0.009,
	"step": 2950
	},
	{
	"epoch": 4.407709414381023,
	"grad_norm": 1.5705232620239258,
	"learning_rate": 4.502222222222223e-06,
	"loss": 0.0085,
	"step": 2975
	},
	{
	"epoch": 4.444773906597479,
	"grad_norm": 0.24448032677173615,
	"learning_rate": 4.446666666666667e-06,
	"loss": 0.0072,
	"step": 3000
	},
	{
	"epoch": 4.444773906597479,
	"eval_loss": 0.27286583185195923,
	"eval_runtime": 739.8615,
	"eval_samples_per_second": 3.899,
	"eval_steps_per_second": 0.488,
	"eval_wer": 0.11913474692202462,
	"step": 3000
	},
	{
	"epoch": 4.481838398813936,
	"grad_norm": 1.2278587818145752,
	"learning_rate": 4.391111111111112e-06,
	"loss": 0.0146,
	"step": 3025
	},
	{
	"epoch": 4.518902891030393,
	"grad_norm": 0.6478213667869568,
	"learning_rate": 4.3355555555555565e-06,
	"loss": 0.014,
	"step": 3050
	},
	{
	"epoch": 4.555967383246849,
	"grad_norm": 0.7865190505981445,
	"learning_rate": 4.2800000000000005e-06,
	"loss": 0.0079,
	"step": 3075
	},
	{
	"epoch": 4.593031875463306,
	"grad_norm": 2.3078877925872803,
	"learning_rate": 4.2244444444444446e-06,
	"loss": 0.009,
	"step": 3100
	},
	{
	"epoch": 4.630096367679763,
	"grad_norm": 0.9625842571258545,
	"learning_rate": 4.168888888888889e-06,
	"loss": 0.0096,
	"step": 3125
	},
	{
	"epoch": 4.667160859896219,
	"grad_norm": 0.7619579434394836,
	"learning_rate": 4.1133333333333335e-06,
	"loss": 0.0096,
	"step": 3150
	},
	{
	"epoch": 4.704225352112676,
	"grad_norm": 1.5049270391464233,
	"learning_rate": 4.057777777777778e-06,
	"loss": 0.0099,
	"step": 3175
	},
	{
	"epoch": 4.741289844329133,
	"grad_norm": 1.1056573390960693,
	"learning_rate": 4.002222222222222e-06,
	"loss": 0.0065,
	"step": 3200
	},
	{
	"epoch": 4.778354336545589,
	"grad_norm": 0.7983392477035522,
	"learning_rate": 3.946666666666667e-06,
	"loss": 0.0105,
	"step": 3225
	},
	{
	"epoch": 4.815418828762046,
	"grad_norm": 1.1153795719146729,
	"learning_rate": 3.891111111111111e-06,
	"loss": 0.0075,
	"step": 3250
	},
	{
	"epoch": 4.852483320978503,
	"grad_norm": 0.9730608463287354,
	"learning_rate": 3.835555555555555e-06,
	"loss": 0.0087,
	"step": 3275
	},
	{
	"epoch": 4.889547813194959,
	"grad_norm": 0.5694206953048706,
	"learning_rate": 3.7800000000000002e-06,
	"loss": 0.0071,
	"step": 3300
	},
	{
	"epoch": 4.926612305411416,
	"grad_norm": 0.2520028352737427,
	"learning_rate": 3.724444444444445e-06,
	"loss": 0.0081,
	"step": 3325
	},
	{
	"epoch": 4.963676797627873,
	"grad_norm": 0.436355322599411,
	"learning_rate": 3.668888888888889e-06,
	"loss": 0.0078,
	"step": 3350
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.798361599445343,
	"learning_rate": 3.6133333333333336e-06,
	"loss": 0.0075,
	"step": 3375
	},
	{
	"epoch": 5.037064492216457,
	"grad_norm": 1.3702267408370972,
	"learning_rate": 3.5577777777777785e-06,
	"loss": 0.005,
	"step": 3400
	},
	{
	"epoch": 5.074128984432913,
	"grad_norm": 0.2790464162826538,
	"learning_rate": 3.5022222222222225e-06,
	"loss": 0.0032,
	"step": 3425
	},
	{
	"epoch": 5.11119347664937,
	"grad_norm": 0.15111476182937622,
	"learning_rate": 3.446666666666667e-06,
	"loss": 0.0046,
	"step": 3450
	},
	{
	"epoch": 5.148257968865827,
	"grad_norm": 0.09985285252332687,
	"learning_rate": 3.391111111111111e-06,
	"loss": 0.0035,
	"step": 3475
	},
	{
	"epoch": 5.185322461082283,
	"grad_norm": 0.5352105498313904,
	"learning_rate": 3.335555555555556e-06,
	"loss": 0.0031,
	"step": 3500
	},
	{
	"epoch": 5.22238695329874,
	"grad_norm": 0.9406213760375977,
	"learning_rate": 3.2800000000000004e-06,
	"loss": 0.0035,
	"step": 3525
	},
	{
	"epoch": 5.259451445515197,
	"grad_norm": 0.7073507905006409,
	"learning_rate": 3.2244444444444444e-06,
	"loss": 0.0035,
	"step": 3550
	},
	{
	"epoch": 5.2965159377316535,
	"grad_norm": 0.07916448265314102,
	"learning_rate": 3.1688888888888893e-06,
	"loss": 0.0035,
	"step": 3575
	},
	{
	"epoch": 5.3335804299481095,
	"grad_norm": 0.5285120606422424,
	"learning_rate": 3.1133333333333337e-06,
	"loss": 0.0027,
	"step": 3600
	},
	{
	"epoch": 5.3706449221645665,
	"grad_norm": 0.09832775592803955,
	"learning_rate": 3.0577777777777778e-06,
	"loss": 0.0036,
	"step": 3625
	},
	{
	"epoch": 5.407709414381023,
	"grad_norm": 0.21083103120326996,
	"learning_rate": 3.0022222222222227e-06,
	"loss": 0.0041,
	"step": 3650
	},
	{
	"epoch": 5.444773906597479,
	"grad_norm": 0.6747980713844299,
	"learning_rate": 2.946666666666667e-06,
	"loss": 0.003,
	"step": 3675
	},
	{
	"epoch": 5.481838398813936,
	"grad_norm": 0.5111549496650696,
	"learning_rate": 2.891111111111111e-06,
	"loss": 0.0028,
	"step": 3700
	},
	{
	"epoch": 5.518902891030393,
	"grad_norm": 0.6502516269683838,
	"learning_rate": 2.835555555555556e-06,
	"loss": 0.0045,
	"step": 3725
	},
	{
	"epoch": 5.555967383246849,
	"grad_norm": 0.4688964784145355,
	"learning_rate": 2.7800000000000005e-06,
	"loss": 0.0036,
	"step": 3750
	},
	{
	"epoch": 5.593031875463306,
	"grad_norm": 0.281994104385376,
	"learning_rate": 2.7244444444444445e-06,
	"loss": 0.0021,
	"step": 3775
	},
	{
	"epoch": 5.630096367679763,
	"grad_norm": 0.11583279073238373,
	"learning_rate": 2.6688888888888894e-06,
	"loss": 0.0041,
	"step": 3800
	},
	{
	"epoch": 5.667160859896219,
	"grad_norm": 0.22941534221172333,
	"learning_rate": 2.6133333333333334e-06,
	"loss": 0.0022,
	"step": 3825
	},
	{
	"epoch": 5.704225352112676,
	"grad_norm": 0.13950073719024658,
	"learning_rate": 2.557777777777778e-06,
	"loss": 0.003,
	"step": 3850
	},
	{
	"epoch": 5.741289844329133,
	"grad_norm": 0.6869206428527832,
	"learning_rate": 2.5022222222222224e-06,
	"loss": 0.0024,
	"step": 3875
	},
	{
	"epoch": 5.778354336545589,
	"grad_norm": 0.09893081337213516,
	"learning_rate": 2.446666666666667e-06,
	"loss": 0.0029,
	"step": 3900
	},
	{
	"epoch": 5.815418828762046,
	"grad_norm": 0.1264762133359909,
	"learning_rate": 2.3911111111111113e-06,
	"loss": 0.0033,
	"step": 3925
	},
	{
	"epoch": 5.852483320978503,
	"grad_norm": 0.15489889681339264,
	"learning_rate": 2.3355555555555557e-06,
	"loss": 0.003,
	"step": 3950
	},
	{
	"epoch": 5.889547813194959,
	"grad_norm": 0.5875250697135925,
	"learning_rate": 2.28e-06,
	"loss": 0.0022,
	"step": 3975
	},
	{
	"epoch": 5.926612305411416,
	"grad_norm": 0.06691984087228775,
	"learning_rate": 2.2244444444444447e-06,
	"loss": 0.005,
	"step": 4000
	},
	{
	"epoch": 5.926612305411416,
	"eval_loss": 0.28099098801612854,
	"eval_runtime": 734.9707,
	"eval_samples_per_second": 3.925,
	"eval_steps_per_second": 0.491,
	"eval_wer": 0.11566347469220246,
	"step": 4000
	},
	{
	"epoch": 5.963676797627873,
	"grad_norm": 0.2645249664783478,
	"learning_rate": 2.168888888888889e-06,
	"loss": 0.0026,
	"step": 4025
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.3361597955226898,
	"learning_rate": 2.1133333333333336e-06,
	"loss": 0.0023,
	"step": 4050
	},
	{
	"epoch": 6.037064492216457,
	"grad_norm": 0.059147898107767105,
	"learning_rate": 2.057777777777778e-06,
	"loss": 0.0015,
	"step": 4075
	},
	{
	"epoch": 6.074128984432913,
	"grad_norm": 0.1158735603094101,
	"learning_rate": 2.0022222222222225e-06,
	"loss": 0.0016,
	"step": 4100
	},
	{
	"epoch": 6.11119347664937,
	"grad_norm": 1.3564985990524292,
	"learning_rate": 1.9466666666666665e-06,
	"loss": 0.0014,
	"step": 4125
	},
	{
	"epoch": 6.148257968865827,
	"grad_norm": 0.5956087112426758,
	"learning_rate": 1.8911111111111114e-06,
	"loss": 0.0018,
	"step": 4150
	},
	{
	"epoch": 6.185322461082283,
	"grad_norm": 0.09224885702133179,
	"learning_rate": 1.8355555555555557e-06,
	"loss": 0.0017,
	"step": 4175
	},
	{
	"epoch": 6.22238695329874,
	"grad_norm": 0.06868930906057358,
	"learning_rate": 1.7800000000000001e-06,
	"loss": 0.0017,
	"step": 4200
	},
	{
	"epoch": 6.259451445515197,
	"grad_norm": 0.06657718122005463,
	"learning_rate": 1.7244444444444448e-06,
	"loss": 0.0014,
	"step": 4225
	},
	{
	"epoch": 6.2965159377316535,
	"grad_norm": 0.05459928885102272,
	"learning_rate": 1.668888888888889e-06,
	"loss": 0.0017,
	"step": 4250
	},
	{
	"epoch": 6.3335804299481095,
	"grad_norm": 0.05795517563819885,
	"learning_rate": 1.6133333333333335e-06,
	"loss": 0.0027,
	"step": 4275
	},
	{
	"epoch": 6.3706449221645665,
	"grad_norm": 0.06204914301633835,
	"learning_rate": 1.5577777777777777e-06,
	"loss": 0.0012,
	"step": 4300
	},
	{
	"epoch": 6.407709414381023,
	"grad_norm": 0.0820712074637413,
	"learning_rate": 1.5022222222222224e-06,
	"loss": 0.0012,
	"step": 4325
	},
	{
	"epoch": 6.444773906597479,
	"grad_norm": 0.056523606181144714,
	"learning_rate": 1.4466666666666669e-06,
	"loss": 0.0013,
	"step": 4350
	},
	{
	"epoch": 6.481838398813936,
	"grad_norm": 0.07985592633485794,
	"learning_rate": 1.3911111111111111e-06,
	"loss": 0.0014,
	"step": 4375
	},
	{
	"epoch": 6.518902891030393,
	"grad_norm": 0.044111426919698715,
	"learning_rate": 1.3355555555555558e-06,
	"loss": 0.0012,
	"step": 4400
	},
	{
	"epoch": 6.555967383246849,
	"grad_norm": 0.05683915689587593,
	"learning_rate": 1.28e-06,
	"loss": 0.0014,
	"step": 4425
	},
	{
	"epoch": 6.593031875463306,
	"grad_norm": 0.08568093180656433,
	"learning_rate": 1.2244444444444445e-06,
	"loss": 0.0012,
	"step": 4450
	},
	{
	"epoch": 6.630096367679763,
	"grad_norm": 0.054062824696302414,
	"learning_rate": 1.168888888888889e-06,
	"loss": 0.0011,
	"step": 4475
	},
	{
	"epoch": 6.667160859896219,
	"grad_norm": 0.0509476363658905,
	"learning_rate": 1.1133333333333334e-06,
	"loss": 0.0013,
	"step": 4500
	},
	{
	"epoch": 6.704225352112676,
	"grad_norm": 0.04927874356508255,
	"learning_rate": 1.0577777777777779e-06,
	"loss": 0.0012,
	"step": 4525
	},
	{
	"epoch": 6.741289844329133,
	"grad_norm": 0.08598697185516357,
	"learning_rate": 1.0022222222222223e-06,
	"loss": 0.0011,
	"step": 4550
	},
	{
	"epoch": 6.778354336545589,
	"grad_norm": 0.3571934700012207,
	"learning_rate": 9.466666666666667e-07,
	"loss": 0.0016,
	"step": 4575
	},
	{
	"epoch": 6.815418828762046,
	"grad_norm": 0.05977300554513931,
	"learning_rate": 8.911111111111112e-07,
	"loss": 0.001,
	"step": 4600
	},
	{
	"epoch": 6.852483320978503,
	"grad_norm": 0.05966237559914589,
	"learning_rate": 8.355555555555556e-07,
	"loss": 0.001,
	"step": 4625
	},
	{
	"epoch": 6.889547813194959,
	"grad_norm": 0.05432112514972687,
	"learning_rate": 7.8e-07,
	"loss": 0.001,
	"step": 4650
	},
	{
	"epoch": 6.926612305411416,
	"grad_norm": 0.06741122156381607,
	"learning_rate": 7.244444444444446e-07,
	"loss": 0.0019,
	"step": 4675
	},
	{
	"epoch": 6.963676797627873,
	"grad_norm": 0.04723643884062767,
	"learning_rate": 6.68888888888889e-07,
	"loss": 0.0012,
	"step": 4700
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.07329325377941132,
	"learning_rate": 6.133333333333333e-07,
	"loss": 0.001,
	"step": 4725
	},
	{
	"epoch": 7.037064492216457,
	"grad_norm": 0.06389188766479492,
	"learning_rate": 5.577777777777779e-07,
	"loss": 0.001,
	"step": 4750
	},
	{
	"epoch": 7.074128984432913,
	"grad_norm": 0.03797365352511406,
	"learning_rate": 5.022222222222222e-07,
	"loss": 0.001,
	"step": 4775
	},
	{
	"epoch": 7.11119347664937,
	"grad_norm": 0.04686768725514412,
	"learning_rate": 4.466666666666667e-07,
	"loss": 0.0009,
	"step": 4800
	},
	{
	"epoch": 7.148257968865827,
	"grad_norm": 0.06883518397808075,
	"learning_rate": 3.9111111111111115e-07,
	"loss": 0.001,
	"step": 4825
	},
	{
	"epoch": 7.185322461082283,
	"grad_norm": 0.02842629700899124,
	"learning_rate": 3.3555555555555556e-07,
	"loss": 0.0009,
	"step": 4850
	},
	{
	"epoch": 7.22238695329874,
	"grad_norm": 0.04749394953250885,
	"learning_rate": 2.8e-07,
	"loss": 0.001,
	"step": 4875
	},
	{
	"epoch": 7.259451445515197,
	"grad_norm": 0.04491546377539635,
	"learning_rate": 2.2444444444444445e-07,
	"loss": 0.001,
	"step": 4900
	},
	{
	"epoch": 7.2965159377316535,
	"grad_norm": 0.056013334542512894,
	"learning_rate": 1.6888888888888888e-07,
	"loss": 0.001,
	"step": 4925
	},
	{
	"epoch": 7.3335804299481095,
	"grad_norm": 0.057778194546699524,
	"learning_rate": 1.1333333333333336e-07,
	"loss": 0.0011,
	"step": 4950
	},
	{
	"epoch": 7.3706449221645665,
	"grad_norm": 0.051241885870695114,
	"learning_rate": 5.777777777777778e-08,
	"loss": 0.0011,
	"step": 4975
	},
	{
	"epoch": 7.407709414381023,
	"grad_norm": 0.06301814317703247,
	"learning_rate": 2.2222222222222225e-09,
	"loss": 0.0009,
	"step": 5000
	},
	{
	"epoch": 7.407709414381023,
	"eval_loss": 0.29011788964271545,
	"eval_runtime": 732.4342,
	"eval_samples_per_second": 3.939,
	"eval_steps_per_second": 0.493,
	"eval_wer": 0.1146545827633379,
	"step": 5000
	},
	{
	"epoch": 7.407709414381023,
	"step": 5000,
	"total_flos": 8.155551755501568e+19,
	"train_loss": 0.10907779041565954,
	"train_runtime": 12394.4337,
	"train_samples_per_second": 6.455,
	"train_steps_per_second": 0.403
	}
	],
	"logging_steps": 25,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.155551755501568e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}