Upload folder using huggingface_hub

38bea69 verified 3 months ago

42 kB

	{
	"best_metric": 0.4557079945799458,
	"best_model_checkpoint": "whisper-tiny-danish-2/checkpoint-12000",
	"epoch": 3.00555,
	"eval_steps": 1000,
	"global_step": 12000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001,
	"grad_norm": 22.681325912475586,
	"learning_rate": 2.35e-06,
	"loss": 4.0513,
	"step": 50
	},
	{
	"epoch": 0.002,
	"grad_norm": 7.509825706481934,
	"learning_rate": 4.85e-06,
	"loss": 2.4332,
	"step": 100
	},
	{
	"epoch": 0.003,
	"grad_norm": 7.44932746887207,
	"learning_rate": 7.35e-06,
	"loss": 1.8256,
	"step": 150
	},
	{
	"epoch": 0.004,
	"grad_norm": 6.986607551574707,
	"learning_rate": 9.85e-06,
	"loss": 1.6391,
	"step": 200
	},
	{
	"epoch": 0.005,
	"grad_norm": 7.076284408569336,
	"learning_rate": 1.235e-05,
	"loss": 1.5296,
	"step": 250
	},
	{
	"epoch": 0.006,
	"grad_norm": 6.501603603363037,
	"learning_rate": 1.485e-05,
	"loss": 1.4288,
	"step": 300
	},
	{
	"epoch": 0.007,
	"grad_norm": 6.999312400817871,
	"learning_rate": 1.7349999999999998e-05,
	"loss": 1.3068,
	"step": 350
	},
	{
	"epoch": 0.008,
	"grad_norm": 6.261101722717285,
	"learning_rate": 1.985e-05,
	"loss": 1.2373,
	"step": 400
	},
	{
	"epoch": 0.009,
	"grad_norm": 6.493436813354492,
	"learning_rate": 2.235e-05,
	"loss": 1.2242,
	"step": 450
	},
	{
	"epoch": 0.01,
	"grad_norm": 6.082971096038818,
	"learning_rate": 2.485e-05,
	"loss": 1.1575,
	"step": 500
	},
	{
	"epoch": 0.011,
	"grad_norm": 6.2460174560546875,
	"learning_rate": 2.7350000000000004e-05,
	"loss": 1.093,
	"step": 550
	},
	{
	"epoch": 0.012,
	"grad_norm": 5.896036148071289,
	"learning_rate": 2.985e-05,
	"loss": 1.0961,
	"step": 600
	},
	{
	"epoch": 0.013,
	"grad_norm": 5.539938926696777,
	"learning_rate": 3.235e-05,
	"loss": 1.0036,
	"step": 650
	},
	{
	"epoch": 0.014,
	"grad_norm": 5.470737934112549,
	"learning_rate": 3.485e-05,
	"loss": 0.974,
	"step": 700
	},
	{
	"epoch": 0.015,
	"grad_norm": 5.766882419586182,
	"learning_rate": 3.735e-05,
	"loss": 0.9315,
	"step": 750
	},
	{
	"epoch": 0.016,
	"grad_norm": 5.046978950500488,
	"learning_rate": 3.9850000000000006e-05,
	"loss": 0.9166,
	"step": 800
	},
	{
	"epoch": 0.017,
	"grad_norm": 5.6074957847595215,
	"learning_rate": 4.235e-05,
	"loss": 0.9883,
	"step": 850
	},
	{
	"epoch": 0.018,
	"grad_norm": 5.528851509094238,
	"learning_rate": 4.4850000000000006e-05,
	"loss": 0.9578,
	"step": 900
	},
	{
	"epoch": 0.019,
	"grad_norm": 5.047084331512451,
	"learning_rate": 4.735e-05,
	"loss": 0.8865,
	"step": 950
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.150805473327637,
	"learning_rate": 4.9850000000000006e-05,
	"loss": 0.8565,
	"step": 1000
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.2942239046096802,
	"eval_runtime": 216.6252,
	"eval_samples_per_second": 4.653,
	"eval_steps_per_second": 0.148,
	"eval_wer": 0.6471036585365854,
	"step": 1000
	},
	{
	"epoch": 0.021,
	"grad_norm": 4.584412097930908,
	"learning_rate": 4.9952040816326534e-05,
	"loss": 0.8296,
	"step": 1050
	},
	{
	"epoch": 0.022,
	"grad_norm": 5.257778167724609,
	"learning_rate": 4.9901020408163266e-05,
	"loss": 0.802,
	"step": 1100
	},
	{
	"epoch": 0.023,
	"grad_norm": 5.010299205780029,
	"learning_rate": 4.9850000000000006e-05,
	"loss": 0.7911,
	"step": 1150
	},
	{
	"epoch": 0.024,
	"grad_norm": 5.242851734161377,
	"learning_rate": 4.979897959183674e-05,
	"loss": 0.8318,
	"step": 1200
	},
	{
	"epoch": 0.025,
	"grad_norm": 5.349483489990234,
	"learning_rate": 4.974795918367347e-05,
	"loss": 0.8327,
	"step": 1250
	},
	{
	"epoch": 0.026,
	"grad_norm": 6.035111427307129,
	"learning_rate": 4.96969387755102e-05,
	"loss": 0.8355,
	"step": 1300
	},
	{
	"epoch": 0.027,
	"grad_norm": 5.254024982452393,
	"learning_rate": 4.964591836734694e-05,
	"loss": 0.8851,
	"step": 1350
	},
	{
	"epoch": 0.028,
	"grad_norm": 6.512954235076904,
	"learning_rate": 4.959489795918368e-05,
	"loss": 0.8718,
	"step": 1400
	},
	{
	"epoch": 0.029,
	"grad_norm": 4.468319416046143,
	"learning_rate": 4.954387755102041e-05,
	"loss": 0.815,
	"step": 1450
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.5422492027282715,
	"learning_rate": 4.9492857142857146e-05,
	"loss": 0.8086,
	"step": 1500
	},
	{
	"epoch": 0.031,
	"grad_norm": 4.861804008483887,
	"learning_rate": 4.944183673469388e-05,
	"loss": 0.7848,
	"step": 1550
	},
	{
	"epoch": 0.032,
	"grad_norm": 5.152141571044922,
	"learning_rate": 4.939081632653062e-05,
	"loss": 0.7382,
	"step": 1600
	},
	{
	"epoch": 0.033,
	"grad_norm": 4.768085479736328,
	"learning_rate": 4.933979591836735e-05,
	"loss": 0.7786,
	"step": 1650
	},
	{
	"epoch": 0.034,
	"grad_norm": 4.68101167678833,
	"learning_rate": 4.928877551020408e-05,
	"loss": 0.733,
	"step": 1700
	},
	{
	"epoch": 0.035,
	"grad_norm": 4.635968208312988,
	"learning_rate": 4.9237755102040814e-05,
	"loss": 0.7032,
	"step": 1750
	},
	{
	"epoch": 0.036,
	"grad_norm": 5.221863269805908,
	"learning_rate": 4.918673469387755e-05,
	"loss": 0.703,
	"step": 1800
	},
	{
	"epoch": 0.037,
	"grad_norm": 5.017695426940918,
	"learning_rate": 4.913571428571429e-05,
	"loss": 0.6421,
	"step": 1850
	},
	{
	"epoch": 0.038,
	"grad_norm": 4.761963367462158,
	"learning_rate": 4.9084693877551025e-05,
	"loss": 0.703,
	"step": 1900
	},
	{
	"epoch": 0.039,
	"grad_norm": 4.619095325469971,
	"learning_rate": 4.903367346938776e-05,
	"loss": 0.7374,
	"step": 1950
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.652743816375732,
	"learning_rate": 4.8982653061224496e-05,
	"loss": 0.7434,
	"step": 2000
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.0815221071243286,
	"eval_runtime": 235.89,
	"eval_samples_per_second": 4.273,
	"eval_steps_per_second": 0.136,
	"eval_wer": 0.5818512872628726,
	"step": 2000
	},
	{
	"epoch": 0.041,
	"grad_norm": 5.1539177894592285,
	"learning_rate": 4.893163265306123e-05,
	"loss": 0.7661,
	"step": 2050
	},
	{
	"epoch": 0.042,
	"grad_norm": 4.277270793914795,
	"learning_rate": 4.888061224489796e-05,
	"loss": 0.6908,
	"step": 2100
	},
	{
	"epoch": 0.043,
	"grad_norm": 4.588935852050781,
	"learning_rate": 4.882959183673469e-05,
	"loss": 0.6411,
	"step": 2150
	},
	{
	"epoch": 0.044,
	"grad_norm": 4.606882572174072,
	"learning_rate": 4.877857142857143e-05,
	"loss": 0.6492,
	"step": 2200
	},
	{
	"epoch": 0.045,
	"grad_norm": 4.498349189758301,
	"learning_rate": 4.8727551020408165e-05,
	"loss": 0.6592,
	"step": 2250
	},
	{
	"epoch": 0.046,
	"grad_norm": 4.668141841888428,
	"learning_rate": 4.8676530612244904e-05,
	"loss": 0.6865,
	"step": 2300
	},
	{
	"epoch": 0.047,
	"grad_norm": 4.357521057128906,
	"learning_rate": 4.8625510204081636e-05,
	"loss": 0.676,
	"step": 2350
	},
	{
	"epoch": 0.048,
	"grad_norm": 4.414557933807373,
	"learning_rate": 4.857448979591837e-05,
	"loss": 0.6496,
	"step": 2400
	},
	{
	"epoch": 0.049,
	"grad_norm": 4.414867877960205,
	"learning_rate": 4.852346938775511e-05,
	"loss": 0.6679,
	"step": 2450
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.020086765289307,
	"learning_rate": 4.847244897959184e-05,
	"loss": 0.6364,
	"step": 2500
	},
	{
	"epoch": 0.051,
	"grad_norm": 5.012465476989746,
	"learning_rate": 4.842142857142857e-05,
	"loss": 0.6624,
	"step": 2550
	},
	{
	"epoch": 0.052,
	"grad_norm": 4.224608421325684,
	"learning_rate": 4.8370408163265305e-05,
	"loss": 0.6609,
	"step": 2600
	},
	{
	"epoch": 0.053,
	"grad_norm": 4.476141929626465,
	"learning_rate": 4.8319387755102044e-05,
	"loss": 0.6402,
	"step": 2650
	},
	{
	"epoch": 0.054,
	"grad_norm": 4.985313892364502,
	"learning_rate": 4.8268367346938776e-05,
	"loss": 0.6706,
	"step": 2700
	},
	{
	"epoch": 0.055,
	"grad_norm": 4.675138473510742,
	"learning_rate": 4.8217346938775515e-05,
	"loss": 0.7041,
	"step": 2750
	},
	{
	"epoch": 0.056,
	"grad_norm": 5.3597846031188965,
	"learning_rate": 4.816632653061225e-05,
	"loss": 0.6993,
	"step": 2800
	},
	{
	"epoch": 0.057,
	"grad_norm": 4.724060535430908,
	"learning_rate": 4.811530612244898e-05,
	"loss": 0.6681,
	"step": 2850
	},
	{
	"epoch": 0.058,
	"grad_norm": 4.375901222229004,
	"learning_rate": 4.806428571428572e-05,
	"loss": 0.6205,
	"step": 2900
	},
	{
	"epoch": 0.059,
	"grad_norm": 4.6154279708862305,
	"learning_rate": 4.801326530612245e-05,
	"loss": 0.5887,
	"step": 2950
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.766662120819092,
	"learning_rate": 4.7962244897959184e-05,
	"loss": 0.6056,
	"step": 3000
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.0121757984161377,
	"eval_runtime": 218.7463,
	"eval_samples_per_second": 4.608,
	"eval_steps_per_second": 0.146,
	"eval_wer": 0.5472984417344173,
	"step": 3000
	},
	{
	"epoch": 0.061,
	"grad_norm": 4.1083550453186035,
	"learning_rate": 4.791122448979592e-05,
	"loss": 0.5938,
	"step": 3050
	},
	{
	"epoch": 0.062,
	"grad_norm": 4.648180961608887,
	"learning_rate": 4.7860204081632655e-05,
	"loss": 0.6083,
	"step": 3100
	},
	{
	"epoch": 0.063,
	"grad_norm": 4.021754264831543,
	"learning_rate": 4.780918367346939e-05,
	"loss": 0.6132,
	"step": 3150
	},
	{
	"epoch": 0.064,
	"grad_norm": 3.82786226272583,
	"learning_rate": 4.775816326530613e-05,
	"loss": 0.6348,
	"step": 3200
	},
	{
	"epoch": 0.065,
	"grad_norm": 4.385377407073975,
	"learning_rate": 4.770714285714286e-05,
	"loss": 0.602,
	"step": 3250
	},
	{
	"epoch": 0.066,
	"grad_norm": 5.215423107147217,
	"learning_rate": 4.76561224489796e-05,
	"loss": 0.6135,
	"step": 3300
	},
	{
	"epoch": 0.067,
	"grad_norm": 4.4256486892700195,
	"learning_rate": 4.760510204081633e-05,
	"loss": 0.6353,
	"step": 3350
	},
	{
	"epoch": 0.068,
	"grad_norm": 4.338476181030273,
	"learning_rate": 4.755408163265306e-05,
	"loss": 0.6114,
	"step": 3400
	},
	{
	"epoch": 0.069,
	"grad_norm": 4.410732269287109,
	"learning_rate": 4.7503061224489795e-05,
	"loss": 0.612,
	"step": 3450
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.397231578826904,
	"learning_rate": 4.7452040816326534e-05,
	"loss": 0.5984,
	"step": 3500
	},
	{
	"epoch": 0.071,
	"grad_norm": 4.233676433563232,
	"learning_rate": 4.740102040816327e-05,
	"loss": 0.6419,
	"step": 3550
	},
	{
	"epoch": 0.072,
	"grad_norm": 4.81524658203125,
	"learning_rate": 4.735e-05,
	"loss": 0.6158,
	"step": 3600
	},
	{
	"epoch": 0.073,
	"grad_norm": 4.236979961395264,
	"learning_rate": 4.729897959183674e-05,
	"loss": 0.6041,
	"step": 3650
	},
	{
	"epoch": 0.074,
	"grad_norm": 4.120030403137207,
	"learning_rate": 4.724795918367347e-05,
	"loss": 0.6378,
	"step": 3700
	},
	{
	"epoch": 0.075,
	"grad_norm": 3.8795013427734375,
	"learning_rate": 4.719693877551021e-05,
	"loss": 0.6577,
	"step": 3750
	},
	{
	"epoch": 0.076,
	"grad_norm": 4.2965087890625,
	"learning_rate": 4.714591836734694e-05,
	"loss": 0.6341,
	"step": 3800
	},
	{
	"epoch": 0.077,
	"grad_norm": 4.946217060089111,
	"learning_rate": 4.7094897959183674e-05,
	"loss": 0.6217,
	"step": 3850
	},
	{
	"epoch": 0.078,
	"grad_norm": 4.450223445892334,
	"learning_rate": 4.7043877551020407e-05,
	"loss": 0.6383,
	"step": 3900
	},
	{
	"epoch": 1.00085,
	"grad_norm": 5.3936591148376465,
	"learning_rate": 4.6992857142857146e-05,
	"loss": 0.6186,
	"step": 3950
	},
	{
	"epoch": 1.00185,
	"grad_norm": 4.123908042907715,
	"learning_rate": 4.694183673469388e-05,
	"loss": 0.6141,
	"step": 4000
	},
	{
	"epoch": 1.00185,
	"eval_loss": 0.9478016495704651,
	"eval_runtime": 215.0961,
	"eval_samples_per_second": 4.686,
	"eval_steps_per_second": 0.149,
	"eval_wer": 0.5331554878048781,
	"step": 4000
	},
	{
	"epoch": 1.00285,
	"grad_norm": 4.490115642547607,
	"learning_rate": 4.689081632653061e-05,
	"loss": 0.6373,
	"step": 4050
	},
	{
	"epoch": 1.00385,
	"grad_norm": 4.364250659942627,
	"learning_rate": 4.683979591836735e-05,
	"loss": 0.641,
	"step": 4100
	},
	{
	"epoch": 1.00485,
	"grad_norm": 4.241596221923828,
	"learning_rate": 4.678877551020409e-05,
	"loss": 0.6284,
	"step": 4150
	},
	{
	"epoch": 1.00585,
	"grad_norm": 4.362817764282227,
	"learning_rate": 4.673775510204082e-05,
	"loss": 0.6346,
	"step": 4200
	},
	{
	"epoch": 1.00685,
	"grad_norm": 3.9235153198242188,
	"learning_rate": 4.668673469387755e-05,
	"loss": 0.6007,
	"step": 4250
	},
	{
	"epoch": 1.00785,
	"grad_norm": 3.7977848052978516,
	"learning_rate": 4.6635714285714286e-05,
	"loss": 0.5891,
	"step": 4300
	},
	{
	"epoch": 1.00885,
	"grad_norm": 4.0569305419921875,
	"learning_rate": 4.6584693877551025e-05,
	"loss": 0.6123,
	"step": 4350
	},
	{
	"epoch": 1.00985,
	"grad_norm": 4.0435872077941895,
	"learning_rate": 4.653367346938776e-05,
	"loss": 0.5948,
	"step": 4400
	},
	{
	"epoch": 1.01085,
	"grad_norm": 3.7464935779571533,
	"learning_rate": 4.648265306122449e-05,
	"loss": 0.5665,
	"step": 4450
	},
	{
	"epoch": 1.01185,
	"grad_norm": 3.99239182472229,
	"learning_rate": 4.643163265306122e-05,
	"loss": 0.6124,
	"step": 4500
	},
	{
	"epoch": 1.01285,
	"grad_norm": 3.6230008602142334,
	"learning_rate": 4.638061224489796e-05,
	"loss": 0.5632,
	"step": 4550
	},
	{
	"epoch": 1.01385,
	"grad_norm": 3.5754306316375732,
	"learning_rate": 4.63295918367347e-05,
	"loss": 0.5425,
	"step": 4600
	},
	{
	"epoch": 1.01485,
	"grad_norm": 3.7989814281463623,
	"learning_rate": 4.627857142857143e-05,
	"loss": 0.5388,
	"step": 4650
	},
	{
	"epoch": 1.01585,
	"grad_norm": 3.778059959411621,
	"learning_rate": 4.6227551020408165e-05,
	"loss": 0.5297,
	"step": 4700
	},
	{
	"epoch": 1.01685,
	"grad_norm": 3.987022876739502,
	"learning_rate": 4.61765306122449e-05,
	"loss": 0.58,
	"step": 4750
	},
	{
	"epoch": 1.01785,
	"grad_norm": 3.883904218673706,
	"learning_rate": 4.6125510204081636e-05,
	"loss": 0.5964,
	"step": 4800
	},
	{
	"epoch": 1.01885,
	"grad_norm": 4.473369598388672,
	"learning_rate": 4.607448979591837e-05,
	"loss": 0.5512,
	"step": 4850
	},
	{
	"epoch": 1.01985,
	"grad_norm": 4.040229797363281,
	"learning_rate": 4.60234693877551e-05,
	"loss": 0.5292,
	"step": 4900
	},
	{
	"epoch": 1.02085,
	"grad_norm": 4.538361072540283,
	"learning_rate": 4.597244897959183e-05,
	"loss": 0.5196,
	"step": 4950
	},
	{
	"epoch": 1.02185,
	"grad_norm": 4.212509632110596,
	"learning_rate": 4.592142857142858e-05,
	"loss": 0.5085,
	"step": 5000
	},
	{
	"epoch": 1.02185,
	"eval_loss": 0.9282792806625366,
	"eval_runtime": 224.1163,
	"eval_samples_per_second": 4.498,
	"eval_steps_per_second": 0.143,
	"eval_wer": 0.5289634146341463,
	"step": 5000
	},
	{
	"epoch": 1.02285,
	"grad_norm": 3.8673441410064697,
	"learning_rate": 4.587040816326531e-05,
	"loss": 0.4988,
	"step": 5050
	},
	{
	"epoch": 1.02385,
	"grad_norm": 3.70070743560791,
	"learning_rate": 4.5819387755102044e-05,
	"loss": 0.5424,
	"step": 5100
	},
	{
	"epoch": 1.02485,
	"grad_norm": 4.379025459289551,
	"learning_rate": 4.5768367346938776e-05,
	"loss": 0.5425,
	"step": 5150
	},
	{
	"epoch": 1.02585,
	"grad_norm": 4.310212135314941,
	"learning_rate": 4.5717346938775515e-05,
	"loss": 0.5466,
	"step": 5200
	},
	{
	"epoch": 1.02685,
	"grad_norm": 4.193725109100342,
	"learning_rate": 4.566632653061225e-05,
	"loss": 0.5949,
	"step": 5250
	},
	{
	"epoch": 1.02785,
	"grad_norm": 4.096522808074951,
	"learning_rate": 4.561530612244898e-05,
	"loss": 0.6003,
	"step": 5300
	},
	{
	"epoch": 1.02885,
	"grad_norm": 4.387059211730957,
	"learning_rate": 4.556428571428571e-05,
	"loss": 0.5672,
	"step": 5350
	},
	{
	"epoch": 1.02985,
	"grad_norm": 4.410869598388672,
	"learning_rate": 4.551326530612245e-05,
	"loss": 0.5512,
	"step": 5400
	},
	{
	"epoch": 1.03085,
	"grad_norm": 4.141435623168945,
	"learning_rate": 4.546224489795919e-05,
	"loss": 0.5534,
	"step": 5450
	},
	{
	"epoch": 1.03185,
	"grad_norm": 3.6259546279907227,
	"learning_rate": 4.541122448979592e-05,
	"loss": 0.4962,
	"step": 5500
	},
	{
	"epoch": 1.03285,
	"grad_norm": 4.343920707702637,
	"learning_rate": 4.5360204081632655e-05,
	"loss": 0.5411,
	"step": 5550
	},
	{
	"epoch": 1.03385,
	"grad_norm": 4.238042831420898,
	"learning_rate": 4.530918367346939e-05,
	"loss": 0.5217,
	"step": 5600
	},
	{
	"epoch": 1.03485,
	"grad_norm": 4.237799167633057,
	"learning_rate": 4.525816326530613e-05,
	"loss": 0.4973,
	"step": 5650
	},
	{
	"epoch": 1.03585,
	"grad_norm": 4.474476337432861,
	"learning_rate": 4.520714285714286e-05,
	"loss": 0.4967,
	"step": 5700
	},
	{
	"epoch": 1.03685,
	"grad_norm": 3.6932973861694336,
	"learning_rate": 4.515612244897959e-05,
	"loss": 0.4524,
	"step": 5750
	},
	{
	"epoch": 1.03785,
	"grad_norm": 4.185140132904053,
	"learning_rate": 4.5105102040816324e-05,
	"loss": 0.4851,
	"step": 5800
	},
	{
	"epoch": 1.03885,
	"grad_norm": 4.114623069763184,
	"learning_rate": 4.505408163265306e-05,
	"loss": 0.5371,
	"step": 5850
	},
	{
	"epoch": 1.03985,
	"grad_norm": 3.961071729660034,
	"learning_rate": 4.5003061224489795e-05,
	"loss": 0.5361,
	"step": 5900
	},
	{
	"epoch": 1.04085,
	"grad_norm": 3.9876036643981934,
	"learning_rate": 4.4952040816326534e-05,
	"loss": 0.5576,
	"step": 5950
	},
	{
	"epoch": 1.04185,
	"grad_norm": 4.096221446990967,
	"learning_rate": 4.490102040816327e-05,
	"loss": 0.5108,
	"step": 6000
	},
	{
	"epoch": 1.04185,
	"eval_loss": 0.8966282606124878,
	"eval_runtime": 214.6844,
	"eval_samples_per_second": 4.695,
	"eval_steps_per_second": 0.149,
	"eval_wer": 0.4938177506775068,
	"step": 6000
	},
	{
	"epoch": 1.04285,
	"grad_norm": 3.3264214992523193,
	"learning_rate": 4.4850000000000006e-05,
	"loss": 0.4692,
	"step": 6050
	},
	{
	"epoch": 1.04385,
	"grad_norm": 4.144850730895996,
	"learning_rate": 4.479897959183674e-05,
	"loss": 0.4676,
	"step": 6100
	},
	{
	"epoch": 1.04485,
	"grad_norm": 4.427196502685547,
	"learning_rate": 4.474795918367347e-05,
	"loss": 0.4796,
	"step": 6150
	},
	{
	"epoch": 1.04585,
	"grad_norm": 3.8419079780578613,
	"learning_rate": 4.46969387755102e-05,
	"loss": 0.5092,
	"step": 6200
	},
	{
	"epoch": 1.04685,
	"grad_norm": 4.1315436363220215,
	"learning_rate": 4.464591836734694e-05,
	"loss": 0.4992,
	"step": 6250
	},
	{
	"epoch": 1.04785,
	"grad_norm": 3.6058404445648193,
	"learning_rate": 4.4594897959183674e-05,
	"loss": 0.4844,
	"step": 6300
	},
	{
	"epoch": 1.04885,
	"grad_norm": 3.776262044906616,
	"learning_rate": 4.454387755102041e-05,
	"loss": 0.4886,
	"step": 6350
	},
	{
	"epoch": 1.04985,
	"grad_norm": 3.4971370697021484,
	"learning_rate": 4.4492857142857146e-05,
	"loss": 0.4755,
	"step": 6400
	},
	{
	"epoch": 1.05085,
	"grad_norm": 4.299288272857666,
	"learning_rate": 4.444183673469388e-05,
	"loss": 0.4826,
	"step": 6450
	},
	{
	"epoch": 1.05185,
	"grad_norm": 3.4071223735809326,
	"learning_rate": 4.439081632653062e-05,
	"loss": 0.5001,
	"step": 6500
	},
	{
	"epoch": 1.05285,
	"grad_norm": 3.8092288970947266,
	"learning_rate": 4.433979591836735e-05,
	"loss": 0.4797,
	"step": 6550
	},
	{
	"epoch": 1.05385,
	"grad_norm": 4.502504348754883,
	"learning_rate": 4.428877551020408e-05,
	"loss": 0.4928,
	"step": 6600
	},
	{
	"epoch": 1.05485,
	"grad_norm": 4.641124725341797,
	"learning_rate": 4.4237755102040814e-05,
	"loss": 0.5373,
	"step": 6650
	},
	{
	"epoch": 1.05585,
	"grad_norm": 4.549639701843262,
	"learning_rate": 4.4186734693877554e-05,
	"loss": 0.529,
	"step": 6700
	},
	{
	"epoch": 1.05685,
	"grad_norm": 3.3781280517578125,
	"learning_rate": 4.4135714285714286e-05,
	"loss": 0.5129,
	"step": 6750
	},
	{
	"epoch": 1.05785,
	"grad_norm": 4.276547431945801,
	"learning_rate": 4.408469387755102e-05,
	"loss": 0.478,
	"step": 6800
	},
	{
	"epoch": 1.05885,
	"grad_norm": 4.88979959487915,
	"learning_rate": 4.403367346938776e-05,
	"loss": 0.4405,
	"step": 6850
	},
	{
	"epoch": 1.05985,
	"grad_norm": 5.3919267654418945,
	"learning_rate": 4.3982653061224497e-05,
	"loss": 0.4544,
	"step": 6900
	},
	{
	"epoch": 1.06085,
	"grad_norm": 3.975532293319702,
	"learning_rate": 4.393163265306123e-05,
	"loss": 0.4517,
	"step": 6950
	},
	{
	"epoch": 1.06185,
	"grad_norm": 3.94978404045105,
	"learning_rate": 4.388061224489796e-05,
	"loss": 0.4604,
	"step": 7000
	},
	{
	"epoch": 1.06185,
	"eval_loss": 0.8832055926322937,
	"eval_runtime": 217.1866,
	"eval_samples_per_second": 4.641,
	"eval_steps_per_second": 0.147,
	"eval_wer": 0.49817920054200543,
	"step": 7000
	},
	{
	"epoch": 1.06285,
	"grad_norm": 3.804979085922241,
	"learning_rate": 4.3829591836734694e-05,
	"loss": 0.4659,
	"step": 7050
	},
	{
	"epoch": 1.06385,
	"grad_norm": 4.515665054321289,
	"learning_rate": 4.377857142857143e-05,
	"loss": 0.4879,
	"step": 7100
	},
	{
	"epoch": 1.06485,
	"grad_norm": 4.103418827056885,
	"learning_rate": 4.3727551020408165e-05,
	"loss": 0.4608,
	"step": 7150
	},
	{
	"epoch": 1.06585,
	"grad_norm": 3.9994966983795166,
	"learning_rate": 4.36765306122449e-05,
	"loss": 0.4712,
	"step": 7200
	},
	{
	"epoch": 1.06685,
	"grad_norm": 3.973745107650757,
	"learning_rate": 4.362551020408163e-05,
	"loss": 0.4873,
	"step": 7250
	},
	{
	"epoch": 1.06785,
	"grad_norm": 3.7433559894561768,
	"learning_rate": 4.357448979591837e-05,
	"loss": 0.4735,
	"step": 7300
	},
	{
	"epoch": 1.06885,
	"grad_norm": 3.822484254837036,
	"learning_rate": 4.352346938775511e-05,
	"loss": 0.4712,
	"step": 7350
	},
	{
	"epoch": 1.06985,
	"grad_norm": 3.4630181789398193,
	"learning_rate": 4.347244897959184e-05,
	"loss": 0.4583,
	"step": 7400
	},
	{
	"epoch": 1.07085,
	"grad_norm": 4.550868034362793,
	"learning_rate": 4.342142857142857e-05,
	"loss": 0.493,
	"step": 7450
	},
	{
	"epoch": 1.07185,
	"grad_norm": 4.130419731140137,
	"learning_rate": 4.337142857142857e-05,
	"loss": 0.4815,
	"step": 7500
	},
	{
	"epoch": 1.07285,
	"grad_norm": 3.5420877933502197,
	"learning_rate": 4.332040816326531e-05,
	"loss": 0.4735,
	"step": 7550
	},
	{
	"epoch": 1.07385,
	"grad_norm": 4.168927192687988,
	"learning_rate": 4.326938775510204e-05,
	"loss": 0.4919,
	"step": 7600
	},
	{
	"epoch": 1.07485,
	"grad_norm": 3.9668235778808594,
	"learning_rate": 4.3218367346938775e-05,
	"loss": 0.5107,
	"step": 7650
	},
	{
	"epoch": 1.07585,
	"grad_norm": 4.459245681762695,
	"learning_rate": 4.316734693877551e-05,
	"loss": 0.5011,
	"step": 7700
	},
	{
	"epoch": 1.07685,
	"grad_norm": 4.179884910583496,
	"learning_rate": 4.311632653061225e-05,
	"loss": 0.4806,
	"step": 7750
	},
	{
	"epoch": 1.07785,
	"grad_norm": 5.189551830291748,
	"learning_rate": 4.3065306122448986e-05,
	"loss": 0.4973,
	"step": 7800
	},
	{
	"epoch": 2.0007,
	"grad_norm": 5.872171401977539,
	"learning_rate": 4.301428571428572e-05,
	"loss": 0.4958,
	"step": 7850
	},
	{
	"epoch": 2.0017,
	"grad_norm": 3.948779582977295,
	"learning_rate": 4.296326530612245e-05,
	"loss": 0.4801,
	"step": 7900
	},
	{
	"epoch": 2.0027,
	"grad_norm": 3.7434325218200684,
	"learning_rate": 4.291224489795918e-05,
	"loss": 0.5009,
	"step": 7950
	},
	{
	"epoch": 2.0037,
	"grad_norm": 5.404001235961914,
	"learning_rate": 4.286122448979592e-05,
	"loss": 0.5144,
	"step": 8000
	},
	{
	"epoch": 2.0037,
	"eval_loss": 0.8577666878700256,
	"eval_runtime": 221.0367,
	"eval_samples_per_second": 4.56,
	"eval_steps_per_second": 0.145,
	"eval_wer": 0.4876778455284553,
	"step": 8000
	},
	{
	"epoch": 2.0047,
	"grad_norm": 3.783438205718994,
	"learning_rate": 4.2810204081632654e-05,
	"loss": 0.4987,
	"step": 8050
	},
	{
	"epoch": 2.0057,
	"grad_norm": 3.9520227909088135,
	"learning_rate": 4.275918367346939e-05,
	"loss": 0.5081,
	"step": 8100
	},
	{
	"epoch": 2.0067,
	"grad_norm": 3.9701645374298096,
	"learning_rate": 4.2708163265306126e-05,
	"loss": 0.4799,
	"step": 8150
	},
	{
	"epoch": 2.0077,
	"grad_norm": 3.5120835304260254,
	"learning_rate": 4.265714285714286e-05,
	"loss": 0.4676,
	"step": 8200
	},
	{
	"epoch": 2.0087,
	"grad_norm": 4.348593235015869,
	"learning_rate": 4.26061224489796e-05,
	"loss": 0.4853,
	"step": 8250
	},
	{
	"epoch": 2.0097,
	"grad_norm": 3.6884608268737793,
	"learning_rate": 4.255510204081633e-05,
	"loss": 0.4803,
	"step": 8300
	},
	{
	"epoch": 2.0107,
	"grad_norm": 3.584364414215088,
	"learning_rate": 4.250408163265306e-05,
	"loss": 0.4561,
	"step": 8350
	},
	{
	"epoch": 2.0117,
	"grad_norm": 3.6865909099578857,
	"learning_rate": 4.24530612244898e-05,
	"loss": 0.4871,
	"step": 8400
	},
	{
	"epoch": 2.0127,
	"grad_norm": 3.9009077548980713,
	"learning_rate": 4.2402040816326533e-05,
	"loss": 0.4599,
	"step": 8450
	},
	{
	"epoch": 2.0137,
	"grad_norm": 3.513470411300659,
	"learning_rate": 4.2351020408163266e-05,
	"loss": 0.4316,
	"step": 8500
	},
	{
	"epoch": 2.0147,
	"grad_norm": 3.8565685749053955,
	"learning_rate": 4.23e-05,
	"loss": 0.4379,
	"step": 8550
	},
	{
	"epoch": 2.0157,
	"grad_norm": 3.2444798946380615,
	"learning_rate": 4.224897959183674e-05,
	"loss": 0.4287,
	"step": 8600
	},
	{
	"epoch": 2.0167,
	"grad_norm": 3.9673781394958496,
	"learning_rate": 4.219795918367347e-05,
	"loss": 0.4613,
	"step": 8650
	},
	{
	"epoch": 2.0177,
	"grad_norm": 8.936363220214844,
	"learning_rate": 4.214693877551021e-05,
	"loss": 0.4869,
	"step": 8700
	},
	{
	"epoch": 2.0187,
	"grad_norm": 3.6102094650268555,
	"learning_rate": 4.209591836734694e-05,
	"loss": 0.4523,
	"step": 8750
	},
	{
	"epoch": 2.0197,
	"grad_norm": 3.8444738388061523,
	"learning_rate": 4.2044897959183673e-05,
	"loss": 0.4334,
	"step": 8800
	},
	{
	"epoch": 2.0207,
	"grad_norm": 3.0468149185180664,
	"learning_rate": 4.199387755102041e-05,
	"loss": 0.4219,
	"step": 8850
	},
	{
	"epoch": 2.0217,
	"grad_norm": 3.563493251800537,
	"learning_rate": 4.1942857142857145e-05,
	"loss": 0.413,
	"step": 8900
	},
	{
	"epoch": 2.0227,
	"grad_norm": 3.6925594806671143,
	"learning_rate": 4.189183673469388e-05,
	"loss": 0.4028,
	"step": 8950
	},
	{
	"epoch": 2.0237,
	"grad_norm": 3.872044086456299,
	"learning_rate": 4.184081632653061e-05,
	"loss": 0.4411,
	"step": 9000
	},
	{
	"epoch": 2.0237,
	"eval_loss": 0.8616846203804016,
	"eval_runtime": 215.4703,
	"eval_samples_per_second": 4.678,
	"eval_steps_per_second": 0.149,
	"eval_wer": 0.47925135501355015,
	"step": 9000
	},
	{
	"epoch": 2.0247,
	"grad_norm": 3.9783222675323486,
	"learning_rate": 4.178979591836735e-05,
	"loss": 0.44,
	"step": 9050
	},
	{
	"epoch": 2.0257,
	"grad_norm": 5.306482315063477,
	"learning_rate": 4.173877551020408e-05,
	"loss": 0.4384,
	"step": 9100
	},
	{
	"epoch": 2.0267,
	"grad_norm": 4.326815128326416,
	"learning_rate": 4.168775510204082e-05,
	"loss": 0.4873,
	"step": 9150
	},
	{
	"epoch": 2.0277,
	"grad_norm": 3.9018495082855225,
	"learning_rate": 4.163673469387755e-05,
	"loss": 0.4974,
	"step": 9200
	},
	{
	"epoch": 2.0287,
	"grad_norm": 3.4675261974334717,
	"learning_rate": 4.158571428571429e-05,
	"loss": 0.4705,
	"step": 9250
	},
	{
	"epoch": 2.0297,
	"grad_norm": 4.265820026397705,
	"learning_rate": 4.1534693877551024e-05,
	"loss": 0.4473,
	"step": 9300
	},
	{
	"epoch": 2.0307,
	"grad_norm": 3.4740707874298096,
	"learning_rate": 4.1483673469387756e-05,
	"loss": 0.4679,
	"step": 9350
	},
	{
	"epoch": 2.0317,
	"grad_norm": 3.339444637298584,
	"learning_rate": 4.143265306122449e-05,
	"loss": 0.4065,
	"step": 9400
	},
	{
	"epoch": 2.0327,
	"grad_norm": 3.825657606124878,
	"learning_rate": 4.138163265306123e-05,
	"loss": 0.4436,
	"step": 9450
	},
	{
	"epoch": 2.0337,
	"grad_norm": 3.392925262451172,
	"learning_rate": 4.133061224489796e-05,
	"loss": 0.4285,
	"step": 9500
	},
	{
	"epoch": 2.0347,
	"grad_norm": 3.815762519836426,
	"learning_rate": 4.127959183673469e-05,
	"loss": 0.4123,
	"step": 9550
	},
	{
	"epoch": 2.0357,
	"grad_norm": 4.090697765350342,
	"learning_rate": 4.122857142857143e-05,
	"loss": 0.408,
	"step": 9600
	},
	{
	"epoch": 2.0367,
	"grad_norm": 3.2577061653137207,
	"learning_rate": 4.1177551020408164e-05,
	"loss": 0.3751,
	"step": 9650
	},
	{
	"epoch": 2.0377,
	"grad_norm": 3.391096591949463,
	"learning_rate": 4.11265306122449e-05,
	"loss": 0.3885,
	"step": 9700
	},
	{
	"epoch": 2.0387,
	"grad_norm": 3.540929079055786,
	"learning_rate": 4.1075510204081636e-05,
	"loss": 0.4434,
	"step": 9750
	},
	{
	"epoch": 2.0397,
	"grad_norm": 4.215907096862793,
	"learning_rate": 4.102448979591837e-05,
	"loss": 0.436,
	"step": 9800
	},
	{
	"epoch": 2.0407,
	"grad_norm": 4.207083225250244,
	"learning_rate": 4.09734693877551e-05,
	"loss": 0.4699,
	"step": 9850
	},
	{
	"epoch": 2.0417,
	"grad_norm": 3.9734325408935547,
	"learning_rate": 4.092244897959184e-05,
	"loss": 0.4301,
	"step": 9900
	},
	{
	"epoch": 2.0427,
	"grad_norm": 3.023761510848999,
	"learning_rate": 4.087142857142857e-05,
	"loss": 0.3889,
	"step": 9950
	},
	{
	"epoch": 2.0437,
	"grad_norm": 3.4388654232025146,
	"learning_rate": 4.0820408163265304e-05,
	"loss": 0.3835,
	"step": 10000
	},
	{
	"epoch": 2.0437,
	"eval_loss": 0.8521081805229187,
	"eval_runtime": 215.0513,
	"eval_samples_per_second": 4.687,
	"eval_steps_per_second": 0.149,
	"eval_wer": 0.47412771002710025,
	"step": 10000
	},
	{
	"epoch": 2.0447,
	"grad_norm": 3.153373956680298,
	"learning_rate": 4.076938775510204e-05,
	"loss": 0.3933,
	"step": 10050
	},
	{
	"epoch": 2.0457,
	"grad_norm": 4.276921272277832,
	"learning_rate": 4.071836734693878e-05,
	"loss": 0.42,
	"step": 10100
	},
	{
	"epoch": 2.0467,
	"grad_norm": 3.5044806003570557,
	"learning_rate": 4.0667346938775515e-05,
	"loss": 0.4131,
	"step": 10150
	},
	{
	"epoch": 2.0477,
	"grad_norm": 3.862910032272339,
	"learning_rate": 4.061632653061225e-05,
	"loss": 0.4076,
	"step": 10200
	},
	{
	"epoch": 2.0487,
	"grad_norm": 3.593726396560669,
	"learning_rate": 4.056530612244898e-05,
	"loss": 0.397,
	"step": 10250
	},
	{
	"epoch": 2.0497,
	"grad_norm": 3.8984551429748535,
	"learning_rate": 4.051428571428572e-05,
	"loss": 0.398,
	"step": 10300
	},
	{
	"epoch": 2.0507,
	"grad_norm": 2.999417781829834,
	"learning_rate": 4.046326530612245e-05,
	"loss": 0.3986,
	"step": 10350
	},
	{
	"epoch": 2.0517,
	"grad_norm": 3.8147029876708984,
	"learning_rate": 4.041224489795918e-05,
	"loss": 0.4151,
	"step": 10400
	},
	{
	"epoch": 2.0527,
	"grad_norm": 3.7409307956695557,
	"learning_rate": 4.0361224489795915e-05,
	"loss": 0.4006,
	"step": 10450
	},
	{
	"epoch": 2.0537,
	"grad_norm": 4.3039445877075195,
	"learning_rate": 4.0310204081632655e-05,
	"loss": 0.3995,
	"step": 10500
	},
	{
	"epoch": 2.0547,
	"grad_norm": 3.9257168769836426,
	"learning_rate": 4.0259183673469394e-05,
	"loss": 0.4485,
	"step": 10550
	},
	{
	"epoch": 2.0557,
	"grad_norm": 3.795719623565674,
	"learning_rate": 4.0208163265306126e-05,
	"loss": 0.4438,
	"step": 10600
	},
	{
	"epoch": 2.0567,
	"grad_norm": 4.891661643981934,
	"learning_rate": 4.015714285714286e-05,
	"loss": 0.4374,
	"step": 10650
	},
	{
	"epoch": 2.0577,
	"grad_norm": 4.732306003570557,
	"learning_rate": 4.010612244897959e-05,
	"loss": 0.4005,
	"step": 10700
	},
	{
	"epoch": 2.0587,
	"grad_norm": 4.265634536743164,
	"learning_rate": 4.005510204081633e-05,
	"loss": 0.3726,
	"step": 10750
	},
	{
	"epoch": 2.0597,
	"grad_norm": 4.142653942108154,
	"learning_rate": 4.000408163265306e-05,
	"loss": 0.3763,
	"step": 10800
	},
	{
	"epoch": 2.0607,
	"grad_norm": 3.3085813522338867,
	"learning_rate": 3.9953061224489795e-05,
	"loss": 0.3716,
	"step": 10850
	},
	{
	"epoch": 2.0617,
	"grad_norm": 4.671994686126709,
	"learning_rate": 3.990204081632653e-05,
	"loss": 0.3767,
	"step": 10900
	},
	{
	"epoch": 2.0627,
	"grad_norm": 3.506270408630371,
	"learning_rate": 3.985102040816327e-05,
	"loss": 0.3868,
	"step": 10950
	},
	{
	"epoch": 2.0637,
	"grad_norm": 3.7705044746398926,
	"learning_rate": 3.9800000000000005e-05,
	"loss": 0.4116,
	"step": 11000
	},
	{
	"epoch": 2.0637,
	"eval_loss": 0.8389872908592224,
	"eval_runtime": 222.6276,
	"eval_samples_per_second": 4.528,
	"eval_steps_per_second": 0.144,
	"eval_wer": 0.48407859078590787,
	"step": 11000
	},
	{
	"epoch": 2.0647,
	"grad_norm": 3.551223039627075,
	"learning_rate": 3.974897959183674e-05,
	"loss": 0.3901,
	"step": 11050
	},
	{
	"epoch": 2.0657,
	"grad_norm": 4.152121543884277,
	"learning_rate": 3.969795918367347e-05,
	"loss": 0.3837,
	"step": 11100
	},
	{
	"epoch": 2.0667,
	"grad_norm": 3.815230369567871,
	"learning_rate": 3.964693877551021e-05,
	"loss": 0.4107,
	"step": 11150
	},
	{
	"epoch": 2.0677,
	"grad_norm": 3.5564286708831787,
	"learning_rate": 3.959693877551021e-05,
	"loss": 0.3975,
	"step": 11200
	},
	{
	"epoch": 2.0687,
	"grad_norm": 3.2500646114349365,
	"learning_rate": 3.954591836734694e-05,
	"loss": 0.3993,
	"step": 11250
	},
	{
	"epoch": 2.0697,
	"grad_norm": 3.974126100540161,
	"learning_rate": 3.949489795918367e-05,
	"loss": 0.3784,
	"step": 11300
	},
	{
	"epoch": 2.0707,
	"grad_norm": 4.25160026550293,
	"learning_rate": 3.944387755102041e-05,
	"loss": 0.4069,
	"step": 11350
	},
	{
	"epoch": 2.0717,
	"grad_norm": 3.363373279571533,
	"learning_rate": 3.9392857142857144e-05,
	"loss": 0.4105,
	"step": 11400
	},
	{
	"epoch": 2.0727,
	"grad_norm": 3.961094379425049,
	"learning_rate": 3.934183673469388e-05,
	"loss": 0.3961,
	"step": 11450
	},
	{
	"epoch": 2.0737,
	"grad_norm": 3.97780704498291,
	"learning_rate": 3.9290816326530615e-05,
	"loss": 0.4065,
	"step": 11500
	},
	{
	"epoch": 2.0747,
	"grad_norm": 4.831082344055176,
	"learning_rate": 3.923979591836735e-05,
	"loss": 0.4255,
	"step": 11550
	},
	{
	"epoch": 2.0757,
	"grad_norm": 3.660353183746338,
	"learning_rate": 3.918877551020409e-05,
	"loss": 0.4315,
	"step": 11600
	},
	{
	"epoch": 2.0767,
	"grad_norm": 3.697075843811035,
	"learning_rate": 3.913775510204082e-05,
	"loss": 0.3948,
	"step": 11650
	},
	{
	"epoch": 2.0777,
	"grad_norm": 5.073598384857178,
	"learning_rate": 3.908673469387755e-05,
	"loss": 0.4224,
	"step": 11700
	},
	{
	"epoch": 3.00055,
	"grad_norm": 4.665965557098389,
	"learning_rate": 3.9035714285714284e-05,
	"loss": 0.4212,
	"step": 11750
	},
	{
	"epoch": 3.00155,
	"grad_norm": 5.204474925994873,
	"learning_rate": 3.898469387755102e-05,
	"loss": 0.4048,
	"step": 11800
	},
	{
	"epoch": 3.00255,
	"grad_norm": 3.746649742126465,
	"learning_rate": 3.8933673469387755e-05,
	"loss": 0.4175,
	"step": 11850
	},
	{
	"epoch": 3.00355,
	"grad_norm": 3.8436436653137207,
	"learning_rate": 3.8882653061224495e-05,
	"loss": 0.4425,
	"step": 11900
	},
	{
	"epoch": 3.00455,
	"grad_norm": 3.9119129180908203,
	"learning_rate": 3.883163265306123e-05,
	"loss": 0.4227,
	"step": 11950
	},
	{
	"epoch": 3.00555,
	"grad_norm": 4.373188018798828,
	"learning_rate": 3.878061224489796e-05,
	"loss": 0.4312,
	"step": 12000
	},
	{
	"epoch": 3.00555,
	"eval_loss": 0.8273130655288696,
	"eval_runtime": 214.8756,
	"eval_samples_per_second": 4.691,
	"eval_steps_per_second": 0.149,
	"eval_wer": 0.4557079945799458,
	"step": 12000
	}
	],
	"logging_steps": 50,
	"max_steps": 50000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"total_flos": 1.8907302968866898e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}