whisper-small / trainer_state.json

Upload folder using huggingface_hub

a4158da verified 13 days ago

34 kB

	{
	"best_metric": 0.2697894275188446,
	"best_model_checkpoint": "/mlspeech/data/yoadsnapir/models/heb_small_exp_1/checkpoint-3300",
	"epoch": 1.966626936829559,
	"eval_steps": 150,
	"global_step": 3300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011918951132300357,
	"grad_norm": 0.46440812945365906,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.0799,
	"step": 20
	},
	{
	"epoch": 0.023837902264600714,
	"grad_norm": 0.3614272475242615,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.0757,
	"step": 40
	},
	{
	"epoch": 0.03575685339690107,
	"grad_norm": 0.3306252658367157,
	"learning_rate": 3e-06,
	"loss": 0.0707,
	"step": 60
	},
	{
	"epoch": 0.04767580452920143,
	"grad_norm": 0.3750213384628296,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.0707,
	"step": 80
	},
	{
	"epoch": 0.05959475566150179,
	"grad_norm": 0.3395947515964508,
	"learning_rate": 5e-06,
	"loss": 0.0677,
	"step": 100
	},
	{
	"epoch": 0.07151370679380215,
	"grad_norm": 0.3402997553348541,
	"learning_rate": 6e-06,
	"loss": 0.0651,
	"step": 120
	},
	{
	"epoch": 0.08343265792610251,
	"grad_norm": 0.36161497235298157,
	"learning_rate": 7e-06,
	"loss": 0.0662,
	"step": 140
	},
	{
	"epoch": 0.08939213349225268,
	"eval_loss": 0.4555220901966095,
	"eval_runtime": 32.3927,
	"eval_samples_per_second": 86.439,
	"eval_steps_per_second": 1.358,
	"step": 150
	},
	{
	"epoch": 0.09535160905840286,
	"grad_norm": 0.35821646451950073,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.0659,
	"step": 160
	},
	{
	"epoch": 0.10727056019070322,
	"grad_norm": 0.3810754716396332,
	"learning_rate": 9e-06,
	"loss": 0.0632,
	"step": 180
	},
	{
	"epoch": 0.11918951132300358,
	"grad_norm": 0.35852399468421936,
	"learning_rate": 1e-05,
	"loss": 0.0636,
	"step": 200
	},
	{
	"epoch": 0.13110846245530394,
	"grad_norm": 0.33330053091049194,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.0632,
	"step": 220
	},
	{
	"epoch": 0.1430274135876043,
	"grad_norm": 0.3282977044582367,
	"learning_rate": 1.2e-05,
	"loss": 0.0617,
	"step": 240
	},
	{
	"epoch": 0.15494636471990464,
	"grad_norm": 0.32969963550567627,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.0609,
	"step": 260
	},
	{
	"epoch": 0.16686531585220502,
	"grad_norm": 0.33057352900505066,
	"learning_rate": 1.4e-05,
	"loss": 0.0606,
	"step": 280
	},
	{
	"epoch": 0.17878426698450536,
	"grad_norm": 0.3497098982334137,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.0598,
	"step": 300
	},
	{
	"epoch": 0.17878426698450536,
	"eval_loss": 0.4085025489330292,
	"eval_runtime": 24.3982,
	"eval_samples_per_second": 114.763,
	"eval_steps_per_second": 1.803,
	"step": 300
	},
	{
	"epoch": 0.1907032181168057,
	"grad_norm": 0.34013646841049194,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.0586,
	"step": 320
	},
	{
	"epoch": 0.2026221692491061,
	"grad_norm": 0.3030904233455658,
	"learning_rate": 1.7e-05,
	"loss": 0.0588,
	"step": 340
	},
	{
	"epoch": 0.21454112038140644,
	"grad_norm": 0.3328603208065033,
	"learning_rate": 1.8e-05,
	"loss": 0.0562,
	"step": 360
	},
	{
	"epoch": 0.22646007151370678,
	"grad_norm": 0.32149162888526917,
	"learning_rate": 1.9e-05,
	"loss": 0.0559,
	"step": 380
	},
	{
	"epoch": 0.23837902264600716,
	"grad_norm": 0.2991398572921753,
	"learning_rate": 2e-05,
	"loss": 0.0553,
	"step": 400
	},
	{
	"epoch": 0.25029797377830754,
	"grad_norm": 0.30644193291664124,
	"learning_rate": 2.1000000000000002e-05,
	"loss": 0.0556,
	"step": 420
	},
	{
	"epoch": 0.2622169249106079,
	"grad_norm": 0.357546329498291,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.0546,
	"step": 440
	},
	{
	"epoch": 0.26817640047675806,
	"eval_loss": 0.38544225692749023,
	"eval_runtime": 24.3319,
	"eval_samples_per_second": 115.075,
	"eval_steps_per_second": 1.808,
	"step": 450
	},
	{
	"epoch": 0.27413587604290823,
	"grad_norm": 0.3578217923641205,
	"learning_rate": 2.3e-05,
	"loss": 0.054,
	"step": 460
	},
	{
	"epoch": 0.2860548271752086,
	"grad_norm": 0.34381797909736633,
	"learning_rate": 2.4e-05,
	"loss": 0.0553,
	"step": 480
	},
	{
	"epoch": 0.29797377830750893,
	"grad_norm": 0.30176016688346863,
	"learning_rate": 2.5e-05,
	"loss": 0.0543,
	"step": 500
	},
	{
	"epoch": 0.3098927294398093,
	"grad_norm": 0.33324921131134033,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.0544,
	"step": 520
	},
	{
	"epoch": 0.3218116805721097,
	"grad_norm": 0.3484705090522766,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 0.0531,
	"step": 540
	},
	{
	"epoch": 0.33373063170441003,
	"grad_norm": 0.3282860219478607,
	"learning_rate": 2.8e-05,
	"loss": 0.0518,
	"step": 560
	},
	{
	"epoch": 0.3456495828367104,
	"grad_norm": 0.3473268449306488,
	"learning_rate": 2.9e-05,
	"loss": 0.0515,
	"step": 580
	},
	{
	"epoch": 0.3575685339690107,
	"grad_norm": 0.3255419433116913,
	"learning_rate": 3.0000000000000004e-05,
	"loss": 0.0526,
	"step": 600
	},
	{
	"epoch": 0.3575685339690107,
	"eval_loss": 0.36782801151275635,
	"eval_runtime": 24.3536,
	"eval_samples_per_second": 114.973,
	"eval_steps_per_second": 1.807,
	"step": 600
	},
	{
	"epoch": 0.3694874851013111,
	"grad_norm": 0.3105810880661011,
	"learning_rate": 3.1e-05,
	"loss": 0.0505,
	"step": 620
	},
	{
	"epoch": 0.3814064362336114,
	"grad_norm": 0.3272826373577118,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.0514,
	"step": 640
	},
	{
	"epoch": 0.3933253873659118,
	"grad_norm": 0.2896602749824524,
	"learning_rate": 3.3e-05,
	"loss": 0.0509,
	"step": 660
	},
	{
	"epoch": 0.4052443384982122,
	"grad_norm": 0.2664831876754761,
	"learning_rate": 3.4e-05,
	"loss": 0.0508,
	"step": 680
	},
	{
	"epoch": 0.4171632896305125,
	"grad_norm": 0.29491451382637024,
	"learning_rate": 3.5000000000000004e-05,
	"loss": 0.0503,
	"step": 700
	},
	{
	"epoch": 0.42908224076281287,
	"grad_norm": 0.3337947726249695,
	"learning_rate": 3.6e-05,
	"loss": 0.0508,
	"step": 720
	},
	{
	"epoch": 0.4410011918951132,
	"grad_norm": 0.274883508682251,
	"learning_rate": 3.7000000000000005e-05,
	"loss": 0.0491,
	"step": 740
	},
	{
	"epoch": 0.4469606674612634,
	"eval_loss": 0.3556332290172577,
	"eval_runtime": 24.3629,
	"eval_samples_per_second": 114.929,
	"eval_steps_per_second": 1.806,
	"step": 750
	},
	{
	"epoch": 0.45292014302741357,
	"grad_norm": 0.3304573595523834,
	"learning_rate": 3.8e-05,
	"loss": 0.0496,
	"step": 760
	},
	{
	"epoch": 0.464839094159714,
	"grad_norm": 0.43425601720809937,
	"learning_rate": 3.9e-05,
	"loss": 0.0514,
	"step": 780
	},
	{
	"epoch": 0.4767580452920143,
	"grad_norm": 0.27023833990097046,
	"learning_rate": 4e-05,
	"loss": 0.0493,
	"step": 800
	},
	{
	"epoch": 0.48867699642431467,
	"grad_norm": 0.30646392703056335,
	"learning_rate": 3.981105337742088e-05,
	"loss": 0.0479,
	"step": 820
	},
	{
	"epoch": 0.5005959475566151,
	"grad_norm": 0.2886641025543213,
	"learning_rate": 3.9622106754841764e-05,
	"loss": 0.0477,
	"step": 840
	},
	{
	"epoch": 0.5125148986889154,
	"grad_norm": 0.2744874358177185,
	"learning_rate": 3.943316013226264e-05,
	"loss": 0.0475,
	"step": 860
	},
	{
	"epoch": 0.5244338498212158,
	"grad_norm": 0.3189797103404999,
	"learning_rate": 3.924421350968352e-05,
	"loss": 0.0487,
	"step": 880
	},
	{
	"epoch": 0.5363528009535161,
	"grad_norm": 0.2827907204627991,
	"learning_rate": 3.9055266887104394e-05,
	"loss": 0.047,
	"step": 900
	},
	{
	"epoch": 0.5363528009535161,
	"eval_loss": 0.3409503102302551,
	"eval_runtime": 24.4692,
	"eval_samples_per_second": 114.43,
	"eval_steps_per_second": 1.798,
	"step": 900
	},
	{
	"epoch": 0.5482717520858165,
	"grad_norm": 0.29098019003868103,
	"learning_rate": 3.886632026452528e-05,
	"loss": 0.0477,
	"step": 920
	},
	{
	"epoch": 0.5601907032181168,
	"grad_norm": 0.34882616996765137,
	"learning_rate": 3.8677373641946155e-05,
	"loss": 0.0469,
	"step": 940
	},
	{
	"epoch": 0.5721096543504172,
	"grad_norm": 0.27143335342407227,
	"learning_rate": 3.848842701936703e-05,
	"loss": 0.0463,
	"step": 960
	},
	{
	"epoch": 0.5840286054827175,
	"grad_norm": 0.3700932562351227,
	"learning_rate": 3.829948039678791e-05,
	"loss": 0.0471,
	"step": 980
	},
	{
	"epoch": 0.5959475566150179,
	"grad_norm": 0.2656194567680359,
	"learning_rate": 3.811053377420879e-05,
	"loss": 0.0435,
	"step": 1000
	},
	{
	"epoch": 0.6078665077473182,
	"grad_norm": 0.3158736526966095,
	"learning_rate": 3.792158715162967e-05,
	"loss": 0.0456,
	"step": 1020
	},
	{
	"epoch": 0.6197854588796186,
	"grad_norm": 0.3060922920703888,
	"learning_rate": 3.7732640529050546e-05,
	"loss": 0.0464,
	"step": 1040
	},
	{
	"epoch": 0.6257449344457687,
	"eval_loss": 0.32704514265060425,
	"eval_runtime": 24.2942,
	"eval_samples_per_second": 115.254,
	"eval_steps_per_second": 1.811,
	"step": 1050
	},
	{
	"epoch": 0.6317044100119189,
	"grad_norm": 0.284631609916687,
	"learning_rate": 3.754369390647142e-05,
	"loss": 0.0436,
	"step": 1060
	},
	{
	"epoch": 0.6436233611442194,
	"grad_norm": 0.2965853810310364,
	"learning_rate": 3.7354747283892307e-05,
	"loss": 0.0451,
	"step": 1080
	},
	{
	"epoch": 0.6555423122765197,
	"grad_norm": 0.2642371952533722,
	"learning_rate": 3.7165800661313183e-05,
	"loss": 0.0447,
	"step": 1100
	},
	{
	"epoch": 0.6674612634088201,
	"grad_norm": 0.2913525402545929,
	"learning_rate": 3.697685403873406e-05,
	"loss": 0.0438,
	"step": 1120
	},
	{
	"epoch": 0.6793802145411204,
	"grad_norm": 0.9295551776885986,
	"learning_rate": 3.678790741615494e-05,
	"loss": 0.0454,
	"step": 1140
	},
	{
	"epoch": 0.6912991656734208,
	"grad_norm": 0.2802795469760895,
	"learning_rate": 3.659896079357582e-05,
	"loss": 0.0437,
	"step": 1160
	},
	{
	"epoch": 0.7032181168057211,
	"grad_norm": 0.2768346965312958,
	"learning_rate": 3.64100141709967e-05,
	"loss": 0.0436,
	"step": 1180
	},
	{
	"epoch": 0.7151370679380215,
	"grad_norm": 0.32342103123664856,
	"learning_rate": 3.6221067548417575e-05,
	"loss": 0.0434,
	"step": 1200
	},
	{
	"epoch": 0.7151370679380215,
	"eval_loss": 0.3151066303253174,
	"eval_runtime": 24.3395,
	"eval_samples_per_second": 115.039,
	"eval_steps_per_second": 1.808,
	"step": 1200
	},
	{
	"epoch": 0.7270560190703218,
	"grad_norm": 0.28825289011001587,
	"learning_rate": 3.603212092583845e-05,
	"loss": 0.0444,
	"step": 1220
	},
	{
	"epoch": 0.7389749702026222,
	"grad_norm": 0.2973019778728485,
	"learning_rate": 3.5843174303259335e-05,
	"loss": 0.0432,
	"step": 1240
	},
	{
	"epoch": 0.7508939213349225,
	"grad_norm": 0.28604206442832947,
	"learning_rate": 3.565422768068021e-05,
	"loss": 0.0427,
	"step": 1260
	},
	{
	"epoch": 0.7628128724672228,
	"grad_norm": 0.3076627552509308,
	"learning_rate": 3.546528105810109e-05,
	"loss": 0.0437,
	"step": 1280
	},
	{
	"epoch": 0.7747318235995232,
	"grad_norm": 0.24243097007274628,
	"learning_rate": 3.5276334435521966e-05,
	"loss": 0.0419,
	"step": 1300
	},
	{
	"epoch": 0.7866507747318237,
	"grad_norm": 0.2624588906764984,
	"learning_rate": 3.508738781294285e-05,
	"loss": 0.041,
	"step": 1320
	},
	{
	"epoch": 0.798569725864124,
	"grad_norm": 0.2966582477092743,
	"learning_rate": 3.4898441190363726e-05,
	"loss": 0.0419,
	"step": 1340
	},
	{
	"epoch": 0.8045292014302742,
	"eval_loss": 0.30741235613822937,
	"eval_runtime": 24.3327,
	"eval_samples_per_second": 115.071,
	"eval_steps_per_second": 1.808,
	"step": 1350
	},
	{
	"epoch": 0.8104886769964244,
	"grad_norm": 0.2586236894130707,
	"learning_rate": 3.47094945677846e-05,
	"loss": 0.0417,
	"step": 1360
	},
	{
	"epoch": 0.8224076281287247,
	"grad_norm": 0.26168954372406006,
	"learning_rate": 3.452054794520548e-05,
	"loss": 0.0416,
	"step": 1380
	},
	{
	"epoch": 0.834326579261025,
	"grad_norm": 0.2288641631603241,
	"learning_rate": 3.4331601322626364e-05,
	"loss": 0.0407,
	"step": 1400
	},
	{
	"epoch": 0.8462455303933254,
	"grad_norm": 0.239312082529068,
	"learning_rate": 3.414265470004724e-05,
	"loss": 0.0424,
	"step": 1420
	},
	{
	"epoch": 0.8581644815256257,
	"grad_norm": 0.2796385884284973,
	"learning_rate": 3.395370807746812e-05,
	"loss": 0.0423,
	"step": 1440
	},
	{
	"epoch": 0.8700834326579261,
	"grad_norm": 0.26898354291915894,
	"learning_rate": 3.3764761454888994e-05,
	"loss": 0.0404,
	"step": 1460
	},
	{
	"epoch": 0.8820023837902264,
	"grad_norm": 0.2980300188064575,
	"learning_rate": 3.357581483230988e-05,
	"loss": 0.0413,
	"step": 1480
	},
	{
	"epoch": 0.8939213349225268,
	"grad_norm": 0.2609230577945709,
	"learning_rate": 3.3386868209730755e-05,
	"loss": 0.0417,
	"step": 1500
	},
	{
	"epoch": 0.8939213349225268,
	"eval_loss": 0.3016362488269806,
	"eval_runtime": 24.39,
	"eval_samples_per_second": 114.801,
	"eval_steps_per_second": 1.804,
	"step": 1500
	},
	{
	"epoch": 0.9058402860548271,
	"grad_norm": 0.22545361518859863,
	"learning_rate": 3.319792158715163e-05,
	"loss": 0.0402,
	"step": 1520
	},
	{
	"epoch": 0.9177592371871275,
	"grad_norm": 0.23952241241931915,
	"learning_rate": 3.300897496457251e-05,
	"loss": 0.0404,
	"step": 1540
	},
	{
	"epoch": 0.929678188319428,
	"grad_norm": 0.211136594414711,
	"learning_rate": 3.282002834199339e-05,
	"loss": 0.0394,
	"step": 1560
	},
	{
	"epoch": 0.9415971394517283,
	"grad_norm": 0.2786746323108673,
	"learning_rate": 3.263108171941427e-05,
	"loss": 0.0405,
	"step": 1580
	},
	{
	"epoch": 0.9535160905840286,
	"grad_norm": 0.27551010251045227,
	"learning_rate": 3.2442135096835146e-05,
	"loss": 0.0393,
	"step": 1600
	},
	{
	"epoch": 0.965435041716329,
	"grad_norm": 0.23502199351787567,
	"learning_rate": 3.225318847425602e-05,
	"loss": 0.0397,
	"step": 1620
	},
	{
	"epoch": 0.9773539928486293,
	"grad_norm": 0.22266072034835815,
	"learning_rate": 3.2064241851676906e-05,
	"loss": 0.0382,
	"step": 1640
	},
	{
	"epoch": 0.9833134684147795,
	"eval_loss": 0.2927956283092499,
	"eval_runtime": 24.5022,
	"eval_samples_per_second": 114.276,
	"eval_steps_per_second": 1.796,
	"step": 1650
	},
	{
	"epoch": 0.9892729439809297,
	"grad_norm": 0.2455359548330307,
	"learning_rate": 3.187529522909778e-05,
	"loss": 0.0377,
	"step": 1660
	},
	{
	"epoch": 1.0011918951132301,
	"grad_norm": 0.19770461320877075,
	"learning_rate": 3.168634860651866e-05,
	"loss": 0.0394,
	"step": 1680
	},
	{
	"epoch": 1.0131108462455305,
	"grad_norm": 0.23039540648460388,
	"learning_rate": 3.149740198393954e-05,
	"loss": 0.0306,
	"step": 1700
	},
	{
	"epoch": 1.0250297973778308,
	"grad_norm": 0.22617976367473602,
	"learning_rate": 3.130845536136042e-05,
	"loss": 0.0302,
	"step": 1720
	},
	{
	"epoch": 1.0369487485101312,
	"grad_norm": 0.2306171953678131,
	"learning_rate": 3.11195087387813e-05,
	"loss": 0.0297,
	"step": 1740
	},
	{
	"epoch": 1.0488676996424315,
	"grad_norm": 0.2231408953666687,
	"learning_rate": 3.0930562116202174e-05,
	"loss": 0.0291,
	"step": 1760
	},
	{
	"epoch": 1.0607866507747319,
	"grad_norm": 0.2368210107088089,
	"learning_rate": 3.074161549362305e-05,
	"loss": 0.0296,
	"step": 1780
	},
	{
	"epoch": 1.0727056019070322,
	"grad_norm": 0.2105601727962494,
	"learning_rate": 3.0552668871043935e-05,
	"loss": 0.0302,
	"step": 1800
	},
	{
	"epoch": 1.0727056019070322,
	"eval_loss": 0.2897118330001831,
	"eval_runtime": 24.5143,
	"eval_samples_per_second": 114.219,
	"eval_steps_per_second": 1.795,
	"step": 1800
	},
	{
	"epoch": 1.0846245530393326,
	"grad_norm": 0.21115803718566895,
	"learning_rate": 3.036372224846481e-05,
	"loss": 0.03,
	"step": 1820
	},
	{
	"epoch": 1.096543504171633,
	"grad_norm": 0.21346606314182281,
	"learning_rate": 3.017477562588569e-05,
	"loss": 0.0303,
	"step": 1840
	},
	{
	"epoch": 1.1084624553039333,
	"grad_norm": 0.2169450968503952,
	"learning_rate": 2.998582900330657e-05,
	"loss": 0.0301,
	"step": 1860
	},
	{
	"epoch": 1.1203814064362336,
	"grad_norm": 0.22653773427009583,
	"learning_rate": 2.979688238072745e-05,
	"loss": 0.03,
	"step": 1880
	},
	{
	"epoch": 1.132300357568534,
	"grad_norm": 0.23219868540763855,
	"learning_rate": 2.9607935758148326e-05,
	"loss": 0.0299,
	"step": 1900
	},
	{
	"epoch": 1.1442193087008343,
	"grad_norm": 0.19858673214912415,
	"learning_rate": 2.9418989135569203e-05,
	"loss": 0.0304,
	"step": 1920
	},
	{
	"epoch": 1.1561382598331347,
	"grad_norm": 0.20563630759716034,
	"learning_rate": 2.9230042512990083e-05,
	"loss": 0.0298,
	"step": 1940
	},
	{
	"epoch": 1.162097735399285,
	"eval_loss": 0.2881970703601837,
	"eval_runtime": 24.482,
	"eval_samples_per_second": 114.37,
	"eval_steps_per_second": 1.797,
	"step": 1950
	},
	{
	"epoch": 1.168057210965435,
	"grad_norm": 0.23171384632587433,
	"learning_rate": 2.9041095890410963e-05,
	"loss": 0.0305,
	"step": 1960
	},
	{
	"epoch": 1.1799761620977354,
	"grad_norm": 0.22927935421466827,
	"learning_rate": 2.885214926783184e-05,
	"loss": 0.0293,
	"step": 1980
	},
	{
	"epoch": 1.1918951132300357,
	"grad_norm": 0.22874480485916138,
	"learning_rate": 2.8663202645252717e-05,
	"loss": 0.0306,
	"step": 2000
	},
	{
	"epoch": 1.203814064362336,
	"grad_norm": 0.2067805975675583,
	"learning_rate": 2.8474256022673597e-05,
	"loss": 0.0301,
	"step": 2020
	},
	{
	"epoch": 1.2157330154946364,
	"grad_norm": 0.2245558649301529,
	"learning_rate": 2.8285309400094477e-05,
	"loss": 0.032,
	"step": 2040
	},
	{
	"epoch": 1.2276519666269368,
	"grad_norm": 0.2403639554977417,
	"learning_rate": 2.8096362777515354e-05,
	"loss": 0.0296,
	"step": 2060
	},
	{
	"epoch": 1.2395709177592371,
	"grad_norm": 0.2070910781621933,
	"learning_rate": 2.790741615493623e-05,
	"loss": 0.03,
	"step": 2080
	},
	{
	"epoch": 1.2514898688915377,
	"grad_norm": 0.23112566769123077,
	"learning_rate": 2.771846953235711e-05,
	"loss": 0.0295,
	"step": 2100
	},
	{
	"epoch": 1.2514898688915377,
	"eval_loss": 0.2860635817050934,
	"eval_runtime": 24.4598,
	"eval_samples_per_second": 114.473,
	"eval_steps_per_second": 1.799,
	"step": 2100
	},
	{
	"epoch": 1.2634088200238378,
	"grad_norm": 0.2321086972951889,
	"learning_rate": 2.7529522909777992e-05,
	"loss": 0.0307,
	"step": 2120
	},
	{
	"epoch": 1.2753277711561384,
	"grad_norm": 0.23003174364566803,
	"learning_rate": 2.734057628719887e-05,
	"loss": 0.0306,
	"step": 2140
	},
	{
	"epoch": 1.2872467222884385,
	"grad_norm": 0.2210853099822998,
	"learning_rate": 2.7151629664619745e-05,
	"loss": 0.0289,
	"step": 2160
	},
	{
	"epoch": 1.299165673420739,
	"grad_norm": 0.2513985335826874,
	"learning_rate": 2.6962683042040626e-05,
	"loss": 0.0298,
	"step": 2180
	},
	{
	"epoch": 1.3110846245530392,
	"grad_norm": 0.2379380464553833,
	"learning_rate": 2.6773736419461506e-05,
	"loss": 0.0301,
	"step": 2200
	},
	{
	"epoch": 1.3230035756853398,
	"grad_norm": 0.21417196094989777,
	"learning_rate": 2.6584789796882383e-05,
	"loss": 0.0301,
	"step": 2220
	},
	{
	"epoch": 1.3349225268176401,
	"grad_norm": 0.22283975780010223,
	"learning_rate": 2.639584317430326e-05,
	"loss": 0.0309,
	"step": 2240
	},
	{
	"epoch": 1.3408820023837902,
	"eval_loss": 0.2835468649864197,
	"eval_runtime": 24.4862,
	"eval_samples_per_second": 114.35,
	"eval_steps_per_second": 1.797,
	"step": 2250
	},
	{
	"epoch": 1.3468414779499405,
	"grad_norm": 0.21475766599178314,
	"learning_rate": 2.620689655172414e-05,
	"loss": 0.0296,
	"step": 2260
	},
	{
	"epoch": 1.3587604290822408,
	"grad_norm": 0.2578884959220886,
	"learning_rate": 2.601794992914502e-05,
	"loss": 0.0285,
	"step": 2280
	},
	{
	"epoch": 1.3706793802145412,
	"grad_norm": 0.208306223154068,
	"learning_rate": 2.5829003306565897e-05,
	"loss": 0.0296,
	"step": 2300
	},
	{
	"epoch": 1.3825983313468415,
	"grad_norm": 0.20098654925823212,
	"learning_rate": 2.5640056683986774e-05,
	"loss": 0.0299,
	"step": 2320
	},
	{
	"epoch": 1.3945172824791419,
	"grad_norm": 0.19324277341365814,
	"learning_rate": 2.5451110061407654e-05,
	"loss": 0.0299,
	"step": 2340
	},
	{
	"epoch": 1.4064362336114422,
	"grad_norm": 0.22991597652435303,
	"learning_rate": 2.5262163438828534e-05,
	"loss": 0.0283,
	"step": 2360
	},
	{
	"epoch": 1.4183551847437426,
	"grad_norm": 0.20805244147777557,
	"learning_rate": 2.507321681624941e-05,
	"loss": 0.0294,
	"step": 2380
	},
	{
	"epoch": 1.430274135876043,
	"grad_norm": 0.2217872589826584,
	"learning_rate": 2.488427019367029e-05,
	"loss": 0.0298,
	"step": 2400
	},
	{
	"epoch": 1.430274135876043,
	"eval_loss": 0.28145191073417664,
	"eval_runtime": 24.4822,
	"eval_samples_per_second": 114.369,
	"eval_steps_per_second": 1.797,
	"step": 2400
	},
	{
	"epoch": 1.4421930870083433,
	"grad_norm": 0.2886907756328583,
	"learning_rate": 2.469532357109117e-05,
	"loss": 0.0286,
	"step": 2420
	},
	{
	"epoch": 1.4541120381406436,
	"grad_norm": 0.22498397529125214,
	"learning_rate": 2.450637694851205e-05,
	"loss": 0.0303,
	"step": 2440
	},
	{
	"epoch": 1.466030989272944,
	"grad_norm": 0.2244011014699936,
	"learning_rate": 2.4317430325932926e-05,
	"loss": 0.0291,
	"step": 2460
	},
	{
	"epoch": 1.4779499404052443,
	"grad_norm": 0.254245400428772,
	"learning_rate": 2.4128483703353806e-05,
	"loss": 0.0291,
	"step": 2480
	},
	{
	"epoch": 1.4898688915375446,
	"grad_norm": 0.23943567276000977,
	"learning_rate": 2.3939537080774683e-05,
	"loss": 0.0279,
	"step": 2500
	},
	{
	"epoch": 1.5017878426698452,
	"grad_norm": 0.19281241297721863,
	"learning_rate": 2.3750590458195563e-05,
	"loss": 0.0284,
	"step": 2520
	},
	{
	"epoch": 1.5137067938021453,
	"grad_norm": 0.1942477971315384,
	"learning_rate": 2.356164383561644e-05,
	"loss": 0.0286,
	"step": 2540
	},
	{
	"epoch": 1.5196662693682956,
	"eval_loss": 0.2797168493270874,
	"eval_runtime": 24.5526,
	"eval_samples_per_second": 114.041,
	"eval_steps_per_second": 1.792,
	"step": 2550
	},
	{
	"epoch": 1.525625744934446,
	"grad_norm": 0.21547091007232666,
	"learning_rate": 2.337269721303732e-05,
	"loss": 0.0299,
	"step": 2560
	},
	{
	"epoch": 1.537544696066746,
	"grad_norm": 0.2152203619480133,
	"learning_rate": 2.3183750590458197e-05,
	"loss": 0.0285,
	"step": 2580
	},
	{
	"epoch": 1.5494636471990466,
	"grad_norm": 0.19925089180469513,
	"learning_rate": 2.2994803967879077e-05,
	"loss": 0.0282,
	"step": 2600
	},
	{
	"epoch": 1.5613825983313467,
	"grad_norm": 0.21512266993522644,
	"learning_rate": 2.2805857345299954e-05,
	"loss": 0.0291,
	"step": 2620
	},
	{
	"epoch": 1.5733015494636473,
	"grad_norm": 0.2275344282388687,
	"learning_rate": 2.2616910722720834e-05,
	"loss": 0.0288,
	"step": 2640
	},
	{
	"epoch": 1.5852205005959474,
	"grad_norm": 0.22899560630321503,
	"learning_rate": 2.242796410014171e-05,
	"loss": 0.0279,
	"step": 2660
	},
	{
	"epoch": 1.597139451728248,
	"grad_norm": 0.21439722180366516,
	"learning_rate": 2.223901747756259e-05,
	"loss": 0.0273,
	"step": 2680
	},
	{
	"epoch": 1.6090584028605481,
	"grad_norm": 0.21393275260925293,
	"learning_rate": 2.205007085498347e-05,
	"loss": 0.0284,
	"step": 2700
	},
	{
	"epoch": 1.6090584028605481,
	"eval_loss": 0.27715668082237244,
	"eval_runtime": 24.544,
	"eval_samples_per_second": 114.081,
	"eval_steps_per_second": 1.793,
	"step": 2700
	},
	{
	"epoch": 1.6209773539928487,
	"grad_norm": 0.22286593914031982,
	"learning_rate": 2.186112423240435e-05,
	"loss": 0.028,
	"step": 2720
	},
	{
	"epoch": 1.6328963051251488,
	"grad_norm": 0.21552002429962158,
	"learning_rate": 2.1672177609825225e-05,
	"loss": 0.0282,
	"step": 2740
	},
	{
	"epoch": 1.6448152562574494,
	"grad_norm": 0.20231053233146667,
	"learning_rate": 2.1483230987246106e-05,
	"loss": 0.0278,
	"step": 2760
	},
	{
	"epoch": 1.6567342073897497,
	"grad_norm": 0.20446668565273285,
	"learning_rate": 2.1294284364666983e-05,
	"loss": 0.0283,
	"step": 2780
	},
	{
	"epoch": 1.66865315852205,
	"grad_norm": 0.21102942526340485,
	"learning_rate": 2.1105337742087863e-05,
	"loss": 0.029,
	"step": 2800
	},
	{
	"epoch": 1.6805721096543504,
	"grad_norm": 0.190469890832901,
	"learning_rate": 2.091639111950874e-05,
	"loss": 0.0286,
	"step": 2820
	},
	{
	"epoch": 1.6924910607866508,
	"grad_norm": 0.2115412801504135,
	"learning_rate": 2.072744449692962e-05,
	"loss": 0.0278,
	"step": 2840
	},
	{
	"epoch": 1.698450536352801,
	"eval_loss": 0.2754322588443756,
	"eval_runtime": 24.6377,
	"eval_samples_per_second": 113.647,
	"eval_steps_per_second": 1.786,
	"step": 2850
	},
	{
	"epoch": 1.7044100119189511,
	"grad_norm": 0.18578040599822998,
	"learning_rate": 2.0538497874350497e-05,
	"loss": 0.0284,
	"step": 2860
	},
	{
	"epoch": 1.7163289630512515,
	"grad_norm": 0.23163530230522156,
	"learning_rate": 2.0349551251771377e-05,
	"loss": 0.0277,
	"step": 2880
	},
	{
	"epoch": 1.7282479141835518,
	"grad_norm": 0.2035950869321823,
	"learning_rate": 2.0160604629192254e-05,
	"loss": 0.0275,
	"step": 2900
	},
	{
	"epoch": 1.7401668653158522,
	"grad_norm": 0.24992471933364868,
	"learning_rate": 1.9971658006613134e-05,
	"loss": 0.028,
	"step": 2920
	},
	{
	"epoch": 1.7520858164481525,
	"grad_norm": 0.20510628819465637,
	"learning_rate": 1.978271138403401e-05,
	"loss": 0.027,
	"step": 2940
	},
	{
	"epoch": 1.7640047675804529,
	"grad_norm": 0.216608926653862,
	"learning_rate": 1.959376476145489e-05,
	"loss": 0.0283,
	"step": 2960
	},
	{
	"epoch": 1.7759237187127532,
	"grad_norm": 0.20540915429592133,
	"learning_rate": 1.9404818138875768e-05,
	"loss": 0.0274,
	"step": 2980
	},
	{
	"epoch": 1.7878426698450536,
	"grad_norm": 0.20191486179828644,
	"learning_rate": 1.921587151629665e-05,
	"loss": 0.0275,
	"step": 3000
	},
	{
	"epoch": 1.7878426698450536,
	"eval_loss": 0.27235740423202515,
	"eval_runtime": 24.612,
	"eval_samples_per_second": 113.766,
	"eval_steps_per_second": 1.788,
	"step": 3000
	},
	{
	"epoch": 1.7997616209773541,
	"grad_norm": 0.24276046454906464,
	"learning_rate": 1.9026924893717525e-05,
	"loss": 0.028,
	"step": 3020
	},
	{
	"epoch": 1.8116805721096543,
	"grad_norm": 0.21864300966262817,
	"learning_rate": 1.8837978271138406e-05,
	"loss": 0.0279,
	"step": 3040
	},
	{
	"epoch": 1.8235995232419548,
	"grad_norm": 0.2271438091993332,
	"learning_rate": 1.8649031648559282e-05,
	"loss": 0.0276,
	"step": 3060
	},
	{
	"epoch": 1.835518474374255,
	"grad_norm": 0.20855475962162018,
	"learning_rate": 1.8460085025980163e-05,
	"loss": 0.0283,
	"step": 3080
	},
	{
	"epoch": 1.8474374255065555,
	"grad_norm": 0.2064722329378128,
	"learning_rate": 1.827113840340104e-05,
	"loss": 0.0271,
	"step": 3100
	},
	{
	"epoch": 1.8593563766388557,
	"grad_norm": 0.2111743986606598,
	"learning_rate": 1.808219178082192e-05,
	"loss": 0.0273,
	"step": 3120
	},
	{
	"epoch": 1.8712753277711562,
	"grad_norm": 0.18417872488498688,
	"learning_rate": 1.7893245158242797e-05,
	"loss": 0.0275,
	"step": 3140
	},
	{
	"epoch": 1.8772348033373063,
	"eval_loss": 0.2706995904445648,
	"eval_runtime": 24.5215,
	"eval_samples_per_second": 114.186,
	"eval_steps_per_second": 1.794,
	"step": 3150
	},
	{
	"epoch": 1.8831942789034564,
	"grad_norm": 0.19550646841526031,
	"learning_rate": 1.7704298535663677e-05,
	"loss": 0.0275,
	"step": 3160
	},
	{
	"epoch": 1.895113230035757,
	"grad_norm": 0.19912759959697723,
	"learning_rate": 1.7515351913084554e-05,
	"loss": 0.0267,
	"step": 3180
	},
	{
	"epoch": 1.907032181168057,
	"grad_norm": 0.20110997557640076,
	"learning_rate": 1.7326405290505434e-05,
	"loss": 0.0281,
	"step": 3200
	},
	{
	"epoch": 1.9189511323003576,
	"grad_norm": 0.20968247950077057,
	"learning_rate": 1.713745866792631e-05,
	"loss": 0.0271,
	"step": 3220
	},
	{
	"epoch": 1.930870083432658,
	"grad_norm": 0.20576246082782745,
	"learning_rate": 1.694851204534719e-05,
	"loss": 0.0277,
	"step": 3240
	},
	{
	"epoch": 1.9427890345649583,
	"grad_norm": 0.21499717235565186,
	"learning_rate": 1.6759565422768068e-05,
	"loss": 0.0264,
	"step": 3260
	},
	{
	"epoch": 1.9547079856972587,
	"grad_norm": 0.23822776973247528,
	"learning_rate": 1.6570618800188948e-05,
	"loss": 0.027,
	"step": 3280
	},
	{
	"epoch": 1.966626936829559,
	"grad_norm": 0.21049529314041138,
	"learning_rate": 1.6381672177609825e-05,
	"loss": 0.0259,
	"step": 3300
	},
	{
	"epoch": 1.966626936829559,
	"eval_loss": 0.2697894275188446,
	"eval_runtime": 24.6235,
	"eval_samples_per_second": 113.713,
	"eval_steps_per_second": 1.787,
	"step": 3300
	}
	],
	"logging_steps": 20,
	"max_steps": 5034,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2189847399207797e+20,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}