brainlm / vitmae_111M /trainer_state.json

Mihir Tripathy

added vitmae models

990128b almost 2 years ago

41.3 kB

	{
	"best_metric": 0.01686818338930607,
	"best_model_checkpoint": "/gpfs/gibbs/pi/dijk/BrainLM_runs/2023-11-17-17_20_00/checkpoint-3900",
	"epoch": 19.711664482306684,
	"global_step": 4700,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"learning_rate": 2.100840336134454e-05,
	"loss": 0.0209,
	"step": 50
	},
	{
	"epoch": 0,
	"eval_loss": 0.020767875015735626,
	"eval_mae": 0.11019120365381241,
	"eval_mse": 0.020768500864505768,
	"eval_r2": 0.06256083852108052,
	"eval_runtime": 126.6828,
	"eval_samples_per_second": 3.157,
	"eval_steps_per_second": 0.197,
	"step": 50
	},
	{
	"epoch": 0,
	"learning_rate": 4.201680672268908e-05,
	"loss": 0.02,
	"step": 100
	},
	{
	"epoch": 0,
	"eval_loss": 0.020464899018406868,
	"eval_mae": 0.10934258252382278,
	"eval_mse": 0.02046414092183113,
	"eval_r2": 0.0822418520285656,
	"eval_runtime": 190.4097,
	"eval_samples_per_second": 2.101,
	"eval_steps_per_second": 0.131,
	"step": 100
	},
	{
	"epoch": 0,
	"learning_rate": 6.302521008403361e-05,
	"loss": 0.0196,
	"step": 150
	},
	{
	"epoch": 0,
	"eval_loss": 0.02013571746647358,
	"eval_mae": 0.10845349729061127,
	"eval_mse": 0.020132917910814285,
	"eval_r2": 0.09748306648229965,
	"eval_runtime": 60.1594,
	"eval_samples_per_second": 6.649,
	"eval_steps_per_second": 0.416,
	"step": 150
	},
	{
	"epoch": 0,
	"learning_rate": 8.403361344537815e-05,
	"loss": 0.0193,
	"step": 200
	},
	{
	"epoch": 0,
	"eval_loss": 0.019823560491204262,
	"eval_mae": 0.10756562650203705,
	"eval_mse": 0.019823383539915085,
	"eval_r2": 0.11099549304277823,
	"eval_runtime": 162.8488,
	"eval_samples_per_second": 2.456,
	"eval_steps_per_second": 0.154,
	"step": 200
	},
	{
	"epoch": 1,
	"learning_rate": 9.999826244478293e-05,
	"loss": 0.0191,
	"step": 250
	},
	{
	"epoch": 1,
	"eval_loss": 0.019535023719072342,
	"eval_mae": 0.10683062672615051,
	"eval_mse": 0.01953577809035778,
	"eval_r2": 0.12390402334988537,
	"eval_runtime": 61.7292,
	"eval_samples_per_second": 6.48,
	"eval_steps_per_second": 0.405,
	"step": 250
	},
	{
	"epoch": 1,
	"learning_rate": 9.995362383107962e-05,
	"loss": 0.0188,
	"step": 300
	},
	{
	"epoch": 1,
	"eval_loss": 0.019223904237151146,
	"eval_mae": 0.10594414174556732,
	"eval_mse": 0.019219543784856796,
	"eval_r2": 0.1355137630125941,
	"eval_runtime": 62.8456,
	"eval_samples_per_second": 6.365,
	"eval_steps_per_second": 0.398,
	"step": 300
	},
	{
	"epoch": 1,
	"learning_rate": 9.98487151097676e-05,
	"loss": 0.0185,
	"step": 350
	},
	{
	"epoch": 1,
	"eval_loss": 0.018948782235383987,
	"eval_mae": 0.10521063953638077,
	"eval_mse": 0.018949836492538452,
	"eval_r2": 0.1472992781550666,
	"eval_runtime": 62.8686,
	"eval_samples_per_second": 6.362,
	"eval_steps_per_second": 0.398,
	"step": 350
	},
	{
	"epoch": 1,
	"learning_rate": 9.968366285544619e-05,
	"loss": 0.0182,
	"step": 400
	},
	{
	"epoch": 1,
	"eval_loss": 0.01880819909274578,
	"eval_mae": 0.10481799393892288,
	"eval_mse": 0.01880812644958496,
	"eval_r2": 0.15779620957023455,
	"eval_runtime": 57.2628,
	"eval_samples_per_second": 6.985,
	"eval_steps_per_second": 0.437,
	"step": 400
	},
	{
	"epoch": 1,
	"learning_rate": 9.945866620716411e-05,
	"loss": 0.0181,
	"step": 450
	},
	{
	"epoch": 1,
	"eval_loss": 0.018690017983317375,
	"eval_mae": 0.10444584488868713,
	"eval_mse": 0.01869109459221363,
	"eval_r2": 0.16425393659247034,
	"eval_runtime": 58.6008,
	"eval_samples_per_second": 6.826,
	"eval_steps_per_second": 0.427,
	"step": 450
	},
	{
	"epoch": 2,
	"learning_rate": 9.917399662815391e-05,
	"loss": 0.0179,
	"step": 500
	},
	{
	"epoch": 2,
	"eval_loss": 0.018527410924434662,
	"eval_mae": 0.10401275008916855,
	"eval_mse": 0.018530065193772316,
	"eval_r2": 0.16775397819003413,
	"eval_runtime": 56.6595,
	"eval_samples_per_second": 7.06,
	"eval_steps_per_second": 0.441,
	"step": 500
	},
	{
	"epoch": 2,
	"learning_rate": 9.882999757830588e-05,
	"loss": 0.0179,
	"step": 550
	},
	{
	"epoch": 2,
	"eval_loss": 0.018433190882205963,
	"eval_mae": 0.10371904820203781,
	"eval_mse": 0.018430989235639572,
	"eval_r2": 0.17258796261060627,
	"eval_runtime": 61.318,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 0.408,
	"step": 550
	},
	{
	"epoch": 2,
	"learning_rate": 9.842708409977635e-05,
	"loss": 0.0178,
	"step": 600
	},
	{
	"epoch": 2,
	"eval_loss": 0.018353702500462532,
	"eval_mae": 0.1034744456410408,
	"eval_mse": 0.018353240564465523,
	"eval_r2": 0.17714196201923582,
	"eval_runtime": 64.7666,
	"eval_samples_per_second": 6.176,
	"eval_steps_per_second": 0.386,
	"step": 600
	},
	{
	"epoch": 2,
	"learning_rate": 9.796574231623055e-05,
	"loss": 0.0177,
	"step": 650
	},
	{
	"epoch": 2,
	"eval_loss": 0.018298938870429993,
	"eval_mae": 0.10329218953847885,
	"eval_mse": 0.01829737052321434,
	"eval_r2": 0.18098740062966168,
	"eval_runtime": 58.7251,
	"eval_samples_per_second": 6.811,
	"eval_steps_per_second": 0.426,
	"step": 650
	},
	{
	"epoch": 2,
	"learning_rate": 9.744652884632406e-05,
	"loss": 0.0176,
	"step": 700
	},
	{
	"epoch": 2,
	"eval_loss": 0.01817883551120758,
	"eval_mae": 0.10299910604953766,
	"eval_mse": 0.018180398270487785,
	"eval_r2": 0.1854382026037652,
	"eval_runtime": 64.0748,
	"eval_samples_per_second": 6.243,
	"eval_steps_per_second": 0.39,
	"step": 700
	},
	{
	"epoch": 3,
	"learning_rate": 9.687007013213063e-05,
	"loss": 0.0175,
	"step": 750
	},
	{
	"epoch": 3,
	"eval_loss": 0.018099399283528328,
	"eval_mae": 0.10274745523929596,
	"eval_mse": 0.018099674955010414,
	"eval_r2": 0.18714389318808033,
	"eval_runtime": 57.0327,
	"eval_samples_per_second": 7.014,
	"eval_steps_per_second": 0.438,
	"step": 750
	},
	{
	"epoch": 3,
	"learning_rate": 9.623706168332645e-05,
	"loss": 0.0174,
	"step": 800
	},
	{
	"epoch": 3,
	"eval_loss": 0.01805899292230606,
	"eval_mae": 0.1026226207613945,
	"eval_mse": 0.018060266971588135,
	"eval_r2": 0.19156849973920198,
	"eval_runtime": 58.7166,
	"eval_samples_per_second": 6.812,
	"eval_steps_per_second": 0.426,
	"step": 800
	},
	{
	"epoch": 3,
	"learning_rate": 9.554826723804303e-05,
	"loss": 0.0174,
	"step": 850
	},
	{
	"epoch": 3,
	"eval_loss": 0.01803247630596161,
	"eval_mae": 0.10254286229610443,
	"eval_mse": 0.018035681918263435,
	"eval_r2": 0.18969497919656642,
	"eval_runtime": 60.3899,
	"eval_samples_per_second": 6.624,
	"eval_steps_per_second": 0.414,
	"step": 850
	},
	{
	"epoch": 3,
	"learning_rate": 9.480451784140091e-05,
	"loss": 0.0173,
	"step": 900
	},
	{
	"epoch": 3,
	"eval_loss": 0.017897402867674828,
	"eval_mae": 0.1021430492401123,
	"eval_mse": 0.017896411940455437,
	"eval_r2": 0.1964586734458611,
	"eval_runtime": 62.8605,
	"eval_samples_per_second": 6.363,
	"eval_steps_per_second": 0.398,
	"step": 900
	},
	{
	"epoch": 3,
	"learning_rate": 9.400671084283607e-05,
	"loss": 0.0173,
	"step": 950
	},
	{
	"epoch": 3,
	"eval_loss": 0.017886007204651833,
	"eval_mae": 0.10208527743816376,
	"eval_mse": 0.01788811758160591,
	"eval_r2": 0.19957007249531145,
	"eval_runtime": 60.1438,
	"eval_samples_per_second": 6.651,
	"eval_steps_per_second": 0.416,
	"step": 950
	},
	{
	"epoch": 4,
	"learning_rate": 9.315580881342876e-05,
	"loss": 0.0172,
	"step": 1000
	},
	{
	"epoch": 4,
	"eval_loss": 0.017858153209090233,
	"eval_mae": 0.10202876478433609,
	"eval_mse": 0.017859304323792458,
	"eval_r2": 0.19855005202715592,
	"eval_runtime": 58.8873,
	"eval_samples_per_second": 6.793,
	"eval_steps_per_second": 0.425,
	"step": 1000
	},
	{
	"epoch": 4,
	"learning_rate": 9.225283838454111e-05,
	"loss": 0.0172,
	"step": 1050
	},
	{
	"epoch": 4,
	"eval_loss": 0.017775438725948334,
	"eval_mae": 0.10180441290140152,
	"eval_mse": 0.017775651067495346,
	"eval_r2": 0.20128072921203966,
	"eval_runtime": 65.7432,
	"eval_samples_per_second": 6.084,
	"eval_steps_per_second": 0.38,
	"step": 1050
	},
	{
	"epoch": 4,
	"learning_rate": 9.129888900916456e-05,
	"loss": 0.0171,
	"step": 1100
	},
	{
	"epoch": 4,
	"eval_loss": 0.01773221045732498,
	"eval_mae": 0.10164433717727661,
	"eval_mse": 0.017730284482240677,
	"eval_r2": 0.20249305414753993,
	"eval_runtime": 56.7262,
	"eval_samples_per_second": 7.051,
	"eval_steps_per_second": 0.441,
	"step": 1100
	},
	{
	"epoch": 4,
	"learning_rate": 9.029511164747175e-05,
	"loss": 0.0172,
	"step": 1150
	},
	{
	"epoch": 4,
	"eval_loss": 0.017706887796521187,
	"eval_mae": 0.10156488418579102,
	"eval_mse": 0.017707258462905884,
	"eval_r2": 0.2078045399984002,
	"eval_runtime": 58.2849,
	"eval_samples_per_second": 6.863,
	"eval_steps_per_second": 0.429,
	"step": 1150
	},
	{
	"epoch": 5,
	"learning_rate": 8.924271737815854e-05,
	"loss": 0.0171,
	"step": 1200
	},
	{
	"epoch": 5,
	"eval_loss": 0.017714276909828186,
	"eval_mae": 0.10158883035182953,
	"eval_mse": 0.017715107649564743,
	"eval_r2": 0.2074889762440164,
	"eval_runtime": 57.6803,
	"eval_samples_per_second": 6.935,
	"eval_steps_per_second": 0.433,
	"step": 1200
	},
	{
	"epoch": 5,
	"learning_rate": 8.814297593725199e-05,
	"loss": 0.0171,
	"step": 1250
	},
	{
	"epoch": 5,
	"eval_loss": 0.017648547887802124,
	"eval_mae": 0.10141555964946747,
	"eval_mse": 0.017654363065958023,
	"eval_r2": 0.20722885865364904,
	"eval_runtime": 64.9526,
	"eval_samples_per_second": 6.158,
	"eval_steps_per_second": 0.385,
	"step": 1250
	},
	{
	"epoch": 5,
	"learning_rate": 8.699721418614673e-05,
	"loss": 0.017,
	"step": 1300
	},
	{
	"epoch": 5,
	"eval_loss": 0.017601532861590385,
	"eval_mae": 0.10125792026519775,
	"eval_mse": 0.017598113045096397,
	"eval_r2": 0.20836808697871778,
	"eval_runtime": 57.4819,
	"eval_samples_per_second": 6.959,
	"eval_steps_per_second": 0.435,
	"step": 1300
	},
	{
	"epoch": 5,
	"learning_rate": 8.580681451071866e-05,
	"loss": 0.017,
	"step": 1350
	},
	{
	"epoch": 5,
	"eval_loss": 0.017580362036824226,
	"eval_mae": 0.10121016204357147,
	"eval_mse": 0.017584411427378654,
	"eval_r2": 0.21084466622121223,
	"eval_runtime": 60.2943,
	"eval_samples_per_second": 6.634,
	"eval_steps_per_second": 0.415,
	"step": 1350
	},
	{
	"epoch": 5,
	"learning_rate": 8.457321315344694e-05,
	"loss": 0.017,
	"step": 1400
	},
	{
	"epoch": 5,
	"eval_loss": 0.017519284039735794,
	"eval_mae": 0.10104001313447952,
	"eval_mse": 0.01752064935863018,
	"eval_r2": 0.2120289842294325,
	"eval_runtime": 60.1697,
	"eval_samples_per_second": 6.648,
	"eval_steps_per_second": 0.415,
	"step": 1400
	},
	{
	"epoch": 6,
	"learning_rate": 8.329789848055704e-05,
	"loss": 0.0168,
	"step": 1450
	},
	{
	"epoch": 6,
	"eval_loss": 0.017550144344568253,
	"eval_mae": 0.10109207779169083,
	"eval_mse": 0.017550604417920113,
	"eval_r2": 0.2133444473175402,
	"eval_runtime": 61.3969,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 0.407,
	"step": 1450
	},
	{
	"epoch": 6,
	"learning_rate": 8.198240918627524e-05,
	"loss": 0.0169,
	"step": 1500
	},
	{
	"epoch": 6,
	"eval_loss": 0.01755845546722412,
	"eval_mae": 0.10110194236040115,
	"eval_mse": 0.017556479200720787,
	"eval_r2": 0.21656763083400632,
	"eval_runtime": 59.5515,
	"eval_samples_per_second": 6.717,
	"eval_steps_per_second": 0.42,
	"step": 1500
	},
	{
	"epoch": 6,
	"learning_rate": 8.062833243636134e-05,
	"loss": 0.0169,
	"step": 1550
	},
	{
	"epoch": 6,
	"eval_loss": 0.017458565533161163,
	"eval_mae": 0.10081926733255386,
	"eval_mse": 0.017458630725741386,
	"eval_r2": 0.21455437331377625,
	"eval_runtime": 60.6637,
	"eval_samples_per_second": 6.594,
	"eval_steps_per_second": 0.412,
	"step": 1550
	},
	{
	"epoch": 6,
	"learning_rate": 7.923730195315962e-05,
	"loss": 0.0169,
	"step": 1600
	},
	{
	"epoch": 6,
	"eval_loss": 0.017479494214057922,
	"eval_mae": 0.10087893158197403,
	"eval_mse": 0.017478736117482185,
	"eval_r2": 0.2180120287564331,
	"eval_runtime": 60.772,
	"eval_samples_per_second": 6.582,
	"eval_steps_per_second": 0.411,
	"step": 1600
	},
	{
	"epoch": 6,
	"learning_rate": 7.781099604447794e-05,
	"loss": 0.0168,
	"step": 1650
	},
	{
	"epoch": 6,
	"eval_loss": 0.01743287593126297,
	"eval_mae": 0.10074793547391891,
	"eval_mse": 0.017432522028684616,
	"eval_r2": 0.2161429733042286,
	"eval_runtime": 64.79,
	"eval_samples_per_second": 6.174,
	"eval_steps_per_second": 0.386,
	"step": 1650
	},
	{
	"epoch": 7,
	"learning_rate": 7.635113557867395e-05,
	"loss": 0.0169,
	"step": 1700
	},
	{
	"epoch": 7,
	"eval_loss": 0.017418913543224335,
	"eval_mae": 0.10069431364536285,
	"eval_mse": 0.01741931587457657,
	"eval_r2": 0.2169098601070394,
	"eval_runtime": 60.5486,
	"eval_samples_per_second": 6.606,
	"eval_steps_per_second": 0.413,
	"step": 1700
	},
	{
	"epoch": 7,
	"learning_rate": 7.485948190839077e-05,
	"loss": 0.0168,
	"step": 1750
	},
	{
	"epoch": 7,
	"eval_loss": 0.01736665517091751,
	"eval_mae": 0.1005297377705574,
	"eval_mse": 0.01736704632639885,
	"eval_r2": 0.21929555782464094,
	"eval_runtime": 58.4317,
	"eval_samples_per_second": 6.846,
	"eval_steps_per_second": 0.428,
	"step": 1750
	},
	{
	"epoch": 7,
	"learning_rate": 7.333783474544758e-05,
	"loss": 0.0168,
	"step": 1800
	},
	{
	"epoch": 7,
	"eval_loss": 0.017343418672680855,
	"eval_mae": 0.10048038512468338,
	"eval_mse": 0.017341628670692444,
	"eval_r2": 0.21864552418706762,
	"eval_runtime": 60.3965,
	"eval_samples_per_second": 6.623,
	"eval_steps_per_second": 0.414,
	"step": 1800
	},
	{
	"epoch": 7,
	"learning_rate": 7.178802998944933e-05,
	"loss": 0.0166,
	"step": 1850
	},
	{
	"epoch": 7,
	"eval_loss": 0.017404844984412193,
	"eval_mae": 0.10062351077795029,
	"eval_mse": 0.017404979094862938,
	"eval_r2": 0.22093177958560895,
	"eval_runtime": 56.7185,
	"eval_samples_per_second": 7.052,
	"eval_steps_per_second": 0.441,
	"step": 1850
	},
	{
	"epoch": 7,
	"learning_rate": 7.021193751273462e-05,
	"loss": 0.0167,
	"step": 1900
	},
	{
	"epoch": 7,
	"eval_loss": 0.017301246523857117,
	"eval_mae": 0.10035215318202972,
	"eval_mse": 0.017301900312304497,
	"eval_r2": 0.22134026003758744,
	"eval_runtime": 57.7642,
	"eval_samples_per_second": 6.925,
	"eval_steps_per_second": 0.433,
	"step": 1900
	},
	{
	"epoch": 8,
	"learning_rate": 6.86114589043352e-05,
	"loss": 0.0167,
	"step": 1950
	},
	{
	"epoch": 8,
	"eval_loss": 0.01728537492454052,
	"eval_mae": 0.10028935223817825,
	"eval_mse": 0.017283864319324493,
	"eval_r2": 0.2218958493073836,
	"eval_runtime": 61.7673,
	"eval_samples_per_second": 6.476,
	"eval_steps_per_second": 0.405,
	"step": 1950
	},
	{
	"epoch": 8,
	"learning_rate": 6.698852517566836e-05,
	"loss": 0.0167,
	"step": 2000
	},
	{
	"epoch": 8,
	"eval_loss": 0.0173500906676054,
	"eval_mae": 0.10045037418603897,
	"eval_mse": 0.017350492998957634,
	"eval_r2": 0.222062406323153,
	"eval_runtime": 63.3674,
	"eval_samples_per_second": 6.312,
	"eval_steps_per_second": 0.395,
	"step": 2000
	},
	{
	"epoch": 8,
	"learning_rate": 6.534509443073072e-05,
	"loss": 0.0166,
	"step": 2050
	},
	{
	"epoch": 8,
	"eval_loss": 0.017278773710131645,
	"eval_mae": 0.10025625675916672,
	"eval_mse": 0.017278244718909264,
	"eval_r2": 0.22539687501717476,
	"eval_runtime": 57.2192,
	"eval_samples_per_second": 6.991,
	"eval_steps_per_second": 0.437,
	"step": 2050
	},
	{
	"epoch": 8,
	"learning_rate": 6.368314950360415e-05,
	"loss": 0.0166,
	"step": 2100
	},
	{
	"epoch": 8,
	"eval_loss": 0.017245473340153694,
	"eval_mae": 0.10017417371273041,
	"eval_mse": 0.017246615141630173,
	"eval_r2": 0.22572849115543347,
	"eval_runtime": 59.9387,
	"eval_samples_per_second": 6.673,
	"eval_steps_per_second": 0.417,
	"step": 2100
	},
	{
	"epoch": 9,
	"learning_rate": 6.200469556612435e-05,
	"loss": 0.0166,
	"step": 2150
	},
	{
	"epoch": 9,
	"eval_loss": 0.017270274460315704,
	"eval_mae": 0.10024827718734741,
	"eval_mse": 0.017270220443606377,
	"eval_r2": 0.22628471179764975,
	"eval_runtime": 63.0094,
	"eval_samples_per_second": 6.348,
	"eval_steps_per_second": 0.397,
	"step": 2150
	},
	{
	"epoch": 9,
	"learning_rate": 6.031175770859848e-05,
	"loss": 0.0166,
	"step": 2200
	},
	{
	"epoch": 9,
	"eval_loss": 0.017215639352798462,
	"eval_mae": 0.10008691996335983,
	"eval_mse": 0.017215678468346596,
	"eval_r2": 0.22768342129753605,
	"eval_runtime": 65.042,
	"eval_samples_per_second": 6.15,
	"eval_steps_per_second": 0.384,
	"step": 2200
	},
	{
	"epoch": 9,
	"learning_rate": 5.8606378496490735e-05,
	"loss": 0.0166,
	"step": 2250
	},
	{
	"epoch": 9,
	"eval_loss": 0.01721777580678463,
	"eval_mae": 0.10010144114494324,
	"eval_mse": 0.017218952998518944,
	"eval_r2": 0.22907452898565506,
	"eval_runtime": 65.4931,
	"eval_samples_per_second": 6.108,
	"eval_steps_per_second": 0.382,
	"step": 2250
	},
	{
	"epoch": 9,
	"learning_rate": 5.6890615506023705e-05,
	"loss": 0.0166,
	"step": 2300
	},
	{
	"epoch": 9,
	"eval_loss": 0.017191417515277863,
	"eval_mae": 0.10001853853464127,
	"eval_mse": 0.01718985289335251,
	"eval_r2": 0.2292284056000078,
	"eval_runtime": 64.9938,
	"eval_samples_per_second": 6.154,
	"eval_steps_per_second": 0.385,
	"step": 2300
	},
	{
	"epoch": 9,
	"learning_rate": 5.5166538841669025e-05,
	"loss": 0.0165,
	"step": 2350
	},
	{
	"epoch": 9,
	"eval_loss": 0.017166707664728165,
	"eval_mae": 0.09992814064025879,
	"eval_mse": 0.017164934426546097,
	"eval_r2": 0.23049413465235846,
	"eval_runtime": 63.4634,
	"eval_samples_per_second": 6.303,
	"eval_steps_per_second": 0.394,
	"step": 2350
	},
	{
	"epoch": 10,
	"learning_rate": 5.343622863852232e-05,
	"loss": 0.0166,
	"step": 2400
	},
	{
	"epoch": 10,
	"eval_loss": 0.017118161544203758,
	"eval_mae": 0.0998067557811737,
	"eval_mse": 0.017116105183959007,
	"eval_r2": 0.23199928273221992,
	"eval_runtime": 58.0985,
	"eval_samples_per_second": 6.885,
	"eval_steps_per_second": 0.43,
	"step": 2400
	},
	{
	"epoch": 10,
	"learning_rate": 5.170177255257618e-05,
	"loss": 0.0165,
	"step": 2450
	},
	{
	"epoch": 10,
	"eval_loss": 0.017119385302066803,
	"eval_mae": 0.09977566450834274,
	"eval_mse": 0.017119543626904488,
	"eval_r2": 0.22948023375281368,
	"eval_runtime": 58.2148,
	"eval_samples_per_second": 6.871,
	"eval_steps_per_second": 0.429,
	"step": 2450
	},
	{
	"epoch": 10,
	"learning_rate": 4.996526324191872e-05,
	"loss": 0.0164,
	"step": 2500
	},
	{
	"epoch": 10,
	"eval_loss": 0.017105862498283386,
	"eval_mae": 0.09975843131542206,
	"eval_mse": 0.017107795923948288,
	"eval_r2": 0.23160311839973746,
	"eval_runtime": 58.2306,
	"eval_samples_per_second": 6.869,
	"eval_steps_per_second": 0.429,
	"step": 2500
	},
	{
	"epoch": 10,
	"learning_rate": 4.822879584189731e-05,
	"loss": 0.0165,
	"step": 2550
	},
	{
	"epoch": 10,
	"eval_loss": 0.017133817076683044,
	"eval_mae": 0.09982656687498093,
	"eval_mse": 0.01713182032108307,
	"eval_r2": 0.23212640913876725,
	"eval_runtime": 60.6469,
	"eval_samples_per_second": 6.596,
	"eval_steps_per_second": 0.412,
	"step": 2550
	},
	{
	"epoch": 10,
	"learning_rate": 4.6494465437293225e-05,
	"loss": 0.0165,
	"step": 2600
	},
	{
	"epoch": 10,
	"eval_loss": 0.01714298315346241,
	"eval_mae": 0.0998401865363121,
	"eval_mse": 0.017137613147497177,
	"eval_r2": 0.2327516850849627,
	"eval_runtime": 58.7954,
	"eval_samples_per_second": 6.803,
	"eval_steps_per_second": 0.425,
	"step": 2600
	},
	{
	"epoch": 11,
	"learning_rate": 4.476436453455742e-05,
	"loss": 0.0164,
	"step": 2650
	},
	{
	"epoch": 11,
	"eval_loss": 0.017095215618610382,
	"eval_mae": 0.09970412403345108,
	"eval_mse": 0.01709286868572235,
	"eval_r2": 0.23346266146762296,
	"eval_runtime": 57.7966,
	"eval_samples_per_second": 6.921,
	"eval_steps_per_second": 0.433,
	"step": 2650
	},
	{
	"epoch": 11,
	"learning_rate": 4.3040580537157024e-05,
	"loss": 0.0165,
	"step": 2700
	},
	{
	"epoch": 11,
	"eval_loss": 0.017114490270614624,
	"eval_mae": 0.09975600242614746,
	"eval_mse": 0.01711602509021759,
	"eval_r2": 0.23458319148513607,
	"eval_runtime": 60.7105,
	"eval_samples_per_second": 6.589,
	"eval_steps_per_second": 0.412,
	"step": 2700
	},
	{
	"epoch": 11,
	"learning_rate": 4.1325193227078816e-05,
	"loss": 0.0164,
	"step": 2750
	},
	{
	"epoch": 11,
	"eval_loss": 0.01703326217830181,
	"eval_mae": 0.0995149165391922,
	"eval_mse": 0.01703346148133278,
	"eval_r2": 0.23379130521799119,
	"eval_runtime": 56.541,
	"eval_samples_per_second": 7.075,
	"eval_steps_per_second": 0.442,
	"step": 2750
	},
	{
	"epoch": 11,
	"learning_rate": 3.962027225552807e-05,
	"loss": 0.0165,
	"step": 2800
	},
	{
	"epoch": 11,
	"eval_loss": 0.017094749957323074,
	"eval_mae": 0.09970033168792725,
	"eval_mse": 0.017094548791646957,
	"eval_r2": 0.2349240350955354,
	"eval_runtime": 65.2081,
	"eval_samples_per_second": 6.134,
	"eval_steps_per_second": 0.383,
	"step": 2800
	},
	{
	"epoch": 11,
	"learning_rate": 3.79278746458504e-05,
	"loss": 0.0164,
	"step": 2850
	},
	{
	"epoch": 11,
	"eval_loss": 0.017008375376462936,
	"eval_mae": 0.09947662055492401,
	"eval_mse": 0.01700720377266407,
	"eval_r2": 0.23690627111999107,
	"eval_runtime": 57.0201,
	"eval_samples_per_second": 7.015,
	"eval_steps_per_second": 0.438,
	"step": 2850
	},
	{
	"epoch": 12,
	"learning_rate": 3.6250042311689505e-05,
	"loss": 0.0164,
	"step": 2900
	},
	{
	"epoch": 12,
	"eval_loss": 0.01702900230884552,
	"eval_mae": 0.09952793270349503,
	"eval_mse": 0.01703030802309513,
	"eval_r2": 0.23451840328295703,
	"eval_runtime": 59.8559,
	"eval_samples_per_second": 6.683,
	"eval_steps_per_second": 0.418,
	"step": 2900
	},
	{
	"epoch": 12,
	"learning_rate": 3.458879959337494e-05,
	"loss": 0.0163,
	"step": 2950
	},
	{
	"epoch": 12,
	"eval_loss": 0.017079642042517662,
	"eval_mae": 0.09966063499450684,
	"eval_mse": 0.017079809680581093,
	"eval_r2": 0.23587889518099114,
	"eval_runtime": 63.9836,
	"eval_samples_per_second": 6.252,
	"eval_steps_per_second": 0.391,
	"step": 2950
	},
	{
	"epoch": 12,
	"learning_rate": 3.294615081551259e-05,
	"loss": 0.0164,
	"step": 3000
	},
	{
	"epoch": 12,
	"eval_loss": 0.017014725133776665,
	"eval_mae": 0.09949040412902832,
	"eval_mse": 0.01701604574918747,
	"eval_r2": 0.2344194498588299,
	"eval_runtime": 64.9206,
	"eval_samples_per_second": 6.161,
	"eval_steps_per_second": 0.385,
	"step": 3000
	},
	{
	"epoch": 12,
	"learning_rate": 3.132407786872442e-05,
	"loss": 0.0164,
	"step": 3050
	},
	{
	"epoch": 12,
	"eval_loss": 0.017031442373991013,
	"eval_mae": 0.09950780868530273,
	"eval_mse": 0.01702970452606678,
	"eval_r2": 0.23397646038139297,
	"eval_runtime": 63.2282,
	"eval_samples_per_second": 6.326,
	"eval_steps_per_second": 0.395,
	"step": 3050
	},
	{
	"epoch": 13,
	"learning_rate": 2.9724537818455466e-05,
	"loss": 0.0163,
	"step": 3100
	},
	{
	"epoch": 13,
	"eval_loss": 0.017020680010318756,
	"eval_mae": 0.099485382437706,
	"eval_mse": 0.0170209389179945,
	"eval_r2": 0.23745581810255922,
	"eval_runtime": 57.2248,
	"eval_samples_per_second": 6.99,
	"eval_steps_per_second": 0.437,
	"step": 3100
	},
	{
	"epoch": 13,
	"learning_rate": 2.8149460543732664e-05,
	"loss": 0.0164,
	"step": 3150
	},
	{
	"epoch": 13,
	"eval_loss": 0.016971083357930183,
	"eval_mae": 0.09935550391674042,
	"eval_mse": 0.016970161348581314,
	"eval_r2": 0.23819887983596166,
	"eval_runtime": 58.3514,
	"eval_samples_per_second": 6.855,
	"eval_steps_per_second": 0.428,
	"step": 3150
	},
	{
	"epoch": 13,
	"learning_rate": 2.6600746408725063e-05,
	"loss": 0.0163,
	"step": 3200
	},
	{
	"epoch": 13,
	"eval_loss": 0.01702103763818741,
	"eval_mae": 0.09947419166564941,
	"eval_mse": 0.017017606645822525,
	"eval_r2": 0.23663776763542477,
	"eval_runtime": 65.0546,
	"eval_samples_per_second": 6.149,
	"eval_steps_per_second": 0.384,
	"step": 3200
	},
	{
	"epoch": 13,
	"learning_rate": 2.5080263969913897e-05,
	"loss": 0.0163,
	"step": 3250
	},
	{
	"epoch": 13,
	"eval_loss": 0.01702267862856388,
	"eval_mae": 0.09951028972864151,
	"eval_mse": 0.017020724713802338,
	"eval_r2": 0.23804915917081026,
	"eval_runtime": 63.3322,
	"eval_samples_per_second": 6.316,
	"eval_steps_per_second": 0.395,
	"step": 3250
	},
	{
	"epoch": 13,
	"learning_rate": 2.3589847721639617e-05,
	"loss": 0.0164,
	"step": 3300
	},
	{
	"epoch": 13,
	"eval_loss": 0.01695895753800869,
	"eval_mae": 0.09931185096502304,
	"eval_mse": 0.016959920525550842,
	"eval_r2": 0.23948235402533236,
	"eval_runtime": 62.2021,
	"eval_samples_per_second": 6.431,
	"eval_steps_per_second": 0.402,
	"step": 3300
	},
	{
	"epoch": 14,
	"learning_rate": 2.2131295882745597e-05,
	"loss": 0.0163,
	"step": 3350
	},
	{
	"epoch": 14,
	"eval_loss": 0.016953853890299797,
	"eval_mae": 0.09930908679962158,
	"eval_mse": 0.016957899555563927,
	"eval_r2": 0.2384040127996312,
	"eval_runtime": 59.6825,
	"eval_samples_per_second": 6.702,
	"eval_steps_per_second": 0.419,
	"step": 3350
	},
	{
	"epoch": 14,
	"learning_rate": 2.070636822698877e-05,
	"loss": 0.0162,
	"step": 3400
	},
	{
	"epoch": 14,
	"eval_loss": 0.016969269141554832,
	"eval_mae": 0.09930410981178284,
	"eval_mse": 0.016971617937088013,
	"eval_r2": 0.23911331324321627,
	"eval_runtime": 61.4012,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 0.407,
	"step": 3400
	},
	{
	"epoch": 14,
	"learning_rate": 1.9316783959835345e-05,
	"loss": 0.0164,
	"step": 3450
	},
	{
	"epoch": 14,
	"eval_loss": 0.01695878989994526,
	"eval_mae": 0.09929464012384415,
	"eval_mse": 0.016956914216279984,
	"eval_r2": 0.23904322049736015,
	"eval_runtime": 61.0952,
	"eval_samples_per_second": 6.547,
	"eval_steps_per_second": 0.409,
	"step": 3450
	},
	{
	"epoch": 14,
	"learning_rate": 1.796421964420285e-05,
	"loss": 0.0164,
	"step": 3500
	},
	{
	"epoch": 14,
	"eval_loss": 0.016925431787967682,
	"eval_mae": 0.09921905398368835,
	"eval_mse": 0.016928432509303093,
	"eval_r2": 0.23861995325924557,
	"eval_runtime": 58.2956,
	"eval_samples_per_second": 6.862,
	"eval_steps_per_second": 0.429,
	"step": 3500
	},
	{
	"epoch": 14,
	"learning_rate": 1.665030717765149e-05,
	"loss": 0.0163,
	"step": 3550
	},
	{
	"epoch": 14,
	"eval_loss": 0.016955168917775154,
	"eval_mae": 0.09928599745035172,
	"eval_mse": 0.016958734020590782,
	"eval_r2": 0.24003949016117532,
	"eval_runtime": 60.224,
	"eval_samples_per_second": 6.642,
	"eval_steps_per_second": 0.415,
	"step": 3550
	},
	{
	"epoch": 15,
	"learning_rate": 1.5376631823464953e-05,
	"loss": 0.0163,
	"step": 3600
	},
	{
	"epoch": 15,
	"eval_loss": 0.017045069485902786,
	"eval_mae": 0.09952731430530548,
	"eval_mse": 0.017046233639121056,
	"eval_r2": 0.2409846653602259,
	"eval_runtime": 56.9312,
	"eval_samples_per_second": 7.026,
	"eval_steps_per_second": 0.439,
	"step": 3600
	},
	{
	"epoch": 15,
	"learning_rate": 1.4144730297996666e-05,
	"loss": 0.0163,
	"step": 3650
	},
	{
	"epoch": 15,
	"eval_loss": 0.01690911501646042,
	"eval_mae": 0.09913720935583115,
	"eval_mse": 0.01690947264432907,
	"eval_r2": 0.24005320295619414,
	"eval_runtime": 63.4396,
	"eval_samples_per_second": 6.305,
	"eval_steps_per_second": 0.394,
	"step": 3650
	},
	{
	"epoch": 15,
	"learning_rate": 1.295608891658896e-05,
	"loss": 0.0163,
	"step": 3700
	},
	{
	"epoch": 15,
	"eval_loss": 0.016995713114738464,
	"eval_mae": 0.09939228743314743,
	"eval_mse": 0.016998106613755226,
	"eval_r2": 0.24257331961419693,
	"eval_runtime": 58.9315,
	"eval_samples_per_second": 6.788,
	"eval_steps_per_second": 0.424,
	"step": 3700
	},
	{
	"epoch": 15,
	"learning_rate": 1.1812141800301945e-05,
	"loss": 0.0163,
	"step": 3750
	},
	{
	"epoch": 15,
	"eval_loss": 0.01695888675749302,
	"eval_mae": 0.09927807003259659,
	"eval_mse": 0.016960280016064644,
	"eval_r2": 0.24255255772513262,
	"eval_runtime": 58.2565,
	"eval_samples_per_second": 6.866,
	"eval_steps_per_second": 0.429,
	"step": 3750
	},
	{
	"epoch": 15,
	"learning_rate": 1.0714269145616063e-05,
	"loss": 0.0163,
	"step": 3800
	},
	{
	"epoch": 15,
	"eval_loss": 0.016934260725975037,
	"eval_mae": 0.09918724000453949,
	"eval_mse": 0.016934024170041084,
	"eval_r2": 0.23905501031932674,
	"eval_runtime": 59.5916,
	"eval_samples_per_second": 6.712,
	"eval_steps_per_second": 0.42,
	"step": 3800
	},
	{
	"epoch": 16,
	"learning_rate": 9.663795559195733e-06,
	"loss": 0.0162,
	"step": 3850
	},
	{
	"epoch": 16,
	"eval_loss": 0.016940169036388397,
	"eval_mae": 0.09923317283391953,
	"eval_mse": 0.016941731795668602,
	"eval_r2": 0.2415171870593763,
	"eval_runtime": 59.9307,
	"eval_samples_per_second": 6.674,
	"eval_steps_per_second": 0.417,
	"step": 3850
	},
	{
	"epoch": 16,
	"learning_rate": 8.661988459723309e-06,
	"loss": 0.0163,
	"step": 3900
	},
	{
	"epoch": 16,
	"eval_loss": 0.01686818338930607,
	"eval_mae": 0.09902676939964294,
	"eval_mse": 0.01686619035899639,
	"eval_r2": 0.23881856654464984,
	"eval_runtime": 59.939,
	"eval_samples_per_second": 6.673,
	"eval_steps_per_second": 0.417,
	"step": 3900
	},
	{
	"epoch": 16,
	"learning_rate": 7.710056548731447e-06,
	"loss": 0.0164,
	"step": 3950
	},
	{
	"epoch": 16,
	"eval_loss": 0.01692971959710121,
	"eval_mae": 0.09918209910392761,
	"eval_mse": 0.01693139225244522,
	"eval_r2": 0.24229291180997825,
	"eval_runtime": 58.0894,
	"eval_samples_per_second": 6.886,
	"eval_steps_per_second": 0.43,
	"step": 3950
	},
	{
	"epoch": 16,
	"learning_rate": 6.809148352279182e-06,
	"loss": 0.0163,
	"step": 4000
	},
	{
	"epoch": 16,
	"eval_loss": 0.016949491575360298,
	"eval_mae": 0.09925098717212677,
	"eval_mse": 0.01695188321173191,
	"eval_r2": 0.23993232169758605,
	"eval_runtime": 61.4621,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 0.407,
	"step": 4000
	},
	{
	"epoch": 16,
	"learning_rate": 5.960350835230766e-06,
	"loss": 0.0163,
	"step": 4050
	},
	{
	"epoch": 16,
	"eval_loss": 0.016934702172875404,
	"eval_mae": 0.09920256584882736,
	"eval_mse": 0.016937121748924255,
	"eval_r2": 0.2416569624089897,
	"eval_runtime": 58.2108,
	"eval_samples_per_second": 6.872,
	"eval_steps_per_second": 0.429,
	"step": 4050
	},
	{
	"epoch": 17,
	"learning_rate": 5.164688089809444e-06,
	"loss": 0.0162,
	"step": 4100
	},
	{
	"epoch": 17,
	"eval_loss": 0.016918588429689407,
	"eval_mae": 0.09915737062692642,
	"eval_mse": 0.016918879002332687,
	"eval_r2": 0.24260718873499565,
	"eval_runtime": 56.8092,
	"eval_samples_per_second": 7.041,
	"eval_steps_per_second": 0.44,
	"step": 4100
	},
	{
	"epoch": 17,
	"learning_rate": 4.423120100008582e-06,
	"loss": 0.0163,
	"step": 4150
	},
	{
	"epoch": 17,
	"eval_loss": 0.016940301284193993,
	"eval_mae": 0.09919126331806183,
	"eval_mse": 0.016939815133810043,
	"eval_r2": 0.23998661125272824,
	"eval_runtime": 59.9186,
	"eval_samples_per_second": 6.676,
	"eval_steps_per_second": 0.417,
	"step": 4150
	},
	{
	"epoch": 17,
	"learning_rate": 3.7365415833504725e-06,
	"loss": 0.0162,
	"step": 4200
	},
	{
	"epoch": 17,
	"eval_loss": 0.016918940469622612,
	"eval_mae": 0.09915791451931,
	"eval_mse": 0.016918599605560303,
	"eval_r2": 0.23974174795237568,
	"eval_runtime": 63.0008,
	"eval_samples_per_second": 6.349,
	"eval_steps_per_second": 0.397,
	"step": 4200
	},
	{
	"epoch": 17,
	"learning_rate": 3.105780911390738e-06,
	"loss": 0.0163,
	"step": 4250
	},
	{
	"epoch": 17,
	"eval_loss": 0.016923611983656883,
	"eval_mae": 0.09916673600673676,
	"eval_mse": 0.016924140974879265,
	"eval_r2": 0.23963991013957076,
	"eval_runtime": 56.3879,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 0.443,
	"step": 4250
	},
	{
	"epoch": 18,
	"learning_rate": 2.5315991102703716e-06,
	"loss": 0.0163,
	"step": 4300
	},
	{
	"epoch": 18,
	"eval_loss": 0.01691032014787197,
	"eval_mae": 0.09915610402822495,
	"eval_mse": 0.01691248081624508,
	"eval_r2": 0.24413583693173724,
	"eval_runtime": 61.6302,
	"eval_samples_per_second": 6.49,
	"eval_steps_per_second": 0.406,
	"step": 4300
	},
	{
	"epoch": 18,
	"learning_rate": 2.0146889425216476e-06,
	"loss": 0.0163,
	"step": 4350
	},
	{
	"epoch": 18,
	"eval_loss": 0.016894323751330376,
	"eval_mae": 0.09909255057573318,
	"eval_mse": 0.016893018037080765,
	"eval_r2": 0.24154658591740408,
	"eval_runtime": 61.7977,
	"eval_samples_per_second": 6.473,
	"eval_steps_per_second": 0.405,
	"step": 4350
	},
	{
	"epoch": 18,
	"learning_rate": 1.555674071235358e-06,
	"loss": 0.0163,
	"step": 4400
	},
	{
	"epoch": 18,
	"eval_loss": 0.016896896064281464,
	"eval_mae": 0.09909563511610031,
	"eval_mse": 0.016896726563572884,
	"eval_r2": 0.2395997969159448,
	"eval_runtime": 63.3638,
	"eval_samples_per_second": 6.313,
	"eval_steps_per_second": 0.395,
	"step": 4400
	},
	{
	"epoch": 18,
	"learning_rate": 1.155108307598024e-06,
	"loss": 0.0163,
	"step": 4450
	},
	{
	"epoch": 18,
	"eval_loss": 0.016881046816706657,
	"eval_mae": 0.09909423440694809,
	"eval_mse": 0.016880322247743607,
	"eval_r2": 0.2425676493378176,
	"eval_runtime": 60.1702,
	"eval_samples_per_second": 6.648,
	"eval_steps_per_second": 0.415,
	"step": 4450
	},
	{
	"epoch": 18,
	"learning_rate": 8.134749427070376e-07,
	"loss": 0.0163,
	"step": 4500
	},
	{
	"epoch": 18,
	"eval_loss": 0.016920508816838264,
	"eval_mae": 0.09913913160562515,
	"eval_mse": 0.016919521614909172,
	"eval_r2": 0.240687826762218,
	"eval_runtime": 56.9763,
	"eval_samples_per_second": 7.02,
	"eval_steps_per_second": 0.439,
	"step": 4500
	},
	{
	"epoch": 19,
	"learning_rate": 5.311861644696048e-07,
	"loss": 0.0163,
	"step": 4550
	},
	{
	"epoch": 19,
	"eval_loss": 0.016956361010670662,
	"eval_mae": 0.09927552938461304,
	"eval_mse": 0.016957107931375504,
	"eval_r2": 0.23962235723125958,
	"eval_runtime": 57.5809,
	"eval_samples_per_second": 6.947,
	"eval_steps_per_second": 0.434,
	"step": 4550
	},
	{
	"epoch": 19,
	"learning_rate": 3.0858256028932776e-07,
	"loss": 0.0163,
	"step": 4600
	},
	{
	"epoch": 19,
	"eval_loss": 0.016894662752747536,
	"eval_mae": 0.09909520298242569,
	"eval_mse": 0.016894804313778877,
	"eval_r2": 0.24004589904875062,
	"eval_runtime": 58.5108,
	"eval_samples_per_second": 6.836,
	"eval_steps_per_second": 0.427,
	"step": 4600
	},
	{
	"epoch": 19,
	"learning_rate": 1.4593270614026154e-07,
	"loss": 0.0162,
	"step": 4650
	},
	{
	"epoch": 19,
	"eval_loss": 0.016891133040189743,
	"eval_mae": 0.09907051920890808,
	"eval_mse": 0.016890019178390503,
	"eval_r2": 0.24048031726771313,
	"eval_runtime": 62.2953,
	"eval_samples_per_second": 6.421,
	"eval_steps_per_second": 0.401,
	"step": 4650
	},
	{
	"epoch": 19,
	"learning_rate": 4.343284252429913e-08,
	"loss": 0.0162,
	"step": 4700
	},
	{
	"epoch": 19,
	"eval_loss": 0.016868911683559418,
	"eval_mae": 0.0990411788225174,
	"eval_mse": 0.016869619488716125,
	"eval_r2": 0.24109475503821198,
	"eval_runtime": 58.3864,
	"eval_samples_per_second": 6.851,
	"eval_steps_per_second": 0.428,
	"step": 4700
	}
	],
	"max_steps": 4760,
	"num_train_epochs": 20,
	"total_flos": 2.0677241114343014e+20,
	"trial_name": null,
	"trial_params": null
	}