Spaces:

navidfalah
/

3AI

Sleeping

App Files Files Community

3AI / model /trainer_state.json

navidfalah

refactor

71ad36b 7 months ago

raw

history blame contribute delete

30.3 kB

	{
	"best_global_step": 650,
	"best_metric": 1.6722568273544312,
	"best_model_checkpoint": "/content/drive/MyDrive/mistral_aggressive_training/checkpoint-650",
	"epoch": 1.9475262368815591,
	"eval_steps": 25,
	"global_step": 650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014992503748125937,
	"grad_norm": 1.3109337091445923,
	"learning_rate": 2.4242424242424244e-06,
	"loss": 2.1417,
	"step": 5
	},
	{
	"epoch": 0.029985007496251874,
	"grad_norm": 1.2851405143737793,
	"learning_rate": 5.4545454545454545e-06,
	"loss": 2.0593,
	"step": 10
	},
	{
	"epoch": 0.044977511244377814,
	"grad_norm": 1.3587734699249268,
	"learning_rate": 8.484848484848486e-06,
	"loss": 2.0723,
	"step": 15
	},
	{
	"epoch": 0.05997001499250375,
	"grad_norm": 1.1362162828445435,
	"learning_rate": 1.1515151515151517e-05,
	"loss": 2.0299,
	"step": 20
	},
	{
	"epoch": 0.07496251874062969,
	"grad_norm": 1.0861225128173828,
	"learning_rate": 1.4545454545454546e-05,
	"loss": 2.0103,
	"step": 25
	},
	{
	"epoch": 0.07496251874062969,
	"eval_loss": 1.9985558986663818,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.1818,
	"eval_samples_per_second": 2.001,
	"eval_steps_per_second": 0.502,
	"step": 25
	},
	{
	"epoch": 0.08995502248875563,
	"grad_norm": 1.1834365129470825,
	"learning_rate": 1.7575757575757576e-05,
	"loss": 1.9597,
	"step": 30
	},
	{
	"epoch": 0.10494752623688156,
	"grad_norm": 0.9937852025032043,
	"learning_rate": 1.9968503937007875e-05,
	"loss": 1.9421,
	"step": 35
	},
	{
	"epoch": 0.1199400299850075,
	"grad_norm": 1.0617958307266235,
	"learning_rate": 1.9811023622047244e-05,
	"loss": 2.024,
	"step": 40
	},
	{
	"epoch": 0.13493253373313344,
	"grad_norm": 1.0851763486862183,
	"learning_rate": 1.9653543307086616e-05,
	"loss": 1.8302,
	"step": 45
	},
	{
	"epoch": 0.14992503748125938,
	"grad_norm": 1.1397876739501953,
	"learning_rate": 1.9496062992125985e-05,
	"loss": 1.9633,
	"step": 50
	},
	{
	"epoch": 0.14992503748125938,
	"eval_loss": 1.9225448369979858,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9066,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 50
	},
	{
	"epoch": 0.16491754122938532,
	"grad_norm": 1.0546423196792603,
	"learning_rate": 1.9338582677165357e-05,
	"loss": 1.8928,
	"step": 55
	},
	{
	"epoch": 0.17991004497751126,
	"grad_norm": 1.0976288318634033,
	"learning_rate": 1.9181102362204726e-05,
	"loss": 1.8646,
	"step": 60
	},
	{
	"epoch": 0.19490254872563717,
	"grad_norm": 1.0164967775344849,
	"learning_rate": 1.9023622047244098e-05,
	"loss": 1.9247,
	"step": 65
	},
	{
	"epoch": 0.2098950524737631,
	"grad_norm": 1.0609030723571777,
	"learning_rate": 1.8866141732283464e-05,
	"loss": 1.8895,
	"step": 70
	},
	{
	"epoch": 0.22488755622188905,
	"grad_norm": 1.2414894104003906,
	"learning_rate": 1.8708661417322836e-05,
	"loss": 1.9753,
	"step": 75
	},
	{
	"epoch": 0.22488755622188905,
	"eval_loss": 1.8853719234466553,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.658,
	"eval_samples_per_second": 2.004,
	"eval_steps_per_second": 0.503,
	"step": 75
	},
	{
	"epoch": 0.239880059970015,
	"grad_norm": 1.1238614320755005,
	"learning_rate": 1.8551181102362205e-05,
	"loss": 1.8656,
	"step": 80
	},
	{
	"epoch": 0.25487256371814093,
	"grad_norm": 1.143813967704773,
	"learning_rate": 1.8393700787401577e-05,
	"loss": 1.8317,
	"step": 85
	},
	{
	"epoch": 0.2698650674662669,
	"grad_norm": 1.2623740434646606,
	"learning_rate": 1.8236220472440946e-05,
	"loss": 1.8669,
	"step": 90
	},
	{
	"epoch": 0.2848575712143928,
	"grad_norm": 1.04632568359375,
	"learning_rate": 1.8078740157480318e-05,
	"loss": 1.7412,
	"step": 95
	},
	{
	"epoch": 0.29985007496251875,
	"grad_norm": 1.0752465724945068,
	"learning_rate": 1.7921259842519687e-05,
	"loss": 1.808,
	"step": 100
	},
	{
	"epoch": 0.29985007496251875,
	"eval_loss": 1.8590933084487915,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9821,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 100
	},
	{
	"epoch": 0.3148425787106447,
	"grad_norm": 1.1382629871368408,
	"learning_rate": 1.776377952755906e-05,
	"loss": 1.8629,
	"step": 105
	},
	{
	"epoch": 0.32983508245877063,
	"grad_norm": 1.4844969511032104,
	"learning_rate": 1.7606299212598424e-05,
	"loss": 1.8546,
	"step": 110
	},
	{
	"epoch": 0.3448275862068966,
	"grad_norm": 1.1989675760269165,
	"learning_rate": 1.7448818897637796e-05,
	"loss": 1.8497,
	"step": 115
	},
	{
	"epoch": 0.3598200899550225,
	"grad_norm": 1.2271519899368286,
	"learning_rate": 1.7291338582677165e-05,
	"loss": 1.896,
	"step": 120
	},
	{
	"epoch": 0.3748125937031484,
	"grad_norm": 1.179254412651062,
	"learning_rate": 1.7133858267716537e-05,
	"loss": 1.8161,
	"step": 125
	},
	{
	"epoch": 0.3748125937031484,
	"eval_loss": 1.836364507675171,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.1432,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 125
	},
	{
	"epoch": 0.38980509745127434,
	"grad_norm": 1.3870253562927246,
	"learning_rate": 1.6976377952755906e-05,
	"loss": 1.8299,
	"step": 130
	},
	{
	"epoch": 0.4047976011994003,
	"grad_norm": 1.1159974336624146,
	"learning_rate": 1.6818897637795278e-05,
	"loss": 1.7106,
	"step": 135
	},
	{
	"epoch": 0.4197901049475262,
	"grad_norm": 1.2132537364959717,
	"learning_rate": 1.6661417322834647e-05,
	"loss": 1.8106,
	"step": 140
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 1.180285930633545,
	"learning_rate": 1.650393700787402e-05,
	"loss": 1.7911,
	"step": 145
	},
	{
	"epoch": 0.4497751124437781,
	"grad_norm": 1.2773538827896118,
	"learning_rate": 1.6346456692913385e-05,
	"loss": 1.8412,
	"step": 150
	},
	{
	"epoch": 0.4497751124437781,
	"eval_loss": 1.817762017250061,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.8218,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 150
	},
	{
	"epoch": 0.46476761619190404,
	"grad_norm": 1.2192872762680054,
	"learning_rate": 1.6188976377952757e-05,
	"loss": 1.8606,
	"step": 155
	},
	{
	"epoch": 0.47976011994003,
	"grad_norm": 1.4267574548721313,
	"learning_rate": 1.6031496062992126e-05,
	"loss": 1.8088,
	"step": 160
	},
	{
	"epoch": 0.4947526236881559,
	"grad_norm": 1.4275727272033691,
	"learning_rate": 1.5874015748031498e-05,
	"loss": 1.7979,
	"step": 165
	},
	{
	"epoch": 0.5097451274362819,
	"grad_norm": 1.3130961656570435,
	"learning_rate": 1.5716535433070866e-05,
	"loss": 1.8059,
	"step": 170
	},
	{
	"epoch": 0.5247376311844077,
	"grad_norm": 1.2740048170089722,
	"learning_rate": 1.555905511811024e-05,
	"loss": 1.7689,
	"step": 175
	},
	{
	"epoch": 0.5247376311844077,
	"eval_loss": 1.801321268081665,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.8247,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 175
	},
	{
	"epoch": 0.5397301349325337,
	"grad_norm": 1.1887905597686768,
	"learning_rate": 1.5401574803149607e-05,
	"loss": 1.7052,
	"step": 180
	},
	{
	"epoch": 0.5547226386806596,
	"grad_norm": 1.3410052061080933,
	"learning_rate": 1.5244094488188978e-05,
	"loss": 1.7916,
	"step": 185
	},
	{
	"epoch": 0.5697151424287856,
	"grad_norm": 1.2976702451705933,
	"learning_rate": 1.5086614173228347e-05,
	"loss": 1.6751,
	"step": 190
	},
	{
	"epoch": 0.5847076461769115,
	"grad_norm": 1.3378161191940308,
	"learning_rate": 1.4929133858267717e-05,
	"loss": 1.6846,
	"step": 195
	},
	{
	"epoch": 0.5997001499250375,
	"grad_norm": 1.3700908422470093,
	"learning_rate": 1.4771653543307088e-05,
	"loss": 1.7537,
	"step": 200
	},
	{
	"epoch": 0.5997001499250375,
	"eval_loss": 1.786393165588379,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0429,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 200
	},
	{
	"epoch": 0.6146926536731634,
	"grad_norm": 1.3000359535217285,
	"learning_rate": 1.4614173228346458e-05,
	"loss": 1.7362,
	"step": 205
	},
	{
	"epoch": 0.6296851574212894,
	"grad_norm": 1.3432403802871704,
	"learning_rate": 1.4456692913385829e-05,
	"loss": 1.7752,
	"step": 210
	},
	{
	"epoch": 0.6446776611694153,
	"grad_norm": 1.4008256196975708,
	"learning_rate": 1.4299212598425199e-05,
	"loss": 1.7294,
	"step": 215
	},
	{
	"epoch": 0.6596701649175413,
	"grad_norm": 1.2891970872879028,
	"learning_rate": 1.4141732283464568e-05,
	"loss": 1.7085,
	"step": 220
	},
	{
	"epoch": 0.6746626686656672,
	"grad_norm": 1.1324400901794434,
	"learning_rate": 1.3984251968503938e-05,
	"loss": 1.7697,
	"step": 225
	},
	{
	"epoch": 0.6746626686656672,
	"eval_loss": 1.7725938558578491,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0819,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 225
	},
	{
	"epoch": 0.6896551724137931,
	"grad_norm": 1.4434219598770142,
	"learning_rate": 1.3826771653543307e-05,
	"loss": 1.7308,
	"step": 230
	},
	{
	"epoch": 0.704647676161919,
	"grad_norm": 1.3460474014282227,
	"learning_rate": 1.3669291338582678e-05,
	"loss": 1.7323,
	"step": 235
	},
	{
	"epoch": 0.719640179910045,
	"grad_norm": 1.2641957998275757,
	"learning_rate": 1.3511811023622048e-05,
	"loss": 1.6987,
	"step": 240
	},
	{
	"epoch": 0.7346326836581709,
	"grad_norm": 1.3505923748016357,
	"learning_rate": 1.3354330708661419e-05,
	"loss": 1.6961,
	"step": 245
	},
	{
	"epoch": 0.7496251874062968,
	"grad_norm": 1.4946131706237793,
	"learning_rate": 1.3196850393700789e-05,
	"loss": 1.733,
	"step": 250
	},
	{
	"epoch": 0.7496251874062968,
	"eval_loss": 1.7611132860183716,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.8197,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 250
	},
	{
	"epoch": 0.7646176911544228,
	"grad_norm": 1.433475375175476,
	"learning_rate": 1.303937007874016e-05,
	"loss": 1.8026,
	"step": 255
	},
	{
	"epoch": 0.7796101949025487,
	"grad_norm": 1.448909044265747,
	"learning_rate": 1.288188976377953e-05,
	"loss": 1.7112,
	"step": 260
	},
	{
	"epoch": 0.7946026986506747,
	"grad_norm": 1.3357568979263306,
	"learning_rate": 1.2724409448818899e-05,
	"loss": 1.6413,
	"step": 265
	},
	{
	"epoch": 0.8095952023988006,
	"grad_norm": 1.4122332334518433,
	"learning_rate": 1.2566929133858268e-05,
	"loss": 1.7038,
	"step": 270
	},
	{
	"epoch": 0.8245877061469266,
	"grad_norm": 1.5254954099655151,
	"learning_rate": 1.2409448818897638e-05,
	"loss": 1.6762,
	"step": 275
	},
	{
	"epoch": 0.8245877061469266,
	"eval_loss": 1.7509944438934326,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0835,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 275
	},
	{
	"epoch": 0.8395802098950524,
	"grad_norm": 1.4556777477264404,
	"learning_rate": 1.2251968503937009e-05,
	"loss": 1.7421,
	"step": 280
	},
	{
	"epoch": 0.8545727136431784,
	"grad_norm": 1.2593179941177368,
	"learning_rate": 1.2094488188976379e-05,
	"loss": 1.7368,
	"step": 285
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 1.5513230562210083,
	"learning_rate": 1.193700787401575e-05,
	"loss": 1.6937,
	"step": 290
	},
	{
	"epoch": 0.8845577211394303,
	"grad_norm": 1.450356125831604,
	"learning_rate": 1.177952755905512e-05,
	"loss": 1.6819,
	"step": 295
	},
	{
	"epoch": 0.8995502248875562,
	"grad_norm": 1.4953676462173462,
	"learning_rate": 1.162204724409449e-05,
	"loss": 1.7522,
	"step": 300
	},
	{
	"epoch": 0.8995502248875562,
	"eval_loss": 1.7417070865631104,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9637,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 300
	},
	{
	"epoch": 0.9145427286356822,
	"grad_norm": 1.3364105224609375,
	"learning_rate": 1.1464566929133861e-05,
	"loss": 1.7016,
	"step": 305
	},
	{
	"epoch": 0.9295352323838081,
	"grad_norm": 1.7076566219329834,
	"learning_rate": 1.1307086614173228e-05,
	"loss": 1.7504,
	"step": 310
	},
	{
	"epoch": 0.9445277361319341,
	"grad_norm": 1.397580862045288,
	"learning_rate": 1.1149606299212599e-05,
	"loss": 1.6943,
	"step": 315
	},
	{
	"epoch": 0.95952023988006,
	"grad_norm": 1.4239177703857422,
	"learning_rate": 1.0992125984251969e-05,
	"loss": 1.6791,
	"step": 320
	},
	{
	"epoch": 0.974512743628186,
	"grad_norm": 1.4564177989959717,
	"learning_rate": 1.083464566929134e-05,
	"loss": 1.7237,
	"step": 325
	},
	{
	"epoch": 0.974512743628186,
	"eval_loss": 1.7306653261184692,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0457,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 325
	},
	{
	"epoch": 0.9895052473763118,
	"grad_norm": 1.4340523481369019,
	"learning_rate": 1.067716535433071e-05,
	"loss": 1.7005,
	"step": 330
	},
	{
	"epoch": 1.0029985007496252,
	"grad_norm": 1.3697952032089233,
	"learning_rate": 1.051968503937008e-05,
	"loss": 1.6647,
	"step": 335
	},
	{
	"epoch": 1.0179910044977512,
	"grad_norm": 1.4047369956970215,
	"learning_rate": 1.0362204724409451e-05,
	"loss": 1.7556,
	"step": 340
	},
	{
	"epoch": 1.0329835082458771,
	"grad_norm": 1.493369460105896,
	"learning_rate": 1.0204724409448821e-05,
	"loss": 1.6457,
	"step": 345
	},
	{
	"epoch": 1.047976011994003,
	"grad_norm": 1.6234937906265259,
	"learning_rate": 1.0047244094488188e-05,
	"loss": 1.6274,
	"step": 350
	},
	{
	"epoch": 1.047976011994003,
	"eval_loss": 1.7234022617340088,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.754,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 350
	},
	{
	"epoch": 1.062968515742129,
	"grad_norm": 1.6586315631866455,
	"learning_rate": 9.88976377952756e-06,
	"loss": 1.6198,
	"step": 355
	},
	{
	"epoch": 1.077961019490255,
	"grad_norm": 1.5955413579940796,
	"learning_rate": 9.73228346456693e-06,
	"loss": 1.5932,
	"step": 360
	},
	{
	"epoch": 1.092953523238381,
	"grad_norm": 1.6776100397109985,
	"learning_rate": 9.5748031496063e-06,
	"loss": 1.6465,
	"step": 365
	},
	{
	"epoch": 1.1079460269865067,
	"grad_norm": 1.4672406911849976,
	"learning_rate": 9.41732283464567e-06,
	"loss": 1.6208,
	"step": 370
	},
	{
	"epoch": 1.1229385307346327,
	"grad_norm": 1.507462978363037,
	"learning_rate": 9.259842519685041e-06,
	"loss": 1.6205,
	"step": 375
	},
	{
	"epoch": 1.1229385307346327,
	"eval_loss": 1.7159619331359863,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9627,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 375
	},
	{
	"epoch": 1.1379310344827587,
	"grad_norm": 1.6919342279434204,
	"learning_rate": 9.10236220472441e-06,
	"loss": 1.6921,
	"step": 380
	},
	{
	"epoch": 1.1529235382308847,
	"grad_norm": 1.569090723991394,
	"learning_rate": 8.94488188976378e-06,
	"loss": 1.6457,
	"step": 385
	},
	{
	"epoch": 1.1679160419790104,
	"grad_norm": 1.6199414730072021,
	"learning_rate": 8.78740157480315e-06,
	"loss": 1.6988,
	"step": 390
	},
	{
	"epoch": 1.1829085457271364,
	"grad_norm": 1.4945182800292969,
	"learning_rate": 8.629921259842521e-06,
	"loss": 1.5946,
	"step": 395
	},
	{
	"epoch": 1.1979010494752624,
	"grad_norm": 1.6097604036331177,
	"learning_rate": 8.47244094488189e-06,
	"loss": 1.6567,
	"step": 400
	},
	{
	"epoch": 1.1979010494752624,
	"eval_loss": 1.7092427015304565,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9844,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 400
	},
	{
	"epoch": 1.2128935532233882,
	"grad_norm": 1.5406345129013062,
	"learning_rate": 8.31496062992126e-06,
	"loss": 1.5858,
	"step": 405
	},
	{
	"epoch": 1.2278860569715142,
	"grad_norm": 1.7372868061065674,
	"learning_rate": 8.157480314960631e-06,
	"loss": 1.5864,
	"step": 410
	},
	{
	"epoch": 1.2428785607196402,
	"grad_norm": 1.7523705959320068,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.6189,
	"step": 415
	},
	{
	"epoch": 1.2578710644677662,
	"grad_norm": 1.6225429773330688,
	"learning_rate": 7.84251968503937e-06,
	"loss": 1.5691,
	"step": 420
	},
	{
	"epoch": 1.272863568215892,
	"grad_norm": 1.6807804107666016,
	"learning_rate": 7.68503937007874e-06,
	"loss": 1.5915,
	"step": 425
	},
	{
	"epoch": 1.272863568215892,
	"eval_loss": 1.7035413980484009,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9113,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 425
	},
	{
	"epoch": 1.287856071964018,
	"grad_norm": 1.6341338157653809,
	"learning_rate": 7.527559055118111e-06,
	"loss": 1.5694,
	"step": 430
	},
	{
	"epoch": 1.302848575712144,
	"grad_norm": 1.6684147119522095,
	"learning_rate": 7.3700787401574816e-06,
	"loss": 1.7089,
	"step": 435
	},
	{
	"epoch": 1.31784107946027,
	"grad_norm": 1.7899603843688965,
	"learning_rate": 7.21259842519685e-06,
	"loss": 1.613,
	"step": 440
	},
	{
	"epoch": 1.3328335832083957,
	"grad_norm": 1.667357325553894,
	"learning_rate": 7.055118110236221e-06,
	"loss": 1.6017,
	"step": 445
	},
	{
	"epoch": 1.3478260869565217,
	"grad_norm": 1.6792216300964355,
	"learning_rate": 6.897637795275591e-06,
	"loss": 1.6203,
	"step": 450
	},
	{
	"epoch": 1.3478260869565217,
	"eval_loss": 1.6988191604614258,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.913,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 450
	},
	{
	"epoch": 1.3628185907046477,
	"grad_norm": 1.6012407541275024,
	"learning_rate": 6.740157480314962e-06,
	"loss": 1.6082,
	"step": 455
	},
	{
	"epoch": 1.3778110944527735,
	"grad_norm": 1.7225656509399414,
	"learning_rate": 6.5826771653543306e-06,
	"loss": 1.5841,
	"step": 460
	},
	{
	"epoch": 1.3928035982008995,
	"grad_norm": 1.6564732789993286,
	"learning_rate": 6.425196850393701e-06,
	"loss": 1.7057,
	"step": 465
	},
	{
	"epoch": 1.4077961019490255,
	"grad_norm": 1.5676624774932861,
	"learning_rate": 6.2677165354330715e-06,
	"loss": 1.5861,
	"step": 470
	},
	{
	"epoch": 1.4227886056971515,
	"grad_norm": 1.7391592264175415,
	"learning_rate": 6.110236220472442e-06,
	"loss": 1.6339,
	"step": 475
	},
	{
	"epoch": 1.4227886056971515,
	"eval_loss": 1.6934857368469238,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.8519,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 475
	},
	{
	"epoch": 1.4377811094452775,
	"grad_norm": 1.8171783685684204,
	"learning_rate": 5.952755905511811e-06,
	"loss": 1.5567,
	"step": 480
	},
	{
	"epoch": 1.4527736131934033,
	"grad_norm": 1.6563059091567993,
	"learning_rate": 5.795275590551181e-06,
	"loss": 1.5669,
	"step": 485
	},
	{
	"epoch": 1.4677661169415293,
	"grad_norm": 1.7603881359100342,
	"learning_rate": 5.637795275590552e-06,
	"loss": 1.6006,
	"step": 490
	},
	{
	"epoch": 1.4827586206896552,
	"grad_norm": 1.951175570487976,
	"learning_rate": 5.480314960629922e-06,
	"loss": 1.7085,
	"step": 495
	},
	{
	"epoch": 1.497751124437781,
	"grad_norm": 1.6208112239837646,
	"learning_rate": 5.322834645669291e-06,
	"loss": 1.6304,
	"step": 500
	},
	{
	"epoch": 1.497751124437781,
	"eval_loss": 1.6872224807739258,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9678,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 500
	},
	{
	"epoch": 1.512743628185907,
	"grad_norm": 1.71792471408844,
	"learning_rate": 5.1653543307086615e-06,
	"loss": 1.6648,
	"step": 505
	},
	{
	"epoch": 1.527736131934033,
	"grad_norm": 1.71132493019104,
	"learning_rate": 5.007874015748032e-06,
	"loss": 1.594,
	"step": 510
	},
	{
	"epoch": 1.5427286356821588,
	"grad_norm": 1.6670012474060059,
	"learning_rate": 4.850393700787402e-06,
	"loss": 1.5709,
	"step": 515
	},
	{
	"epoch": 1.557721139430285,
	"grad_norm": 1.6870834827423096,
	"learning_rate": 4.692913385826772e-06,
	"loss": 1.6262,
	"step": 520
	},
	{
	"epoch": 1.5727136431784108,
	"grad_norm": 1.8740547895431519,
	"learning_rate": 4.535433070866142e-06,
	"loss": 1.7051,
	"step": 525
	},
	{
	"epoch": 1.5727136431784108,
	"eval_loss": 1.682806372642517,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0592,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 525
	},
	{
	"epoch": 1.5877061469265368,
	"grad_norm": 1.6121946573257446,
	"learning_rate": 4.377952755905512e-06,
	"loss": 1.577,
	"step": 530
	},
	{
	"epoch": 1.6026986506746628,
	"grad_norm": 1.8216692209243774,
	"learning_rate": 4.220472440944882e-06,
	"loss": 1.5505,
	"step": 535
	},
	{
	"epoch": 1.6176911544227885,
	"grad_norm": 1.7587759494781494,
	"learning_rate": 4.062992125984252e-06,
	"loss": 1.6189,
	"step": 540
	},
	{
	"epoch": 1.6326836581709145,
	"grad_norm": 1.8402221202850342,
	"learning_rate": 3.905511811023622e-06,
	"loss": 1.6749,
	"step": 545
	},
	{
	"epoch": 1.6476761619190405,
	"grad_norm": 1.6589854955673218,
	"learning_rate": 3.748031496062993e-06,
	"loss": 1.7241,
	"step": 550
	},
	{
	"epoch": 1.6476761619190405,
	"eval_loss": 1.6803463697433472,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9675,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 550
	},
	{
	"epoch": 1.6626686656671663,
	"grad_norm": 1.6675294637680054,
	"learning_rate": 3.5905511811023625e-06,
	"loss": 1.5372,
	"step": 555
	},
	{
	"epoch": 1.6776611694152923,
	"grad_norm": 1.6088923215866089,
	"learning_rate": 3.433070866141733e-06,
	"loss": 1.6013,
	"step": 560
	},
	{
	"epoch": 1.6926536731634183,
	"grad_norm": 1.9371333122253418,
	"learning_rate": 3.2755905511811026e-06,
	"loss": 1.7105,
	"step": 565
	},
	{
	"epoch": 1.707646176911544,
	"grad_norm": 1.9125174283981323,
	"learning_rate": 3.118110236220473e-06,
	"loss": 1.6931,
	"step": 570
	},
	{
	"epoch": 1.7226386806596703,
	"grad_norm": 1.805245041847229,
	"learning_rate": 2.9606299212598427e-06,
	"loss": 1.5554,
	"step": 575
	},
	{
	"epoch": 1.7226386806596703,
	"eval_loss": 1.6775026321411133,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9093,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 0.502,
	"step": 575
	},
	{
	"epoch": 1.737631184407796,
	"grad_norm": 1.753201961517334,
	"learning_rate": 2.803149606299213e-06,
	"loss": 1.5935,
	"step": 580
	},
	{
	"epoch": 1.752623688155922,
	"grad_norm": 1.9081984758377075,
	"learning_rate": 2.645669291338583e-06,
	"loss": 1.6316,
	"step": 585
	},
	{
	"epoch": 1.767616191904048,
	"grad_norm": 1.7977555990219116,
	"learning_rate": 2.488188976377953e-06,
	"loss": 1.5451,
	"step": 590
	},
	{
	"epoch": 1.7826086956521738,
	"grad_norm": 1.817696213722229,
	"learning_rate": 2.330708661417323e-06,
	"loss": 1.5799,
	"step": 595
	},
	{
	"epoch": 1.7976011994002998,
	"grad_norm": 1.7235620021820068,
	"learning_rate": 2.173228346456693e-06,
	"loss": 1.6196,
	"step": 600
	},
	{
	"epoch": 1.7976011994002998,
	"eval_loss": 1.6750439405441284,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.07,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 600
	},
	{
	"epoch": 1.8125937031484258,
	"grad_norm": 1.7125576734542847,
	"learning_rate": 2.015748031496063e-06,
	"loss": 1.5546,
	"step": 605
	},
	{
	"epoch": 1.8275862068965516,
	"grad_norm": 1.693699598312378,
	"learning_rate": 1.8582677165354333e-06,
	"loss": 1.5906,
	"step": 610
	},
	{
	"epoch": 1.8425787106446778,
	"grad_norm": 1.7908601760864258,
	"learning_rate": 1.7007874015748034e-06,
	"loss": 1.6616,
	"step": 615
	},
	{
	"epoch": 1.8575712143928036,
	"grad_norm": 1.7427383661270142,
	"learning_rate": 1.5433070866141734e-06,
	"loss": 1.5276,
	"step": 620
	},
	{
	"epoch": 1.8725637181409296,
	"grad_norm": 2.0088937282562256,
	"learning_rate": 1.3858267716535435e-06,
	"loss": 1.5377,
	"step": 625
	},
	{
	"epoch": 1.8725637181409296,
	"eval_loss": 1.673450231552124,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 464.0489,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 625
	},
	{
	"epoch": 1.8875562218890556,
	"grad_norm": 1.863299012184143,
	"learning_rate": 1.2283464566929135e-06,
	"loss": 1.545,
	"step": 630
	},
	{
	"epoch": 1.9025487256371814,
	"grad_norm": 1.5976277589797974,
	"learning_rate": 1.0708661417322836e-06,
	"loss": 1.6201,
	"step": 635
	},
	{
	"epoch": 1.9175412293853074,
	"grad_norm": 1.758497953414917,
	"learning_rate": 9.133858267716536e-07,
	"loss": 1.6426,
	"step": 640
	},
	{
	"epoch": 1.9325337331334334,
	"grad_norm": 1.696065902709961,
	"learning_rate": 7.559055118110237e-07,
	"loss": 1.7097,
	"step": 645
	},
	{
	"epoch": 1.9475262368815591,
	"grad_norm": 1.9475734233856201,
	"learning_rate": 5.984251968503937e-07,
	"loss": 1.6048,
	"step": 650
	},
	{
	"epoch": 1.9475262368815591,
	"eval_loss": 1.6722568273544312,
	"eval_model_preparation_time": 0.0233,
	"eval_runtime": 463.9611,
	"eval_samples_per_second": 2.002,
	"eval_steps_per_second": 0.502,
	"step": 650
	}
	],
	"logging_steps": 5,
	"max_steps": 668,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0005
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 9.115437053132145e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}