Spaces:

navidfalah
/

3AI

Sleeping

App Files Files Community

navidfalah commited on Jul 4, 2025

Commit

71ad36b

1 Parent(s): ef07635

refactor

Browse files

Files changed (1) hide show

model/trainer_state.json +1187 -0

model/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1187 @@

+{
+  "best_global_step": 650,
+  "best_metric": 1.6722568273544312,
+  "best_model_checkpoint": "/content/drive/MyDrive/mistral_aggressive_training/checkpoint-650",
+  "epoch": 1.9475262368815591,
+  "eval_steps": 25,
+  "global_step": 650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.014992503748125937,
+      "grad_norm": 1.3109337091445923,
+      "learning_rate": 2.4242424242424244e-06,
+      "loss": 2.1417,
+      "step": 5
+    },
+    {
+      "epoch": 0.029985007496251874,
+      "grad_norm": 1.2851405143737793,
+      "learning_rate": 5.4545454545454545e-06,
+      "loss": 2.0593,
+      "step": 10
+    },
+    {
+      "epoch": 0.044977511244377814,
+      "grad_norm": 1.3587734699249268,
+      "learning_rate": 8.484848484848486e-06,
+      "loss": 2.0723,
+      "step": 15
+    },
+    {
+      "epoch": 0.05997001499250375,
+      "grad_norm": 1.1362162828445435,
+      "learning_rate": 1.1515151515151517e-05,
+      "loss": 2.0299,
+      "step": 20
+    },
+    {
+      "epoch": 0.07496251874062969,
+      "grad_norm": 1.0861225128173828,
+      "learning_rate": 1.4545454545454546e-05,
+      "loss": 2.0103,
+      "step": 25
+    },
+    {
+      "epoch": 0.07496251874062969,
+      "eval_loss": 1.9985558986663818,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.1818,
+      "eval_samples_per_second": 2.001,
+      "eval_steps_per_second": 0.502,
+      "step": 25
+    },
+    {
+      "epoch": 0.08995502248875563,
+      "grad_norm": 1.1834365129470825,
+      "learning_rate": 1.7575757575757576e-05,
+      "loss": 1.9597,
+      "step": 30
+    },
+    {
+      "epoch": 0.10494752623688156,
+      "grad_norm": 0.9937852025032043,
+      "learning_rate": 1.9968503937007875e-05,
+      "loss": 1.9421,
+      "step": 35
+    },
+    {
+      "epoch": 0.1199400299850075,
+      "grad_norm": 1.0617958307266235,
+      "learning_rate": 1.9811023622047244e-05,
+      "loss": 2.024,
+      "step": 40
+    },
+    {
+      "epoch": 0.13493253373313344,
+      "grad_norm": 1.0851763486862183,
+      "learning_rate": 1.9653543307086616e-05,
+      "loss": 1.8302,
+      "step": 45
+    },
+    {
+      "epoch": 0.14992503748125938,
+      "grad_norm": 1.1397876739501953,
+      "learning_rate": 1.9496062992125985e-05,
+      "loss": 1.9633,
+      "step": 50
+    },
+    {
+      "epoch": 0.14992503748125938,
+      "eval_loss": 1.9225448369979858,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9066,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 50
+    },
+    {
+      "epoch": 0.16491754122938532,
+      "grad_norm": 1.0546423196792603,
+      "learning_rate": 1.9338582677165357e-05,
+      "loss": 1.8928,
+      "step": 55
+    },
+    {
+      "epoch": 0.17991004497751126,
+      "grad_norm": 1.0976288318634033,
+      "learning_rate": 1.9181102362204726e-05,
+      "loss": 1.8646,
+      "step": 60
+    },
+    {
+      "epoch": 0.19490254872563717,
+      "grad_norm": 1.0164967775344849,
+      "learning_rate": 1.9023622047244098e-05,
+      "loss": 1.9247,
+      "step": 65
+    },
+    {
+      "epoch": 0.2098950524737631,
+      "grad_norm": 1.0609030723571777,
+      "learning_rate": 1.8866141732283464e-05,
+      "loss": 1.8895,
+      "step": 70
+    },
+    {
+      "epoch": 0.22488755622188905,
+      "grad_norm": 1.2414894104003906,
+      "learning_rate": 1.8708661417322836e-05,
+      "loss": 1.9753,
+      "step": 75
+    },
+    {
+      "epoch": 0.22488755622188905,
+      "eval_loss": 1.8853719234466553,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.658,
+      "eval_samples_per_second": 2.004,
+      "eval_steps_per_second": 0.503,
+      "step": 75
+    },
+    {
+      "epoch": 0.239880059970015,
+      "grad_norm": 1.1238614320755005,
+      "learning_rate": 1.8551181102362205e-05,
+      "loss": 1.8656,
+      "step": 80
+    },
+    {
+      "epoch": 0.25487256371814093,
+      "grad_norm": 1.143813967704773,
+      "learning_rate": 1.8393700787401577e-05,
+      "loss": 1.8317,
+      "step": 85
+    },
+    {
+      "epoch": 0.2698650674662669,
+      "grad_norm": 1.2623740434646606,
+      "learning_rate": 1.8236220472440946e-05,
+      "loss": 1.8669,
+      "step": 90
+    },
+    {
+      "epoch": 0.2848575712143928,
+      "grad_norm": 1.04632568359375,
+      "learning_rate": 1.8078740157480318e-05,
+      "loss": 1.7412,
+      "step": 95
+    },
+    {
+      "epoch": 0.29985007496251875,
+      "grad_norm": 1.0752465724945068,
+      "learning_rate": 1.7921259842519687e-05,
+      "loss": 1.808,
+      "step": 100
+    },
+    {
+      "epoch": 0.29985007496251875,
+      "eval_loss": 1.8590933084487915,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9821,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 100
+    },
+    {
+      "epoch": 0.3148425787106447,
+      "grad_norm": 1.1382629871368408,
+      "learning_rate": 1.776377952755906e-05,
+      "loss": 1.8629,
+      "step": 105
+    },
+    {
+      "epoch": 0.32983508245877063,
+      "grad_norm": 1.4844969511032104,
+      "learning_rate": 1.7606299212598424e-05,
+      "loss": 1.8546,
+      "step": 110
+    },
+    {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 1.1989675760269165,
+      "learning_rate": 1.7448818897637796e-05,
+      "loss": 1.8497,
+      "step": 115
+    },
+    {
+      "epoch": 0.3598200899550225,
+      "grad_norm": 1.2271519899368286,
+      "learning_rate": 1.7291338582677165e-05,
+      "loss": 1.896,
+      "step": 120
+    },
+    {
+      "epoch": 0.3748125937031484,
+      "grad_norm": 1.179254412651062,
+      "learning_rate": 1.7133858267716537e-05,
+      "loss": 1.8161,
+      "step": 125
+    },
+    {
+      "epoch": 0.3748125937031484,
+      "eval_loss": 1.836364507675171,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.1432,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 125
+    },
+    {
+      "epoch": 0.38980509745127434,
+      "grad_norm": 1.3870253562927246,
+      "learning_rate": 1.6976377952755906e-05,
+      "loss": 1.8299,
+      "step": 130
+    },
+    {
+      "epoch": 0.4047976011994003,
+      "grad_norm": 1.1159974336624146,
+      "learning_rate": 1.6818897637795278e-05,
+      "loss": 1.7106,
+      "step": 135
+    },
+    {
+      "epoch": 0.4197901049475262,
+      "grad_norm": 1.2132537364959717,
+      "learning_rate": 1.6661417322834647e-05,
+      "loss": 1.8106,
+      "step": 140
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 1.180285930633545,
+      "learning_rate": 1.650393700787402e-05,
+      "loss": 1.7911,
+      "step": 145
+    },
+    {
+      "epoch": 0.4497751124437781,
+      "grad_norm": 1.2773538827896118,
+      "learning_rate": 1.6346456692913385e-05,
+      "loss": 1.8412,
+      "step": 150
+    },
+    {
+      "epoch": 0.4497751124437781,
+      "eval_loss": 1.817762017250061,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.8218,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 150
+    },
+    {
+      "epoch": 0.46476761619190404,
+      "grad_norm": 1.2192872762680054,
+      "learning_rate": 1.6188976377952757e-05,
+      "loss": 1.8606,
+      "step": 155
+    },
+    {
+      "epoch": 0.47976011994003,
+      "grad_norm": 1.4267574548721313,
+      "learning_rate": 1.6031496062992126e-05,
+      "loss": 1.8088,
+      "step": 160
+    },
+    {
+      "epoch": 0.4947526236881559,
+      "grad_norm": 1.4275727272033691,
+      "learning_rate": 1.5874015748031498e-05,
+      "loss": 1.7979,
+      "step": 165
+    },
+    {
+      "epoch": 0.5097451274362819,
+      "grad_norm": 1.3130961656570435,
+      "learning_rate": 1.5716535433070866e-05,
+      "loss": 1.8059,
+      "step": 170
+    },
+    {
+      "epoch": 0.5247376311844077,
+      "grad_norm": 1.2740048170089722,
+      "learning_rate": 1.555905511811024e-05,
+      "loss": 1.7689,
+      "step": 175
+    },
+    {
+      "epoch": 0.5247376311844077,
+      "eval_loss": 1.801321268081665,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.8247,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 175
+    },
+    {
+      "epoch": 0.5397301349325337,
+      "grad_norm": 1.1887905597686768,
+      "learning_rate": 1.5401574803149607e-05,
+      "loss": 1.7052,
+      "step": 180
+    },
+    {
+      "epoch": 0.5547226386806596,
+      "grad_norm": 1.3410052061080933,
+      "learning_rate": 1.5244094488188978e-05,
+      "loss": 1.7916,
+      "step": 185
+    },
+    {
+      "epoch": 0.5697151424287856,
+      "grad_norm": 1.2976702451705933,
+      "learning_rate": 1.5086614173228347e-05,
+      "loss": 1.6751,
+      "step": 190
+    },
+    {
+      "epoch": 0.5847076461769115,
+      "grad_norm": 1.3378161191940308,
+      "learning_rate": 1.4929133858267717e-05,
+      "loss": 1.6846,
+      "step": 195
+    },
+    {
+      "epoch": 0.5997001499250375,
+      "grad_norm": 1.3700908422470093,
+      "learning_rate": 1.4771653543307088e-05,
+      "loss": 1.7537,
+      "step": 200
+    },
+    {
+      "epoch": 0.5997001499250375,
+      "eval_loss": 1.786393165588379,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0429,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 200
+    },
+    {
+      "epoch": 0.6146926536731634,
+      "grad_norm": 1.3000359535217285,
+      "learning_rate": 1.4614173228346458e-05,
+      "loss": 1.7362,
+      "step": 205
+    },
+    {
+      "epoch": 0.6296851574212894,
+      "grad_norm": 1.3432403802871704,
+      "learning_rate": 1.4456692913385829e-05,
+      "loss": 1.7752,
+      "step": 210
+    },
+    {
+      "epoch": 0.6446776611694153,
+      "grad_norm": 1.4008256196975708,
+      "learning_rate": 1.4299212598425199e-05,
+      "loss": 1.7294,
+      "step": 215
+    },
+    {
+      "epoch": 0.6596701649175413,
+      "grad_norm": 1.2891970872879028,
+      "learning_rate": 1.4141732283464568e-05,
+      "loss": 1.7085,
+      "step": 220
+    },
+    {
+      "epoch": 0.6746626686656672,
+      "grad_norm": 1.1324400901794434,
+      "learning_rate": 1.3984251968503938e-05,
+      "loss": 1.7697,
+      "step": 225
+    },
+    {
+      "epoch": 0.6746626686656672,
+      "eval_loss": 1.7725938558578491,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0819,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 225
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 1.4434219598770142,
+      "learning_rate": 1.3826771653543307e-05,
+      "loss": 1.7308,
+      "step": 230
+    },
+    {
+      "epoch": 0.704647676161919,
+      "grad_norm": 1.3460474014282227,
+      "learning_rate": 1.3669291338582678e-05,
+      "loss": 1.7323,
+      "step": 235
+    },
+    {
+      "epoch": 0.719640179910045,
+      "grad_norm": 1.2641957998275757,
+      "learning_rate": 1.3511811023622048e-05,
+      "loss": 1.6987,
+      "step": 240
+    },
+    {
+      "epoch": 0.7346326836581709,
+      "grad_norm": 1.3505923748016357,
+      "learning_rate": 1.3354330708661419e-05,
+      "loss": 1.6961,
+      "step": 245
+    },
+    {
+      "epoch": 0.7496251874062968,
+      "grad_norm": 1.4946131706237793,
+      "learning_rate": 1.3196850393700789e-05,
+      "loss": 1.733,
+      "step": 250
+    },
+    {
+      "epoch": 0.7496251874062968,
+      "eval_loss": 1.7611132860183716,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.8197,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 250
+    },
+    {
+      "epoch": 0.7646176911544228,
+      "grad_norm": 1.433475375175476,
+      "learning_rate": 1.303937007874016e-05,
+      "loss": 1.8026,
+      "step": 255
+    },
+    {
+      "epoch": 0.7796101949025487,
+      "grad_norm": 1.448909044265747,
+      "learning_rate": 1.288188976377953e-05,
+      "loss": 1.7112,
+      "step": 260
+    },
+    {
+      "epoch": 0.7946026986506747,
+      "grad_norm": 1.3357568979263306,
+      "learning_rate": 1.2724409448818899e-05,
+      "loss": 1.6413,
+      "step": 265
+    },
+    {
+      "epoch": 0.8095952023988006,
+      "grad_norm": 1.4122332334518433,
+      "learning_rate": 1.2566929133858268e-05,
+      "loss": 1.7038,
+      "step": 270
+    },
+    {
+      "epoch": 0.8245877061469266,
+      "grad_norm": 1.5254954099655151,
+      "learning_rate": 1.2409448818897638e-05,
+      "loss": 1.6762,
+      "step": 275
+    },
+    {
+      "epoch": 0.8245877061469266,
+      "eval_loss": 1.7509944438934326,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0835,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 275
+    },
+    {
+      "epoch": 0.8395802098950524,
+      "grad_norm": 1.4556777477264404,
+      "learning_rate": 1.2251968503937009e-05,
+      "loss": 1.7421,
+      "step": 280
+    },
+    {
+      "epoch": 0.8545727136431784,
+      "grad_norm": 1.2593179941177368,
+      "learning_rate": 1.2094488188976379e-05,
+      "loss": 1.7368,
+      "step": 285
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.5513230562210083,
+      "learning_rate": 1.193700787401575e-05,
+      "loss": 1.6937,
+      "step": 290
+    },
+    {
+      "epoch": 0.8845577211394303,
+      "grad_norm": 1.450356125831604,
+      "learning_rate": 1.177952755905512e-05,
+      "loss": 1.6819,
+      "step": 295
+    },
+    {
+      "epoch": 0.8995502248875562,
+      "grad_norm": 1.4953676462173462,
+      "learning_rate": 1.162204724409449e-05,
+      "loss": 1.7522,
+      "step": 300
+    },
+    {
+      "epoch": 0.8995502248875562,
+      "eval_loss": 1.7417070865631104,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9637,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 300
+    },
+    {
+      "epoch": 0.9145427286356822,
+      "grad_norm": 1.3364105224609375,
+      "learning_rate": 1.1464566929133861e-05,
+      "loss": 1.7016,
+      "step": 305
+    },
+    {
+      "epoch": 0.9295352323838081,
+      "grad_norm": 1.7076566219329834,
+      "learning_rate": 1.1307086614173228e-05,
+      "loss": 1.7504,
+      "step": 310
+    },
+    {
+      "epoch": 0.9445277361319341,
+      "grad_norm": 1.397580862045288,
+      "learning_rate": 1.1149606299212599e-05,
+      "loss": 1.6943,
+      "step": 315
+    },
+    {
+      "epoch": 0.95952023988006,
+      "grad_norm": 1.4239177703857422,
+      "learning_rate": 1.0992125984251969e-05,
+      "loss": 1.6791,
+      "step": 320
+    },
+    {
+      "epoch": 0.974512743628186,
+      "grad_norm": 1.4564177989959717,
+      "learning_rate": 1.083464566929134e-05,
+      "loss": 1.7237,
+      "step": 325
+    },
+    {
+      "epoch": 0.974512743628186,
+      "eval_loss": 1.7306653261184692,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0457,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 325
+    },
+    {
+      "epoch": 0.9895052473763118,
+      "grad_norm": 1.4340523481369019,
+      "learning_rate": 1.067716535433071e-05,
+      "loss": 1.7005,
+      "step": 330
+    },
+    {
+      "epoch": 1.0029985007496252,
+      "grad_norm": 1.3697952032089233,
+      "learning_rate": 1.051968503937008e-05,
+      "loss": 1.6647,
+      "step": 335
+    },
+    {
+      "epoch": 1.0179910044977512,
+      "grad_norm": 1.4047369956970215,
+      "learning_rate": 1.0362204724409451e-05,
+      "loss": 1.7556,
+      "step": 340
+    },
+    {
+      "epoch": 1.0329835082458771,
+      "grad_norm": 1.493369460105896,
+      "learning_rate": 1.0204724409448821e-05,
+      "loss": 1.6457,
+      "step": 345
+    },
+    {
+      "epoch": 1.047976011994003,
+      "grad_norm": 1.6234937906265259,
+      "learning_rate": 1.0047244094488188e-05,
+      "loss": 1.6274,
+      "step": 350
+    },
+    {
+      "epoch": 1.047976011994003,
+      "eval_loss": 1.7234022617340088,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.754,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 350
+    },
+    {
+      "epoch": 1.062968515742129,
+      "grad_norm": 1.6586315631866455,
+      "learning_rate": 9.88976377952756e-06,
+      "loss": 1.6198,
+      "step": 355
+    },
+    {
+      "epoch": 1.077961019490255,
+      "grad_norm": 1.5955413579940796,
+      "learning_rate": 9.73228346456693e-06,
+      "loss": 1.5932,
+      "step": 360
+    },
+    {
+      "epoch": 1.092953523238381,
+      "grad_norm": 1.6776100397109985,
+      "learning_rate": 9.5748031496063e-06,
+      "loss": 1.6465,
+      "step": 365
+    },
+    {
+      "epoch": 1.1079460269865067,
+      "grad_norm": 1.4672406911849976,
+      "learning_rate": 9.41732283464567e-06,
+      "loss": 1.6208,
+      "step": 370
+    },
+    {
+      "epoch": 1.1229385307346327,
+      "grad_norm": 1.507462978363037,
+      "learning_rate": 9.259842519685041e-06,
+      "loss": 1.6205,
+      "step": 375
+    },
+    {
+      "epoch": 1.1229385307346327,
+      "eval_loss": 1.7159619331359863,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9627,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 375
+    },
+    {
+      "epoch": 1.1379310344827587,
+      "grad_norm": 1.6919342279434204,
+      "learning_rate": 9.10236220472441e-06,
+      "loss": 1.6921,
+      "step": 380
+    },
+    {
+      "epoch": 1.1529235382308847,
+      "grad_norm": 1.569090723991394,
+      "learning_rate": 8.94488188976378e-06,
+      "loss": 1.6457,
+      "step": 385
+    },
+    {
+      "epoch": 1.1679160419790104,
+      "grad_norm": 1.6199414730072021,
+      "learning_rate": 8.78740157480315e-06,
+      "loss": 1.6988,
+      "step": 390
+    },
+    {
+      "epoch": 1.1829085457271364,
+      "grad_norm": 1.4945182800292969,
+      "learning_rate": 8.629921259842521e-06,
+      "loss": 1.5946,
+      "step": 395
+    },
+    {
+      "epoch": 1.1979010494752624,
+      "grad_norm": 1.6097604036331177,
+      "learning_rate": 8.47244094488189e-06,
+      "loss": 1.6567,
+      "step": 400
+    },
+    {
+      "epoch": 1.1979010494752624,
+      "eval_loss": 1.7092427015304565,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9844,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 400
+    },
+    {
+      "epoch": 1.2128935532233882,
+      "grad_norm": 1.5406345129013062,
+      "learning_rate": 8.31496062992126e-06,
+      "loss": 1.5858,
+      "step": 405
+    },
+    {
+      "epoch": 1.2278860569715142,
+      "grad_norm": 1.7372868061065674,
+      "learning_rate": 8.157480314960631e-06,
+      "loss": 1.5864,
+      "step": 410
+    },
+    {
+      "epoch": 1.2428785607196402,
+      "grad_norm": 1.7523705959320068,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.6189,
+      "step": 415
+    },
+    {
+      "epoch": 1.2578710644677662,
+      "grad_norm": 1.6225429773330688,
+      "learning_rate": 7.84251968503937e-06,
+      "loss": 1.5691,
+      "step": 420
+    },
+    {
+      "epoch": 1.272863568215892,
+      "grad_norm": 1.6807804107666016,
+      "learning_rate": 7.68503937007874e-06,
+      "loss": 1.5915,
+      "step": 425
+    },
+    {
+      "epoch": 1.272863568215892,
+      "eval_loss": 1.7035413980484009,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9113,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 425
+    },
+    {
+      "epoch": 1.287856071964018,
+      "grad_norm": 1.6341338157653809,
+      "learning_rate": 7.527559055118111e-06,
+      "loss": 1.5694,
+      "step": 430
+    },
+    {
+      "epoch": 1.302848575712144,
+      "grad_norm": 1.6684147119522095,
+      "learning_rate": 7.3700787401574816e-06,
+      "loss": 1.7089,
+      "step": 435
+    },
+    {
+      "epoch": 1.31784107946027,
+      "grad_norm": 1.7899603843688965,
+      "learning_rate": 7.21259842519685e-06,
+      "loss": 1.613,
+      "step": 440
+    },
+    {
+      "epoch": 1.3328335832083957,
+      "grad_norm": 1.667357325553894,
+      "learning_rate": 7.055118110236221e-06,
+      "loss": 1.6017,
+      "step": 445
+    },
+    {
+      "epoch": 1.3478260869565217,
+      "grad_norm": 1.6792216300964355,
+      "learning_rate": 6.897637795275591e-06,
+      "loss": 1.6203,
+      "step": 450
+    },
+    {
+      "epoch": 1.3478260869565217,
+      "eval_loss": 1.6988191604614258,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.913,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 450
+    },
+    {
+      "epoch": 1.3628185907046477,
+      "grad_norm": 1.6012407541275024,
+      "learning_rate": 6.740157480314962e-06,
+      "loss": 1.6082,
+      "step": 455
+    },
+    {
+      "epoch": 1.3778110944527735,
+      "grad_norm": 1.7225656509399414,
+      "learning_rate": 6.5826771653543306e-06,
+      "loss": 1.5841,
+      "step": 460
+    },
+    {
+      "epoch": 1.3928035982008995,
+      "grad_norm": 1.6564732789993286,
+      "learning_rate": 6.425196850393701e-06,
+      "loss": 1.7057,
+      "step": 465
+    },
+    {
+      "epoch": 1.4077961019490255,
+      "grad_norm": 1.5676624774932861,
+      "learning_rate": 6.2677165354330715e-06,
+      "loss": 1.5861,
+      "step": 470
+    },
+    {
+      "epoch": 1.4227886056971515,
+      "grad_norm": 1.7391592264175415,
+      "learning_rate": 6.110236220472442e-06,
+      "loss": 1.6339,
+      "step": 475
+    },
+    {
+      "epoch": 1.4227886056971515,
+      "eval_loss": 1.6934857368469238,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.8519,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 475
+    },
+    {
+      "epoch": 1.4377811094452775,
+      "grad_norm": 1.8171783685684204,
+      "learning_rate": 5.952755905511811e-06,
+      "loss": 1.5567,
+      "step": 480
+    },
+    {
+      "epoch": 1.4527736131934033,
+      "grad_norm": 1.6563059091567993,
+      "learning_rate": 5.795275590551181e-06,
+      "loss": 1.5669,
+      "step": 485
+    },
+    {
+      "epoch": 1.4677661169415293,
+      "grad_norm": 1.7603881359100342,
+      "learning_rate": 5.637795275590552e-06,
+      "loss": 1.6006,
+      "step": 490
+    },
+    {
+      "epoch": 1.4827586206896552,
+      "grad_norm": 1.951175570487976,
+      "learning_rate": 5.480314960629922e-06,
+      "loss": 1.7085,
+      "step": 495
+    },
+    {
+      "epoch": 1.497751124437781,
+      "grad_norm": 1.6208112239837646,
+      "learning_rate": 5.322834645669291e-06,
+      "loss": 1.6304,
+      "step": 500
+    },
+    {
+      "epoch": 1.497751124437781,
+      "eval_loss": 1.6872224807739258,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9678,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 500
+    },
+    {
+      "epoch": 1.512743628185907,
+      "grad_norm": 1.71792471408844,
+      "learning_rate": 5.1653543307086615e-06,
+      "loss": 1.6648,
+      "step": 505
+    },
+    {
+      "epoch": 1.527736131934033,
+      "grad_norm": 1.71132493019104,
+      "learning_rate": 5.007874015748032e-06,
+      "loss": 1.594,
+      "step": 510
+    },
+    {
+      "epoch": 1.5427286356821588,
+      "grad_norm": 1.6670012474060059,
+      "learning_rate": 4.850393700787402e-06,
+      "loss": 1.5709,
+      "step": 515
+    },
+    {
+      "epoch": 1.557721139430285,
+      "grad_norm": 1.6870834827423096,
+      "learning_rate": 4.692913385826772e-06,
+      "loss": 1.6262,
+      "step": 520
+    },
+    {
+      "epoch": 1.5727136431784108,
+      "grad_norm": 1.8740547895431519,
+      "learning_rate": 4.535433070866142e-06,
+      "loss": 1.7051,
+      "step": 525
+    },
+    {
+      "epoch": 1.5727136431784108,
+      "eval_loss": 1.682806372642517,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0592,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 525
+    },
+    {
+      "epoch": 1.5877061469265368,
+      "grad_norm": 1.6121946573257446,
+      "learning_rate": 4.377952755905512e-06,
+      "loss": 1.577,
+      "step": 530
+    },
+    {
+      "epoch": 1.6026986506746628,
+      "grad_norm": 1.8216692209243774,
+      "learning_rate": 4.220472440944882e-06,
+      "loss": 1.5505,
+      "step": 535
+    },
+    {
+      "epoch": 1.6176911544227885,
+      "grad_norm": 1.7587759494781494,
+      "learning_rate": 4.062992125984252e-06,
+      "loss": 1.6189,
+      "step": 540
+    },
+    {
+      "epoch": 1.6326836581709145,
+      "grad_norm": 1.8402221202850342,
+      "learning_rate": 3.905511811023622e-06,
+      "loss": 1.6749,
+      "step": 545
+    },
+    {
+      "epoch": 1.6476761619190405,
+      "grad_norm": 1.6589854955673218,
+      "learning_rate": 3.748031496062993e-06,
+      "loss": 1.7241,
+      "step": 550
+    },
+    {
+      "epoch": 1.6476761619190405,
+      "eval_loss": 1.6803463697433472,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9675,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 550
+    },
+    {
+      "epoch": 1.6626686656671663,
+      "grad_norm": 1.6675294637680054,
+      "learning_rate": 3.5905511811023625e-06,
+      "loss": 1.5372,
+      "step": 555
+    },
+    {
+      "epoch": 1.6776611694152923,
+      "grad_norm": 1.6088923215866089,
+      "learning_rate": 3.433070866141733e-06,
+      "loss": 1.6013,
+      "step": 560
+    },
+    {
+      "epoch": 1.6926536731634183,
+      "grad_norm": 1.9371333122253418,
+      "learning_rate": 3.2755905511811026e-06,
+      "loss": 1.7105,
+      "step": 565
+    },
+    {
+      "epoch": 1.707646176911544,
+      "grad_norm": 1.9125174283981323,
+      "learning_rate": 3.118110236220473e-06,
+      "loss": 1.6931,
+      "step": 570
+    },
+    {
+      "epoch": 1.7226386806596703,
+      "grad_norm": 1.805245041847229,
+      "learning_rate": 2.9606299212598427e-06,
+      "loss": 1.5554,
+      "step": 575
+    },
+    {
+      "epoch": 1.7226386806596703,
+      "eval_loss": 1.6775026321411133,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9093,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 0.502,
+      "step": 575
+    },
+    {
+      "epoch": 1.737631184407796,
+      "grad_norm": 1.753201961517334,
+      "learning_rate": 2.803149606299213e-06,
+      "loss": 1.5935,
+      "step": 580
+    },
+    {
+      "epoch": 1.752623688155922,
+      "grad_norm": 1.9081984758377075,
+      "learning_rate": 2.645669291338583e-06,
+      "loss": 1.6316,
+      "step": 585
+    },
+    {
+      "epoch": 1.767616191904048,
+      "grad_norm": 1.7977555990219116,
+      "learning_rate": 2.488188976377953e-06,
+      "loss": 1.5451,
+      "step": 590
+    },
+    {
+      "epoch": 1.7826086956521738,
+      "grad_norm": 1.817696213722229,
+      "learning_rate": 2.330708661417323e-06,
+      "loss": 1.5799,
+      "step": 595
+    },
+    {
+      "epoch": 1.7976011994002998,
+      "grad_norm": 1.7235620021820068,
+      "learning_rate": 2.173228346456693e-06,
+      "loss": 1.6196,
+      "step": 600
+    },
+    {
+      "epoch": 1.7976011994002998,
+      "eval_loss": 1.6750439405441284,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.07,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 600
+    },
+    {
+      "epoch": 1.8125937031484258,
+      "grad_norm": 1.7125576734542847,
+      "learning_rate": 2.015748031496063e-06,
+      "loss": 1.5546,
+      "step": 605
+    },
+    {
+      "epoch": 1.8275862068965516,
+      "grad_norm": 1.693699598312378,
+      "learning_rate": 1.8582677165354333e-06,
+      "loss": 1.5906,
+      "step": 610
+    },
+    {
+      "epoch": 1.8425787106446778,
+      "grad_norm": 1.7908601760864258,
+      "learning_rate": 1.7007874015748034e-06,
+      "loss": 1.6616,
+      "step": 615
+    },
+    {
+      "epoch": 1.8575712143928036,
+      "grad_norm": 1.7427383661270142,
+      "learning_rate": 1.5433070866141734e-06,
+      "loss": 1.5276,
+      "step": 620
+    },
+    {
+      "epoch": 1.8725637181409296,
+      "grad_norm": 2.0088937282562256,
+      "learning_rate": 1.3858267716535435e-06,
+      "loss": 1.5377,
+      "step": 625
+    },
+    {
+      "epoch": 1.8725637181409296,
+      "eval_loss": 1.673450231552124,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 464.0489,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 625
+    },
+    {
+      "epoch": 1.8875562218890556,
+      "grad_norm": 1.863299012184143,
+      "learning_rate": 1.2283464566929135e-06,
+      "loss": 1.545,
+      "step": 630
+    },
+    {
+      "epoch": 1.9025487256371814,
+      "grad_norm": 1.5976277589797974,
+      "learning_rate": 1.0708661417322836e-06,
+      "loss": 1.6201,
+      "step": 635
+    },
+    {
+      "epoch": 1.9175412293853074,
+      "grad_norm": 1.758497953414917,
+      "learning_rate": 9.133858267716536e-07,
+      "loss": 1.6426,
+      "step": 640
+    },
+    {
+      "epoch": 1.9325337331334334,
+      "grad_norm": 1.696065902709961,
+      "learning_rate": 7.559055118110237e-07,
+      "loss": 1.7097,
+      "step": 645
+    },
+    {
+      "epoch": 1.9475262368815591,
+      "grad_norm": 1.9475734233856201,
+      "learning_rate": 5.984251968503937e-07,
+      "loss": 1.6048,
+      "step": 650
+    },
+    {
+      "epoch": 1.9475262368815591,
+      "eval_loss": 1.6722568273544312,
+      "eval_model_preparation_time": 0.0233,
+      "eval_runtime": 463.9611,
+      "eval_samples_per_second": 2.002,
+      "eval_steps_per_second": 0.502,
+      "step": 650
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 668,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0005
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.115437053132145e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}