exp3_code_only / trainer_state.json

Uploading model checkpoint

2a2cd2e verified 10 months ago

160 kB

	{
	"best_metric": 0.6652334928512573,
	"best_model_checkpoint": "/l/users/visionlanguage/mostafa_ciai/hf_checkpoints_code_ciai_gemma2/checkpoint-1700",
	"epoch": 5.994075260208167,
	"eval_steps": 50,
	"global_step": 1752,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006832132372564718,
	"grad_norm": 93.82548522949219,
	"learning_rate": 2.777777777777778e-06,
	"loss": 208.4052,
	"step": 2
	},
	{
	"epoch": 0.013664264745129436,
	"grad_norm": 65.51689147949219,
	"learning_rate": 5.555555555555556e-06,
	"loss": 194.4831,
	"step": 4
	},
	{
	"epoch": 0.020496397117694156,
	"grad_norm": 30.816993713378906,
	"learning_rate": 8.333333333333334e-06,
	"loss": 159.6516,
	"step": 6
	},
	{
	"epoch": 0.027328529490258872,
	"grad_norm": 30.113662719726562,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 145.5557,
	"step": 8
	},
	{
	"epoch": 0.03416066186282359,
	"grad_norm": 22.37295150756836,
	"learning_rate": 1.388888888888889e-05,
	"loss": 128.5444,
	"step": 10
	},
	{
	"epoch": 0.04099279423538831,
	"grad_norm": 22.287870407104492,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 116.2723,
	"step": 12
	},
	{
	"epoch": 0.04782492660795303,
	"grad_norm": 16.027904510498047,
	"learning_rate": 1.9444444444444445e-05,
	"loss": 107.5451,
	"step": 14
	},
	{
	"epoch": 0.054657058980517745,
	"grad_norm": 17.97212791442871,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 100.7136,
	"step": 16
	},
	{
	"epoch": 0.061489191353082465,
	"grad_norm": 15.427449226379395,
	"learning_rate": 2.5e-05,
	"loss": 96.4422,
	"step": 18
	},
	{
	"epoch": 0.06832132372564718,
	"grad_norm": 11.836018562316895,
	"learning_rate": 2.777777777777778e-05,
	"loss": 89.9874,
	"step": 20
	},
	{
	"epoch": 0.0751534560982119,
	"grad_norm": 13.170073509216309,
	"learning_rate": 3.055555555555556e-05,
	"loss": 90.5263,
	"step": 22
	},
	{
	"epoch": 0.08198558847077662,
	"grad_norm": 12.781464576721191,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 87.3144,
	"step": 24
	},
	{
	"epoch": 0.08881772084334134,
	"grad_norm": 11.460458755493164,
	"learning_rate": 3.611111111111111e-05,
	"loss": 85.6209,
	"step": 26
	},
	{
	"epoch": 0.09564985321590606,
	"grad_norm": 10.382000923156738,
	"learning_rate": 3.888888888888889e-05,
	"loss": 88.2803,
	"step": 28
	},
	{
	"epoch": 0.10248198558847077,
	"grad_norm": 10.578895568847656,
	"learning_rate": 4.166666666666667e-05,
	"loss": 80.589,
	"step": 30
	},
	{
	"epoch": 0.10931411796103549,
	"grad_norm": 10.231274604797363,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 83.0791,
	"step": 32
	},
	{
	"epoch": 0.11614625033360021,
	"grad_norm": 13.121459007263184,
	"learning_rate": 4.722222222222222e-05,
	"loss": 81.0775,
	"step": 34
	},
	{
	"epoch": 0.12297838270616493,
	"grad_norm": 11.594988822937012,
	"learning_rate": 5e-05,
	"loss": 79.3985,
	"step": 36
	},
	{
	"epoch": 0.12981051507872965,
	"grad_norm": 10.554534912109375,
	"learning_rate": 4.9999832415172185e-05,
	"loss": 78.9732,
	"step": 38
	},
	{
	"epoch": 0.13664264745129437,
	"grad_norm": 9.661481857299805,
	"learning_rate": 4.9999329662935534e-05,
	"loss": 77.5229,
	"step": 40
	},
	{
	"epoch": 0.1434747798238591,
	"grad_norm": 11.10251235961914,
	"learning_rate": 4.9998491750030315e-05,
	"loss": 77.7747,
	"step": 42
	},
	{
	"epoch": 0.1503069121964238,
	"grad_norm": 9.058899879455566,
	"learning_rate": 4.999731868769027e-05,
	"loss": 79.2141,
	"step": 44
	},
	{
	"epoch": 0.15713904456898853,
	"grad_norm": 9.254643440246582,
	"learning_rate": 4.999581049164237e-05,
	"loss": 77.5962,
	"step": 46
	},
	{
	"epoch": 0.16397117694155325,
	"grad_norm": 10.37578010559082,
	"learning_rate": 4.99939671821067e-05,
	"loss": 76.6356,
	"step": 48
	},
	{
	"epoch": 0.17080330931411797,
	"grad_norm": 9.983922004699707,
	"learning_rate": 4.999178878379611e-05,
	"loss": 76.0763,
	"step": 50
	},
	{
	"epoch": 0.17080330931411797,
	"eval_loss": 1.20554518699646,
	"eval_runtime": 119.3115,
	"eval_samples_per_second": 33.065,
	"eval_steps_per_second": 8.272,
	"step": 50
	},
	{
	"epoch": 0.1776354416866827,
	"grad_norm": 9.109485626220703,
	"learning_rate": 4.998927532591592e-05,
	"loss": 75.2524,
	"step": 52
	},
	{
	"epoch": 0.1844675740592474,
	"grad_norm": 8.939992904663086,
	"learning_rate": 4.9986426842163515e-05,
	"loss": 75.8614,
	"step": 54
	},
	{
	"epoch": 0.19129970643181213,
	"grad_norm": 8.342733383178711,
	"learning_rate": 4.9983243370727914e-05,
	"loss": 72.864,
	"step": 56
	},
	{
	"epoch": 0.19813183880437685,
	"grad_norm": 7.625518321990967,
	"learning_rate": 4.9979724954289244e-05,
	"loss": 75.7165,
	"step": 58
	},
	{
	"epoch": 0.20496397117694154,
	"grad_norm": 6.545467853546143,
	"learning_rate": 4.9975871640018154e-05,
	"loss": 72.337,
	"step": 60
	},
	{
	"epoch": 0.21179610354950626,
	"grad_norm": 8.73936939239502,
	"learning_rate": 4.99716834795752e-05,
	"loss": 73.0804,
	"step": 62
	},
	{
	"epoch": 0.21862823592207098,
	"grad_norm": 7.599481105804443,
	"learning_rate": 4.996716052911017e-05,
	"loss": 71.3494,
	"step": 64
	},
	{
	"epoch": 0.2254603682946357,
	"grad_norm": 8.88508415222168,
	"learning_rate": 4.996230284926128e-05,
	"loss": 73.4886,
	"step": 66
	},
	{
	"epoch": 0.23229250066720042,
	"grad_norm": 7.141696453094482,
	"learning_rate": 4.99571105051544e-05,
	"loss": 73.0934,
	"step": 68
	},
	{
	"epoch": 0.23912463303976514,
	"grad_norm": 8.946745872497559,
	"learning_rate": 4.99515835664022e-05,
	"loss": 70.5761,
	"step": 70
	},
	{
	"epoch": 0.24595676541232986,
	"grad_norm": 7.428682804107666,
	"learning_rate": 4.994572210710315e-05,
	"loss": 69.8488,
	"step": 72
	},
	{
	"epoch": 0.2527888977848946,
	"grad_norm": 10.490913391113281,
	"learning_rate": 4.993952620584058e-05,
	"loss": 72.1602,
	"step": 74
	},
	{
	"epoch": 0.2596210301574593,
	"grad_norm": 6.010617733001709,
	"learning_rate": 4.993299594568163e-05,
	"loss": 70.0962,
	"step": 76
	},
	{
	"epoch": 0.26645316253002405,
	"grad_norm": 5.207183361053467,
	"learning_rate": 4.992613141417608e-05,
	"loss": 70.6436,
	"step": 78
	},
	{
	"epoch": 0.27328529490258874,
	"grad_norm": 7.816757678985596,
	"learning_rate": 4.9918932703355256e-05,
	"loss": 68.9464,
	"step": 80
	},
	{
	"epoch": 0.28011742727515343,
	"grad_norm": 6.2263383865356445,
	"learning_rate": 4.9911399909730714e-05,
	"loss": 68.8249,
	"step": 82
	},
	{
	"epoch": 0.2869495596477182,
	"grad_norm": 6.726258754730225,
	"learning_rate": 4.990353313429303e-05,
	"loss": 68.7637,
	"step": 84
	},
	{
	"epoch": 0.29378169202028287,
	"grad_norm": 5.4038543701171875,
	"learning_rate": 4.989533248251037e-05,
	"loss": 68.7726,
	"step": 86
	},
	{
	"epoch": 0.3006138243928476,
	"grad_norm": 9.256815910339355,
	"learning_rate": 4.988679806432712e-05,
	"loss": 68.2967,
	"step": 88
	},
	{
	"epoch": 0.3074459567654123,
	"grad_norm": 7.765486717224121,
	"learning_rate": 4.98779299941624e-05,
	"loss": 70.6181,
	"step": 90
	},
	{
	"epoch": 0.31427808913797706,
	"grad_norm": 7.625786304473877,
	"learning_rate": 4.9868728390908526e-05,
	"loss": 68.5738,
	"step": 92
	},
	{
	"epoch": 0.32111022151054175,
	"grad_norm": 7.776100158691406,
	"learning_rate": 4.985919337792944e-05,
	"loss": 65.0074,
	"step": 94
	},
	{
	"epoch": 0.3279423538831065,
	"grad_norm": 6.496335029602051,
	"learning_rate": 4.9849325083059e-05,
	"loss": 66.7343,
	"step": 96
	},
	{
	"epoch": 0.3347744862556712,
	"grad_norm": 6.616697311401367,
	"learning_rate": 4.983912363859935e-05,
	"loss": 69.292,
	"step": 98
	},
	{
	"epoch": 0.34160661862823594,
	"grad_norm": 7.259242057800293,
	"learning_rate": 4.982858918131906e-05,
	"loss": 66.8941,
	"step": 100
	},
	{
	"epoch": 0.34160661862823594,
	"eval_loss": 1.0700218677520752,
	"eval_runtime": 119.6843,
	"eval_samples_per_second": 32.962,
	"eval_steps_per_second": 8.247,
	"step": 100
	},
	{
	"epoch": 0.34843875100080063,
	"grad_norm": 7.206521987915039,
	"learning_rate": 4.981772185245135e-05,
	"loss": 68.3145,
	"step": 102
	},
	{
	"epoch": 0.3552708833733654,
	"grad_norm": 6.332549095153809,
	"learning_rate": 4.980652179769218e-05,
	"loss": 67.5062,
	"step": 104
	},
	{
	"epoch": 0.36210301574593007,
	"grad_norm": 8.422966957092285,
	"learning_rate": 4.979498916719828e-05,
	"loss": 69.0426,
	"step": 106
	},
	{
	"epoch": 0.3689351481184948,
	"grad_norm": 4.5074357986450195,
	"learning_rate": 4.978312411558518e-05,
	"loss": 66.0764,
	"step": 108
	},
	{
	"epoch": 0.3757672804910595,
	"grad_norm": 6.847994327545166,
	"learning_rate": 4.977092680192507e-05,
	"loss": 68.0597,
	"step": 110
	},
	{
	"epoch": 0.38259941286362426,
	"grad_norm": 9.010295867919922,
	"learning_rate": 4.9758397389744734e-05,
	"loss": 66.7856,
	"step": 112
	},
	{
	"epoch": 0.38943154523618895,
	"grad_norm": 8.793087005615234,
	"learning_rate": 4.9745536047023324e-05,
	"loss": 66.6415,
	"step": 114
	},
	{
	"epoch": 0.3962636776087537,
	"grad_norm": 6.820159912109375,
	"learning_rate": 4.973234294619011e-05,
	"loss": 66.8668,
	"step": 116
	},
	{
	"epoch": 0.4030958099813184,
	"grad_norm": 10.739355087280273,
	"learning_rate": 4.971881826412218e-05,
	"loss": 64.5842,
	"step": 118
	},
	{
	"epoch": 0.4099279423538831,
	"grad_norm": 6.451905727386475,
	"learning_rate": 4.9704962182142044e-05,
	"loss": 64.2948,
	"step": 120
	},
	{
	"epoch": 0.4167600747264478,
	"grad_norm": 6.998046398162842,
	"learning_rate": 4.9690774886015244e-05,
	"loss": 66.095,
	"step": 122
	},
	{
	"epoch": 0.4235922070990125,
	"grad_norm": 6.946700096130371,
	"learning_rate": 4.967625656594782e-05,
	"loss": 66.6205,
	"step": 124
	},
	{
	"epoch": 0.43042433947157727,
	"grad_norm": 7.656089782714844,
	"learning_rate": 4.966140741658379e-05,
	"loss": 65.2253,
	"step": 126
	},
	{
	"epoch": 0.43725647184414196,
	"grad_norm": 8.242254257202148,
	"learning_rate": 4.9646227637002515e-05,
	"loss": 65.4466,
	"step": 128
	},
	{
	"epoch": 0.4440886042167067,
	"grad_norm": 6.5599894523620605,
	"learning_rate": 4.963071743071607e-05,
	"loss": 64.5302,
	"step": 130
	},
	{
	"epoch": 0.4509207365892714,
	"grad_norm": 5.671536922454834,
	"learning_rate": 4.961487700566646e-05,
	"loss": 64.9711,
	"step": 132
	},
	{
	"epoch": 0.45775286896183615,
	"grad_norm": 6.317226886749268,
	"learning_rate": 4.9598706574222886e-05,
	"loss": 66.1428,
	"step": 134
	},
	{
	"epoch": 0.46458500133440084,
	"grad_norm": 7.731470584869385,
	"learning_rate": 4.958220635317886e-05,
	"loss": 65.6398,
	"step": 136
	},
	{
	"epoch": 0.4714171337069656,
	"grad_norm": 7.070956230163574,
	"learning_rate": 4.956537656374933e-05,
	"loss": 64.027,
	"step": 138
	},
	{
	"epoch": 0.4782492660795303,
	"grad_norm": 5.216205596923828,
	"learning_rate": 4.9548217431567665e-05,
	"loss": 64.9929,
	"step": 140
	},
	{
	"epoch": 0.485081398452095,
	"grad_norm": 6.5882344245910645,
	"learning_rate": 4.95307291866827e-05,
	"loss": 66.2789,
	"step": 142
	},
	{
	"epoch": 0.4919135308246597,
	"grad_norm": 5.5962934494018555,
	"learning_rate": 4.95129120635556e-05,
	"loss": 65.4516,
	"step": 144
	},
	{
	"epoch": 0.49874566319722446,
	"grad_norm": 7.341054916381836,
	"learning_rate": 4.949476630105669e-05,
	"loss": 64.339,
	"step": 146
	},
	{
	"epoch": 0.5055777955697892,
	"grad_norm": 7.5083441734313965,
	"learning_rate": 4.9476292142462374e-05,
	"loss": 62.7076,
	"step": 148
	},
	{
	"epoch": 0.5124099279423538,
	"grad_norm": 5.081834316253662,
	"learning_rate": 4.945748983545172e-05,
	"loss": 64.2066,
	"step": 150
	},
	{
	"epoch": 0.5124099279423538,
	"eval_loss": 0.9920685291290283,
	"eval_runtime": 120.1858,
	"eval_samples_per_second": 32.824,
	"eval_steps_per_second": 8.212,
	"step": 150
	},
	{
	"epoch": 0.5192420603149186,
	"grad_norm": 6.279696464538574,
	"learning_rate": 4.943835963210324e-05,
	"loss": 63.3412,
	"step": 152
	},
	{
	"epoch": 0.5260741926874833,
	"grad_norm": 6.806802749633789,
	"learning_rate": 4.941890178889149e-05,
	"loss": 63.2038,
	"step": 154
	},
	{
	"epoch": 0.5329063250600481,
	"grad_norm": 8.012312889099121,
	"learning_rate": 4.939911656668361e-05,
	"loss": 63.4725,
	"step": 156
	},
	{
	"epoch": 0.5397384574326127,
	"grad_norm": 6.68613338470459,
	"learning_rate": 4.937900423073585e-05,
	"loss": 62.8267,
	"step": 158
	},
	{
	"epoch": 0.5465705898051775,
	"grad_norm": 6.391062259674072,
	"learning_rate": 4.9358565050689985e-05,
	"loss": 63.4099,
	"step": 160
	},
	{
	"epoch": 0.5534027221777422,
	"grad_norm": 6.4117817878723145,
	"learning_rate": 4.933779930056975e-05,
	"loss": 62.475,
	"step": 162
	},
	{
	"epoch": 0.5602348545503069,
	"grad_norm": 10.238900184631348,
	"learning_rate": 4.93167072587771e-05,
	"loss": 62.3929,
	"step": 164
	},
	{
	"epoch": 0.5670669869228716,
	"grad_norm": 6.800478935241699,
	"learning_rate": 4.929528920808854e-05,
	"loss": 63.4465,
	"step": 166
	},
	{
	"epoch": 0.5738991192954364,
	"grad_norm": 6.688059329986572,
	"learning_rate": 4.92735454356513e-05,
	"loss": 62.3017,
	"step": 168
	},
	{
	"epoch": 0.5807312516680011,
	"grad_norm": 5.010741710662842,
	"learning_rate": 4.925147623297949e-05,
	"loss": 61.5306,
	"step": 170
	},
	{
	"epoch": 0.5875633840405657,
	"grad_norm": 6.061219215393066,
	"learning_rate": 4.922908189595018e-05,
	"loss": 63.5529,
	"step": 172
	},
	{
	"epoch": 0.5943955164131305,
	"grad_norm": 7.6835126876831055,
	"learning_rate": 4.920636272479946e-05,
	"loss": 64.4077,
	"step": 174
	},
	{
	"epoch": 0.6012276487856952,
	"grad_norm": 5.945671558380127,
	"learning_rate": 4.9183319024118415e-05,
	"loss": 64.3411,
	"step": 176
	},
	{
	"epoch": 0.60805978115826,
	"grad_norm": 4.983694076538086,
	"learning_rate": 4.915995110284901e-05,
	"loss": 63.5529,
	"step": 178
	},
	{
	"epoch": 0.6148919135308246,
	"grad_norm": 5.736062049865723,
	"learning_rate": 4.9136259274279955e-05,
	"loss": 63.7282,
	"step": 180
	},
	{
	"epoch": 0.6217240459033894,
	"grad_norm": 6.8453545570373535,
	"learning_rate": 4.911224385604255e-05,
	"loss": 63.5027,
	"step": 182
	},
	{
	"epoch": 0.6285561782759541,
	"grad_norm": 5.9253668785095215,
	"learning_rate": 4.908790517010636e-05,
	"loss": 60.5142,
	"step": 184
	},
	{
	"epoch": 0.6353883106485189,
	"grad_norm": 5.743585586547852,
	"learning_rate": 4.906324354277495e-05,
	"loss": 62.4935,
	"step": 186
	},
	{
	"epoch": 0.6422204430210835,
	"grad_norm": 4.686921119689941,
	"learning_rate": 4.903825930468149e-05,
	"loss": 60.8045,
	"step": 188
	},
	{
	"epoch": 0.6490525753936482,
	"grad_norm": 5.350888729095459,
	"learning_rate": 4.901295279078431e-05,
	"loss": 62.3775,
	"step": 190
	},
	{
	"epoch": 0.655884707766213,
	"grad_norm": 5.417562961578369,
	"learning_rate": 4.898732434036244e-05,
	"loss": 60.1095,
	"step": 192
	},
	{
	"epoch": 0.6627168401387777,
	"grad_norm": 5.238453388214111,
	"learning_rate": 4.896137429701102e-05,
	"loss": 62.8943,
	"step": 194
	},
	{
	"epoch": 0.6695489725113424,
	"grad_norm": 6.252527713775635,
	"learning_rate": 4.893510300863676e-05,
	"loss": 61.1666,
	"step": 196
	},
	{
	"epoch": 0.6763811048839071,
	"grad_norm": 5.860842704772949,
	"learning_rate": 4.890851082745319e-05,
	"loss": 62.6643,
	"step": 198
	},
	{
	"epoch": 0.6832132372564719,
	"grad_norm": 6.3946099281311035,
	"learning_rate": 4.8881598109976004e-05,
	"loss": 61.939,
	"step": 200
	},
	{
	"epoch": 0.6832132372564719,
	"eval_loss": 0.9664058685302734,
	"eval_runtime": 119.3157,
	"eval_samples_per_second": 33.064,
	"eval_steps_per_second": 8.272,
	"step": 200
	},
	{
	"epoch": 0.6900453696290365,
	"grad_norm": 5.909948825836182,
	"learning_rate": 4.885436521701824e-05,
	"loss": 63.9172,
	"step": 202
	},
	{
	"epoch": 0.6968775020016013,
	"grad_norm": 6.600235462188721,
	"learning_rate": 4.8826812513685487e-05,
	"loss": 60.6396,
	"step": 204
	},
	{
	"epoch": 0.703709634374166,
	"grad_norm": 5.97224235534668,
	"learning_rate": 4.8798940369370944e-05,
	"loss": 61.1365,
	"step": 206
	},
	{
	"epoch": 0.7105417667467308,
	"grad_norm": 5.521954536437988,
	"learning_rate": 4.877074915775049e-05,
	"loss": 61.9178,
	"step": 208
	},
	{
	"epoch": 0.7173738991192954,
	"grad_norm": 4.756962299346924,
	"learning_rate": 4.8742239256777674e-05,
	"loss": 60.0003,
	"step": 210
	},
	{
	"epoch": 0.7242060314918601,
	"grad_norm": 7.966216564178467,
	"learning_rate": 4.8713411048678635e-05,
	"loss": 60.3937,
	"step": 212
	},
	{
	"epoch": 0.7310381638644249,
	"grad_norm": 5.864863872528076,
	"learning_rate": 4.868426491994702e-05,
	"loss": 60.5208,
	"step": 214
	},
	{
	"epoch": 0.7378702962369896,
	"grad_norm": 4.952422142028809,
	"learning_rate": 4.865480126133872e-05,
	"loss": 61.4458,
	"step": 216
	},
	{
	"epoch": 0.7447024286095543,
	"grad_norm": 4.522135257720947,
	"learning_rate": 4.862502046786671e-05,
	"loss": 62.5035,
	"step": 218
	},
	{
	"epoch": 0.751534560982119,
	"grad_norm": 4.29464054107666,
	"learning_rate": 4.859492293879574e-05,
	"loss": 61.5825,
	"step": 220
	},
	{
	"epoch": 0.7583666933546838,
	"grad_norm": 5.789974212646484,
	"learning_rate": 4.856450907763693e-05,
	"loss": 59.9352,
	"step": 222
	},
	{
	"epoch": 0.7651988257272485,
	"grad_norm": 6.44216251373291,
	"learning_rate": 4.853377929214243e-05,
	"loss": 59.1637,
	"step": 224
	},
	{
	"epoch": 0.7720309580998131,
	"grad_norm": 4.520390033721924,
	"learning_rate": 4.85027339942999e-05,
	"loss": 60.4813,
	"step": 226
	},
	{
	"epoch": 0.7788630904723779,
	"grad_norm": 6.058870315551758,
	"learning_rate": 4.8471373600326996e-05,
	"loss": 60.2968,
	"step": 228
	},
	{
	"epoch": 0.7856952228449426,
	"grad_norm": 5.945502281188965,
	"learning_rate": 4.843969853066584e-05,
	"loss": 58.2098,
	"step": 230
	},
	{
	"epoch": 0.7925273552175074,
	"grad_norm": 4.318876266479492,
	"learning_rate": 4.8407709209977305e-05,
	"loss": 58.4711,
	"step": 232
	},
	{
	"epoch": 0.799359487590072,
	"grad_norm": 5.385821342468262,
	"learning_rate": 4.837540606713538e-05,
	"loss": 59.5379,
	"step": 234
	},
	{
	"epoch": 0.8061916199626368,
	"grad_norm": 6.59214973449707,
	"learning_rate": 4.834278953522138e-05,
	"loss": 58.4163,
	"step": 236
	},
	{
	"epoch": 0.8130237523352015,
	"grad_norm": 5.087238311767578,
	"learning_rate": 4.8309860051518204e-05,
	"loss": 60.5546,
	"step": 238
	},
	{
	"epoch": 0.8198558847077662,
	"grad_norm": 6.804642200469971,
	"learning_rate": 4.8276618057504376e-05,
	"loss": 59.0874,
	"step": 240
	},
	{
	"epoch": 0.8266880170803309,
	"grad_norm": 5.035391330718994,
	"learning_rate": 4.824306399884822e-05,
	"loss": 59.9545,
	"step": 242
	},
	{
	"epoch": 0.8335201494528957,
	"grad_norm": 5.837290287017822,
	"learning_rate": 4.8209198325401815e-05,
	"loss": 59.5963,
	"step": 244
	},
	{
	"epoch": 0.8403522818254604,
	"grad_norm": 4.17293643951416,
	"learning_rate": 4.817502149119502e-05,
	"loss": 59.7065,
	"step": 246
	},
	{
	"epoch": 0.847184414198025,
	"grad_norm": 4.964944362640381,
	"learning_rate": 4.8140533954429327e-05,
	"loss": 59.5358,
	"step": 248
	},
	{
	"epoch": 0.8540165465705898,
	"grad_norm": 6.021297931671143,
	"learning_rate": 4.810573617747178e-05,
	"loss": 60.6391,
	"step": 250
	},
	{
	"epoch": 0.8540165465705898,
	"eval_loss": 0.9407148361206055,
	"eval_runtime": 119.9595,
	"eval_samples_per_second": 32.886,
	"eval_steps_per_second": 8.228,
	"step": 250
	},
	{
	"epoch": 0.8608486789431545,
	"grad_norm": 5.707021713256836,
	"learning_rate": 4.8070628626848735e-05,
	"loss": 61.5872,
	"step": 252
	},
	{
	"epoch": 0.8676808113157193,
	"grad_norm": 4.725375652313232,
	"learning_rate": 4.803521177323962e-05,
	"loss": 59.2192,
	"step": 254
	},
	{
	"epoch": 0.8745129436882839,
	"grad_norm": 23.445714950561523,
	"learning_rate": 4.799948609147061e-05,
	"loss": 60.1762,
	"step": 256
	},
	{
	"epoch": 0.8813450760608487,
	"grad_norm": 5.503020286560059,
	"learning_rate": 4.796345206050829e-05,
	"loss": 62.2226,
	"step": 258
	},
	{
	"epoch": 0.8881772084334134,
	"grad_norm": 6.558228015899658,
	"learning_rate": 4.792711016345321e-05,
	"loss": 62.089,
	"step": 260
	},
	{
	"epoch": 0.8950093408059782,
	"grad_norm": 8.109895706176758,
	"learning_rate": 4.7890460887533417e-05,
	"loss": 60.7872,
	"step": 262
	},
	{
	"epoch": 0.9018414731785428,
	"grad_norm": 5.230234622955322,
	"learning_rate": 4.785350472409792e-05,
	"loss": 57.9312,
	"step": 264
	},
	{
	"epoch": 0.9086736055511075,
	"grad_norm": 6.669562339782715,
	"learning_rate": 4.7816242168610093e-05,
	"loss": 61.7966,
	"step": 266
	},
	{
	"epoch": 0.9155057379236723,
	"grad_norm": 5.428192615509033,
	"learning_rate": 4.777867372064105e-05,
	"loss": 58.4551,
	"step": 268
	},
	{
	"epoch": 0.922337870296237,
	"grad_norm": 5.6168131828308105,
	"learning_rate": 4.774079988386296e-05,
	"loss": 59.9015,
	"step": 270
	},
	{
	"epoch": 0.9291700026688017,
	"grad_norm": 5.785460948944092,
	"learning_rate": 4.770262116604224e-05,
	"loss": 59.723,
	"step": 272
	},
	{
	"epoch": 0.9360021350413664,
	"grad_norm": 8.77035140991211,
	"learning_rate": 4.76641380790328e-05,
	"loss": 60.8996,
	"step": 274
	},
	{
	"epoch": 0.9428342674139312,
	"grad_norm": 4.000178813934326,
	"learning_rate": 4.762535113876917e-05,
	"loss": 59.2908,
	"step": 276
	},
	{
	"epoch": 0.9496663997864959,
	"grad_norm": 5.8565826416015625,
	"learning_rate": 4.758626086525956e-05,
	"loss": 59.296,
	"step": 278
	},
	{
	"epoch": 0.9564985321590606,
	"grad_norm": 6.792466163635254,
	"learning_rate": 4.754686778257891e-05,
	"loss": 58.351,
	"step": 280
	},
	{
	"epoch": 0.9633306645316253,
	"grad_norm": 6.484628677368164,
	"learning_rate": 4.750717241886185e-05,
	"loss": 58.46,
	"step": 282
	},
	{
	"epoch": 0.97016279690419,
	"grad_norm": 5.421430587768555,
	"learning_rate": 4.7467175306295655e-05,
	"loss": 59.0205,
	"step": 284
	},
	{
	"epoch": 0.9769949292767547,
	"grad_norm": 4.550335884094238,
	"learning_rate": 4.7426876981113044e-05,
	"loss": 60.8234,
	"step": 286
	},
	{
	"epoch": 0.9838270616493194,
	"grad_norm": 5.412383079528809,
	"learning_rate": 4.738627798358506e-05,
	"loss": 57.3651,
	"step": 288
	},
	{
	"epoch": 0.9906591940218842,
	"grad_norm": 5.225856781005859,
	"learning_rate": 4.7345378858013776e-05,
	"loss": 58.8522,
	"step": 290
	},
	{
	"epoch": 0.9974913263944489,
	"grad_norm": 3.856189250946045,
	"learning_rate": 4.730418015272503e-05,
	"loss": 59.7945,
	"step": 292
	},
	{
	"epoch": 1.0034160661862823,
	"grad_norm": 6.19010066986084,
	"learning_rate": 4.726268242006106e-05,
	"loss": 50.2722,
	"step": 294
	},
	{
	"epoch": 1.0102481985588472,
	"grad_norm": 5.333181858062744,
	"learning_rate": 4.722088621637309e-05,
	"loss": 58.7285,
	"step": 296
	},
	{
	"epoch": 1.0170803309314118,
	"grad_norm": 5.93973970413208,
	"learning_rate": 4.717879210201389e-05,
	"loss": 57.2823,
	"step": 298
	},
	{
	"epoch": 1.0239124633039765,
	"grad_norm": 4.59360408782959,
	"learning_rate": 4.713640064133025e-05,
	"loss": 58.4687,
	"step": 300
	},
	{
	"epoch": 1.0239124633039765,
	"eval_loss": 0.9195547699928284,
	"eval_runtime": 119.3076,
	"eval_samples_per_second": 33.066,
	"eval_steps_per_second": 8.273,
	"step": 300
	},
	{
	"epoch": 1.0307445956765413,
	"grad_norm": 5.437332630157471,
	"learning_rate": 4.7093712402655427e-05,
	"loss": 57.7491,
	"step": 302
	},
	{
	"epoch": 1.037576728049106,
	"grad_norm": 4.938009738922119,
	"learning_rate": 4.7050727958301506e-05,
	"loss": 58.2642,
	"step": 304
	},
	{
	"epoch": 1.0444088604216706,
	"grad_norm": 5.104777812957764,
	"learning_rate": 4.7007447884551745e-05,
	"loss": 56.1312,
	"step": 306
	},
	{
	"epoch": 1.0512409927942354,
	"grad_norm": 5.78248405456543,
	"learning_rate": 4.6963872761652835e-05,
	"loss": 56.9488,
	"step": 308
	},
	{
	"epoch": 1.0580731251668,
	"grad_norm": 4.8224287033081055,
	"learning_rate": 4.692000317380715e-05,
	"loss": 56.6993,
	"step": 310
	},
	{
	"epoch": 1.064905257539365,
	"grad_norm": 4.517540454864502,
	"learning_rate": 4.687583970916487e-05,
	"loss": 58.8636,
	"step": 312
	},
	{
	"epoch": 1.0717373899119296,
	"grad_norm": 5.353949069976807,
	"learning_rate": 4.683138295981611e-05,
	"loss": 58.6762,
	"step": 314
	},
	{
	"epoch": 1.0785695222844942,
	"grad_norm": 6.164919376373291,
	"learning_rate": 4.678663352178301e-05,
	"loss": 57.9218,
	"step": 316
	},
	{
	"epoch": 1.085401654657059,
	"grad_norm": 4.577470302581787,
	"learning_rate": 4.674159199501173e-05,
	"loss": 58.1644,
	"step": 318
	},
	{
	"epoch": 1.0922337870296237,
	"grad_norm": 6.5861592292785645,
	"learning_rate": 4.6696258983364385e-05,
	"loss": 57.3447,
	"step": 320
	},
	{
	"epoch": 1.0990659194021883,
	"grad_norm": 4.327467918395996,
	"learning_rate": 4.665063509461097e-05,
	"loss": 57.2627,
	"step": 322
	},
	{
	"epoch": 1.1058980517747532,
	"grad_norm": 7.534716606140137,
	"learning_rate": 4.660472094042121e-05,
	"loss": 57.2099,
	"step": 324
	},
	{
	"epoch": 1.1127301841473178,
	"grad_norm": 5.549008369445801,
	"learning_rate": 4.655851713635635e-05,
	"loss": 58.4564,
	"step": 326
	},
	{
	"epoch": 1.1195623165198825,
	"grad_norm": 4.385070323944092,
	"learning_rate": 4.651202430186092e-05,
	"loss": 57.0019,
	"step": 328
	},
	{
	"epoch": 1.1263944488924473,
	"grad_norm": 4.763044357299805,
	"learning_rate": 4.6465243060254415e-05,
	"loss": 55.7849,
	"step": 330
	},
	{
	"epoch": 1.133226581265012,
	"grad_norm": 3.9461379051208496,
	"learning_rate": 4.641817403872293e-05,
	"loss": 56.2399,
	"step": 332
	},
	{
	"epoch": 1.1400587136375768,
	"grad_norm": 4.946137428283691,
	"learning_rate": 4.637081786831079e-05,
	"loss": 56.7089,
	"step": 334
	},
	{
	"epoch": 1.1468908460101415,
	"grad_norm": 5.664731025695801,
	"learning_rate": 4.6323175183912024e-05,
	"loss": 57.1022,
	"step": 336
	},
	{
	"epoch": 1.153722978382706,
	"grad_norm": 5.261230945587158,
	"learning_rate": 4.627524662426194e-05,
	"loss": 56.3552,
	"step": 338
	},
	{
	"epoch": 1.160555110755271,
	"grad_norm": 4.166741847991943,
	"learning_rate": 4.6227032831928484e-05,
	"loss": 56.888,
	"step": 340
	},
	{
	"epoch": 1.1673872431278356,
	"grad_norm": 6.015218734741211,
	"learning_rate": 4.6178534453303666e-05,
	"loss": 57.3006,
	"step": 342
	},
	{
	"epoch": 1.1742193755004002,
	"grad_norm": 6.349710941314697,
	"learning_rate": 4.6129752138594874e-05,
	"loss": 57.0208,
	"step": 344
	},
	{
	"epoch": 1.181051507872965,
	"grad_norm": 5.403022766113281,
	"learning_rate": 4.608068654181617e-05,
	"loss": 57.0645,
	"step": 346
	},
	{
	"epoch": 1.1878836402455297,
	"grad_norm": 6.523670673370361,
	"learning_rate": 4.6031338320779534e-05,
	"loss": 58.2164,
	"step": 348
	},
	{
	"epoch": 1.1947157726180944,
	"grad_norm": 6.369359970092773,
	"learning_rate": 4.5981708137086e-05,
	"loss": 56.7965,
	"step": 350
	},
	{
	"epoch": 1.1947157726180944,
	"eval_loss": 0.8986765146255493,
	"eval_runtime": 119.0222,
	"eval_samples_per_second": 33.145,
	"eval_steps_per_second": 8.293,
	"step": 350
	},
	{
	"epoch": 1.2015479049906592,
	"grad_norm": 5.050749778747559,
	"learning_rate": 4.5931796656116846e-05,
	"loss": 56.7828,
	"step": 352
	},
	{
	"epoch": 1.2083800373632239,
	"grad_norm": 5.341484069824219,
	"learning_rate": 4.588160454702462e-05,
	"loss": 57.4058,
	"step": 354
	},
	{
	"epoch": 1.2152121697357887,
	"grad_norm": 4.554074287414551,
	"learning_rate": 4.5831132482724195e-05,
	"loss": 57.6257,
	"step": 356
	},
	{
	"epoch": 1.2220443021083534,
	"grad_norm": 4.951889514923096,
	"learning_rate": 4.578038113988376e-05,
	"loss": 56.0608,
	"step": 358
	},
	{
	"epoch": 1.228876434480918,
	"grad_norm": 4.2526421546936035,
	"learning_rate": 4.572935119891571e-05,
	"loss": 55.8586,
	"step": 360
	},
	{
	"epoch": 1.2357085668534828,
	"grad_norm": 4.805353164672852,
	"learning_rate": 4.5678043343967554e-05,
	"loss": 59.2427,
	"step": 362
	},
	{
	"epoch": 1.2425406992260475,
	"grad_norm": 4.9927978515625,
	"learning_rate": 4.5626458262912745e-05,
	"loss": 55.1494,
	"step": 364
	},
	{
	"epoch": 1.2493728315986123,
	"grad_norm": 5.778275012969971,
	"learning_rate": 4.557459664734141e-05,
	"loss": 55.9791,
	"step": 366
	},
	{
	"epoch": 1.256204963971177,
	"grad_norm": 4.41555643081665,
	"learning_rate": 4.552245919255117e-05,
	"loss": 57.3123,
	"step": 368
	},
	{
	"epoch": 1.2630370963437416,
	"grad_norm": 5.230330944061279,
	"learning_rate": 4.5470046597537735e-05,
	"loss": 55.9031,
	"step": 370
	},
	{
	"epoch": 1.2698692287163063,
	"grad_norm": 3.9548189640045166,
	"learning_rate": 4.541735956498554e-05,
	"loss": 56.6997,
	"step": 372
	},
	{
	"epoch": 1.2767013610888711,
	"grad_norm": 5.017361640930176,
	"learning_rate": 4.5364398801258396e-05,
	"loss": 57.3268,
	"step": 374
	},
	{
	"epoch": 1.2835334934614357,
	"grad_norm": 5.562941074371338,
	"learning_rate": 4.5311165016389916e-05,
	"loss": 55.6271,
	"step": 376
	},
	{
	"epoch": 1.2903656258340006,
	"grad_norm": 6.675297737121582,
	"learning_rate": 4.525765892407409e-05,
	"loss": 55.9593,
	"step": 378
	},
	{
	"epoch": 1.2971977582065652,
	"grad_norm": 6.47582483291626,
	"learning_rate": 4.5203881241655644e-05,
	"loss": 57.0788,
	"step": 380
	},
	{
	"epoch": 1.3040298905791299,
	"grad_norm": 5.157675743103027,
	"learning_rate": 4.514983269012049e-05,
	"loss": 56.3623,
	"step": 382
	},
	{
	"epoch": 1.3108620229516947,
	"grad_norm": 8.075702667236328,
	"learning_rate": 4.509551399408598e-05,
	"loss": 55.6531,
	"step": 384
	},
	{
	"epoch": 1.3176941553242594,
	"grad_norm": 3.849310874938965,
	"learning_rate": 4.504092588179128e-05,
	"loss": 58.7546,
	"step": 386
	},
	{
	"epoch": 1.3245262876968242,
	"grad_norm": 3.6027579307556152,
	"learning_rate": 4.498606908508754e-05,
	"loss": 57.7153,
	"step": 388
	},
	{
	"epoch": 1.3313584200693889,
	"grad_norm": 5.139729976654053,
	"learning_rate": 4.4930944339428085e-05,
	"loss": 56.4532,
	"step": 390
	},
	{
	"epoch": 1.3381905524419535,
	"grad_norm": 5.337704181671143,
	"learning_rate": 4.487555238385862e-05,
	"loss": 54.2958,
	"step": 392
	},
	{
	"epoch": 1.3450226848145181,
	"grad_norm": 3.3229618072509766,
	"learning_rate": 4.481989396100724e-05,
	"loss": 54.2046,
	"step": 394
	},
	{
	"epoch": 1.351854817187083,
	"grad_norm": 5.2183074951171875,
	"learning_rate": 4.476396981707453e-05,
	"loss": 56.0147,
	"step": 396
	},
	{
	"epoch": 1.3586869495596476,
	"grad_norm": 5.028941631317139,
	"learning_rate": 4.470778070182353e-05,
	"loss": 54.3446,
	"step": 398
	},
	{
	"epoch": 1.3655190819322125,
	"grad_norm": 6.347212791442871,
	"learning_rate": 4.465132736856969e-05,
	"loss": 56.7659,
	"step": 400
	},
	{
	"epoch": 1.3655190819322125,
	"eval_loss": 0.8771227598190308,
	"eval_runtime": 118.9477,
	"eval_samples_per_second": 33.166,
	"eval_steps_per_second": 8.298,
	"step": 400
	},
	{
	"epoch": 1.3723512143047771,
	"grad_norm": 9.381309509277344,
	"learning_rate": 4.459461057417078e-05,
	"loss": 56.8099,
	"step": 402
	},
	{
	"epoch": 1.3791833466773418,
	"grad_norm": 5.657813549041748,
	"learning_rate": 4.453763107901675e-05,
	"loss": 56.3326,
	"step": 404
	},
	{
	"epoch": 1.3860154790499066,
	"grad_norm": 4.476396083831787,
	"learning_rate": 4.4480389647019505e-05,
	"loss": 57.3978,
	"step": 406
	},
	{
	"epoch": 1.3928476114224713,
	"grad_norm": 5.402798652648926,
	"learning_rate": 4.442288704560268e-05,
	"loss": 55.7143,
	"step": 408
	},
	{
	"epoch": 1.3996797437950361,
	"grad_norm": 4.367002010345459,
	"learning_rate": 4.436512404569136e-05,
	"loss": 55.7044,
	"step": 410
	},
	{
	"epoch": 1.4065118761676008,
	"grad_norm": 5.653073310852051,
	"learning_rate": 4.430710142170176e-05,
	"loss": 55.7266,
	"step": 412
	},
	{
	"epoch": 1.4133440085401654,
	"grad_norm": 7.221829414367676,
	"learning_rate": 4.424881995153076e-05,
	"loss": 56.4174,
	"step": 414
	},
	{
	"epoch": 1.4201761409127303,
	"grad_norm": 5.465057373046875,
	"learning_rate": 4.419028041654559e-05,
	"loss": 56.9093,
	"step": 416
	},
	{
	"epoch": 1.427008273285295,
	"grad_norm": 8.383552551269531,
	"learning_rate": 4.4131483601573285e-05,
	"loss": 56.0841,
	"step": 418
	},
	{
	"epoch": 1.4338404056578598,
	"grad_norm": 4.208652973175049,
	"learning_rate": 4.4072430294890174e-05,
	"loss": 57.5786,
	"step": 420
	},
	{
	"epoch": 1.4406725380304244,
	"grad_norm": 5.773376941680908,
	"learning_rate": 4.4013121288211307e-05,
	"loss": 55.8851,
	"step": 422
	},
	{
	"epoch": 1.447504670402989,
	"grad_norm": 5.354812145233154,
	"learning_rate": 4.3953557376679856e-05,
	"loss": 55.1571,
	"step": 424
	},
	{
	"epoch": 1.4543368027755537,
	"grad_norm": 4.6360039710998535,
	"learning_rate": 4.389373935885646e-05,
	"loss": 54.0095,
	"step": 426
	},
	{
	"epoch": 1.4611689351481185,
	"grad_norm": 7.125521183013916,
	"learning_rate": 4.383366803670849e-05,
	"loss": 56.645,
	"step": 428
	},
	{
	"epoch": 1.4680010675206832,
	"grad_norm": 6.071737766265869,
	"learning_rate": 4.377334421559932e-05,
	"loss": 55.3209,
	"step": 430
	},
	{
	"epoch": 1.474833199893248,
	"grad_norm": 4.569766998291016,
	"learning_rate": 4.371276870427753e-05,
	"loss": 54.6604,
	"step": 432
	},
	{
	"epoch": 1.4816653322658127,
	"grad_norm": 5.426764965057373,
	"learning_rate": 4.365194231486604e-05,
	"loss": 56.4116,
	"step": 434
	},
	{
	"epoch": 1.4884974646383773,
	"grad_norm": 5.6092023849487305,
	"learning_rate": 4.359086586285127e-05,
	"loss": 56.0268,
	"step": 436
	},
	{
	"epoch": 1.4953295970109421,
	"grad_norm": 6.140939712524414,
	"learning_rate": 4.3529540167072126e-05,
	"loss": 54.886,
	"step": 438
	},
	{
	"epoch": 1.5021617293835068,
	"grad_norm": 4.043739318847656,
	"learning_rate": 4.346796604970912e-05,
	"loss": 56.6431,
	"step": 440
	},
	{
	"epoch": 1.5089938617560716,
	"grad_norm": 3.8898212909698486,
	"learning_rate": 4.340614433627328e-05,
	"loss": 55.6492,
	"step": 442
	},
	{
	"epoch": 1.5158259941286363,
	"grad_norm": 6.158950328826904,
	"learning_rate": 4.3344075855595104e-05,
	"loss": 55.6869,
	"step": 444
	},
	{
	"epoch": 1.522658126501201,
	"grad_norm": 3.874180316925049,
	"learning_rate": 4.328176143981343e-05,
	"loss": 53.7981,
	"step": 446
	},
	{
	"epoch": 1.5294902588737656,
	"grad_norm": 4.068581581115723,
	"learning_rate": 4.321920192436433e-05,
	"loss": 54.6618,
	"step": 448
	},
	{
	"epoch": 1.5363223912463304,
	"grad_norm": 4.552149295806885,
	"learning_rate": 4.315639814796983e-05,
	"loss": 55.1642,
	"step": 450
	},
	{
	"epoch": 1.5363223912463304,
	"eval_loss": 0.8704175353050232,
	"eval_runtime": 119.5049,
	"eval_samples_per_second": 33.011,
	"eval_steps_per_second": 8.259,
	"step": 450
	},
	{
	"epoch": 1.5431545236188953,
	"grad_norm": 4.1831374168396,
	"learning_rate": 4.309335095262676e-05,
	"loss": 53.2926,
	"step": 452
	},
	{
	"epoch": 1.54998665599146,
	"grad_norm": 4.456052780151367,
	"learning_rate": 4.303006118359537e-05,
	"loss": 53.6038,
	"step": 454
	},
	{
	"epoch": 1.5568187883640245,
	"grad_norm": 17.7099609375,
	"learning_rate": 4.296652968938807e-05,
	"loss": 54.9325,
	"step": 456
	},
	{
	"epoch": 1.5636509207365892,
	"grad_norm": 8.005233764648438,
	"learning_rate": 4.2902757321758016e-05,
	"loss": 53.7884,
	"step": 458
	},
	{
	"epoch": 1.570483053109154,
	"grad_norm": 5.034004211425781,
	"learning_rate": 4.283874493568772e-05,
	"loss": 53.2575,
	"step": 460
	},
	{
	"epoch": 1.5773151854817187,
	"grad_norm": 4.005930423736572,
	"learning_rate": 4.2774493389377545e-05,
	"loss": 55.4554,
	"step": 462
	},
	{
	"epoch": 1.5841473178542835,
	"grad_norm": 5.812296390533447,
	"learning_rate": 4.271000354423426e-05,
	"loss": 56.7008,
	"step": 464
	},
	{
	"epoch": 1.5909794502268482,
	"grad_norm": 6.425695896148682,
	"learning_rate": 4.2645276264859394e-05,
	"loss": 56.8804,
	"step": 466
	},
	{
	"epoch": 1.5978115825994128,
	"grad_norm": 4.44102144241333,
	"learning_rate": 4.258031241903778e-05,
	"loss": 54.2011,
	"step": 468
	},
	{
	"epoch": 1.6046437149719774,
	"grad_norm": 4.444553852081299,
	"learning_rate": 4.251511287772579e-05,
	"loss": 54.9826,
	"step": 470
	},
	{
	"epoch": 1.6114758473445423,
	"grad_norm": 3.8157808780670166,
	"learning_rate": 4.2449678515039747e-05,
	"loss": 55.2601,
	"step": 472
	},
	{
	"epoch": 1.6183079797171072,
	"grad_norm": 6.47904634475708,
	"learning_rate": 4.238401020824416e-05,
	"loss": 54.5978,
	"step": 474
	},
	{
	"epoch": 1.6251401120896718,
	"grad_norm": 5.010526180267334,
	"learning_rate": 4.231810883773999e-05,
	"loss": 56.0995,
	"step": 476
	},
	{
	"epoch": 1.6319722444622364,
	"grad_norm": 5.843505382537842,
	"learning_rate": 4.2251975287052804e-05,
	"loss": 54.0241,
	"step": 478
	},
	{
	"epoch": 1.638804376834801,
	"grad_norm": 4.549996852874756,
	"learning_rate": 4.218561044282099e-05,
	"loss": 56.3071,
	"step": 480
	},
	{
	"epoch": 1.645636509207366,
	"grad_norm": 4.20985221862793,
	"learning_rate": 4.211901519478382e-05,
	"loss": 54.3977,
	"step": 482
	},
	{
	"epoch": 1.6524686415799306,
	"grad_norm": 5.491010665893555,
	"learning_rate": 4.2052190435769554e-05,
	"loss": 53.1375,
	"step": 484
	},
	{
	"epoch": 1.6593007739524954,
	"grad_norm": 4.417302131652832,
	"learning_rate": 4.198513706168345e-05,
	"loss": 53.959,
	"step": 486
	},
	{
	"epoch": 1.66613290632506,
	"grad_norm": 5.39029598236084,
	"learning_rate": 4.191785597149577e-05,
	"loss": 54.5638,
	"step": 488
	},
	{
	"epoch": 1.6729650386976247,
	"grad_norm": 4.233526229858398,
	"learning_rate": 4.1850348067229696e-05,
	"loss": 54.6384,
	"step": 490
	},
	{
	"epoch": 1.6797971710701893,
	"grad_norm": 6.301634311676025,
	"learning_rate": 4.178261425394926e-05,
	"loss": 55.1738,
	"step": 492
	},
	{
	"epoch": 1.6866293034427542,
	"grad_norm": 5.9507246017456055,
	"learning_rate": 4.171465543974723e-05,
	"loss": 54.7009,
	"step": 494
	},
	{
	"epoch": 1.693461435815319,
	"grad_norm": 5.033243656158447,
	"learning_rate": 4.1646472535732895e-05,
	"loss": 54.3154,
	"step": 496
	},
	{
	"epoch": 1.7002935681878837,
	"grad_norm": 4.675721168518066,
	"learning_rate": 4.157806645601988e-05,
	"loss": 54.1507,
	"step": 498
	},
	{
	"epoch": 1.7071257005604483,
	"grad_norm": 3.5945537090301514,
	"learning_rate": 4.1509438117713866e-05,
	"loss": 52.2103,
	"step": 500
	},
	{
	"epoch": 1.7071257005604483,
	"eval_loss": 0.8516557216644287,
	"eval_runtime": 119.4754,
	"eval_samples_per_second": 33.019,
	"eval_steps_per_second": 8.261,
	"step": 500
	},
	{
	"epoch": 1.713957832933013,
	"grad_norm": 4.187085151672363,
	"learning_rate": 4.144058844090032e-05,
	"loss": 54.1474,
	"step": 502
	},
	{
	"epoch": 1.7207899653055778,
	"grad_norm": 3.818648099899292,
	"learning_rate": 4.137151834863213e-05,
	"loss": 55.5711,
	"step": 504
	},
	{
	"epoch": 1.7276220976781427,
	"grad_norm": 5.919620513916016,
	"learning_rate": 4.130222876691726e-05,
	"loss": 54.3803,
	"step": 506
	},
	{
	"epoch": 1.7344542300507073,
	"grad_norm": 5.772305011749268,
	"learning_rate": 4.123272062470633e-05,
	"loss": 53.9454,
	"step": 508
	},
	{
	"epoch": 1.741286362423272,
	"grad_norm": 4.569563865661621,
	"learning_rate": 4.116299485388014e-05,
	"loss": 53.5009,
	"step": 510
	},
	{
	"epoch": 1.7481184947958366,
	"grad_norm": 4.183293342590332,
	"learning_rate": 4.109305238923718e-05,
	"loss": 52.9927,
	"step": 512
	},
	{
	"epoch": 1.7549506271684012,
	"grad_norm": 4.4316301345825195,
	"learning_rate": 4.102289416848114e-05,
	"loss": 54.5023,
	"step": 514
	},
	{
	"epoch": 1.761782759540966,
	"grad_norm": 14.234251976013184,
	"learning_rate": 4.095252113220827e-05,
	"loss": 53.1473,
	"step": 516
	},
	{
	"epoch": 1.768614891913531,
	"grad_norm": 4.889795780181885,
	"learning_rate": 4.088193422389484e-05,
	"loss": 53.7265,
	"step": 518
	},
	{
	"epoch": 1.7754470242860956,
	"grad_norm": 3.02785325050354,
	"learning_rate": 4.0811134389884433e-05,
	"loss": 52.5917,
	"step": 520
	},
	{
	"epoch": 1.7822791566586602,
	"grad_norm": 5.794788360595703,
	"learning_rate": 4.0740122579375286e-05,
	"loss": 55.4619,
	"step": 522
	},
	{
	"epoch": 1.7891112890312248,
	"grad_norm": 4.442338466644287,
	"learning_rate": 4.066889974440757e-05,
	"loss": 53.7709,
	"step": 524
	},
	{
	"epoch": 1.7959434214037897,
	"grad_norm": 4.7714715003967285,
	"learning_rate": 4.0597466839850595e-05,
	"loss": 54.16,
	"step": 526
	},
	{
	"epoch": 1.8027755537763546,
	"grad_norm": 4.7263569831848145,
	"learning_rate": 4.0525824823390045e-05,
	"loss": 55.9749,
	"step": 528
	},
	{
	"epoch": 1.8096076861489192,
	"grad_norm": 4.258271217346191,
	"learning_rate": 4.045397465551513e-05,
	"loss": 52.5445,
	"step": 530
	},
	{
	"epoch": 1.8164398185214838,
	"grad_norm": 4.56829309463501,
	"learning_rate": 4.038191729950569e-05,
	"loss": 53.8703,
	"step": 532
	},
	{
	"epoch": 1.8232719508940485,
	"grad_norm": 8.888167381286621,
	"learning_rate": 4.030965372141927e-05,
	"loss": 52.7209,
	"step": 534
	},
	{
	"epoch": 1.8301040832666133,
	"grad_norm": 4.5087175369262695,
	"learning_rate": 4.0237184890078245e-05,
	"loss": 54.591,
	"step": 536
	},
	{
	"epoch": 1.836936215639178,
	"grad_norm": 4.460638523101807,
	"learning_rate": 4.0164511777056725e-05,
	"loss": 54.8662,
	"step": 538
	},
	{
	"epoch": 1.8437683480117428,
	"grad_norm": 3.5958664417266846,
	"learning_rate": 4.009163535666761e-05,
	"loss": 53.423,
	"step": 540
	},
	{
	"epoch": 1.8506004803843075,
	"grad_norm": 4.3935418128967285,
	"learning_rate": 4.001855660594948e-05,
	"loss": 53.9048,
	"step": 542
	},
	{
	"epoch": 1.857432612756872,
	"grad_norm": 5.473939895629883,
	"learning_rate": 3.994527650465352e-05,
	"loss": 52.9295,
	"step": 544
	},
	{
	"epoch": 1.8642647451294367,
	"grad_norm": 4.8625922203063965,
	"learning_rate": 3.98717960352304e-05,
	"loss": 51.8002,
	"step": 546
	},
	{
	"epoch": 1.8710968775020016,
	"grad_norm": 4.244052886962891,
	"learning_rate": 3.979811618281706e-05,
	"loss": 53.6904,
	"step": 548
	},
	{
	"epoch": 1.8779290098745665,
	"grad_norm": 4.050732612609863,
	"learning_rate": 3.972423793522352e-05,
	"loss": 54.7441,
	"step": 550
	},
	{
	"epoch": 1.8779290098745665,
	"eval_loss": 0.8419561982154846,
	"eval_runtime": 119.6757,
	"eval_samples_per_second": 32.964,
	"eval_steps_per_second": 8.247,
	"step": 550
	},
	{
	"epoch": 1.884761142247131,
	"grad_norm": 5.255309104919434,
	"learning_rate": 3.9650162282919655e-05,
	"loss": 53.6842,
	"step": 552
	},
	{
	"epoch": 1.8915932746196957,
	"grad_norm": 5.483623504638672,
	"learning_rate": 3.957589021902191e-05,
	"loss": 54.0004,
	"step": 554
	},
	{
	"epoch": 1.8984254069922604,
	"grad_norm": 4.224212169647217,
	"learning_rate": 3.9501422739279956e-05,
	"loss": 51.7289,
	"step": 556
	},
	{
	"epoch": 1.9052575393648252,
	"grad_norm": 5.061962127685547,
	"learning_rate": 3.942676084206338e-05,
	"loss": 53.4457,
	"step": 558
	},
	{
	"epoch": 1.9120896717373899,
	"grad_norm": 3.8694398403167725,
	"learning_rate": 3.9351905528348285e-05,
	"loss": 51.8595,
	"step": 560
	},
	{
	"epoch": 1.9189218041099547,
	"grad_norm": 4.149620056152344,
	"learning_rate": 3.927685780170385e-05,
	"loss": 51.8196,
	"step": 562
	},
	{
	"epoch": 1.9257539364825194,
	"grad_norm": 6.877647399902344,
	"learning_rate": 3.920161866827889e-05,
	"loss": 52.7279,
	"step": 564
	},
	{
	"epoch": 1.932586068855084,
	"grad_norm": 4.069815635681152,
	"learning_rate": 3.9126189136788416e-05,
	"loss": 51.1502,
	"step": 566
	},
	{
	"epoch": 1.9394182012276486,
	"grad_norm": 6.629972457885742,
	"learning_rate": 3.90505702185e-05,
	"loss": 52.6793,
	"step": 568
	},
	{
	"epoch": 1.9462503336002135,
	"grad_norm": 4.475677013397217,
	"learning_rate": 3.897476292722034e-05,
	"loss": 51.4329,
	"step": 570
	},
	{
	"epoch": 1.9530824659727783,
	"grad_norm": 5.370522499084473,
	"learning_rate": 3.889876827928156e-05,
	"loss": 53.1101,
	"step": 572
	},
	{
	"epoch": 1.959914598345343,
	"grad_norm": 5.481414794921875,
	"learning_rate": 3.882258729352768e-05,
	"loss": 53.3684,
	"step": 574
	},
	{
	"epoch": 1.9667467307179076,
	"grad_norm": 6.393594741821289,
	"learning_rate": 3.874622099130087e-05,
	"loss": 52.7341,
	"step": 576
	},
	{
	"epoch": 1.9735788630904723,
	"grad_norm": 3.9178807735443115,
	"learning_rate": 3.866967039642784e-05,
	"loss": 51.5249,
	"step": 578
	},
	{
	"epoch": 1.9804109954630371,
	"grad_norm": 9.721770286560059,
	"learning_rate": 3.859293653520604e-05,
	"loss": 51.2705,
	"step": 580
	},
	{
	"epoch": 1.987243127835602,
	"grad_norm": 4.619483470916748,
	"learning_rate": 3.851602043638994e-05,
	"loss": 51.7596,
	"step": 582
	},
	{
	"epoch": 1.9940752602081666,
	"grad_norm": 4.899592399597168,
	"learning_rate": 3.843892313117724e-05,
	"loss": 54.7586,
	"step": 584
	},
	{
	"epoch": 2.0,
	"grad_norm": 3.8423385620117188,
	"learning_rate": 3.8361645653195026e-05,
	"loss": 44.9497,
	"step": 586
	},
	{
	"epoch": 2.0068321323725646,
	"grad_norm": 4.93556022644043,
	"learning_rate": 3.8284189038485936e-05,
	"loss": 53.1383,
	"step": 588
	},
	{
	"epoch": 2.0136642647451293,
	"grad_norm": 6.575899124145508,
	"learning_rate": 3.8206554325494225e-05,
	"loss": 52.1373,
	"step": 590
	},
	{
	"epoch": 2.0204963971176944,
	"grad_norm": 3.5134201049804688,
	"learning_rate": 3.812874255505191e-05,
	"loss": 50.8711,
	"step": 592
	},
	{
	"epoch": 2.027328529490259,
	"grad_norm": 4.761475086212158,
	"learning_rate": 3.805075477036476e-05,
	"loss": 52.0756,
	"step": 594
	},
	{
	"epoch": 2.0341606618628236,
	"grad_norm": 3.7381017208099365,
	"learning_rate": 3.797259201699833e-05,
	"loss": 51.0594,
	"step": 596
	},
	{
	"epoch": 2.0409927942353883,
	"grad_norm": 5.102145671844482,
	"learning_rate": 3.789425534286394e-05,
	"loss": 52.1454,
	"step": 598
	},
	{
	"epoch": 2.047824926607953,
	"grad_norm": 4.762547969818115,
	"learning_rate": 3.781574579820464e-05,
	"loss": 50.3373,
	"step": 600
	},
	{
	"epoch": 2.047824926607953,
	"eval_loss": 0.8283991813659668,
	"eval_runtime": 119.5704,
	"eval_samples_per_second": 32.993,
	"eval_steps_per_second": 8.255,
	"step": 600
	},
	{
	"epoch": 2.0546570589805175,
	"grad_norm": 4.646745681762695,
	"learning_rate": 3.773706443558111e-05,
	"loss": 51.0792,
	"step": 602
	},
	{
	"epoch": 2.0614891913530826,
	"grad_norm": 5.648324012756348,
	"learning_rate": 3.765821230985758e-05,
	"loss": 50.6017,
	"step": 604
	},
	{
	"epoch": 2.0683213237256473,
	"grad_norm": 4.703359603881836,
	"learning_rate": 3.75791904781876e-05,
	"loss": 52.4212,
	"step": 606
	},
	{
	"epoch": 2.075153456098212,
	"grad_norm": 4.082385540008545,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 51.9666,
	"step": 608
	},
	{
	"epoch": 2.0819855884707765,
	"grad_norm": 4.6461687088012695,
	"learning_rate": 3.74206419369846e-05,
	"loss": 51.6205,
	"step": 610
	},
	{
	"epoch": 2.088817720843341,
	"grad_norm": 3.9972918033599854,
	"learning_rate": 3.7341117353077966e-05,
	"loss": 52.6521,
	"step": 612
	},
	{
	"epoch": 2.0956498532159062,
	"grad_norm": 5.636791229248047,
	"learning_rate": 3.726142731444921e-05,
	"loss": 52.6811,
	"step": 614
	},
	{
	"epoch": 2.102481985588471,
	"grad_norm": 6.055325508117676,
	"learning_rate": 3.718157288948563e-05,
	"loss": 51.2952,
	"step": 616
	},
	{
	"epoch": 2.1093141179610355,
	"grad_norm": 5.317610740661621,
	"learning_rate": 3.710155514877844e-05,
	"loss": 52.4443,
	"step": 618
	},
	{
	"epoch": 2.1161462503336,
	"grad_norm": 4.979522705078125,
	"learning_rate": 3.702137516510838e-05,
	"loss": 51.3593,
	"step": 620
	},
	{
	"epoch": 2.122978382706165,
	"grad_norm": 7.410902500152588,
	"learning_rate": 3.694103401343136e-05,
	"loss": 51.5919,
	"step": 622
	},
	{
	"epoch": 2.12981051507873,
	"grad_norm": 4.962103366851807,
	"learning_rate": 3.686053277086401e-05,
	"loss": 51.272,
	"step": 624
	},
	{
	"epoch": 2.1366426474512945,
	"grad_norm": 4.0044426918029785,
	"learning_rate": 3.6779872516669295e-05,
	"loss": 51.6362,
	"step": 626
	},
	{
	"epoch": 2.143474779823859,
	"grad_norm": 5.016703128814697,
	"learning_rate": 3.669905433224199e-05,
	"loss": 51.7369,
	"step": 628
	},
	{
	"epoch": 2.150306912196424,
	"grad_norm": 4.700343132019043,
	"learning_rate": 3.6618079301094216e-05,
	"loss": 50.9454,
	"step": 630
	},
	{
	"epoch": 2.1571390445689884,
	"grad_norm": 8.11246395111084,
	"learning_rate": 3.653694850884091e-05,
	"loss": 50.4605,
	"step": 632
	},
	{
	"epoch": 2.163971176941553,
	"grad_norm": 3.8724536895751953,
	"learning_rate": 3.645566304318526e-05,
	"loss": 52.4849,
	"step": 634
	},
	{
	"epoch": 2.170803309314118,
	"grad_norm": 3.699873208999634,
	"learning_rate": 3.637422399390413e-05,
	"loss": 49.8017,
	"step": 636
	},
	{
	"epoch": 2.1776354416866828,
	"grad_norm": 4.757104873657227,
	"learning_rate": 3.6292632452833436e-05,
	"loss": 52.0966,
	"step": 638
	},
	{
	"epoch": 2.1844675740592474,
	"grad_norm": 5.273576736450195,
	"learning_rate": 3.621088951385353e-05,
	"loss": 49.5201,
	"step": 640
	},
	{
	"epoch": 2.191299706431812,
	"grad_norm": 4.152122497558594,
	"learning_rate": 3.612899627287452e-05,
	"loss": 51.121,
	"step": 642
	},
	{
	"epoch": 2.1981318388043767,
	"grad_norm": 4.448339939117432,
	"learning_rate": 3.604695382782159e-05,
	"loss": 51.5833,
	"step": 644
	},
	{
	"epoch": 2.2049639711769418,
	"grad_norm": 3.272676706314087,
	"learning_rate": 3.596476327862024e-05,
	"loss": 50.4036,
	"step": 646
	},
	{
	"epoch": 2.2117961035495064,
	"grad_norm": 4.293691158294678,
	"learning_rate": 3.588242572718162e-05,
	"loss": 50.4138,
	"step": 648
	},
	{
	"epoch": 2.218628235922071,
	"grad_norm": 6.384798049926758,
	"learning_rate": 3.579994227738767e-05,
	"loss": 49.0042,
	"step": 650
	},
	{
	"epoch": 2.218628235922071,
	"eval_loss": 0.8110712170600891,
	"eval_runtime": 119.0744,
	"eval_samples_per_second": 33.131,
	"eval_steps_per_second": 8.289,
	"step": 650
	},
	{
	"epoch": 2.2254603682946357,
	"grad_norm": 4.501573085784912,
	"learning_rate": 3.5717314035076355e-05,
	"loss": 49.7713,
	"step": 652
	},
	{
	"epoch": 2.2322925006672003,
	"grad_norm": 4.808114051818848,
	"learning_rate": 3.5634542108026876e-05,
	"loss": 50.6265,
	"step": 654
	},
	{
	"epoch": 2.239124633039765,
	"grad_norm": 5.616351127624512,
	"learning_rate": 3.5551627605944745e-05,
	"loss": 52.1332,
	"step": 656
	},
	{
	"epoch": 2.24595676541233,
	"grad_norm": 7.0716071128845215,
	"learning_rate": 3.5468571640446994e-05,
	"loss": 50.7825,
	"step": 658
	},
	{
	"epoch": 2.2527888977848947,
	"grad_norm": 4.64641809463501,
	"learning_rate": 3.5385375325047166e-05,
	"loss": 50.3092,
	"step": 660
	},
	{
	"epoch": 2.2596210301574593,
	"grad_norm": 4.058784008026123,
	"learning_rate": 3.5302039775140486e-05,
	"loss": 51.7827,
	"step": 662
	},
	{
	"epoch": 2.266453162530024,
	"grad_norm": 4.011864185333252,
	"learning_rate": 3.521856610798887e-05,
	"loss": 51.4194,
	"step": 664
	},
	{
	"epoch": 2.2732852949025886,
	"grad_norm": 3.89857816696167,
	"learning_rate": 3.513495544270592e-05,
	"loss": 50.7032,
	"step": 666
	},
	{
	"epoch": 2.2801174272751537,
	"grad_norm": 4.966712951660156,
	"learning_rate": 3.505120890024195e-05,
	"loss": 49.925,
	"step": 668
	},
	{
	"epoch": 2.2869495596477183,
	"grad_norm": 4.181141376495361,
	"learning_rate": 3.496732760336895e-05,
	"loss": 49.5112,
	"step": 670
	},
	{
	"epoch": 2.293781692020283,
	"grad_norm": 4.761594772338867,
	"learning_rate": 3.4883312676665536e-05,
	"loss": 49.6545,
	"step": 672
	},
	{
	"epoch": 2.3006138243928476,
	"grad_norm": 3.97501802444458,
	"learning_rate": 3.479916524650188e-05,
	"loss": 51.1862,
	"step": 674
	},
	{
	"epoch": 2.307445956765412,
	"grad_norm": 5.200672149658203,
	"learning_rate": 3.4714886441024574e-05,
	"loss": 49.9163,
	"step": 676
	},
	{
	"epoch": 2.314278089137977,
	"grad_norm": 4.147047519683838,
	"learning_rate": 3.4630477390141556e-05,
	"loss": 48.6138,
	"step": 678
	},
	{
	"epoch": 2.321110221510542,
	"grad_norm": 4.9791693687438965,
	"learning_rate": 3.4545939225506934e-05,
	"loss": 51.4538,
	"step": 680
	},
	{
	"epoch": 2.3279423538831066,
	"grad_norm": 4.929348945617676,
	"learning_rate": 3.4461273080505793e-05,
	"loss": 51.2735,
	"step": 682
	},
	{
	"epoch": 2.334774486255671,
	"grad_norm": 4.98499059677124,
	"learning_rate": 3.437648009023905e-05,
	"loss": 48.5889,
	"step": 684
	},
	{
	"epoch": 2.341606618628236,
	"grad_norm": 4.354183673858643,
	"learning_rate": 3.4291561391508185e-05,
	"loss": 51.7768,
	"step": 686
	},
	{
	"epoch": 2.3484387510008005,
	"grad_norm": 3.482697010040283,
	"learning_rate": 3.420651812280006e-05,
	"loss": 48.9966,
	"step": 688
	},
	{
	"epoch": 2.3552708833733655,
	"grad_norm": 4.613458156585693,
	"learning_rate": 3.4121351424271594e-05,
	"loss": 50.8534,
	"step": 690
	},
	{
	"epoch": 2.36210301574593,
	"grad_norm": 3.93235182762146,
	"learning_rate": 3.4036062437734484e-05,
	"loss": 50.9164,
	"step": 692
	},
	{
	"epoch": 2.368935148118495,
	"grad_norm": 5.348623275756836,
	"learning_rate": 3.395065230663996e-05,
	"loss": 49.6679,
	"step": 694
	},
	{
	"epoch": 2.3757672804910595,
	"grad_norm": 5.050134181976318,
	"learning_rate": 3.386512217606339e-05,
	"loss": 48.0534,
	"step": 696
	},
	{
	"epoch": 2.382599412863624,
	"grad_norm": 3.7587573528289795,
	"learning_rate": 3.3779473192688954e-05,
	"loss": 50.3013,
	"step": 698
	},
	{
	"epoch": 2.3894315452361887,
	"grad_norm": 5.177303314208984,
	"learning_rate": 3.369370650479425e-05,
	"loss": 48.8704,
	"step": 700
	},
	{
	"epoch": 2.3894315452361887,
	"eval_loss": 0.7940448522567749,
	"eval_runtime": 119.8708,
	"eval_samples_per_second": 32.91,
	"eval_steps_per_second": 8.234,
	"step": 700
	},
	{
	"epoch": 2.396263677608754,
	"grad_norm": 4.268886089324951,
	"learning_rate": 3.360782326223493e-05,
	"loss": 50.0788,
	"step": 702
	},
	{
	"epoch": 2.4030958099813184,
	"grad_norm": 4.847851276397705,
	"learning_rate": 3.3521824616429285e-05,
	"loss": 50.5298,
	"step": 704
	},
	{
	"epoch": 2.409927942353883,
	"grad_norm": 4.221863746643066,
	"learning_rate": 3.3435711720342764e-05,
	"loss": 51.0571,
	"step": 706
	},
	{
	"epoch": 2.4167600747264477,
	"grad_norm": 5.5122528076171875,
	"learning_rate": 3.3349485728472535e-05,
	"loss": 48.3266,
	"step": 708
	},
	{
	"epoch": 2.4235922070990124,
	"grad_norm": 3.7766902446746826,
	"learning_rate": 3.326314779683207e-05,
	"loss": 49.9334,
	"step": 710
	},
	{
	"epoch": 2.4304243394715774,
	"grad_norm": 4.093820571899414,
	"learning_rate": 3.3176699082935545e-05,
	"loss": 48.4746,
	"step": 712
	},
	{
	"epoch": 2.437256471844142,
	"grad_norm": 4.116121292114258,
	"learning_rate": 3.3090140745782396e-05,
	"loss": 48.5131,
	"step": 714
	},
	{
	"epoch": 2.4440886042167067,
	"grad_norm": 5.181516647338867,
	"learning_rate": 3.300347394584172e-05,
	"loss": 50.4981,
	"step": 716
	},
	{
	"epoch": 2.4509207365892713,
	"grad_norm": 4.464053630828857,
	"learning_rate": 3.2916699845036816e-05,
	"loss": 50.2301,
	"step": 718
	},
	{
	"epoch": 2.457752868961836,
	"grad_norm": 4.229206562042236,
	"learning_rate": 3.282981960672948e-05,
	"loss": 50.1858,
	"step": 720
	},
	{
	"epoch": 2.4645850013344006,
	"grad_norm": 3.8356049060821533,
	"learning_rate": 3.2742834395704486e-05,
	"loss": 48.9147,
	"step": 722
	},
	{
	"epoch": 2.4714171337069657,
	"grad_norm": 3.9584670066833496,
	"learning_rate": 3.265574537815398e-05,
	"loss": 48.6574,
	"step": 724
	},
	{
	"epoch": 2.4782492660795303,
	"grad_norm": 4.802350997924805,
	"learning_rate": 3.25685537216618e-05,
	"loss": 48.9724,
	"step": 726
	},
	{
	"epoch": 2.485081398452095,
	"grad_norm": 4.078526020050049,
	"learning_rate": 3.248126059518785e-05,
	"loss": 47.7639,
	"step": 728
	},
	{
	"epoch": 2.4919135308246596,
	"grad_norm": 3.8187856674194336,
	"learning_rate": 3.2393867169052385e-05,
	"loss": 48.2195,
	"step": 730
	},
	{
	"epoch": 2.4987456631972247,
	"grad_norm": 5.273796081542969,
	"learning_rate": 3.230637461492043e-05,
	"loss": 49.7512,
	"step": 732
	},
	{
	"epoch": 2.5055777955697893,
	"grad_norm": 4.126491069793701,
	"learning_rate": 3.221878410578593e-05,
	"loss": 49.0844,
	"step": 734
	},
	{
	"epoch": 2.512409927942354,
	"grad_norm": 4.665433406829834,
	"learning_rate": 3.213109681595612e-05,
	"loss": 48.7829,
	"step": 736
	},
	{
	"epoch": 2.5192420603149186,
	"grad_norm": 4.897470951080322,
	"learning_rate": 3.2043313921035743e-05,
	"loss": 49.5252,
	"step": 738
	},
	{
	"epoch": 2.5260741926874832,
	"grad_norm": 5.257498264312744,
	"learning_rate": 3.195543659791132e-05,
	"loss": 50.4767,
	"step": 740
	},
	{
	"epoch": 2.532906325060048,
	"grad_norm": 3.754957914352417,
	"learning_rate": 3.186746602473533e-05,
	"loss": 49.4055,
	"step": 742
	},
	{
	"epoch": 2.5397384574326125,
	"grad_norm": 3.994774341583252,
	"learning_rate": 3.177940338091043e-05,
	"loss": 49.3039,
	"step": 744
	},
	{
	"epoch": 2.5465705898051776,
	"grad_norm": 4.923650741577148,
	"learning_rate": 3.169124984707367e-05,
	"loss": 48.6568,
	"step": 746
	},
	{
	"epoch": 2.5534027221777422,
	"grad_norm": 6.377063274383545,
	"learning_rate": 3.160300660508064e-05,
	"loss": 48.7655,
	"step": 748
	},
	{
	"epoch": 2.560234854550307,
	"grad_norm": 3.7124524116516113,
	"learning_rate": 3.151467483798961e-05,
	"loss": 48.0997,
	"step": 750
	},
	{
	"epoch": 2.560234854550307,
	"eval_loss": 0.7798339128494263,
	"eval_runtime": 119.2173,
	"eval_samples_per_second": 33.091,
	"eval_steps_per_second": 8.279,
	"step": 750
	},
	{
	"epoch": 2.5670669869228715,
	"grad_norm": 4.752464294433594,
	"learning_rate": 3.14262557300457e-05,
	"loss": 48.422,
	"step": 752
	},
	{
	"epoch": 2.5738991192954366,
	"grad_norm": 4.635769844055176,
	"learning_rate": 3.1337750466665e-05,
	"loss": 48.9177,
	"step": 754
	},
	{
	"epoch": 2.580731251668001,
	"grad_norm": 4.357526779174805,
	"learning_rate": 3.124916023441865e-05,
	"loss": 49.4801,
	"step": 756
	},
	{
	"epoch": 2.587563384040566,
	"grad_norm": 16.189651489257812,
	"learning_rate": 3.116048622101694e-05,
	"loss": 49.275,
	"step": 758
	},
	{
	"epoch": 2.5943955164131305,
	"grad_norm": 3.983285903930664,
	"learning_rate": 3.107172961529343e-05,
	"loss": 47.968,
	"step": 760
	},
	{
	"epoch": 2.601227648785695,
	"grad_norm": 4.357701301574707,
	"learning_rate": 3.098289160718895e-05,
	"loss": 47.8592,
	"step": 762
	},
	{
	"epoch": 2.6080597811582598,
	"grad_norm": 3.9686052799224854,
	"learning_rate": 3.0893973387735687e-05,
	"loss": 49.5191,
	"step": 764
	},
	{
	"epoch": 2.6148919135308244,
	"grad_norm": 3.9062581062316895,
	"learning_rate": 3.0804976149041195e-05,
	"loss": 48.5485,
	"step": 766
	},
	{
	"epoch": 2.6217240459033895,
	"grad_norm": 4.7290143966674805,
	"learning_rate": 3.071590108427244e-05,
	"loss": 49.2073,
	"step": 768
	},
	{
	"epoch": 2.628556178275954,
	"grad_norm": 4.57703161239624,
	"learning_rate": 3.062674938763976e-05,
	"loss": 49.7624,
	"step": 770
	},
	{
	"epoch": 2.6353883106485188,
	"grad_norm": 4.4061737060546875,
	"learning_rate": 3.0537522254380905e-05,
	"loss": 49.0566,
	"step": 772
	},
	{
	"epoch": 2.6422204430210834,
	"grad_norm": 4.166697978973389,
	"learning_rate": 3.044822088074496e-05,
	"loss": 49.3193,
	"step": 774
	},
	{
	"epoch": 2.6490525753936485,
	"grad_norm": 3.5513172149658203,
	"learning_rate": 3.0358846463976372e-05,
	"loss": 48.9675,
	"step": 776
	},
	{
	"epoch": 2.655884707766213,
	"grad_norm": 4.9701995849609375,
	"learning_rate": 3.026940020229882e-05,
	"loss": 49.6229,
	"step": 778
	},
	{
	"epoch": 2.6627168401387777,
	"grad_norm": 4.223094463348389,
	"learning_rate": 3.017988329489923e-05,
	"loss": 47.1613,
	"step": 780
	},
	{
	"epoch": 2.6695489725113424,
	"grad_norm": 4.849906921386719,
	"learning_rate": 3.0090296941911633e-05,
	"loss": 47.5764,
	"step": 782
	},
	{
	"epoch": 2.676381104883907,
	"grad_norm": 3.507953643798828,
	"learning_rate": 3.0000642344401113e-05,
	"loss": 47.1944,
	"step": 784
	},
	{
	"epoch": 2.6832132372564717,
	"grad_norm": 4.040694713592529,
	"learning_rate": 2.9910920704347696e-05,
	"loss": 48.6472,
	"step": 786
	},
	{
	"epoch": 2.6900453696290363,
	"grad_norm": 5.141117095947266,
	"learning_rate": 2.9821133224630226e-05,
	"loss": 47.177,
	"step": 788
	},
	{
	"epoch": 2.6968775020016014,
	"grad_norm": 4.463181018829346,
	"learning_rate": 2.9731281109010256e-05,
	"loss": 47.4283,
	"step": 790
	},
	{
	"epoch": 2.703709634374166,
	"grad_norm": 3.586456060409546,
	"learning_rate": 2.9641365562115887e-05,
	"loss": 48.9784,
	"step": 792
	},
	{
	"epoch": 2.7105417667467306,
	"grad_norm": 3.9780969619750977,
	"learning_rate": 2.9551387789425638e-05,
	"loss": 48.601,
	"step": 794
	},
	{
	"epoch": 2.7173738991192953,
	"grad_norm": 4.445759296417236,
	"learning_rate": 2.9461348997252265e-05,
	"loss": 49.9106,
	"step": 796
	},
	{
	"epoch": 2.7242060314918604,
	"grad_norm": 4.416858673095703,
	"learning_rate": 2.9371250392726614e-05,
	"loss": 48.3298,
	"step": 798
	},
	{
	"epoch": 2.731038163864425,
	"grad_norm": 4.36728572845459,
	"learning_rate": 2.9281093183781403e-05,
	"loss": 48.6063,
	"step": 800
	},
	{
	"epoch": 2.731038163864425,
	"eval_loss": 0.7699871063232422,
	"eval_runtime": 119.5951,
	"eval_samples_per_second": 32.986,
	"eval_steps_per_second": 8.253,
	"step": 800
	},
	{
	"epoch": 2.7378702962369896,
	"grad_norm": 5.540378570556641,
	"learning_rate": 2.919087857913508e-05,
	"loss": 49.4323,
	"step": 802
	},
	{
	"epoch": 2.7447024286095543,
	"grad_norm": 3.73681640625,
	"learning_rate": 2.9100607788275545e-05,
	"loss": 49.0439,
	"step": 804
	},
	{
	"epoch": 2.751534560982119,
	"grad_norm": 4.437684535980225,
	"learning_rate": 2.9010282021444008e-05,
	"loss": 48.8682,
	"step": 806
	},
	{
	"epoch": 2.7583666933546835,
	"grad_norm": 4.933871746063232,
	"learning_rate": 2.891990248961871e-05,
	"loss": 48.0791,
	"step": 808
	},
	{
	"epoch": 2.7651988257272486,
	"grad_norm": 4.351380825042725,
	"learning_rate": 2.8829470404498697e-05,
	"loss": 47.0584,
	"step": 810
	},
	{
	"epoch": 2.7720309580998133,
	"grad_norm": 4.953640937805176,
	"learning_rate": 2.8738986978487625e-05,
	"loss": 50.0531,
	"step": 812
	},
	{
	"epoch": 2.778863090472378,
	"grad_norm": 3.676950216293335,
	"learning_rate": 2.8648453424677434e-05,
	"loss": 46.9994,
	"step": 814
	},
	{
	"epoch": 2.7856952228449425,
	"grad_norm": 4.177380084991455,
	"learning_rate": 2.8557870956832132e-05,
	"loss": 48.3932,
	"step": 816
	},
	{
	"epoch": 2.7925273552175076,
	"grad_norm": 4.177119731903076,
	"learning_rate": 2.846724078937149e-05,
	"loss": 48.2385,
	"step": 818
	},
	{
	"epoch": 2.7993594875900722,
	"grad_norm": 4.261831283569336,
	"learning_rate": 2.8376564137354795e-05,
	"loss": 48.813,
	"step": 820
	},
	{
	"epoch": 2.806191619962637,
	"grad_norm": 3.7779037952423096,
	"learning_rate": 2.8285842216464543e-05,
	"loss": 48.801,
	"step": 822
	},
	{
	"epoch": 2.8130237523352015,
	"grad_norm": 5.378250598907471,
	"learning_rate": 2.8195076242990122e-05,
	"loss": 45.9584,
	"step": 824
	},
	{
	"epoch": 2.819855884707766,
	"grad_norm": 3.5369153022766113,
	"learning_rate": 2.8104267433811533e-05,
	"loss": 46.97,
	"step": 826
	},
	{
	"epoch": 2.826688017080331,
	"grad_norm": 3.493602991104126,
	"learning_rate": 2.8013417006383076e-05,
	"loss": 46.7352,
	"step": 828
	},
	{
	"epoch": 2.8335201494528954,
	"grad_norm": 5.41981840133667,
	"learning_rate": 2.7922526178717017e-05,
	"loss": 48.4586,
	"step": 830
	},
	{
	"epoch": 2.8403522818254605,
	"grad_norm": 4.6053948402404785,
	"learning_rate": 2.783159616936723e-05,
	"loss": 46.5008,
	"step": 832
	},
	{
	"epoch": 2.847184414198025,
	"grad_norm": 4.136333465576172,
	"learning_rate": 2.774062819741293e-05,
	"loss": 47.3448,
	"step": 834
	},
	{
	"epoch": 2.85401654657059,
	"grad_norm": 3.927877187728882,
	"learning_rate": 2.764962348244228e-05,
	"loss": 46.7369,
	"step": 836
	},
	{
	"epoch": 2.8608486789431544,
	"grad_norm": 4.283491611480713,
	"learning_rate": 2.7558583244536007e-05,
	"loss": 48.098,
	"step": 838
	},
	{
	"epoch": 2.8676808113157195,
	"grad_norm": 3.802030563354492,
	"learning_rate": 2.7467508704251137e-05,
	"loss": 48.2908,
	"step": 840
	},
	{
	"epoch": 2.874512943688284,
	"grad_norm": 5.212815761566162,
	"learning_rate": 2.7376401082604564e-05,
	"loss": 47.8921,
	"step": 842
	},
	{
	"epoch": 2.8813450760608488,
	"grad_norm": 4.39296293258667,
	"learning_rate": 2.7285261601056698e-05,
	"loss": 48.2491,
	"step": 844
	},
	{
	"epoch": 2.8881772084334134,
	"grad_norm": 5.428844928741455,
	"learning_rate": 2.7194091481495076e-05,
	"loss": 49.1209,
	"step": 846
	},
	{
	"epoch": 2.895009340805978,
	"grad_norm": 3.9836559295654297,
	"learning_rate": 2.7102891946217994e-05,
	"loss": 47.0515,
	"step": 848
	},
	{
	"epoch": 2.9018414731785427,
	"grad_norm": 3.1067824363708496,
	"learning_rate": 2.7011664217918154e-05,
	"loss": 46.0087,
	"step": 850
	},
	{
	"epoch": 2.9018414731785427,
	"eval_loss": 0.760260820388794,
	"eval_runtime": 119.6698,
	"eval_samples_per_second": 32.966,
	"eval_steps_per_second": 8.248,
	"step": 850
	},
	{
	"epoch": 2.9086736055511073,
	"grad_norm": 4.688024997711182,
	"learning_rate": 2.6920409519666174e-05,
	"loss": 47.0489,
	"step": 852
	},
	{
	"epoch": 2.9155057379236724,
	"grad_norm": 4.777935981750488,
	"learning_rate": 2.6829129074894304e-05,
	"loss": 48.1153,
	"step": 854
	},
	{
	"epoch": 2.922337870296237,
	"grad_norm": 4.912516117095947,
	"learning_rate": 2.6737824107379948e-05,
	"loss": 48.0798,
	"step": 856
	},
	{
	"epoch": 2.9291700026688017,
	"grad_norm": 4.066973686218262,
	"learning_rate": 2.6646495841229287e-05,
	"loss": 46.9194,
	"step": 858
	},
	{
	"epoch": 2.9360021350413663,
	"grad_norm": 4.499208927154541,
	"learning_rate": 2.655514550086086e-05,
	"loss": 48.3087,
	"step": 860
	},
	{
	"epoch": 2.9428342674139314,
	"grad_norm": 4.891952991485596,
	"learning_rate": 2.6463774310989154e-05,
	"loss": 46.8565,
	"step": 862
	},
	{
	"epoch": 2.949666399786496,
	"grad_norm": 3.8262720108032227,
	"learning_rate": 2.637238349660819e-05,
	"loss": 46.7596,
	"step": 864
	},
	{
	"epoch": 2.9564985321590607,
	"grad_norm": 5.6072492599487305,
	"learning_rate": 2.6280974282975063e-05,
	"loss": 45.254,
	"step": 866
	},
	{
	"epoch": 2.9633306645316253,
	"grad_norm": 3.9889800548553467,
	"learning_rate": 2.6189547895593562e-05,
	"loss": 46.754,
	"step": 868
	},
	{
	"epoch": 2.97016279690419,
	"grad_norm": 3.7260525226593018,
	"learning_rate": 2.6098105560197722e-05,
	"loss": 46.6516,
	"step": 870
	},
	{
	"epoch": 2.9769949292767546,
	"grad_norm": 4.090394973754883,
	"learning_rate": 2.600664850273538e-05,
	"loss": 47.2404,
	"step": 872
	},
	{
	"epoch": 2.983827061649319,
	"grad_norm": 3.6287267208099365,
	"learning_rate": 2.5915177949351765e-05,
	"loss": 46.3821,
	"step": 874
	},
	{
	"epoch": 2.9906591940218843,
	"grad_norm": 3.5229976177215576,
	"learning_rate": 2.582369512637302e-05,
	"loss": 46.8471,
	"step": 876
	},
	{
	"epoch": 2.997491326394449,
	"grad_norm": 3.532615900039673,
	"learning_rate": 2.5732201260289806e-05,
	"loss": 47.0364,
	"step": 878
	},
	{
	"epoch": 3.0034160661862823,
	"grad_norm": 3.482403039932251,
	"learning_rate": 2.564069757774082e-05,
	"loss": 40.3241,
	"step": 880
	},
	{
	"epoch": 3.010248198558847,
	"grad_norm": 3.94649600982666,
	"learning_rate": 2.554918530549637e-05,
	"loss": 46.7226,
	"step": 882
	},
	{
	"epoch": 3.0170803309314116,
	"grad_norm": 4.395301818847656,
	"learning_rate": 2.545766567044194e-05,
	"loss": 45.266,
	"step": 884
	},
	{
	"epoch": 3.0239124633039767,
	"grad_norm": 4.813998699188232,
	"learning_rate": 2.5366139899561696e-05,
	"loss": 46.8651,
	"step": 886
	},
	{
	"epoch": 3.0307445956765413,
	"grad_norm": 5.5799174308776855,
	"learning_rate": 2.527460921992209e-05,
	"loss": 46.5727,
	"step": 888
	},
	{
	"epoch": 3.037576728049106,
	"grad_norm": 6.693199634552002,
	"learning_rate": 2.518307485865538e-05,
	"loss": 47.987,
	"step": 890
	},
	{
	"epoch": 3.0444088604216706,
	"grad_norm": 6.33953332901001,
	"learning_rate": 2.509153804294318e-05,
	"loss": 45.7221,
	"step": 892
	},
	{
	"epoch": 3.051240992794235,
	"grad_norm": 4.887784957885742,
	"learning_rate": 2.5e-05,
	"loss": 44.5186,
	"step": 894
	},
	{
	"epoch": 3.0580731251668003,
	"grad_norm": 4.337290287017822,
	"learning_rate": 2.490846195705683e-05,
	"loss": 46.394,
	"step": 896
	},
	{
	"epoch": 3.064905257539365,
	"grad_norm": 3.7094030380249023,
	"learning_rate": 2.4816925141344623e-05,
	"loss": 45.122,
	"step": 898
	},
	{
	"epoch": 3.0717373899119296,
	"grad_norm": 3.71903920173645,
	"learning_rate": 2.4725390780077908e-05,
	"loss": 44.7121,
	"step": 900
	},
	{
	"epoch": 3.0717373899119296,
	"eval_loss": 0.7495905160903931,
	"eval_runtime": 119.7503,
	"eval_samples_per_second": 32.944,
	"eval_steps_per_second": 8.242,
	"step": 900
	},
	{
	"epoch": 3.078569522284494,
	"grad_norm": 4.690406799316406,
	"learning_rate": 2.4633860100438316e-05,
	"loss": 45.6299,
	"step": 902
	},
	{
	"epoch": 3.085401654657059,
	"grad_norm": 4.29756498336792,
	"learning_rate": 2.4542334329558077e-05,
	"loss": 48.2504,
	"step": 904
	},
	{
	"epoch": 3.092233787029624,
	"grad_norm": 5.62404727935791,
	"learning_rate": 2.4450814694503636e-05,
	"loss": 47.6091,
	"step": 906
	},
	{
	"epoch": 3.0990659194021886,
	"grad_norm": 3.726529836654663,
	"learning_rate": 2.435930242225919e-05,
	"loss": 46.4755,
	"step": 908
	},
	{
	"epoch": 3.105898051774753,
	"grad_norm": 6.04416036605835,
	"learning_rate": 2.4267798739710203e-05,
	"loss": 46.9715,
	"step": 910
	},
	{
	"epoch": 3.112730184147318,
	"grad_norm": 3.8375885486602783,
	"learning_rate": 2.4176304873626985e-05,
	"loss": 47.9794,
	"step": 912
	},
	{
	"epoch": 3.1195623165198825,
	"grad_norm": 3.296687602996826,
	"learning_rate": 2.4084822050648237e-05,
	"loss": 45.0776,
	"step": 914
	},
	{
	"epoch": 3.126394448892447,
	"grad_norm": 3.546963930130005,
	"learning_rate": 2.399335149726463e-05,
	"loss": 44.6584,
	"step": 916
	},
	{
	"epoch": 3.133226581265012,
	"grad_norm": 3.896601676940918,
	"learning_rate": 2.390189443980229e-05,
	"loss": 47.0284,
	"step": 918
	},
	{
	"epoch": 3.140058713637577,
	"grad_norm": 3.570570468902588,
	"learning_rate": 2.3810452104406444e-05,
	"loss": 46.4413,
	"step": 920
	},
	{
	"epoch": 3.1468908460101415,
	"grad_norm": 4.160488605499268,
	"learning_rate": 2.3719025717024946e-05,
	"loss": 47.1564,
	"step": 922
	},
	{
	"epoch": 3.153722978382706,
	"grad_norm": 5.714613914489746,
	"learning_rate": 2.3627616503391814e-05,
	"loss": 48.2275,
	"step": 924
	},
	{
	"epoch": 3.1605551107552707,
	"grad_norm": 4.362124919891357,
	"learning_rate": 2.3536225689010845e-05,
	"loss": 47.0592,
	"step": 926
	},
	{
	"epoch": 3.167387243127836,
	"grad_norm": 6.478647708892822,
	"learning_rate": 2.3444854499139142e-05,
	"loss": 47.4139,
	"step": 928
	},
	{
	"epoch": 3.1742193755004005,
	"grad_norm": 3.713979721069336,
	"learning_rate": 2.3353504158770722e-05,
	"loss": 47.7301,
	"step": 930
	},
	{
	"epoch": 3.181051507872965,
	"grad_norm": 3.875537872314453,
	"learning_rate": 2.3262175892620065e-05,
	"loss": 45.6112,
	"step": 932
	},
	{
	"epoch": 3.1878836402455297,
	"grad_norm": 5.328731536865234,
	"learning_rate": 2.3170870925105702e-05,
	"loss": 46.6125,
	"step": 934
	},
	{
	"epoch": 3.1947157726180944,
	"grad_norm": 5.152383327484131,
	"learning_rate": 2.307959048033383e-05,
	"loss": 45.6076,
	"step": 936
	},
	{
	"epoch": 3.201547904990659,
	"grad_norm": 4.689112186431885,
	"learning_rate": 2.2988335782081855e-05,
	"loss": 45.648,
	"step": 938
	},
	{
	"epoch": 3.208380037363224,
	"grad_norm": 3.3412325382232666,
	"learning_rate": 2.2897108053782e-05,
	"loss": 44.4993,
	"step": 940
	},
	{
	"epoch": 3.2152121697357887,
	"grad_norm": 11.583976745605469,
	"learning_rate": 2.280590851850493e-05,
	"loss": 46.3174,
	"step": 942
	},
	{
	"epoch": 3.2220443021083534,
	"grad_norm": 4.012174606323242,
	"learning_rate": 2.271473839894331e-05,
	"loss": 46.3054,
	"step": 944
	},
	{
	"epoch": 3.228876434480918,
	"grad_norm": 6.315187931060791,
	"learning_rate": 2.2623598917395438e-05,
	"loss": 44.3273,
	"step": 946
	},
	{
	"epoch": 3.2357085668534826,
	"grad_norm": 5.612927436828613,
	"learning_rate": 2.253249129574887e-05,
	"loss": 46.8669,
	"step": 948
	},
	{
	"epoch": 3.2425406992260477,
	"grad_norm": 3.7026705741882324,
	"learning_rate": 2.2441416755463995e-05,
	"loss": 46.4012,
	"step": 950
	},
	{
	"epoch": 3.2425406992260477,
	"eval_loss": 0.7383518218994141,
	"eval_runtime": 118.6959,
	"eval_samples_per_second": 33.236,
	"eval_steps_per_second": 8.315,
	"step": 950
	},
	{
	"epoch": 3.2493728315986123,
	"grad_norm": 4.251457214355469,
	"learning_rate": 2.2350376517557727e-05,
	"loss": 47.1319,
	"step": 952
	},
	{
	"epoch": 3.256204963971177,
	"grad_norm": 4.500071048736572,
	"learning_rate": 2.2259371802587068e-05,
	"loss": 47.0883,
	"step": 954
	},
	{
	"epoch": 3.2630370963437416,
	"grad_norm": 4.684493064880371,
	"learning_rate": 2.216840383063277e-05,
	"loss": 45.0587,
	"step": 956
	},
	{
	"epoch": 3.2698692287163063,
	"grad_norm": 3.853529453277588,
	"learning_rate": 2.2077473821282996e-05,
	"loss": 46.3262,
	"step": 958
	},
	{
	"epoch": 3.276701361088871,
	"grad_norm": 5.501523971557617,
	"learning_rate": 2.1986582993616926e-05,
	"loss": 44.8375,
	"step": 960
	},
	{
	"epoch": 3.283533493461436,
	"grad_norm": 15.540706634521484,
	"learning_rate": 2.1895732566188476e-05,
	"loss": 45.117,
	"step": 962
	},
	{
	"epoch": 3.2903656258340006,
	"grad_norm": 2.6855862140655518,
	"learning_rate": 2.1804923757009884e-05,
	"loss": 45.9567,
	"step": 964
	},
	{
	"epoch": 3.2971977582065652,
	"grad_norm": 4.529240131378174,
	"learning_rate": 2.1714157783535463e-05,
	"loss": 44.7532,
	"step": 966
	},
	{
	"epoch": 3.30402989057913,
	"grad_norm": 4.690282344818115,
	"learning_rate": 2.1623435862645204e-05,
	"loss": 45.8376,
	"step": 968
	},
	{
	"epoch": 3.3108620229516945,
	"grad_norm": 5.309507846832275,
	"learning_rate": 2.153275921062851e-05,
	"loss": 46.1757,
	"step": 970
	},
	{
	"epoch": 3.3176941553242596,
	"grad_norm": 4.278385639190674,
	"learning_rate": 2.1442129043167874e-05,
	"loss": 46.6388,
	"step": 972
	},
	{
	"epoch": 3.3245262876968242,
	"grad_norm": 4.2424516677856445,
	"learning_rate": 2.1351546575322572e-05,
	"loss": 45.1695,
	"step": 974
	},
	{
	"epoch": 3.331358420069389,
	"grad_norm": 3.695155143737793,
	"learning_rate": 2.126101302151238e-05,
	"loss": 45.9417,
	"step": 976
	},
	{
	"epoch": 3.3381905524419535,
	"grad_norm": 4.2003374099731445,
	"learning_rate": 2.1170529595501305e-05,
	"loss": 44.4002,
	"step": 978
	},
	{
	"epoch": 3.345022684814518,
	"grad_norm": 4.378734588623047,
	"learning_rate": 2.1080097510381298e-05,
	"loss": 45.4517,
	"step": 980
	},
	{
	"epoch": 3.351854817187083,
	"grad_norm": 3.96730637550354,
	"learning_rate": 2.098971797855599e-05,
	"loss": 43.9996,
	"step": 982
	},
	{
	"epoch": 3.358686949559648,
	"grad_norm": 3.6162188053131104,
	"learning_rate": 2.089939221172446e-05,
	"loss": 43.9178,
	"step": 984
	},
	{
	"epoch": 3.3655190819322125,
	"grad_norm": 4.3834099769592285,
	"learning_rate": 2.0809121420864923e-05,
	"loss": 46.2701,
	"step": 986
	},
	{
	"epoch": 3.372351214304777,
	"grad_norm": 4.271561145782471,
	"learning_rate": 2.07189068162186e-05,
	"loss": 45.7546,
	"step": 988
	},
	{
	"epoch": 3.3791833466773418,
	"grad_norm": 3.5791757106781006,
	"learning_rate": 2.0628749607273396e-05,
	"loss": 45.3079,
	"step": 990
	},
	{
	"epoch": 3.3860154790499064,
	"grad_norm": 4.5101318359375,
	"learning_rate": 2.0538651002747744e-05,
	"loss": 46.5476,
	"step": 992
	},
	{
	"epoch": 3.3928476114224715,
	"grad_norm": 5.944687366485596,
	"learning_rate": 2.0448612210574365e-05,
	"loss": 44.0355,
	"step": 994
	},
	{
	"epoch": 3.399679743795036,
	"grad_norm": 4.936254501342773,
	"learning_rate": 2.0358634437884112e-05,
	"loss": 46.0717,
	"step": 996
	},
	{
	"epoch": 3.4065118761676008,
	"grad_norm": 4.114757537841797,
	"learning_rate": 2.0268718890989753e-05,
	"loss": 44.5295,
	"step": 998
	},
	{
	"epoch": 3.4133440085401654,
	"grad_norm": 8.12585735321045,
	"learning_rate": 2.0178866775369777e-05,
	"loss": 45.0747,
	"step": 1000
	},
	{
	"epoch": 3.4133440085401654,
	"eval_loss": 0.7275528907775879,
	"eval_runtime": 119.5885,
	"eval_samples_per_second": 32.988,
	"eval_steps_per_second": 8.253,
	"step": 1000
	},
	{
	"epoch": 3.4304243394715774,
	"grad_norm": 4.9336113929748535,
	"learning_rate": 2.0089079295652306e-05,
	"loss": 45.5736,
	"step": 1002
	},
	{
	"epoch": 3.437256471844142,
	"grad_norm": 5.042412757873535,
	"learning_rate": 1.9999357655598893e-05,
	"loss": 45.6651,
	"step": 1004
	},
	{
	"epoch": 3.4440886042167067,
	"grad_norm": 3.9377660751342773,
	"learning_rate": 1.9909703058088376e-05,
	"loss": 44.5559,
	"step": 1006
	},
	{
	"epoch": 3.4509207365892713,
	"grad_norm": 4.054321765899658,
	"learning_rate": 1.9820116705100777e-05,
	"loss": 45.1868,
	"step": 1008
	},
	{
	"epoch": 3.457752868961836,
	"grad_norm": 4.860738277435303,
	"learning_rate": 1.9730599797701177e-05,
	"loss": 44.6737,
	"step": 1010
	},
	{
	"epoch": 3.4645850013344006,
	"grad_norm": 3.950925827026367,
	"learning_rate": 1.9641153536023644e-05,
	"loss": 43.7733,
	"step": 1012
	},
	{
	"epoch": 3.4714171337069657,
	"grad_norm": 3.831669569015503,
	"learning_rate": 1.9551779119255043e-05,
	"loss": 43.7403,
	"step": 1014
	},
	{
	"epoch": 3.4782492660795303,
	"grad_norm": 4.114947319030762,
	"learning_rate": 1.9462477745619108e-05,
	"loss": 45.5074,
	"step": 1016
	},
	{
	"epoch": 3.485081398452095,
	"grad_norm": 3.405243158340454,
	"learning_rate": 1.9373250612360246e-05,
	"loss": 46.4417,
	"step": 1018
	},
	{
	"epoch": 3.4919135308246596,
	"grad_norm": 4.80495023727417,
	"learning_rate": 1.928409891572757e-05,
	"loss": 44.9758,
	"step": 1020
	},
	{
	"epoch": 3.4987456631972247,
	"grad_norm": 4.239831447601318,
	"learning_rate": 1.919502385095881e-05,
	"loss": 44.6174,
	"step": 1022
	},
	{
	"epoch": 3.5055777955697893,
	"grad_norm": 4.724026203155518,
	"learning_rate": 1.9106026612264316e-05,
	"loss": 44.7325,
	"step": 1024
	},
	{
	"epoch": 3.512409927942354,
	"grad_norm": 3.4634554386138916,
	"learning_rate": 1.9017108392811065e-05,
	"loss": 43.7796,
	"step": 1026
	},
	{
	"epoch": 3.5192420603149186,
	"grad_norm": 4.715716361999512,
	"learning_rate": 1.8928270384706584e-05,
	"loss": 45.2777,
	"step": 1028
	},
	{
	"epoch": 3.5260741926874832,
	"grad_norm": 5.100541114807129,
	"learning_rate": 1.8839513778983066e-05,
	"loss": 46.4359,
	"step": 1030
	},
	{
	"epoch": 3.532906325060048,
	"grad_norm": 4.475189685821533,
	"learning_rate": 1.875083976558136e-05,
	"loss": 44.0298,
	"step": 1032
	},
	{
	"epoch": 3.5397384574326125,
	"grad_norm": 4.431650161743164,
	"learning_rate": 1.8662249533335003e-05,
	"loss": 44.2631,
	"step": 1034
	},
	{
	"epoch": 3.5465705898051776,
	"grad_norm": 4.561038970947266,
	"learning_rate": 1.8573744269954298e-05,
	"loss": 43.9968,
	"step": 1036
	},
	{
	"epoch": 3.5534027221777422,
	"grad_norm": 3.4181675910949707,
	"learning_rate": 1.848532516201039e-05,
	"loss": 43.372,
	"step": 1038
	},
	{
	"epoch": 3.560234854550307,
	"grad_norm": 4.05961799621582,
	"learning_rate": 1.8396993394919372e-05,
	"loss": 43.5887,
	"step": 1040
	},
	{
	"epoch": 3.5670669869228715,
	"grad_norm": 4.183586597442627,
	"learning_rate": 1.8308750152926337e-05,
	"loss": 43.1976,
	"step": 1042
	},
	{
	"epoch": 3.5738991192954366,
	"grad_norm": 4.6883745193481445,
	"learning_rate": 1.8220596619089576e-05,
	"loss": 44.4463,
	"step": 1044
	},
	{
	"epoch": 3.580731251668001,
	"grad_norm": 4.490588665008545,
	"learning_rate": 1.8132533975264682e-05,
	"loss": 44.3332,
	"step": 1046
	},
	{
	"epoch": 3.587563384040566,
	"grad_norm": 4.937854766845703,
	"learning_rate": 1.8044563402088684e-05,
	"loss": 45.1199,
	"step": 1048
	},
	{
	"epoch": 3.5943955164131305,
	"grad_norm": 3.8182907104492188,
	"learning_rate": 1.795668607896426e-05,
	"loss": 45.2035,
	"step": 1050
	},
	{
	"epoch": 3.5943955164131305,
	"eval_loss": 0.7135393619537354,
	"eval_runtime": 130.7813,
	"eval_samples_per_second": 30.165,
	"eval_steps_per_second": 7.547,
	"step": 1050
	},
	{
	"epoch": 3.601227648785695,
	"grad_norm": 3.3739826679229736,
	"learning_rate": 1.7868903184043887e-05,
	"loss": 43.5257,
	"step": 1052
	},
	{
	"epoch": 3.6080597811582598,
	"grad_norm": 3.8119192123413086,
	"learning_rate": 1.7781215894214078e-05,
	"loss": 44.9718,
	"step": 1054
	},
	{
	"epoch": 3.6148919135308244,
	"grad_norm": 3.6780483722686768,
	"learning_rate": 1.7693625385079577e-05,
	"loss": 44.496,
	"step": 1056
	},
	{
	"epoch": 3.6217240459033895,
	"grad_norm": 4.625596523284912,
	"learning_rate": 1.7606132830947614e-05,
	"loss": 43.6496,
	"step": 1058
	},
	{
	"epoch": 3.628556178275954,
	"grad_norm": 5.467988967895508,
	"learning_rate": 1.7518739404812155e-05,
	"loss": 45.3773,
	"step": 1060
	},
	{
	"epoch": 3.6353883106485188,
	"grad_norm": 3.7848103046417236,
	"learning_rate": 1.7431446278338197e-05,
	"loss": 43.6622,
	"step": 1062
	},
	{
	"epoch": 3.6422204430210834,
	"grad_norm": 6.2495222091674805,
	"learning_rate": 1.7344254621846016e-05,
	"loss": 44.7325,
	"step": 1064
	},
	{
	"epoch": 3.6490525753936485,
	"grad_norm": 4.541433811187744,
	"learning_rate": 1.7257165604295513e-05,
	"loss": 45.7111,
	"step": 1066
	},
	{
	"epoch": 3.655884707766213,
	"grad_norm": 3.6900789737701416,
	"learning_rate": 1.7170180393270532e-05,
	"loss": 46.2799,
	"step": 1068
	},
	{
	"epoch": 3.6627168401387777,
	"grad_norm": 3.999112129211426,
	"learning_rate": 1.7083300154963193e-05,
	"loss": 44.9348,
	"step": 1070
	},
	{
	"epoch": 3.6695489725113424,
	"grad_norm": 4.940526008605957,
	"learning_rate": 1.699652605415828e-05,
	"loss": 45.9208,
	"step": 1072
	},
	{
	"epoch": 3.676381104883907,
	"grad_norm": 3.8536486625671387,
	"learning_rate": 1.6909859254217613e-05,
	"loss": 45.3559,
	"step": 1074
	},
	{
	"epoch": 3.6832132372564717,
	"grad_norm": 5.941255569458008,
	"learning_rate": 1.682330091706446e-05,
	"loss": 44.2183,
	"step": 1076
	},
	{
	"epoch": 3.6900453696290363,
	"grad_norm": 4.6851091384887695,
	"learning_rate": 1.6736852203167935e-05,
	"loss": 45.0132,
	"step": 1078
	},
	{
	"epoch": 3.6968775020016014,
	"grad_norm": 6.338913917541504,
	"learning_rate": 1.6650514271527468e-05,
	"loss": 44.5087,
	"step": 1080
	},
	{
	"epoch": 3.703709634374166,
	"grad_norm": 6.134509086608887,
	"learning_rate": 1.6564288279657252e-05,
	"loss": 44.5929,
	"step": 1082
	},
	{
	"epoch": 3.7105417667467306,
	"grad_norm": 3.0185976028442383,
	"learning_rate": 1.647817538357072e-05,
	"loss": 44.4708,
	"step": 1084
	},
	{
	"epoch": 3.7173738991192953,
	"grad_norm": 4.479791641235352,
	"learning_rate": 1.639217673776507e-05,
	"loss": 44.4799,
	"step": 1086
	},
	{
	"epoch": 3.7242060314918604,
	"grad_norm": 3.9354395866394043,
	"learning_rate": 1.630629349520576e-05,
	"loss": 43.3393,
	"step": 1088
	},
	{
	"epoch": 3.731038163864425,
	"grad_norm": 4.530430316925049,
	"learning_rate": 1.622052680731105e-05,
	"loss": 43.1996,
	"step": 1090
	},
	{
	"epoch": 3.7378702962369896,
	"grad_norm": 4.594604015350342,
	"learning_rate": 1.613487782393661e-05,
	"loss": 43.6473,
	"step": 1092
	},
	{
	"epoch": 3.7447024286095543,
	"grad_norm": 4.38798713684082,
	"learning_rate": 1.604934769336004e-05,
	"loss": 43.1229,
	"step": 1094
	},
	{
	"epoch": 3.751534560982119,
	"grad_norm": 4.350236415863037,
	"learning_rate": 1.5963937562265525e-05,
	"loss": 44.7883,
	"step": 1096
	},
	{
	"epoch": 3.7583666933546835,
	"grad_norm": 4.064984321594238,
	"learning_rate": 1.587864857572842e-05,
	"loss": 44.1865,
	"step": 1098
	},
	{
	"epoch": 3.7651988257272486,
	"grad_norm": 4.607226848602295,
	"learning_rate": 1.5793481877199946e-05,
	"loss": 44.6176,
	"step": 1100
	},
	{
	"epoch": 3.7651988257272486,
	"eval_loss": 0.7090520858764648,
	"eval_runtime": 136.3013,
	"eval_samples_per_second": 28.943,
	"eval_steps_per_second": 7.241,
	"step": 1100
	},
	{
	"epoch": 3.7720309580998133,
	"grad_norm": 4.4557719230651855,
	"learning_rate": 1.5708438608491814e-05,
	"loss": 42.0453,
	"step": 1102
	},
	{
	"epoch": 3.778863090472378,
	"grad_norm": 5.199422359466553,
	"learning_rate": 1.5623519909760954e-05,
	"loss": 42.589,
	"step": 1104
	},
	{
	"epoch": 3.7856952228449425,
	"grad_norm": 3.632471799850464,
	"learning_rate": 1.5538726919494206e-05,
	"loss": 43.7924,
	"step": 1106
	},
	{
	"epoch": 3.7925273552175076,
	"grad_norm": 4.203450679779053,
	"learning_rate": 1.5454060774493068e-05,
	"loss": 45.02,
	"step": 1108
	},
	{
	"epoch": 3.7993594875900722,
	"grad_norm": 5.149316310882568,
	"learning_rate": 1.5369522609858446e-05,
	"loss": 44.2724,
	"step": 1110
	},
	{
	"epoch": 3.806191619962637,
	"grad_norm": 3.5306341648101807,
	"learning_rate": 1.528511355897543e-05,
	"loss": 44.2268,
	"step": 1112
	},
	{
	"epoch": 3.8130237523352015,
	"grad_norm": 4.296536445617676,
	"learning_rate": 1.5200834753498128e-05,
	"loss": 44.0479,
	"step": 1114
	},
	{
	"epoch": 3.819855884707766,
	"grad_norm": 2.969525098800659,
	"learning_rate": 1.5116687323334467e-05,
	"loss": 43.5543,
	"step": 1116
	},
	{
	"epoch": 3.826688017080331,
	"grad_norm": 4.044551849365234,
	"learning_rate": 1.5032672396631056e-05,
	"loss": 45.7925,
	"step": 1118
	},
	{
	"epoch": 3.8335201494528954,
	"grad_norm": 5.003629207611084,
	"learning_rate": 1.4948791099758052e-05,
	"loss": 44.2037,
	"step": 1120
	},
	{
	"epoch": 3.8403522818254605,
	"grad_norm": 3.4248318672180176,
	"learning_rate": 1.486504455729408e-05,
	"loss": 43.9243,
	"step": 1122
	},
	{
	"epoch": 3.847184414198025,
	"grad_norm": 4.228148937225342,
	"learning_rate": 1.4781433892011131e-05,
	"loss": 44.7779,
	"step": 1124
	},
	{
	"epoch": 3.85401654657059,
	"grad_norm": 4.345002174377441,
	"learning_rate": 1.4697960224859513e-05,
	"loss": 43.0617,
	"step": 1126
	},
	{
	"epoch": 3.8608486789431544,
	"grad_norm": 4.824610233306885,
	"learning_rate": 1.4614624674952842e-05,
	"loss": 43.2687,
	"step": 1128
	},
	{
	"epoch": 3.8676808113157195,
	"grad_norm": 5.528540134429932,
	"learning_rate": 1.4531428359553017e-05,
	"loss": 43.5145,
	"step": 1130
	},
	{
	"epoch": 3.874512943688284,
	"grad_norm": 3.7578537464141846,
	"learning_rate": 1.4448372394055249e-05,
	"loss": 43.2377,
	"step": 1132
	},
	{
	"epoch": 3.8813450760608488,
	"grad_norm": 3.191563367843628,
	"learning_rate": 1.436545789197313e-05,
	"loss": 43.493,
	"step": 1134
	},
	{
	"epoch": 3.8881772084334134,
	"grad_norm": 3.1072089672088623,
	"learning_rate": 1.4282685964923642e-05,
	"loss": 44.5567,
	"step": 1136
	},
	{
	"epoch": 3.895009340805978,
	"grad_norm": 4.651160717010498,
	"learning_rate": 1.4200057722612336e-05,
	"loss": 42.7739,
	"step": 1138
	},
	{
	"epoch": 3.9018414731785427,
	"grad_norm": 3.203441858291626,
	"learning_rate": 1.4117574272818388e-05,
	"loss": 43.1438,
	"step": 1140
	},
	{
	"epoch": 3.9086736055511073,
	"grad_norm": 4.5728349685668945,
	"learning_rate": 1.4035236721379757e-05,
	"loss": 44.305,
	"step": 1142
	},
	{
	"epoch": 3.9155057379236724,
	"grad_norm": 6.874294757843018,
	"learning_rate": 1.3953046172178414e-05,
	"loss": 42.8162,
	"step": 1144
	},
	{
	"epoch": 3.922337870296237,
	"grad_norm": 5.198761463165283,
	"learning_rate": 1.387100372712548e-05,
	"loss": 44.2441,
	"step": 1146
	},
	{
	"epoch": 3.9291700026688017,
	"grad_norm": 3.9007508754730225,
	"learning_rate": 1.378911048614647e-05,
	"loss": 43.0147,
	"step": 1148
	},
	{
	"epoch": 3.9360021350413663,
	"grad_norm": 3.7035725116729736,
	"learning_rate": 1.3707367547166569e-05,
	"loss": 45.0733,
	"step": 1150
	},
	{
	"epoch": 3.9360021350413663,
	"eval_loss": 0.7048025131225586,
	"eval_runtime": 132.7997,
	"eval_samples_per_second": 29.706,
	"eval_steps_per_second": 7.432,
	"step": 1150
	},
	{
	"epoch": 3.9428342674139314,
	"grad_norm": 5.101466655731201,
	"learning_rate": 1.3625776006095881e-05,
	"loss": 42.4982,
	"step": 1152
	},
	{
	"epoch": 3.949666399786496,
	"grad_norm": 4.983183860778809,
	"learning_rate": 1.354433695681474e-05,
	"loss": 43.3568,
	"step": 1154
	},
	{
	"epoch": 3.9564985321590607,
	"grad_norm": 3.6875593662261963,
	"learning_rate": 1.3463051491159096e-05,
	"loss": 45.16,
	"step": 1156
	},
	{
	"epoch": 3.9633306645316253,
	"grad_norm": 4.482807636260986,
	"learning_rate": 1.3381920698905787e-05,
	"loss": 42.8545,
	"step": 1158
	},
	{
	"epoch": 3.97016279690419,
	"grad_norm": 3.858903646469116,
	"learning_rate": 1.3300945667758014e-05,
	"loss": 42.5779,
	"step": 1160
	},
	{
	"epoch": 3.9769949292767546,
	"grad_norm": 5.07602596282959,
	"learning_rate": 1.3220127483330713e-05,
	"loss": 43.8678,
	"step": 1162
	},
	{
	"epoch": 3.983827061649319,
	"grad_norm": 5.183884620666504,
	"learning_rate": 1.3139467229135999e-05,
	"loss": 44.2575,
	"step": 1164
	},
	{
	"epoch": 3.9906591940218843,
	"grad_norm": 5.44564962387085,
	"learning_rate": 1.3058965986568648e-05,
	"loss": 42.0898,
	"step": 1166
	},
	{
	"epoch": 3.997491326394449,
	"grad_norm": 3.4175875186920166,
	"learning_rate": 1.2978624834891628e-05,
	"loss": 43.526,
	"step": 1168
	},
	{
	"epoch": 4.006832132372565,
	"grad_norm": 5.1483588218688965,
	"learning_rate": 1.2898444851221565e-05,
	"loss": 60.1634,
	"step": 1170
	},
	{
	"epoch": 4.013664264745129,
	"grad_norm": 4.452287673950195,
	"learning_rate": 1.281842711051438e-05,
	"loss": 41.7569,
	"step": 1172
	},
	{
	"epoch": 4.020496397117694,
	"grad_norm": 4.024214267730713,
	"learning_rate": 1.2738572685550799e-05,
	"loss": 44.7667,
	"step": 1174
	},
	{
	"epoch": 4.0273285294902585,
	"grad_norm": 5.533107757568359,
	"learning_rate": 1.2658882646922034e-05,
	"loss": 43.7144,
	"step": 1176
	},
	{
	"epoch": 4.034160661862823,
	"grad_norm": 4.520675182342529,
	"learning_rate": 1.2579358063015418e-05,
	"loss": 43.3862,
	"step": 1178
	},
	{
	"epoch": 4.040992794235389,
	"grad_norm": 4.086079120635986,
	"learning_rate": 1.2500000000000006e-05,
	"loss": 44.268,
	"step": 1180
	},
	{
	"epoch": 4.047824926607953,
	"grad_norm": 3.335569381713867,
	"learning_rate": 1.2420809521812404e-05,
	"loss": 43.1871,
	"step": 1182
	},
	{
	"epoch": 4.054657058980518,
	"grad_norm": 4.651849746704102,
	"learning_rate": 1.2341787690142437e-05,
	"loss": 43.4785,
	"step": 1184
	},
	{
	"epoch": 4.061489191353083,
	"grad_norm": 3.9412457942962646,
	"learning_rate": 1.2262935564418886e-05,
	"loss": 42.1075,
	"step": 1186
	},
	{
	"epoch": 4.068321323725647,
	"grad_norm": 5.621413230895996,
	"learning_rate": 1.2184254201795365e-05,
	"loss": 44.5849,
	"step": 1188
	},
	{
	"epoch": 4.075153456098212,
	"grad_norm": 4.291881084442139,
	"learning_rate": 1.2105744657136064e-05,
	"loss": 42.9562,
	"step": 1190
	},
	{
	"epoch": 4.0819855884707765,
	"grad_norm": 3.730132818222046,
	"learning_rate": 1.2027407983001681e-05,
	"loss": 44.0838,
	"step": 1192
	},
	{
	"epoch": 4.088817720843341,
	"grad_norm": 3.540987968444824,
	"learning_rate": 1.1949245229635245e-05,
	"loss": 43.4705,
	"step": 1194
	},
	{
	"epoch": 4.095649853215906,
	"grad_norm": 3.0649805068969727,
	"learning_rate": 1.1871257444948098e-05,
	"loss": 43.0996,
	"step": 1196
	},
	{
	"epoch": 4.10248198558847,
	"grad_norm": 3.2024762630462646,
	"learning_rate": 1.1793445674505776e-05,
	"loss": 42.772,
	"step": 1198
	},
	{
	"epoch": 4.109314117961035,
	"grad_norm": 3.462251663208008,
	"learning_rate": 1.1715810961514073e-05,
	"loss": 43.2502,
	"step": 1200
	},
	{
	"epoch": 4.109314117961035,
	"eval_loss": 0.7009151577949524,
	"eval_runtime": 133.1765,
	"eval_samples_per_second": 29.622,
	"eval_steps_per_second": 7.411,
	"step": 1200
	},
	{
	"epoch": 4.116146250333601,
	"grad_norm": 4.633735656738281,
	"learning_rate": 1.1638354346804971e-05,
	"loss": 42.8239,
	"step": 1202
	},
	{
	"epoch": 4.122978382706165,
	"grad_norm": 3.758700132369995,
	"learning_rate": 1.1561076868822756e-05,
	"loss": 43.3475,
	"step": 1204
	},
	{
	"epoch": 4.12981051507873,
	"grad_norm": 4.143715858459473,
	"learning_rate": 1.148397956361007e-05,
	"loss": 44.0,
	"step": 1206
	},
	{
	"epoch": 4.1366426474512945,
	"grad_norm": 5.201571941375732,
	"learning_rate": 1.1407063464793966e-05,
	"loss": 42.5036,
	"step": 1208
	},
	{
	"epoch": 4.143474779823859,
	"grad_norm": 3.4282047748565674,
	"learning_rate": 1.133032960357216e-05,
	"loss": 43.0577,
	"step": 1210
	},
	{
	"epoch": 4.150306912196424,
	"grad_norm": 4.114802837371826,
	"learning_rate": 1.1253779008699131e-05,
	"loss": 43.3517,
	"step": 1212
	},
	{
	"epoch": 4.157139044568988,
	"grad_norm": 3.979163408279419,
	"learning_rate": 1.1177412706472321e-05,
	"loss": 42.5044,
	"step": 1214
	},
	{
	"epoch": 4.163971176941553,
	"grad_norm": 4.363109588623047,
	"learning_rate": 1.1101231720718442e-05,
	"loss": 43.8954,
	"step": 1216
	},
	{
	"epoch": 4.170803309314118,
	"grad_norm": 4.6219401359558105,
	"learning_rate": 1.1025237072779663e-05,
	"loss": 43.413,
	"step": 1218
	},
	{
	"epoch": 4.177635441686682,
	"grad_norm": 4.945540904998779,
	"learning_rate": 1.09494297815e-05,
	"loss": 43.9628,
	"step": 1220
	},
	{
	"epoch": 4.184467574059248,
	"grad_norm": 4.4585747718811035,
	"learning_rate": 1.0873810863211595e-05,
	"loss": 42.6454,
	"step": 1222
	},
	{
	"epoch": 4.1912997064318125,
	"grad_norm": 4.659883499145508,
	"learning_rate": 1.0798381331721109e-05,
	"loss": 42.5656,
	"step": 1224
	},
	{
	"epoch": 4.198131838804377,
	"grad_norm": 4.411434650421143,
	"learning_rate": 1.0723142198296155e-05,
	"loss": 41.2252,
	"step": 1226
	},
	{
	"epoch": 4.204963971176942,
	"grad_norm": 4.985414028167725,
	"learning_rate": 1.0648094471651724e-05,
	"loss": 42.05,
	"step": 1228
	},
	{
	"epoch": 4.211796103549506,
	"grad_norm": 5.09487771987915,
	"learning_rate": 1.0573239157936619e-05,
	"loss": 42.9917,
	"step": 1230
	},
	{
	"epoch": 4.218628235922071,
	"grad_norm": 4.299539089202881,
	"learning_rate": 1.049857726072005e-05,
	"loss": 42.7934,
	"step": 1232
	},
	{
	"epoch": 4.225460368294636,
	"grad_norm": 4.075766086578369,
	"learning_rate": 1.0424109780978103e-05,
	"loss": 41.0067,
	"step": 1234
	},
	{
	"epoch": 4.2322925006672,
	"grad_norm": 4.9132232666015625,
	"learning_rate": 1.034983771708035e-05,
	"loss": 43.6556,
	"step": 1236
	},
	{
	"epoch": 4.239124633039765,
	"grad_norm": 4.45914888381958,
	"learning_rate": 1.0275762064776492e-05,
	"loss": 42.588,
	"step": 1238
	},
	{
	"epoch": 4.24595676541233,
	"grad_norm": 3.7621419429779053,
	"learning_rate": 1.020188381718295e-05,
	"loss": 41.7435,
	"step": 1240
	},
	{
	"epoch": 4.252788897784894,
	"grad_norm": 2.9593658447265625,
	"learning_rate": 1.0128203964769601e-05,
	"loss": 43.7138,
	"step": 1242
	},
	{
	"epoch": 4.25962103015746,
	"grad_norm": 4.333788871765137,
	"learning_rate": 1.0054723495346482e-05,
	"loss": 42.7332,
	"step": 1244
	},
	{
	"epoch": 4.266453162530024,
	"grad_norm": 4.040637493133545,
	"learning_rate": 9.981443394050525e-06,
	"loss": 43.0547,
	"step": 1246
	},
	{
	"epoch": 4.273285294902589,
	"grad_norm": 5.255796432495117,
	"learning_rate": 9.908364643332399e-06,
	"loss": 42.1078,
	"step": 1248
	},
	{
	"epoch": 4.280117427275154,
	"grad_norm": 3.434884786605835,
	"learning_rate": 9.835488222943285e-06,
	"loss": 42.6684,
	"step": 1250
	},
	{
	"epoch": 4.280117427275154,
	"eval_loss": 0.6948874592781067,
	"eval_runtime": 138.5111,
	"eval_samples_per_second": 28.481,
	"eval_steps_per_second": 7.126,
	"step": 1250
	},
	{
	"epoch": 4.286949559647718,
	"grad_norm": 4.761016368865967,
	"learning_rate": 9.762815109921761e-06,
	"loss": 43.8,
	"step": 1252
	},
	{
	"epoch": 4.293781692020283,
	"grad_norm": 5.999067783355713,
	"learning_rate": 9.690346278580726e-06,
	"loss": 42.8654,
	"step": 1254
	},
	{
	"epoch": 4.300613824392848,
	"grad_norm": 4.777903079986572,
	"learning_rate": 9.618082700494319e-06,
	"loss": 42.3409,
	"step": 1256
	},
	{
	"epoch": 4.307445956765412,
	"grad_norm": 4.543084144592285,
	"learning_rate": 9.546025344484869e-06,
	"loss": 43.6205,
	"step": 1258
	},
	{
	"epoch": 4.314278089137977,
	"grad_norm": 3.6853065490722656,
	"learning_rate": 9.474175176609956e-06,
	"loss": 43.9045,
	"step": 1260
	},
	{
	"epoch": 4.3211102215105415,
	"grad_norm": 4.3578338623046875,
	"learning_rate": 9.402533160149416e-06,
	"loss": 41.781,
	"step": 1262
	},
	{
	"epoch": 4.327942353883106,
	"grad_norm": 4.191073894500732,
	"learning_rate": 9.331100255592437e-06,
	"loss": 42.5713,
	"step": 1264
	},
	{
	"epoch": 4.334774486255672,
	"grad_norm": 5.591835021972656,
	"learning_rate": 9.259877420624721e-06,
	"loss": 42.9316,
	"step": 1266
	},
	{
	"epoch": 4.341606618628236,
	"grad_norm": 4.916292667388916,
	"learning_rate": 9.18886561011557e-06,
	"loss": 42.9316,
	"step": 1268
	},
	{
	"epoch": 4.348438751000801,
	"grad_norm": 3.4310858249664307,
	"learning_rate": 9.118065776105159e-06,
	"loss": 42.0445,
	"step": 1270
	},
	{
	"epoch": 4.3552708833733655,
	"grad_norm": 3.6645348072052,
	"learning_rate": 9.047478867791732e-06,
	"loss": 41.5698,
	"step": 1272
	},
	{
	"epoch": 4.36210301574593,
	"grad_norm": 4.118466854095459,
	"learning_rate": 8.977105831518864e-06,
	"loss": 41.7493,
	"step": 1274
	},
	{
	"epoch": 4.368935148118495,
	"grad_norm": 4.731881141662598,
	"learning_rate": 8.906947610762825e-06,
	"loss": 41.2277,
	"step": 1276
	},
	{
	"epoch": 4.3757672804910595,
	"grad_norm": 4.580758571624756,
	"learning_rate": 8.837005146119872e-06,
	"loss": 42.3467,
	"step": 1278
	},
	{
	"epoch": 4.382599412863624,
	"grad_norm": 5.310960292816162,
	"learning_rate": 8.767279375293672e-06,
	"loss": 43.1447,
	"step": 1280
	},
	{
	"epoch": 4.389431545236189,
	"grad_norm": 4.382359027862549,
	"learning_rate": 8.697771233082744e-06,
	"loss": 42.4424,
	"step": 1282
	},
	{
	"epoch": 4.396263677608753,
	"grad_norm": 3.6488263607025146,
	"learning_rate": 8.628481651367876e-06,
	"loss": 43.8516,
	"step": 1284
	},
	{
	"epoch": 4.403095809981318,
	"grad_norm": 3.2983975410461426,
	"learning_rate": 8.55941155909968e-06,
	"loss": 43.3322,
	"step": 1286
	},
	{
	"epoch": 4.4099279423538835,
	"grad_norm": 3.5116684436798096,
	"learning_rate": 8.490561882286136e-06,
	"loss": 41.4651,
	"step": 1288
	},
	{
	"epoch": 4.416760074726448,
	"grad_norm": 3.5123932361602783,
	"learning_rate": 8.421933543980126e-06,
	"loss": 43.1034,
	"step": 1290
	},
	{
	"epoch": 4.423592207099013,
	"grad_norm": 4.123583793640137,
	"learning_rate": 8.353527464267104e-06,
	"loss": 43.566,
	"step": 1292
	},
	{
	"epoch": 4.430424339471577,
	"grad_norm": 3.6427931785583496,
	"learning_rate": 8.285344560252777e-06,
	"loss": 42.0333,
	"step": 1294
	},
	{
	"epoch": 4.437256471844142,
	"grad_norm": 3.8917388916015625,
	"learning_rate": 8.217385746050742e-06,
	"loss": 42.0382,
	"step": 1296
	},
	{
	"epoch": 4.444088604216707,
	"grad_norm": 4.964122772216797,
	"learning_rate": 8.149651932770308e-06,
	"loss": 43.6584,
	"step": 1298
	},
	{
	"epoch": 4.450920736589271,
	"grad_norm": 4.227240085601807,
	"learning_rate": 8.082144028504233e-06,
	"loss": 42.4086,
	"step": 1300
	},
	{
	"epoch": 4.450920736589271,
	"eval_loss": 0.6897044777870178,
	"eval_runtime": 131.8148,
	"eval_samples_per_second": 29.928,
	"eval_steps_per_second": 7.488,
	"step": 1300
	},
	{
	"epoch": 4.457752868961836,
	"grad_norm": 4.605757713317871,
	"learning_rate": 8.014862938316542e-06,
	"loss": 43.7962,
	"step": 1302
	},
	{
	"epoch": 4.464585001334401,
	"grad_norm": 4.2398176193237305,
	"learning_rate": 7.947809564230445e-06,
	"loss": 42.3544,
	"step": 1304
	},
	{
	"epoch": 4.471417133706965,
	"grad_norm": 5.234216213226318,
	"learning_rate": 7.880984805216185e-06,
	"loss": 41.9833,
	"step": 1306
	},
	{
	"epoch": 4.47824926607953,
	"grad_norm": 3.9220240116119385,
	"learning_rate": 7.814389557179017e-06,
	"loss": 42.0345,
	"step": 1308
	},
	{
	"epoch": 4.485081398452095,
	"grad_norm": 5.44996976852417,
	"learning_rate": 7.748024712947205e-06,
	"loss": 42.0309,
	"step": 1310
	},
	{
	"epoch": 4.49191353082466,
	"grad_norm": 5.07472038269043,
	"learning_rate": 7.681891162260015e-06,
	"loss": 42.6996,
	"step": 1312
	},
	{
	"epoch": 4.498745663197225,
	"grad_norm": 3.818120241165161,
	"learning_rate": 7.615989791755834e-06,
	"loss": 42.8775,
	"step": 1314
	},
	{
	"epoch": 4.505577795569789,
	"grad_norm": 4.252802848815918,
	"learning_rate": 7.5503214849602516e-06,
	"loss": 42.4118,
	"step": 1316
	},
	{
	"epoch": 4.512409927942354,
	"grad_norm": 4.17697286605835,
	"learning_rate": 7.484887122274215e-06,
	"loss": 41.2153,
	"step": 1318
	},
	{
	"epoch": 4.519242060314919,
	"grad_norm": 3.7324466705322266,
	"learning_rate": 7.419687580962223e-06,
	"loss": 42.3343,
	"step": 1320
	},
	{
	"epoch": 4.526074192687483,
	"grad_norm": 3.870089054107666,
	"learning_rate": 7.354723735140609e-06,
	"loss": 42.0028,
	"step": 1322
	},
	{
	"epoch": 4.532906325060048,
	"grad_norm": 3.6424801349639893,
	"learning_rate": 7.289996455765749e-06,
	"loss": 43.5842,
	"step": 1324
	},
	{
	"epoch": 4.5397384574326125,
	"grad_norm": 4.695961952209473,
	"learning_rate": 7.225506610622456e-06,
	"loss": 42.0951,
	"step": 1326
	},
	{
	"epoch": 4.546570589805177,
	"grad_norm": 4.842666149139404,
	"learning_rate": 7.161255064312283e-06,
	"loss": 43.8668,
	"step": 1328
	},
	{
	"epoch": 4.553402722177742,
	"grad_norm": 4.4085822105407715,
	"learning_rate": 7.0972426782419884e-06,
	"loss": 43.7836,
	"step": 1330
	},
	{
	"epoch": 4.560234854550307,
	"grad_norm": 3.606607437133789,
	"learning_rate": 7.033470310611945e-06,
	"loss": 41.4304,
	"step": 1332
	},
	{
	"epoch": 4.567066986922872,
	"grad_norm": 4.789222717285156,
	"learning_rate": 6.969938816404639e-06,
	"loss": 41.6355,
	"step": 1334
	},
	{
	"epoch": 4.573899119295437,
	"grad_norm": 4.463109493255615,
	"learning_rate": 6.906649047373246e-06,
	"loss": 43.4969,
	"step": 1336
	},
	{
	"epoch": 4.580731251668001,
	"grad_norm": 4.483322620391846,
	"learning_rate": 6.843601852030171e-06,
	"loss": 42.4094,
	"step": 1338
	},
	{
	"epoch": 4.587563384040566,
	"grad_norm": 4.021024703979492,
	"learning_rate": 6.780798075635675e-06,
	"loss": 42.2893,
	"step": 1340
	},
	{
	"epoch": 4.5943955164131305,
	"grad_norm": 3.9479868412017822,
	"learning_rate": 6.718238560186571e-06,
	"loss": 40.8073,
	"step": 1342
	},
	{
	"epoch": 4.601227648785695,
	"grad_norm": 4.778145790100098,
	"learning_rate": 6.655924144404907e-06,
	"loss": 42.0845,
	"step": 1344
	},
	{
	"epoch": 4.60805978115826,
	"grad_norm": 3.555271863937378,
	"learning_rate": 6.593855663726722e-06,
	"loss": 41.1015,
	"step": 1346
	},
	{
	"epoch": 4.614891913530824,
	"grad_norm": 4.007204532623291,
	"learning_rate": 6.532033950290886e-06,
	"loss": 42.9137,
	"step": 1348
	},
	{
	"epoch": 4.621724045903389,
	"grad_norm": 4.328546524047852,
	"learning_rate": 6.470459832927881e-06,
	"loss": 41.274,
	"step": 1350
	},
	{
	"epoch": 4.621724045903389,
	"eval_loss": 0.6830974221229553,
	"eval_runtime": 135.2812,
	"eval_samples_per_second": 29.161,
	"eval_steps_per_second": 7.296,
	"step": 1350
	},
	{
	"epoch": 4.628556178275954,
	"grad_norm": 4.948083877563477,
	"learning_rate": 6.409134137148737e-06,
	"loss": 43.0462,
	"step": 1352
	},
	{
	"epoch": 4.635388310648519,
	"grad_norm": 4.637773036956787,
	"learning_rate": 6.3480576851339625e-06,
	"loss": 42.6268,
	"step": 1354
	},
	{
	"epoch": 4.642220443021084,
	"grad_norm": 3.72841215133667,
	"learning_rate": 6.28723129572247e-06,
	"loss": 41.0574,
	"step": 1356
	},
	{
	"epoch": 4.6490525753936485,
	"grad_norm": 4.539714813232422,
	"learning_rate": 6.226655784400684e-06,
	"loss": 43.5752,
	"step": 1358
	},
	{
	"epoch": 4.655884707766213,
	"grad_norm": 5.519583225250244,
	"learning_rate": 6.166331963291519e-06,
	"loss": 43.3111,
	"step": 1360
	},
	{
	"epoch": 4.662716840138778,
	"grad_norm": 4.942199230194092,
	"learning_rate": 6.106260641143546e-06,
	"loss": 43.6514,
	"step": 1362
	},
	{
	"epoch": 4.669548972511342,
	"grad_norm": 5.164299011230469,
	"learning_rate": 6.046442623320145e-06,
	"loss": 40.8611,
	"step": 1364
	},
	{
	"epoch": 4.676381104883907,
	"grad_norm": 4.309698581695557,
	"learning_rate": 5.986878711788702e-06,
	"loss": 41.3937,
	"step": 1366
	},
	{
	"epoch": 4.683213237256472,
	"grad_norm": 4.105101585388184,
	"learning_rate": 5.927569705109828e-06,
	"loss": 40.3001,
	"step": 1368
	},
	{
	"epoch": 4.690045369629036,
	"grad_norm": 3.571514368057251,
	"learning_rate": 5.868516398426716e-06,
	"loss": 41.6858,
	"step": 1370
	},
	{
	"epoch": 4.696877502001601,
	"grad_norm": 5.120858192443848,
	"learning_rate": 5.809719583454415e-06,
	"loss": 41.4156,
	"step": 1372
	},
	{
	"epoch": 4.703709634374166,
	"grad_norm": 4.679799556732178,
	"learning_rate": 5.751180048469243e-06,
	"loss": 43.1858,
	"step": 1374
	},
	{
	"epoch": 4.710541766746731,
	"grad_norm": 3.0465521812438965,
	"learning_rate": 5.692898578298253e-06,
	"loss": 41.213,
	"step": 1376
	},
	{
	"epoch": 4.717373899119296,
	"grad_norm": 4.835347652435303,
	"learning_rate": 5.634875954308638e-06,
	"loss": 44.0938,
	"step": 1378
	},
	{
	"epoch": 4.72420603149186,
	"grad_norm": 6.645193099975586,
	"learning_rate": 5.577112954397321e-06,
	"loss": 41.7528,
	"step": 1380
	},
	{
	"epoch": 4.731038163864425,
	"grad_norm": 4.592052936553955,
	"learning_rate": 5.519610352980501e-06,
	"loss": 42.566,
	"step": 1382
	},
	{
	"epoch": 4.73787029623699,
	"grad_norm": 3.7620317935943604,
	"learning_rate": 5.462368920983249e-06,
	"loss": 41.7184,
	"step": 1384
	},
	{
	"epoch": 4.744702428609554,
	"grad_norm": 4.0445027351379395,
	"learning_rate": 5.405389425829219e-06,
	"loss": 41.6249,
	"step": 1386
	},
	{
	"epoch": 4.751534560982119,
	"grad_norm": 3.744433641433716,
	"learning_rate": 5.348672631430318e-06,
	"loss": 43.0626,
	"step": 1388
	},
	{
	"epoch": 4.7583666933546835,
	"grad_norm": 3.12141489982605,
	"learning_rate": 5.292219298176476e-06,
	"loss": 42.1533,
	"step": 1390
	},
	{
	"epoch": 4.765198825727248,
	"grad_norm": 6.73304557800293,
	"learning_rate": 5.236030182925475e-06,
	"loss": 41.6015,
	"step": 1392
	},
	{
	"epoch": 4.772030958099813,
	"grad_norm": 4.076465129852295,
	"learning_rate": 5.1801060389927606e-06,
	"loss": 43.2645,
	"step": 1394
	},
	{
	"epoch": 4.7788630904723775,
	"grad_norm": 4.178272247314453,
	"learning_rate": 5.124447616141381e-06,
	"loss": 43.0354,
	"step": 1396
	},
	{
	"epoch": 4.785695222844943,
	"grad_norm": 4.555927276611328,
	"learning_rate": 5.06905566057192e-06,
	"loss": 42.1086,
	"step": 1398
	},
	{
	"epoch": 4.792527355217508,
	"grad_norm": 4.799075126647949,
	"learning_rate": 5.013930914912476e-06,
	"loss": 40.7555,
	"step": 1400
	},
	{
	"epoch": 4.792527355217508,
	"eval_loss": 0.6814665198326111,
	"eval_runtime": 134.9461,
	"eval_samples_per_second": 29.234,
	"eval_steps_per_second": 7.314,
	"step": 1400
	},
	{
	"epoch": 4.799359487590072,
	"grad_norm": 3.7408673763275146,
	"learning_rate": 4.959074118208726e-06,
	"loss": 40.9295,
	"step": 1402
	},
	{
	"epoch": 4.806191619962637,
	"grad_norm": 3.9520747661590576,
	"learning_rate": 4.9044860059140275e-06,
	"loss": 43.4186,
	"step": 1404
	},
	{
	"epoch": 4.8130237523352015,
	"grad_norm": 4.115049839019775,
	"learning_rate": 4.850167309879519e-06,
	"loss": 42.2491,
	"step": 1406
	},
	{
	"epoch": 4.819855884707766,
	"grad_norm": 5.181631088256836,
	"learning_rate": 4.796118758344354e-06,
	"loss": 41.583,
	"step": 1408
	},
	{
	"epoch": 4.826688017080331,
	"grad_norm": 3.838186740875244,
	"learning_rate": 4.742341075925916e-06,
	"loss": 43.3278,
	"step": 1410
	},
	{
	"epoch": 4.833520149452895,
	"grad_norm": 3.6494245529174805,
	"learning_rate": 4.6888349836100825e-06,
	"loss": 41.3961,
	"step": 1412
	},
	{
	"epoch": 4.84035228182546,
	"grad_norm": 4.139842510223389,
	"learning_rate": 4.6356011987416075e-06,
	"loss": 43.4135,
	"step": 1414
	},
	{
	"epoch": 4.847184414198025,
	"grad_norm": 4.385437965393066,
	"learning_rate": 4.58264043501446e-06,
	"loss": 42.1478,
	"step": 1416
	},
	{
	"epoch": 4.854016546570589,
	"grad_norm": 3.691343307495117,
	"learning_rate": 4.52995340246227e-06,
	"loss": 42.4175,
	"step": 1418
	},
	{
	"epoch": 4.860848678943155,
	"grad_norm": 4.149899482727051,
	"learning_rate": 4.477540807448832e-06,
	"loss": 42.4116,
	"step": 1420
	},
	{
	"epoch": 4.8676808113157195,
	"grad_norm": 3.8960561752319336,
	"learning_rate": 4.425403352658591e-06,
	"loss": 41.2306,
	"step": 1422
	},
	{
	"epoch": 4.874512943688284,
	"grad_norm": 3.6276168823242188,
	"learning_rate": 4.373541737087264e-06,
	"loss": 42.7317,
	"step": 1424
	},
	{
	"epoch": 4.881345076060849,
	"grad_norm": 4.214303016662598,
	"learning_rate": 4.32195665603245e-06,
	"loss": 41.6166,
	"step": 1426
	},
	{
	"epoch": 4.888177208433413,
	"grad_norm": 4.3136210441589355,
	"learning_rate": 4.270648801084296e-06,
	"loss": 42.3309,
	"step": 1428
	},
	{
	"epoch": 4.895009340805978,
	"grad_norm": 5.340824604034424,
	"learning_rate": 4.219618860116242e-06,
	"loss": 40.6249,
	"step": 1430
	},
	{
	"epoch": 4.901841473178543,
	"grad_norm": 3.750943183898926,
	"learning_rate": 4.1688675172758064e-06,
	"loss": 42.0754,
	"step": 1432
	},
	{
	"epoch": 4.908673605551107,
	"grad_norm": 3.8021140098571777,
	"learning_rate": 4.118395452975382e-06,
	"loss": 42.8221,
	"step": 1434
	},
	{
	"epoch": 4.915505737923672,
	"grad_norm": 5.09911584854126,
	"learning_rate": 4.068203343883159e-06,
	"loss": 42.3164,
	"step": 1436
	},
	{
	"epoch": 4.9223378702962375,
	"grad_norm": 3.590981960296631,
	"learning_rate": 4.018291862914001e-06,
	"loss": 41.0773,
	"step": 1438
	},
	{
	"epoch": 4.929170002668801,
	"grad_norm": 4.474262714385986,
	"learning_rate": 3.968661679220468e-06,
	"loss": 41.1827,
	"step": 1440
	},
	{
	"epoch": 4.936002135041367,
	"grad_norm": 3.780853748321533,
	"learning_rate": 3.919313458183838e-06,
	"loss": 41.9009,
	"step": 1442
	},
	{
	"epoch": 4.942834267413931,
	"grad_norm": 4.165524482727051,
	"learning_rate": 3.8702478614051355e-06,
	"loss": 41.6988,
	"step": 1444
	},
	{
	"epoch": 4.949666399786496,
	"grad_norm": 4.537020683288574,
	"learning_rate": 3.821465546696337e-06,
	"loss": 42.6527,
	"step": 1446
	},
	{
	"epoch": 4.956498532159061,
	"grad_norm": 5.992898941040039,
	"learning_rate": 3.772967168071517e-06,
	"loss": 42.3257,
	"step": 1448
	},
	{
	"epoch": 4.963330664531625,
	"grad_norm": 5.681396007537842,
	"learning_rate": 3.7247533757380603e-06,
	"loss": 42.5366,
	"step": 1450
	},
	{
	"epoch": 4.963330664531625,
	"eval_loss": 0.6770752668380737,
	"eval_runtime": 133.8871,
	"eval_samples_per_second": 29.465,
	"eval_steps_per_second": 7.372,
	"step": 1450
	},
	{
	"epoch": 4.97016279690419,
	"grad_norm": 4.46541166305542,
	"learning_rate": 3.6768248160879787e-06,
	"loss": 41.0476,
	"step": 1452
	},
	{
	"epoch": 4.976994929276755,
	"grad_norm": 4.15000057220459,
	"learning_rate": 3.6291821316892184e-06,
	"loss": 40.7134,
	"step": 1454
	},
	{
	"epoch": 4.983827061649319,
	"grad_norm": 4.230960369110107,
	"learning_rate": 3.5818259612770744e-06,
	"loss": 43.5967,
	"step": 1456
	},
	{
	"epoch": 4.990659194021884,
	"grad_norm": 4.932849884033203,
	"learning_rate": 3.53475693974559e-06,
	"loss": 43.2516,
	"step": 1458
	},
	{
	"epoch": 4.997491326394449,
	"grad_norm": 4.316704273223877,
	"learning_rate": 3.487975698139084e-06,
	"loss": 42.3811,
	"step": 1460
	},
	{
	"epoch": 5.003416066186283,
	"grad_norm": 4.146729469299316,
	"learning_rate": 3.4414828636436525e-06,
	"loss": 36.1288,
	"step": 1462
	},
	{
	"epoch": 5.010248198558847,
	"grad_norm": 5.610274791717529,
	"learning_rate": 3.3952790595787987e-06,
	"loss": 40.6556,
	"step": 1464
	},
	{
	"epoch": 5.017080330931412,
	"grad_norm": 6.292807102203369,
	"learning_rate": 3.3493649053890326e-06,
	"loss": 42.2675,
	"step": 1466
	},
	{
	"epoch": 5.023912463303977,
	"grad_norm": 4.371929168701172,
	"learning_rate": 3.3037410166356143e-06,
	"loss": 41.1544,
	"step": 1468
	},
	{
	"epoch": 5.030744595676541,
	"grad_norm": 3.275562047958374,
	"learning_rate": 3.258408004988278e-06,
	"loss": 42.7401,
	"step": 1470
	},
	{
	"epoch": 5.037576728049106,
	"grad_norm": 5.2857666015625,
	"learning_rate": 3.2133664782169948e-06,
	"loss": 39.4961,
	"step": 1472
	},
	{
	"epoch": 5.044408860421671,
	"grad_norm": 3.9162814617156982,
	"learning_rate": 3.168617040183897e-06,
	"loss": 42.7691,
	"step": 1474
	},
	{
	"epoch": 5.051240992794235,
	"grad_norm": 4.741237640380859,
	"learning_rate": 3.1241602908351404e-06,
	"loss": 39.9539,
	"step": 1476
	},
	{
	"epoch": 5.0580731251668,
	"grad_norm": 4.904325008392334,
	"learning_rate": 3.079996826192849e-06,
	"loss": 40.999,
	"step": 1478
	},
	{
	"epoch": 5.0649052575393645,
	"grad_norm": 3.9396679401397705,
	"learning_rate": 3.036127238347164e-06,
	"loss": 41.8233,
	"step": 1480
	},
	{
	"epoch": 5.071737389911929,
	"grad_norm": 3.5699760913848877,
	"learning_rate": 2.992552115448258e-06,
	"loss": 41.4895,
	"step": 1482
	},
	{
	"epoch": 5.078569522284495,
	"grad_norm": 4.227250099182129,
	"learning_rate": 2.9492720416985e-06,
	"loss": 41.7825,
	"step": 1484
	},
	{
	"epoch": 5.085401654657059,
	"grad_norm": 3.8788514137268066,
	"learning_rate": 2.9062875973445813e-06,
	"loss": 41.4301,
	"step": 1486
	},
	{
	"epoch": 5.092233787029624,
	"grad_norm": 3.7242729663848877,
	"learning_rate": 2.8635993586697553e-06,
	"loss": 40.2917,
	"step": 1488
	},
	{
	"epoch": 5.099065919402189,
	"grad_norm": 5.645269870758057,
	"learning_rate": 2.821207897986114e-06,
	"loss": 41.1435,
	"step": 1490
	},
	{
	"epoch": 5.105898051774753,
	"grad_norm": 3.9231839179992676,
	"learning_rate": 2.779113783626916e-06,
	"loss": 41.5506,
	"step": 1492
	},
	{
	"epoch": 5.112730184147318,
	"grad_norm": 4.276205062866211,
	"learning_rate": 2.7373175799389415e-06,
	"loss": 40.4141,
	"step": 1494
	},
	{
	"epoch": 5.1195623165198825,
	"grad_norm": 6.223433971405029,
	"learning_rate": 2.6958198472749717e-06,
	"loss": 42.1149,
	"step": 1496
	},
	{
	"epoch": 5.126394448892447,
	"grad_norm": 4.167882442474365,
	"learning_rate": 2.65462114198623e-06,
	"loss": 40.7711,
	"step": 1498
	},
	{
	"epoch": 5.133226581265012,
	"grad_norm": 3.588376998901367,
	"learning_rate": 2.6137220164149435e-06,
	"loss": 42.5513,
	"step": 1500
	},
	{
	"epoch": 5.133226581265012,
	"eval_loss": 0.6761642694473267,
	"eval_runtime": 137.9512,
	"eval_samples_per_second": 28.597,
	"eval_steps_per_second": 7.155,
	"step": 1500
	},
	{
	"epoch": 5.140058713637576,
	"grad_norm": 4.149092674255371,
	"learning_rate": 2.573123018886961e-06,
	"loss": 40.5633,
	"step": 1502
	},
	{
	"epoch": 5.146890846010141,
	"grad_norm": 3.9322760105133057,
	"learning_rate": 2.5328246937043526e-06,
	"loss": 41.3711,
	"step": 1504
	},
	{
	"epoch": 5.1537229783827065,
	"grad_norm": 4.557422161102295,
	"learning_rate": 2.492827581138149e-06,
	"loss": 39.5696,
	"step": 1506
	},
	{
	"epoch": 5.160555110755271,
	"grad_norm": 3.772927761077881,
	"learning_rate": 2.4531322174210975e-06,
	"loss": 42.9544,
	"step": 1508
	},
	{
	"epoch": 5.167387243127836,
	"grad_norm": 4.051291465759277,
	"learning_rate": 2.4137391347404476e-06,
	"loss": 40.978,
	"step": 1510
	},
	{
	"epoch": 5.1742193755004005,
	"grad_norm": 3.6557424068450928,
	"learning_rate": 2.37464886123083e-06,
	"loss": 41.606,
	"step": 1512
	},
	{
	"epoch": 5.181051507872965,
	"grad_norm": 4.801413536071777,
	"learning_rate": 2.3358619209672e-06,
	"loss": 41.5917,
	"step": 1514
	},
	{
	"epoch": 5.18788364024553,
	"grad_norm": 4.2001423835754395,
	"learning_rate": 2.2973788339577613e-06,
	"loss": 43.0596,
	"step": 1516
	},
	{
	"epoch": 5.194715772618094,
	"grad_norm": 5.291867256164551,
	"learning_rate": 2.2592001161370392e-06,
	"loss": 40.3588,
	"step": 1518
	},
	{
	"epoch": 5.201547904990659,
	"grad_norm": 3.7930984497070312,
	"learning_rate": 2.2213262793589484e-06,
	"loss": 42.0758,
	"step": 1520
	},
	{
	"epoch": 5.208380037363224,
	"grad_norm": 4.888052940368652,
	"learning_rate": 2.1837578313899098e-06,
	"loss": 39.7415,
	"step": 1522
	},
	{
	"epoch": 5.215212169735788,
	"grad_norm": 4.963688850402832,
	"learning_rate": 2.1464952759020855e-06,
	"loss": 42.05,
	"step": 1524
	},
	{
	"epoch": 5.222044302108353,
	"grad_norm": 4.556923866271973,
	"learning_rate": 2.109539112466588e-06,
	"loss": 40.5828,
	"step": 1526
	},
	{
	"epoch": 5.228876434480918,
	"grad_norm": 3.550285577774048,
	"learning_rate": 2.0728898365467903e-06,
	"loss": 41.4201,
	"step": 1528
	},
	{
	"epoch": 5.235708566853483,
	"grad_norm": 4.290851593017578,
	"learning_rate": 2.0365479394917147e-06,
	"loss": 41.1988,
	"step": 1530
	},
	{
	"epoch": 5.242540699226048,
	"grad_norm": 4.436618804931641,
	"learning_rate": 2.0005139085293945e-06,
	"loss": 41.1016,
	"step": 1532
	},
	{
	"epoch": 5.249372831598612,
	"grad_norm": 6.221188068389893,
	"learning_rate": 1.9647882267603862e-06,
	"loss": 42.1538,
	"step": 1534
	},
	{
	"epoch": 5.256204963971177,
	"grad_norm": 4.712629795074463,
	"learning_rate": 1.9293713731512673e-06,
	"loss": 41.1176,
	"step": 1536
	},
	{
	"epoch": 5.263037096343742,
	"grad_norm": 4.693170070648193,
	"learning_rate": 1.894263822528225e-06,
	"loss": 41.3687,
	"step": 1538
	},
	{
	"epoch": 5.269869228716306,
	"grad_norm": 4.854535102844238,
	"learning_rate": 1.8594660455706763e-06,
	"loss": 41.6856,
	"step": 1540
	},
	{
	"epoch": 5.276701361088871,
	"grad_norm": 3.5167202949523926,
	"learning_rate": 1.8249785088049893e-06,
	"loss": 42.5848,
	"step": 1542
	},
	{
	"epoch": 5.2835334934614355,
	"grad_norm": 4.029543399810791,
	"learning_rate": 1.790801674598186e-06,
	"loss": 41.8932,
	"step": 1544
	},
	{
	"epoch": 5.290365625834,
	"grad_norm": 4.217826843261719,
	"learning_rate": 1.7569360011517848e-06,
	"loss": 41.478,
	"step": 1546
	},
	{
	"epoch": 5.297197758206565,
	"grad_norm": 3.8237998485565186,
	"learning_rate": 1.7233819424956248e-06,
	"loss": 42.5394,
	"step": 1548
	},
	{
	"epoch": 5.30402989057913,
	"grad_norm": 5.044140338897705,
	"learning_rate": 1.6901399484818004e-06,
	"loss": 41.0466,
	"step": 1550
	},
	{
	"epoch": 5.30402989057913,
	"eval_loss": 0.6723917722702026,
	"eval_runtime": 132.3674,
	"eval_samples_per_second": 29.803,
	"eval_steps_per_second": 7.457,
	"step": 1550
	},
	{
	"epoch": 5.310862022951695,
	"grad_norm": 4.023882865905762,
	"learning_rate": 1.6572104647786247e-06,
	"loss": 40.4515,
	"step": 1552
	},
	{
	"epoch": 5.31769415532426,
	"grad_norm": 5.667575836181641,
	"learning_rate": 1.624593932864632e-06,
	"loss": 42.2196,
	"step": 1554
	},
	{
	"epoch": 5.324526287696824,
	"grad_norm": 3.771815299987793,
	"learning_rate": 1.5922907900227018e-06,
	"loss": 41.1018,
	"step": 1556
	},
	{
	"epoch": 5.331358420069389,
	"grad_norm": 4.044847011566162,
	"learning_rate": 1.5603014693341662e-06,
	"loss": 40.8528,
	"step": 1558
	},
	{
	"epoch": 5.3381905524419535,
	"grad_norm": 4.64625358581543,
	"learning_rate": 1.5286263996730026e-06,
	"loss": 41.612,
	"step": 1560
	},
	{
	"epoch": 5.345022684814518,
	"grad_norm": 5.102336406707764,
	"learning_rate": 1.497266005700107e-06,
	"loss": 40.965,
	"step": 1562
	},
	{
	"epoch": 5.351854817187083,
	"grad_norm": 3.1535797119140625,
	"learning_rate": 1.4662207078575684e-06,
	"loss": 40.5264,
	"step": 1564
	},
	{
	"epoch": 5.358686949559647,
	"grad_norm": 3.740694522857666,
	"learning_rate": 1.4354909223630669e-06,
	"loss": 41.5863,
	"step": 1566
	},
	{
	"epoch": 5.365519081932212,
	"grad_norm": 4.79527473449707,
	"learning_rate": 1.40507706120426e-06,
	"loss": 41.3632,
	"step": 1568
	},
	{
	"epoch": 5.372351214304777,
	"grad_norm": 4.936699867248535,
	"learning_rate": 1.3749795321332887e-06,
	"loss": 41.898,
	"step": 1570
	},
	{
	"epoch": 5.379183346677342,
	"grad_norm": 6.228104114532471,
	"learning_rate": 1.3451987386612851e-06,
	"loss": 41.3327,
	"step": 1572
	},
	{
	"epoch": 5.386015479049907,
	"grad_norm": 3.9607808589935303,
	"learning_rate": 1.3157350800529878e-06,
	"loss": 39.3806,
	"step": 1574
	},
	{
	"epoch": 5.3928476114224715,
	"grad_norm": 3.2485790252685547,
	"learning_rate": 1.286588951321363e-06,
	"loss": 39.292,
	"step": 1576
	},
	{
	"epoch": 5.399679743795036,
	"grad_norm": 4.702234745025635,
	"learning_rate": 1.2577607432223276e-06,
	"loss": 40.3127,
	"step": 1578
	},
	{
	"epoch": 5.406511876167601,
	"grad_norm": 4.465649127960205,
	"learning_rate": 1.2292508422495158e-06,
	"loss": 41.7889,
	"step": 1580
	},
	{
	"epoch": 5.413344008540165,
	"grad_norm": 4.618641376495361,
	"learning_rate": 1.2010596306290589e-06,
	"loss": 41.2257,
	"step": 1582
	},
	{
	"epoch": 5.42017614091273,
	"grad_norm": 4.093713283538818,
	"learning_rate": 1.1731874863145143e-06,
	"loss": 41.7067,
	"step": 1584
	},
	{
	"epoch": 5.427008273285295,
	"grad_norm": 5.642305374145508,
	"learning_rate": 1.145634782981761e-06,
	"loss": 41.1947,
	"step": 1586
	},
	{
	"epoch": 5.433840405657859,
	"grad_norm": 3.9637906551361084,
	"learning_rate": 1.1184018900240011e-06,
	"loss": 41.5425,
	"step": 1588
	},
	{
	"epoch": 5.440672538030424,
	"grad_norm": 4.328593730926514,
	"learning_rate": 1.0914891725468141e-06,
	"loss": 41.7915,
	"step": 1590
	},
	{
	"epoch": 5.4475046704029895,
	"grad_norm": 4.559619903564453,
	"learning_rate": 1.06489699136324e-06,
	"loss": 39.5462,
	"step": 1592
	},
	{
	"epoch": 5.454336802775554,
	"grad_norm": 4.174973011016846,
	"learning_rate": 1.0386257029889768e-06,
	"loss": 40.6458,
	"step": 1594
	},
	{
	"epoch": 5.461168935148119,
	"grad_norm": 3.249431610107422,
	"learning_rate": 1.0126756596375686e-06,
	"loss": 41.4128,
	"step": 1596
	},
	{
	"epoch": 5.468001067520683,
	"grad_norm": 4.598479747772217,
	"learning_rate": 9.87047209215694e-07,
	"loss": 41.7854,
	"step": 1598
	},
	{
	"epoch": 5.474833199893248,
	"grad_norm": 3.558709144592285,
	"learning_rate": 9.617406953185138e-07,
	"loss": 41.9632,
	"step": 1600
	},
	{
	"epoch": 5.474833199893248,
	"eval_loss": 0.6698766350746155,
	"eval_runtime": 133.9539,
	"eval_samples_per_second": 29.45,
	"eval_steps_per_second": 7.368,
	"step": 1600
	},
	{
	"epoch": 5.481665332265813,
	"grad_norm": 5.397751331329346,
	"learning_rate": 9.36756457225052e-07,
	"loss": 40.2635,
	"step": 1602
	},
	{
	"epoch": 5.488497464638377,
	"grad_norm": 5.443418502807617,
	"learning_rate": 9.120948298936421e-07,
	"loss": 40.6923,
	"step": 1604
	},
	{
	"epoch": 5.495329597010942,
	"grad_norm": 3.991673707962036,
	"learning_rate": 8.87756143957455e-07,
	"loss": 40.0543,
	"step": 1606
	},
	{
	"epoch": 5.502161729383507,
	"grad_norm": 4.649523735046387,
	"learning_rate": 8.637407257200497e-07,
	"loss": 41.3534,
	"step": 1608
	},
	{
	"epoch": 5.508993861756071,
	"grad_norm": 4.675793170928955,
	"learning_rate": 8.400488971509968e-07,
	"loss": 39.8315,
	"step": 1610
	},
	{
	"epoch": 5.515825994128637,
	"grad_norm": 3.273359775543213,
	"learning_rate": 8.166809758815896e-07,
	"loss": 39.9979,
	"step": 1612
	},
	{
	"epoch": 5.5226581265012005,
	"grad_norm": 4.165469169616699,
	"learning_rate": 7.936372752005399e-07,
	"loss": 39.3362,
	"step": 1614
	},
	{
	"epoch": 5.529490258873766,
	"grad_norm": 4.015806674957275,
	"learning_rate": 7.709181040498254e-07,
	"loss": 40.7772,
	"step": 1616
	},
	{
	"epoch": 5.536322391246331,
	"grad_norm": 6.13747501373291,
	"learning_rate": 7.485237670205175e-07,
	"loss": 40.8463,
	"step": 1618
	},
	{
	"epoch": 5.543154523618895,
	"grad_norm": 3.6014761924743652,
	"learning_rate": 7.264545643486997e-07,
	"loss": 40.231,
	"step": 1620
	},
	{
	"epoch": 5.54998665599146,
	"grad_norm": 4.055222034454346,
	"learning_rate": 7.047107919114588e-07,
	"loss": 42.5435,
	"step": 1622
	},
	{
	"epoch": 5.5568187883640245,
	"grad_norm": 5.444411277770996,
	"learning_rate": 6.832927412229018e-07,
	"loss": 41.0914,
	"step": 1624
	},
	{
	"epoch": 5.563650920736589,
	"grad_norm": 3.4832520484924316,
	"learning_rate": 6.622006994302543e-07,
	"loss": 42.297,
	"step": 1626
	},
	{
	"epoch": 5.570483053109154,
	"grad_norm": 5.123753547668457,
	"learning_rate": 6.41434949310013e-07,
	"loss": 40.4283,
	"step": 1628
	},
	{
	"epoch": 5.5773151854817185,
	"grad_norm": 5.2065277099609375,
	"learning_rate": 6.209957692641544e-07,
	"loss": 40.5581,
	"step": 1630
	},
	{
	"epoch": 5.584147317854283,
	"grad_norm": 4.573667049407959,
	"learning_rate": 6.008834333163876e-07,
	"loss": 39.4126,
	"step": 1632
	},
	{
	"epoch": 5.590979450226849,
	"grad_norm": 5.208593368530273,
	"learning_rate": 5.810982111085106e-07,
	"loss": 40.7202,
	"step": 1634
	},
	{
	"epoch": 5.597811582599413,
	"grad_norm": 4.341737747192383,
	"learning_rate": 5.616403678967624e-07,
	"loss": 40.9683,
	"step": 1636
	},
	{
	"epoch": 5.604643714971978,
	"grad_norm": 4.836015701293945,
	"learning_rate": 5.42510164548285e-07,
	"loss": 40.4273,
	"step": 1638
	},
	{
	"epoch": 5.6114758473445425,
	"grad_norm": 4.308472633361816,
	"learning_rate": 5.237078575376336e-07,
	"loss": 41.0492,
	"step": 1640
	},
	{
	"epoch": 5.618307979717107,
	"grad_norm": 4.316090106964111,
	"learning_rate": 5.052336989433082e-07,
	"loss": 40.6806,
	"step": 1642
	},
	{
	"epoch": 5.625140112089672,
	"grad_norm": 3.6825830936431885,
	"learning_rate": 4.870879364444109e-07,
	"loss": 40.5467,
	"step": 1644
	},
	{
	"epoch": 5.631972244462236,
	"grad_norm": 5.199794769287109,
	"learning_rate": 4.692708133172991e-07,
	"loss": 39.4587,
	"step": 1646
	},
	{
	"epoch": 5.638804376834801,
	"grad_norm": 3.3388471603393555,
	"learning_rate": 4.517825684323324e-07,
	"loss": 39.1098,
	"step": 1648
	},
	{
	"epoch": 5.645636509207366,
	"grad_norm": 4.200729846954346,
	"learning_rate": 4.346234362506724e-07,
	"loss": 40.122,
	"step": 1650
	},
	{
	"epoch": 5.645636509207366,
	"eval_loss": 0.6662212014198303,
	"eval_runtime": 137.6293,
	"eval_samples_per_second": 28.664,
	"eval_steps_per_second": 7.171,
	"step": 1650
	},
	{
	"epoch": 5.65246864157993,
	"grad_norm": 3.9246127605438232,
	"learning_rate": 4.1779364682113796e-07,
	"loss": 40.0725,
	"step": 1652
	},
	{
	"epoch": 5.659300773952495,
	"grad_norm": 4.904084205627441,
	"learning_rate": 4.012934257771134e-07,
	"loss": 40.0188,
	"step": 1654
	},
	{
	"epoch": 5.6661329063250605,
	"grad_norm": 4.436688423156738,
	"learning_rate": 3.851229943335394e-07,
	"loss": 39.9216,
	"step": 1656
	},
	{
	"epoch": 5.672965038697625,
	"grad_norm": 4.027088642120361,
	"learning_rate": 3.6928256928393247e-07,
	"loss": 41.4124,
	"step": 1658
	},
	{
	"epoch": 5.67979717107019,
	"grad_norm": 3.796221971511841,
	"learning_rate": 3.537723629974815e-07,
	"loss": 39.8851,
	"step": 1660
	},
	{
	"epoch": 5.686629303442754,
	"grad_norm": 4.7540130615234375,
	"learning_rate": 3.3859258341621125e-07,
	"loss": 40.1716,
	"step": 1662
	},
	{
	"epoch": 5.693461435815319,
	"grad_norm": 4.521333694458008,
	"learning_rate": 3.237434340521789e-07,
	"loss": 41.4182,
	"step": 1664
	},
	{
	"epoch": 5.700293568187884,
	"grad_norm": 4.776477336883545,
	"learning_rate": 3.0922511398475683e-07,
	"loss": 41.2698,
	"step": 1666
	},
	{
	"epoch": 5.707125700560448,
	"grad_norm": 4.749114990234375,
	"learning_rate": 2.9503781785795713e-07,
	"loss": 42.4175,
	"step": 1668
	},
	{
	"epoch": 5.713957832933013,
	"grad_norm": 4.831925392150879,
	"learning_rate": 2.8118173587782516e-07,
	"loss": 40.593,
	"step": 1670
	},
	{
	"epoch": 5.720789965305578,
	"grad_norm": 4.17523193359375,
	"learning_rate": 2.6765705380989437e-07,
	"loss": 39.8755,
	"step": 1672
	},
	{
	"epoch": 5.727622097678142,
	"grad_norm": 4.183824062347412,
	"learning_rate": 2.544639529766829e-07,
	"loss": 40.7682,
	"step": 1674
	},
	{
	"epoch": 5.734454230050707,
	"grad_norm": 4.203549385070801,
	"learning_rate": 2.416026102552732e-07,
	"loss": 40.1932,
	"step": 1676
	},
	{
	"epoch": 5.741286362423272,
	"grad_norm": 4.252909183502197,
	"learning_rate": 2.290731980749361e-07,
	"loss": 41.4024,
	"step": 1678
	},
	{
	"epoch": 5.748118494795837,
	"grad_norm": 4.110680103302002,
	"learning_rate": 2.168758844148272e-07,
	"loss": 40.8089,
	"step": 1680
	},
	{
	"epoch": 5.754950627168402,
	"grad_norm": 4.860687732696533,
	"learning_rate": 2.050108328017164e-07,
	"loss": 41.278,
	"step": 1682
	},
	{
	"epoch": 5.761782759540966,
	"grad_norm": 7.037466526031494,
	"learning_rate": 1.93478202307823e-07,
	"loss": 42.0162,
	"step": 1684
	},
	{
	"epoch": 5.768614891913531,
	"grad_norm": 4.048498630523682,
	"learning_rate": 1.8227814754865068e-07,
	"loss": 41.2187,
	"step": 1686
	},
	{
	"epoch": 5.775447024286096,
	"grad_norm": 3.721379518508911,
	"learning_rate": 1.7141081868094212e-07,
	"loss": 41.8383,
	"step": 1688
	},
	{
	"epoch": 5.78227915665866,
	"grad_norm": 6.793107509613037,
	"learning_rate": 1.6087636140065532e-07,
	"loss": 40.5894,
	"step": 1690
	},
	{
	"epoch": 5.789111289031225,
	"grad_norm": 4.424513339996338,
	"learning_rate": 1.5067491694100154e-07,
	"loss": 41.2666,
	"step": 1692
	},
	{
	"epoch": 5.7959434214037895,
	"grad_norm": 4.707203388214111,
	"learning_rate": 1.4080662207056894e-07,
	"loss": 41.2405,
	"step": 1694
	},
	{
	"epoch": 5.802775553776354,
	"grad_norm": 2.994469165802002,
	"learning_rate": 1.3127160909147672e-07,
	"loss": 42.6466,
	"step": 1696
	},
	{
	"epoch": 5.809607686148919,
	"grad_norm": 3.029481887817383,
	"learning_rate": 1.220700058376073e-07,
	"loss": 40.642,
	"step": 1698
	},
	{
	"epoch": 5.816439818521484,
	"grad_norm": 3.4690332412719727,
	"learning_rate": 1.1320193567288529e-07,
	"loss": 41.02,
	"step": 1700
	},
	{
	"epoch": 5.816439818521484,
	"eval_loss": 0.6652334928512573,
	"eval_runtime": 134.4616,
	"eval_samples_per_second": 29.339,
	"eval_steps_per_second": 7.34,
	"step": 1700
	},
	{
	"epoch": 5.823271950894049,
	"grad_norm": 5.008721828460693,
	"learning_rate": 1.0466751748963444e-07,
	"loss": 40.1855,
	"step": 1702
	},
	{
	"epoch": 5.830104083266614,
	"grad_norm": 5.638387680053711,
	"learning_rate": 9.646686570697061e-08,
	"loss": 40.6194,
	"step": 1704
	},
	{
	"epoch": 5.836936215639178,
	"grad_norm": 5.234898567199707,
	"learning_rate": 8.860009026928629e-08,
	"loss": 40.6608,
	"step": 1706
	},
	{
	"epoch": 5.843768348011743,
	"grad_norm": 4.212846279144287,
	"learning_rate": 8.106729664475176e-08,
	"loss": 41.4097,
	"step": 1708
	},
	{
	"epoch": 5.8506004803843075,
	"grad_norm": 3.5884008407592773,
	"learning_rate": 7.386858582392187e-08,
	"loss": 39.4515,
	"step": 1710
	},
	{
	"epoch": 5.857432612756872,
	"grad_norm": 4.441662788391113,
	"learning_rate": 6.700405431837587e-08,
	"loss": 41.8026,
	"step": 1712
	},
	{
	"epoch": 5.864264745129437,
	"grad_norm": 5.290170192718506,
	"learning_rate": 6.047379415941856e-08,
	"loss": 40.8839,
	"step": 1714
	},
	{
	"epoch": 5.871096877502001,
	"grad_norm": 3.4507861137390137,
	"learning_rate": 5.4277892896853476e-08,
	"loss": 40.574,
	"step": 1716
	},
	{
	"epoch": 5.877929009874566,
	"grad_norm": 3.869871139526367,
	"learning_rate": 4.8416433597803234e-08,
	"loss": 41.8288,
	"step": 1718
	},
	{
	"epoch": 5.884761142247131,
	"grad_norm": 4.644185543060303,
	"learning_rate": 4.2889494845599344e-08,
	"loss": 41.318,
	"step": 1720
	},
	{
	"epoch": 5.891593274619696,
	"grad_norm": 3.191018581390381,
	"learning_rate": 3.769715073872748e-08,
	"loss": 41.1112,
	"step": 1722
	},
	{
	"epoch": 5.898425406992261,
	"grad_norm": 3.394134998321533,
	"learning_rate": 3.283947088983663e-08,
	"loss": 41.9932,
	"step": 1724
	},
	{
	"epoch": 5.9052575393648254,
	"grad_norm": 4.62444543838501,
	"learning_rate": 2.831652042480093e-08,
	"loss": 39.9583,
	"step": 1726
	},
	{
	"epoch": 5.91208967173739,
	"grad_norm": 4.27966833114624,
	"learning_rate": 2.4128359981850924e-08,
	"loss": 39.915,
	"step": 1728
	},
	{
	"epoch": 5.918921804109955,
	"grad_norm": 3.7036333084106445,
	"learning_rate": 2.0275045710760334e-08,
	"loss": 40.0384,
	"step": 1730
	},
	{
	"epoch": 5.925753936482519,
	"grad_norm": 5.249677658081055,
	"learning_rate": 1.6756629272085545e-08,
	"loss": 40.1564,
	"step": 1732
	},
	{
	"epoch": 5.932586068855084,
	"grad_norm": 4.477707862854004,
	"learning_rate": 1.3573157836485606e-08,
	"loss": 40.6008,
	"step": 1734
	},
	{
	"epoch": 5.939418201227649,
	"grad_norm": 4.939481258392334,
	"learning_rate": 1.0724674084083841e-08,
	"loss": 40.9639,
	"step": 1736
	},
	{
	"epoch": 5.946250333600213,
	"grad_norm": 2.9428999423980713,
	"learning_rate": 8.211216203890537e-09,
	"loss": 40.9722,
	"step": 1738
	},
	{
	"epoch": 5.953082465972778,
	"grad_norm": 4.589330673217773,
	"learning_rate": 6.032817893297793e-09,
	"loss": 41.4832,
	"step": 1740
	},
	{
	"epoch": 5.9599145983453425,
	"grad_norm": 5.4429450035095215,
	"learning_rate": 4.1895083576271035e-09,
	"loss": 41.8059,
	"step": 1742
	},
	{
	"epoch": 5.966746730717908,
	"grad_norm": 3.5152432918548584,
	"learning_rate": 2.681312309735229e-09,
	"loss": 41.2228,
	"step": 1744
	},
	{
	"epoch": 5.973578863090473,
	"grad_norm": 4.573424339294434,
	"learning_rate": 1.5082499696839059e-09,
	"loss": 41.9849,
	"step": 1746
	},
	{
	"epoch": 5.980410995463037,
	"grad_norm": 4.099581718444824,
	"learning_rate": 6.703370644706164e-10,
	"loss": 40.6948,
	"step": 1748
	},
	{
	"epoch": 5.987243127835602,
	"grad_norm": 4.090056896209717,
	"learning_rate": 1.6758482781209507e-10,
	"loss": 40.9226,
	"step": 1750
	},
	{
	"epoch": 5.987243127835602,
	"eval_loss": 0.6658891439437866,
	"eval_runtime": 134.1369,
	"eval_samples_per_second": 29.41,
	"eval_steps_per_second": 7.358,
	"step": 1750
	},
	{
	"epoch": 5.994075260208167,
	"grad_norm": 4.494061470031738,
	"learning_rate": 0.0,
	"loss": 41.0993,
	"step": 1752
	}
	],
	"logging_steps": 2,
	"max_steps": 1752,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 1
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.616163439072248e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}