BNCHNOV / trainer_state.json

Upload full training checkpoint (including optimizer state)

17be1be verified 4 months ago

92.4 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 50420,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.039666798889329634,
	"grad_norm": 46.122135162353516,
	"learning_rate": 4.990182467274891e-05,
	"loss": 11.8425,
	"step": 100
	},
	{
	"epoch": 0.07933359777865927,
	"grad_norm": 23.861114501953125,
	"learning_rate": 4.9802657675525586e-05,
	"loss": 9.0419,
	"step": 200
	},
	{
	"epoch": 0.1190003966679889,
	"grad_norm": 11.361534118652344,
	"learning_rate": 4.970349067830226e-05,
	"loss": 7.4942,
	"step": 300
	},
	{
	"epoch": 0.15866719555731854,
	"grad_norm": 9.868680000305176,
	"learning_rate": 4.960432368107894e-05,
	"loss": 6.5606,
	"step": 400
	},
	{
	"epoch": 0.19833399444664815,
	"grad_norm": 19.773534774780273,
	"learning_rate": 4.9505156683855616e-05,
	"loss": 6.0234,
	"step": 500
	},
	{
	"epoch": 0.2380007933359778,
	"grad_norm": 6.297336101531982,
	"learning_rate": 4.9405989686632294e-05,
	"loss": 5.7502,
	"step": 600
	},
	{
	"epoch": 0.2776675922253074,
	"grad_norm": 6.993984222412109,
	"learning_rate": 4.9306822689408966e-05,
	"loss": 5.4746,
	"step": 700
	},
	{
	"epoch": 0.31733439111463707,
	"grad_norm": 5.947575569152832,
	"learning_rate": 4.9207655692185645e-05,
	"loss": 5.2263,
	"step": 800
	},
	{
	"epoch": 0.3570011900039667,
	"grad_norm": 6.459949493408203,
	"learning_rate": 4.9108488694962317e-05,
	"loss": 5.071,
	"step": 900
	},
	{
	"epoch": 0.3966679888932963,
	"grad_norm": 6.12597131729126,
	"learning_rate": 4.9009321697738995e-05,
	"loss": 4.9277,
	"step": 1000
	},
	{
	"epoch": 0.43633478778262597,
	"grad_norm": 7.8361406326293945,
	"learning_rate": 4.891015470051567e-05,
	"loss": 4.7178,
	"step": 1100
	},
	{
	"epoch": 0.4760015866719556,
	"grad_norm": 8.883167266845703,
	"learning_rate": 4.881098770329235e-05,
	"loss": 4.5832,
	"step": 1200
	},
	{
	"epoch": 0.5156683855612852,
	"grad_norm": 5.529339790344238,
	"learning_rate": 4.8711820706069024e-05,
	"loss": 4.5019,
	"step": 1300
	},
	{
	"epoch": 0.5553351844506148,
	"grad_norm": 5.6431121826171875,
	"learning_rate": 4.86126537088457e-05,
	"loss": 4.4477,
	"step": 1400
	},
	{
	"epoch": 0.5950019833399445,
	"grad_norm": 5.4094367027282715,
	"learning_rate": 4.8513486711622375e-05,
	"loss": 4.317,
	"step": 1500
	},
	{
	"epoch": 0.6346687822292741,
	"grad_norm": 4.631023406982422,
	"learning_rate": 4.841431971439905e-05,
	"loss": 4.2006,
	"step": 1600
	},
	{
	"epoch": 0.6743355811186037,
	"grad_norm": 5.530189037322998,
	"learning_rate": 4.8315152717175725e-05,
	"loss": 4.0726,
	"step": 1700
	},
	{
	"epoch": 0.7140023800079334,
	"grad_norm": 6.281075477600098,
	"learning_rate": 4.82159857199524e-05,
	"loss": 4.005,
	"step": 1800
	},
	{
	"epoch": 0.753669178897263,
	"grad_norm": 8.573356628417969,
	"learning_rate": 4.8116818722729076e-05,
	"loss": 3.8903,
	"step": 1900
	},
	{
	"epoch": 0.7933359777865926,
	"grad_norm": 7.195920467376709,
	"learning_rate": 4.8017651725505754e-05,
	"loss": 3.8038,
	"step": 2000
	},
	{
	"epoch": 0.8330027766759223,
	"grad_norm": 6.207021236419678,
	"learning_rate": 4.791848472828243e-05,
	"loss": 3.775,
	"step": 2100
	},
	{
	"epoch": 0.8726695755652519,
	"grad_norm": 6.628279685974121,
	"learning_rate": 4.7819317731059105e-05,
	"loss": 3.711,
	"step": 2200
	},
	{
	"epoch": 0.9123363744545815,
	"grad_norm": 5.220765590667725,
	"learning_rate": 4.7720150733835784e-05,
	"loss": 3.6694,
	"step": 2300
	},
	{
	"epoch": 0.9520031733439112,
	"grad_norm": 4.995284557342529,
	"learning_rate": 4.7620983736612455e-05,
	"loss": 3.5359,
	"step": 2400
	},
	{
	"epoch": 0.9916699722332408,
	"grad_norm": 5.370284557342529,
	"learning_rate": 4.7521816739389134e-05,
	"loss": 3.5537,
	"step": 2500
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.6742756366729736,
	"eval_runtime": 33.2175,
	"eval_samples_per_second": 45.699,
	"eval_steps_per_second": 5.72,
	"step": 2521
	},
	{
	"epoch": 1.0313367711225705,
	"grad_norm": 6.217808246612549,
	"learning_rate": 4.7422649742165806e-05,
	"loss": 3.4208,
	"step": 2600
	},
	{
	"epoch": 1.0710035700119,
	"grad_norm": 5.972238540649414,
	"learning_rate": 4.7323482744942484e-05,
	"loss": 3.3766,
	"step": 2700
	},
	{
	"epoch": 1.1106703689012296,
	"grad_norm": 6.439736366271973,
	"learning_rate": 4.722431574771916e-05,
	"loss": 3.2706,
	"step": 2800
	},
	{
	"epoch": 1.1503371677905594,
	"grad_norm": 4.722689151763916,
	"learning_rate": 4.712514875049584e-05,
	"loss": 3.1785,
	"step": 2900
	},
	{
	"epoch": 1.190003966679889,
	"grad_norm": 4.344363689422607,
	"learning_rate": 4.7025981753272514e-05,
	"loss": 3.2959,
	"step": 3000
	},
	{
	"epoch": 1.2296707655692185,
	"grad_norm": 5.724086284637451,
	"learning_rate": 4.6926814756049185e-05,
	"loss": 3.1135,
	"step": 3100
	},
	{
	"epoch": 1.269337564458548,
	"grad_norm": 5.9762163162231445,
	"learning_rate": 4.6827647758825864e-05,
	"loss": 3.2194,
	"step": 3200
	},
	{
	"epoch": 1.3090043633478778,
	"grad_norm": 5.490255355834961,
	"learning_rate": 4.6728480761602536e-05,
	"loss": 3.1226,
	"step": 3300
	},
	{
	"epoch": 1.3486711622372074,
	"grad_norm": 5.34173583984375,
	"learning_rate": 4.6629313764379215e-05,
	"loss": 3.0641,
	"step": 3400
	},
	{
	"epoch": 1.388337961126537,
	"grad_norm": 6.500023365020752,
	"learning_rate": 4.653014676715589e-05,
	"loss": 3.0342,
	"step": 3500
	},
	{
	"epoch": 1.4280047600158667,
	"grad_norm": 4.705812931060791,
	"learning_rate": 4.643097976993257e-05,
	"loss": 2.9638,
	"step": 3600
	},
	{
	"epoch": 1.4676715589051963,
	"grad_norm": 5.796449661254883,
	"learning_rate": 4.6331812772709244e-05,
	"loss": 2.9635,
	"step": 3700
	},
	{
	"epoch": 1.5073383577945259,
	"grad_norm": 5.73616886138916,
	"learning_rate": 4.623264577548592e-05,
	"loss": 2.9933,
	"step": 3800
	},
	{
	"epoch": 1.5470051566838556,
	"grad_norm": 5.073670864105225,
	"learning_rate": 4.6133478778262594e-05,
	"loss": 2.9872,
	"step": 3900
	},
	{
	"epoch": 1.5866719555731852,
	"grad_norm": 5.04343318939209,
	"learning_rate": 4.603431178103927e-05,
	"loss": 2.9624,
	"step": 4000
	},
	{
	"epoch": 1.6263387544625147,
	"grad_norm": 4.266116619110107,
	"learning_rate": 4.5935144783815945e-05,
	"loss": 2.9711,
	"step": 4100
	},
	{
	"epoch": 1.6660055533518445,
	"grad_norm": 4.732306957244873,
	"learning_rate": 4.583597778659262e-05,
	"loss": 2.8238,
	"step": 4200
	},
	{
	"epoch": 1.705672352241174,
	"grad_norm": 5.156635284423828,
	"learning_rate": 4.57368107893693e-05,
	"loss": 2.839,
	"step": 4300
	},
	{
	"epoch": 1.7453391511305036,
	"grad_norm": 6.178804874420166,
	"learning_rate": 4.563764379214598e-05,
	"loss": 2.7441,
	"step": 4400
	},
	{
	"epoch": 1.7850059500198334,
	"grad_norm": 6.307518482208252,
	"learning_rate": 4.553847679492265e-05,
	"loss": 2.7271,
	"step": 4500
	},
	{
	"epoch": 1.824672748909163,
	"grad_norm": 4.5322136878967285,
	"learning_rate": 4.5439309797699324e-05,
	"loss": 2.6839,
	"step": 4600
	},
	{
	"epoch": 1.8643395477984925,
	"grad_norm": 4.728321552276611,
	"learning_rate": 4.5340142800476e-05,
	"loss": 2.815,
	"step": 4700
	},
	{
	"epoch": 1.9040063466878223,
	"grad_norm": 5.051918029785156,
	"learning_rate": 4.5240975803252675e-05,
	"loss": 2.6735,
	"step": 4800
	},
	{
	"epoch": 1.9436731455771519,
	"grad_norm": 4.968688011169434,
	"learning_rate": 4.5141808806029353e-05,
	"loss": 2.6604,
	"step": 4900
	},
	{
	"epoch": 1.9833399444664814,
	"grad_norm": 4.792623996734619,
	"learning_rate": 4.504264180880603e-05,
	"loss": 2.6375,
	"step": 5000
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.0515847206115723,
	"eval_runtime": 33.0931,
	"eval_samples_per_second": 45.871,
	"eval_steps_per_second": 5.741,
	"step": 5042
	},
	{
	"epoch": 2.023006743355811,
	"grad_norm": 7.228871822357178,
	"learning_rate": 4.494347481158271e-05,
	"loss": 2.5813,
	"step": 5100
	},
	{
	"epoch": 2.062673542245141,
	"grad_norm": 4.44078254699707,
	"learning_rate": 4.484430781435938e-05,
	"loss": 2.5798,
	"step": 5200
	},
	{
	"epoch": 2.1023403411344703,
	"grad_norm": 5.475325107574463,
	"learning_rate": 4.474514081713606e-05,
	"loss": 2.5297,
	"step": 5300
	},
	{
	"epoch": 2.1420071400238,
	"grad_norm": 4.271339416503906,
	"learning_rate": 4.464597381991273e-05,
	"loss": 2.5595,
	"step": 5400
	},
	{
	"epoch": 2.18167393891313,
	"grad_norm": 3.9716315269470215,
	"learning_rate": 4.454680682268941e-05,
	"loss": 2.5629,
	"step": 5500
	},
	{
	"epoch": 2.221340737802459,
	"grad_norm": 5.6469807624816895,
	"learning_rate": 4.4447639825466084e-05,
	"loss": 2.4691,
	"step": 5600
	},
	{
	"epoch": 2.261007536691789,
	"grad_norm": 4.760526657104492,
	"learning_rate": 4.434847282824276e-05,
	"loss": 2.606,
	"step": 5700
	},
	{
	"epoch": 2.300674335581119,
	"grad_norm": 5.259726047515869,
	"learning_rate": 4.424930583101944e-05,
	"loss": 2.4984,
	"step": 5800
	},
	{
	"epoch": 2.340341134470448,
	"grad_norm": 4.372512340545654,
	"learning_rate": 4.415013883379612e-05,
	"loss": 2.4104,
	"step": 5900
	},
	{
	"epoch": 2.380007933359778,
	"grad_norm": 5.21671724319458,
	"learning_rate": 4.405097183657279e-05,
	"loss": 2.4612,
	"step": 6000
	},
	{
	"epoch": 2.4196747322491077,
	"grad_norm": 4.706778049468994,
	"learning_rate": 4.395180483934946e-05,
	"loss": 2.3845,
	"step": 6100
	},
	{
	"epoch": 2.459341531138437,
	"grad_norm": 4.4265217781066895,
	"learning_rate": 4.385263784212614e-05,
	"loss": 2.4508,
	"step": 6200
	},
	{
	"epoch": 2.499008330027767,
	"grad_norm": 112.53572082519531,
	"learning_rate": 4.3753470844902814e-05,
	"loss": 2.3788,
	"step": 6300
	},
	{
	"epoch": 2.538675128917096,
	"grad_norm": 5.193419933319092,
	"learning_rate": 4.365430384767949e-05,
	"loss": 2.3999,
	"step": 6400
	},
	{
	"epoch": 2.578341927806426,
	"grad_norm": 4.786646842956543,
	"learning_rate": 4.355513685045617e-05,
	"loss": 2.3964,
	"step": 6500
	},
	{
	"epoch": 2.6180087266957557,
	"grad_norm": 4.764982223510742,
	"learning_rate": 4.345596985323285e-05,
	"loss": 2.2939,
	"step": 6600
	},
	{
	"epoch": 2.657675525585085,
	"grad_norm": 8.752727508544922,
	"learning_rate": 4.335680285600952e-05,
	"loss": 2.2859,
	"step": 6700
	},
	{
	"epoch": 2.697342324474415,
	"grad_norm": 5.419288158416748,
	"learning_rate": 4.32576358587862e-05,
	"loss": 2.3073,
	"step": 6800
	},
	{
	"epoch": 2.7370091233637446,
	"grad_norm": 3.573631763458252,
	"learning_rate": 4.315846886156287e-05,
	"loss": 2.1833,
	"step": 6900
	},
	{
	"epoch": 2.776675922253074,
	"grad_norm": 5.297525882720947,
	"learning_rate": 4.305930186433955e-05,
	"loss": 2.4245,
	"step": 7000
	},
	{
	"epoch": 2.8163427211424037,
	"grad_norm": 4.3615827560424805,
	"learning_rate": 4.296013486711622e-05,
	"loss": 2.2811,
	"step": 7100
	},
	{
	"epoch": 2.8560095200317335,
	"grad_norm": 6.935328960418701,
	"learning_rate": 4.28609678698929e-05,
	"loss": 2.2544,
	"step": 7200
	},
	{
	"epoch": 2.895676318921063,
	"grad_norm": 3.9425063133239746,
	"learning_rate": 4.276180087266958e-05,
	"loss": 2.2934,
	"step": 7300
	},
	{
	"epoch": 2.9353431178103926,
	"grad_norm": 6.062328815460205,
	"learning_rate": 4.266263387544626e-05,
	"loss": 2.3048,
	"step": 7400
	},
	{
	"epoch": 2.9750099166997224,
	"grad_norm": 4.808726787567139,
	"learning_rate": 4.256346687822293e-05,
	"loss": 2.2118,
	"step": 7500
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.770484209060669,
	"eval_runtime": 33.1033,
	"eval_samples_per_second": 45.856,
	"eval_steps_per_second": 5.74,
	"step": 7563
	},
	{
	"epoch": 3.014676715589052,
	"grad_norm": 4.881776809692383,
	"learning_rate": 4.24642998809996e-05,
	"loss": 2.2472,
	"step": 7600
	},
	{
	"epoch": 3.0543435144783815,
	"grad_norm": 6.6921706199646,
	"learning_rate": 4.236513288377628e-05,
	"loss": 2.1728,
	"step": 7700
	},
	{
	"epoch": 3.0940103133677113,
	"grad_norm": 3.29506254196167,
	"learning_rate": 4.226596588655295e-05,
	"loss": 2.0689,
	"step": 7800
	},
	{
	"epoch": 3.133677112257041,
	"grad_norm": 4.864801406860352,
	"learning_rate": 4.216679888932963e-05,
	"loss": 2.2328,
	"step": 7900
	},
	{
	"epoch": 3.1733439111463704,
	"grad_norm": 3.8594539165496826,
	"learning_rate": 4.206763189210631e-05,
	"loss": 2.0911,
	"step": 8000
	},
	{
	"epoch": 3.2130107100357,
	"grad_norm": 5.1737380027771,
	"learning_rate": 4.196846489488299e-05,
	"loss": 2.0999,
	"step": 8100
	},
	{
	"epoch": 3.25267750892503,
	"grad_norm": 4.454146385192871,
	"learning_rate": 4.186929789765966e-05,
	"loss": 2.0902,
	"step": 8200
	},
	{
	"epoch": 3.2923443078143593,
	"grad_norm": 5.417801380157471,
	"learning_rate": 4.177013090043634e-05,
	"loss": 2.0971,
	"step": 8300
	},
	{
	"epoch": 3.332011106703689,
	"grad_norm": 2.7768959999084473,
	"learning_rate": 4.167096390321301e-05,
	"loss": 2.1635,
	"step": 8400
	},
	{
	"epoch": 3.371677905593019,
	"grad_norm": 4.387384414672852,
	"learning_rate": 4.157179690598969e-05,
	"loss": 2.0166,
	"step": 8500
	},
	{
	"epoch": 3.411344704482348,
	"grad_norm": 4.593613624572754,
	"learning_rate": 4.147262990876636e-05,
	"loss": 2.0944,
	"step": 8600
	},
	{
	"epoch": 3.451011503371678,
	"grad_norm": 5.243652820587158,
	"learning_rate": 4.137346291154304e-05,
	"loss": 2.0518,
	"step": 8700
	},
	{
	"epoch": 3.4906783022610077,
	"grad_norm": 5.076266765594482,
	"learning_rate": 4.127429591431972e-05,
	"loss": 2.0412,
	"step": 8800
	},
	{
	"epoch": 3.530345101150337,
	"grad_norm": 5.36345911026001,
	"learning_rate": 4.11751289170964e-05,
	"loss": 2.0586,
	"step": 8900
	},
	{
	"epoch": 3.570011900039667,
	"grad_norm": 6.591952800750732,
	"learning_rate": 4.107596191987307e-05,
	"loss": 2.059,
	"step": 9000
	},
	{
	"epoch": 3.609678698928996,
	"grad_norm": 5.091315746307373,
	"learning_rate": 4.097679492264974e-05,
	"loss": 2.0451,
	"step": 9100
	},
	{
	"epoch": 3.649345497818326,
	"grad_norm": 4.647657871246338,
	"learning_rate": 4.087762792542642e-05,
	"loss": 2.0488,
	"step": 9200
	},
	{
	"epoch": 3.6890122967076557,
	"grad_norm": 5.167809963226318,
	"learning_rate": 4.077846092820309e-05,
	"loss": 2.0688,
	"step": 9300
	},
	{
	"epoch": 3.728679095596985,
	"grad_norm": 67.48959350585938,
	"learning_rate": 4.067929393097977e-05,
	"loss": 2.0513,
	"step": 9400
	},
	{
	"epoch": 3.768345894486315,
	"grad_norm": 3.942390203475952,
	"learning_rate": 4.058012693375645e-05,
	"loss": 1.9697,
	"step": 9500
	},
	{
	"epoch": 3.8080126933756446,
	"grad_norm": 5.491151332855225,
	"learning_rate": 4.048095993653313e-05,
	"loss": 2.0849,
	"step": 9600
	},
	{
	"epoch": 3.847679492264974,
	"grad_norm": 4.637006759643555,
	"learning_rate": 4.03817929393098e-05,
	"loss": 1.9753,
	"step": 9700
	},
	{
	"epoch": 3.8873462911543037,
	"grad_norm": 4.818416595458984,
	"learning_rate": 4.028262594208648e-05,
	"loss": 2.0526,
	"step": 9800
	},
	{
	"epoch": 3.9270130900436335,
	"grad_norm": 4.810122013092041,
	"learning_rate": 4.018345894486315e-05,
	"loss": 2.0148,
	"step": 9900
	},
	{
	"epoch": 3.966679888932963,
	"grad_norm": 4.372331142425537,
	"learning_rate": 4.008429194763983e-05,
	"loss": 2.0324,
	"step": 10000
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.5883285999298096,
	"eval_runtime": 33.141,
	"eval_samples_per_second": 45.804,
	"eval_steps_per_second": 5.733,
	"step": 10084
	},
	{
	"epoch": 4.006346687822293,
	"grad_norm": 4.643691539764404,
	"learning_rate": 3.99851249504165e-05,
	"loss": 2.0171,
	"step": 10100
	},
	{
	"epoch": 4.046013486711622,
	"grad_norm": 5.210694789886475,
	"learning_rate": 3.988595795319318e-05,
	"loss": 1.9401,
	"step": 10200
	},
	{
	"epoch": 4.085680285600952,
	"grad_norm": 5.724204063415527,
	"learning_rate": 3.978679095596986e-05,
	"loss": 1.9012,
	"step": 10300
	},
	{
	"epoch": 4.125347084490282,
	"grad_norm": 3.6750075817108154,
	"learning_rate": 3.9687623958746536e-05,
	"loss": 1.7982,
	"step": 10400
	},
	{
	"epoch": 4.165013883379611,
	"grad_norm": 4.948938369750977,
	"learning_rate": 3.958845696152321e-05,
	"loss": 1.9426,
	"step": 10500
	},
	{
	"epoch": 4.204680682268941,
	"grad_norm": 5.098011016845703,
	"learning_rate": 3.948928996429988e-05,
	"loss": 1.9476,
	"step": 10600
	},
	{
	"epoch": 4.244347481158271,
	"grad_norm": 3.605708599090576,
	"learning_rate": 3.939012296707656e-05,
	"loss": 1.91,
	"step": 10700
	},
	{
	"epoch": 4.2840142800476,
	"grad_norm": 4.1741766929626465,
	"learning_rate": 3.929095596985323e-05,
	"loss": 1.9512,
	"step": 10800
	},
	{
	"epoch": 4.3236810789369295,
	"grad_norm": 4.427469730377197,
	"learning_rate": 3.919178897262991e-05,
	"loss": 1.859,
	"step": 10900
	},
	{
	"epoch": 4.36334787782626,
	"grad_norm": 4.128306865692139,
	"learning_rate": 3.909262197540659e-05,
	"loss": 1.8465,
	"step": 11000
	},
	{
	"epoch": 4.403014676715589,
	"grad_norm": 3.959047317504883,
	"learning_rate": 3.8993454978183266e-05,
	"loss": 1.9168,
	"step": 11100
	},
	{
	"epoch": 4.442681475604918,
	"grad_norm": 5.283690452575684,
	"learning_rate": 3.889428798095994e-05,
	"loss": 1.8212,
	"step": 11200
	},
	{
	"epoch": 4.482348274494249,
	"grad_norm": 4.190108299255371,
	"learning_rate": 3.8795120983736616e-05,
	"loss": 1.7881,
	"step": 11300
	},
	{
	"epoch": 4.522015073383578,
	"grad_norm": 5.957630157470703,
	"learning_rate": 3.869595398651329e-05,
	"loss": 1.8606,
	"step": 11400
	},
	{
	"epoch": 4.561681872272907,
	"grad_norm": 4.41494607925415,
	"learning_rate": 3.859678698928997e-05,
	"loss": 1.8808,
	"step": 11500
	},
	{
	"epoch": 4.601348671162238,
	"grad_norm": 4.355372428894043,
	"learning_rate": 3.849761999206664e-05,
	"loss": 1.8034,
	"step": 11600
	},
	{
	"epoch": 4.641015470051567,
	"grad_norm": 4.594727993011475,
	"learning_rate": 3.839845299484332e-05,
	"loss": 1.8631,
	"step": 11700
	},
	{
	"epoch": 4.680682268940896,
	"grad_norm": 3.8081648349761963,
	"learning_rate": 3.8299285997619996e-05,
	"loss": 1.7664,
	"step": 11800
	},
	{
	"epoch": 4.7203490678302265,
	"grad_norm": 5.383887767791748,
	"learning_rate": 3.8200119000396675e-05,
	"loss": 1.8918,
	"step": 11900
	},
	{
	"epoch": 4.760015866719556,
	"grad_norm": 4.703048229217529,
	"learning_rate": 3.8100952003173347e-05,
	"loss": 1.7821,
	"step": 12000
	},
	{
	"epoch": 4.799682665608885,
	"grad_norm": 5.115866661071777,
	"learning_rate": 3.800178500595002e-05,
	"loss": 1.8276,
	"step": 12100
	},
	{
	"epoch": 4.839349464498215,
	"grad_norm": 4.647130012512207,
	"learning_rate": 3.79026180087267e-05,
	"loss": 1.7743,
	"step": 12200
	},
	{
	"epoch": 4.879016263387545,
	"grad_norm": 4.2948994636535645,
	"learning_rate": 3.780345101150337e-05,
	"loss": 1.7567,
	"step": 12300
	},
	{
	"epoch": 4.918683062276874,
	"grad_norm": 4.055002212524414,
	"learning_rate": 3.770428401428005e-05,
	"loss": 1.832,
	"step": 12400
	},
	{
	"epoch": 4.958349861166204,
	"grad_norm": 4.373877048492432,
	"learning_rate": 3.7605117017056726e-05,
	"loss": 1.7995,
	"step": 12500
	},
	{
	"epoch": 4.998016660055534,
	"grad_norm": 5.246423721313477,
	"learning_rate": 3.7505950019833405e-05,
	"loss": 1.7464,
	"step": 12600
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.4670053720474243,
	"eval_runtime": 33.135,
	"eval_samples_per_second": 45.813,
	"eval_steps_per_second": 5.734,
	"step": 12605
	},
	{
	"epoch": 5.037683458944863,
	"grad_norm": 5.669796943664551,
	"learning_rate": 3.740678302261008e-05,
	"loss": 1.6803,
	"step": 12700
	},
	{
	"epoch": 5.077350257834193,
	"grad_norm": 4.203566074371338,
	"learning_rate": 3.7307616025386755e-05,
	"loss": 1.665,
	"step": 12800
	},
	{
	"epoch": 5.1170170567235225,
	"grad_norm": 3.6892035007476807,
	"learning_rate": 3.720844902816343e-05,
	"loss": 1.7269,
	"step": 12900
	},
	{
	"epoch": 5.156683855612852,
	"grad_norm": 4.452983379364014,
	"learning_rate": 3.7109282030940106e-05,
	"loss": 1.7276,
	"step": 13000
	},
	{
	"epoch": 5.196350654502182,
	"grad_norm": 3.7172744274139404,
	"learning_rate": 3.701011503371678e-05,
	"loss": 1.6838,
	"step": 13100
	},
	{
	"epoch": 5.236017453391511,
	"grad_norm": 4.209805488586426,
	"learning_rate": 3.6910948036493456e-05,
	"loss": 1.6982,
	"step": 13200
	},
	{
	"epoch": 5.275684252280841,
	"grad_norm": 4.2851362228393555,
	"learning_rate": 3.6811781039270135e-05,
	"loss": 1.6656,
	"step": 13300
	},
	{
	"epoch": 5.315351051170171,
	"grad_norm": 3.345033884048462,
	"learning_rate": 3.6712614042046814e-05,
	"loss": 1.7176,
	"step": 13400
	},
	{
	"epoch": 5.3550178500595,
	"grad_norm": 7.854482173919678,
	"learning_rate": 3.6613447044823485e-05,
	"loss": 1.7395,
	"step": 13500
	},
	{
	"epoch": 5.39468464894883,
	"grad_norm": 5.201159477233887,
	"learning_rate": 3.651428004760016e-05,
	"loss": 1.7159,
	"step": 13600
	},
	{
	"epoch": 5.43435144783816,
	"grad_norm": 5.032053470611572,
	"learning_rate": 3.6415113050376836e-05,
	"loss": 1.7993,
	"step": 13700
	},
	{
	"epoch": 5.474018246727489,
	"grad_norm": 4.350612640380859,
	"learning_rate": 3.631594605315351e-05,
	"loss": 1.722,
	"step": 13800
	},
	{
	"epoch": 5.5136850456168185,
	"grad_norm": 5.67685604095459,
	"learning_rate": 3.6216779055930186e-05,
	"loss": 1.5882,
	"step": 13900
	},
	{
	"epoch": 5.553351844506149,
	"grad_norm": 3.8744733333587646,
	"learning_rate": 3.6117612058706865e-05,
	"loss": 1.6864,
	"step": 14000
	},
	{
	"epoch": 5.593018643395478,
	"grad_norm": 3.0556750297546387,
	"learning_rate": 3.6018445061483544e-05,
	"loss": 1.6494,
	"step": 14100
	},
	{
	"epoch": 5.632685442284807,
	"grad_norm": 5.0797343254089355,
	"learning_rate": 3.5919278064260215e-05,
	"loss": 1.747,
	"step": 14200
	},
	{
	"epoch": 5.672352241174138,
	"grad_norm": 4.625453948974609,
	"learning_rate": 3.5820111067036894e-05,
	"loss": 1.689,
	"step": 14300
	},
	{
	"epoch": 5.712019040063467,
	"grad_norm": 5.2560133934021,
	"learning_rate": 3.5720944069813566e-05,
	"loss": 1.6218,
	"step": 14400
	},
	{
	"epoch": 5.751685838952796,
	"grad_norm": 4.45328950881958,
	"learning_rate": 3.5621777072590245e-05,
	"loss": 1.7095,
	"step": 14500
	},
	{
	"epoch": 5.7913526378421265,
	"grad_norm": 3.0788328647613525,
	"learning_rate": 3.5522610075366916e-05,
	"loss": 1.7223,
	"step": 14600
	},
	{
	"epoch": 5.831019436731456,
	"grad_norm": 6.247290134429932,
	"learning_rate": 3.5423443078143595e-05,
	"loss": 1.6158,
	"step": 14700
	},
	{
	"epoch": 5.870686235620785,
	"grad_norm": 4.095520973205566,
	"learning_rate": 3.5324276080920274e-05,
	"loss": 1.6313,
	"step": 14800
	},
	{
	"epoch": 5.910353034510115,
	"grad_norm": 4.251845836639404,
	"learning_rate": 3.522510908369695e-05,
	"loss": 1.6458,
	"step": 14900
	},
	{
	"epoch": 5.950019833399445,
	"grad_norm": 3.833702802658081,
	"learning_rate": 3.5125942086473624e-05,
	"loss": 1.6425,
	"step": 15000
	},
	{
	"epoch": 5.989686632288774,
	"grad_norm": 4.577655792236328,
	"learning_rate": 3.5026775089250296e-05,
	"loss": 1.6747,
	"step": 15100
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.3812555074691772,
	"eval_runtime": 33.4674,
	"eval_samples_per_second": 45.358,
	"eval_steps_per_second": 5.677,
	"step": 15126
	},
	{
	"epoch": 6.029353431178104,
	"grad_norm": 3.609616279602051,
	"learning_rate": 3.4927608092026975e-05,
	"loss": 1.6579,
	"step": 15200
	},
	{
	"epoch": 6.069020230067434,
	"grad_norm": 3.5658130645751953,
	"learning_rate": 3.4828441094803647e-05,
	"loss": 1.6842,
	"step": 15300
	},
	{
	"epoch": 6.108687028956763,
	"grad_norm": 4.586058139801025,
	"learning_rate": 3.4729274097580325e-05,
	"loss": 1.5563,
	"step": 15400
	},
	{
	"epoch": 6.148353827846093,
	"grad_norm": 5.103824615478516,
	"learning_rate": 3.4630107100357004e-05,
	"loss": 1.5386,
	"step": 15500
	},
	{
	"epoch": 6.1880206267354225,
	"grad_norm": 5.14306116104126,
	"learning_rate": 3.453094010313368e-05,
	"loss": 1.6081,
	"step": 15600
	},
	{
	"epoch": 6.227687425624752,
	"grad_norm": 4.270661354064941,
	"learning_rate": 3.4431773105910354e-05,
	"loss": 1.5569,
	"step": 15700
	},
	{
	"epoch": 6.267354224514082,
	"grad_norm": 13.869562149047852,
	"learning_rate": 3.433260610868703e-05,
	"loss": 1.5484,
	"step": 15800
	},
	{
	"epoch": 6.307021023403411,
	"grad_norm": 3.9378180503845215,
	"learning_rate": 3.4233439111463705e-05,
	"loss": 1.5441,
	"step": 15900
	},
	{
	"epoch": 6.346687822292741,
	"grad_norm": 4.3542656898498535,
	"learning_rate": 3.4134272114240383e-05,
	"loss": 1.58,
	"step": 16000
	},
	{
	"epoch": 6.386354621182071,
	"grad_norm": 3.8545126914978027,
	"learning_rate": 3.4035105117017055e-05,
	"loss": 1.4445,
	"step": 16100
	},
	{
	"epoch": 6.4260214200714,
	"grad_norm": 3.9810452461242676,
	"learning_rate": 3.3935938119793734e-05,
	"loss": 1.6052,
	"step": 16200
	},
	{
	"epoch": 6.46568821896073,
	"grad_norm": 7.306039333343506,
	"learning_rate": 3.383677112257041e-05,
	"loss": 1.608,
	"step": 16300
	},
	{
	"epoch": 6.50535501785006,
	"grad_norm": 4.018649578094482,
	"learning_rate": 3.373760412534709e-05,
	"loss": 1.581,
	"step": 16400
	},
	{
	"epoch": 6.545021816739389,
	"grad_norm": 5.1577019691467285,
	"learning_rate": 3.363843712812376e-05,
	"loss": 1.548,
	"step": 16500
	},
	{
	"epoch": 6.5846886156287185,
	"grad_norm": 6.858482837677002,
	"learning_rate": 3.3539270130900435e-05,
	"loss": 1.5823,
	"step": 16600
	},
	{
	"epoch": 6.624355414518049,
	"grad_norm": 4.213831901550293,
	"learning_rate": 3.3440103133677114e-05,
	"loss": 1.5199,
	"step": 16700
	},
	{
	"epoch": 6.664022213407378,
	"grad_norm": 3.531313180923462,
	"learning_rate": 3.3340936136453785e-05,
	"loss": 1.5993,
	"step": 16800
	},
	{
	"epoch": 6.703689012296707,
	"grad_norm": 4.222484588623047,
	"learning_rate": 3.3241769139230464e-05,
	"loss": 1.5839,
	"step": 16900
	},
	{
	"epoch": 6.743355811186038,
	"grad_norm": 3.11354660987854,
	"learning_rate": 3.314260214200714e-05,
	"loss": 1.5302,
	"step": 17000
	},
	{
	"epoch": 6.783022610075367,
	"grad_norm": 3.699721574783325,
	"learning_rate": 3.304343514478382e-05,
	"loss": 1.5662,
	"step": 17100
	},
	{
	"epoch": 6.822689408964696,
	"grad_norm": 6.095912456512451,
	"learning_rate": 3.294426814756049e-05,
	"loss": 1.6208,
	"step": 17200
	},
	{
	"epoch": 6.862356207854027,
	"grad_norm": 3.0489301681518555,
	"learning_rate": 3.284510115033717e-05,
	"loss": 1.4306,
	"step": 17300
	},
	{
	"epoch": 6.902023006743356,
	"grad_norm": 4.094913005828857,
	"learning_rate": 3.2745934153113844e-05,
	"loss": 1.438,
	"step": 17400
	},
	{
	"epoch": 6.941689805632685,
	"grad_norm": 3.900447130203247,
	"learning_rate": 3.264676715589052e-05,
	"loss": 1.4798,
	"step": 17500
	},
	{
	"epoch": 6.9813566045220155,
	"grad_norm": 4.244141578674316,
	"learning_rate": 3.2547600158667194e-05,
	"loss": 1.5627,
	"step": 17600
	},
	{
	"epoch": 7.0,
	"eval_loss": 1.3121882677078247,
	"eval_runtime": 33.1418,
	"eval_samples_per_second": 45.803,
	"eval_steps_per_second": 5.733,
	"step": 17647
	},
	{
	"epoch": 7.021023403411345,
	"grad_norm": 5.134289264678955,
	"learning_rate": 3.244843316144387e-05,
	"loss": 1.4704,
	"step": 17700
	},
	{
	"epoch": 7.060690202300674,
	"grad_norm": 4.705554008483887,
	"learning_rate": 3.234926616422055e-05,
	"loss": 1.4257,
	"step": 17800
	},
	{
	"epoch": 7.100357001190004,
	"grad_norm": 5.20936918258667,
	"learning_rate": 3.225009916699723e-05,
	"loss": 1.4684,
	"step": 17900
	},
	{
	"epoch": 7.140023800079334,
	"grad_norm": 5.669763565063477,
	"learning_rate": 3.21509321697739e-05,
	"loss": 1.4626,
	"step": 18000
	},
	{
	"epoch": 7.179690598968663,
	"grad_norm": 4.726533889770508,
	"learning_rate": 3.2051765172550574e-05,
	"loss": 1.4362,
	"step": 18100
	},
	{
	"epoch": 7.219357397857993,
	"grad_norm": 3.413167715072632,
	"learning_rate": 3.195259817532725e-05,
	"loss": 1.4591,
	"step": 18200
	},
	{
	"epoch": 7.259024196747323,
	"grad_norm": 3.3368911743164062,
	"learning_rate": 3.1853431178103924e-05,
	"loss": 1.5077,
	"step": 18300
	},
	{
	"epoch": 7.298690995636652,
	"grad_norm": 3.5089704990386963,
	"learning_rate": 3.17542641808806e-05,
	"loss": 1.509,
	"step": 18400
	},
	{
	"epoch": 7.338357794525982,
	"grad_norm": 4.13053035736084,
	"learning_rate": 3.165509718365728e-05,
	"loss": 1.5048,
	"step": 18500
	},
	{
	"epoch": 7.3780245934153115,
	"grad_norm": 4.646170139312744,
	"learning_rate": 3.155593018643396e-05,
	"loss": 1.474,
	"step": 18600
	},
	{
	"epoch": 7.417691392304641,
	"grad_norm": 4.4724812507629395,
	"learning_rate": 3.145676318921063e-05,
	"loss": 1.5448,
	"step": 18700
	},
	{
	"epoch": 7.457358191193971,
	"grad_norm": 3.79464054107666,
	"learning_rate": 3.135759619198731e-05,
	"loss": 1.4379,
	"step": 18800
	},
	{
	"epoch": 7.4970249900833,
	"grad_norm": 3.2396161556243896,
	"learning_rate": 3.125842919476398e-05,
	"loss": 1.4857,
	"step": 18900
	},
	{
	"epoch": 7.53669178897263,
	"grad_norm": 3.6047024726867676,
	"learning_rate": 3.115926219754066e-05,
	"loss": 1.453,
	"step": 19000
	},
	{
	"epoch": 7.57635858786196,
	"grad_norm": 4.998748779296875,
	"learning_rate": 3.106009520031733e-05,
	"loss": 1.4062,
	"step": 19100
	},
	{
	"epoch": 7.616025386751289,
	"grad_norm": 4.068435192108154,
	"learning_rate": 3.096092820309401e-05,
	"loss": 1.3582,
	"step": 19200
	},
	{
	"epoch": 7.655692185640619,
	"grad_norm": 5.680367469787598,
	"learning_rate": 3.086176120587069e-05,
	"loss": 1.4897,
	"step": 19300
	},
	{
	"epoch": 7.695358984529949,
	"grad_norm": 3.917802333831787,
	"learning_rate": 3.076259420864737e-05,
	"loss": 1.4195,
	"step": 19400
	},
	{
	"epoch": 7.735025783419278,
	"grad_norm": 3.1522891521453857,
	"learning_rate": 3.066342721142404e-05,
	"loss": 1.4599,
	"step": 19500
	},
	{
	"epoch": 7.7746925823086075,
	"grad_norm": 4.597601890563965,
	"learning_rate": 3.056426021420071e-05,
	"loss": 1.4701,
	"step": 19600
	},
	{
	"epoch": 7.814359381197937,
	"grad_norm": 4.217317581176758,
	"learning_rate": 3.046509321697739e-05,
	"loss": 1.4263,
	"step": 19700
	},
	{
	"epoch": 7.854026180087267,
	"grad_norm": 4.17954158782959,
	"learning_rate": 3.0365926219754066e-05,
	"loss": 1.4155,
	"step": 19800
	},
	{
	"epoch": 7.893692978976596,
	"grad_norm": 4.049231052398682,
	"learning_rate": 3.0266759222530745e-05,
	"loss": 1.4343,
	"step": 19900
	},
	{
	"epoch": 7.933359777865926,
	"grad_norm": 3.9351389408111572,
	"learning_rate": 3.0167592225307417e-05,
	"loss": 1.4247,
	"step": 20000
	},
	{
	"epoch": 7.973026576755256,
	"grad_norm": 6.478794097900391,
	"learning_rate": 3.0068425228084096e-05,
	"loss": 1.4336,
	"step": 20100
	},
	{
	"epoch": 8.0,
	"eval_loss": 1.2493535280227661,
	"eval_runtime": 33.1532,
	"eval_samples_per_second": 45.787,
	"eval_steps_per_second": 5.731,
	"step": 20168
	},
	{
	"epoch": 8.012693375644586,
	"grad_norm": 7.988471508026123,
	"learning_rate": 2.996925823086077e-05,
	"loss": 1.4408,
	"step": 20200
	},
	{
	"epoch": 8.052360174533915,
	"grad_norm": 3.978797674179077,
	"learning_rate": 2.987009123363745e-05,
	"loss": 1.4227,
	"step": 20300
	},
	{
	"epoch": 8.092026973423245,
	"grad_norm": 2.8589699268341064,
	"learning_rate": 2.977092423641412e-05,
	"loss": 1.3348,
	"step": 20400
	},
	{
	"epoch": 8.131693772312575,
	"grad_norm": 4.3820061683654785,
	"learning_rate": 2.96717572391908e-05,
	"loss": 1.3374,
	"step": 20500
	},
	{
	"epoch": 8.171360571201904,
	"grad_norm": 4.421834468841553,
	"learning_rate": 2.9572590241967475e-05,
	"loss": 1.379,
	"step": 20600
	},
	{
	"epoch": 8.211027370091234,
	"grad_norm": 3.6717193126678467,
	"learning_rate": 2.9473423244744154e-05,
	"loss": 1.3878,
	"step": 20700
	},
	{
	"epoch": 8.250694168980564,
	"grad_norm": 5.8960466384887695,
	"learning_rate": 2.9374256247520826e-05,
	"loss": 1.418,
	"step": 20800
	},
	{
	"epoch": 8.290360967869892,
	"grad_norm": 4.1541428565979,
	"learning_rate": 2.9275089250297504e-05,
	"loss": 1.3427,
	"step": 20900
	},
	{
	"epoch": 8.330027766759223,
	"grad_norm": 4.0375566482543945,
	"learning_rate": 2.917592225307418e-05,
	"loss": 1.3659,
	"step": 21000
	},
	{
	"epoch": 8.369694565648553,
	"grad_norm": 2.6886465549468994,
	"learning_rate": 2.907675525585085e-05,
	"loss": 1.3568,
	"step": 21100
	},
	{
	"epoch": 8.409361364537881,
	"grad_norm": 4.069731712341309,
	"learning_rate": 2.897758825862753e-05,
	"loss": 1.4326,
	"step": 21200
	},
	{
	"epoch": 8.449028163427212,
	"grad_norm": 4.844085693359375,
	"learning_rate": 2.8878421261404205e-05,
	"loss": 1.4363,
	"step": 21300
	},
	{
	"epoch": 8.488694962316542,
	"grad_norm": 2.894545316696167,
	"learning_rate": 2.8779254264180884e-05,
	"loss": 1.362,
	"step": 21400
	},
	{
	"epoch": 8.52836176120587,
	"grad_norm": 3.8921375274658203,
	"learning_rate": 2.8680087266957556e-05,
	"loss": 1.3303,
	"step": 21500
	},
	{
	"epoch": 8.5680285600952,
	"grad_norm": 3.6468684673309326,
	"learning_rate": 2.8580920269734234e-05,
	"loss": 1.387,
	"step": 21600
	},
	{
	"epoch": 8.60769535898453,
	"grad_norm": 4.2180938720703125,
	"learning_rate": 2.848175327251091e-05,
	"loss": 1.366,
	"step": 21700
	},
	{
	"epoch": 8.647362157873859,
	"grad_norm": 4.113888263702393,
	"learning_rate": 2.8382586275287588e-05,
	"loss": 1.4047,
	"step": 21800
	},
	{
	"epoch": 8.68702895676319,
	"grad_norm": 4.009461402893066,
	"learning_rate": 2.828341927806426e-05,
	"loss": 1.3446,
	"step": 21900
	},
	{
	"epoch": 8.72669575565252,
	"grad_norm": 3.8195252418518066,
	"learning_rate": 2.818425228084094e-05,
	"loss": 1.3304,
	"step": 22000
	},
	{
	"epoch": 8.766362554541848,
	"grad_norm": 4.5541300773620605,
	"learning_rate": 2.8085085283617614e-05,
	"loss": 1.4156,
	"step": 22100
	},
	{
	"epoch": 8.806029353431178,
	"grad_norm": 4.221588611602783,
	"learning_rate": 2.7985918286394293e-05,
	"loss": 1.3258,
	"step": 22200
	},
	{
	"epoch": 8.845696152320508,
	"grad_norm": 3.7638354301452637,
	"learning_rate": 2.7886751289170964e-05,
	"loss": 1.2697,
	"step": 22300
	},
	{
	"epoch": 8.885362951209837,
	"grad_norm": 3.7174267768859863,
	"learning_rate": 2.7787584291947643e-05,
	"loss": 1.3468,
	"step": 22400
	},
	{
	"epoch": 8.925029750099167,
	"grad_norm": 4.4955153465271,
	"learning_rate": 2.768841729472432e-05,
	"loss": 1.3074,
	"step": 22500
	},
	{
	"epoch": 8.964696548988497,
	"grad_norm": 4.170012950897217,
	"learning_rate": 2.758925029750099e-05,
	"loss": 1.3324,
	"step": 22600
	},
	{
	"epoch": 9.0,
	"eval_loss": 1.204575538635254,
	"eval_runtime": 33.1963,
	"eval_samples_per_second": 45.728,
	"eval_steps_per_second": 5.724,
	"step": 22689
	},
	{
	"epoch": 9.004363347877826,
	"grad_norm": 3.331163167953491,
	"learning_rate": 2.749008330027767e-05,
	"loss": 1.3285,
	"step": 22700
	},
	{
	"epoch": 9.044030146767156,
	"grad_norm": 3.822847843170166,
	"learning_rate": 2.7390916303054344e-05,
	"loss": 1.3589,
	"step": 22800
	},
	{
	"epoch": 9.083696945656486,
	"grad_norm": 3.4321391582489014,
	"learning_rate": 2.7291749305831023e-05,
	"loss": 1.2863,
	"step": 22900
	},
	{
	"epoch": 9.123363744545815,
	"grad_norm": 4.23520040512085,
	"learning_rate": 2.7192582308607695e-05,
	"loss": 1.297,
	"step": 23000
	},
	{
	"epoch": 9.163030543435145,
	"grad_norm": 3.0839881896972656,
	"learning_rate": 2.7093415311384373e-05,
	"loss": 1.272,
	"step": 23100
	},
	{
	"epoch": 9.202697342324475,
	"grad_norm": 5.115342617034912,
	"learning_rate": 2.699424831416105e-05,
	"loss": 1.2667,
	"step": 23200
	},
	{
	"epoch": 9.242364141213804,
	"grad_norm": 3.8965401649475098,
	"learning_rate": 2.6895081316937727e-05,
	"loss": 1.2995,
	"step": 23300
	},
	{
	"epoch": 9.282030940103134,
	"grad_norm": 3.395707368850708,
	"learning_rate": 2.67959143197144e-05,
	"loss": 1.2064,
	"step": 23400
	},
	{
	"epoch": 9.321697738992464,
	"grad_norm": 3.7783238887786865,
	"learning_rate": 2.6696747322491078e-05,
	"loss": 1.354,
	"step": 23500
	},
	{
	"epoch": 9.361364537881792,
	"grad_norm": 3.6201136112213135,
	"learning_rate": 2.6597580325267753e-05,
	"loss": 1.318,
	"step": 23600
	},
	{
	"epoch": 9.401031336771123,
	"grad_norm": 7.127315044403076,
	"learning_rate": 2.649841332804443e-05,
	"loss": 1.2809,
	"step": 23700
	},
	{
	"epoch": 9.440698135660453,
	"grad_norm": 3.341298818588257,
	"learning_rate": 2.6399246330821103e-05,
	"loss": 1.3285,
	"step": 23800
	},
	{
	"epoch": 9.480364934549781,
	"grad_norm": 3.38814377784729,
	"learning_rate": 2.6300079333597782e-05,
	"loss": 1.3326,
	"step": 23900
	},
	{
	"epoch": 9.520031733439112,
	"grad_norm": 2.880125045776367,
	"learning_rate": 2.6200912336374457e-05,
	"loss": 1.3142,
	"step": 24000
	},
	{
	"epoch": 9.559698532328442,
	"grad_norm": 3.778383731842041,
	"learning_rate": 2.610174533915113e-05,
	"loss": 1.3217,
	"step": 24100
	},
	{
	"epoch": 9.59936533121777,
	"grad_norm": 5.5109734535217285,
	"learning_rate": 2.6002578341927808e-05,
	"loss": 1.2715,
	"step": 24200
	},
	{
	"epoch": 9.6390321301071,
	"grad_norm": 3.931368112564087,
	"learning_rate": 2.5903411344704483e-05,
	"loss": 1.318,
	"step": 24300
	},
	{
	"epoch": 9.67869892899643,
	"grad_norm": 3.6587719917297363,
	"learning_rate": 2.580424434748116e-05,
	"loss": 1.2384,
	"step": 24400
	},
	{
	"epoch": 9.71836572788576,
	"grad_norm": 3.4478108882904053,
	"learning_rate": 2.5705077350257833e-05,
	"loss": 1.2682,
	"step": 24500
	},
	{
	"epoch": 9.75803252677509,
	"grad_norm": 3.9226527214050293,
	"learning_rate": 2.5605910353034512e-05,
	"loss": 1.2966,
	"step": 24600
	},
	{
	"epoch": 9.79769932566442,
	"grad_norm": 4.621306419372559,
	"learning_rate": 2.5506743355811187e-05,
	"loss": 1.2788,
	"step": 24700
	},
	{
	"epoch": 9.837366124553748,
	"grad_norm": 3.4298593997955322,
	"learning_rate": 2.5407576358587866e-05,
	"loss": 1.3299,
	"step": 24800
	},
	{
	"epoch": 9.877032923443078,
	"grad_norm": 3.7832400798797607,
	"learning_rate": 2.5308409361364538e-05,
	"loss": 1.2634,
	"step": 24900
	},
	{
	"epoch": 9.916699722332408,
	"grad_norm": 5.351818561553955,
	"learning_rate": 2.5209242364141216e-05,
	"loss": 1.3117,
	"step": 25000
	},
	{
	"epoch": 9.956366521221737,
	"grad_norm": 4.65415096282959,
	"learning_rate": 2.511007536691789e-05,
	"loss": 1.2613,
	"step": 25100
	},
	{
	"epoch": 9.996033320111067,
	"grad_norm": 3.2736618518829346,
	"learning_rate": 2.501090836969457e-05,
	"loss": 1.3156,
	"step": 25200
	},
	{
	"epoch": 10.0,
	"eval_loss": 1.164570689201355,
	"eval_runtime": 33.0846,
	"eval_samples_per_second": 45.882,
	"eval_steps_per_second": 5.743,
	"step": 25210
	},
	{
	"epoch": 10.035700119000397,
	"grad_norm": 3.6819069385528564,
	"learning_rate": 2.4911741372471242e-05,
	"loss": 1.2604,
	"step": 25300
	},
	{
	"epoch": 10.075366917889726,
	"grad_norm": 3.9212143421173096,
	"learning_rate": 2.4812574375247917e-05,
	"loss": 1.2308,
	"step": 25400
	},
	{
	"epoch": 10.115033716779056,
	"grad_norm": 3.3087549209594727,
	"learning_rate": 2.4713407378024596e-05,
	"loss": 1.1652,
	"step": 25500
	},
	{
	"epoch": 10.154700515668386,
	"grad_norm": 3.8680827617645264,
	"learning_rate": 2.461424038080127e-05,
	"loss": 1.2311,
	"step": 25600
	},
	{
	"epoch": 10.194367314557715,
	"grad_norm": 5.244319438934326,
	"learning_rate": 2.4515073383577946e-05,
	"loss": 1.1819,
	"step": 25700
	},
	{
	"epoch": 10.234034113447045,
	"grad_norm": 3.2293717861175537,
	"learning_rate": 2.4415906386354622e-05,
	"loss": 1.249,
	"step": 25800
	},
	{
	"epoch": 10.273700912336375,
	"grad_norm": 4.391103744506836,
	"learning_rate": 2.43167393891313e-05,
	"loss": 1.2283,
	"step": 25900
	},
	{
	"epoch": 10.313367711225704,
	"grad_norm": 4.615547180175781,
	"learning_rate": 2.4217572391907976e-05,
	"loss": 1.2915,
	"step": 26000
	},
	{
	"epoch": 10.353034510115034,
	"grad_norm": 3.3367502689361572,
	"learning_rate": 2.411840539468465e-05,
	"loss": 1.2221,
	"step": 26100
	},
	{
	"epoch": 10.392701309004364,
	"grad_norm": 5.194177150726318,
	"learning_rate": 2.4019238397461326e-05,
	"loss": 1.2611,
	"step": 26200
	},
	{
	"epoch": 10.432368107893693,
	"grad_norm": 5.576562404632568,
	"learning_rate": 2.3920071400238005e-05,
	"loss": 1.2764,
	"step": 26300
	},
	{
	"epoch": 10.472034906783023,
	"grad_norm": 4.902477264404297,
	"learning_rate": 2.3820904403014677e-05,
	"loss": 1.2066,
	"step": 26400
	},
	{
	"epoch": 10.511701705672353,
	"grad_norm": 4.312764644622803,
	"learning_rate": 2.3721737405791352e-05,
	"loss": 1.219,
	"step": 26500
	},
	{
	"epoch": 10.551368504561681,
	"grad_norm": 4.345120429992676,
	"learning_rate": 2.362257040856803e-05,
	"loss": 1.2679,
	"step": 26600
	},
	{
	"epoch": 10.591035303451012,
	"grad_norm": 3.9365150928497314,
	"learning_rate": 2.3523403411344706e-05,
	"loss": 1.1752,
	"step": 26700
	},
	{
	"epoch": 10.630702102340342,
	"grad_norm": 3.843207597732544,
	"learning_rate": 2.342423641412138e-05,
	"loss": 1.2706,
	"step": 26800
	},
	{
	"epoch": 10.67036890122967,
	"grad_norm": 4.076716423034668,
	"learning_rate": 2.3325069416898056e-05,
	"loss": 1.1561,
	"step": 26900
	},
	{
	"epoch": 10.710035700119,
	"grad_norm": 4.182331562042236,
	"learning_rate": 2.3225902419674735e-05,
	"loss": 1.2027,
	"step": 27000
	},
	{
	"epoch": 10.74970249900833,
	"grad_norm": 5.730105876922607,
	"learning_rate": 2.312673542245141e-05,
	"loss": 1.2703,
	"step": 27100
	},
	{
	"epoch": 10.78936929789766,
	"grad_norm": 5.552068710327148,
	"learning_rate": 2.3027568425228085e-05,
	"loss": 1.252,
	"step": 27200
	},
	{
	"epoch": 10.82903609678699,
	"grad_norm": 4.406209945678711,
	"learning_rate": 2.292840142800476e-05,
	"loss": 1.183,
	"step": 27300
	},
	{
	"epoch": 10.86870289567632,
	"grad_norm": 3.434688091278076,
	"learning_rate": 2.282923443078144e-05,
	"loss": 1.3214,
	"step": 27400
	},
	{
	"epoch": 10.908369694565648,
	"grad_norm": 5.0344085693359375,
	"learning_rate": 2.2730067433558114e-05,
	"loss": 1.3043,
	"step": 27500
	},
	{
	"epoch": 10.948036493454978,
	"grad_norm": 3.3030033111572266,
	"learning_rate": 2.263090043633479e-05,
	"loss": 1.1764,
	"step": 27600
	},
	{
	"epoch": 10.987703292344309,
	"grad_norm": 5.79923152923584,
	"learning_rate": 2.2531733439111465e-05,
	"loss": 1.2218,
	"step": 27700
	},
	{
	"epoch": 11.0,
	"eval_loss": 1.1352205276489258,
	"eval_runtime": 31.6991,
	"eval_samples_per_second": 47.888,
	"eval_steps_per_second": 5.994,
	"step": 27731
	},
	{
	"epoch": 11.027370091233637,
	"grad_norm": 4.073122501373291,
	"learning_rate": 2.2432566441888144e-05,
	"loss": 1.1861,
	"step": 27800
	},
	{
	"epoch": 11.067036890122967,
	"grad_norm": 2.8648433685302734,
	"learning_rate": 2.2333399444664815e-05,
	"loss": 1.1659,
	"step": 27900
	},
	{
	"epoch": 11.106703689012297,
	"grad_norm": 3.6053709983825684,
	"learning_rate": 2.223423244744149e-05,
	"loss": 1.2087,
	"step": 28000
	},
	{
	"epoch": 11.146370487901626,
	"grad_norm": 3.5773251056671143,
	"learning_rate": 2.2135065450218166e-05,
	"loss": 1.1787,
	"step": 28100
	},
	{
	"epoch": 11.186037286790956,
	"grad_norm": 5.5593485832214355,
	"learning_rate": 2.2035898452994845e-05,
	"loss": 1.1941,
	"step": 28200
	},
	{
	"epoch": 11.225704085680286,
	"grad_norm": 3.9467504024505615,
	"learning_rate": 2.193673145577152e-05,
	"loss": 1.2505,
	"step": 28300
	},
	{
	"epoch": 11.265370884569615,
	"grad_norm": 4.707422733306885,
	"learning_rate": 2.1837564458548195e-05,
	"loss": 1.1165,
	"step": 28400
	},
	{
	"epoch": 11.305037683458945,
	"grad_norm": 4.517952919006348,
	"learning_rate": 2.1738397461324874e-05,
	"loss": 1.2379,
	"step": 28500
	},
	{
	"epoch": 11.344704482348275,
	"grad_norm": 2.318586587905884,
	"learning_rate": 2.163923046410155e-05,
	"loss": 1.2098,
	"step": 28600
	},
	{
	"epoch": 11.384371281237604,
	"grad_norm": 3.655980110168457,
	"learning_rate": 2.1540063466878224e-05,
	"loss": 1.2044,
	"step": 28700
	},
	{
	"epoch": 11.424038080126934,
	"grad_norm": 4.038224697113037,
	"learning_rate": 2.14408964696549e-05,
	"loss": 1.1651,
	"step": 28800
	},
	{
	"epoch": 11.463704879016264,
	"grad_norm": 3.9811367988586426,
	"learning_rate": 2.1341729472431578e-05,
	"loss": 1.199,
	"step": 28900
	},
	{
	"epoch": 11.503371677905593,
	"grad_norm": 6.200103759765625,
	"learning_rate": 2.1242562475208253e-05,
	"loss": 1.1094,
	"step": 29000
	},
	{
	"epoch": 11.543038476794923,
	"grad_norm": 3.919187545776367,
	"learning_rate": 2.114339547798493e-05,
	"loss": 1.1522,
	"step": 29100
	},
	{
	"epoch": 11.582705275684253,
	"grad_norm": 3.701822519302368,
	"learning_rate": 2.1044228480761604e-05,
	"loss": 1.1556,
	"step": 29200
	},
	{
	"epoch": 11.622372074573581,
	"grad_norm": 4.491922855377197,
	"learning_rate": 2.0945061483538282e-05,
	"loss": 1.1779,
	"step": 29300
	},
	{
	"epoch": 11.662038873462912,
	"grad_norm": 4.367665767669678,
	"learning_rate": 2.0845894486314954e-05,
	"loss": 1.1392,
	"step": 29400
	},
	{
	"epoch": 11.701705672352242,
	"grad_norm": 4.0435028076171875,
	"learning_rate": 2.074672748909163e-05,
	"loss": 1.1621,
	"step": 29500
	},
	{
	"epoch": 11.74137247124157,
	"grad_norm": 4.151968955993652,
	"learning_rate": 2.0647560491868305e-05,
	"loss": 1.1983,
	"step": 29600
	},
	{
	"epoch": 11.7810392701309,
	"grad_norm": 4.687623500823975,
	"learning_rate": 2.0548393494644983e-05,
	"loss": 1.1563,
	"step": 29700
	},
	{
	"epoch": 11.82070606902023,
	"grad_norm": 4.415579795837402,
	"learning_rate": 2.044922649742166e-05,
	"loss": 1.1497,
	"step": 29800
	},
	{
	"epoch": 11.86037286790956,
	"grad_norm": 4.241002082824707,
	"learning_rate": 2.0350059500198334e-05,
	"loss": 1.2298,
	"step": 29900
	},
	{
	"epoch": 11.90003966679889,
	"grad_norm": 5.38535213470459,
	"learning_rate": 2.025089250297501e-05,
	"loss": 1.1403,
	"step": 30000
	},
	{
	"epoch": 11.93970646568822,
	"grad_norm": 3.886983633041382,
	"learning_rate": 2.0151725505751688e-05,
	"loss": 1.237,
	"step": 30100
	},
	{
	"epoch": 11.979373264577548,
	"grad_norm": 4.2845048904418945,
	"learning_rate": 2.0052558508528363e-05,
	"loss": 1.2216,
	"step": 30200
	},
	{
	"epoch": 12.0,
	"eval_loss": 1.097899317741394,
	"eval_runtime": 31.7141,
	"eval_samples_per_second": 47.865,
	"eval_steps_per_second": 5.991,
	"step": 30252
	},
	{
	"epoch": 12.019040063466878,
	"grad_norm": 4.043181896209717,
	"learning_rate": 1.9953391511305038e-05,
	"loss": 1.1738,
	"step": 30300
	},
	{
	"epoch": 12.058706862356209,
	"grad_norm": 3.213641405105591,
	"learning_rate": 1.9854224514081713e-05,
	"loss": 1.1143,
	"step": 30400
	},
	{
	"epoch": 12.098373661245537,
	"grad_norm": 4.7294511795043945,
	"learning_rate": 1.9755057516858392e-05,
	"loss": 1.142,
	"step": 30500
	},
	{
	"epoch": 12.138040460134867,
	"grad_norm": 4.42033052444458,
	"learning_rate": 1.9655890519635067e-05,
	"loss": 1.1422,
	"step": 30600
	},
	{
	"epoch": 12.177707259024197,
	"grad_norm": 4.57334041595459,
	"learning_rate": 1.9556723522411743e-05,
	"loss": 1.1148,
	"step": 30700
	},
	{
	"epoch": 12.217374057913526,
	"grad_norm": 4.560477256774902,
	"learning_rate": 1.945755652518842e-05,
	"loss": 1.1742,
	"step": 30800
	},
	{
	"epoch": 12.257040856802856,
	"grad_norm": 3.4284374713897705,
	"learning_rate": 1.9358389527965093e-05,
	"loss": 1.1115,
	"step": 30900
	},
	{
	"epoch": 12.296707655692186,
	"grad_norm": 3.185410499572754,
	"learning_rate": 1.925922253074177e-05,
	"loss": 1.1542,
	"step": 31000
	},
	{
	"epoch": 12.336374454581515,
	"grad_norm": 3.674408435821533,
	"learning_rate": 1.9160055533518444e-05,
	"loss": 1.1787,
	"step": 31100
	},
	{
	"epoch": 12.376041253470845,
	"grad_norm": 3.7118613719940186,
	"learning_rate": 1.9060888536295122e-05,
	"loss": 1.1716,
	"step": 31200
	},
	{
	"epoch": 12.415708052360175,
	"grad_norm": 4.5831756591796875,
	"learning_rate": 1.8961721539071797e-05,
	"loss": 1.1372,
	"step": 31300
	},
	{
	"epoch": 12.455374851249504,
	"grad_norm": 7.098066806793213,
	"learning_rate": 1.8862554541848473e-05,
	"loss": 1.1361,
	"step": 31400
	},
	{
	"epoch": 12.495041650138834,
	"grad_norm": 3.451817512512207,
	"learning_rate": 1.8763387544625148e-05,
	"loss": 1.1458,
	"step": 31500
	},
	{
	"epoch": 12.534708449028164,
	"grad_norm": 2.6188955307006836,
	"learning_rate": 1.8664220547401827e-05,
	"loss": 1.0782,
	"step": 31600
	},
	{
	"epoch": 12.574375247917493,
	"grad_norm": 3.3588056564331055,
	"learning_rate": 1.8565053550178502e-05,
	"loss": 1.1593,
	"step": 31700
	},
	{
	"epoch": 12.614042046806823,
	"grad_norm": 5.186858654022217,
	"learning_rate": 1.8465886552955177e-05,
	"loss": 1.137,
	"step": 31800
	},
	{
	"epoch": 12.653708845696153,
	"grad_norm": 4.593524932861328,
	"learning_rate": 1.8366719555731852e-05,
	"loss": 1.1715,
	"step": 31900
	},
	{
	"epoch": 12.693375644585482,
	"grad_norm": 4.951717853546143,
	"learning_rate": 1.826755255850853e-05,
	"loss": 1.0765,
	"step": 32000
	},
	{
	"epoch": 12.733042443474812,
	"grad_norm": 6.989925384521484,
	"learning_rate": 1.8168385561285206e-05,
	"loss": 1.1062,
	"step": 32100
	},
	{
	"epoch": 12.772709242364142,
	"grad_norm": 3.6436753273010254,
	"learning_rate": 1.806921856406188e-05,
	"loss": 1.1574,
	"step": 32200
	},
	{
	"epoch": 12.81237604125347,
	"grad_norm": 4.659509181976318,
	"learning_rate": 1.7970051566838557e-05,
	"loss": 1.1257,
	"step": 32300
	},
	{
	"epoch": 12.8520428401428,
	"grad_norm": 2.914414882659912,
	"learning_rate": 1.7870884569615232e-05,
	"loss": 1.1131,
	"step": 32400
	},
	{
	"epoch": 12.89170963903213,
	"grad_norm": 3.9510741233825684,
	"learning_rate": 1.7771717572391907e-05,
	"loss": 1.1144,
	"step": 32500
	},
	{
	"epoch": 12.93137643792146,
	"grad_norm": 4.820216178894043,
	"learning_rate": 1.7672550575168582e-05,
	"loss": 1.1628,
	"step": 32600
	},
	{
	"epoch": 12.97104323681079,
	"grad_norm": 4.699492931365967,
	"learning_rate": 1.757338357794526e-05,
	"loss": 1.1587,
	"step": 32700
	},
	{
	"epoch": 13.0,
	"eval_loss": 1.081364631652832,
	"eval_runtime": 31.6894,
	"eval_samples_per_second": 47.902,
	"eval_steps_per_second": 5.996,
	"step": 32773
	},
	{
	"epoch": 13.01071003570012,
	"grad_norm": 3.7646989822387695,
	"learning_rate": 1.7474216580721936e-05,
	"loss": 1.1084,
	"step": 32800
	},
	{
	"epoch": 13.050376834589448,
	"grad_norm": 4.074378967285156,
	"learning_rate": 1.737504958349861e-05,
	"loss": 1.1007,
	"step": 32900
	},
	{
	"epoch": 13.090043633478778,
	"grad_norm": 4.0714521408081055,
	"learning_rate": 1.7275882586275287e-05,
	"loss": 1.1298,
	"step": 33000
	},
	{
	"epoch": 13.129710432368109,
	"grad_norm": 3.7556121349334717,
	"learning_rate": 1.7176715589051965e-05,
	"loss": 1.1407,
	"step": 33100
	},
	{
	"epoch": 13.169377231257437,
	"grad_norm": 3.3032736778259277,
	"learning_rate": 1.707754859182864e-05,
	"loss": 1.1437,
	"step": 33200
	},
	{
	"epoch": 13.209044030146767,
	"grad_norm": 4.428369522094727,
	"learning_rate": 1.6978381594605316e-05,
	"loss": 1.0659,
	"step": 33300
	},
	{
	"epoch": 13.248710829036098,
	"grad_norm": 3.486649990081787,
	"learning_rate": 1.687921459738199e-05,
	"loss": 1.0744,
	"step": 33400
	},
	{
	"epoch": 13.288377627925426,
	"grad_norm": 4.116626262664795,
	"learning_rate": 1.678004760015867e-05,
	"loss": 1.0933,
	"step": 33500
	},
	{
	"epoch": 13.328044426814756,
	"grad_norm": 5.455049991607666,
	"learning_rate": 1.6680880602935345e-05,
	"loss": 1.0387,
	"step": 33600
	},
	{
	"epoch": 13.367711225704086,
	"grad_norm": 4.454029083251953,
	"learning_rate": 1.658171360571202e-05,
	"loss": 1.0488,
	"step": 33700
	},
	{
	"epoch": 13.407378024593415,
	"grad_norm": 3.605964422225952,
	"learning_rate": 1.6482546608488695e-05,
	"loss": 1.1565,
	"step": 33800
	},
	{
	"epoch": 13.447044823482745,
	"grad_norm": 3.3428781032562256,
	"learning_rate": 1.638337961126537e-05,
	"loss": 1.1255,
	"step": 33900
	},
	{
	"epoch": 13.486711622372075,
	"grad_norm": 5.9332709312438965,
	"learning_rate": 1.6284212614042046e-05,
	"loss": 1.0814,
	"step": 34000
	},
	{
	"epoch": 13.526378421261404,
	"grad_norm": 3.3487417697906494,
	"learning_rate": 1.618504561681872e-05,
	"loss": 1.1105,
	"step": 34100
	},
	{
	"epoch": 13.566045220150734,
	"grad_norm": 3.4275264739990234,
	"learning_rate": 1.60858786195954e-05,
	"loss": 1.0292,
	"step": 34200
	},
	{
	"epoch": 13.605712019040064,
	"grad_norm": 5.602040767669678,
	"learning_rate": 1.5986711622372075e-05,
	"loss": 1.0629,
	"step": 34300
	},
	{
	"epoch": 13.645378817929393,
	"grad_norm": 2.6752493381500244,
	"learning_rate": 1.588754462514875e-05,
	"loss": 1.0761,
	"step": 34400
	},
	{
	"epoch": 13.685045616818723,
	"grad_norm": 3.2931220531463623,
	"learning_rate": 1.5788377627925426e-05,
	"loss": 0.9885,
	"step": 34500
	},
	{
	"epoch": 13.724712415708053,
	"grad_norm": 8.223132133483887,
	"learning_rate": 1.5689210630702104e-05,
	"loss": 1.1423,
	"step": 34600
	},
	{
	"epoch": 13.764379214597382,
	"grad_norm": 4.580158233642578,
	"learning_rate": 1.559004363347878e-05,
	"loss": 1.0879,
	"step": 34700
	},
	{
	"epoch": 13.804046013486712,
	"grad_norm": 3.891131639480591,
	"learning_rate": 1.5490876636255455e-05,
	"loss": 1.0819,
	"step": 34800
	},
	{
	"epoch": 13.843712812376042,
	"grad_norm": 5.4781084060668945,
	"learning_rate": 1.539170963903213e-05,
	"loss": 1.1007,
	"step": 34900
	},
	{
	"epoch": 13.88337961126537,
	"grad_norm": 5.0408220291137695,
	"learning_rate": 1.529254264180881e-05,
	"loss": 1.1124,
	"step": 35000
	},
	{
	"epoch": 13.9230464101547,
	"grad_norm": 4.6583452224731445,
	"learning_rate": 1.5193375644585484e-05,
	"loss": 1.1607,
	"step": 35100
	},
	{
	"epoch": 13.962713209044031,
	"grad_norm": 5.026098251342773,
	"learning_rate": 1.5094208647362159e-05,
	"loss": 1.0744,
	"step": 35200
	},
	{
	"epoch": 14.0,
	"eval_loss": 1.068395733833313,
	"eval_runtime": 31.6512,
	"eval_samples_per_second": 47.96,
	"eval_steps_per_second": 6.003,
	"step": 35294
	},
	{
	"epoch": 14.00238000793336,
	"grad_norm": 2.9335262775421143,
	"learning_rate": 1.4995041650138836e-05,
	"loss": 1.0841,
	"step": 35300
	},
	{
	"epoch": 14.04204680682269,
	"grad_norm": 4.208588123321533,
	"learning_rate": 1.489587465291551e-05,
	"loss": 1.0901,
	"step": 35400
	},
	{
	"epoch": 14.08171360571202,
	"grad_norm": 5.132387638092041,
	"learning_rate": 1.4796707655692185e-05,
	"loss": 1.1201,
	"step": 35500
	},
	{
	"epoch": 14.121380404601348,
	"grad_norm": 3.9229278564453125,
	"learning_rate": 1.4697540658468862e-05,
	"loss": 1.0782,
	"step": 35600
	},
	{
	"epoch": 14.161047203490678,
	"grad_norm": 6.1097259521484375,
	"learning_rate": 1.4598373661245537e-05,
	"loss": 1.1051,
	"step": 35700
	},
	{
	"epoch": 14.200714002380009,
	"grad_norm": 4.1445417404174805,
	"learning_rate": 1.4499206664022214e-05,
	"loss": 1.1283,
	"step": 35800
	},
	{
	"epoch": 14.240380801269337,
	"grad_norm": 3.5986008644104004,
	"learning_rate": 1.440003966679889e-05,
	"loss": 1.0453,
	"step": 35900
	},
	{
	"epoch": 14.280047600158667,
	"grad_norm": 3.8175106048583984,
	"learning_rate": 1.4300872669575566e-05,
	"loss": 1.0585,
	"step": 36000
	},
	{
	"epoch": 14.319714399047998,
	"grad_norm": 2.821758985519409,
	"learning_rate": 1.4201705672352241e-05,
	"loss": 1.06,
	"step": 36100
	},
	{
	"epoch": 14.359381197937326,
	"grad_norm": 3.65065860748291,
	"learning_rate": 1.4102538675128918e-05,
	"loss": 1.1064,
	"step": 36200
	},
	{
	"epoch": 14.399047996826656,
	"grad_norm": 5.7176713943481445,
	"learning_rate": 1.4003371677905594e-05,
	"loss": 1.008,
	"step": 36300
	},
	{
	"epoch": 14.438714795715986,
	"grad_norm": 5.075132846832275,
	"learning_rate": 1.390420468068227e-05,
	"loss": 1.114,
	"step": 36400
	},
	{
	"epoch": 14.478381594605315,
	"grad_norm": 5.210816860198975,
	"learning_rate": 1.3805037683458946e-05,
	"loss": 1.0944,
	"step": 36500
	},
	{
	"epoch": 14.518048393494645,
	"grad_norm": 4.964089870452881,
	"learning_rate": 1.3705870686235623e-05,
	"loss": 1.0904,
	"step": 36600
	},
	{
	"epoch": 14.557715192383975,
	"grad_norm": 3.131520986557007,
	"learning_rate": 1.3606703689012298e-05,
	"loss": 1.063,
	"step": 36700
	},
	{
	"epoch": 14.597381991273304,
	"grad_norm": 6.203433036804199,
	"learning_rate": 1.3507536691788975e-05,
	"loss": 1.0885,
	"step": 36800
	},
	{
	"epoch": 14.637048790162634,
	"grad_norm": 2.8487484455108643,
	"learning_rate": 1.3408369694565648e-05,
	"loss": 1.0785,
	"step": 36900
	},
	{
	"epoch": 14.676715589051964,
	"grad_norm": 3.4533579349517822,
	"learning_rate": 1.3309202697342324e-05,
	"loss": 1.0956,
	"step": 37000
	},
	{
	"epoch": 14.716382387941293,
	"grad_norm": 5.409042835235596,
	"learning_rate": 1.3210035700119e-05,
	"loss": 1.0635,
	"step": 37100
	},
	{
	"epoch": 14.756049186830623,
	"grad_norm": 4.514674186706543,
	"learning_rate": 1.3110868702895676e-05,
	"loss": 1.0829,
	"step": 37200
	},
	{
	"epoch": 14.795715985719953,
	"grad_norm": 4.7005791664123535,
	"learning_rate": 1.3011701705672353e-05,
	"loss": 1.0003,
	"step": 37300
	},
	{
	"epoch": 14.835382784609282,
	"grad_norm": 4.253646373748779,
	"learning_rate": 1.2912534708449028e-05,
	"loss": 1.0562,
	"step": 37400
	},
	{
	"epoch": 14.875049583498612,
	"grad_norm": 4.305023193359375,
	"learning_rate": 1.2813367711225705e-05,
	"loss": 1.0712,
	"step": 37500
	},
	{
	"epoch": 14.914716382387942,
	"grad_norm": 4.189399719238281,
	"learning_rate": 1.271420071400238e-05,
	"loss": 1.0761,
	"step": 37600
	},
	{
	"epoch": 14.95438318127727,
	"grad_norm": 3.2512216567993164,
	"learning_rate": 1.2615033716779057e-05,
	"loss": 1.0336,
	"step": 37700
	},
	{
	"epoch": 14.9940499801666,
	"grad_norm": 3.3554651737213135,
	"learning_rate": 1.2515866719555732e-05,
	"loss": 1.0636,
	"step": 37800
	},
	{
	"epoch": 15.0,
	"eval_loss": 1.051405906677246,
	"eval_runtime": 31.6428,
	"eval_samples_per_second": 47.973,
	"eval_steps_per_second": 6.005,
	"step": 37815
	},
	{
	"epoch": 15.033716779055931,
	"grad_norm": 3.6472902297973633,
	"learning_rate": 1.241669972233241e-05,
	"loss": 1.0596,
	"step": 37900
	},
	{
	"epoch": 15.07338357794526,
	"grad_norm": 5.338723659515381,
	"learning_rate": 1.2317532725109085e-05,
	"loss": 1.0462,
	"step": 38000
	},
	{
	"epoch": 15.11305037683459,
	"grad_norm": 4.401419639587402,
	"learning_rate": 1.221836572788576e-05,
	"loss": 1.0869,
	"step": 38100
	},
	{
	"epoch": 15.15271717572392,
	"grad_norm": 9.426093101501465,
	"learning_rate": 1.2119198730662435e-05,
	"loss": 1.0198,
	"step": 38200
	},
	{
	"epoch": 15.192383974613248,
	"grad_norm": 3.7169394493103027,
	"learning_rate": 1.2020031733439112e-05,
	"loss": 1.1285,
	"step": 38300
	},
	{
	"epoch": 15.232050773502579,
	"grad_norm": 3.466498851776123,
	"learning_rate": 1.1920864736215787e-05,
	"loss": 1.0125,
	"step": 38400
	},
	{
	"epoch": 15.271717572391909,
	"grad_norm": 2.7933382987976074,
	"learning_rate": 1.1821697738992464e-05,
	"loss": 1.0545,
	"step": 38500
	},
	{
	"epoch": 15.311384371281237,
	"grad_norm": 2.926934003829956,
	"learning_rate": 1.172253074176914e-05,
	"loss": 1.1035,
	"step": 38600
	},
	{
	"epoch": 15.351051170170567,
	"grad_norm": 3.2757022380828857,
	"learning_rate": 1.1623363744545816e-05,
	"loss": 1.0479,
	"step": 38700
	},
	{
	"epoch": 15.390717969059898,
	"grad_norm": 4.160761833190918,
	"learning_rate": 1.1524196747322492e-05,
	"loss": 1.064,
	"step": 38800
	},
	{
	"epoch": 15.430384767949226,
	"grad_norm": 3.412480592727661,
	"learning_rate": 1.1425029750099167e-05,
	"loss": 0.9485,
	"step": 38900
	},
	{
	"epoch": 15.470051566838556,
	"grad_norm": 3.1907808780670166,
	"learning_rate": 1.1325862752875844e-05,
	"loss": 1.0605,
	"step": 39000
	},
	{
	"epoch": 15.509718365727887,
	"grad_norm": 4.184901714324951,
	"learning_rate": 1.1226695755652519e-05,
	"loss": 1.0551,
	"step": 39100
	},
	{
	"epoch": 15.549385164617215,
	"grad_norm": 4.784205436706543,
	"learning_rate": 1.1127528758429196e-05,
	"loss": 0.9941,
	"step": 39200
	},
	{
	"epoch": 15.589051963506545,
	"grad_norm": 4.00923490524292,
	"learning_rate": 1.1028361761205871e-05,
	"loss": 1.076,
	"step": 39300
	},
	{
	"epoch": 15.628718762395875,
	"grad_norm": 4.559725284576416,
	"learning_rate": 1.0929194763982548e-05,
	"loss": 0.9979,
	"step": 39400
	},
	{
	"epoch": 15.668385561285204,
	"grad_norm": 3.8985109329223633,
	"learning_rate": 1.0830027766759223e-05,
	"loss": 1.0397,
	"step": 39500
	},
	{
	"epoch": 15.708052360174534,
	"grad_norm": 3.3521323204040527,
	"learning_rate": 1.0730860769535899e-05,
	"loss": 1.006,
	"step": 39600
	},
	{
	"epoch": 15.747719159063864,
	"grad_norm": 3.2745351791381836,
	"learning_rate": 1.0631693772312574e-05,
	"loss": 1.0642,
	"step": 39700
	},
	{
	"epoch": 15.787385957953193,
	"grad_norm": 3.955242156982422,
	"learning_rate": 1.053252677508925e-05,
	"loss": 1.0455,
	"step": 39800
	},
	{
	"epoch": 15.827052756842523,
	"grad_norm": 3.2223598957061768,
	"learning_rate": 1.0433359777865926e-05,
	"loss": 1.0675,
	"step": 39900
	},
	{
	"epoch": 15.866719555731853,
	"grad_norm": 4.809605121612549,
	"learning_rate": 1.0334192780642603e-05,
	"loss": 1.0992,
	"step": 40000
	},
	{
	"epoch": 15.906386354621182,
	"grad_norm": 2.6435019969940186,
	"learning_rate": 1.0235025783419278e-05,
	"loss": 0.9905,
	"step": 40100
	},
	{
	"epoch": 15.946053153510512,
	"grad_norm": 6.68290376663208,
	"learning_rate": 1.0135858786195955e-05,
	"loss": 1.0951,
	"step": 40200
	},
	{
	"epoch": 15.985719952399842,
	"grad_norm": 2.6426591873168945,
	"learning_rate": 1.003669178897263e-05,
	"loss": 1.073,
	"step": 40300
	},
	{
	"epoch": 16.0,
	"eval_loss": 1.039953351020813,
	"eval_runtime": 31.6995,
	"eval_samples_per_second": 47.887,
	"eval_steps_per_second": 5.994,
	"step": 40336
	},
	{
	"epoch": 16.025386751289172,
	"grad_norm": 3.456146001815796,
	"learning_rate": 9.937524791749306e-06,
	"loss": 1.0191,
	"step": 40400
	},
	{
	"epoch": 16.0650535501785,
	"grad_norm": 5.939918518066406,
	"learning_rate": 9.838357794525983e-06,
	"loss": 1.0433,
	"step": 40500
	},
	{
	"epoch": 16.10472034906783,
	"grad_norm": 3.538282871246338,
	"learning_rate": 9.739190797302658e-06,
	"loss": 1.0295,
	"step": 40600
	},
	{
	"epoch": 16.14438714795716,
	"grad_norm": 4.2307844161987305,
	"learning_rate": 9.640023800079335e-06,
	"loss": 1.0371,
	"step": 40700
	},
	{
	"epoch": 16.18405394684649,
	"grad_norm": 4.40711784362793,
	"learning_rate": 9.54085680285601e-06,
	"loss": 1.0236,
	"step": 40800
	},
	{
	"epoch": 16.223720745735818,
	"grad_norm": 3.8492507934570312,
	"learning_rate": 9.441689805632687e-06,
	"loss": 1.0628,
	"step": 40900
	},
	{
	"epoch": 16.26338754462515,
	"grad_norm": 4.397724628448486,
	"learning_rate": 9.342522808409362e-06,
	"loss": 1.0072,
	"step": 41000
	},
	{
	"epoch": 16.30305434351448,
	"grad_norm": 3.3145904541015625,
	"learning_rate": 9.243355811186037e-06,
	"loss": 1.045,
	"step": 41100
	},
	{
	"epoch": 16.342721142403807,
	"grad_norm": 5.359413146972656,
	"learning_rate": 9.144188813962713e-06,
	"loss": 1.0299,
	"step": 41200
	},
	{
	"epoch": 16.38238794129314,
	"grad_norm": 3.4849679470062256,
	"learning_rate": 9.04502181673939e-06,
	"loss": 1.012,
	"step": 41300
	},
	{
	"epoch": 16.422054740182467,
	"grad_norm": 2.9378600120544434,
	"learning_rate": 8.945854819516065e-06,
	"loss": 1.0269,
	"step": 41400
	},
	{
	"epoch": 16.461721539071796,
	"grad_norm": 3.024475574493408,
	"learning_rate": 8.846687822292742e-06,
	"loss": 1.0373,
	"step": 41500
	},
	{
	"epoch": 16.501388337961128,
	"grad_norm": 3.2381701469421387,
	"learning_rate": 8.747520825069417e-06,
	"loss": 0.9888,
	"step": 41600
	},
	{
	"epoch": 16.541055136850456,
	"grad_norm": 3.816202163696289,
	"learning_rate": 8.648353827846094e-06,
	"loss": 0.9384,
	"step": 41700
	},
	{
	"epoch": 16.580721935739785,
	"grad_norm": 4.290541648864746,
	"learning_rate": 8.54918683062277e-06,
	"loss": 1.0653,
	"step": 41800
	},
	{
	"epoch": 16.620388734629117,
	"grad_norm": 4.712522029876709,
	"learning_rate": 8.450019833399444e-06,
	"loss": 0.9951,
	"step": 41900
	},
	{
	"epoch": 16.660055533518445,
	"grad_norm": 3.3500611782073975,
	"learning_rate": 8.350852836176121e-06,
	"loss": 1.0356,
	"step": 42000
	},
	{
	"epoch": 16.699722332407774,
	"grad_norm": 3.6570308208465576,
	"learning_rate": 8.251685838952797e-06,
	"loss": 1.0205,
	"step": 42100
	},
	{
	"epoch": 16.739389131297106,
	"grad_norm": 3.4734184741973877,
	"learning_rate": 8.152518841729474e-06,
	"loss": 1.037,
	"step": 42200
	},
	{
	"epoch": 16.779055930186434,
	"grad_norm": 3.528817653656006,
	"learning_rate": 8.053351844506149e-06,
	"loss": 0.9402,
	"step": 42300
	},
	{
	"epoch": 16.818722729075763,
	"grad_norm": 4.3084025382995605,
	"learning_rate": 7.954184847282826e-06,
	"loss": 1.0702,
	"step": 42400
	},
	{
	"epoch": 16.858389527965095,
	"grad_norm": 3.520242214202881,
	"learning_rate": 7.855017850059501e-06,
	"loss": 1.0474,
	"step": 42500
	},
	{
	"epoch": 16.898056326854423,
	"grad_norm": 4.44198751449585,
	"learning_rate": 7.755850852836176e-06,
	"loss": 1.0506,
	"step": 42600
	},
	{
	"epoch": 16.93772312574375,
	"grad_norm": 2.8113813400268555,
	"learning_rate": 7.656683855612852e-06,
	"loss": 1.0167,
	"step": 42700
	},
	{
	"epoch": 16.977389924633083,
	"grad_norm": 3.3131535053253174,
	"learning_rate": 7.5575168583895284e-06,
	"loss": 1.0077,
	"step": 42800
	},
	{
	"epoch": 17.0,
	"eval_loss": 1.0288244485855103,
	"eval_runtime": 31.6731,
	"eval_samples_per_second": 47.927,
	"eval_steps_per_second": 5.999,
	"step": 42857
	},
	{
	"epoch": 17.017056723522412,
	"grad_norm": 5.444199562072754,
	"learning_rate": 7.4583498611662045e-06,
	"loss": 0.9996,
	"step": 42900
	},
	{
	"epoch": 17.05672352241174,
	"grad_norm": 4.1272783279418945,
	"learning_rate": 7.359182863942881e-06,
	"loss": 1.0256,
	"step": 43000
	},
	{
	"epoch": 17.096390321301072,
	"grad_norm": 4.819570064544678,
	"learning_rate": 7.260015866719557e-06,
	"loss": 1.0325,
	"step": 43100
	},
	{
	"epoch": 17.1360571201904,
	"grad_norm": 4.795453071594238,
	"learning_rate": 7.160848869496233e-06,
	"loss": 0.9845,
	"step": 43200
	},
	{
	"epoch": 17.17572391907973,
	"grad_norm": 5.2741827964782715,
	"learning_rate": 7.061681872272907e-06,
	"loss": 1.0406,
	"step": 43300
	},
	{
	"epoch": 17.21539071796906,
	"grad_norm": 5.457202911376953,
	"learning_rate": 6.962514875049583e-06,
	"loss": 1.0704,
	"step": 43400
	},
	{
	"epoch": 17.25505751685839,
	"grad_norm": 6.256078243255615,
	"learning_rate": 6.863347877826259e-06,
	"loss": 1.0182,
	"step": 43500
	},
	{
	"epoch": 17.294724315747718,
	"grad_norm": 3.9407060146331787,
	"learning_rate": 6.7641808806029355e-06,
	"loss": 0.9889,
	"step": 43600
	},
	{
	"epoch": 17.33439111463705,
	"grad_norm": 3.250436782836914,
	"learning_rate": 6.6650138833796116e-06,
	"loss": 1.0079,
	"step": 43700
	},
	{
	"epoch": 17.37405791352638,
	"grad_norm": 2.7779972553253174,
	"learning_rate": 6.565846886156288e-06,
	"loss": 1.0134,
	"step": 43800
	},
	{
	"epoch": 17.413724712415707,
	"grad_norm": 4.296668529510498,
	"learning_rate": 6.466679888932964e-06,
	"loss": 0.9585,
	"step": 43900
	},
	{
	"epoch": 17.45339151130504,
	"grad_norm": 3.737541437149048,
	"learning_rate": 6.36751289170964e-06,
	"loss": 1.0307,
	"step": 44000
	},
	{
	"epoch": 17.493058310194368,
	"grad_norm": 5.0776848793029785,
	"learning_rate": 6.268345894486314e-06,
	"loss": 1.0395,
	"step": 44100
	},
	{
	"epoch": 17.532725109083696,
	"grad_norm": 6.334095001220703,
	"learning_rate": 6.169178897262991e-06,
	"loss": 0.9772,
	"step": 44200
	},
	{
	"epoch": 17.572391907973028,
	"grad_norm": 5.443525314331055,
	"learning_rate": 6.070011900039667e-06,
	"loss": 0.9264,
	"step": 44300
	},
	{
	"epoch": 17.612058706862356,
	"grad_norm": 4.61970853805542,
	"learning_rate": 5.970844902816343e-06,
	"loss": 1.0307,
	"step": 44400
	},
	{
	"epoch": 17.651725505751685,
	"grad_norm": 3.089509963989258,
	"learning_rate": 5.8716779055930195e-06,
	"loss": 0.9633,
	"step": 44500
	},
	{
	"epoch": 17.691392304641017,
	"grad_norm": 4.635293006896973,
	"learning_rate": 5.7725109083696955e-06,
	"loss": 1.0537,
	"step": 44600
	},
	{
	"epoch": 17.731059103530345,
	"grad_norm": 3.052475929260254,
	"learning_rate": 5.673343911146371e-06,
	"loss": 0.9983,
	"step": 44700
	},
	{
	"epoch": 17.770725902419674,
	"grad_norm": 3.9765052795410156,
	"learning_rate": 5.574176913923047e-06,
	"loss": 1.0687,
	"step": 44800
	},
	{
	"epoch": 17.810392701309006,
	"grad_norm": 4.3488030433654785,
	"learning_rate": 5.475009916699723e-06,
	"loss": 1.012,
	"step": 44900
	},
	{
	"epoch": 17.850059500198334,
	"grad_norm": 3.6032917499542236,
	"learning_rate": 5.375842919476398e-06,
	"loss": 0.9933,
	"step": 45000
	},
	{
	"epoch": 17.889726299087663,
	"grad_norm": 3.2621772289276123,
	"learning_rate": 5.276675922253074e-06,
	"loss": 0.9657,
	"step": 45100
	},
	{
	"epoch": 17.929393097976995,
	"grad_norm": 3.9976959228515625,
	"learning_rate": 5.17750892502975e-06,
	"loss": 0.9799,
	"step": 45200
	},
	{
	"epoch": 17.969059896866323,
	"grad_norm": 4.725791931152344,
	"learning_rate": 5.0783419278064265e-06,
	"loss": 1.043,
	"step": 45300
	},
	{
	"epoch": 18.0,
	"eval_loss": 1.0184741020202637,
	"eval_runtime": 31.6571,
	"eval_samples_per_second": 47.951,
	"eval_steps_per_second": 6.002,
	"step": 45378
	},
	{
	"epoch": 18.00872669575565,
	"grad_norm": 3.418588876724243,
	"learning_rate": 4.979174930583102e-06,
	"loss": 0.9965,
	"step": 45400
	},
	{
	"epoch": 18.048393494644984,
	"grad_norm": 4.835160255432129,
	"learning_rate": 4.880007933359778e-06,
	"loss": 0.9789,
	"step": 45500
	},
	{
	"epoch": 18.088060293534312,
	"grad_norm": 4.275815486907959,
	"learning_rate": 4.780840936136454e-06,
	"loss": 1.0233,
	"step": 45600
	},
	{
	"epoch": 18.12772709242364,
	"grad_norm": 4.429009914398193,
	"learning_rate": 4.68167393891313e-06,
	"loss": 1.0487,
	"step": 45700
	},
	{
	"epoch": 18.167393891312972,
	"grad_norm": 4.390066146850586,
	"learning_rate": 4.582506941689805e-06,
	"loss": 0.968,
	"step": 45800
	},
	{
	"epoch": 18.2070606902023,
	"grad_norm": 3.265092372894287,
	"learning_rate": 4.483339944466481e-06,
	"loss": 1.0171,
	"step": 45900
	},
	{
	"epoch": 18.24672748909163,
	"grad_norm": 4.843317031860352,
	"learning_rate": 4.3841729472431574e-06,
	"loss": 1.0204,
	"step": 46000
	},
	{
	"epoch": 18.28639428798096,
	"grad_norm": 4.457988262176514,
	"learning_rate": 4.2850059500198335e-06,
	"loss": 1.0246,
	"step": 46100
	},
	{
	"epoch": 18.32606108687029,
	"grad_norm": 3.9527127742767334,
	"learning_rate": 4.18583895279651e-06,
	"loss": 0.9241,
	"step": 46200
	},
	{
	"epoch": 18.36572788575962,
	"grad_norm": 3.7694692611694336,
	"learning_rate": 4.086671955573186e-06,
	"loss": 1.0318,
	"step": 46300
	},
	{
	"epoch": 18.40539468464895,
	"grad_norm": 5.390737533569336,
	"learning_rate": 3.987504958349862e-06,
	"loss": 0.9938,
	"step": 46400
	},
	{
	"epoch": 18.44506148353828,
	"grad_norm": 3.8084776401519775,
	"learning_rate": 3.888337961126538e-06,
	"loss": 0.9652,
	"step": 46500
	},
	{
	"epoch": 18.484728282427607,
	"grad_norm": 3.5767834186553955,
	"learning_rate": 3.789170963903213e-06,
	"loss": 0.9582,
	"step": 46600
	},
	{
	"epoch": 18.52439508131694,
	"grad_norm": 3.4777605533599854,
	"learning_rate": 3.6900039666798892e-06,
	"loss": 0.9981,
	"step": 46700
	},
	{
	"epoch": 18.564061880206268,
	"grad_norm": 4.1490092277526855,
	"learning_rate": 3.5908369694565653e-06,
	"loss": 0.9607,
	"step": 46800
	},
	{
	"epoch": 18.603728679095596,
	"grad_norm": 4.089176654815674,
	"learning_rate": 3.4916699722332406e-06,
	"loss": 1.0168,
	"step": 46900
	},
	{
	"epoch": 18.643395477984928,
	"grad_norm": 3.9602725505828857,
	"learning_rate": 3.3925029750099167e-06,
	"loss": 0.9785,
	"step": 47000
	},
	{
	"epoch": 18.683062276874256,
	"grad_norm": 4.800217628479004,
	"learning_rate": 3.2933359777865927e-06,
	"loss": 1.0514,
	"step": 47100
	},
	{
	"epoch": 18.722729075763585,
	"grad_norm": 4.848387718200684,
	"learning_rate": 3.194168980563269e-06,
	"loss": 0.9798,
	"step": 47200
	},
	{
	"epoch": 18.762395874652917,
	"grad_norm": 3.5444610118865967,
	"learning_rate": 3.0950019833399445e-06,
	"loss": 1.0602,
	"step": 47300
	},
	{
	"epoch": 18.802062673542245,
	"grad_norm": 3.4162533283233643,
	"learning_rate": 2.9958349861166206e-06,
	"loss": 0.9881,
	"step": 47400
	},
	{
	"epoch": 18.841729472431574,
	"grad_norm": 4.719314098358154,
	"learning_rate": 2.8966679888932967e-06,
	"loss": 0.9503,
	"step": 47500
	},
	{
	"epoch": 18.881396271320906,
	"grad_norm": 5.332608222961426,
	"learning_rate": 2.7975009916699724e-06,
	"loss": 1.0245,
	"step": 47600
	},
	{
	"epoch": 18.921063070210234,
	"grad_norm": 5.230047702789307,
	"learning_rate": 2.6983339944466484e-06,
	"loss": 0.9947,
	"step": 47700
	},
	{
	"epoch": 18.960729869099563,
	"grad_norm": 3.1582813262939453,
	"learning_rate": 2.599166997223324e-06,
	"loss": 1.0198,
	"step": 47800
	},
	{
	"epoch": 19.0,
	"eval_loss": 1.017343521118164,
	"eval_runtime": 31.7039,
	"eval_samples_per_second": 47.881,
	"eval_steps_per_second": 5.993,
	"step": 47899
	},
	{
	"epoch": 19.000396667988895,
	"grad_norm": 5.45066499710083,
	"learning_rate": 2.5e-06,
	"loss": 0.9753,
	"step": 47900
	},
	{
	"epoch": 19.040063466878223,
	"grad_norm": 3.2004072666168213,
	"learning_rate": 2.400833002776676e-06,
	"loss": 0.946,
	"step": 48000
	},
	{
	"epoch": 19.07973026576755,
	"grad_norm": 3.971540689468384,
	"learning_rate": 2.301666005553352e-06,
	"loss": 0.9783,
	"step": 48100
	},
	{
	"epoch": 19.119397064656884,
	"grad_norm": 4.348784923553467,
	"learning_rate": 2.202499008330028e-06,
	"loss": 0.952,
	"step": 48200
	},
	{
	"epoch": 19.159063863546212,
	"grad_norm": 3.7044036388397217,
	"learning_rate": 2.1033320111067037e-06,
	"loss": 1.0662,
	"step": 48300
	},
	{
	"epoch": 19.19873066243554,
	"grad_norm": 2.662105083465576,
	"learning_rate": 2.00416501388338e-06,
	"loss": 0.9647,
	"step": 48400
	},
	{
	"epoch": 19.238397461324872,
	"grad_norm": 4.103559494018555,
	"learning_rate": 1.9049980166600555e-06,
	"loss": 0.9142,
	"step": 48500
	},
	{
	"epoch": 19.2780642602142,
	"grad_norm": 2.8791961669921875,
	"learning_rate": 1.8058310194367316e-06,
	"loss": 1.0167,
	"step": 48600
	},
	{
	"epoch": 19.31773105910353,
	"grad_norm": 2.689680576324463,
	"learning_rate": 1.7066640222134072e-06,
	"loss": 1.0012,
	"step": 48700
	},
	{
	"epoch": 19.35739785799286,
	"grad_norm": 3.3067831993103027,
	"learning_rate": 1.6074970249900833e-06,
	"loss": 0.967,
	"step": 48800
	},
	{
	"epoch": 19.39706465688219,
	"grad_norm": 3.9777708053588867,
	"learning_rate": 1.5083300277667594e-06,
	"loss": 0.9081,
	"step": 48900
	},
	{
	"epoch": 19.43673145577152,
	"grad_norm": 3.582973003387451,
	"learning_rate": 1.4091630305434353e-06,
	"loss": 1.0104,
	"step": 49000
	},
	{
	"epoch": 19.47639825466085,
	"grad_norm": 5.202731132507324,
	"learning_rate": 1.309996033320111e-06,
	"loss": 0.9648,
	"step": 49100
	},
	{
	"epoch": 19.51606505355018,
	"grad_norm": 3.264211893081665,
	"learning_rate": 1.210829036096787e-06,
	"loss": 0.9599,
	"step": 49200
	},
	{
	"epoch": 19.555731852439507,
	"grad_norm": 4.432053565979004,
	"learning_rate": 1.111662038873463e-06,
	"loss": 0.9935,
	"step": 49300
	},
	{
	"epoch": 19.59539865132884,
	"grad_norm": 3.386671781539917,
	"learning_rate": 1.0124950416501388e-06,
	"loss": 1.002,
	"step": 49400
	},
	{
	"epoch": 19.635065450218168,
	"grad_norm": 4.273075103759766,
	"learning_rate": 9.133280444268148e-07,
	"loss": 1.0225,
	"step": 49500
	},
	{
	"epoch": 19.674732249107496,
	"grad_norm": 3.5673136711120605,
	"learning_rate": 8.141610472034907e-07,
	"loss": 1.0149,
	"step": 49600
	},
	{
	"epoch": 19.714399047996828,
	"grad_norm": 3.68278431892395,
	"learning_rate": 7.149940499801666e-07,
	"loss": 0.996,
	"step": 49700
	},
	{
	"epoch": 19.754065846886157,
	"grad_norm": 4.8836870193481445,
	"learning_rate": 6.158270527568425e-07,
	"loss": 1.0097,
	"step": 49800
	},
	{
	"epoch": 19.793732645775485,
	"grad_norm": 3.579880475997925,
	"learning_rate": 5.166600555335184e-07,
	"loss": 0.9482,
	"step": 49900
	},
	{
	"epoch": 19.833399444664817,
	"grad_norm": 2.7329444885253906,
	"learning_rate": 4.174930583101944e-07,
	"loss": 1.0365,
	"step": 50000
	},
	{
	"epoch": 19.873066243554145,
	"grad_norm": 5.478430271148682,
	"learning_rate": 3.1832606108687035e-07,
	"loss": 1.0543,
	"step": 50100
	},
	{
	"epoch": 19.912733042443474,
	"grad_norm": 3.1377158164978027,
	"learning_rate": 2.191590638635462e-07,
	"loss": 0.9637,
	"step": 50200
	},
	{
	"epoch": 19.952399841332806,
	"grad_norm": 3.789954662322998,
	"learning_rate": 1.1999206664022213e-07,
	"loss": 0.9847,
	"step": 50300
	},
	{
	"epoch": 19.992066640222134,
	"grad_norm": 4.29661226272583,
	"learning_rate": 2.0825069416898058e-08,
	"loss": 1.0306,
	"step": 50400
	},
	{
	"epoch": 20.0,
	"eval_loss": 1.0158944129943848,
	"eval_runtime": 31.6451,
	"eval_samples_per_second": 47.97,
	"eval_steps_per_second": 6.004,
	"step": 50420
	}
	],
	"logging_steps": 100,
	"max_steps": 50420,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.902420484390912e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}