HSENet_CLIP / trainer_state.json

Upload folder using huggingface_hub

3c2e586 verified 6 months ago

144 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 48.16824966078698,
	"eval_steps": 3538,
	"global_step": 71000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.060379918588873815,
	"grad_norm": 9.192076683044434,
	"learning_rate": 3.353428786737001e-06,
	"loss": 4.0695,
	"step": 89
	},
	{
	"epoch": 0.12075983717774763,
	"grad_norm": 6.064570903778076,
	"learning_rate": 6.706857573474002e-06,
	"loss": 3.4544,
	"step": 178
	},
	{
	"epoch": 0.18113975576662145,
	"grad_norm": 7.58292293548584,
	"learning_rate": 1.0060286360211004e-05,
	"loss": 3.2275,
	"step": 267
	},
	{
	"epoch": 0.24151967435549526,
	"grad_norm": 12.527491569519043,
	"learning_rate": 1.3413715146948003e-05,
	"loss": 3.09,
	"step": 356
	},
	{
	"epoch": 0.3018995929443691,
	"grad_norm": 12.255288124084473,
	"learning_rate": 1.6767143933685002e-05,
	"loss": 3.0322,
	"step": 445
	},
	{
	"epoch": 0.3622795115332429,
	"grad_norm": 6.611302375793457,
	"learning_rate": 2.0120572720422008e-05,
	"loss": 2.9608,
	"step": 534
	},
	{
	"epoch": 0.4226594301221167,
	"grad_norm": 12.716562271118164,
	"learning_rate": 2.3474001507159007e-05,
	"loss": 2.892,
	"step": 623
	},
	{
	"epoch": 0.4830393487109905,
	"grad_norm": 6.532482624053955,
	"learning_rate": 2.6827430293896006e-05,
	"loss": 2.8621,
	"step": 712
	},
	{
	"epoch": 0.5434192672998643,
	"grad_norm": 25.10944175720215,
	"learning_rate": 3.0180859080633005e-05,
	"loss": 2.754,
	"step": 801
	},
	{
	"epoch": 0.6037991858887382,
	"grad_norm": 7.85612154006958,
	"learning_rate": 3.3534287867370005e-05,
	"loss": 2.7605,
	"step": 890
	},
	{
	"epoch": 0.664179104477612,
	"grad_norm": 9.118956565856934,
	"learning_rate": 3.688771665410701e-05,
	"loss": 2.7105,
	"step": 979
	},
	{
	"epoch": 0.7245590230664858,
	"grad_norm": 8.141679763793945,
	"learning_rate": 4.0241145440844016e-05,
	"loss": 2.6589,
	"step": 1068
	},
	{
	"epoch": 0.7849389416553596,
	"grad_norm": 18.962980270385742,
	"learning_rate": 4.3594574227581015e-05,
	"loss": 2.6437,
	"step": 1157
	},
	{
	"epoch": 0.8453188602442334,
	"grad_norm": 7.252344608306885,
	"learning_rate": 4.6948003014318015e-05,
	"loss": 2.6,
	"step": 1246
	},
	{
	"epoch": 0.9056987788331072,
	"grad_norm": 9.572624206542969,
	"learning_rate": 5.030143180105501e-05,
	"loss": 2.6181,
	"step": 1335
	},
	{
	"epoch": 0.966078697421981,
	"grad_norm": 7.212714672088623,
	"learning_rate": 5.365486058779201e-05,
	"loss": 2.5157,
	"step": 1424
	},
	{
	"epoch": 1.0264586160108549,
	"grad_norm": 8.035208702087402,
	"learning_rate": 5.700828937452901e-05,
	"loss": 2.5217,
	"step": 1513
	},
	{
	"epoch": 1.0868385345997287,
	"grad_norm": 10.060546875,
	"learning_rate": 6.036171816126601e-05,
	"loss": 2.4495,
	"step": 1602
	},
	{
	"epoch": 1.1472184531886025,
	"grad_norm": 8.2612943649292,
	"learning_rate": 6.371514694800301e-05,
	"loss": 2.4271,
	"step": 1691
	},
	{
	"epoch": 1.2075983717774763,
	"grad_norm": 7.717799186706543,
	"learning_rate": 6.706857573474001e-05,
	"loss": 2.4397,
	"step": 1780
	},
	{
	"epoch": 1.2679782903663501,
	"grad_norm": 11.520405769348145,
	"learning_rate": 7.042200452147701e-05,
	"loss": 2.4099,
	"step": 1869
	},
	{
	"epoch": 1.328358208955224,
	"grad_norm": 8.826777458190918,
	"learning_rate": 7.377543330821402e-05,
	"loss": 2.3349,
	"step": 1958
	},
	{
	"epoch": 1.3887381275440978,
	"grad_norm": 7.810181140899658,
	"learning_rate": 7.712886209495102e-05,
	"loss": 2.3491,
	"step": 2047
	},
	{
	"epoch": 1.4491180461329716,
	"grad_norm": 9.809256553649902,
	"learning_rate": 8.048229088168803e-05,
	"loss": 2.3778,
	"step": 2136
	},
	{
	"epoch": 1.5094979647218452,
	"grad_norm": 8.396034240722656,
	"learning_rate": 8.383571966842503e-05,
	"loss": 2.3717,
	"step": 2225
	},
	{
	"epoch": 1.5698778833107192,
	"grad_norm": 10.409805297851562,
	"learning_rate": 8.718914845516203e-05,
	"loss": 2.3207,
	"step": 2314
	},
	{
	"epoch": 1.6302578018995928,
	"grad_norm": 7.1885786056518555,
	"learning_rate": 9.054257724189903e-05,
	"loss": 2.3651,
	"step": 2403
	},
	{
	"epoch": 1.6906377204884668,
	"grad_norm": 7.768437385559082,
	"learning_rate": 9.389600602863603e-05,
	"loss": 2.3313,
	"step": 2492
	},
	{
	"epoch": 1.7510176390773404,
	"grad_norm": 5.661167144775391,
	"learning_rate": 9.724943481537303e-05,
	"loss": 2.2961,
	"step": 2581
	},
	{
	"epoch": 1.8113975576662145,
	"grad_norm": 8.26041030883789,
	"learning_rate": 9.999999141684668e-05,
	"loss": 2.2966,
	"step": 2670
	},
	{
	"epoch": 1.871777476255088,
	"grad_norm": 9.347060203552246,
	"learning_rate": 9.999963035487687e-05,
	"loss": 2.2934,
	"step": 2759
	},
	{
	"epoch": 1.932157394843962,
	"grad_norm": 9.274127006530762,
	"learning_rate": 9.999873814762094e-05,
	"loss": 2.2813,
	"step": 2848
	},
	{
	"epoch": 1.9925373134328357,
	"grad_norm": 8.107317924499512,
	"learning_rate": 9.999731480455674e-05,
	"loss": 2.2005,
	"step": 2937
	},
	{
	"epoch": 2.0529172320217097,
	"grad_norm": 8.258145332336426,
	"learning_rate": 9.999536034080447e-05,
	"loss": 2.1059,
	"step": 3026
	},
	{
	"epoch": 2.1132971506105833,
	"grad_norm": 6.388680458068848,
	"learning_rate": 9.999287477712633e-05,
	"loss": 2.0797,
	"step": 3115
	},
	{
	"epoch": 2.1736770691994574,
	"grad_norm": 6.251929759979248,
	"learning_rate": 9.998985813992645e-05,
	"loss": 2.0776,
	"step": 3204
	},
	{
	"epoch": 2.234056987788331,
	"grad_norm": 7.3807172775268555,
	"learning_rate": 9.998631046125051e-05,
	"loss": 2.0028,
	"step": 3293
	},
	{
	"epoch": 2.294436906377205,
	"grad_norm": 8.793547630310059,
	"learning_rate": 9.998223177878545e-05,
	"loss": 2.0789,
	"step": 3382
	},
	{
	"epoch": 2.3548168249660786,
	"grad_norm": 8.737523078918457,
	"learning_rate": 9.997762213585903e-05,
	"loss": 2.0322,
	"step": 3471
	},
	{
	"epoch": 2.400271370420624,
	"eval_accuracy": 0.193359375,
	"eval_loss": 3.569305419921875,
	"eval_runtime": 19.2577,
	"eval_samples_per_second": 26.587,
	"eval_steps_per_second": 0.208,
	"step": 3538
	},
	{
	"epoch": 2.4151967435549526,
	"grad_norm": 13.652155876159668,
	"learning_rate": 9.997248158143945e-05,
	"loss": 1.9617,
	"step": 3560
	},
	{
	"epoch": 2.475576662143826,
	"grad_norm": 6.501727104187012,
	"learning_rate": 9.99668101701347e-05,
	"loss": 2.0389,
	"step": 3649
	},
	{
	"epoch": 2.5359565807327002,
	"grad_norm": 11.862299919128418,
	"learning_rate": 9.99606079621921e-05,
	"loss": 2.031,
	"step": 3738
	},
	{
	"epoch": 2.596336499321574,
	"grad_norm": 7.8563551902771,
	"learning_rate": 9.995387502349764e-05,
	"loss": 1.9729,
	"step": 3827
	},
	{
	"epoch": 2.656716417910448,
	"grad_norm": 9.843242645263672,
	"learning_rate": 9.99466114255752e-05,
	"loss": 1.9323,
	"step": 3916
	},
	{
	"epoch": 2.7170963364993215,
	"grad_norm": 6.065842628479004,
	"learning_rate": 9.993881724558587e-05,
	"loss": 1.9465,
	"step": 4005
	},
	{
	"epoch": 2.7774762550881955,
	"grad_norm": 11.29686450958252,
	"learning_rate": 9.993049256632708e-05,
	"loss": 1.8912,
	"step": 4094
	},
	{
	"epoch": 2.837856173677069,
	"grad_norm": 11.959461212158203,
	"learning_rate": 9.99216374762318e-05,
	"loss": 1.9665,
	"step": 4183
	},
	{
	"epoch": 2.898236092265943,
	"grad_norm": 8.116125106811523,
	"learning_rate": 9.991225206936747e-05,
	"loss": 1.9158,
	"step": 4272
	},
	{
	"epoch": 2.9586160108548167,
	"grad_norm": 7.0811309814453125,
	"learning_rate": 9.990233644543517e-05,
	"loss": 1.929,
	"step": 4361
	},
	{
	"epoch": 3.0189959294436908,
	"grad_norm": 7.11262845993042,
	"learning_rate": 9.989189070976839e-05,
	"loss": 1.8259,
	"step": 4450
	},
	{
	"epoch": 3.0793758480325644,
	"grad_norm": 10.385732650756836,
	"learning_rate": 9.988091497333202e-05,
	"loss": 1.6678,
	"step": 4539
	},
	{
	"epoch": 3.1397557666214384,
	"grad_norm": 8.934700965881348,
	"learning_rate": 9.986940935272113e-05,
	"loss": 1.7278,
	"step": 4628
	},
	{
	"epoch": 3.200135685210312,
	"grad_norm": 11.203325271606445,
	"learning_rate": 9.985737397015975e-05,
	"loss": 1.6957,
	"step": 4717
	},
	{
	"epoch": 3.260515603799186,
	"grad_norm": 10.464749336242676,
	"learning_rate": 9.984480895349955e-05,
	"loss": 1.6743,
	"step": 4806
	},
	{
	"epoch": 3.3208955223880596,
	"grad_norm": 9.995988845825195,
	"learning_rate": 9.983171443621853e-05,
	"loss": 1.692,
	"step": 4895
	},
	{
	"epoch": 3.3812754409769337,
	"grad_norm": 11.267080307006836,
	"learning_rate": 9.981809055741953e-05,
	"loss": 1.6836,
	"step": 4984
	},
	{
	"epoch": 3.4416553595658073,
	"grad_norm": 9.267989158630371,
	"learning_rate": 9.980393746182879e-05,
	"loss": 1.6307,
	"step": 5073
	},
	{
	"epoch": 3.5020352781546813,
	"grad_norm": 10.1551513671875,
	"learning_rate": 9.978925529979441e-05,
	"loss": 1.6547,
	"step": 5162
	},
	{
	"epoch": 3.562415196743555,
	"grad_norm": 8.809422492980957,
	"learning_rate": 9.97740442272848e-05,
	"loss": 1.6293,
	"step": 5251
	},
	{
	"epoch": 3.622795115332429,
	"grad_norm": 9.327820777893066,
	"learning_rate": 9.975830440588692e-05,
	"loss": 1.6611,
	"step": 5340
	},
	{
	"epoch": 3.6831750339213025,
	"grad_norm": 9.966196060180664,
	"learning_rate": 9.974203600280465e-05,
	"loss": 1.6296,
	"step": 5429
	},
	{
	"epoch": 3.743554952510176,
	"grad_norm": 9.004570007324219,
	"learning_rate": 9.972523919085699e-05,
	"loss": 1.6335,
	"step": 5518
	},
	{
	"epoch": 3.80393487109905,
	"grad_norm": 8.515008926391602,
	"learning_rate": 9.97079141484762e-05,
	"loss": 1.6038,
	"step": 5607
	},
	{
	"epoch": 3.864314789687924,
	"grad_norm": 8.961952209472656,
	"learning_rate": 9.969006105970593e-05,
	"loss": 1.6298,
	"step": 5696
	},
	{
	"epoch": 3.924694708276798,
	"grad_norm": 11.294893264770508,
	"learning_rate": 9.967168011419927e-05,
	"loss": 1.588,
	"step": 5785
	},
	{
	"epoch": 3.9850746268656714,
	"grad_norm": 9.631956100463867,
	"learning_rate": 9.965277150721669e-05,
	"loss": 1.5871,
	"step": 5874
	},
	{
	"epoch": 4.045454545454546,
	"grad_norm": 7.810765266418457,
	"learning_rate": 9.963333543962405e-05,
	"loss": 1.4341,
	"step": 5963
	},
	{
	"epoch": 4.1058344640434195,
	"grad_norm": 10.34420394897461,
	"learning_rate": 9.961337211789039e-05,
	"loss": 1.4289,
	"step": 6052
	},
	{
	"epoch": 4.166214382632293,
	"grad_norm": 10.042189598083496,
	"learning_rate": 9.959288175408577e-05,
	"loss": 1.392,
	"step": 6141
	},
	{
	"epoch": 4.226594301221167,
	"grad_norm": 9.480945587158203,
	"learning_rate": 9.957186456587896e-05,
	"loss": 1.4407,
	"step": 6230
	},
	{
	"epoch": 4.286974219810041,
	"grad_norm": 10.059048652648926,
	"learning_rate": 9.955032077653525e-05,
	"loss": 1.4126,
	"step": 6319
	},
	{
	"epoch": 4.347354138398915,
	"grad_norm": 8.111236572265625,
	"learning_rate": 9.9528250614914e-05,
	"loss": 1.3697,
	"step": 6408
	},
	{
	"epoch": 4.407734056987788,
	"grad_norm": 7.836842060089111,
	"learning_rate": 9.950565431546612e-05,
	"loss": 1.4165,
	"step": 6497
	},
	{
	"epoch": 4.468113975576662,
	"grad_norm": 10.462437629699707,
	"learning_rate": 9.948253211823182e-05,
	"loss": 1.3629,
	"step": 6586
	},
	{
	"epoch": 4.5284938941655355,
	"grad_norm": 8.220168113708496,
	"learning_rate": 9.945888426883778e-05,
	"loss": 1.4402,
	"step": 6675
	},
	{
	"epoch": 4.58887381275441,
	"grad_norm": 8.81052017211914,
	"learning_rate": 9.943471101849477e-05,
	"loss": 1.4194,
	"step": 6764
	},
	{
	"epoch": 4.649253731343284,
	"grad_norm": 13.403641700744629,
	"learning_rate": 9.941001262399482e-05,
	"loss": 1.3943,
	"step": 6853
	},
	{
	"epoch": 4.709633649932157,
	"grad_norm": 8.589107513427734,
	"learning_rate": 9.938478934770861e-05,
	"loss": 1.3888,
	"step": 6942
	},
	{
	"epoch": 4.770013568521032,
	"grad_norm": 12.76234245300293,
	"learning_rate": 9.935904145758259e-05,
	"loss": 1.415,
	"step": 7031
	},
	{
	"epoch": 4.800542740841248,
	"eval_accuracy": 0.19140625,
	"eval_loss": 3.4613265991210938,
	"eval_runtime": 18.4,
	"eval_samples_per_second": 27.826,
	"eval_steps_per_second": 0.217,
	"step": 7076
	},
	{
	"epoch": 4.830393487109905,
	"grad_norm": 12.034464836120605,
	"learning_rate": 9.933276922713619e-05,
	"loss": 1.3772,
	"step": 7120
	},
	{
	"epoch": 4.890773405698779,
	"grad_norm": 10.00120735168457,
	"learning_rate": 9.930597293545891e-05,
	"loss": 1.3427,
	"step": 7209
	},
	{
	"epoch": 4.951153324287652,
	"grad_norm": 10.592118263244629,
	"learning_rate": 9.927865286720734e-05,
	"loss": 1.3681,
	"step": 7298
	},
	{
	"epoch": 5.011533242876526,
	"grad_norm": 10.557718276977539,
	"learning_rate": 9.925080931260211e-05,
	"loss": 1.3345,
	"step": 7387
	},
	{
	"epoch": 5.0719131614654005,
	"grad_norm": 8.036050796508789,
	"learning_rate": 9.922244256742491e-05,
	"loss": 1.1945,
	"step": 7476
	},
	{
	"epoch": 5.132293080054274,
	"grad_norm": 8.104681015014648,
	"learning_rate": 9.919355293301515e-05,
	"loss": 1.191,
	"step": 7565
	},
	{
	"epoch": 5.192672998643148,
	"grad_norm": 8.685461044311523,
	"learning_rate": 9.916414071626704e-05,
	"loss": 1.1867,
	"step": 7654
	},
	{
	"epoch": 5.253052917232022,
	"grad_norm": 7.221011638641357,
	"learning_rate": 9.913420622962606e-05,
	"loss": 1.1737,
	"step": 7743
	},
	{
	"epoch": 5.313432835820896,
	"grad_norm": 9.594326972961426,
	"learning_rate": 9.910374979108579e-05,
	"loss": 1.2058,
	"step": 7832
	},
	{
	"epoch": 5.373812754409769,
	"grad_norm": 8.146512031555176,
	"learning_rate": 9.907277172418449e-05,
	"loss": 1.2173,
	"step": 7921
	},
	{
	"epoch": 5.434192672998643,
	"grad_norm": 8.147337913513184,
	"learning_rate": 9.904127235800169e-05,
	"loss": 1.2047,
	"step": 8010
	},
	{
	"epoch": 5.4945725915875165,
	"grad_norm": 10.820967674255371,
	"learning_rate": 9.900925202715468e-05,
	"loss": 1.2287,
	"step": 8099
	},
	{
	"epoch": 5.554952510176391,
	"grad_norm": 10.343106269836426,
	"learning_rate": 9.897671107179488e-05,
	"loss": 1.1927,
	"step": 8188
	},
	{
	"epoch": 5.615332428765265,
	"grad_norm": 10.41408920288086,
	"learning_rate": 9.894364983760439e-05,
	"loss": 1.2321,
	"step": 8277
	},
	{
	"epoch": 5.675712347354138,
	"grad_norm": 9.299535751342773,
	"learning_rate": 9.891006867579217e-05,
	"loss": 1.2012,
	"step": 8366
	},
	{
	"epoch": 5.736092265943013,
	"grad_norm": 10.728792190551758,
	"learning_rate": 9.887596794309035e-05,
	"loss": 1.1812,
	"step": 8455
	},
	{
	"epoch": 5.796472184531886,
	"grad_norm": 7.432964324951172,
	"learning_rate": 9.884134800175053e-05,
	"loss": 1.1521,
	"step": 8544
	},
	{
	"epoch": 5.85685210312076,
	"grad_norm": 7.614875316619873,
	"learning_rate": 9.880620921953974e-05,
	"loss": 1.1487,
	"step": 8633
	},
	{
	"epoch": 5.9172320217096335,
	"grad_norm": 10.49835205078125,
	"learning_rate": 9.877055196973674e-05,
	"loss": 1.2014,
	"step": 8722
	},
	{
	"epoch": 5.977611940298507,
	"grad_norm": 7.404662609100342,
	"learning_rate": 9.873437663112794e-05,
	"loss": 1.1821,
	"step": 8811
	},
	{
	"epoch": 6.0379918588873815,
	"grad_norm": 9.661059379577637,
	"learning_rate": 9.869768358800339e-05,
	"loss": 1.0712,
	"step": 8900
	},
	{
	"epoch": 6.098371777476255,
	"grad_norm": 11.615382194519043,
	"learning_rate": 9.866047323015269e-05,
	"loss": 1.0516,
	"step": 8989
	},
	{
	"epoch": 6.158751696065129,
	"grad_norm": 10.21226978302002,
	"learning_rate": 9.86227459528609e-05,
	"loss": 1.0813,
	"step": 9078
	},
	{
	"epoch": 6.219131614654002,
	"grad_norm": 7.748682975769043,
	"learning_rate": 9.85845021569043e-05,
	"loss": 1.0604,
	"step": 9167
	},
	{
	"epoch": 6.279511533242877,
	"grad_norm": 10.797855377197266,
	"learning_rate": 9.854574224854611e-05,
	"loss": 1.0417,
	"step": 9256
	},
	{
	"epoch": 6.33989145183175,
	"grad_norm": 9.862196922302246,
	"learning_rate": 9.850646663953227e-05,
	"loss": 1.0171,
	"step": 9345
	},
	{
	"epoch": 6.400271370420624,
	"grad_norm": 10.341273307800293,
	"learning_rate": 9.84666757470869e-05,
	"loss": 1.0216,
	"step": 9434
	},
	{
	"epoch": 6.460651289009498,
	"grad_norm": 7.858868598937988,
	"learning_rate": 9.842636999390807e-05,
	"loss": 1.0705,
	"step": 9523
	},
	{
	"epoch": 6.521031207598372,
	"grad_norm": 10.367132186889648,
	"learning_rate": 9.838554980816312e-05,
	"loss": 1.0489,
	"step": 9612
	},
	{
	"epoch": 6.581411126187246,
	"grad_norm": 13.918916702270508,
	"learning_rate": 9.834421562348428e-05,
	"loss": 1.0753,
	"step": 9701
	},
	{
	"epoch": 6.641791044776119,
	"grad_norm": 9.345829010009766,
	"learning_rate": 9.830236787896391e-05,
	"loss": 1.0584,
	"step": 9790
	},
	{
	"epoch": 6.702170963364993,
	"grad_norm": 12.244129180908203,
	"learning_rate": 9.826000701914998e-05,
	"loss": 1.0402,
	"step": 9879
	},
	{
	"epoch": 6.762550881953867,
	"grad_norm": 8.918442726135254,
	"learning_rate": 9.821713349404119e-05,
	"loss": 1.0522,
	"step": 9968
	},
	{
	"epoch": 6.822930800542741,
	"grad_norm": 8.40239143371582,
	"learning_rate": 9.817374775908237e-05,
	"loss": 1.0277,
	"step": 10057
	},
	{
	"epoch": 6.8833107191316145,
	"grad_norm": 12.844498634338379,
	"learning_rate": 9.812985027515947e-05,
	"loss": 1.077,
	"step": 10146
	},
	{
	"epoch": 6.943690637720488,
	"grad_norm": 8.832013130187988,
	"learning_rate": 9.808544150859476e-05,
	"loss": 1.0239,
	"step": 10235
	},
	{
	"epoch": 7.004070556309363,
	"grad_norm": 5.591742038726807,
	"learning_rate": 9.804052193114189e-05,
	"loss": 1.0128,
	"step": 10324
	},
	{
	"epoch": 7.064450474898236,
	"grad_norm": 6.905234336853027,
	"learning_rate": 9.799509201998083e-05,
	"loss": 0.9019,
	"step": 10413
	},
	{
	"epoch": 7.12483039348711,
	"grad_norm": 9.313871383666992,
	"learning_rate": 9.794915225771279e-05,
	"loss": 0.9515,
	"step": 10502
	},
	{
	"epoch": 7.185210312075983,
	"grad_norm": 8.015510559082031,
	"learning_rate": 9.790270313235517e-05,
	"loss": 0.9301,
	"step": 10591
	},
	{
	"epoch": 7.200814111261873,
	"eval_accuracy": 0.17578125,
	"eval_loss": 3.7450790405273438,
	"eval_runtime": 18.7511,
	"eval_samples_per_second": 27.305,
	"eval_steps_per_second": 0.213,
	"step": 10614
	},
	{
	"epoch": 7.245590230664858,
	"grad_norm": 7.311409950256348,
	"learning_rate": 9.785574513733625e-05,
	"loss": 0.9172,
	"step": 10680
	},
	{
	"epoch": 7.3059701492537314,
	"grad_norm": 5.454108238220215,
	"learning_rate": 9.780827877149013e-05,
	"loss": 0.9372,
	"step": 10769
	},
	{
	"epoch": 7.366350067842605,
	"grad_norm": 5.830528736114502,
	"learning_rate": 9.776030453905122e-05,
	"loss": 0.9163,
	"step": 10858
	},
	{
	"epoch": 7.426729986431479,
	"grad_norm": 9.309490203857422,
	"learning_rate": 9.771182294964905e-05,
	"loss": 0.9528,
	"step": 10947
	},
	{
	"epoch": 7.487109905020353,
	"grad_norm": 11.420437812805176,
	"learning_rate": 9.76628345183028e-05,
	"loss": 0.9198,
	"step": 11036
	},
	{
	"epoch": 7.547489823609227,
	"grad_norm": 11.052990913391113,
	"learning_rate": 9.761333976541578e-05,
	"loss": 0.9231,
	"step": 11125
	},
	{
	"epoch": 7.6078697421981,
	"grad_norm": 7.378238201141357,
	"learning_rate": 9.756333921676999e-05,
	"loss": 0.9452,
	"step": 11214
	},
	{
	"epoch": 7.668249660786974,
	"grad_norm": 11.708273887634277,
	"learning_rate": 9.751283340352044e-05,
	"loss": 0.9163,
	"step": 11303
	},
	{
	"epoch": 7.728629579375848,
	"grad_norm": 5.919505596160889,
	"learning_rate": 9.746182286218964e-05,
	"loss": 0.9254,
	"step": 11392
	},
	{
	"epoch": 7.789009497964722,
	"grad_norm": 10.179853439331055,
	"learning_rate": 9.741030813466172e-05,
	"loss": 0.9317,
	"step": 11481
	},
	{
	"epoch": 7.849389416553596,
	"grad_norm": 8.873759269714355,
	"learning_rate": 9.735828976817683e-05,
	"loss": 0.9474,
	"step": 11570
	},
	{
	"epoch": 7.909769335142469,
	"grad_norm": 6.65983772277832,
	"learning_rate": 9.730576831532528e-05,
	"loss": 0.9013,
	"step": 11659
	},
	{
	"epoch": 7.970149253731344,
	"grad_norm": 7.311088562011719,
	"learning_rate": 9.725274433404164e-05,
	"loss": 0.9119,
	"step": 11748
	},
	{
	"epoch": 8.030529172320216,
	"grad_norm": 10.026205062866211,
	"learning_rate": 9.719921838759878e-05,
	"loss": 0.876,
	"step": 11837
	},
	{
	"epoch": 8.090909090909092,
	"grad_norm": 8.08633804321289,
	"learning_rate": 9.714519104460202e-05,
	"loss": 0.8151,
	"step": 11926
	},
	{
	"epoch": 8.151289009497965,
	"grad_norm": 6.680150508880615,
	"learning_rate": 9.709066287898298e-05,
	"loss": 0.8111,
	"step": 12015
	},
	{
	"epoch": 8.211668928086839,
	"grad_norm": 8.399514198303223,
	"learning_rate": 9.70356344699935e-05,
	"loss": 0.8207,
	"step": 12104
	},
	{
	"epoch": 8.272048846675712,
	"grad_norm": 10.127174377441406,
	"learning_rate": 9.698010640219951e-05,
	"loss": 0.84,
	"step": 12193
	},
	{
	"epoch": 8.332428765264586,
	"grad_norm": 7.315372943878174,
	"learning_rate": 9.692407926547478e-05,
	"loss": 0.8473,
	"step": 12282
	},
	{
	"epoch": 8.39280868385346,
	"grad_norm": 11.611318588256836,
	"learning_rate": 9.686755365499471e-05,
	"loss": 0.8423,
	"step": 12371
	},
	{
	"epoch": 8.453188602442333,
	"grad_norm": 7.9076008796691895,
	"learning_rate": 9.681053017122996e-05,
	"loss": 0.8445,
	"step": 12460
	},
	{
	"epoch": 8.513568521031207,
	"grad_norm": 9.092277526855469,
	"learning_rate": 9.675300941994012e-05,
	"loss": 0.8652,
	"step": 12549
	},
	{
	"epoch": 8.573948439620082,
	"grad_norm": 8.704888343811035,
	"learning_rate": 9.669499201216723e-05,
	"loss": 0.8312,
	"step": 12638
	},
	{
	"epoch": 8.634328358208956,
	"grad_norm": 13.215127944946289,
	"learning_rate": 9.663647856422928e-05,
	"loss": 0.8306,
	"step": 12727
	},
	{
	"epoch": 8.69470827679783,
	"grad_norm": 6.171853542327881,
	"learning_rate": 9.657746969771371e-05,
	"loss": 0.8504,
	"step": 12816
	},
	{
	"epoch": 8.755088195386703,
	"grad_norm": 9.066251754760742,
	"learning_rate": 9.651796603947076e-05,
	"loss": 0.8711,
	"step": 12905
	},
	{
	"epoch": 8.815468113975577,
	"grad_norm": 7.504266262054443,
	"learning_rate": 9.645796822160691e-05,
	"loss": 0.8312,
	"step": 12994
	},
	{
	"epoch": 8.87584803256445,
	"grad_norm": 11.219298362731934,
	"learning_rate": 9.639747688147798e-05,
	"loss": 0.8264,
	"step": 13083
	},
	{
	"epoch": 8.936227951153324,
	"grad_norm": 9.841562271118164,
	"learning_rate": 9.633649266168256e-05,
	"loss": 0.8097,
	"step": 13172
	},
	{
	"epoch": 8.996607869742197,
	"grad_norm": 6.924744606018066,
	"learning_rate": 9.627501621005505e-05,
	"loss": 0.8315,
	"step": 13261
	},
	{
	"epoch": 9.056987788331073,
	"grad_norm": 12.85659408569336,
	"learning_rate": 9.62130481796588e-05,
	"loss": 0.7768,
	"step": 13350
	},
	{
	"epoch": 9.117367706919946,
	"grad_norm": 7.802920341491699,
	"learning_rate": 9.615058922877926e-05,
	"loss": 0.7363,
	"step": 13439
	},
	{
	"epoch": 9.17774762550882,
	"grad_norm": 5.512497425079346,
	"learning_rate": 9.608764002091686e-05,
	"loss": 0.7568,
	"step": 13528
	},
	{
	"epoch": 9.238127544097694,
	"grad_norm": 7.84502649307251,
	"learning_rate": 9.602420122478004e-05,
	"loss": 0.7754,
	"step": 13617
	},
	{
	"epoch": 9.298507462686567,
	"grad_norm": 7.394598484039307,
	"learning_rate": 9.596027351427814e-05,
	"loss": 0.7862,
	"step": 13706
	},
	{
	"epoch": 9.35888738127544,
	"grad_norm": 8.552702903747559,
	"learning_rate": 9.589585756851422e-05,
	"loss": 0.7404,
	"step": 13795
	},
	{
	"epoch": 9.419267299864314,
	"grad_norm": 8.93039608001709,
	"learning_rate": 9.583095407177788e-05,
	"loss": 0.7368,
	"step": 13884
	},
	{
	"epoch": 9.479647218453188,
	"grad_norm": 8.229623794555664,
	"learning_rate": 9.576556371353791e-05,
	"loss": 0.7699,
	"step": 13973
	},
	{
	"epoch": 9.540027137042063,
	"grad_norm": 10.284710884094238,
	"learning_rate": 9.569968718843507e-05,
	"loss": 0.7811,
	"step": 14062
	},
	{
	"epoch": 9.600407055630937,
	"grad_norm": 5.939275741577148,
	"learning_rate": 9.563332519627466e-05,
	"loss": 0.7419,
	"step": 14151
	},
	{
	"epoch": 9.601085481682496,
	"eval_accuracy": 0.20703125,
	"eval_loss": 3.737224578857422,
	"eval_runtime": 17.1346,
	"eval_samples_per_second": 29.881,
	"eval_steps_per_second": 0.233,
	"step": 14152
	},
	{
	"epoch": 9.66078697421981,
	"grad_norm": 7.720785140991211,
	"learning_rate": 9.556647844201908e-05,
	"loss": 0.7578,
	"step": 14240
	},
	{
	"epoch": 9.721166892808684,
	"grad_norm": 7.313141345977783,
	"learning_rate": 9.549914763578031e-05,
	"loss": 0.7662,
	"step": 14329
	},
	{
	"epoch": 9.781546811397558,
	"grad_norm": 10.582131385803223,
	"learning_rate": 9.543133349281248e-05,
	"loss": 0.7503,
	"step": 14418
	},
	{
	"epoch": 9.841926729986431,
	"grad_norm": 5.272374153137207,
	"learning_rate": 9.536303673350415e-05,
	"loss": 0.7729,
	"step": 14507
	},
	{
	"epoch": 9.902306648575305,
	"grad_norm": 6.4560370445251465,
	"learning_rate": 9.529425808337074e-05,
	"loss": 0.7659,
	"step": 14596
	},
	{
	"epoch": 9.962686567164178,
	"grad_norm": 4.996959686279297,
	"learning_rate": 9.522499827304674e-05,
	"loss": 0.7348,
	"step": 14685
	},
	{
	"epoch": 10.023066485753052,
	"grad_norm": 5.831302165985107,
	"learning_rate": 9.515525803827803e-05,
	"loss": 0.7534,
	"step": 14774
	},
	{
	"epoch": 10.083446404341927,
	"grad_norm": 6.166038990020752,
	"learning_rate": 9.508503811991405e-05,
	"loss": 0.7,
	"step": 14863
	},
	{
	"epoch": 10.143826322930801,
	"grad_norm": 9.589017868041992,
	"learning_rate": 9.501433926389986e-05,
	"loss": 0.6585,
	"step": 14952
	},
	{
	"epoch": 10.204206241519675,
	"grad_norm": 8.026691436767578,
	"learning_rate": 9.49431622212683e-05,
	"loss": 0.6973,
	"step": 15041
	},
	{
	"epoch": 10.264586160108548,
	"grad_norm": 8.68213939666748,
	"learning_rate": 9.487150774813198e-05,
	"loss": 0.698,
	"step": 15130
	},
	{
	"epoch": 10.324966078697422,
	"grad_norm": 11.472238540649414,
	"learning_rate": 9.479937660567523e-05,
	"loss": 0.7192,
	"step": 15219
	},
	{
	"epoch": 10.385345997286295,
	"grad_norm": 6.372411251068115,
	"learning_rate": 9.472676956014605e-05,
	"loss": 0.6859,
	"step": 15308
	},
	{
	"epoch": 10.445725915875169,
	"grad_norm": 5.333731174468994,
	"learning_rate": 9.465368738284794e-05,
	"loss": 0.7025,
	"step": 15397
	},
	{
	"epoch": 10.506105834464044,
	"grad_norm": 7.277047157287598,
	"learning_rate": 9.458013085013173e-05,
	"loss": 0.7102,
	"step": 15486
	},
	{
	"epoch": 10.566485753052918,
	"grad_norm": 10.157328605651855,
	"learning_rate": 9.45061007433873e-05,
	"loss": 0.6814,
	"step": 15575
	},
	{
	"epoch": 10.626865671641792,
	"grad_norm": 5.025580883026123,
	"learning_rate": 9.443159784903528e-05,
	"loss": 0.7038,
	"step": 15664
	},
	{
	"epoch": 10.687245590230665,
	"grad_norm": 7.037330627441406,
	"learning_rate": 9.43566229585188e-05,
	"loss": 0.6886,
	"step": 15753
	},
	{
	"epoch": 10.747625508819539,
	"grad_norm": 8.00758171081543,
	"learning_rate": 9.42811768682949e-05,
	"loss": 0.6988,
	"step": 15842
	},
	{
	"epoch": 10.808005427408412,
	"grad_norm": 6.200064659118652,
	"learning_rate": 9.42052603798262e-05,
	"loss": 0.6872,
	"step": 15931
	},
	{
	"epoch": 10.868385345997286,
	"grad_norm": 7.785628795623779,
	"learning_rate": 9.412887429957241e-05,
	"loss": 0.7191,
	"step": 16020
	},
	{
	"epoch": 10.92876526458616,
	"grad_norm": 5.606222629547119,
	"learning_rate": 9.405201943898162e-05,
	"loss": 0.6933,
	"step": 16109
	},
	{
	"epoch": 10.989145183175033,
	"grad_norm": 6.9870147705078125,
	"learning_rate": 9.397469661448182e-05,
	"loss": 0.6873,
	"step": 16198
	},
	{
	"epoch": 11.049525101763908,
	"grad_norm": 7.700918674468994,
	"learning_rate": 9.389690664747214e-05,
	"loss": 0.6515,
	"step": 16287
	},
	{
	"epoch": 11.109905020352782,
	"grad_norm": 4.668413162231445,
	"learning_rate": 9.38186503643142e-05,
	"loss": 0.6484,
	"step": 16376
	},
	{
	"epoch": 11.170284938941656,
	"grad_norm": 9.098540306091309,
	"learning_rate": 9.373992859632324e-05,
	"loss": 0.6479,
	"step": 16465
	},
	{
	"epoch": 11.23066485753053,
	"grad_norm": 7.96748161315918,
	"learning_rate": 9.366074217975938e-05,
	"loss": 0.6351,
	"step": 16554
	},
	{
	"epoch": 11.291044776119403,
	"grad_norm": 5.657280921936035,
	"learning_rate": 9.358109195581866e-05,
	"loss": 0.6362,
	"step": 16643
	},
	{
	"epoch": 11.351424694708276,
	"grad_norm": 7.184754371643066,
	"learning_rate": 9.350097877062418e-05,
	"loss": 0.6527,
	"step": 16732
	},
	{
	"epoch": 11.41180461329715,
	"grad_norm": 6.7868523597717285,
	"learning_rate": 9.342040347521702e-05,
	"loss": 0.667,
	"step": 16821
	},
	{
	"epoch": 11.472184531886024,
	"grad_norm": 7.017992973327637,
	"learning_rate": 9.333936692554729e-05,
	"loss": 0.633,
	"step": 16910
	},
	{
	"epoch": 11.532564450474899,
	"grad_norm": 6.653933048248291,
	"learning_rate": 9.325786998246498e-05,
	"loss": 0.6404,
	"step": 16999
	},
	{
	"epoch": 11.592944369063773,
	"grad_norm": 6.6855058670043945,
	"learning_rate": 9.317591351171082e-05,
	"loss": 0.6776,
	"step": 17088
	},
	{
	"epoch": 11.653324287652646,
	"grad_norm": 8.127620697021484,
	"learning_rate": 9.309349838390711e-05,
	"loss": 0.6385,
	"step": 17177
	},
	{
	"epoch": 11.71370420624152,
	"grad_norm": 7.420390605926514,
	"learning_rate": 9.301062547454849e-05,
	"loss": 0.6395,
	"step": 17266
	},
	{
	"epoch": 11.774084124830393,
	"grad_norm": 7.517685413360596,
	"learning_rate": 9.292729566399252e-05,
	"loss": 0.6335,
	"step": 17355
	},
	{
	"epoch": 11.834464043419267,
	"grad_norm": 7.267749786376953,
	"learning_rate": 9.284350983745049e-05,
	"loss": 0.6607,
	"step": 17444
	},
	{
	"epoch": 11.89484396200814,
	"grad_norm": 7.73004150390625,
	"learning_rate": 9.275926888497792e-05,
	"loss": 0.6671,
	"step": 17533
	},
	{
	"epoch": 11.955223880597014,
	"grad_norm": 7.934135913848877,
	"learning_rate": 9.267457370146513e-05,
	"loss": 0.6207,
	"step": 17622
	},
	{
	"epoch": 12.00135685210312,
	"eval_accuracy": 0.19140625,
	"eval_loss": 3.8003501892089844,
	"eval_runtime": 19.7102,
	"eval_samples_per_second": 25.976,
	"eval_steps_per_second": 0.203,
	"step": 17690
	},
	{
	"epoch": 12.01560379918589,
	"grad_norm": 5.052128314971924,
	"learning_rate": 9.25894251866277e-05,
	"loss": 0.6211,
	"step": 17711
	},
	{
	"epoch": 12.075983717774763,
	"grad_norm": 5.490070343017578,
	"learning_rate": 9.250382424499698e-05,
	"loss": 0.6037,
	"step": 17800
	},
	{
	"epoch": 12.136363636363637,
	"grad_norm": 6.631565570831299,
	"learning_rate": 9.241777178591043e-05,
	"loss": 0.6032,
	"step": 17889
	},
	{
	"epoch": 12.19674355495251,
	"grad_norm": 6.181819438934326,
	"learning_rate": 9.233126872350193e-05,
	"loss": 0.5988,
	"step": 17978
	},
	{
	"epoch": 12.257123473541384,
	"grad_norm": 5.3416361808776855,
	"learning_rate": 9.224431597669219e-05,
	"loss": 0.612,
	"step": 18067
	},
	{
	"epoch": 12.317503392130257,
	"grad_norm": 9.972622871398926,
	"learning_rate": 9.215691446917885e-05,
	"loss": 0.5976,
	"step": 18156
	},
	{
	"epoch": 12.377883310719131,
	"grad_norm": 6.693090915679932,
	"learning_rate": 9.206906512942676e-05,
	"loss": 0.6127,
	"step": 18245
	},
	{
	"epoch": 12.438263229308005,
	"grad_norm": 5.006298065185547,
	"learning_rate": 9.198076889065806e-05,
	"loss": 0.614,
	"step": 18334
	},
	{
	"epoch": 12.49864314789688,
	"grad_norm": 4.5717668533325195,
	"learning_rate": 9.189202669084233e-05,
	"loss": 0.6026,
	"step": 18423
	},
	{
	"epoch": 12.559023066485754,
	"grad_norm": 7.7340989112854,
	"learning_rate": 9.180283947268653e-05,
	"loss": 0.589,
	"step": 18512
	},
	{
	"epoch": 12.619402985074627,
	"grad_norm": 6.45162296295166,
	"learning_rate": 9.17132081836251e-05,
	"loss": 0.5889,
	"step": 18601
	},
	{
	"epoch": 12.6797829036635,
	"grad_norm": 7.008767604827881,
	"learning_rate": 9.162313377580979e-05,
	"loss": 0.5783,
	"step": 18690
	},
	{
	"epoch": 12.740162822252374,
	"grad_norm": 7.15552282333374,
	"learning_rate": 9.153261720609963e-05,
	"loss": 0.5953,
	"step": 18779
	},
	{
	"epoch": 12.800542740841248,
	"grad_norm": 5.7486748695373535,
	"learning_rate": 9.144165943605072e-05,
	"loss": 0.5965,
	"step": 18868
	},
	{
	"epoch": 12.860922659430122,
	"grad_norm": 5.747917652130127,
	"learning_rate": 9.135026143190601e-05,
	"loss": 0.5875,
	"step": 18957
	},
	{
	"epoch": 12.921302578018995,
	"grad_norm": 7.039977550506592,
	"learning_rate": 9.125842416458506e-05,
	"loss": 0.5954,
	"step": 19046
	},
	{
	"epoch": 12.98168249660787,
	"grad_norm": 3.8854663372039795,
	"learning_rate": 9.116614860967372e-05,
	"loss": 0.5818,
	"step": 19135
	},
	{
	"epoch": 13.042062415196744,
	"grad_norm": 5.661801815032959,
	"learning_rate": 9.107343574741374e-05,
	"loss": 0.5619,
	"step": 19224
	},
	{
	"epoch": 13.102442333785618,
	"grad_norm": 6.757572174072266,
	"learning_rate": 9.098028656269243e-05,
	"loss": 0.5639,
	"step": 19313
	},
	{
	"epoch": 13.162822252374491,
	"grad_norm": 7.3293352127075195,
	"learning_rate": 9.088670204503208e-05,
	"loss": 0.5633,
	"step": 19402
	},
	{
	"epoch": 13.223202170963365,
	"grad_norm": 7.053752899169922,
	"learning_rate": 9.079268318857957e-05,
	"loss": 0.5487,
	"step": 19491
	},
	{
	"epoch": 13.283582089552239,
	"grad_norm": 5.139120101928711,
	"learning_rate": 9.069823099209571e-05,
	"loss": 0.543,
	"step": 19580
	},
	{
	"epoch": 13.343962008141112,
	"grad_norm": 7.9965314865112305,
	"learning_rate": 9.060334645894472e-05,
	"loss": 0.5521,
	"step": 19669
	},
	{
	"epoch": 13.404341926729986,
	"grad_norm": 7.904087543487549,
	"learning_rate": 9.050803059708348e-05,
	"loss": 0.5763,
	"step": 19758
	},
	{
	"epoch": 13.464721845318861,
	"grad_norm": 4.6150221824646,
	"learning_rate": 9.041228441905092e-05,
	"loss": 0.5492,
	"step": 19847
	},
	{
	"epoch": 13.525101763907735,
	"grad_norm": 4.3521857261657715,
	"learning_rate": 9.031610894195715e-05,
	"loss": 0.5544,
	"step": 19936
	},
	{
	"epoch": 13.585481682496608,
	"grad_norm": 6.906470775604248,
	"learning_rate": 9.021950518747276e-05,
	"loss": 0.5922,
	"step": 20025
	},
	{
	"epoch": 13.645861601085482,
	"grad_norm": 7.304365158081055,
	"learning_rate": 9.012247418181792e-05,
	"loss": 0.5473,
	"step": 20114
	},
	{
	"epoch": 13.706241519674355,
	"grad_norm": 5.015029430389404,
	"learning_rate": 9.002501695575148e-05,
	"loss": 0.5843,
	"step": 20203
	},
	{
	"epoch": 13.766621438263229,
	"grad_norm": 5.353032112121582,
	"learning_rate": 8.992713454455999e-05,
	"loss": 0.5423,
	"step": 20292
	},
	{
	"epoch": 13.827001356852103,
	"grad_norm": 4.505341529846191,
	"learning_rate": 8.98288279880468e-05,
	"loss": 0.5511,
	"step": 20381
	},
	{
	"epoch": 13.887381275440976,
	"grad_norm": 6.68435525894165,
	"learning_rate": 8.973009833052087e-05,
	"loss": 0.5429,
	"step": 20470
	},
	{
	"epoch": 13.947761194029852,
	"grad_norm": 4.248044490814209,
	"learning_rate": 8.963094662078583e-05,
	"loss": 0.5637,
	"step": 20559
	},
	{
	"epoch": 14.008141112618725,
	"grad_norm": 4.230225563049316,
	"learning_rate": 8.953137391212875e-05,
	"loss": 0.5551,
	"step": 20648
	},
	{
	"epoch": 14.068521031207599,
	"grad_norm": 4.81500768661499,
	"learning_rate": 8.94313812623089e-05,
	"loss": 0.5027,
	"step": 20737
	},
	{
	"epoch": 14.128900949796472,
	"grad_norm": 6.79054594039917,
	"learning_rate": 8.933096973354664e-05,
	"loss": 0.4904,
	"step": 20826
	},
	{
	"epoch": 14.189280868385346,
	"grad_norm": 4.661177635192871,
	"learning_rate": 8.923014039251208e-05,
	"loss": 0.5076,
	"step": 20915
	},
	{
	"epoch": 14.24966078697422,
	"grad_norm": 10.014252662658691,
	"learning_rate": 8.91288943103137e-05,
	"loss": 0.5068,
	"step": 21004
	},
	{
	"epoch": 14.310040705563093,
	"grad_norm": 8.030250549316406,
	"learning_rate": 8.902723256248704e-05,
	"loss": 0.521,
	"step": 21093
	},
	{
	"epoch": 14.370420624151967,
	"grad_norm": 5.514551162719727,
	"learning_rate": 8.892515622898326e-05,
	"loss": 0.5053,
	"step": 21182
	},
	{
	"epoch": 14.401628222523746,
	"eval_accuracy": 0.193359375,
	"eval_loss": 3.79229736328125,
	"eval_runtime": 41.777,
	"eval_samples_per_second": 12.256,
	"eval_steps_per_second": 0.096,
	"step": 21228
	},
	{
	"epoch": 14.43080054274084,
	"grad_norm": 5.649023056030273,
	"learning_rate": 8.882266639415763e-05,
	"loss": 0.5103,
	"step": 21271
	},
	{
	"epoch": 14.491180461329716,
	"grad_norm": 6.628403663635254,
	"learning_rate": 8.871976414675805e-05,
	"loss": 0.5238,
	"step": 21360
	},
	{
	"epoch": 14.55156037991859,
	"grad_norm": 5.387028217315674,
	"learning_rate": 8.86164505799135e-05,
	"loss": 0.5278,
	"step": 21449
	},
	{
	"epoch": 14.611940298507463,
	"grad_norm": 5.111924171447754,
	"learning_rate": 8.851272679112234e-05,
	"loss": 0.5269,
	"step": 21538
	},
	{
	"epoch": 14.672320217096336,
	"grad_norm": 5.967355728149414,
	"learning_rate": 8.840859388224076e-05,
	"loss": 0.5188,
	"step": 21627
	},
	{
	"epoch": 14.73270013568521,
	"grad_norm": 5.387267589569092,
	"learning_rate": 8.830405295947102e-05,
	"loss": 0.5161,
	"step": 21716
	},
	{
	"epoch": 14.793080054274084,
	"grad_norm": 4.254080772399902,
	"learning_rate": 8.81991051333497e-05,
	"loss": 0.5228,
	"step": 21805
	},
	{
	"epoch": 14.853459972862957,
	"grad_norm": 3.855088233947754,
	"learning_rate": 8.809375151873589e-05,
	"loss": 0.5091,
	"step": 21894
	},
	{
	"epoch": 14.913839891451833,
	"grad_norm": 5.05858039855957,
	"learning_rate": 8.798799323479938e-05,
	"loss": 0.5259,
	"step": 21983
	},
	{
	"epoch": 14.974219810040706,
	"grad_norm": 8.726083755493164,
	"learning_rate": 8.788183140500874e-05,
	"loss": 0.5171,
	"step": 22072
	},
	{
	"epoch": 15.03459972862958,
	"grad_norm": 5.312582492828369,
	"learning_rate": 8.777526715711946e-05,
	"loss": 0.4804,
	"step": 22161
	},
	{
	"epoch": 15.094979647218453,
	"grad_norm": 4.794472694396973,
	"learning_rate": 8.766830162316183e-05,
	"loss": 0.4814,
	"step": 22250
	},
	{
	"epoch": 15.155359565807327,
	"grad_norm": 6.440197944641113,
	"learning_rate": 8.756093593942905e-05,
	"loss": 0.4829,
	"step": 22339
	},
	{
	"epoch": 15.2157394843962,
	"grad_norm": 4.757099151611328,
	"learning_rate": 8.745317124646508e-05,
	"loss": 0.4572,
	"step": 22428
	},
	{
	"epoch": 15.276119402985074,
	"grad_norm": 5.3460235595703125,
	"learning_rate": 8.734500868905258e-05,
	"loss": 0.476,
	"step": 22517
	},
	{
	"epoch": 15.336499321573948,
	"grad_norm": 4.173645496368408,
	"learning_rate": 8.723644941620065e-05,
	"loss": 0.4829,
	"step": 22606
	},
	{
	"epoch": 15.396879240162821,
	"grad_norm": 8.921795845031738,
	"learning_rate": 8.71274945811328e-05,
	"loss": 0.4758,
	"step": 22695
	},
	{
	"epoch": 15.457259158751697,
	"grad_norm": 5.059213161468506,
	"learning_rate": 8.701814534127446e-05,
	"loss": 0.4516,
	"step": 22784
	},
	{
	"epoch": 15.51763907734057,
	"grad_norm": 6.460654258728027,
	"learning_rate": 8.690840285824094e-05,
	"loss": 0.4946,
	"step": 22873
	},
	{
	"epoch": 15.578018995929444,
	"grad_norm": 5.588746547698975,
	"learning_rate": 8.679826829782485e-05,
	"loss": 0.5096,
	"step": 22962
	},
	{
	"epoch": 15.638398914518318,
	"grad_norm": 4.974047660827637,
	"learning_rate": 8.668774282998394e-05,
	"loss": 0.491,
	"step": 23051
	},
	{
	"epoch": 15.698778833107191,
	"grad_norm": 4.4067463874816895,
	"learning_rate": 8.65768276288285e-05,
	"loss": 0.487,
	"step": 23140
	},
	{
	"epoch": 15.759158751696065,
	"grad_norm": 5.659997463226318,
	"learning_rate": 8.646552387260898e-05,
	"loss": 0.4895,
	"step": 23229
	},
	{
	"epoch": 15.819538670284938,
	"grad_norm": 5.777614593505859,
	"learning_rate": 8.635383274370341e-05,
	"loss": 0.4951,
	"step": 23318
	},
	{
	"epoch": 15.879918588873814,
	"grad_norm": 6.594443321228027,
	"learning_rate": 8.62417554286049e-05,
	"loss": 0.4871,
	"step": 23407
	},
	{
	"epoch": 15.940298507462687,
	"grad_norm": 4.5751237869262695,
	"learning_rate": 8.612929311790899e-05,
	"loss": 0.5005,
	"step": 23496
	},
	{
	"epoch": 16.00067842605156,
	"grad_norm": 4.56909704208374,
	"learning_rate": 8.601644700630107e-05,
	"loss": 0.4875,
	"step": 23585
	},
	{
	"epoch": 16.061058344640433,
	"grad_norm": 5.793113708496094,
	"learning_rate": 8.590321829254358e-05,
	"loss": 0.4592,
	"step": 23674
	},
	{
	"epoch": 16.121438263229308,
	"grad_norm": 3.888392686843872,
	"learning_rate": 8.578960817946338e-05,
	"loss": 0.4343,
	"step": 23763
	},
	{
	"epoch": 16.181818181818183,
	"grad_norm": 3.910721778869629,
	"learning_rate": 8.567561787393888e-05,
	"loss": 0.4499,
	"step": 23852
	},
	{
	"epoch": 16.242198100407055,
	"grad_norm": 7.085721492767334,
	"learning_rate": 8.556124858688734e-05,
	"loss": 0.4391,
	"step": 23941
	},
	{
	"epoch": 16.30257801899593,
	"grad_norm": 6.454195022583008,
	"learning_rate": 8.54465015332519e-05,
	"loss": 0.4378,
	"step": 24030
	},
	{
	"epoch": 16.362957937584802,
	"grad_norm": 3.5428030490875244,
	"learning_rate": 8.533137793198866e-05,
	"loss": 0.4511,
	"step": 24119
	},
	{
	"epoch": 16.423337856173678,
	"grad_norm": 3.401646614074707,
	"learning_rate": 8.521587900605385e-05,
	"loss": 0.4642,
	"step": 24208
	},
	{
	"epoch": 16.48371777476255,
	"grad_norm": 6.838740825653076,
	"learning_rate": 8.510000598239075e-05,
	"loss": 0.4584,
	"step": 24297
	},
	{
	"epoch": 16.544097693351425,
	"grad_norm": 5.186567306518555,
	"learning_rate": 8.498376009191665e-05,
	"loss": 0.4741,
	"step": 24386
	},
	{
	"epoch": 16.604477611940297,
	"grad_norm": 3.8350930213928223,
	"learning_rate": 8.486714256950983e-05,
	"loss": 0.4475,
	"step": 24475
	},
	{
	"epoch": 16.664857530529172,
	"grad_norm": 5.290257453918457,
	"learning_rate": 8.475015465399638e-05,
	"loss": 0.4544,
	"step": 24564
	},
	{
	"epoch": 16.725237449118048,
	"grad_norm": 5.533965587615967,
	"learning_rate": 8.463279758813711e-05,
	"loss": 0.457,
	"step": 24653
	},
	{
	"epoch": 16.78561736770692,
	"grad_norm": 5.372981071472168,
	"learning_rate": 8.451507261861425e-05,
	"loss": 0.4537,
	"step": 24742
	},
	{
	"epoch": 16.80189959294437,
	"eval_accuracy": 0.16015625,
	"eval_loss": 3.9037704467773438,
	"eval_runtime": 39.2353,
	"eval_samples_per_second": 13.049,
	"eval_steps_per_second": 0.102,
	"step": 24766
	},
	{
	"epoch": 16.845997286295795,
	"grad_norm": 5.011608600616455,
	"learning_rate": 8.439698099601831e-05,
	"loss": 0.452,
	"step": 24831
	},
	{
	"epoch": 16.906377204884667,
	"grad_norm": 5.051270484924316,
	"learning_rate": 8.427852397483475e-05,
	"loss": 0.4493,
	"step": 24920
	},
	{
	"epoch": 16.966757123473542,
	"grad_norm": 3.670827627182007,
	"learning_rate": 8.415970281343061e-05,
	"loss": 0.4476,
	"step": 25009
	},
	{
	"epoch": 17.027137042062414,
	"grad_norm": 2.6706955432891846,
	"learning_rate": 8.404051877404126e-05,
	"loss": 0.4478,
	"step": 25098
	},
	{
	"epoch": 17.08751696065129,
	"grad_norm": 7.5127787590026855,
	"learning_rate": 8.392097312275686e-05,
	"loss": 0.4244,
	"step": 25187
	},
	{
	"epoch": 17.147896879240164,
	"grad_norm": 3.7548723220825195,
	"learning_rate": 8.380106712950896e-05,
	"loss": 0.4289,
	"step": 25276
	},
	{
	"epoch": 17.208276797829036,
	"grad_norm": 3.9628028869628906,
	"learning_rate": 8.368080206805706e-05,
	"loss": 0.4337,
	"step": 25365
	},
	{
	"epoch": 17.26865671641791,
	"grad_norm": 4.179431915283203,
	"learning_rate": 8.3560179215975e-05,
	"loss": 0.4147,
	"step": 25454
	},
	{
	"epoch": 17.329036635006783,
	"grad_norm": 3.3942129611968994,
	"learning_rate": 8.343919985463745e-05,
	"loss": 0.4175,
	"step": 25543
	},
	{
	"epoch": 17.38941655359566,
	"grad_norm": 4.166045665740967,
	"learning_rate": 8.331786526920626e-05,
	"loss": 0.423,
	"step": 25632
	},
	{
	"epoch": 17.44979647218453,
	"grad_norm": 3.0724310874938965,
	"learning_rate": 8.319617674861682e-05,
	"loss": 0.41,
	"step": 25721
	},
	{
	"epoch": 17.510176390773406,
	"grad_norm": 6.462100028991699,
	"learning_rate": 8.307413558556437e-05,
	"loss": 0.4125,
	"step": 25810
	},
	{
	"epoch": 17.570556309362278,
	"grad_norm": 4.838727951049805,
	"learning_rate": 8.295174307649024e-05,
	"loss": 0.4254,
	"step": 25899
	},
	{
	"epoch": 17.630936227951153,
	"grad_norm": 3.9609103202819824,
	"learning_rate": 8.282900052156817e-05,
	"loss": 0.4141,
	"step": 25988
	},
	{
	"epoch": 17.69131614654003,
	"grad_norm": 3.537935972213745,
	"learning_rate": 8.270590922469037e-05,
	"loss": 0.4189,
	"step": 26077
	},
	{
	"epoch": 17.7516960651289,
	"grad_norm": 5.015251159667969,
	"learning_rate": 8.258247049345373e-05,
	"loss": 0.439,
	"step": 26166
	},
	{
	"epoch": 17.812075983717776,
	"grad_norm": 4.997931957244873,
	"learning_rate": 8.245868563914598e-05,
	"loss": 0.4079,
	"step": 26255
	},
	{
	"epoch": 17.872455902306648,
	"grad_norm": 5.362955093383789,
	"learning_rate": 8.233455597673165e-05,
	"loss": 0.4165,
	"step": 26344
	},
	{
	"epoch": 17.932835820895523,
	"grad_norm": 6.1235880851745605,
	"learning_rate": 8.22100828248382e-05,
	"loss": 0.4121,
	"step": 26433
	},
	{
	"epoch": 17.993215739484395,
	"grad_norm": 4.939189434051514,
	"learning_rate": 8.208526750574199e-05,
	"loss": 0.4191,
	"step": 26522
	},
	{
	"epoch": 18.05359565807327,
	"grad_norm": 4.338520050048828,
	"learning_rate": 8.196011134535416e-05,
	"loss": 0.369,
	"step": 26611
	},
	{
	"epoch": 18.113975576662146,
	"grad_norm": 4.328836441040039,
	"learning_rate": 8.183461567320662e-05,
	"loss": 0.3939,
	"step": 26700
	},
	{
	"epoch": 18.174355495251017,
	"grad_norm": 3.7861499786376953,
	"learning_rate": 8.170878182243792e-05,
	"loss": 0.3841,
	"step": 26789
	},
	{
	"epoch": 18.234735413839893,
	"grad_norm": 4.84774112701416,
	"learning_rate": 8.158261112977913e-05,
	"loss": 0.3702,
	"step": 26878
	},
	{
	"epoch": 18.295115332428765,
	"grad_norm": 7.082802772521973,
	"learning_rate": 8.145610493553948e-05,
	"loss": 0.4059,
	"step": 26967
	},
	{
	"epoch": 18.35549525101764,
	"grad_norm": 2.84909987449646,
	"learning_rate": 8.13292645835923e-05,
	"loss": 0.41,
	"step": 27056
	},
	{
	"epoch": 18.41587516960651,
	"grad_norm": 4.116001605987549,
	"learning_rate": 8.120209142136065e-05,
	"loss": 0.4014,
	"step": 27145
	},
	{
	"epoch": 18.476255088195387,
	"grad_norm": 4.0977783203125,
	"learning_rate": 8.107458679980302e-05,
	"loss": 0.4041,
	"step": 27234
	},
	{
	"epoch": 18.53663500678426,
	"grad_norm": 9.48543930053711,
	"learning_rate": 8.0946752073399e-05,
	"loss": 0.3979,
	"step": 27323
	},
	{
	"epoch": 18.597014925373134,
	"grad_norm": 3.692593574523926,
	"learning_rate": 8.081858860013488e-05,
	"loss": 0.4034,
	"step": 27412
	},
	{
	"epoch": 18.65739484396201,
	"grad_norm": 3.500662326812744,
	"learning_rate": 8.069009774148923e-05,
	"loss": 0.3884,
	"step": 27501
	},
	{
	"epoch": 18.71777476255088,
	"grad_norm": 3.7085442543029785,
	"learning_rate": 8.056128086241841e-05,
	"loss": 0.3829,
	"step": 27590
	},
	{
	"epoch": 18.778154681139757,
	"grad_norm": 4.753846168518066,
	"learning_rate": 8.043213933134208e-05,
	"loss": 0.4079,
	"step": 27679
	},
	{
	"epoch": 18.83853459972863,
	"grad_norm": 3.4297168254852295,
	"learning_rate": 8.030267452012872e-05,
	"loss": 0.3934,
	"step": 27768
	},
	{
	"epoch": 18.898914518317504,
	"grad_norm": 5.62887716293335,
	"learning_rate": 8.017288780408096e-05,
	"loss": 0.4036,
	"step": 27857
	},
	{
	"epoch": 18.959294436906376,
	"grad_norm": 3.0904860496520996,
	"learning_rate": 8.004278056192107e-05,
	"loss": 0.3933,
	"step": 27946
	},
	{
	"epoch": 19.01967435549525,
	"grad_norm": 4.35064697265625,
	"learning_rate": 7.991235417577621e-05,
	"loss": 0.3759,
	"step": 28035
	},
	{
	"epoch": 19.080054274084127,
	"grad_norm": 5.101808547973633,
	"learning_rate": 7.978161003116382e-05,
	"loss": 0.3693,
	"step": 28124
	},
	{
	"epoch": 19.140434192673,
	"grad_norm": 4.391759395599365,
	"learning_rate": 7.96505495169769e-05,
	"loss": 0.3472,
	"step": 28213
	},
	{
	"epoch": 19.200814111261874,
	"grad_norm": 4.793941974639893,
	"learning_rate": 7.951917402546926e-05,
	"loss": 0.3551,
	"step": 28302
	},
	{
	"epoch": 19.202170963364992,
	"eval_accuracy": 0.19140625,
	"eval_loss": 3.9524879455566406,
	"eval_runtime": 19.8893,
	"eval_samples_per_second": 25.742,
	"eval_steps_per_second": 0.201,
	"step": 28304
	},
	{
	"epoch": 19.261194029850746,
	"grad_norm": 3.726491689682007,
	"learning_rate": 7.938748495224061e-05,
	"loss": 0.3555,
	"step": 28391
	},
	{
	"epoch": 19.32157394843962,
	"grad_norm": 3.4001190662384033,
	"learning_rate": 7.925548369622199e-05,
	"loss": 0.361,
	"step": 28480
	},
	{
	"epoch": 19.381953867028493,
	"grad_norm": 4.480808258056641,
	"learning_rate": 7.912317165966059e-05,
	"loss": 0.3656,
	"step": 28569
	},
	{
	"epoch": 19.442333785617368,
	"grad_norm": 3.043093681335449,
	"learning_rate": 7.899055024810511e-05,
	"loss": 0.3819,
	"step": 28658
	},
	{
	"epoch": 19.50271370420624,
	"grad_norm": 3.813091516494751,
	"learning_rate": 7.885762087039075e-05,
	"loss": 0.3939,
	"step": 28747
	},
	{
	"epoch": 19.563093622795115,
	"grad_norm": 4.2613525390625,
	"learning_rate": 7.872438493862415e-05,
	"loss": 0.353,
	"step": 28836
	},
	{
	"epoch": 19.62347354138399,
	"grad_norm": 2.884284734725952,
	"learning_rate": 7.859084386816854e-05,
	"loss": 0.3696,
	"step": 28925
	},
	{
	"epoch": 19.683853459972863,
	"grad_norm": 6.607941627502441,
	"learning_rate": 7.845699907762862e-05,
	"loss": 0.3869,
	"step": 29014
	},
	{
	"epoch": 19.744233378561738,
	"grad_norm": 6.069945335388184,
	"learning_rate": 7.832285198883548e-05,
	"loss": 0.3688,
	"step": 29103
	},
	{
	"epoch": 19.80461329715061,
	"grad_norm": 2.9537928104400635,
	"learning_rate": 7.818840402683151e-05,
	"loss": 0.3624,
	"step": 29192
	},
	{
	"epoch": 19.864993215739485,
	"grad_norm": 4.354130268096924,
	"learning_rate": 7.805365661985535e-05,
	"loss": 0.3589,
	"step": 29281
	},
	{
	"epoch": 19.925373134328357,
	"grad_norm": 3.5923469066619873,
	"learning_rate": 7.791861119932652e-05,
	"loss": 0.3432,
	"step": 29370
	},
	{
	"epoch": 19.985753052917232,
	"grad_norm": 3.5997955799102783,
	"learning_rate": 7.778326919983046e-05,
	"loss": 0.3611,
	"step": 29459
	},
	{
	"epoch": 20.046132971506104,
	"grad_norm": 2.281196355819702,
	"learning_rate": 7.764763205910304e-05,
	"loss": 0.3296,
	"step": 29548
	},
	{
	"epoch": 20.10651289009498,
	"grad_norm": 7.429330348968506,
	"learning_rate": 7.75117012180155e-05,
	"loss": 0.34,
	"step": 29637
	},
	{
	"epoch": 20.166892808683855,
	"grad_norm": 7.913335800170898,
	"learning_rate": 7.737547812055901e-05,
	"loss": 0.3428,
	"step": 29726
	},
	{
	"epoch": 20.227272727272727,
	"grad_norm": 2.8572380542755127,
	"learning_rate": 7.723896421382942e-05,
	"loss": 0.3394,
	"step": 29815
	},
	{
	"epoch": 20.287652645861602,
	"grad_norm": 2.90544056892395,
	"learning_rate": 7.710216094801179e-05,
	"loss": 0.3322,
	"step": 29904
	},
	{
	"epoch": 20.348032564450474,
	"grad_norm": 7.801008224487305,
	"learning_rate": 7.696506977636506e-05,
	"loss": 0.343,
	"step": 29993
	},
	{
	"epoch": 20.40841248303935,
	"grad_norm": 4.56928014755249,
	"learning_rate": 7.682769215520658e-05,
	"loss": 0.3513,
	"step": 30082
	},
	{
	"epoch": 20.46879240162822,
	"grad_norm": 3.2972512245178223,
	"learning_rate": 7.669002954389668e-05,
	"loss": 0.3361,
	"step": 30171
	},
	{
	"epoch": 20.529172320217096,
	"grad_norm": 2.6529455184936523,
	"learning_rate": 7.65520834048231e-05,
	"loss": 0.3481,
	"step": 30260
	},
	{
	"epoch": 20.58955223880597,
	"grad_norm": 2.281811475753784,
	"learning_rate": 7.641385520338551e-05,
	"loss": 0.3439,
	"step": 30349
	},
	{
	"epoch": 20.649932157394844,
	"grad_norm": 5.415365695953369,
	"learning_rate": 7.627534640797991e-05,
	"loss": 0.3426,
	"step": 30438
	},
	{
	"epoch": 20.71031207598372,
	"grad_norm": 4.79844856262207,
	"learning_rate": 7.613655848998305e-05,
	"loss": 0.3237,
	"step": 30527
	},
	{
	"epoch": 20.77069199457259,
	"grad_norm": 4.5184855461120605,
	"learning_rate": 7.599749292373679e-05,
	"loss": 0.3433,
	"step": 30616
	},
	{
	"epoch": 20.831071913161466,
	"grad_norm": 3.099209785461426,
	"learning_rate": 7.585815118653248e-05,
	"loss": 0.329,
	"step": 30705
	},
	{
	"epoch": 20.891451831750338,
	"grad_norm": 2.415534257888794,
	"learning_rate": 7.571853475859519e-05,
	"loss": 0.3377,
	"step": 30794
	},
	{
	"epoch": 20.951831750339213,
	"grad_norm": 4.010440349578857,
	"learning_rate": 7.557864512306802e-05,
	"loss": 0.3375,
	"step": 30883
	},
	{
	"epoch": 21.012211668928085,
	"grad_norm": 3.8156368732452393,
	"learning_rate": 7.543848376599637e-05,
	"loss": 0.3216,
	"step": 30972
	},
	{
	"epoch": 21.07259158751696,
	"grad_norm": 8.568528175354004,
	"learning_rate": 7.529805217631214e-05,
	"loss": 0.3043,
	"step": 31061
	},
	{
	"epoch": 21.132971506105836,
	"grad_norm": 5.376992225646973,
	"learning_rate": 7.515735184581791e-05,
	"loss": 0.3175,
	"step": 31150
	},
	{
	"epoch": 21.193351424694708,
	"grad_norm": 2.6105728149414062,
	"learning_rate": 7.501638426917106e-05,
	"loss": 0.3105,
	"step": 31239
	},
	{
	"epoch": 21.253731343283583,
	"grad_norm": 2.6053969860076904,
	"learning_rate": 7.487515094386792e-05,
	"loss": 0.3002,
	"step": 31328
	},
	{
	"epoch": 21.314111261872455,
	"grad_norm": 2.5073657035827637,
	"learning_rate": 7.473365337022791e-05,
	"loss": 0.3172,
	"step": 31417
	},
	{
	"epoch": 21.37449118046133,
	"grad_norm": 2.63193941116333,
	"learning_rate": 7.459189305137751e-05,
	"loss": 0.3183,
	"step": 31506
	},
	{
	"epoch": 21.434871099050202,
	"grad_norm": 2.9518582820892334,
	"learning_rate": 7.444987149323435e-05,
	"loss": 0.302,
	"step": 31595
	},
	{
	"epoch": 21.495251017639077,
	"grad_norm": 3.682440757751465,
	"learning_rate": 7.430759020449123e-05,
	"loss": 0.3106,
	"step": 31684
	},
	{
	"epoch": 21.555630936227953,
	"grad_norm": 3.564025402069092,
	"learning_rate": 7.416505069660003e-05,
	"loss": 0.3114,
	"step": 31773
	},
	{
	"epoch": 21.602442333785618,
	"eval_accuracy": 0.1953125,
	"eval_loss": 3.8780479431152344,
	"eval_runtime": 40.0838,
	"eval_samples_per_second": 12.773,
	"eval_steps_per_second": 0.1,
	"step": 31842
	},
	{
	"epoch": 21.616010854816825,
	"grad_norm": 4.089629173278809,
	"learning_rate": 7.402225448375569e-05,
	"loss": 0.3152,
	"step": 31862
	},
	{
	"epoch": 21.6763907734057,
	"grad_norm": 4.699454307556152,
	"learning_rate": 7.387920308288014e-05,
	"loss": 0.3094,
	"step": 31951
	},
	{
	"epoch": 21.736770691994572,
	"grad_norm": 3.2713539600372314,
	"learning_rate": 7.373589801360616e-05,
	"loss": 0.3276,
	"step": 32040
	},
	{
	"epoch": 21.797150610583447,
	"grad_norm": 1.9568812847137451,
	"learning_rate": 7.359234079826123e-05,
	"loss": 0.3181,
	"step": 32129
	},
	{
	"epoch": 21.85753052917232,
	"grad_norm": 2.7409889698028564,
	"learning_rate": 7.344853296185141e-05,
	"loss": 0.3023,
	"step": 32218
	},
	{
	"epoch": 21.917910447761194,
	"grad_norm": 2.9756550788879395,
	"learning_rate": 7.330447603204507e-05,
	"loss": 0.3162,
	"step": 32307
	},
	{
	"epoch": 21.978290366350066,
	"grad_norm": 3.314568281173706,
	"learning_rate": 7.316017153915671e-05,
	"loss": 0.2991,
	"step": 32396
	},
	{
	"epoch": 22.03867028493894,
	"grad_norm": 4.315303802490234,
	"learning_rate": 7.301562101613068e-05,
	"loss": 0.305,
	"step": 32485
	},
	{
	"epoch": 22.099050203527817,
	"grad_norm": 4.505661487579346,
	"learning_rate": 7.287082599852493e-05,
	"loss": 0.2807,
	"step": 32574
	},
	{
	"epoch": 22.15943012211669,
	"grad_norm": 3.841827392578125,
	"learning_rate": 7.272578802449464e-05,
	"loss": 0.2742,
	"step": 32663
	},
	{
	"epoch": 22.219810040705564,
	"grad_norm": 4.61216926574707,
	"learning_rate": 7.25805086347759e-05,
	"loss": 0.2994,
	"step": 32752
	},
	{
	"epoch": 22.280189959294436,
	"grad_norm": 2.9822754859924316,
	"learning_rate": 7.243498937266943e-05,
	"loss": 0.2854,
	"step": 32841
	},
	{
	"epoch": 22.34056987788331,
	"grad_norm": 3.7797086238861084,
	"learning_rate": 7.228923178402403e-05,
	"loss": 0.2967,
	"step": 32930
	},
	{
	"epoch": 22.400949796472183,
	"grad_norm": 2.8511717319488525,
	"learning_rate": 7.214323741722027e-05,
	"loss": 0.2772,
	"step": 33019
	},
	{
	"epoch": 22.46132971506106,
	"grad_norm": 2.439438581466675,
	"learning_rate": 7.199700782315403e-05,
	"loss": 0.2957,
	"step": 33108
	},
	{
	"epoch": 22.521709633649934,
	"grad_norm": 2.507317066192627,
	"learning_rate": 7.185054455521994e-05,
	"loss": 0.2883,
	"step": 33197
	},
	{
	"epoch": 22.582089552238806,
	"grad_norm": 2.963704824447632,
	"learning_rate": 7.170384916929504e-05,
	"loss": 0.2892,
	"step": 33286
	},
	{
	"epoch": 22.64246947082768,
	"grad_norm": 3.137892007827759,
	"learning_rate": 7.155692322372208e-05,
	"loss": 0.2936,
	"step": 33375
	},
	{
	"epoch": 22.702849389416553,
	"grad_norm": 2.860560178756714,
	"learning_rate": 7.140976827929308e-05,
	"loss": 0.2719,
	"step": 33464
	},
	{
	"epoch": 22.763229308005428,
	"grad_norm": 3.778202533721924,
	"learning_rate": 7.126238589923269e-05,
	"loss": 0.2909,
	"step": 33553
	},
	{
	"epoch": 22.8236092265943,
	"grad_norm": 8.442693710327148,
	"learning_rate": 7.111477764918159e-05,
	"loss": 0.2957,
	"step": 33642
	},
	{
	"epoch": 22.883989145183175,
	"grad_norm": 2.855881452560425,
	"learning_rate": 7.096694509717994e-05,
	"loss": 0.2893,
	"step": 33731
	},
	{
	"epoch": 22.944369063772047,
	"grad_norm": 3.649304151535034,
	"learning_rate": 7.081888981365062e-05,
	"loss": 0.3019,
	"step": 33820
	},
	{
	"epoch": 23.004748982360923,
	"grad_norm": 3.577422857284546,
	"learning_rate": 7.067061337138249e-05,
	"loss": 0.2794,
	"step": 33909
	},
	{
	"epoch": 23.065128900949798,
	"grad_norm": 3.4041476249694824,
	"learning_rate": 7.052211734551398e-05,
	"loss": 0.2653,
	"step": 33998
	},
	{
	"epoch": 23.12550881953867,
	"grad_norm": 3.21398663520813,
	"learning_rate": 7.037340331351592e-05,
	"loss": 0.2635,
	"step": 34087
	},
	{
	"epoch": 23.185888738127545,
	"grad_norm": 3.606840133666992,
	"learning_rate": 7.022447285517522e-05,
	"loss": 0.2612,
	"step": 34176
	},
	{
	"epoch": 23.246268656716417,
	"grad_norm": 3.4414963722229004,
	"learning_rate": 7.007532755257776e-05,
	"loss": 0.2621,
	"step": 34265
	},
	{
	"epoch": 23.306648575305292,
	"grad_norm": 3.429677724838257,
	"learning_rate": 6.992596899009174e-05,
	"loss": 0.2627,
	"step": 34354
	},
	{
	"epoch": 23.367028493894164,
	"grad_norm": 2.394657850265503,
	"learning_rate": 6.977639875435082e-05,
	"loss": 0.2651,
	"step": 34443
	},
	{
	"epoch": 23.42740841248304,
	"grad_norm": 3.796799421310425,
	"learning_rate": 6.962661843423725e-05,
	"loss": 0.2575,
	"step": 34532
	},
	{
	"epoch": 23.487788331071915,
	"grad_norm": 1.8303537368774414,
	"learning_rate": 6.947662962086506e-05,
	"loss": 0.2656,
	"step": 34621
	},
	{
	"epoch": 23.548168249660787,
	"grad_norm": 5.206216335296631,
	"learning_rate": 6.932643390756298e-05,
	"loss": 0.2789,
	"step": 34710
	},
	{
	"epoch": 23.608548168249662,
	"grad_norm": 2.8069159984588623,
	"learning_rate": 6.917603288985775e-05,
	"loss": 0.2679,
	"step": 34799
	},
	{
	"epoch": 23.668928086838534,
	"grad_norm": 2.3087520599365234,
	"learning_rate": 6.902542816545701e-05,
	"loss": 0.2625,
	"step": 34888
	},
	{
	"epoch": 23.72930800542741,
	"grad_norm": 3.139498472213745,
	"learning_rate": 6.887462133423237e-05,
	"loss": 0.2722,
	"step": 34977
	},
	{
	"epoch": 23.78968792401628,
	"grad_norm": 2.9781806468963623,
	"learning_rate": 6.872361399820245e-05,
	"loss": 0.2633,
	"step": 35066
	},
	{
	"epoch": 23.850067842605156,
	"grad_norm": 3.456528425216675,
	"learning_rate": 6.857240776151576e-05,
	"loss": 0.2767,
	"step": 35155
	},
	{
	"epoch": 23.91044776119403,
	"grad_norm": 2.8766520023345947,
	"learning_rate": 6.842100423043381e-05,
	"loss": 0.2655,
	"step": 35244
	},
	{
	"epoch": 23.970827679782904,
	"grad_norm": 2.811938524246216,
	"learning_rate": 6.826940501331391e-05,
	"loss": 0.26,
	"step": 35333
	},
	{
	"epoch": 24.00271370420624,
	"eval_accuracy": 0.1875,
	"eval_loss": 3.9947586059570312,
	"eval_runtime": 23.8781,
	"eval_samples_per_second": 21.442,
	"eval_steps_per_second": 0.168,
	"step": 35380
	},
	{
	"epoch": 24.03120759837178,
	"grad_norm": 3.4529502391815186,
	"learning_rate": 6.811761172059213e-05,
	"loss": 0.2424,
	"step": 35422
	},
	{
	"epoch": 24.09158751696065,
	"grad_norm": 7.157485485076904,
	"learning_rate": 6.796562596476629e-05,
	"loss": 0.2328,
	"step": 35511
	},
	{
	"epoch": 24.151967435549526,
	"grad_norm": 2.098388433456421,
	"learning_rate": 6.781344936037864e-05,
	"loss": 0.2368,
	"step": 35600
	},
	{
	"epoch": 24.212347354138398,
	"grad_norm": 2.5846946239471436,
	"learning_rate": 6.766108352399885e-05,
	"loss": 0.252,
	"step": 35689
	},
	{
	"epoch": 24.272727272727273,
	"grad_norm": 3.213495969772339,
	"learning_rate": 6.750853007420684e-05,
	"loss": 0.2563,
	"step": 35778
	},
	{
	"epoch": 24.333107191316145,
	"grad_norm": 5.0729498863220215,
	"learning_rate": 6.735579063157545e-05,
	"loss": 0.2623,
	"step": 35867
	},
	{
	"epoch": 24.39348710990502,
	"grad_norm": 2.973792791366577,
	"learning_rate": 6.720286681865339e-05,
	"loss": 0.2558,
	"step": 35956
	},
	{
	"epoch": 24.453867028493896,
	"grad_norm": 1.9252829551696777,
	"learning_rate": 6.704976025994796e-05,
	"loss": 0.2486,
	"step": 36045
	},
	{
	"epoch": 24.514246947082768,
	"grad_norm": 3.5804240703582764,
	"learning_rate": 6.689647258190768e-05,
	"loss": 0.2493,
	"step": 36134
	},
	{
	"epoch": 24.574626865671643,
	"grad_norm": 3.92348575592041,
	"learning_rate": 6.674300541290517e-05,
	"loss": 0.2447,
	"step": 36223
	},
	{
	"epoch": 24.635006784260515,
	"grad_norm": 2.7622110843658447,
	"learning_rate": 6.658936038321971e-05,
	"loss": 0.2381,
	"step": 36312
	},
	{
	"epoch": 24.69538670284939,
	"grad_norm": 2.5953946113586426,
	"learning_rate": 6.643553912502007e-05,
	"loss": 0.2467,
	"step": 36401
	},
	{
	"epoch": 24.755766621438262,
	"grad_norm": 2.8284683227539062,
	"learning_rate": 6.628154327234704e-05,
	"loss": 0.2435,
	"step": 36490
	},
	{
	"epoch": 24.816146540027137,
	"grad_norm": 2.8667030334472656,
	"learning_rate": 6.612737446109614e-05,
	"loss": 0.2476,
	"step": 36579
	},
	{
	"epoch": 24.87652645861601,
	"grad_norm": 2.5920257568359375,
	"learning_rate": 6.597303432900021e-05,
	"loss": 0.248,
	"step": 36668
	},
	{
	"epoch": 24.936906377204885,
	"grad_norm": 3.2936460971832275,
	"learning_rate": 6.581852451561207e-05,
	"loss": 0.2545,
	"step": 36757
	},
	{
	"epoch": 24.99728629579376,
	"grad_norm": 2.2897655963897705,
	"learning_rate": 6.5663846662287e-05,
	"loss": 0.2405,
	"step": 36846
	},
	{
	"epoch": 25.057666214382632,
	"grad_norm": 2.2279489040374756,
	"learning_rate": 6.550900241216545e-05,
	"loss": 0.2235,
	"step": 36935
	},
	{
	"epoch": 25.118046132971507,
	"grad_norm": 1.6091116666793823,
	"learning_rate": 6.535399341015543e-05,
	"loss": 0.2345,
	"step": 37024
	},
	{
	"epoch": 25.17842605156038,
	"grad_norm": 2.490220308303833,
	"learning_rate": 6.51988213029151e-05,
	"loss": 0.2264,
	"step": 37113
	},
	{
	"epoch": 25.238805970149254,
	"grad_norm": 2.3575713634490967,
	"learning_rate": 6.504348773883534e-05,
	"loss": 0.2384,
	"step": 37202
	},
	{
	"epoch": 25.299185888738126,
	"grad_norm": 2.0898985862731934,
	"learning_rate": 6.488799436802216e-05,
	"loss": 0.2332,
	"step": 37291
	},
	{
	"epoch": 25.359565807327,
	"grad_norm": 4.023237705230713,
	"learning_rate": 6.473234284227919e-05,
	"loss": 0.2186,
	"step": 37380
	},
	{
	"epoch": 25.419945725915873,
	"grad_norm": 1.7770565748214722,
	"learning_rate": 6.45765348150901e-05,
	"loss": 0.2318,
	"step": 37469
	},
	{
	"epoch": 25.48032564450475,
	"grad_norm": 3.1752917766571045,
	"learning_rate": 6.442057194160116e-05,
	"loss": 0.2234,
	"step": 37558
	},
	{
	"epoch": 25.540705563093624,
	"grad_norm": 3.1734275817871094,
	"learning_rate": 6.42644558786035e-05,
	"loss": 0.2388,
	"step": 37647
	},
	{
	"epoch": 25.601085481682496,
	"grad_norm": 3.916975259780884,
	"learning_rate": 6.410818828451557e-05,
	"loss": 0.227,
	"step": 37736
	},
	{
	"epoch": 25.66146540027137,
	"grad_norm": 2.7766647338867188,
	"learning_rate": 6.395177081936562e-05,
	"loss": 0.23,
	"step": 37825
	},
	{
	"epoch": 25.721845318860243,
	"grad_norm": 3.657627820968628,
	"learning_rate": 6.379520514477388e-05,
	"loss": 0.2329,
	"step": 37914
	},
	{
	"epoch": 25.78222523744912,
	"grad_norm": 4.11094331741333,
	"learning_rate": 6.363849292393507e-05,
	"loss": 0.2241,
	"step": 38003
	},
	{
	"epoch": 25.84260515603799,
	"grad_norm": 2.6179704666137695,
	"learning_rate": 6.348163582160062e-05,
	"loss": 0.2268,
	"step": 38092
	},
	{
	"epoch": 25.902985074626866,
	"grad_norm": 3.4568240642547607,
	"learning_rate": 6.332463550406107e-05,
	"loss": 0.2197,
	"step": 38181
	},
	{
	"epoch": 25.96336499321574,
	"grad_norm": 1.789491057395935,
	"learning_rate": 6.316749363912833e-05,
	"loss": 0.2087,
	"step": 38270
	},
	{
	"epoch": 26.023744911804613,
	"grad_norm": 2.606367588043213,
	"learning_rate": 6.301021189611793e-05,
	"loss": 0.2153,
	"step": 38359
	},
	{
	"epoch": 26.08412483039349,
	"grad_norm": 2.6728904247283936,
	"learning_rate": 6.28527919458314e-05,
	"loss": 0.2043,
	"step": 38448
	},
	{
	"epoch": 26.14450474898236,
	"grad_norm": 2.2943668365478516,
	"learning_rate": 6.269523546053832e-05,
	"loss": 0.2123,
	"step": 38537
	},
	{
	"epoch": 26.204884667571235,
	"grad_norm": 3.1198699474334717,
	"learning_rate": 6.253754411395882e-05,
	"loss": 0.2128,
	"step": 38626
	},
	{
	"epoch": 26.265264586160107,
	"grad_norm": 2.269235372543335,
	"learning_rate": 6.237971958124559e-05,
	"loss": 0.2213,
	"step": 38715
	},
	{
	"epoch": 26.325644504748983,
	"grad_norm": 3.090557098388672,
	"learning_rate": 6.22217635389661e-05,
	"loss": 0.2253,
	"step": 38804
	},
	{
	"epoch": 26.386024423337854,
	"grad_norm": 4.030007839202881,
	"learning_rate": 6.206367766508497e-05,
	"loss": 0.2104,
	"step": 38893
	},
	{
	"epoch": 26.402985074626866,
	"eval_accuracy": 0.181640625,
	"eval_loss": 4.0000152587890625,
	"eval_runtime": 20.3217,
	"eval_samples_per_second": 25.195,
	"eval_steps_per_second": 0.197,
	"step": 38918
	},
	{
	"epoch": 26.44640434192673,
	"grad_norm": 3.711073637008667,
	"learning_rate": 6.190546363894589e-05,
	"loss": 0.2019,
	"step": 38982
	},
	{
	"epoch": 26.506784260515605,
	"grad_norm": 4.125629901885986,
	"learning_rate": 6.1747123141254e-05,
	"loss": 0.218,
	"step": 39071
	},
	{
	"epoch": 26.567164179104477,
	"grad_norm": 2.719214916229248,
	"learning_rate": 6.158865785405792e-05,
	"loss": 0.2138,
	"step": 39160
	},
	{
	"epoch": 26.627544097693352,
	"grad_norm": 5.083952903747559,
	"learning_rate": 6.143006946073187e-05,
	"loss": 0.2098,
	"step": 39249
	},
	{
	"epoch": 26.687924016282224,
	"grad_norm": 2.9340269565582275,
	"learning_rate": 6.127135964595789e-05,
	"loss": 0.2004,
	"step": 39338
	},
	{
	"epoch": 26.7483039348711,
	"grad_norm": 1.930010437965393,
	"learning_rate": 6.111253009570781e-05,
	"loss": 0.2212,
	"step": 39427
	},
	{
	"epoch": 26.80868385345997,
	"grad_norm": 3.872161388397217,
	"learning_rate": 6.095358249722548e-05,
	"loss": 0.2116,
	"step": 39516
	},
	{
	"epoch": 26.869063772048847,
	"grad_norm": 2.4142067432403564,
	"learning_rate": 6.0794518539008716e-05,
	"loss": 0.2223,
	"step": 39605
	},
	{
	"epoch": 26.929443690637722,
	"grad_norm": 2.2030022144317627,
	"learning_rate": 6.063533991079143e-05,
	"loss": 0.2155,
	"step": 39694
	},
	{
	"epoch": 26.989823609226594,
	"grad_norm": 3.7845208644866943,
	"learning_rate": 6.0476048303525725e-05,
	"loss": 0.2177,
	"step": 39783
	},
	{
	"epoch": 27.05020352781547,
	"grad_norm": 2.8146162033081055,
	"learning_rate": 6.0316645409363794e-05,
	"loss": 0.1945,
	"step": 39872
	},
	{
	"epoch": 27.11058344640434,
	"grad_norm": 2.4782633781433105,
	"learning_rate": 6.015713292164008e-05,
	"loss": 0.1978,
	"step": 39961
	},
	{
	"epoch": 27.170963364993217,
	"grad_norm": 1.6334956884384155,
	"learning_rate": 5.999751253485325e-05,
	"loss": 0.1949,
	"step": 40050
	},
	{
	"epoch": 27.23134328358209,
	"grad_norm": 3.610597610473633,
	"learning_rate": 5.983778594464814e-05,
	"loss": 0.1997,
	"step": 40139
	},
	{
	"epoch": 27.291723202170964,
	"grad_norm": 3.140693426132202,
	"learning_rate": 5.967795484779781e-05,
	"loss": 0.1905,
	"step": 40228
	},
	{
	"epoch": 27.352103120759836,
	"grad_norm": 2.56771183013916,
	"learning_rate": 5.9518020942185494e-05,
	"loss": 0.1893,
	"step": 40317
	},
	{
	"epoch": 27.41248303934871,
	"grad_norm": 1.921730875968933,
	"learning_rate": 5.935798592678653e-05,
	"loss": 0.1972,
	"step": 40406
	},
	{
	"epoch": 27.472862957937586,
	"grad_norm": 2.7568604946136475,
	"learning_rate": 5.91978515016504e-05,
	"loss": 0.2038,
	"step": 40495
	},
	{
	"epoch": 27.533242876526458,
	"grad_norm": 3.526125192642212,
	"learning_rate": 5.903761936788255e-05,
	"loss": 0.1881,
	"step": 40584
	},
	{
	"epoch": 27.593622795115333,
	"grad_norm": 2.400557279586792,
	"learning_rate": 5.887729122762644e-05,
	"loss": 0.1908,
	"step": 40673
	},
	{
	"epoch": 27.654002713704205,
	"grad_norm": 2.814988374710083,
	"learning_rate": 5.8716868784045374e-05,
	"loss": 0.1946,
	"step": 40762
	},
	{
	"epoch": 27.71438263229308,
	"grad_norm": 3.351440906524658,
	"learning_rate": 5.855635374130442e-05,
	"loss": 0.199,
	"step": 40851
	},
	{
	"epoch": 27.774762550881952,
	"grad_norm": 3.108304023742676,
	"learning_rate": 5.839574780455239e-05,
	"loss": 0.2009,
	"step": 40940
	},
	{
	"epoch": 27.835142469470828,
	"grad_norm": 3.37080979347229,
	"learning_rate": 5.823505267990359e-05,
	"loss": 0.1929,
	"step": 41029
	},
	{
	"epoch": 27.895522388059703,
	"grad_norm": 2.852602005004883,
	"learning_rate": 5.807427007441981e-05,
	"loss": 0.1946,
	"step": 41118
	},
	{
	"epoch": 27.955902306648575,
	"grad_norm": 2.15985369682312,
	"learning_rate": 5.791340169609214e-05,
	"loss": 0.1997,
	"step": 41207
	},
	{
	"epoch": 28.01628222523745,
	"grad_norm": 0.9773418307304382,
	"learning_rate": 5.7752449253822815e-05,
	"loss": 0.1789,
	"step": 41296
	},
	{
	"epoch": 28.076662143826322,
	"grad_norm": 2.572413444519043,
	"learning_rate": 5.759141445740713e-05,
	"loss": 0.1816,
	"step": 41385
	},
	{
	"epoch": 28.137042062415198,
	"grad_norm": 1.8453723192214966,
	"learning_rate": 5.7430299017515166e-05,
	"loss": 0.1795,
	"step": 41474
	},
	{
	"epoch": 28.19742198100407,
	"grad_norm": 2.09143328666687,
	"learning_rate": 5.726910464567371e-05,
	"loss": 0.1748,
	"step": 41563
	},
	{
	"epoch": 28.257801899592945,
	"grad_norm": 4.368978977203369,
	"learning_rate": 5.710783305424804e-05,
	"loss": 0.1865,
	"step": 41652
	},
	{
	"epoch": 28.318181818181817,
	"grad_norm": 1.7974387407302856,
	"learning_rate": 5.694648595642372e-05,
	"loss": 0.1878,
	"step": 41741
	},
	{
	"epoch": 28.378561736770692,
	"grad_norm": 3.7262039184570312,
	"learning_rate": 5.6785065066188446e-05,
	"loss": 0.1873,
	"step": 41830
	},
	{
	"epoch": 28.438941655359567,
	"grad_norm": 5.437527656555176,
	"learning_rate": 5.662357209831378e-05,
	"loss": 0.1958,
	"step": 41919
	},
	{
	"epoch": 28.49932157394844,
	"grad_norm": 2.2726356983184814,
	"learning_rate": 5.646200876833699e-05,
	"loss": 0.1818,
	"step": 42008
	},
	{
	"epoch": 28.559701492537314,
	"grad_norm": 3.234407663345337,
	"learning_rate": 5.630037679254278e-05,
	"loss": 0.1893,
	"step": 42097
	},
	{
	"epoch": 28.620081411126186,
	"grad_norm": 2.5418026447296143,
	"learning_rate": 5.613867788794508e-05,
	"loss": 0.185,
	"step": 42186
	},
	{
	"epoch": 28.68046132971506,
	"grad_norm": 2.394573926925659,
	"learning_rate": 5.5976913772268823e-05,
	"loss": 0.1803,
	"step": 42275
	},
	{
	"epoch": 28.740841248303933,
	"grad_norm": 2.4603261947631836,
	"learning_rate": 5.581508616393165e-05,
	"loss": 0.1793,
	"step": 42364
	},
	{
	"epoch": 28.80122116689281,
	"grad_norm": 3.139146566390991,
	"learning_rate": 5.5653196782025696e-05,
	"loss": 0.1797,
	"step": 42453
	},
	{
	"epoch": 28.80325644504749,
	"eval_accuracy": 0.18359375,
	"eval_loss": 4.114618301391602,
	"eval_runtime": 29.6243,
	"eval_samples_per_second": 17.283,
	"eval_steps_per_second": 0.135,
	"step": 42456
	},
	{
	"epoch": 28.86160108548168,
	"grad_norm": 1.7056379318237305,
	"learning_rate": 5.5491247346299334e-05,
	"loss": 0.1811,
	"step": 42542
	},
	{
	"epoch": 28.921981004070556,
	"grad_norm": 1.6604520082473755,
	"learning_rate": 5.532923957713885e-05,
	"loss": 0.1751,
	"step": 42631
	},
	{
	"epoch": 28.98236092265943,
	"grad_norm": 2.6219496726989746,
	"learning_rate": 5.5167175195550235e-05,
	"loss": 0.1814,
	"step": 42720
	},
	{
	"epoch": 29.042740841248303,
	"grad_norm": 1.9368810653686523,
	"learning_rate": 5.500505592314086e-05,
	"loss": 0.1732,
	"step": 42809
	},
	{
	"epoch": 29.10312075983718,
	"grad_norm": 2.2955291271209717,
	"learning_rate": 5.484288348210121e-05,
	"loss": 0.1611,
	"step": 42898
	},
	{
	"epoch": 29.16350067842605,
	"grad_norm": 1.331339716911316,
	"learning_rate": 5.468065959518656e-05,
	"loss": 0.1682,
	"step": 42987
	},
	{
	"epoch": 29.223880597014926,
	"grad_norm": 1.5474261045455933,
	"learning_rate": 5.4518385985698714e-05,
	"loss": 0.1652,
	"step": 43076
	},
	{
	"epoch": 29.284260515603798,
	"grad_norm": 1.5148978233337402,
	"learning_rate": 5.4356064377467684e-05,
	"loss": 0.18,
	"step": 43165
	},
	{
	"epoch": 29.344640434192673,
	"grad_norm": 5.3867878913879395,
	"learning_rate": 5.4193696494833346e-05,
	"loss": 0.1693,
	"step": 43254
	},
	{
	"epoch": 29.40502035278155,
	"grad_norm": 2.20180082321167,
	"learning_rate": 5.4031284062627165e-05,
	"loss": 0.1599,
	"step": 43343
	},
	{
	"epoch": 29.46540027137042,
	"grad_norm": 2.1975841522216797,
	"learning_rate": 5.386882880615383e-05,
	"loss": 0.171,
	"step": 43432
	},
	{
	"epoch": 29.525780189959296,
	"grad_norm": 2.5658628940582275,
	"learning_rate": 5.3706332451173006e-05,
	"loss": 0.1714,
	"step": 43521
	},
	{
	"epoch": 29.586160108548167,
	"grad_norm": 2.7179007530212402,
	"learning_rate": 5.354379672388089e-05,
	"loss": 0.1713,
	"step": 43610
	},
	{
	"epoch": 29.646540027137043,
	"grad_norm": 1.867160677909851,
	"learning_rate": 5.338122335089196e-05,
	"loss": 0.1684,
	"step": 43699
	},
	{
	"epoch": 29.706919945725915,
	"grad_norm": 1.5570918321609497,
	"learning_rate": 5.321861405922063e-05,
	"loss": 0.1713,
	"step": 43788
	},
	{
	"epoch": 29.76729986431479,
	"grad_norm": 3.943268060684204,
	"learning_rate": 5.305597057626279e-05,
	"loss": 0.1714,
	"step": 43877
	},
	{
	"epoch": 29.827679782903665,
	"grad_norm": 1.6523535251617432,
	"learning_rate": 5.2893294629777644e-05,
	"loss": 0.1754,
	"step": 43966
	},
	{
	"epoch": 29.888059701492537,
	"grad_norm": 2.623303174972534,
	"learning_rate": 5.273058794786918e-05,
	"loss": 0.1724,
	"step": 44055
	},
	{
	"epoch": 29.948439620081412,
	"grad_norm": 1.8316419124603271,
	"learning_rate": 5.256785225896794e-05,
	"loss": 0.17,
	"step": 44144
	},
	{
	"epoch": 30.008819538670284,
	"grad_norm": 2.2553136348724365,
	"learning_rate": 5.240508929181258e-05,
	"loss": 0.1766,
	"step": 44233
	},
	{
	"epoch": 30.06919945725916,
	"grad_norm": 1.168664574623108,
	"learning_rate": 5.224230077543153e-05,
	"loss": 0.1523,
	"step": 44322
	},
	{
	"epoch": 30.12957937584803,
	"grad_norm": 1.4800312519073486,
	"learning_rate": 5.2079488439124644e-05,
	"loss": 0.1553,
	"step": 44411
	},
	{
	"epoch": 30.189959294436907,
	"grad_norm": 1.983797550201416,
	"learning_rate": 5.1916654012444796e-05,
	"loss": 0.1605,
	"step": 44500
	},
	{
	"epoch": 30.25033921302578,
	"grad_norm": 1.0819350481033325,
	"learning_rate": 5.1753799225179545e-05,
	"loss": 0.1592,
	"step": 44589
	},
	{
	"epoch": 30.310719131614654,
	"grad_norm": 2.143650531768799,
	"learning_rate": 5.159092580733276e-05,
	"loss": 0.1608,
	"step": 44678
	},
	{
	"epoch": 30.37109905020353,
	"grad_norm": 1.6740977764129639,
	"learning_rate": 5.142803548910614e-05,
	"loss": 0.1591,
	"step": 44767
	},
	{
	"epoch": 30.4314789687924,
	"grad_norm": 2.7269814014434814,
	"learning_rate": 5.126513000088101e-05,
	"loss": 0.1624,
	"step": 44856
	},
	{
	"epoch": 30.491858887381277,
	"grad_norm": 2.9973506927490234,
	"learning_rate": 5.1102211073199805e-05,
	"loss": 0.1597,
	"step": 44945
	},
	{
	"epoch": 30.55223880597015,
	"grad_norm": 1.9262616634368896,
	"learning_rate": 5.093928043674772e-05,
	"loss": 0.1517,
	"step": 45034
	},
	{
	"epoch": 30.612618724559024,
	"grad_norm": 2.577742099761963,
	"learning_rate": 5.077633982233433e-05,
	"loss": 0.1668,
	"step": 45123
	},
	{
	"epoch": 30.672998643147896,
	"grad_norm": 1.0925939083099365,
	"learning_rate": 5.061339096087523e-05,
	"loss": 0.1611,
	"step": 45212
	},
	{
	"epoch": 30.73337856173677,
	"grad_norm": 1.5580718517303467,
	"learning_rate": 5.0450435583373624e-05,
	"loss": 0.1691,
	"step": 45301
	},
	{
	"epoch": 30.793758480325643,
	"grad_norm": 1.7016775608062744,
	"learning_rate": 5.028747542090189e-05,
	"loss": 0.1565,
	"step": 45390
	},
	{
	"epoch": 30.854138398914518,
	"grad_norm": 2.930467128753662,
	"learning_rate": 5.012451220458328e-05,
	"loss": 0.1685,
	"step": 45479
	},
	{
	"epoch": 30.914518317503394,
	"grad_norm": 2.0711212158203125,
	"learning_rate": 4.996154766557351e-05,
	"loss": 0.1606,
	"step": 45568
	},
	{
	"epoch": 30.974898236092265,
	"grad_norm": 1.6559313535690308,
	"learning_rate": 4.9798583535042254e-05,
	"loss": 0.1695,
	"step": 45657
	},
	{
	"epoch": 31.03527815468114,
	"grad_norm": 2.794700860977173,
	"learning_rate": 4.9635621544154945e-05,
	"loss": 0.1506,
	"step": 45746
	},
	{
	"epoch": 31.095658073270013,
	"grad_norm": 2.3707473278045654,
	"learning_rate": 4.947266342405424e-05,
	"loss": 0.1474,
	"step": 45835
	},
	{
	"epoch": 31.156037991858888,
	"grad_norm": 1.6921839714050293,
	"learning_rate": 4.930971090584168e-05,
	"loss": 0.1468,
	"step": 45924
	},
	{
	"epoch": 31.203527815468114,
	"eval_accuracy": 0.181640625,
	"eval_loss": 4.099109649658203,
	"eval_runtime": 19.3439,
	"eval_samples_per_second": 26.468,
	"eval_steps_per_second": 0.207,
	"step": 45994
	},
	{
	"epoch": 31.21641791044776,
	"grad_norm": 1.611038327217102,
	"learning_rate": 4.91467657205593e-05,
	"loss": 0.1511,
	"step": 46013
	},
	{
	"epoch": 31.276797829036635,
	"grad_norm": 1.53565514087677,
	"learning_rate": 4.8983829599171235e-05,
	"loss": 0.1545,
	"step": 46102
	},
	{
	"epoch": 31.33717774762551,
	"grad_norm": 1.6248897314071655,
	"learning_rate": 4.8820904272545336e-05,
	"loss": 0.1456,
	"step": 46191
	},
	{
	"epoch": 31.397557666214382,
	"grad_norm": 1.318975806236267,
	"learning_rate": 4.865799147143479e-05,
	"loss": 0.1483,
	"step": 46280
	},
	{
	"epoch": 31.457937584803258,
	"grad_norm": 1.2955539226531982,
	"learning_rate": 4.8495092926459736e-05,
	"loss": 0.1515,
	"step": 46369
	},
	{
	"epoch": 31.51831750339213,
	"grad_norm": 3.0391619205474854,
	"learning_rate": 4.833221036808882e-05,
	"loss": 0.1479,
	"step": 46458
	},
	{
	"epoch": 31.578697421981005,
	"grad_norm": 1.7275387048721313,
	"learning_rate": 4.81693455266209e-05,
	"loss": 0.1517,
	"step": 46547
	},
	{
	"epoch": 31.639077340569877,
	"grad_norm": 2.1065945625305176,
	"learning_rate": 4.8006500132166625e-05,
	"loss": 0.1501,
	"step": 46636
	},
	{
	"epoch": 31.699457259158752,
	"grad_norm": 0.9785634875297546,
	"learning_rate": 4.784367591463008e-05,
	"loss": 0.1501,
	"step": 46725
	},
	{
	"epoch": 31.759837177747624,
	"grad_norm": 1.2350496053695679,
	"learning_rate": 4.768087460369036e-05,
	"loss": 0.146,
	"step": 46814
	},
	{
	"epoch": 31.8202170963365,
	"grad_norm": 1.5443971157073975,
	"learning_rate": 4.75180979287832e-05,
	"loss": 0.1514,
	"step": 46903
	},
	{
	"epoch": 31.880597014925375,
	"grad_norm": 1.1282203197479248,
	"learning_rate": 4.735534761908267e-05,
	"loss": 0.1478,
	"step": 46992
	},
	{
	"epoch": 31.940976933514246,
	"grad_norm": 1.1595454216003418,
	"learning_rate": 4.719262540348275e-05,
	"loss": 0.15,
	"step": 47081
	},
	{
	"epoch": 32.00135685210312,
	"grad_norm": 1.392354130744934,
	"learning_rate": 4.702993301057897e-05,
	"loss": 0.1402,
	"step": 47170
	},
	{
	"epoch": 32.061736770691994,
	"grad_norm": 1.6813993453979492,
	"learning_rate": 4.686727216865008e-05,
	"loss": 0.1458,
	"step": 47259
	},
	{
	"epoch": 32.122116689280865,
	"grad_norm": 2.200620174407959,
	"learning_rate": 4.6704644605639617e-05,
	"loss": 0.1426,
	"step": 47348
	},
	{
	"epoch": 32.182496607869744,
	"grad_norm": 1.1454344987869263,
	"learning_rate": 4.654205204913762e-05,
	"loss": 0.1417,
	"step": 47437
	},
	{
	"epoch": 32.242876526458616,
	"grad_norm": 1.6104034185409546,
	"learning_rate": 4.6379496226362285e-05,
	"loss": 0.1364,
	"step": 47526
	},
	{
	"epoch": 32.30325644504749,
	"grad_norm": 2.7888503074645996,
	"learning_rate": 4.621697886414152e-05,
	"loss": 0.1415,
	"step": 47615
	},
	{
	"epoch": 32.36363636363637,
	"grad_norm": 1.4862406253814697,
	"learning_rate": 4.605450168889475e-05,
	"loss": 0.1449,
	"step": 47704
	},
	{
	"epoch": 32.42401628222524,
	"grad_norm": 1.396264672279358,
	"learning_rate": 4.5892066426614426e-05,
	"loss": 0.1351,
	"step": 47793
	},
	{
	"epoch": 32.48439620081411,
	"grad_norm": 0.8358775973320007,
	"learning_rate": 4.572967480284777e-05,
	"loss": 0.1478,
	"step": 47882
	},
	{
	"epoch": 32.54477611940298,
	"grad_norm": 1.150931477546692,
	"learning_rate": 4.556732854267846e-05,
	"loss": 0.1388,
	"step": 47971
	},
	{
	"epoch": 32.60515603799186,
	"grad_norm": 1.9280314445495605,
	"learning_rate": 4.540502937070826e-05,
	"loss": 0.1336,
	"step": 48060
	},
	{
	"epoch": 32.66553595658073,
	"grad_norm": 1.9232927560806274,
	"learning_rate": 4.5242779011038746e-05,
	"loss": 0.1357,
	"step": 48149
	},
	{
	"epoch": 32.725915875169605,
	"grad_norm": 1.9297000169754028,
	"learning_rate": 4.5080579187252875e-05,
	"loss": 0.1434,
	"step": 48238
	},
	{
	"epoch": 32.786295793758484,
	"grad_norm": 1.3162543773651123,
	"learning_rate": 4.491843162239686e-05,
	"loss": 0.1357,
	"step": 48327
	},
	{
	"epoch": 32.846675712347356,
	"grad_norm": 2.112964391708374,
	"learning_rate": 4.4756338038961734e-05,
	"loss": 0.1347,
	"step": 48416
	},
	{
	"epoch": 32.90705563093623,
	"grad_norm": 2.025836944580078,
	"learning_rate": 4.459430015886507e-05,
	"loss": 0.1361,
	"step": 48505
	},
	{
	"epoch": 32.9674355495251,
	"grad_norm": 2.231003999710083,
	"learning_rate": 4.443231970343273e-05,
	"loss": 0.1493,
	"step": 48594
	},
	{
	"epoch": 33.02781546811398,
	"grad_norm": 0.858778715133667,
	"learning_rate": 4.427039839338051e-05,
	"loss": 0.1335,
	"step": 48683
	},
	{
	"epoch": 33.08819538670285,
	"grad_norm": 1.7645868062973022,
	"learning_rate": 4.410853794879596e-05,
	"loss": 0.1318,
	"step": 48772
	},
	{
	"epoch": 33.14857530529172,
	"grad_norm": 3.9215147495269775,
	"learning_rate": 4.3946740089120036e-05,
	"loss": 0.1289,
	"step": 48861
	},
	{
	"epoch": 33.208955223880594,
	"grad_norm": 1.0674065351486206,
	"learning_rate": 4.378500653312886e-05,
	"loss": 0.1314,
	"step": 48950
	},
	{
	"epoch": 33.26933514246947,
	"grad_norm": 1.1910934448242188,
	"learning_rate": 4.362333899891545e-05,
	"loss": 0.1285,
	"step": 49039
	},
	{
	"epoch": 33.329715061058344,
	"grad_norm": 3.3156814575195312,
	"learning_rate": 4.346173920387146e-05,
	"loss": 0.1314,
	"step": 49128
	},
	{
	"epoch": 33.390094979647216,
	"grad_norm": 1.518210530281067,
	"learning_rate": 4.330020886466898e-05,
	"loss": 0.1327,
	"step": 49217
	},
	{
	"epoch": 33.450474898236095,
	"grad_norm": 2.037992238998413,
	"learning_rate": 4.313874969724227e-05,
	"loss": 0.1294,
	"step": 49306
	},
	{
	"epoch": 33.51085481682497,
	"grad_norm": 1.0530787706375122,
	"learning_rate": 4.2977363416769495e-05,
	"loss": 0.1338,
	"step": 49395
	},
	{
	"epoch": 33.57123473541384,
	"grad_norm": 2.6281962394714355,
	"learning_rate": 4.281605173765462e-05,
	"loss": 0.1385,
	"step": 49484
	},
	{
	"epoch": 33.60379918588874,
	"eval_accuracy": 0.177734375,
	"eval_loss": 4.106353759765625,
	"eval_runtime": 43.8825,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.091,
	"step": 49532
	},
	{
	"epoch": 33.63161465400271,
	"grad_norm": 1.659097671508789,
	"learning_rate": 4.265481637350902e-05,
	"loss": 0.1334,
	"step": 49573
	},
	{
	"epoch": 33.69199457259159,
	"grad_norm": 1.2055881023406982,
	"learning_rate": 4.249365903713345e-05,
	"loss": 0.1277,
	"step": 49662
	},
	{
	"epoch": 33.75237449118046,
	"grad_norm": 1.3534148931503296,
	"learning_rate": 4.2332581440499765e-05,
	"loss": 0.1241,
	"step": 49751
	},
	{
	"epoch": 33.81275440976933,
	"grad_norm": 1.6355328559875488,
	"learning_rate": 4.217158529473275e-05,
	"loss": 0.1309,
	"step": 49840
	},
	{
	"epoch": 33.87313432835821,
	"grad_norm": 1.2613086700439453,
	"learning_rate": 4.2010672310091895e-05,
	"loss": 0.1306,
	"step": 49929
	},
	{
	"epoch": 33.933514246947084,
	"grad_norm": 2.427302837371826,
	"learning_rate": 4.1849844195953314e-05,
	"loss": 0.1335,
	"step": 50018
	},
	{
	"epoch": 33.993894165535956,
	"grad_norm": 1.0683902502059937,
	"learning_rate": 4.1689102660791536e-05,
	"loss": 0.137,
	"step": 50107
	},
	{
	"epoch": 34.05427408412483,
	"grad_norm": 1.184240460395813,
	"learning_rate": 4.1528449412161375e-05,
	"loss": 0.1206,
	"step": 50196
	},
	{
	"epoch": 34.114654002713706,
	"grad_norm": 2.108067512512207,
	"learning_rate": 4.136788615667974e-05,
	"loss": 0.125,
	"step": 50285
	},
	{
	"epoch": 34.17503392130258,
	"grad_norm": 1.4755454063415527,
	"learning_rate": 4.120741460000758e-05,
	"loss": 0.1283,
	"step": 50374
	},
	{
	"epoch": 34.23541383989145,
	"grad_norm": 1.8144526481628418,
	"learning_rate": 4.1047036446831686e-05,
	"loss": 0.1279,
	"step": 50463
	},
	{
	"epoch": 34.29579375848033,
	"grad_norm": 1.2851365804672241,
	"learning_rate": 4.088675340084668e-05,
	"loss": 0.1207,
	"step": 50552
	},
	{
	"epoch": 34.3561736770692,
	"grad_norm": 1.1482937335968018,
	"learning_rate": 4.072656716473684e-05,
	"loss": 0.1251,
	"step": 50641
	},
	{
	"epoch": 34.41655359565807,
	"grad_norm": 1.2348805665969849,
	"learning_rate": 4.0566479440158036e-05,
	"loss": 0.1235,
	"step": 50730
	},
	{
	"epoch": 34.476933514246944,
	"grad_norm": 1.1819324493408203,
	"learning_rate": 4.040649192771962e-05,
	"loss": 0.132,
	"step": 50819
	},
	{
	"epoch": 34.53731343283582,
	"grad_norm": 1.1830766201019287,
	"learning_rate": 4.0246606326966425e-05,
	"loss": 0.1176,
	"step": 50908
	},
	{
	"epoch": 34.597693351424695,
	"grad_norm": 1.9532086849212646,
	"learning_rate": 4.0086824336360676e-05,
	"loss": 0.1231,
	"step": 50997
	},
	{
	"epoch": 34.65807327001357,
	"grad_norm": 1.529571294784546,
	"learning_rate": 3.992714765326396e-05,
	"loss": 0.1242,
	"step": 51086
	},
	{
	"epoch": 34.71845318860244,
	"grad_norm": 1.2561233043670654,
	"learning_rate": 3.9767577973919146e-05,
	"loss": 0.1255,
	"step": 51175
	},
	{
	"epoch": 34.77883310719132,
	"grad_norm": 1.7090590000152588,
	"learning_rate": 3.960811699343243e-05,
	"loss": 0.1215,
	"step": 51264
	},
	{
	"epoch": 34.83921302578019,
	"grad_norm": 2.106395959854126,
	"learning_rate": 3.94487664057553e-05,
	"loss": 0.1285,
	"step": 51353
	},
	{
	"epoch": 34.89959294436906,
	"grad_norm": 1.165230393409729,
	"learning_rate": 3.928952790366654e-05,
	"loss": 0.1216,
	"step": 51442
	},
	{
	"epoch": 34.95997286295794,
	"grad_norm": 1.2061336040496826,
	"learning_rate": 3.913040317875424e-05,
	"loss": 0.1164,
	"step": 51531
	},
	{
	"epoch": 35.02035278154681,
	"grad_norm": 1.160407304763794,
	"learning_rate": 3.897139392139788e-05,
	"loss": 0.1258,
	"step": 51620
	},
	{
	"epoch": 35.080732700135684,
	"grad_norm": 0.8674483299255371,
	"learning_rate": 3.881250182075026e-05,
	"loss": 0.1129,
	"step": 51709
	},
	{
	"epoch": 35.141112618724556,
	"grad_norm": 1.4497802257537842,
	"learning_rate": 3.8653728564719674e-05,
	"loss": 0.1244,
	"step": 51798
	},
	{
	"epoch": 35.201492537313435,
	"grad_norm": 1.649856448173523,
	"learning_rate": 3.8495075839951937e-05,
	"loss": 0.1157,
	"step": 51887
	},
	{
	"epoch": 35.26187245590231,
	"grad_norm": 1.97478187084198,
	"learning_rate": 3.833654533181244e-05,
	"loss": 0.1182,
	"step": 51976
	},
	{
	"epoch": 35.32225237449118,
	"grad_norm": 1.4241811037063599,
	"learning_rate": 3.8178138724368275e-05,
	"loss": 0.1195,
	"step": 52065
	},
	{
	"epoch": 35.38263229308006,
	"grad_norm": 1.9427152872085571,
	"learning_rate": 3.8019857700370345e-05,
	"loss": 0.1214,
	"step": 52154
	},
	{
	"epoch": 35.44301221166893,
	"grad_norm": 1.2185932397842407,
	"learning_rate": 3.7861703941235444e-05,
	"loss": 0.1149,
	"step": 52243
	},
	{
	"epoch": 35.5033921302578,
	"grad_norm": 1.1983317136764526,
	"learning_rate": 3.770367912702849e-05,
	"loss": 0.1182,
	"step": 52332
	},
	{
	"epoch": 35.56377204884667,
	"grad_norm": 0.9646018147468567,
	"learning_rate": 3.7545784936444605e-05,
	"loss": 0.1272,
	"step": 52421
	},
	{
	"epoch": 35.62415196743555,
	"grad_norm": 1.189382791519165,
	"learning_rate": 3.73880230467913e-05,
	"loss": 0.1139,
	"step": 52510
	},
	{
	"epoch": 35.68453188602442,
	"grad_norm": 1.0490000247955322,
	"learning_rate": 3.7230395133970595e-05,
	"loss": 0.1179,
	"step": 52599
	},
	{
	"epoch": 35.744911804613295,
	"grad_norm": 1.055656909942627,
	"learning_rate": 3.7072902872461365e-05,
	"loss": 0.1184,
	"step": 52688
	},
	{
	"epoch": 35.805291723202174,
	"grad_norm": 1.564658522605896,
	"learning_rate": 3.691554793530143e-05,
	"loss": 0.12,
	"step": 52777
	},
	{
	"epoch": 35.865671641791046,
	"grad_norm": 1.054408311843872,
	"learning_rate": 3.6758331994069784e-05,
	"loss": 0.1145,
	"step": 52866
	},
	{
	"epoch": 35.92605156037992,
	"grad_norm": 1.5454896688461304,
	"learning_rate": 3.660125671886892e-05,
	"loss": 0.1104,
	"step": 52955
	},
	{
	"epoch": 35.98643147896879,
	"grad_norm": 0.9646552801132202,
	"learning_rate": 3.6444323778307e-05,
	"loss": 0.1192,
	"step": 53044
	},
	{
	"epoch": 36.004070556309365,
	"eval_accuracy": 0.181640625,
	"eval_loss": 4.21491813659668,
	"eval_runtime": 20.6978,
	"eval_samples_per_second": 24.737,
	"eval_steps_per_second": 0.193,
	"step": 53070
	},
	{
	"epoch": 36.04681139755767,
	"grad_norm": 2.2136874198913574,
	"learning_rate": 3.628753483948017e-05,
	"loss": 0.115,
	"step": 53133
	},
	{
	"epoch": 36.10719131614654,
	"grad_norm": 0.8969342708587646,
	"learning_rate": 3.613089156795489e-05,
	"loss": 0.111,
	"step": 53222
	},
	{
	"epoch": 36.16757123473541,
	"grad_norm": 1.5373083353042603,
	"learning_rate": 3.5974395627750136e-05,
	"loss": 0.1181,
	"step": 53311
	},
	{
	"epoch": 36.22795115332429,
	"grad_norm": 1.0511338710784912,
	"learning_rate": 3.581804868131986e-05,
	"loss": 0.1089,
	"step": 53400
	},
	{
	"epoch": 36.28833107191316,
	"grad_norm": 0.6941206455230713,
	"learning_rate": 3.566185238953516e-05,
	"loss": 0.1133,
	"step": 53489
	},
	{
	"epoch": 36.348710990502035,
	"grad_norm": 1.0698457956314087,
	"learning_rate": 3.5505808411666805e-05,
	"loss": 0.1046,
	"step": 53578
	},
	{
	"epoch": 36.40909090909091,
	"grad_norm": 1.1524955034255981,
	"learning_rate": 3.5349918405367533e-05,
	"loss": 0.1111,
	"step": 53667
	},
	{
	"epoch": 36.469470827679785,
	"grad_norm": 0.7653555274009705,
	"learning_rate": 3.519418402665441e-05,
	"loss": 0.1102,
	"step": 53756
	},
	{
	"epoch": 36.52985074626866,
	"grad_norm": 0.7626907229423523,
	"learning_rate": 3.503860692989129e-05,
	"loss": 0.1109,
	"step": 53845
	},
	{
	"epoch": 36.59023066485753,
	"grad_norm": 1.2246617078781128,
	"learning_rate": 3.4883188767771235e-05,
	"loss": 0.1087,
	"step": 53934
	},
	{
	"epoch": 36.6506105834464,
	"grad_norm": 0.8445035815238953,
	"learning_rate": 3.472793119129891e-05,
	"loss": 0.1104,
	"step": 54023
	},
	{
	"epoch": 36.71099050203528,
	"grad_norm": 0.4783117175102234,
	"learning_rate": 3.4572835849773124e-05,
	"loss": 0.1101,
	"step": 54112
	},
	{
	"epoch": 36.77137042062415,
	"grad_norm": 0.6431951522827148,
	"learning_rate": 3.441790439076924e-05,
	"loss": 0.1128,
	"step": 54201
	},
	{
	"epoch": 36.83175033921302,
	"grad_norm": 0.8060305118560791,
	"learning_rate": 3.426313846012174e-05,
	"loss": 0.1077,
	"step": 54290
	},
	{
	"epoch": 36.8921302578019,
	"grad_norm": 1.309480905532837,
	"learning_rate": 3.410853970190662e-05,
	"loss": 0.1094,
	"step": 54379
	},
	{
	"epoch": 36.952510176390774,
	"grad_norm": 0.7138769030570984,
	"learning_rate": 3.395410975842408e-05,
	"loss": 0.1119,
	"step": 54468
	},
	{
	"epoch": 37.012890094979646,
	"grad_norm": 1.4216080904006958,
	"learning_rate": 3.379985027018098e-05,
	"loss": 0.1117,
	"step": 54557
	},
	{
	"epoch": 37.07327001356852,
	"grad_norm": 1.4457802772521973,
	"learning_rate": 3.3645762875873415e-05,
	"loss": 0.1024,
	"step": 54646
	},
	{
	"epoch": 37.1336499321574,
	"grad_norm": 0.7809485793113708,
	"learning_rate": 3.349184921236939e-05,
	"loss": 0.1054,
	"step": 54735
	},
	{
	"epoch": 37.19402985074627,
	"grad_norm": 1.7159395217895508,
	"learning_rate": 3.333811091469129e-05,
	"loss": 0.1028,
	"step": 54824
	},
	{
	"epoch": 37.25440976933514,
	"grad_norm": 0.48482632637023926,
	"learning_rate": 3.318454961599864e-05,
	"loss": 0.105,
	"step": 54913
	},
	{
	"epoch": 37.31478968792402,
	"grad_norm": 1.0585776567459106,
	"learning_rate": 3.30311669475707e-05,
	"loss": 0.0995,
	"step": 55002
	},
	{
	"epoch": 37.37516960651289,
	"grad_norm": 0.7327682971954346,
	"learning_rate": 3.2877964538789154e-05,
	"loss": 0.1072,
	"step": 55091
	},
	{
	"epoch": 37.43554952510176,
	"grad_norm": 1.583203911781311,
	"learning_rate": 3.272494401712078e-05,
	"loss": 0.104,
	"step": 55180
	},
	{
	"epoch": 37.495929443690635,
	"grad_norm": 1.2305749654769897,
	"learning_rate": 3.257210700810015e-05,
	"loss": 0.1038,
	"step": 55269
	},
	{
	"epoch": 37.556309362279514,
	"grad_norm": 8.245156288146973,
	"learning_rate": 3.241945513531241e-05,
	"loss": 0.1087,
	"step": 55358
	},
	{
	"epoch": 37.616689280868385,
	"grad_norm": 0.8825012445449829,
	"learning_rate": 3.226699002037602e-05,
	"loss": 0.109,
	"step": 55447
	},
	{
	"epoch": 37.67706919945726,
	"grad_norm": 1.1218957901000977,
	"learning_rate": 3.2114713282925466e-05,
	"loss": 0.1038,
	"step": 55536
	},
	{
	"epoch": 37.737449118046136,
	"grad_norm": 1.4190541505813599,
	"learning_rate": 3.196262654059419e-05,
	"loss": 0.108,
	"step": 55625
	},
	{
	"epoch": 37.79782903663501,
	"grad_norm": 0.5339131951332092,
	"learning_rate": 3.1810731408997185e-05,
	"loss": 0.1103,
	"step": 55714
	},
	{
	"epoch": 37.85820895522388,
	"grad_norm": 1.3955272436141968,
	"learning_rate": 3.1659029501714077e-05,
	"loss": 0.0993,
	"step": 55803
	},
	{
	"epoch": 37.91858887381275,
	"grad_norm": 1.7271915674209595,
	"learning_rate": 3.150752243027185e-05,
	"loss": 0.1081,
	"step": 55892
	},
	{
	"epoch": 37.97896879240163,
	"grad_norm": 1.272377848625183,
	"learning_rate": 3.1356211804127726e-05,
	"loss": 0.0988,
	"step": 55981
	},
	{
	"epoch": 38.0393487109905,
	"grad_norm": 1.4303677082061768,
	"learning_rate": 3.1205099230652134e-05,
	"loss": 0.0947,
	"step": 56070
	},
	{
	"epoch": 38.099728629579374,
	"grad_norm": 0.8582963347434998,
	"learning_rate": 3.105418631511151e-05,
	"loss": 0.1023,
	"step": 56159
	},
	{
	"epoch": 38.16010854816825,
	"grad_norm": 0.9735032916069031,
	"learning_rate": 3.090347466065141e-05,
	"loss": 0.0994,
	"step": 56248
	},
	{
	"epoch": 38.220488466757125,
	"grad_norm": 0.8023036122322083,
	"learning_rate": 3.075296586827938e-05,
	"loss": 0.0968,
	"step": 56337
	},
	{
	"epoch": 38.280868385346,
	"grad_norm": 0.8283627033233643,
	"learning_rate": 3.060266153684792e-05,
	"loss": 0.0988,
	"step": 56426
	},
	{
	"epoch": 38.34124830393487,
	"grad_norm": 1.1911463737487793,
	"learning_rate": 3.045256326303762e-05,
	"loss": 0.1015,
	"step": 56515
	},
	{
	"epoch": 38.40162822252375,
	"grad_norm": 1.3183075189590454,
	"learning_rate": 3.030267264134003e-05,
	"loss": 0.1014,
	"step": 56604
	},
	{
	"epoch": 38.404341926729984,
	"eval_accuracy": 0.169921875,
	"eval_loss": 4.234889984130859,
	"eval_runtime": 20.5487,
	"eval_samples_per_second": 24.916,
	"eval_steps_per_second": 0.195,
	"step": 56608
	},
	{
	"epoch": 38.46200814111262,
	"grad_norm": 0.9125858545303345,
	"learning_rate": 3.0152991264040888e-05,
	"loss": 0.101,
	"step": 56693
	},
	{
	"epoch": 38.52238805970149,
	"grad_norm": 0.5899451971054077,
	"learning_rate": 3.0003520721203106e-05,
	"loss": 0.0969,
	"step": 56782
	},
	{
	"epoch": 38.58276797829036,
	"grad_norm": 1.2424014806747437,
	"learning_rate": 2.9854262600649907e-05,
	"loss": 0.1017,
	"step": 56871
	},
	{
	"epoch": 38.64314789687924,
	"grad_norm": 1.250267744064331,
	"learning_rate": 2.9705218487947984e-05,
	"loss": 0.0982,
	"step": 56960
	},
	{
	"epoch": 38.703527815468114,
	"grad_norm": 1.153306245803833,
	"learning_rate": 2.9556389966390552e-05,
	"loss": 0.1006,
	"step": 57049
	},
	{
	"epoch": 38.763907734056986,
	"grad_norm": 1.2941042184829712,
	"learning_rate": 2.940777861698068e-05,
	"loss": 0.0975,
	"step": 57138
	},
	{
	"epoch": 38.824287652645864,
	"grad_norm": 1.0015143156051636,
	"learning_rate": 2.9259386018414396e-05,
	"loss": 0.1054,
	"step": 57227
	},
	{
	"epoch": 38.884667571234736,
	"grad_norm": 0.8103719353675842,
	"learning_rate": 2.9111213747063915e-05,
	"loss": 0.1004,
	"step": 57316
	},
	{
	"epoch": 38.94504748982361,
	"grad_norm": 2.045173406600952,
	"learning_rate": 2.896326337696098e-05,
	"loss": 0.0993,
	"step": 57405
	},
	{
	"epoch": 39.00542740841248,
	"grad_norm": 0.9834128022193909,
	"learning_rate": 2.8815536479780014e-05,
	"loss": 0.0971,
	"step": 57494
	},
	{
	"epoch": 39.06580732700136,
	"grad_norm": 0.6491034030914307,
	"learning_rate": 2.8668034624821514e-05,
	"loss": 0.0957,
	"step": 57583
	},
	{
	"epoch": 39.12618724559023,
	"grad_norm": 1.0920275449752808,
	"learning_rate": 2.852075937899541e-05,
	"loss": 0.0938,
	"step": 57672
	},
	{
	"epoch": 39.1865671641791,
	"grad_norm": 0.9111031293869019,
	"learning_rate": 2.8373712306804267e-05,
	"loss": 0.0954,
	"step": 57761
	},
	{
	"epoch": 39.24694708276798,
	"grad_norm": 0.7507003545761108,
	"learning_rate": 2.8226894970326856e-05,
	"loss": 0.0926,
	"step": 57850
	},
	{
	"epoch": 39.30732700135685,
	"grad_norm": 1.0884746313095093,
	"learning_rate": 2.8080308929201392e-05,
	"loss": 0.0946,
	"step": 57939
	},
	{
	"epoch": 39.367706919945725,
	"grad_norm": 0.7752851843833923,
	"learning_rate": 2.793395574060911e-05,
	"loss": 0.0925,
	"step": 58028
	},
	{
	"epoch": 39.4280868385346,
	"grad_norm": 0.8282026052474976,
	"learning_rate": 2.7787836959257617e-05,
	"loss": 0.0954,
	"step": 58117
	},
	{
	"epoch": 39.488466757123476,
	"grad_norm": 0.7554723620414734,
	"learning_rate": 2.764195413736444e-05,
	"loss": 0.0965,
	"step": 58206
	},
	{
	"epoch": 39.54884667571235,
	"grad_norm": 1.461937427520752,
	"learning_rate": 2.7496308824640505e-05,
	"loss": 0.0963,
	"step": 58295
	},
	{
	"epoch": 39.60922659430122,
	"grad_norm": 1.260448694229126,
	"learning_rate": 2.735090256827365e-05,
	"loss": 0.0901,
	"step": 58384
	},
	{
	"epoch": 39.6696065128901,
	"grad_norm": 0.5917372703552246,
	"learning_rate": 2.720573691291226e-05,
	"loss": 0.0912,
	"step": 58473
	},
	{
	"epoch": 39.72998643147897,
	"grad_norm": 1.0899447202682495,
	"learning_rate": 2.70608134006488e-05,
	"loss": 0.0971,
	"step": 58562
	},
	{
	"epoch": 39.79036635006784,
	"grad_norm": 0.700945258140564,
	"learning_rate": 2.691613357100348e-05,
	"loss": 0.0959,
	"step": 58651
	},
	{
	"epoch": 39.850746268656714,
	"grad_norm": 0.563937783241272,
	"learning_rate": 2.6771698960907844e-05,
	"loss": 0.0924,
	"step": 58740
	},
	{
	"epoch": 39.91112618724559,
	"grad_norm": 1.2287607192993164,
	"learning_rate": 2.6627511104688463e-05,
	"loss": 0.0915,
	"step": 58829
	},
	{
	"epoch": 39.971506105834465,
	"grad_norm": 1.0432151556015015,
	"learning_rate": 2.6483571534050684e-05,
	"loss": 0.094,
	"step": 58918
	},
	{
	"epoch": 40.031886024423336,
	"grad_norm": 0.9087603092193604,
	"learning_rate": 2.6339881778062286e-05,
	"loss": 0.0914,
	"step": 59007
	},
	{
	"epoch": 40.09226594301221,
	"grad_norm": 1.0434340238571167,
	"learning_rate": 2.6196443363137295e-05,
	"loss": 0.0932,
	"step": 59096
	},
	{
	"epoch": 40.15264586160109,
	"grad_norm": 1.4416966438293457,
	"learning_rate": 2.6053257813019756e-05,
	"loss": 0.0951,
	"step": 59185
	},
	{
	"epoch": 40.21302578018996,
	"grad_norm": 0.5194874405860901,
	"learning_rate": 2.5910326648767464e-05,
	"loss": 0.0909,
	"step": 59274
	},
	{
	"epoch": 40.27340569877883,
	"grad_norm": 0.4782836139202118,
	"learning_rate": 2.5767651388735976e-05,
	"loss": 0.0917,
	"step": 59363
	},
	{
	"epoch": 40.33378561736771,
	"grad_norm": 0.7723681926727295,
	"learning_rate": 2.5625233548562288e-05,
	"loss": 0.0928,
	"step": 59452
	},
	{
	"epoch": 40.39416553595658,
	"grad_norm": 0.5637179017066956,
	"learning_rate": 2.5483074641148896e-05,
	"loss": 0.095,
	"step": 59541
	},
	{
	"epoch": 40.45454545454545,
	"grad_norm": 0.9517094492912292,
	"learning_rate": 2.534117617664766e-05,
	"loss": 0.0857,
	"step": 59630
	},
	{
	"epoch": 40.514925373134325,
	"grad_norm": 1.0360537767410278,
	"learning_rate": 2.5199539662443683e-05,
	"loss": 0.0923,
	"step": 59719
	},
	{
	"epoch": 40.575305291723204,
	"grad_norm": 0.993859589099884,
	"learning_rate": 2.5058166603139453e-05,
	"loss": 0.0918,
	"step": 59808
	},
	{
	"epoch": 40.635685210312076,
	"grad_norm": 0.5905105471611023,
	"learning_rate": 2.491705850053876e-05,
	"loss": 0.0914,
	"step": 59897
	},
	{
	"epoch": 40.69606512890095,
	"grad_norm": 1.8507524728775024,
	"learning_rate": 2.4776216853630747e-05,
	"loss": 0.0948,
	"step": 59986
	},
	{
	"epoch": 40.75644504748983,
	"grad_norm": 0.8569918274879456,
	"learning_rate": 2.4635643158574034e-05,
	"loss": 0.0933,
	"step": 60075
	},
	{
	"epoch": 40.80461329715061,
	"eval_accuracy": 0.17578125,
	"eval_loss": 4.287986755371094,
	"eval_runtime": 29.4248,
	"eval_samples_per_second": 17.4,
	"eval_steps_per_second": 0.136,
	"step": 60146
	},
	{
	"epoch": 40.8168249660787,
	"grad_norm": 1.2466926574707031,
	"learning_rate": 2.4495338908680733e-05,
	"loss": 0.0884,
	"step": 60164
	},
	{
	"epoch": 40.87720488466757,
	"grad_norm": 1.0967109203338623,
	"learning_rate": 2.4355305594400703e-05,
	"loss": 0.0885,
	"step": 60253
	},
	{
	"epoch": 40.93758480325644,
	"grad_norm": 3.7335941791534424,
	"learning_rate": 2.4215544703305624e-05,
	"loss": 0.0863,
	"step": 60342
	},
	{
	"epoch": 40.99796472184532,
	"grad_norm": 0.7128244638442993,
	"learning_rate": 2.4076057720073263e-05,
	"loss": 0.0916,
	"step": 60431
	},
	{
	"epoch": 41.05834464043419,
	"grad_norm": 0.6948025226593018,
	"learning_rate": 2.393684612647165e-05,
	"loss": 0.0907,
	"step": 60520
	},
	{
	"epoch": 41.118724559023065,
	"grad_norm": 0.9347543716430664,
	"learning_rate": 2.3797911401343324e-05,
	"loss": 0.0863,
	"step": 60609
	},
	{
	"epoch": 41.17910447761194,
	"grad_norm": 0.6577604413032532,
	"learning_rate": 2.3659255020589693e-05,
	"loss": 0.0893,
	"step": 60698
	},
	{
	"epoch": 41.239484396200815,
	"grad_norm": 1.0613411664962769,
	"learning_rate": 2.3520878457155317e-05,
	"loss": 0.0907,
	"step": 60787
	},
	{
	"epoch": 41.29986431478969,
	"grad_norm": 0.7223649024963379,
	"learning_rate": 2.338278318101224e-05,
	"loss": 0.0858,
	"step": 60876
	},
	{
	"epoch": 41.36024423337856,
	"grad_norm": 0.6473923325538635,
	"learning_rate": 2.3244970659144434e-05,
	"loss": 0.0881,
	"step": 60965
	},
	{
	"epoch": 41.42062415196744,
	"grad_norm": 0.6310983300209045,
	"learning_rate": 2.3107442355532105e-05,
	"loss": 0.0866,
	"step": 61054
	},
	{
	"epoch": 41.48100407055631,
	"grad_norm": 1.2830203771591187,
	"learning_rate": 2.2970199731136305e-05,
	"loss": 0.0882,
	"step": 61143
	},
	{
	"epoch": 41.54138398914518,
	"grad_norm": 0.6028885245323181,
	"learning_rate": 2.2833244243883222e-05,
	"loss": 0.0861,
	"step": 61232
	},
	{
	"epoch": 41.60176390773406,
	"grad_norm": 1.1787885427474976,
	"learning_rate": 2.2696577348648867e-05,
	"loss": 0.0897,
	"step": 61321
	},
	{
	"epoch": 41.66214382632293,
	"grad_norm": 0.5341454148292542,
	"learning_rate": 2.2560200497243537e-05,
	"loss": 0.0871,
	"step": 61410
	},
	{
	"epoch": 41.722523744911804,
	"grad_norm": 1.4164313077926636,
	"learning_rate": 2.2424115138396336e-05,
	"loss": 0.0924,
	"step": 61499
	},
	{
	"epoch": 41.782903663500676,
	"grad_norm": 0.7035442590713501,
	"learning_rate": 2.2288322717739912e-05,
	"loss": 0.088,
	"step": 61588
	},
	{
	"epoch": 41.843283582089555,
	"grad_norm": 0.6574503779411316,
	"learning_rate": 2.2152824677795003e-05,
	"loss": 0.0868,
	"step": 61677
	},
	{
	"epoch": 41.90366350067843,
	"grad_norm": 0.4766522943973541,
	"learning_rate": 2.201762245795516e-05,
	"loss": 0.0887,
	"step": 61766
	},
	{
	"epoch": 41.9640434192673,
	"grad_norm": 2.5811030864715576,
	"learning_rate": 2.188271749447146e-05,
	"loss": 0.0872,
	"step": 61855
	},
	{
	"epoch": 42.02442333785617,
	"grad_norm": 0.7208371758460999,
	"learning_rate": 2.1748111220437163e-05,
	"loss": 0.0825,
	"step": 61944
	},
	{
	"epoch": 42.08480325644505,
	"grad_norm": 0.7155792713165283,
	"learning_rate": 2.161380506577262e-05,
	"loss": 0.0913,
	"step": 62033
	},
	{
	"epoch": 42.14518317503392,
	"grad_norm": 0.7777039408683777,
	"learning_rate": 2.147980045720999e-05,
	"loss": 0.0837,
	"step": 62122
	},
	{
	"epoch": 42.20556309362279,
	"grad_norm": 0.5456185340881348,
	"learning_rate": 2.134609881827813e-05,
	"loss": 0.0825,
	"step": 62211
	},
	{
	"epoch": 42.26594301221167,
	"grad_norm": 0.614791750907898,
	"learning_rate": 2.1212701569287463e-05,
	"loss": 0.078,
	"step": 62300
	},
	{
	"epoch": 42.32632293080054,
	"grad_norm": 0.9303745627403259,
	"learning_rate": 2.1079610127314827e-05,
	"loss": 0.0815,
	"step": 62389
	},
	{
	"epoch": 42.386702849389415,
	"grad_norm": 0.6811819672584534,
	"learning_rate": 2.094682590618852e-05,
	"loss": 0.0842,
	"step": 62478
	},
	{
	"epoch": 42.44708276797829,
	"grad_norm": 0.7549321055412292,
	"learning_rate": 2.081435031647326e-05,
	"loss": 0.0834,
	"step": 62567
	},
	{
	"epoch": 42.507462686567166,
	"grad_norm": 0.6525147557258606,
	"learning_rate": 2.0682184765455143e-05,
	"loss": 0.0853,
	"step": 62656
	},
	{
	"epoch": 42.56784260515604,
	"grad_norm": 0.7095387578010559,
	"learning_rate": 2.0550330657126715e-05,
	"loss": 0.0873,
	"step": 62745
	},
	{
	"epoch": 42.62822252374491,
	"grad_norm": 0.8400213122367859,
	"learning_rate": 2.041878939217211e-05,
	"loss": 0.0875,
	"step": 62834
	},
	{
	"epoch": 42.68860244233379,
	"grad_norm": 0.9360200762748718,
	"learning_rate": 2.028756236795213e-05,
	"loss": 0.0843,
	"step": 62923
	},
	{
	"epoch": 42.74898236092266,
	"grad_norm": 0.5572984218597412,
	"learning_rate": 2.015665097848935e-05,
	"loss": 0.0813,
	"step": 63012
	},
	{
	"epoch": 42.80936227951153,
	"grad_norm": 0.9234522581100464,
	"learning_rate": 2.002605661445342e-05,
	"loss": 0.083,
	"step": 63101
	},
	{
	"epoch": 42.869742198100404,
	"grad_norm": 0.5887913107872009,
	"learning_rate": 1.989578066314623e-05,
	"loss": 0.0839,
	"step": 63190
	},
	{
	"epoch": 42.93012211668928,
	"grad_norm": 0.8760083913803101,
	"learning_rate": 1.9765824508487125e-05,
	"loss": 0.085,
	"step": 63279
	},
	{
	"epoch": 42.990502035278155,
	"grad_norm": 0.7094123959541321,
	"learning_rate": 1.9636189530998307e-05,
	"loss": 0.0798,
	"step": 63368
	},
	{
	"epoch": 43.05088195386703,
	"grad_norm": 0.5656801462173462,
	"learning_rate": 1.95068771077901e-05,
	"loss": 0.0785,
	"step": 63457
	},
	{
	"epoch": 43.111261872455906,
	"grad_norm": 0.8483113646507263,
	"learning_rate": 1.937788861254634e-05,
	"loss": 0.081,
	"step": 63546
	},
	{
	"epoch": 43.17164179104478,
	"grad_norm": 0.5962135791778564,
	"learning_rate": 1.9249225415509807e-05,
	"loss": 0.0832,
	"step": 63635
	},
	{
	"epoch": 43.204884667571235,
	"eval_accuracy": 0.177734375,
	"eval_loss": 4.267856597900391,
	"eval_runtime": 19.6828,
	"eval_samples_per_second": 26.013,
	"eval_steps_per_second": 0.203,
	"step": 63684
	},
	{
	"epoch": 43.23202170963365,
	"grad_norm": 1.1795192956924438,
	"learning_rate": 1.9120888883467574e-05,
	"loss": 0.0881,
	"step": 63724
	},
	{
	"epoch": 43.29240162822252,
	"grad_norm": 1.2301242351531982,
	"learning_rate": 1.899288037973662e-05,
	"loss": 0.0779,
	"step": 63813
	},
	{
	"epoch": 43.3527815468114,
	"grad_norm": 0.5368560552597046,
	"learning_rate": 1.8865201264149267e-05,
	"loss": 0.0793,
	"step": 63902
	},
	{
	"epoch": 43.41316146540027,
	"grad_norm": 1.1031700372695923,
	"learning_rate": 1.873785289303875e-05,
	"loss": 0.0824,
	"step": 63991
	},
	{
	"epoch": 43.473541383989144,
	"grad_norm": 0.9713082313537598,
	"learning_rate": 1.861083661922482e-05,
	"loss": 0.0766,
	"step": 64080
	},
	{
	"epoch": 43.53392130257802,
	"grad_norm": 0.681328296661377,
	"learning_rate": 1.8484153791999326e-05,
	"loss": 0.0799,
	"step": 64169
	},
	{
	"epoch": 43.594301221166894,
	"grad_norm": 0.8199315071105957,
	"learning_rate": 1.8357805757111966e-05,
	"loss": 0.0811,
	"step": 64258
	},
	{
	"epoch": 43.654681139755766,
	"grad_norm": 1.327650785446167,
	"learning_rate": 1.823179385675593e-05,
	"loss": 0.08,
	"step": 64347
	},
	{
	"epoch": 43.71506105834464,
	"grad_norm": 0.9341023564338684,
	"learning_rate": 1.810611942955365e-05,
	"loss": 0.0787,
	"step": 64436
	},
	{
	"epoch": 43.77544097693352,
	"grad_norm": 0.5767560601234436,
	"learning_rate": 1.7980783810542577e-05,
	"loss": 0.0812,
	"step": 64525
	},
	{
	"epoch": 43.83582089552239,
	"grad_norm": 0.5114635229110718,
	"learning_rate": 1.785578833116104e-05,
	"loss": 0.0823,
	"step": 64614
	},
	{
	"epoch": 43.89620081411126,
	"grad_norm": 0.5436065196990967,
	"learning_rate": 1.7731134319234016e-05,
	"loss": 0.0819,
	"step": 64703
	},
	{
	"epoch": 43.95658073270013,
	"grad_norm": 0.4684976041316986,
	"learning_rate": 1.760682309895913e-05,
	"loss": 0.0842,
	"step": 64792
	},
	{
	"epoch": 44.01696065128901,
	"grad_norm": 1.0648964643478394,
	"learning_rate": 1.7482855990892517e-05,
	"loss": 0.0822,
	"step": 64881
	},
	{
	"epoch": 44.07734056987788,
	"grad_norm": 0.6211819648742676,
	"learning_rate": 1.735923431193483e-05,
	"loss": 0.0797,
	"step": 64970
	},
	{
	"epoch": 44.137720488466755,
	"grad_norm": 0.4334025979042053,
	"learning_rate": 1.7235959375317185e-05,
	"loss": 0.0759,
	"step": 65059
	},
	{
	"epoch": 44.198100407055634,
	"grad_norm": 1.0753127336502075,
	"learning_rate": 1.711303249058731e-05,
	"loss": 0.0756,
	"step": 65148
	},
	{
	"epoch": 44.258480325644506,
	"grad_norm": 0.6846993565559387,
	"learning_rate": 1.6990454963595577e-05,
	"loss": 0.0795,
	"step": 65237
	},
	{
	"epoch": 44.31886024423338,
	"grad_norm": 0.44795066118240356,
	"learning_rate": 1.6868228096481104e-05,
	"loss": 0.0815,
	"step": 65326
	},
	{
	"epoch": 44.37924016282225,
	"grad_norm": 1.4556400775909424,
	"learning_rate": 1.674635318765801e-05,
	"loss": 0.0789,
	"step": 65415
	},
	{
	"epoch": 44.43962008141113,
	"grad_norm": 0.6817762851715088,
	"learning_rate": 1.66248315318015e-05,
	"loss": 0.0734,
	"step": 65504
	},
	{
	"epoch": 44.5,
	"grad_norm": 0.8499571681022644,
	"learning_rate": 1.6503664419834215e-05,
	"loss": 0.0798,
	"step": 65593
	},
	{
	"epoch": 44.56037991858887,
	"grad_norm": 0.5608311891555786,
	"learning_rate": 1.6382853138912485e-05,
	"loss": 0.0759,
	"step": 65682
	},
	{
	"epoch": 44.62075983717775,
	"grad_norm": 1.1510560512542725,
	"learning_rate": 1.6262398972412644e-05,
	"loss": 0.0774,
	"step": 65771
	},
	{
	"epoch": 44.68113975576662,
	"grad_norm": 0.591827392578125,
	"learning_rate": 1.614230319991743e-05,
	"loss": 0.0827,
	"step": 65860
	},
	{
	"epoch": 44.741519674355494,
	"grad_norm": 0.7560341358184814,
	"learning_rate": 1.60225670972023e-05,
	"loss": 0.0752,
	"step": 65949
	},
	{
	"epoch": 44.801899592944366,
	"grad_norm": 1.0043483972549438,
	"learning_rate": 1.5903191936222016e-05,
	"loss": 0.0794,
	"step": 66038
	},
	{
	"epoch": 44.862279511533245,
	"grad_norm": 1.1438446044921875,
	"learning_rate": 1.5784178985097024e-05,
	"loss": 0.08,
	"step": 66127
	},
	{
	"epoch": 44.92265943012212,
	"grad_norm": 0.39144688844680786,
	"learning_rate": 1.5665529508100052e-05,
	"loss": 0.0729,
	"step": 66216
	},
	{
	"epoch": 44.98303934871099,
	"grad_norm": 0.7558673620223999,
	"learning_rate": 1.5547244765642588e-05,
	"loss": 0.0759,
	"step": 66305
	},
	{
	"epoch": 45.04341926729987,
	"grad_norm": 0.6959690451622009,
	"learning_rate": 1.5429326014261632e-05,
	"loss": 0.0817,
	"step": 66394
	},
	{
	"epoch": 45.10379918588874,
	"grad_norm": 0.41576260328292847,
	"learning_rate": 1.531177450660618e-05,
	"loss": 0.0738,
	"step": 66483
	},
	{
	"epoch": 45.16417910447761,
	"grad_norm": 0.8202412724494934,
	"learning_rate": 1.5194591491424064e-05,
	"loss": 0.0763,
	"step": 66572
	},
	{
	"epoch": 45.22455902306648,
	"grad_norm": 1.1920087337493896,
	"learning_rate": 1.5077778213548622e-05,
	"loss": 0.0756,
	"step": 66661
	},
	{
	"epoch": 45.28493894165536,
	"grad_norm": 0.6442920565605164,
	"learning_rate": 1.496133591388547e-05,
	"loss": 0.0795,
	"step": 66750
	},
	{
	"epoch": 45.345318860244234,
	"grad_norm": 0.7332776784896851,
	"learning_rate": 1.4845265829399296e-05,
	"loss": 0.0766,
	"step": 66839
	},
	{
	"epoch": 45.405698778833106,
	"grad_norm": 0.887069821357727,
	"learning_rate": 1.4729569193100795e-05,
	"loss": 0.0756,
	"step": 66928
	},
	{
	"epoch": 45.46607869742198,
	"grad_norm": 0.6151465177536011,
	"learning_rate": 1.4614247234033518e-05,
	"loss": 0.0793,
	"step": 67017
	},
	{
	"epoch": 45.526458616010856,
	"grad_norm": 0.7770605087280273,
	"learning_rate": 1.449930117726081e-05,
	"loss": 0.0793,
	"step": 67106
	},
	{
	"epoch": 45.58683853459973,
	"grad_norm": 0.5736819505691528,
	"learning_rate": 1.438473224385285e-05,
	"loss": 0.0728,
	"step": 67195
	},
	{
	"epoch": 45.60515603799186,
	"eval_accuracy": 0.185546875,
	"eval_loss": 4.269733428955078,
	"eval_runtime": 40.0503,
	"eval_samples_per_second": 12.784,
	"eval_steps_per_second": 0.1,
	"step": 67222
	},
	{
	"epoch": 45.6472184531886,
	"grad_norm": 0.4615430533885956,
	"learning_rate": 1.4270541650873582e-05,
	"loss": 0.0706,
	"step": 67284
	},
	{
	"epoch": 45.70759837177748,
	"grad_norm": 0.7554183006286621,
	"learning_rate": 1.415673061136788e-05,
	"loss": 0.0788,
	"step": 67373
	},
	{
	"epoch": 45.76797829036635,
	"grad_norm": 0.6309983134269714,
	"learning_rate": 1.4043300334348641e-05,
	"loss": 0.0779,
	"step": 67462
	},
	{
	"epoch": 45.82835820895522,
	"grad_norm": 0.4782220125198364,
	"learning_rate": 1.3930252024783903e-05,
	"loss": 0.0769,
	"step": 67551
	},
	{
	"epoch": 45.888738127544094,
	"grad_norm": 0.5289342403411865,
	"learning_rate": 1.3817586883584094e-05,
	"loss": 0.0768,
	"step": 67640
	},
	{
	"epoch": 45.94911804613297,
	"grad_norm": 0.5275683403015137,
	"learning_rate": 1.370530610758921e-05,
	"loss": 0.0743,
	"step": 67729
	},
	{
	"epoch": 46.009497964721845,
	"grad_norm": 0.3685113787651062,
	"learning_rate": 1.359341088955618e-05,
	"loss": 0.0734,
	"step": 67818
	},
	{
	"epoch": 46.06987788331072,
	"grad_norm": 0.6584441661834717,
	"learning_rate": 1.3481902418146154e-05,
	"loss": 0.0742,
	"step": 67907
	},
	{
	"epoch": 46.130257801899596,
	"grad_norm": 0.7138823866844177,
	"learning_rate": 1.3370781877911842e-05,
	"loss": 0.0695,
	"step": 67996
	},
	{
	"epoch": 46.19063772048847,
	"grad_norm": 0.39327022433280945,
	"learning_rate": 1.326005044928501e-05,
	"loss": 0.0717,
	"step": 68085
	},
	{
	"epoch": 46.25101763907734,
	"grad_norm": 0.4522133469581604,
	"learning_rate": 1.3149709308563901e-05,
	"loss": 0.0749,
	"step": 68174
	},
	{
	"epoch": 46.31139755766621,
	"grad_norm": 0.6930340528488159,
	"learning_rate": 1.3039759627900672e-05,
	"loss": 0.074,
	"step": 68263
	},
	{
	"epoch": 46.37177747625509,
	"grad_norm": 2.3860812187194824,
	"learning_rate": 1.293020257528908e-05,
	"loss": 0.0756,
	"step": 68352
	},
	{
	"epoch": 46.43215739484396,
	"grad_norm": 0.8091538548469543,
	"learning_rate": 1.2821039314551958e-05,
	"loss": 0.0765,
	"step": 68441
	},
	{
	"epoch": 46.492537313432834,
	"grad_norm": 0.6948747038841248,
	"learning_rate": 1.2712271005328924e-05,
	"loss": 0.0746,
	"step": 68530
	},
	{
	"epoch": 46.55291723202171,
	"grad_norm": 1.2013221979141235,
	"learning_rate": 1.260389880306399e-05,
	"loss": 0.0709,
	"step": 68619
	},
	{
	"epoch": 46.613297150610585,
	"grad_norm": 1.0223325490951538,
	"learning_rate": 1.2495923858993364e-05,
	"loss": 0.076,
	"step": 68708
	},
	{
	"epoch": 46.67367706919946,
	"grad_norm": 0.7184458374977112,
	"learning_rate": 1.2388347320133182e-05,
	"loss": 0.0684,
	"step": 68797
	},
	{
	"epoch": 46.73405698778833,
	"grad_norm": 0.4814877510070801,
	"learning_rate": 1.2281170329267322e-05,
	"loss": 0.0724,
	"step": 68886
	},
	{
	"epoch": 46.79443690637721,
	"grad_norm": 0.5036719441413879,
	"learning_rate": 1.2174394024935281e-05,
	"loss": 0.0704,
	"step": 68975
	},
	{
	"epoch": 46.85481682496608,
	"grad_norm": 0.5806756019592285,
	"learning_rate": 1.2068019541420033e-05,
	"loss": 0.0723,
	"step": 69064
	},
	{
	"epoch": 46.91519674355495,
	"grad_norm": 1.2670601606369019,
	"learning_rate": 1.1962048008736053e-05,
	"loss": 0.0706,
	"step": 69153
	},
	{
	"epoch": 46.97557666214383,
	"grad_norm": 0.5702329277992249,
	"learning_rate": 1.1856480552617272e-05,
	"loss": 0.0702,
	"step": 69242
	},
	{
	"epoch": 47.0359565807327,
	"grad_norm": 0.49773919582366943,
	"learning_rate": 1.1751318294505104e-05,
	"loss": 0.0738,
	"step": 69331
	},
	{
	"epoch": 47.09633649932157,
	"grad_norm": 0.5580993294715881,
	"learning_rate": 1.1646562351536589e-05,
	"loss": 0.0714,
	"step": 69420
	},
	{
	"epoch": 47.156716417910445,
	"grad_norm": 0.47159460186958313,
	"learning_rate": 1.1542213836532417e-05,
	"loss": 0.0736,
	"step": 69509
	},
	{
	"epoch": 47.217096336499324,
	"grad_norm": 0.6028949618339539,
	"learning_rate": 1.1438273857985244e-05,
	"loss": 0.0748,
	"step": 69598
	},
	{
	"epoch": 47.277476255088196,
	"grad_norm": 0.7113878130912781,
	"learning_rate": 1.1334743520047836e-05,
	"loss": 0.0753,
	"step": 69687
	},
	{
	"epoch": 47.33785617367707,
	"grad_norm": 0.3303639888763428,
	"learning_rate": 1.1231623922521317e-05,
	"loss": 0.0716,
	"step": 69776
	},
	{
	"epoch": 47.39823609226594,
	"grad_norm": 1.0966421365737915,
	"learning_rate": 1.1128916160843578e-05,
	"loss": 0.0733,
	"step": 69865
	},
	{
	"epoch": 47.45861601085482,
	"grad_norm": 0.575943648815155,
	"learning_rate": 1.1026621326077525e-05,
	"loss": 0.0725,
	"step": 69954
	},
	{
	"epoch": 47.51899592944369,
	"grad_norm": 0.8768503665924072,
	"learning_rate": 1.0924740504899584e-05,
	"loss": 0.0704,
	"step": 70043
	},
	{
	"epoch": 47.57937584803256,
	"grad_norm": 0.6844857931137085,
	"learning_rate": 1.0823274779588122e-05,
	"loss": 0.0746,
	"step": 70132
	},
	{
	"epoch": 47.63975576662144,
	"grad_norm": 0.5367492437362671,
	"learning_rate": 1.0722225228011946e-05,
	"loss": 0.0714,
	"step": 70221
	},
	{
	"epoch": 47.70013568521031,
	"grad_norm": 0.5591740012168884,
	"learning_rate": 1.0621592923618856e-05,
	"loss": 0.0662,
	"step": 70310
	},
	{
	"epoch": 47.760515603799185,
	"grad_norm": 0.4710708558559418,
	"learning_rate": 1.0521378935424214e-05,
	"loss": 0.0743,
	"step": 70399
	},
	{
	"epoch": 47.82089552238806,
	"grad_norm": 0.7445366382598877,
	"learning_rate": 1.0421584327999651e-05,
	"loss": 0.0689,
	"step": 70488
	},
	{
	"epoch": 47.881275440976935,
	"grad_norm": 0.8262448906898499,
	"learning_rate": 1.0322210161461715e-05,
	"loss": 0.0763,
	"step": 70577
	},
	{
	"epoch": 47.94165535956581,
	"grad_norm": 0.5951725840568542,
	"learning_rate": 1.0223257491460608e-05,
	"loss": 0.0706,
	"step": 70666
	},
	{
	"epoch": 48.00203527815468,
	"grad_norm": 0.6799793243408203,
	"learning_rate": 1.0124727369169002e-05,
	"loss": 0.074,
	"step": 70755
	},
	{
	"epoch": 48.00542740841248,
	"eval_accuracy": 0.18359375,
	"eval_loss": 4.300548553466797,
	"eval_runtime": 21.4171,
	"eval_samples_per_second": 23.906,
	"eval_steps_per_second": 0.187,
	"step": 70760
	},
	{
	"epoch": 48.06241519674356,
	"grad_norm": 0.7727463841438293,
	"learning_rate": 1.0026620841270807e-05,
	"loss": 0.0711,
	"step": 70844
	},
	{
	"epoch": 48.12279511533243,
	"grad_norm": 0.641099214553833,
	"learning_rate": 9.928938949950133e-06,
	"loss": 0.0716,
	"step": 70933
	}
	],
	"logging_steps": 89,
	"max_steps": 88440,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 60,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2159619256203346e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}