Upload folder using huggingface_hub

137c748 verified 10 days ago

162 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9992228935207619,
	"eval_steps": 5000,
	"global_step": 415000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0012038830042418818,
	"grad_norm": 8.390454292297363,
	"learning_rate": 5.910962367274216e-07,
	"loss": 4.9044,
	"step": 500
	},
	{
	"epoch": 0.0024077660084837636,
	"grad_norm": 12.908564567565918,
	"learning_rate": 1.1930272313581972e-06,
	"loss": 4.8297,
	"step": 1000
	},
	{
	"epoch": 0.0036116490127256454,
	"grad_norm": 16.473039627075195,
	"learning_rate": 1.7949582259889727e-06,
	"loss": 4.7877,
	"step": 1500
	},
	{
	"epoch": 0.004815532016967527,
	"grad_norm": 20.620445251464844,
	"learning_rate": 2.3968892206197483e-06,
	"loss": 4.6598,
	"step": 2000
	},
	{
	"epoch": 0.0060194150212094085,
	"grad_norm": 17.269424438476562,
	"learning_rate": 2.996412491272001e-06,
	"loss": 4.3792,
	"step": 2500
	},
	{
	"epoch": 0.007223298025451291,
	"grad_norm": 20.924165725708008,
	"learning_rate": 3.598343485902776e-06,
	"loss": 4.1505,
	"step": 3000
	},
	{
	"epoch": 0.008427181029693172,
	"grad_norm": 22.36298179626465,
	"learning_rate": 4.200274480533552e-06,
	"loss": 3.8286,
	"step": 3500
	},
	{
	"epoch": 0.009631064033935054,
	"grad_norm": 17.17203712463379,
	"learning_rate": 4.802205475164327e-06,
	"loss": 3.6786,
	"step": 4000
	},
	{
	"epoch": 0.010834947038176937,
	"grad_norm": 21.19932746887207,
	"learning_rate": 5.404136469795103e-06,
	"loss": 3.5698,
	"step": 4500
	},
	{
	"epoch": 0.012038830042418817,
	"grad_norm": 26.214515686035156,
	"learning_rate": 6.0060674644258785e-06,
	"loss": 3.5362,
	"step": 5000
	},
	{
	"epoch": 0.012038830042418817,
	"eval_runtime": 6118.3437,
	"eval_samples_per_second": 135.763,
	"eval_steps_per_second": 33.941,
	"step": 5000
	},
	{
	"epoch": 0.0132427130466607,
	"grad_norm": 20.36381721496582,
	"learning_rate": 6.6079984590566535e-06,
	"loss": 3.4738,
	"step": 5500
	},
	{
	"epoch": 0.014446596050902582,
	"grad_norm": 27.98621940612793,
	"learning_rate": 7.209929453687429e-06,
	"loss": 3.4793,
	"step": 6000
	},
	{
	"epoch": 0.015650479055144464,
	"grad_norm": 36.69669723510742,
	"learning_rate": 7.810656586328943e-06,
	"loss": 3.4226,
	"step": 6500
	},
	{
	"epoch": 0.016854362059386344,
	"grad_norm": 19.70973014831543,
	"learning_rate": 8.412587580959718e-06,
	"loss": 3.3237,
	"step": 7000
	},
	{
	"epoch": 0.018058245063628225,
	"grad_norm": 22.874879837036133,
	"learning_rate": 9.014518575590495e-06,
	"loss": 3.3729,
	"step": 7500
	},
	{
	"epoch": 0.01926212806787011,
	"grad_norm": 27.921424865722656,
	"learning_rate": 9.61644957022127e-06,
	"loss": 3.3806,
	"step": 8000
	},
	{
	"epoch": 0.02046601107211199,
	"grad_norm": 20.24401092529297,
	"learning_rate": 1.0218380564852045e-05,
	"loss": 3.3732,
	"step": 8500
	},
	{
	"epoch": 0.021669894076353873,
	"grad_norm": 24.8074893951416,
	"learning_rate": 1.0820311559482821e-05,
	"loss": 3.3689,
	"step": 9000
	},
	{
	"epoch": 0.022873777080595754,
	"grad_norm": 20.271554946899414,
	"learning_rate": 1.1422242554113596e-05,
	"loss": 3.3533,
	"step": 9500
	},
	{
	"epoch": 0.024077660084837634,
	"grad_norm": 25.907699584960938,
	"learning_rate": 1.2024173548744371e-05,
	"loss": 3.3256,
	"step": 10000
	},
	{
	"epoch": 0.024077660084837634,
	"eval_runtime": 5885.2151,
	"eval_samples_per_second": 141.141,
	"eval_steps_per_second": 35.285,
	"step": 10000
	},
	{
	"epoch": 0.025281543089079518,
	"grad_norm": 27.258106231689453,
	"learning_rate": 1.2624900681385886e-05,
	"loss": 3.3775,
	"step": 10500
	},
	{
	"epoch": 0.0264854260933214,
	"grad_norm": 34.32582473754883,
	"learning_rate": 1.3226831676016663e-05,
	"loss": 3.3426,
	"step": 11000
	},
	{
	"epoch": 0.02768930909756328,
	"grad_norm": 32.09712600708008,
	"learning_rate": 1.3828762670647438e-05,
	"loss": 3.3584,
	"step": 11500
	},
	{
	"epoch": 0.028893192101805163,
	"grad_norm": 21.120548248291016,
	"learning_rate": 1.4430693665278213e-05,
	"loss": 3.3117,
	"step": 12000
	},
	{
	"epoch": 0.030097075106047044,
	"grad_norm": 21.870174407958984,
	"learning_rate": 1.503262465990899e-05,
	"loss": 3.3063,
	"step": 12500
	},
	{
	"epoch": 0.03130095811028893,
	"grad_norm": 20.636926651000977,
	"learning_rate": 1.56333517925505e-05,
	"loss": 3.3181,
	"step": 13000
	},
	{
	"epoch": 0.03250484111453081,
	"grad_norm": 17.365741729736328,
	"learning_rate": 1.623528278718128e-05,
	"loss": 3.2712,
	"step": 13500
	},
	{
	"epoch": 0.03370872411877269,
	"grad_norm": 29.897491455078125,
	"learning_rate": 1.683721378181205e-05,
	"loss": 3.3179,
	"step": 14000
	},
	{
	"epoch": 0.03491260712301457,
	"grad_norm": 21.453102111816406,
	"learning_rate": 1.7439144776442828e-05,
	"loss": 3.3506,
	"step": 14500
	},
	{
	"epoch": 0.03611649012725645,
	"grad_norm": 27.832408905029297,
	"learning_rate": 1.8041075771073605e-05,
	"loss": 3.3097,
	"step": 15000
	},
	{
	"epoch": 0.03611649012725645,
	"eval_runtime": 6111.9913,
	"eval_samples_per_second": 135.904,
	"eval_steps_per_second": 33.976,
	"step": 15000
	},
	{
	"epoch": 0.03732037313149834,
	"grad_norm": 27.701480865478516,
	"learning_rate": 1.864180290371512e-05,
	"loss": 3.3058,
	"step": 15500
	},
	{
	"epoch": 0.03852425613574022,
	"grad_norm": 28.425107955932617,
	"learning_rate": 1.9243733898345895e-05,
	"loss": 3.3129,
	"step": 16000
	},
	{
	"epoch": 0.0397281391399821,
	"grad_norm": 20.096038818359375,
	"learning_rate": 1.9845664892976672e-05,
	"loss": 3.3126,
	"step": 16500
	},
	{
	"epoch": 0.04093202214422398,
	"grad_norm": 32.19493103027344,
	"learning_rate": 2.0447595887607445e-05,
	"loss": 3.2431,
	"step": 17000
	},
	{
	"epoch": 0.04213590514846586,
	"grad_norm": 27.442581176757812,
	"learning_rate": 2.1049526882238222e-05,
	"loss": 3.3009,
	"step": 17500
	},
	{
	"epoch": 0.043339788152707746,
	"grad_norm": 23.221601486206055,
	"learning_rate": 2.1650254014879736e-05,
	"loss": 3.3023,
	"step": 18000
	},
	{
	"epoch": 0.04454367115694963,
	"grad_norm": 20.713502883911133,
	"learning_rate": 2.225218500951051e-05,
	"loss": 3.2834,
	"step": 18500
	},
	{
	"epoch": 0.04574755416119151,
	"grad_norm": 26.963842391967773,
	"learning_rate": 2.2854116004141285e-05,
	"loss": 3.2512,
	"step": 19000
	},
	{
	"epoch": 0.04695143716543339,
	"grad_norm": 26.029918670654297,
	"learning_rate": 2.3456046998772062e-05,
	"loss": 3.2678,
	"step": 19500
	},
	{
	"epoch": 0.04815532016967527,
	"grad_norm": 24.989070892333984,
	"learning_rate": 2.405797799340284e-05,
	"loss": 3.2962,
	"step": 20000
	},
	{
	"epoch": 0.04815532016967527,
	"eval_runtime": 6189.8097,
	"eval_samples_per_second": 134.196,
	"eval_steps_per_second": 33.549,
	"step": 20000
	},
	{
	"epoch": 0.049359203173917156,
	"grad_norm": 31.154277801513672,
	"learning_rate": 2.4659908988033615e-05,
	"loss": 3.2434,
	"step": 20500
	},
	{
	"epoch": 0.050563086178159036,
	"grad_norm": 25.946931838989258,
	"learning_rate": 2.526183998266439e-05,
	"loss": 3.2261,
	"step": 21000
	},
	{
	"epoch": 0.05176696918240092,
	"grad_norm": 18.157636642456055,
	"learning_rate": 2.5863770977295165e-05,
	"loss": 3.2844,
	"step": 21500
	},
	{
	"epoch": 0.0529708521866428,
	"grad_norm": 21.17293930053711,
	"learning_rate": 2.6464498109936682e-05,
	"loss": 3.2154,
	"step": 22000
	},
	{
	"epoch": 0.05417473519088468,
	"grad_norm": 26.187950134277344,
	"learning_rate": 2.7066429104567452e-05,
	"loss": 3.2815,
	"step": 22500
	},
	{
	"epoch": 0.05537861819512656,
	"grad_norm": 27.726953506469727,
	"learning_rate": 2.766715623720897e-05,
	"loss": 3.2538,
	"step": 23000
	},
	{
	"epoch": 0.056582501199368446,
	"grad_norm": 23.557273864746094,
	"learning_rate": 2.8269087231839743e-05,
	"loss": 3.2708,
	"step": 23500
	},
	{
	"epoch": 0.057786384203610326,
	"grad_norm": 22.728757858276367,
	"learning_rate": 2.8869814364481256e-05,
	"loss": 3.2052,
	"step": 24000
	},
	{
	"epoch": 0.05899026720785221,
	"grad_norm": 22.837238311767578,
	"learning_rate": 2.9471745359112036e-05,
	"loss": 3.2341,
	"step": 24500
	},
	{
	"epoch": 0.06019415021209409,
	"grad_norm": 24.8745059967041,
	"learning_rate": 3.0073676353742806e-05,
	"loss": 3.2309,
	"step": 25000
	},
	{
	"epoch": 0.06019415021209409,
	"eval_runtime": 6182.4703,
	"eval_samples_per_second": 134.355,
	"eval_steps_per_second": 33.589,
	"step": 25000
	},
	{
	"epoch": 0.06139803321633597,
	"grad_norm": 26.50299835205078,
	"learning_rate": 3.0675607348373586e-05,
	"loss": 3.2289,
	"step": 25500
	},
	{
	"epoch": 0.06260191622057786,
	"grad_norm": 26.083864212036133,
	"learning_rate": 3.1277538343004356e-05,
	"loss": 3.2321,
	"step": 26000
	},
	{
	"epoch": 0.06380579922481973,
	"grad_norm": 34.2237434387207,
	"learning_rate": 3.187946933763514e-05,
	"loss": 3.2297,
	"step": 26500
	},
	{
	"epoch": 0.06500968222906162,
	"grad_norm": 18.643739700317383,
	"learning_rate": 3.248140033226591e-05,
	"loss": 3.2801,
	"step": 27000
	},
	{
	"epoch": 0.0662135652333035,
	"grad_norm": 16.629045486450195,
	"learning_rate": 3.3083331326896686e-05,
	"loss": 3.2924,
	"step": 27500
	},
	{
	"epoch": 0.06741744823754538,
	"grad_norm": 24.145009994506836,
	"learning_rate": 3.368526232152746e-05,
	"loss": 3.208,
	"step": 28000
	},
	{
	"epoch": 0.06862133124178726,
	"grad_norm": 27.239717483520508,
	"learning_rate": 3.428719331615824e-05,
	"loss": 3.2432,
	"step": 28500
	},
	{
	"epoch": 0.06982521424602914,
	"grad_norm": 19.675600051879883,
	"learning_rate": 3.488912431078901e-05,
	"loss": 3.2389,
	"step": 29000
	},
	{
	"epoch": 0.07102909725027103,
	"grad_norm": 26.076309204101562,
	"learning_rate": 3.549105530541979e-05,
	"loss": 3.2849,
	"step": 29500
	},
	{
	"epoch": 0.0722329802545129,
	"grad_norm": 26.58043670654297,
	"learning_rate": 3.60917824380613e-05,
	"loss": 3.2597,
	"step": 30000
	},
	{
	"epoch": 0.0722329802545129,
	"eval_runtime": 6142.9637,
	"eval_samples_per_second": 135.219,
	"eval_steps_per_second": 33.805,
	"step": 30000
	},
	{
	"epoch": 0.07343686325875479,
	"grad_norm": 28.792818069458008,
	"learning_rate": 3.6693713432692076e-05,
	"loss": 3.2583,
	"step": 30500
	},
	{
	"epoch": 0.07464074626299667,
	"grad_norm": 15.474958419799805,
	"learning_rate": 3.72944405653336e-05,
	"loss": 3.2516,
	"step": 31000
	},
	{
	"epoch": 0.07584462926723855,
	"grad_norm": 22.783601760864258,
	"learning_rate": 3.7896371559964367e-05,
	"loss": 3.252,
	"step": 31500
	},
	{
	"epoch": 0.07704851227148043,
	"grad_norm": 30.097503662109375,
	"learning_rate": 3.849830255459514e-05,
	"loss": 3.2607,
	"step": 32000
	},
	{
	"epoch": 0.07825239527572231,
	"grad_norm": 16.432775497436523,
	"learning_rate": 3.910023354922592e-05,
	"loss": 3.2281,
	"step": 32500
	},
	{
	"epoch": 0.0794562782799642,
	"grad_norm": 22.113264083862305,
	"learning_rate": 3.9702164543856697e-05,
	"loss": 3.1994,
	"step": 33000
	},
	{
	"epoch": 0.08066016128420608,
	"grad_norm": 23.033098220825195,
	"learning_rate": 4.0304095538487466e-05,
	"loss": 3.2641,
	"step": 33500
	},
	{
	"epoch": 0.08186404428844796,
	"grad_norm": 22.20917510986328,
	"learning_rate": 4.090602653311825e-05,
	"loss": 3.2382,
	"step": 34000
	},
	{
	"epoch": 0.08306792729268984,
	"grad_norm": 29.848487854003906,
	"learning_rate": 4.150795752774902e-05,
	"loss": 3.2067,
	"step": 34500
	},
	{
	"epoch": 0.08427181029693172,
	"grad_norm": 25.557289123535156,
	"learning_rate": 4.2108684660390533e-05,
	"loss": 3.1953,
	"step": 35000
	},
	{
	"epoch": 0.08427181029693172,
	"eval_runtime": 6095.2446,
	"eval_samples_per_second": 136.278,
	"eval_steps_per_second": 34.07,
	"step": 35000
	},
	{
	"epoch": 0.0854756933011736,
	"grad_norm": 20.05970001220703,
	"learning_rate": 4.271061565502131e-05,
	"loss": 3.2184,
	"step": 35500
	},
	{
	"epoch": 0.08667957630541549,
	"grad_norm": 20.745208740234375,
	"learning_rate": 4.3311342787662824e-05,
	"loss": 3.2016,
	"step": 36000
	},
	{
	"epoch": 0.08788345930965737,
	"grad_norm": 24.379274368286133,
	"learning_rate": 4.39132737822936e-05,
	"loss": 3.1851,
	"step": 36500
	},
	{
	"epoch": 0.08908734231389925,
	"grad_norm": 14.577661514282227,
	"learning_rate": 4.451520477692438e-05,
	"loss": 3.2191,
	"step": 37000
	},
	{
	"epoch": 0.09029122531814113,
	"grad_norm": 19.822919845581055,
	"learning_rate": 4.5117135771555154e-05,
	"loss": 3.1865,
	"step": 37500
	},
	{
	"epoch": 0.09149510832238301,
	"grad_norm": 20.753366470336914,
	"learning_rate": 4.5719066766185924e-05,
	"loss": 3.238,
	"step": 38000
	},
	{
	"epoch": 0.0926989913266249,
	"grad_norm": 16.455045700073242,
	"learning_rate": 4.63209977608167e-05,
	"loss": 3.2118,
	"step": 38500
	},
	{
	"epoch": 0.09390287433086678,
	"grad_norm": 22.421308517456055,
	"learning_rate": 4.692052103146896e-05,
	"loss": 3.2192,
	"step": 39000
	},
	{
	"epoch": 0.09510675733510866,
	"grad_norm": 18.18105125427246,
	"learning_rate": 4.752245202609973e-05,
	"loss": 3.2,
	"step": 39500
	},
	{
	"epoch": 0.09631064033935054,
	"grad_norm": 14.840981483459473,
	"learning_rate": 4.8124383020730504e-05,
	"loss": 3.1897,
	"step": 40000
	},
	{
	"epoch": 0.09631064033935054,
	"eval_runtime": 6142.3167,
	"eval_samples_per_second": 135.233,
	"eval_steps_per_second": 33.808,
	"step": 40000
	},
	{
	"epoch": 0.09751452334359242,
	"grad_norm": 16.446571350097656,
	"learning_rate": 4.872631401536128e-05,
	"loss": 3.2723,
	"step": 40500
	},
	{
	"epoch": 0.09871840634783431,
	"grad_norm": 32.157161712646484,
	"learning_rate": 4.932824500999206e-05,
	"loss": 3.1675,
	"step": 41000
	},
	{
	"epoch": 0.09992228935207619,
	"grad_norm": 18.431787490844727,
	"learning_rate": 4.993017600462283e-05,
	"loss": 3.2205,
	"step": 41500
	},
	{
	"epoch": 0.10112617235631807,
	"grad_norm": 21.929658889770508,
	"learning_rate": 4.994087573470594e-05,
	"loss": 3.1701,
	"step": 42000
	},
	{
	"epoch": 0.10233005536055995,
	"grad_norm": 20.648868560791016,
	"learning_rate": 4.987399308165837e-05,
	"loss": 3.1764,
	"step": 42500
	},
	{
	"epoch": 0.10353393836480183,
	"grad_norm": 20.37611198425293,
	"learning_rate": 4.98071104286108e-05,
	"loss": 3.1684,
	"step": 43000
	},
	{
	"epoch": 0.10473782136904371,
	"grad_norm": 15.72383975982666,
	"learning_rate": 4.974036154086932e-05,
	"loss": 3.1698,
	"step": 43500
	},
	{
	"epoch": 0.1059417043732856,
	"grad_norm": 17.074922561645508,
	"learning_rate": 4.967347888782174e-05,
	"loss": 3.1913,
	"step": 44000
	},
	{
	"epoch": 0.10714558737752748,
	"grad_norm": 16.70379066467285,
	"learning_rate": 4.9606596234774164e-05,
	"loss": 3.2184,
	"step": 44500
	},
	{
	"epoch": 0.10834947038176936,
	"grad_norm": 12.970040321350098,
	"learning_rate": 4.9539713581726594e-05,
	"loss": 3.1826,
	"step": 45000
	},
	{
	"epoch": 0.10834947038176936,
	"eval_runtime": 6114.7803,
	"eval_samples_per_second": 135.842,
	"eval_steps_per_second": 33.961,
	"step": 45000
	},
	{
	"epoch": 0.10955335338601124,
	"grad_norm": 17.909025192260742,
	"learning_rate": 4.9472830928679016e-05,
	"loss": 3.175,
	"step": 45500
	},
	{
	"epoch": 0.11075723639025312,
	"grad_norm": 17.254976272583008,
	"learning_rate": 4.9405948275631445e-05,
	"loss": 3.1959,
	"step": 46000
	},
	{
	"epoch": 0.111961119394495,
	"grad_norm": 17.655014038085938,
	"learning_rate": 4.9339199387889964e-05,
	"loss": 3.194,
	"step": 46500
	},
	{
	"epoch": 0.11316500239873689,
	"grad_norm": 18.48583984375,
	"learning_rate": 4.9272316734842386e-05,
	"loss": 3.19,
	"step": 47000
	},
	{
	"epoch": 0.11436888540297876,
	"grad_norm": 13.14960765838623,
	"learning_rate": 4.920556784710091e-05,
	"loss": 3.159,
	"step": 47500
	},
	{
	"epoch": 0.11557276840722065,
	"grad_norm": 13.100486755371094,
	"learning_rate": 4.913868519405333e-05,
	"loss": 3.197,
	"step": 48000
	},
	{
	"epoch": 0.11677665141146253,
	"grad_norm": 20.155548095703125,
	"learning_rate": 4.9071802541005756e-05,
	"loss": 3.192,
	"step": 48500
	},
	{
	"epoch": 0.11798053441570441,
	"grad_norm": 16.038169860839844,
	"learning_rate": 4.9004919887958185e-05,
	"loss": 3.1575,
	"step": 49000
	},
	{
	"epoch": 0.1191844174199463,
	"grad_norm": 22.394641876220703,
	"learning_rate": 4.893803723491061e-05,
	"loss": 3.1787,
	"step": 49500
	},
	{
	"epoch": 0.12038830042418817,
	"grad_norm": 18.06816864013672,
	"learning_rate": 4.887115458186303e-05,
	"loss": 3.138,
	"step": 50000
	},
	{
	"epoch": 0.12038830042418817,
	"eval_runtime": 6098.0137,
	"eval_samples_per_second": 136.216,
	"eval_steps_per_second": 34.054,
	"step": 50000
	},
	{
	"epoch": 0.12159218342843006,
	"grad_norm": 25.612211227416992,
	"learning_rate": 4.880427192881546e-05,
	"loss": 3.1291,
	"step": 50500
	},
	{
	"epoch": 0.12279606643267194,
	"grad_norm": 23.026065826416016,
	"learning_rate": 4.873738927576788e-05,
	"loss": 3.1429,
	"step": 51000
	},
	{
	"epoch": 0.12399994943691382,
	"grad_norm": 17.348302841186523,
	"learning_rate": 4.86706403880264e-05,
	"loss": 3.208,
	"step": 51500
	},
	{
	"epoch": 0.1252038324411557,
	"grad_norm": 25.699726104736328,
	"learning_rate": 4.860375773497883e-05,
	"loss": 3.1744,
	"step": 52000
	},
	{
	"epoch": 0.12640771544539758,
	"grad_norm": 20.069185256958008,
	"learning_rate": 4.853687508193125e-05,
	"loss": 3.1429,
	"step": 52500
	},
	{
	"epoch": 0.12761159844963946,
	"grad_norm": 15.095413208007812,
	"learning_rate": 4.8469992428883674e-05,
	"loss": 3.1767,
	"step": 53000
	},
	{
	"epoch": 0.12881548145388136,
	"grad_norm": 12.854238510131836,
	"learning_rate": 4.84031097758361e-05,
	"loss": 3.1726,
	"step": 53500
	},
	{
	"epoch": 0.13001936445812323,
	"grad_norm": 18.715251922607422,
	"learning_rate": 4.833622712278853e-05,
	"loss": 3.1745,
	"step": 54000
	},
	{
	"epoch": 0.1312232474623651,
	"grad_norm": 16.41513442993164,
	"learning_rate": 4.8269344469740955e-05,
	"loss": 3.163,
	"step": 54500
	},
	{
	"epoch": 0.132427130466607,
	"grad_norm": 16.754322052001953,
	"learning_rate": 4.820246181669338e-05,
	"loss": 3.2186,
	"step": 55000
	},
	{
	"epoch": 0.132427130466607,
	"eval_runtime": 6080.0844,
	"eval_samples_per_second": 136.617,
	"eval_steps_per_second": 34.154,
	"step": 55000
	},
	{
	"epoch": 0.13363101347084888,
	"grad_norm": 21.774137496948242,
	"learning_rate": 4.8135712928951896e-05,
	"loss": 3.1601,
	"step": 55500
	},
	{
	"epoch": 0.13483489647509075,
	"grad_norm": 15.781363487243652,
	"learning_rate": 4.8068830275904325e-05,
	"loss": 3.1762,
	"step": 56000
	},
	{
	"epoch": 0.13603877947933263,
	"grad_norm": 15.000273704528809,
	"learning_rate": 4.800194762285675e-05,
	"loss": 3.1576,
	"step": 56500
	},
	{
	"epoch": 0.13724266248357453,
	"grad_norm": 16.367721557617188,
	"learning_rate": 4.7935064969809176e-05,
	"loss": 3.1373,
	"step": 57000
	},
	{
	"epoch": 0.1384465454878164,
	"grad_norm": 14.089083671569824,
	"learning_rate": 4.7868316082067695e-05,
	"loss": 3.1886,
	"step": 57500
	},
	{
	"epoch": 0.13965042849205828,
	"grad_norm": 15.01375675201416,
	"learning_rate": 4.780143342902012e-05,
	"loss": 3.1041,
	"step": 58000
	},
	{
	"epoch": 0.14085431149630018,
	"grad_norm": 15.857519149780273,
	"learning_rate": 4.773455077597254e-05,
	"loss": 3.157,
	"step": 58500
	},
	{
	"epoch": 0.14205819450054205,
	"grad_norm": 15.649994850158691,
	"learning_rate": 4.7667801888231065e-05,
	"loss": 3.1307,
	"step": 59000
	},
	{
	"epoch": 0.14326207750478392,
	"grad_norm": 17.55912208557129,
	"learning_rate": 4.760091923518349e-05,
	"loss": 3.1491,
	"step": 59500
	},
	{
	"epoch": 0.1444659605090258,
	"grad_norm": 39.259796142578125,
	"learning_rate": 4.753403658213592e-05,
	"loss": 3.156,
	"step": 60000
	},
	{
	"epoch": 0.1444659605090258,
	"eval_runtime": 6118.114,
	"eval_samples_per_second": 135.768,
	"eval_steps_per_second": 33.942,
	"step": 60000
	},
	{
	"epoch": 0.1456698435132677,
	"grad_norm": 14.720120429992676,
	"learning_rate": 4.746715392908834e-05,
	"loss": 3.1288,
	"step": 60500
	},
	{
	"epoch": 0.14687372651750957,
	"grad_norm": 17.65592384338379,
	"learning_rate": 4.740027127604076e-05,
	"loss": 3.1324,
	"step": 61000
	},
	{
	"epoch": 0.14807760952175145,
	"grad_norm": 22.232887268066406,
	"learning_rate": 4.7333388622993184e-05,
	"loss": 3.1047,
	"step": 61500
	},
	{
	"epoch": 0.14928149252599335,
	"grad_norm": 13.700913429260254,
	"learning_rate": 4.726650596994561e-05,
	"loss": 3.1472,
	"step": 62000
	},
	{
	"epoch": 0.15048537553023522,
	"grad_norm": 12.120200157165527,
	"learning_rate": 4.719962331689804e-05,
	"loss": 3.1314,
	"step": 62500
	},
	{
	"epoch": 0.1516892585344771,
	"grad_norm": 18.1831111907959,
	"learning_rate": 4.713287442915656e-05,
	"loss": 3.1473,
	"step": 63000
	},
	{
	"epoch": 0.152893141538719,
	"grad_norm": 16.345584869384766,
	"learning_rate": 4.706599177610898e-05,
	"loss": 3.0957,
	"step": 63500
	},
	{
	"epoch": 0.15409702454296087,
	"grad_norm": 12.382160186767578,
	"learning_rate": 4.6999109123061405e-05,
	"loss": 3.1352,
	"step": 64000
	},
	{
	"epoch": 0.15530090754720274,
	"grad_norm": 11.769241333007812,
	"learning_rate": 4.6932226470013834e-05,
	"loss": 3.1241,
	"step": 64500
	},
	{
	"epoch": 0.15650479055144462,
	"grad_norm": 16.600685119628906,
	"learning_rate": 4.686547758227235e-05,
	"loss": 3.1001,
	"step": 65000
	},
	{
	"epoch": 0.15650479055144462,
	"eval_runtime": 6099.2,
	"eval_samples_per_second": 136.189,
	"eval_steps_per_second": 34.047,
	"step": 65000
	},
	{
	"epoch": 0.15770867355568652,
	"grad_norm": 27.690532684326172,
	"learning_rate": 4.6798594929224775e-05,
	"loss": 3.1427,
	"step": 65500
	},
	{
	"epoch": 0.1589125565599284,
	"grad_norm": 16.452138900756836,
	"learning_rate": 4.6731712276177205e-05,
	"loss": 3.1489,
	"step": 66000
	},
	{
	"epoch": 0.16011643956417027,
	"grad_norm": 22.97121238708496,
	"learning_rate": 4.666482962312963e-05,
	"loss": 3.1554,
	"step": 66500
	},
	{
	"epoch": 0.16132032256841217,
	"grad_norm": 17.040058135986328,
	"learning_rate": 4.659808073538815e-05,
	"loss": 3.1619,
	"step": 67000
	},
	{
	"epoch": 0.16252420557265404,
	"grad_norm": 15.484249114990234,
	"learning_rate": 4.653119808234057e-05,
	"loss": 3.1277,
	"step": 67500
	},
	{
	"epoch": 0.1637280885768959,
	"grad_norm": 14.11099910736084,
	"learning_rate": 4.6464315429293e-05,
	"loss": 3.1736,
	"step": 68000
	},
	{
	"epoch": 0.16493197158113782,
	"grad_norm": 13.42932415008545,
	"learning_rate": 4.6397432776245426e-05,
	"loss": 3.1114,
	"step": 68500
	},
	{
	"epoch": 0.1661358545853797,
	"grad_norm": 14.439802169799805,
	"learning_rate": 4.633055012319785e-05,
	"loss": 3.1526,
	"step": 69000
	},
	{
	"epoch": 0.16733973758962156,
	"grad_norm": 19.759899139404297,
	"learning_rate": 4.626366747015027e-05,
	"loss": 3.13,
	"step": 69500
	},
	{
	"epoch": 0.16854362059386344,
	"grad_norm": 14.265944480895996,
	"learning_rate": 4.61967848171027e-05,
	"loss": 3.1197,
	"step": 70000
	},
	{
	"epoch": 0.16854362059386344,
	"eval_runtime": 6159.4194,
	"eval_samples_per_second": 134.858,
	"eval_steps_per_second": 33.715,
	"step": 70000
	},
	{
	"epoch": 0.16974750359810534,
	"grad_norm": 14.379167556762695,
	"learning_rate": 4.612990216405512e-05,
	"loss": 3.1587,
	"step": 70500
	},
	{
	"epoch": 0.1709513866023472,
	"grad_norm": 16.7622013092041,
	"learning_rate": 4.606315327631364e-05,
	"loss": 3.1265,
	"step": 71000
	},
	{
	"epoch": 0.17215526960658908,
	"grad_norm": 16.946565628051758,
	"learning_rate": 4.599627062326607e-05,
	"loss": 3.1666,
	"step": 71500
	},
	{
	"epoch": 0.17335915261083099,
	"grad_norm": 15.118630409240723,
	"learning_rate": 4.592952173552459e-05,
	"loss": 3.1067,
	"step": 72000
	},
	{
	"epoch": 0.17456303561507286,
	"grad_norm": 13.015983581542969,
	"learning_rate": 4.586263908247702e-05,
	"loss": 3.0988,
	"step": 72500
	},
	{
	"epoch": 0.17576691861931473,
	"grad_norm": 16.574451446533203,
	"learning_rate": 4.579575642942944e-05,
	"loss": 3.1373,
	"step": 73000
	},
	{
	"epoch": 0.1769708016235566,
	"grad_norm": 13.634519577026367,
	"learning_rate": 4.572887377638186e-05,
	"loss": 3.1362,
	"step": 73500
	},
	{
	"epoch": 0.1781746846277985,
	"grad_norm": 19.195165634155273,
	"learning_rate": 4.566199112333429e-05,
	"loss": 3.0999,
	"step": 74000
	},
	{
	"epoch": 0.17937856763204038,
	"grad_norm": 16.080059051513672,
	"learning_rate": 4.5595108470286714e-05,
	"loss": 3.1615,
	"step": 74500
	},
	{
	"epoch": 0.18058245063628225,
	"grad_norm": 17.560720443725586,
	"learning_rate": 4.5528225817239137e-05,
	"loss": 3.1018,
	"step": 75000
	},
	{
	"epoch": 0.18058245063628225,
	"eval_runtime": 6167.2803,
	"eval_samples_per_second": 134.686,
	"eval_steps_per_second": 33.672,
	"step": 75000
	},
	{
	"epoch": 0.18178633364052416,
	"grad_norm": 14.580060005187988,
	"learning_rate": 4.5461343164191566e-05,
	"loss": 3.1417,
	"step": 75500
	},
	{
	"epoch": 0.18299021664476603,
	"grad_norm": 20.411680221557617,
	"learning_rate": 4.5394594276450084e-05,
	"loss": 3.1915,
	"step": 76000
	},
	{
	"epoch": 0.1841940996490079,
	"grad_norm": 24.153568267822266,
	"learning_rate": 4.53278453887086e-05,
	"loss": 3.129,
	"step": 76500
	},
	{
	"epoch": 0.1853979826532498,
	"grad_norm": 20.700895309448242,
	"learning_rate": 4.5260962735661025e-05,
	"loss": 3.1237,
	"step": 77000
	},
	{
	"epoch": 0.18660186565749168,
	"grad_norm": 19.473398208618164,
	"learning_rate": 4.5194080082613455e-05,
	"loss": 3.1593,
	"step": 77500
	},
	{
	"epoch": 0.18780574866173355,
	"grad_norm": 16.656599044799805,
	"learning_rate": 4.5127197429565884e-05,
	"loss": 3.1273,
	"step": 78000
	},
	{
	"epoch": 0.18900963166597542,
	"grad_norm": 17.83378028869629,
	"learning_rate": 4.5060314776518306e-05,
	"loss": 3.1454,
	"step": 78500
	},
	{
	"epoch": 0.19021351467021733,
	"grad_norm": 12.069873809814453,
	"learning_rate": 4.499343212347073e-05,
	"loss": 3.1567,
	"step": 79000
	},
	{
	"epoch": 0.1914173976744592,
	"grad_norm": 21.635231018066406,
	"learning_rate": 4.492654947042316e-05,
	"loss": 3.1063,
	"step": 79500
	},
	{
	"epoch": 0.19262128067870107,
	"grad_norm": 12.80612564086914,
	"learning_rate": 4.4859800582681676e-05,
	"loss": 3.1169,
	"step": 80000
	},
	{
	"epoch": 0.19262128067870107,
	"eval_runtime": 6089.7621,
	"eval_samples_per_second": 136.4,
	"eval_steps_per_second": 34.1,
	"step": 80000
	},
	{
	"epoch": 0.19382516368294297,
	"grad_norm": 15.964377403259277,
	"learning_rate": 4.47929179296341e-05,
	"loss": 3.1736,
	"step": 80500
	},
	{
	"epoch": 0.19502904668718485,
	"grad_norm": 33.44254684448242,
	"learning_rate": 4.472603527658653e-05,
	"loss": 3.1525,
	"step": 81000
	},
	{
	"epoch": 0.19623292969142672,
	"grad_norm": 13.991809844970703,
	"learning_rate": 4.465915262353895e-05,
	"loss": 3.1492,
	"step": 81500
	},
	{
	"epoch": 0.19743681269566862,
	"grad_norm": 12.851255416870117,
	"learning_rate": 4.4592403735797475e-05,
	"loss": 3.1153,
	"step": 82000
	},
	{
	"epoch": 0.1986406956999105,
	"grad_norm": 17.928274154663086,
	"learning_rate": 4.452552108274989e-05,
	"loss": 3.1518,
	"step": 82500
	},
	{
	"epoch": 0.19984457870415237,
	"grad_norm": 12.124229431152344,
	"learning_rate": 4.445863842970232e-05,
	"loss": 3.1087,
	"step": 83000
	},
	{
	"epoch": 0.20104846170839424,
	"grad_norm": 15.766402244567871,
	"learning_rate": 4.439175577665475e-05,
	"loss": 3.1327,
	"step": 83500
	},
	{
	"epoch": 0.20225234471263615,
	"grad_norm": 16.555757522583008,
	"learning_rate": 4.432487312360717e-05,
	"loss": 3.0765,
	"step": 84000
	},
	{
	"epoch": 0.20345622771687802,
	"grad_norm": 19.65941619873047,
	"learning_rate": 4.4257990470559594e-05,
	"loss": 3.1393,
	"step": 84500
	},
	{
	"epoch": 0.2046601107211199,
	"grad_norm": 16.987285614013672,
	"learning_rate": 4.419110781751202e-05,
	"loss": 3.1145,
	"step": 85000
	},
	{
	"epoch": 0.2046601107211199,
	"eval_runtime": 6166.7962,
	"eval_samples_per_second": 134.696,
	"eval_steps_per_second": 33.674,
	"step": 85000
	},
	{
	"epoch": 0.2058639937253618,
	"grad_norm": 14.441193580627441,
	"learning_rate": 4.4124225164464445e-05,
	"loss": 3.1662,
	"step": 85500
	},
	{
	"epoch": 0.20706787672960367,
	"grad_norm": 18.12236976623535,
	"learning_rate": 4.4057476276722964e-05,
	"loss": 3.0565,
	"step": 86000
	},
	{
	"epoch": 0.20827175973384554,
	"grad_norm": 12.500991821289062,
	"learning_rate": 4.399059362367539e-05,
	"loss": 3.1047,
	"step": 86500
	},
	{
	"epoch": 0.20947564273808741,
	"grad_norm": 16.244428634643555,
	"learning_rate": 4.3923710970627816e-05,
	"loss": 3.0893,
	"step": 87000
	},
	{
	"epoch": 0.21067952574232932,
	"grad_norm": 21.911731719970703,
	"learning_rate": 4.385682831758024e-05,
	"loss": 3.0743,
	"step": 87500
	},
	{
	"epoch": 0.2118834087465712,
	"grad_norm": 16.75537109375,
	"learning_rate": 4.378994566453267e-05,
	"loss": 3.1221,
	"step": 88000
	},
	{
	"epoch": 0.21308729175081306,
	"grad_norm": 20.14570426940918,
	"learning_rate": 4.3723063011485096e-05,
	"loss": 3.1413,
	"step": 88500
	},
	{
	"epoch": 0.21429117475505496,
	"grad_norm": 14.766070365905762,
	"learning_rate": 4.365618035843751e-05,
	"loss": 3.0955,
	"step": 89000
	},
	{
	"epoch": 0.21549505775929684,
	"grad_norm": 17.830801010131836,
	"learning_rate": 4.358929770538994e-05,
	"loss": 3.1517,
	"step": 89500
	},
	{
	"epoch": 0.2166989407635387,
	"grad_norm": 10.205118179321289,
	"learning_rate": 4.352254881764846e-05,
	"loss": 3.1332,
	"step": 90000
	},
	{
	"epoch": 0.2166989407635387,
	"eval_runtime": 6149.5749,
	"eval_samples_per_second": 135.074,
	"eval_steps_per_second": 33.769,
	"step": 90000
	},
	{
	"epoch": 0.2179028237677806,
	"grad_norm": 16.20384979248047,
	"learning_rate": 4.345566616460089e-05,
	"loss": 3.1003,
	"step": 90500
	},
	{
	"epoch": 0.21910670677202249,
	"grad_norm": 17.35607147216797,
	"learning_rate": 4.338878351155331e-05,
	"loss": 3.1193,
	"step": 91000
	},
	{
	"epoch": 0.22031058977626436,
	"grad_norm": 17.914997100830078,
	"learning_rate": 4.332190085850574e-05,
	"loss": 3.0944,
	"step": 91500
	},
	{
	"epoch": 0.22151447278050623,
	"grad_norm": 23.45078468322754,
	"learning_rate": 4.325515197076426e-05,
	"loss": 3.1518,
	"step": 92000
	},
	{
	"epoch": 0.22271835578474813,
	"grad_norm": 19.160053253173828,
	"learning_rate": 4.318826931771668e-05,
	"loss": 3.1144,
	"step": 92500
	},
	{
	"epoch": 0.22392223878899,
	"grad_norm": 16.796180725097656,
	"learning_rate": 4.312152042997521e-05,
	"loss": 3.1354,
	"step": 93000
	},
	{
	"epoch": 0.22512612179323188,
	"grad_norm": 13.598986625671387,
	"learning_rate": 4.305463777692762e-05,
	"loss": 3.0675,
	"step": 93500
	},
	{
	"epoch": 0.22633000479747378,
	"grad_norm": 16.168975830078125,
	"learning_rate": 4.298775512388005e-05,
	"loss": 3.1065,
	"step": 94000
	},
	{
	"epoch": 0.22753388780171566,
	"grad_norm": 22.480331420898438,
	"learning_rate": 4.292087247083248e-05,
	"loss": 3.1201,
	"step": 94500
	},
	{
	"epoch": 0.22873777080595753,
	"grad_norm": 16.593976974487305,
	"learning_rate": 4.28539898177849e-05,
	"loss": 3.1264,
	"step": 95000
	},
	{
	"epoch": 0.22873777080595753,
	"eval_runtime": 6100.46,
	"eval_samples_per_second": 136.161,
	"eval_steps_per_second": 34.04,
	"step": 95000
	},
	{
	"epoch": 0.2299416538101994,
	"grad_norm": 14.308032989501953,
	"learning_rate": 4.2787107164737325e-05,
	"loss": 3.1278,
	"step": 95500
	},
	{
	"epoch": 0.2311455368144413,
	"grad_norm": 13.68152141571045,
	"learning_rate": 4.272035827699585e-05,
	"loss": 3.1079,
	"step": 96000
	},
	{
	"epoch": 0.23234941981868318,
	"grad_norm": 15.30040454864502,
	"learning_rate": 4.265347562394827e-05,
	"loss": 3.0765,
	"step": 96500
	},
	{
	"epoch": 0.23355330282292505,
	"grad_norm": 17.36260223388672,
	"learning_rate": 4.2586592970900695e-05,
	"loss": 3.0966,
	"step": 97000
	},
	{
	"epoch": 0.23475718582716695,
	"grad_norm": 16.50679588317871,
	"learning_rate": 4.2519710317853125e-05,
	"loss": 3.1462,
	"step": 97500
	},
	{
	"epoch": 0.23596106883140883,
	"grad_norm": 15.678003311157227,
	"learning_rate": 4.245282766480555e-05,
	"loss": 3.1434,
	"step": 98000
	},
	{
	"epoch": 0.2371649518356507,
	"grad_norm": 14.652356147766113,
	"learning_rate": 4.238594501175797e-05,
	"loss": 3.1461,
	"step": 98500
	},
	{
	"epoch": 0.2383688348398926,
	"grad_norm": 13.707479476928711,
	"learning_rate": 4.23190623587104e-05,
	"loss": 3.0894,
	"step": 99000
	},
	{
	"epoch": 0.23957271784413448,
	"grad_norm": 22.13295555114746,
	"learning_rate": 4.225217970566282e-05,
	"loss": 3.1317,
	"step": 99500
	},
	{
	"epoch": 0.24077660084837635,
	"grad_norm": 14.54344367980957,
	"learning_rate": 4.2185430817921346e-05,
	"loss": 3.1209,
	"step": 100000
	},
	{
	"epoch": 0.24077660084837635,
	"eval_runtime": 6233.0245,
	"eval_samples_per_second": 133.265,
	"eval_steps_per_second": 33.316,
	"step": 100000
	},
	{
	"epoch": 0.24198048385261822,
	"grad_norm": 16.891630172729492,
	"learning_rate": 4.211854816487377e-05,
	"loss": 3.1261,
	"step": 100500
	},
	{
	"epoch": 0.24318436685686012,
	"grad_norm": 17.46337127685547,
	"learning_rate": 4.205166551182619e-05,
	"loss": 3.1625,
	"step": 101000
	},
	{
	"epoch": 0.244388249861102,
	"grad_norm": 14.349138259887695,
	"learning_rate": 4.1984916624084716e-05,
	"loss": 3.0834,
	"step": 101500
	},
	{
	"epoch": 0.24559213286534387,
	"grad_norm": 18.939817428588867,
	"learning_rate": 4.191803397103714e-05,
	"loss": 3.1521,
	"step": 102000
	},
	{
	"epoch": 0.24679601586958577,
	"grad_norm": 16.54868507385254,
	"learning_rate": 4.185115131798956e-05,
	"loss": 3.0694,
	"step": 102500
	},
	{
	"epoch": 0.24799989887382765,
	"grad_norm": 14.203706741333008,
	"learning_rate": 4.178426866494199e-05,
	"loss": 3.1201,
	"step": 103000
	},
	{
	"epoch": 0.24920378187806952,
	"grad_norm": 14.797431945800781,
	"learning_rate": 4.171738601189441e-05,
	"loss": 3.1252,
	"step": 103500
	},
	{
	"epoch": 0.2504076648823114,
	"grad_norm": 14.449517250061035,
	"learning_rate": 4.165063712415294e-05,
	"loss": 3.0932,
	"step": 104000
	},
	{
	"epoch": 0.25161154788655327,
	"grad_norm": 17.101430892944336,
	"learning_rate": 4.158375447110536e-05,
	"loss": 3.1127,
	"step": 104500
	},
	{
	"epoch": 0.25281543089079517,
	"grad_norm": 20.582412719726562,
	"learning_rate": 4.151700558336388e-05,
	"loss": 3.0675,
	"step": 105000
	},
	{
	"epoch": 0.25281543089079517,
	"eval_runtime": 6156.9182,
	"eval_samples_per_second": 134.912,
	"eval_steps_per_second": 33.728,
	"step": 105000
	},
	{
	"epoch": 0.25401931389503707,
	"grad_norm": 14.351494789123535,
	"learning_rate": 4.14501229303163e-05,
	"loss": 3.0845,
	"step": 105500
	},
	{
	"epoch": 0.2552231968992789,
	"grad_norm": 11.951766967773438,
	"learning_rate": 4.138324027726873e-05,
	"loss": 3.0907,
	"step": 106000
	},
	{
	"epoch": 0.2564270799035208,
	"grad_norm": 13.831068992614746,
	"learning_rate": 4.131635762422115e-05,
	"loss": 3.1139,
	"step": 106500
	},
	{
	"epoch": 0.2576309629077627,
	"grad_norm": 16.089948654174805,
	"learning_rate": 4.124947497117358e-05,
	"loss": 3.085,
	"step": 107000
	},
	{
	"epoch": 0.25883484591200456,
	"grad_norm": 16.427217483520508,
	"learning_rate": 4.1182592318126004e-05,
	"loss": 3.1444,
	"step": 107500
	},
	{
	"epoch": 0.26003872891624646,
	"grad_norm": 16.443748474121094,
	"learning_rate": 4.111570966507843e-05,
	"loss": 3.1197,
	"step": 108000
	},
	{
	"epoch": 0.26124261192048837,
	"grad_norm": 12.318251609802246,
	"learning_rate": 4.1048827012030856e-05,
	"loss": 3.0734,
	"step": 108500
	},
	{
	"epoch": 0.2624464949247302,
	"grad_norm": 13.695268630981445,
	"learning_rate": 4.098194435898328e-05,
	"loss": 3.1275,
	"step": 109000
	},
	{
	"epoch": 0.2636503779289721,
	"grad_norm": 15.07443904876709,
	"learning_rate": 4.09151954712418e-05,
	"loss": 3.097,
	"step": 109500
	},
	{
	"epoch": 0.264854260933214,
	"grad_norm": 15.240448951721191,
	"learning_rate": 4.0848312818194226e-05,
	"loss": 3.088,
	"step": 110000
	},
	{
	"epoch": 0.264854260933214,
	"eval_runtime": 6153.3584,
	"eval_samples_per_second": 134.991,
	"eval_steps_per_second": 33.748,
	"step": 110000
	},
	{
	"epoch": 0.26605814393745586,
	"grad_norm": 13.12667179107666,
	"learning_rate": 4.078250028759541e-05,
	"loss": 3.0962,
	"step": 110500
	},
	{
	"epoch": 0.26726202694169776,
	"grad_norm": 17.520675659179688,
	"learning_rate": 4.0715617634547834e-05,
	"loss": 3.0786,
	"step": 111000
	},
	{
	"epoch": 0.2684659099459396,
	"grad_norm": 27.284038543701172,
	"learning_rate": 4.064886874680636e-05,
	"loss": 3.1162,
	"step": 111500
	},
	{
	"epoch": 0.2696697929501815,
	"grad_norm": 12.623812675476074,
	"learning_rate": 4.0581986093758775e-05,
	"loss": 3.0993,
	"step": 112000
	},
	{
	"epoch": 0.2708736759544234,
	"grad_norm": 14.702446937561035,
	"learning_rate": 4.0515103440711204e-05,
	"loss": 3.0733,
	"step": 112500
	},
	{
	"epoch": 0.27207755895866526,
	"grad_norm": 16.056833267211914,
	"learning_rate": 4.0448220787663634e-05,
	"loss": 3.0788,
	"step": 113000
	},
	{
	"epoch": 0.27328144196290716,
	"grad_norm": 12.753098487854004,
	"learning_rate": 4.038147189992215e-05,
	"loss": 3.0991,
	"step": 113500
	},
	{
	"epoch": 0.27448532496714906,
	"grad_norm": 13.137269020080566,
	"learning_rate": 4.0314589246874575e-05,
	"loss": 3.0871,
	"step": 114000
	},
	{
	"epoch": 0.2756892079713909,
	"grad_norm": 15.072389602661133,
	"learning_rate": 4.0247706593827004e-05,
	"loss": 3.115,
	"step": 114500
	},
	{
	"epoch": 0.2768930909756328,
	"grad_norm": 15.979447364807129,
	"learning_rate": 4.0180823940779426e-05,
	"loss": 3.1002,
	"step": 115000
	},
	{
	"epoch": 0.2768930909756328,
	"eval_runtime": 6179.6049,
	"eval_samples_per_second": 134.417,
	"eval_steps_per_second": 33.604,
	"step": 115000
	},
	{
	"epoch": 0.2780969739798747,
	"grad_norm": 13.973761558532715,
	"learning_rate": 4.011394128773185e-05,
	"loss": 3.0706,
	"step": 115500
	},
	{
	"epoch": 0.27930085698411655,
	"grad_norm": 16.156885147094727,
	"learning_rate": 4.004705863468428e-05,
	"loss": 3.0595,
	"step": 116000
	},
	{
	"epoch": 0.28050473998835845,
	"grad_norm": 14.320749282836914,
	"learning_rate": 3.99801759816367e-05,
	"loss": 3.1083,
	"step": 116500
	},
	{
	"epoch": 0.28170862299260035,
	"grad_norm": 13.002079010009766,
	"learning_rate": 3.991329332858912e-05,
	"loss": 3.0554,
	"step": 117000
	},
	{
	"epoch": 0.2829125059968422,
	"grad_norm": 19.574172973632812,
	"learning_rate": 3.984654444084764e-05,
	"loss": 3.1074,
	"step": 117500
	},
	{
	"epoch": 0.2841163890010841,
	"grad_norm": 12.356159210205078,
	"learning_rate": 3.977966178780007e-05,
	"loss": 3.1215,
	"step": 118000
	},
	{
	"epoch": 0.285320272005326,
	"grad_norm": 17.327226638793945,
	"learning_rate": 3.97127791347525e-05,
	"loss": 3.047,
	"step": 118500
	},
	{
	"epoch": 0.28652415500956785,
	"grad_norm": 16.561124801635742,
	"learning_rate": 3.964589648170492e-05,
	"loss": 3.1006,
	"step": 119000
	},
	{
	"epoch": 0.28772803801380975,
	"grad_norm": 14.118390083312988,
	"learning_rate": 3.9579013828657344e-05,
	"loss": 3.08,
	"step": 119500
	},
	{
	"epoch": 0.2889319210180516,
	"grad_norm": 15.130383491516113,
	"learning_rate": 3.951213117560977e-05,
	"loss": 3.0229,
	"step": 120000
	},
	{
	"epoch": 0.2889319210180516,
	"eval_runtime": 6265.7809,
	"eval_samples_per_second": 132.568,
	"eval_steps_per_second": 33.142,
	"step": 120000
	},
	{
	"epoch": 0.2901358040222935,
	"grad_norm": 20.27661895751953,
	"learning_rate": 3.944538228786829e-05,
	"loss": 3.0565,
	"step": 120500
	},
	{
	"epoch": 0.2913396870265354,
	"grad_norm": 15.461856842041016,
	"learning_rate": 3.9378499634820714e-05,
	"loss": 3.0717,
	"step": 121000
	},
	{
	"epoch": 0.29254357003077724,
	"grad_norm": 17.019287109375,
	"learning_rate": 3.931161698177314e-05,
	"loss": 3.1387,
	"step": 121500
	},
	{
	"epoch": 0.29374745303501915,
	"grad_norm": 18.06890106201172,
	"learning_rate": 3.9244734328725566e-05,
	"loss": 3.1166,
	"step": 122000
	},
	{
	"epoch": 0.29495133603926105,
	"grad_norm": 31.920703887939453,
	"learning_rate": 3.917798544098409e-05,
	"loss": 3.095,
	"step": 122500
	},
	{
	"epoch": 0.2961552190435029,
	"grad_norm": 15.199366569519043,
	"learning_rate": 3.9111102787936507e-05,
	"loss": 3.0706,
	"step": 123000
	},
	{
	"epoch": 0.2973591020477448,
	"grad_norm": 15.413779258728027,
	"learning_rate": 3.9044220134888936e-05,
	"loss": 3.121,
	"step": 123500
	},
	{
	"epoch": 0.2985629850519867,
	"grad_norm": 14.4086275100708,
	"learning_rate": 3.8977337481841365e-05,
	"loss": 3.087,
	"step": 124000
	},
	{
	"epoch": 0.29976686805622854,
	"grad_norm": 12.95889663696289,
	"learning_rate": 3.891045482879379e-05,
	"loss": 3.0934,
	"step": 124500
	},
	{
	"epoch": 0.30097075106047044,
	"grad_norm": 19.025604248046875,
	"learning_rate": 3.884357217574621e-05,
	"loss": 3.1332,
	"step": 125000
	},
	{
	"epoch": 0.30097075106047044,
	"eval_runtime": 6218.4719,
	"eval_samples_per_second": 133.577,
	"eval_steps_per_second": 33.394,
	"step": 125000
	},
	{
	"epoch": 0.30217463406471234,
	"grad_norm": 14.700455665588379,
	"learning_rate": 3.877668952269864e-05,
	"loss": 3.0799,
	"step": 125500
	},
	{
	"epoch": 0.3033785170689542,
	"grad_norm": 15.362942695617676,
	"learning_rate": 3.870994063495716e-05,
	"loss": 3.0551,
	"step": 126000
	},
	{
	"epoch": 0.3045824000731961,
	"grad_norm": 18.218399047851562,
	"learning_rate": 3.864305798190958e-05,
	"loss": 3.0529,
	"step": 126500
	},
	{
	"epoch": 0.305786283077438,
	"grad_norm": 18.461824417114258,
	"learning_rate": 3.857617532886201e-05,
	"loss": 3.1065,
	"step": 127000
	},
	{
	"epoch": 0.30699016608167984,
	"grad_norm": 12.244810104370117,
	"learning_rate": 3.850929267581443e-05,
	"loss": 3.0844,
	"step": 127500
	},
	{
	"epoch": 0.30819404908592174,
	"grad_norm": 20.86441993713379,
	"learning_rate": 3.8442410022766854e-05,
	"loss": 3.0551,
	"step": 128000
	},
	{
	"epoch": 0.30939793209016364,
	"grad_norm": 16.215953826904297,
	"learning_rate": 3.837552736971928e-05,
	"loss": 3.0748,
	"step": 128500
	},
	{
	"epoch": 0.3106018150944055,
	"grad_norm": 17.1651554107666,
	"learning_rate": 3.8308644716671705e-05,
	"loss": 3.144,
	"step": 129000
	},
	{
	"epoch": 0.3118056980986474,
	"grad_norm": 22.377321243286133,
	"learning_rate": 3.8241762063624134e-05,
	"loss": 3.1162,
	"step": 129500
	},
	{
	"epoch": 0.31300958110288923,
	"grad_norm": 21.55461883544922,
	"learning_rate": 3.817501317588265e-05,
	"loss": 3.1048,
	"step": 130000
	},
	{
	"epoch": 0.31300958110288923,
	"eval_runtime": 6198.7963,
	"eval_samples_per_second": 134.001,
	"eval_steps_per_second": 33.5,
	"step": 130000
	},
	{
	"epoch": 0.31421346410713114,
	"grad_norm": 17.96697425842285,
	"learning_rate": 3.8108130522835075e-05,
	"loss": 3.0576,
	"step": 130500
	},
	{
	"epoch": 0.31541734711137304,
	"grad_norm": 15.112616539001465,
	"learning_rate": 3.80412478697875e-05,
	"loss": 3.1265,
	"step": 131000
	},
	{
	"epoch": 0.3166212301156149,
	"grad_norm": 15.317338943481445,
	"learning_rate": 3.797449898204602e-05,
	"loss": 3.0716,
	"step": 131500
	},
	{
	"epoch": 0.3178251131198568,
	"grad_norm": 14.246545791625977,
	"learning_rate": 3.7907616328998445e-05,
	"loss": 3.1111,
	"step": 132000
	},
	{
	"epoch": 0.3190289961240987,
	"grad_norm": 14.737203598022461,
	"learning_rate": 3.7840733675950874e-05,
	"loss": 3.1051,
	"step": 132500
	},
	{
	"epoch": 0.32023287912834053,
	"grad_norm": 16.053455352783203,
	"learning_rate": 3.77738510229033e-05,
	"loss": 3.0498,
	"step": 133000
	},
	{
	"epoch": 0.32143676213258243,
	"grad_norm": 15.171459197998047,
	"learning_rate": 3.770696836985572e-05,
	"loss": 3.0535,
	"step": 133500
	},
	{
	"epoch": 0.32264064513682433,
	"grad_norm": 23.735517501831055,
	"learning_rate": 3.7640219482114245e-05,
	"loss": 3.0349,
	"step": 134000
	},
	{
	"epoch": 0.3238445281410662,
	"grad_norm": 13.836942672729492,
	"learning_rate": 3.757333682906667e-05,
	"loss": 3.0985,
	"step": 134500
	},
	{
	"epoch": 0.3250484111453081,
	"grad_norm": 15.954339027404785,
	"learning_rate": 3.750645417601909e-05,
	"loss": 3.0927,
	"step": 135000
	},
	{
	"epoch": 0.3250484111453081,
	"eval_runtime": 6258.0775,
	"eval_samples_per_second": 132.732,
	"eval_steps_per_second": 33.183,
	"step": 135000
	},
	{
	"epoch": 0.32625229414955,
	"grad_norm": 23.13224983215332,
	"learning_rate": 3.7439705288277615e-05,
	"loss": 3.0961,
	"step": 135500
	},
	{
	"epoch": 0.3274561771537918,
	"grad_norm": 11.840916633605957,
	"learning_rate": 3.737282263523004e-05,
	"loss": 3.0769,
	"step": 136000
	},
	{
	"epoch": 0.32866006015803373,
	"grad_norm": 11.10158634185791,
	"learning_rate": 3.7305939982182466e-05,
	"loss": 3.0942,
	"step": 136500
	},
	{
	"epoch": 0.32986394316227563,
	"grad_norm": 14.162835121154785,
	"learning_rate": 3.723905732913489e-05,
	"loss": 3.1289,
	"step": 137000
	},
	{
	"epoch": 0.3310678261665175,
	"grad_norm": 23.765029907226562,
	"learning_rate": 3.717217467608731e-05,
	"loss": 3.0774,
	"step": 137500
	},
	{
	"epoch": 0.3322717091707594,
	"grad_norm": 22.40215492248535,
	"learning_rate": 3.710542578834583e-05,
	"loss": 3.0886,
	"step": 138000
	},
	{
	"epoch": 0.3334755921750012,
	"grad_norm": 16.616819381713867,
	"learning_rate": 3.703854313529826e-05,
	"loss": 3.102,
	"step": 138500
	},
	{
	"epoch": 0.3346794751792431,
	"grad_norm": 19.094507217407227,
	"learning_rate": 3.697166048225068e-05,
	"loss": 3.1027,
	"step": 139000
	},
	{
	"epoch": 0.335883358183485,
	"grad_norm": 20.761945724487305,
	"learning_rate": 3.690477782920311e-05,
	"loss": 3.0609,
	"step": 139500
	},
	{
	"epoch": 0.33708724118772687,
	"grad_norm": 11.371627807617188,
	"learning_rate": 3.683789517615553e-05,
	"loss": 3.0916,
	"step": 140000
	},
	{
	"epoch": 0.33708724118772687,
	"eval_runtime": 6174.667,
	"eval_samples_per_second": 134.525,
	"eval_steps_per_second": 33.631,
	"step": 140000
	},
	{
	"epoch": 0.3382911241919688,
	"grad_norm": 15.36569881439209,
	"learning_rate": 3.6771012523107955e-05,
	"loss": 3.0964,
	"step": 140500
	},
	{
	"epoch": 0.3394950071962107,
	"grad_norm": 19.703203201293945,
	"learning_rate": 3.6704129870060384e-05,
	"loss": 3.0631,
	"step": 141000
	},
	{
	"epoch": 0.3406988902004525,
	"grad_norm": 23.92881965637207,
	"learning_rate": 3.663724721701281e-05,
	"loss": 3.0702,
	"step": 141500
	},
	{
	"epoch": 0.3419027732046944,
	"grad_norm": 18.54579734802246,
	"learning_rate": 3.657036456396523e-05,
	"loss": 3.0732,
	"step": 142000
	},
	{
	"epoch": 0.3431066562089363,
	"grad_norm": 13.281709671020508,
	"learning_rate": 3.650348191091766e-05,
	"loss": 3.0937,
	"step": 142500
	},
	{
	"epoch": 0.34431053921317817,
	"grad_norm": 17.042314529418945,
	"learning_rate": 3.6436733023176177e-05,
	"loss": 3.0914,
	"step": 143000
	},
	{
	"epoch": 0.34551442221742007,
	"grad_norm": 16.268789291381836,
	"learning_rate": 3.6369850370128606e-05,
	"loss": 3.0899,
	"step": 143500
	},
	{
	"epoch": 0.34671830522166197,
	"grad_norm": 26.38330841064453,
	"learning_rate": 3.630296771708103e-05,
	"loss": 3.0666,
	"step": 144000
	},
	{
	"epoch": 0.3479221882259038,
	"grad_norm": 14.961106300354004,
	"learning_rate": 3.623608506403345e-05,
	"loss": 3.069,
	"step": 144500
	},
	{
	"epoch": 0.3491260712301457,
	"grad_norm": 12.415295600891113,
	"learning_rate": 3.616920241098588e-05,
	"loss": 3.0293,
	"step": 145000
	},
	{
	"epoch": 0.3491260712301457,
	"eval_runtime": 6109.5629,
	"eval_samples_per_second": 135.958,
	"eval_steps_per_second": 33.99,
	"step": 145000
	},
	{
	"epoch": 0.3503299542343876,
	"grad_norm": 16.554115295410156,
	"learning_rate": 3.61024535232444e-05,
	"loss": 3.0739,
	"step": 145500
	},
	{
	"epoch": 0.35153383723862947,
	"grad_norm": 20.627267837524414,
	"learning_rate": 3.603557087019682e-05,
	"loss": 3.0799,
	"step": 146000
	},
	{
	"epoch": 0.35273772024287137,
	"grad_norm": 15.106368064880371,
	"learning_rate": 3.596868821714925e-05,
	"loss": 3.0417,
	"step": 146500
	},
	{
	"epoch": 0.3539416032471132,
	"grad_norm": 17.705570220947266,
	"learning_rate": 3.590180556410168e-05,
	"loss": 3.0896,
	"step": 147000
	},
	{
	"epoch": 0.3551454862513551,
	"grad_norm": 16.01241683959961,
	"learning_rate": 3.5834922911054094e-05,
	"loss": 3.0729,
	"step": 147500
	},
	{
	"epoch": 0.356349369255597,
	"grad_norm": 17.986221313476562,
	"learning_rate": 3.576817402331262e-05,
	"loss": 3.11,
	"step": 148000
	},
	{
	"epoch": 0.35755325225983886,
	"grad_norm": 17.471803665161133,
	"learning_rate": 3.570129137026504e-05,
	"loss": 3.0968,
	"step": 148500
	},
	{
	"epoch": 0.35875713526408076,
	"grad_norm": 16.683828353881836,
	"learning_rate": 3.563440871721747e-05,
	"loss": 3.0491,
	"step": 149000
	},
	{
	"epoch": 0.35996101826832266,
	"grad_norm": 18.689273834228516,
	"learning_rate": 3.5567526064169894e-05,
	"loss": 3.0183,
	"step": 149500
	},
	{
	"epoch": 0.3611649012725645,
	"grad_norm": 14.659083366394043,
	"learning_rate": 3.550064341112232e-05,
	"loss": 3.0965,
	"step": 150000
	},
	{
	"epoch": 0.3611649012725645,
	"eval_runtime": 6228.4893,
	"eval_samples_per_second": 133.362,
	"eval_steps_per_second": 33.341,
	"step": 150000
	},
	{
	"epoch": 0.3623687842768064,
	"grad_norm": 16.2710018157959,
	"learning_rate": 3.5433760758074745e-05,
	"loss": 3.1006,
	"step": 150500
	},
	{
	"epoch": 0.3635726672810483,
	"grad_norm": 16.394590377807617,
	"learning_rate": 3.5367011870333264e-05,
	"loss": 3.0602,
	"step": 151000
	},
	{
	"epoch": 0.36477655028529016,
	"grad_norm": 15.235190391540527,
	"learning_rate": 3.5300129217285686e-05,
	"loss": 3.0777,
	"step": 151500
	},
	{
	"epoch": 0.36598043328953206,
	"grad_norm": 15.201708793640137,
	"learning_rate": 3.5233246564238115e-05,
	"loss": 3.0595,
	"step": 152000
	},
	{
	"epoch": 0.36718431629377396,
	"grad_norm": 22.309728622436523,
	"learning_rate": 3.5166363911190544e-05,
	"loss": 3.0446,
	"step": 152500
	},
	{
	"epoch": 0.3683881992980158,
	"grad_norm": 13.854850769042969,
	"learning_rate": 3.509961502344906e-05,
	"loss": 3.0665,
	"step": 153000
	},
	{
	"epoch": 0.3695920823022577,
	"grad_norm": 14.474712371826172,
	"learning_rate": 3.5032732370401485e-05,
	"loss": 3.1098,
	"step": 153500
	},
	{
	"epoch": 0.3707959653064996,
	"grad_norm": 13.207783699035645,
	"learning_rate": 3.496584971735391e-05,
	"loss": 3.1007,
	"step": 154000
	},
	{
	"epoch": 0.37199984831074145,
	"grad_norm": 13.456844329833984,
	"learning_rate": 3.489896706430634e-05,
	"loss": 3.0957,
	"step": 154500
	},
	{
	"epoch": 0.37320373131498336,
	"grad_norm": 17.590436935424805,
	"learning_rate": 3.483208441125876e-05,
	"loss": 3.0295,
	"step": 155000
	},
	{
	"epoch": 0.37320373131498336,
	"eval_runtime": 6177.0488,
	"eval_samples_per_second": 134.473,
	"eval_steps_per_second": 33.618,
	"step": 155000
	},
	{
	"epoch": 0.3744076143192252,
	"grad_norm": 12.911888122558594,
	"learning_rate": 3.476520175821119e-05,
	"loss": 3.0661,
	"step": 155500
	},
	{
	"epoch": 0.3756114973234671,
	"grad_norm": 14.606691360473633,
	"learning_rate": 3.469831910516361e-05,
	"loss": 3.0804,
	"step": 156000
	},
	{
	"epoch": 0.376815380327709,
	"grad_norm": 18.043087005615234,
	"learning_rate": 3.463143645211603e-05,
	"loss": 3.1359,
	"step": 156500
	},
	{
	"epoch": 0.37801926333195085,
	"grad_norm": 15.033346176147461,
	"learning_rate": 3.456468756437455e-05,
	"loss": 2.9907,
	"step": 157000
	},
	{
	"epoch": 0.37922314633619275,
	"grad_norm": 17.020784378051758,
	"learning_rate": 3.449780491132698e-05,
	"loss": 3.0606,
	"step": 157500
	},
	{
	"epoch": 0.38042702934043465,
	"grad_norm": 22.74751091003418,
	"learning_rate": 3.44310560235855e-05,
	"loss": 3.1285,
	"step": 158000
	},
	{
	"epoch": 0.3816309123446765,
	"grad_norm": 14.052987098693848,
	"learning_rate": 3.436417337053793e-05,
	"loss": 3.0703,
	"step": 158500
	},
	{
	"epoch": 0.3828347953489184,
	"grad_norm": 22.046268463134766,
	"learning_rate": 3.429729071749035e-05,
	"loss": 3.0916,
	"step": 159000
	},
	{
	"epoch": 0.3840386783531603,
	"grad_norm": 23.049739837646484,
	"learning_rate": 3.4230408064442773e-05,
	"loss": 3.0909,
	"step": 159500
	},
	{
	"epoch": 0.38524256135740215,
	"grad_norm": 15.563003540039062,
	"learning_rate": 3.41635254113952e-05,
	"loss": 3.051,
	"step": 160000
	},
	{
	"epoch": 0.38524256135740215,
	"eval_runtime": 6216.4944,
	"eval_samples_per_second": 133.62,
	"eval_steps_per_second": 33.405,
	"step": 160000
	},
	{
	"epoch": 0.38644644436164405,
	"grad_norm": 11.055919647216797,
	"learning_rate": 3.4096642758347625e-05,
	"loss": 3.0614,
	"step": 160500
	},
	{
	"epoch": 0.38765032736588595,
	"grad_norm": 18.309402465820312,
	"learning_rate": 3.4029760105300054e-05,
	"loss": 3.0618,
	"step": 161000
	},
	{
	"epoch": 0.3888542103701278,
	"grad_norm": 15.657028198242188,
	"learning_rate": 3.396287745225247e-05,
	"loss": 3.068,
	"step": 161500
	},
	{
	"epoch": 0.3900580933743697,
	"grad_norm": 15.660598754882812,
	"learning_rate": 3.3896128564510995e-05,
	"loss": 3.0956,
	"step": 162000
	},
	{
	"epoch": 0.3912619763786116,
	"grad_norm": 17.219053268432617,
	"learning_rate": 3.382924591146342e-05,
	"loss": 3.0762,
	"step": 162500
	},
	{
	"epoch": 0.39246585938285344,
	"grad_norm": 15.2114896774292,
	"learning_rate": 3.376249702372194e-05,
	"loss": 3.0193,
	"step": 163000
	},
	{
	"epoch": 0.39366974238709534,
	"grad_norm": 15.437503814697266,
	"learning_rate": 3.3695614370674365e-05,
	"loss": 3.0757,
	"step": 163500
	},
	{
	"epoch": 0.39487362539133725,
	"grad_norm": 17.652286529541016,
	"learning_rate": 3.3628731717626794e-05,
	"loss": 3.0871,
	"step": 164000
	},
	{
	"epoch": 0.3960775083955791,
	"grad_norm": 14.703353881835938,
	"learning_rate": 3.356184906457922e-05,
	"loss": 3.0025,
	"step": 164500
	},
	{
	"epoch": 0.397281391399821,
	"grad_norm": 15.438825607299805,
	"learning_rate": 3.349496641153164e-05,
	"loss": 3.049,
	"step": 165000
	},
	{
	"epoch": 0.397281391399821,
	"eval_runtime": 6142.6208,
	"eval_samples_per_second": 135.226,
	"eval_steps_per_second": 33.807,
	"step": 165000
	},
	{
	"epoch": 0.39848527440406284,
	"grad_norm": 21.73479461669922,
	"learning_rate": 3.3428217523790165e-05,
	"loss": 3.0724,
	"step": 165500
	},
	{
	"epoch": 0.39968915740830474,
	"grad_norm": 13.589031219482422,
	"learning_rate": 3.336133487074259e-05,
	"loss": 3.0599,
	"step": 166000
	},
	{
	"epoch": 0.40089304041254664,
	"grad_norm": 12.588455200195312,
	"learning_rate": 3.329445221769501e-05,
	"loss": 3.0674,
	"step": 166500
	},
	{
	"epoch": 0.4020969234167885,
	"grad_norm": 16.856395721435547,
	"learning_rate": 3.322756956464744e-05,
	"loss": 3.0598,
	"step": 167000
	},
	{
	"epoch": 0.4033008064210304,
	"grad_norm": 14.325052261352539,
	"learning_rate": 3.316068691159986e-05,
	"loss": 3.1033,
	"step": 167500
	},
	{
	"epoch": 0.4045046894252723,
	"grad_norm": 20.509449005126953,
	"learning_rate": 3.3093938023858386e-05,
	"loss": 3.0843,
	"step": 168000
	},
	{
	"epoch": 0.40570857242951414,
	"grad_norm": 17.73023796081543,
	"learning_rate": 3.302705537081081e-05,
	"loss": 3.0367,
	"step": 168500
	},
	{
	"epoch": 0.40691245543375604,
	"grad_norm": 24.057329177856445,
	"learning_rate": 3.296017271776323e-05,
	"loss": 3.0771,
	"step": 169000
	},
	{
	"epoch": 0.40811633843799794,
	"grad_norm": 19.776145935058594,
	"learning_rate": 3.289329006471566e-05,
	"loss": 3.0784,
	"step": 169500
	},
	{
	"epoch": 0.4093202214422398,
	"grad_norm": 23.74951934814453,
	"learning_rate": 3.282654117697418e-05,
	"loss": 3.0786,
	"step": 170000
	},
	{
	"epoch": 0.4093202214422398,
	"eval_runtime": 6188.4105,
	"eval_samples_per_second": 134.226,
	"eval_steps_per_second": 33.557,
	"step": 170000
	},
	{
	"epoch": 0.4105241044464817,
	"grad_norm": 17.745681762695312,
	"learning_rate": 3.27596585239266e-05,
	"loss": 3.0666,
	"step": 170500
	},
	{
	"epoch": 0.4117279874507236,
	"grad_norm": 20.147336959838867,
	"learning_rate": 3.269277587087903e-05,
	"loss": 3.1238,
	"step": 171000
	},
	{
	"epoch": 0.41293187045496543,
	"grad_norm": 16.938888549804688,
	"learning_rate": 3.262589321783145e-05,
	"loss": 3.0414,
	"step": 171500
	},
	{
	"epoch": 0.41413575345920733,
	"grad_norm": 15.663901329040527,
	"learning_rate": 3.2559010564783875e-05,
	"loss": 3.0892,
	"step": 172000
	},
	{
	"epoch": 0.41533963646344924,
	"grad_norm": 16.39117431640625,
	"learning_rate": 3.2492127911736304e-05,
	"loss": 3.0685,
	"step": 172500
	},
	{
	"epoch": 0.4165435194676911,
	"grad_norm": 14.299029350280762,
	"learning_rate": 3.242537902399482e-05,
	"loss": 3.0725,
	"step": 173000
	},
	{
	"epoch": 0.417747402471933,
	"grad_norm": 11.168866157531738,
	"learning_rate": 3.235849637094725e-05,
	"loss": 3.0502,
	"step": 173500
	},
	{
	"epoch": 0.41895128547617483,
	"grad_norm": 13.38841724395752,
	"learning_rate": 3.2291613717899674e-05,
	"loss": 3.062,
	"step": 174000
	},
	{
	"epoch": 0.42015516848041673,
	"grad_norm": 14.151941299438477,
	"learning_rate": 3.2224731064852097e-05,
	"loss": 3.0666,
	"step": 174500
	},
	{
	"epoch": 0.42135905148465863,
	"grad_norm": 17.730104446411133,
	"learning_rate": 3.215784841180452e-05,
	"loss": 3.0709,
	"step": 175000
	},
	{
	"epoch": 0.42135905148465863,
	"eval_runtime": 6186.2143,
	"eval_samples_per_second": 134.274,
	"eval_steps_per_second": 33.569,
	"step": 175000
	},
	{
	"epoch": 0.4225629344889005,
	"grad_norm": 16.822513580322266,
	"learning_rate": 3.209096575875695e-05,
	"loss": 3.065,
	"step": 175500
	},
	{
	"epoch": 0.4237668174931424,
	"grad_norm": 15.454965591430664,
	"learning_rate": 3.202408310570938e-05,
	"loss": 3.0476,
	"step": 176000
	},
	{
	"epoch": 0.4249707004973843,
	"grad_norm": 21.14031410217285,
	"learning_rate": 3.195720045266179e-05,
	"loss": 3.0339,
	"step": 176500
	},
	{
	"epoch": 0.4261745835016261,
	"grad_norm": 19.002689361572266,
	"learning_rate": 3.189045156492032e-05,
	"loss": 3.0598,
	"step": 177000
	},
	{
	"epoch": 0.427378466505868,
	"grad_norm": 11.582403182983398,
	"learning_rate": 3.182356891187274e-05,
	"loss": 3.0454,
	"step": 177500
	},
	{
	"epoch": 0.42858234951010993,
	"grad_norm": 14.35600757598877,
	"learning_rate": 3.175668625882517e-05,
	"loss": 3.0677,
	"step": 178000
	},
	{
	"epoch": 0.4297862325143518,
	"grad_norm": 18.5367374420166,
	"learning_rate": 3.168980360577759e-05,
	"loss": 3.1098,
	"step": 178500
	},
	{
	"epoch": 0.4309901155185937,
	"grad_norm": 17.769344329833984,
	"learning_rate": 3.162305471803611e-05,
	"loss": 3.052,
	"step": 179000
	},
	{
	"epoch": 0.4321939985228356,
	"grad_norm": 17.472938537597656,
	"learning_rate": 3.155617206498854e-05,
	"loss": 3.0699,
	"step": 179500
	},
	{
	"epoch": 0.4333978815270774,
	"grad_norm": 14.995344161987305,
	"learning_rate": 3.148928941194096e-05,
	"loss": 3.0682,
	"step": 180000
	},
	{
	"epoch": 0.4333978815270774,
	"eval_runtime": 6302.7174,
	"eval_samples_per_second": 131.792,
	"eval_steps_per_second": 32.948,
	"step": 180000
	},
	{
	"epoch": 0.4346017645313193,
	"grad_norm": 17.150964736938477,
	"learning_rate": 3.1422406758893384e-05,
	"loss": 3.0906,
	"step": 180500
	},
	{
	"epoch": 0.4358056475355612,
	"grad_norm": 14.804174423217773,
	"learning_rate": 3.1355524105845814e-05,
	"loss": 3.0493,
	"step": 181000
	},
	{
	"epoch": 0.43700953053980307,
	"grad_norm": 17.898832321166992,
	"learning_rate": 3.128864145279824e-05,
	"loss": 3.089,
	"step": 181500
	},
	{
	"epoch": 0.43821341354404497,
	"grad_norm": 16.601884841918945,
	"learning_rate": 3.122189256505676e-05,
	"loss": 3.0688,
	"step": 182000
	},
	{
	"epoch": 0.4394172965482868,
	"grad_norm": 14.000849723815918,
	"learning_rate": 3.1155009912009184e-05,
	"loss": 3.0295,
	"step": 182500
	},
	{
	"epoch": 0.4406211795525287,
	"grad_norm": 17.828115463256836,
	"learning_rate": 3.1088127258961606e-05,
	"loss": 3.0588,
	"step": 183000
	},
	{
	"epoch": 0.4418250625567706,
	"grad_norm": 20.30364418029785,
	"learning_rate": 3.1021244605914035e-05,
	"loss": 3.0203,
	"step": 183500
	},
	{
	"epoch": 0.44302894556101247,
	"grad_norm": 17.606700897216797,
	"learning_rate": 3.095436195286646e-05,
	"loss": 3.0568,
	"step": 184000
	},
	{
	"epoch": 0.44423282856525437,
	"grad_norm": 17.633464813232422,
	"learning_rate": 3.0887613065124976e-05,
	"loss": 3.0702,
	"step": 184500
	},
	{
	"epoch": 0.44543671156949627,
	"grad_norm": 14.55715274810791,
	"learning_rate": 3.0820730412077405e-05,
	"loss": 3.0746,
	"step": 185000
	},
	{
	"epoch": 0.44543671156949627,
	"eval_runtime": 6306.1272,
	"eval_samples_per_second": 131.72,
	"eval_steps_per_second": 32.93,
	"step": 185000
	},
	{
	"epoch": 0.4466405945737381,
	"grad_norm": 16.668909072875977,
	"learning_rate": 3.075384775902983e-05,
	"loss": 3.0566,
	"step": 185500
	},
	{
	"epoch": 0.44784447757798,
	"grad_norm": 14.347661018371582,
	"learning_rate": 3.068696510598225e-05,
	"loss": 3.0616,
	"step": 186000
	},
	{
	"epoch": 0.4490483605822219,
	"grad_norm": 17.429546356201172,
	"learning_rate": 3.062021621824077e-05,
	"loss": 3.0875,
	"step": 186500
	},
	{
	"epoch": 0.45025224358646376,
	"grad_norm": 19.362503051757812,
	"learning_rate": 3.0553467330499294e-05,
	"loss": 3.057,
	"step": 187000
	},
	{
	"epoch": 0.45145612659070566,
	"grad_norm": 14.057225227355957,
	"learning_rate": 3.048658467745172e-05,
	"loss": 3.0644,
	"step": 187500
	},
	{
	"epoch": 0.45266000959494757,
	"grad_norm": 21.090145111083984,
	"learning_rate": 3.0419702024404146e-05,
	"loss": 3.0886,
	"step": 188000
	},
	{
	"epoch": 0.4538638925991894,
	"grad_norm": 13.602699279785156,
	"learning_rate": 3.0352819371356568e-05,
	"loss": 3.0649,
	"step": 188500
	},
	{
	"epoch": 0.4550677756034313,
	"grad_norm": 14.61277961730957,
	"learning_rate": 3.0285936718308994e-05,
	"loss": 3.0502,
	"step": 189000
	},
	{
	"epoch": 0.4562716586076732,
	"grad_norm": 14.571629524230957,
	"learning_rate": 3.021905406526142e-05,
	"loss": 3.0512,
	"step": 189500
	},
	{
	"epoch": 0.45747554161191506,
	"grad_norm": 16.995033264160156,
	"learning_rate": 3.0152171412213842e-05,
	"loss": 3.0619,
	"step": 190000
	},
	{
	"epoch": 0.45747554161191506,
	"eval_runtime": 6119.7371,
	"eval_samples_per_second": 135.732,
	"eval_steps_per_second": 33.933,
	"step": 190000
	},
	{
	"epoch": 0.45867942461615696,
	"grad_norm": 14.749920845031738,
	"learning_rate": 3.0085288759166268e-05,
	"loss": 3.0377,
	"step": 190500
	},
	{
	"epoch": 0.4598833076203988,
	"grad_norm": 18.717721939086914,
	"learning_rate": 3.0018406106118697e-05,
	"loss": 3.028,
	"step": 191000
	},
	{
	"epoch": 0.4610871906246407,
	"grad_norm": 13.981959342956543,
	"learning_rate": 2.995152345307112e-05,
	"loss": 3.0643,
	"step": 191500
	},
	{
	"epoch": 0.4622910736288826,
	"grad_norm": 13.590766906738281,
	"learning_rate": 2.9884640800023545e-05,
	"loss": 3.0734,
	"step": 192000
	},
	{
	"epoch": 0.46349495663312446,
	"grad_norm": 14.754199028015137,
	"learning_rate": 2.981775814697597e-05,
	"loss": 3.0575,
	"step": 192500
	},
	{
	"epoch": 0.46469883963736636,
	"grad_norm": 15.374496459960938,
	"learning_rate": 2.9751009259234493e-05,
	"loss": 3.0545,
	"step": 193000
	},
	{
	"epoch": 0.46590272264160826,
	"grad_norm": 17.713016510009766,
	"learning_rate": 2.968412660618691e-05,
	"loss": 3.022,
	"step": 193500
	},
	{
	"epoch": 0.4671066056458501,
	"grad_norm": 13.752087593078613,
	"learning_rate": 2.961724395313934e-05,
	"loss": 3.0129,
	"step": 194000
	},
	{
	"epoch": 0.468310488650092,
	"grad_norm": 11.1192626953125,
	"learning_rate": 2.9550361300091767e-05,
	"loss": 3.0285,
	"step": 194500
	},
	{
	"epoch": 0.4695143716543339,
	"grad_norm": 17.55103874206543,
	"learning_rate": 2.9483746177656378e-05,
	"loss": 3.045,
	"step": 195000
	},
	{
	"epoch": 0.4695143716543339,
	"eval_runtime": 6132.8059,
	"eval_samples_per_second": 135.443,
	"eval_steps_per_second": 33.861,
	"step": 195000
	},
	{
	"epoch": 0.47071825465857575,
	"grad_norm": 27.24392318725586,
	"learning_rate": 2.9416863524608807e-05,
	"loss": 3.0499,
	"step": 195500
	},
	{
	"epoch": 0.47192213766281765,
	"grad_norm": 14.595544815063477,
	"learning_rate": 2.9349980871561226e-05,
	"loss": 3.0375,
	"step": 196000
	},
	{
	"epoch": 0.47312602066705955,
	"grad_norm": 13.058863639831543,
	"learning_rate": 2.9283098218513655e-05,
	"loss": 3.1024,
	"step": 196500
	},
	{
	"epoch": 0.4743299036713014,
	"grad_norm": 15.837779998779297,
	"learning_rate": 2.921621556546608e-05,
	"loss": 3.082,
	"step": 197000
	},
	{
	"epoch": 0.4755337866755433,
	"grad_norm": 14.441446304321289,
	"learning_rate": 2.9149466677724603e-05,
	"loss": 3.0608,
	"step": 197500
	},
	{
	"epoch": 0.4767376696797852,
	"grad_norm": 16.908939361572266,
	"learning_rate": 2.9082584024677022e-05,
	"loss": 3.0524,
	"step": 198000
	},
	{
	"epoch": 0.47794155268402705,
	"grad_norm": 15.620512962341309,
	"learning_rate": 2.901570137162945e-05,
	"loss": 3.0614,
	"step": 198500
	},
	{
	"epoch": 0.47914543568826895,
	"grad_norm": 17.97640609741211,
	"learning_rate": 2.8948818718581877e-05,
	"loss": 3.0483,
	"step": 199000
	},
	{
	"epoch": 0.48034931869251085,
	"grad_norm": 19.494766235351562,
	"learning_rate": 2.88819360655343e-05,
	"loss": 3.0629,
	"step": 199500
	},
	{
	"epoch": 0.4815532016967527,
	"grad_norm": 18.747150421142578,
	"learning_rate": 2.8815053412486725e-05,
	"loss": 3.0774,
	"step": 200000
	},
	{
	"epoch": 0.4815532016967527,
	"eval_runtime": 6171.1886,
	"eval_samples_per_second": 134.6,
	"eval_steps_per_second": 33.65,
	"step": 200000
	},
	{
	"epoch": 0.4827570847009946,
	"grad_norm": 15.972591400146484,
	"learning_rate": 2.874817075943915e-05,
	"loss": 3.0938,
	"step": 200500
	},
	{
	"epoch": 0.48396096770523644,
	"grad_norm": 16.991474151611328,
	"learning_rate": 2.8681421871697673e-05,
	"loss": 3.0431,
	"step": 201000
	},
	{
	"epoch": 0.48516485070947835,
	"grad_norm": 16.47597312927246,
	"learning_rate": 2.8614539218650095e-05,
	"loss": 3.0886,
	"step": 201500
	},
	{
	"epoch": 0.48636873371372025,
	"grad_norm": 20.3975830078125,
	"learning_rate": 2.854765656560252e-05,
	"loss": 3.0562,
	"step": 202000
	},
	{
	"epoch": 0.4875726167179621,
	"grad_norm": 17.682926177978516,
	"learning_rate": 2.8480773912554947e-05,
	"loss": 3.1002,
	"step": 202500
	},
	{
	"epoch": 0.488776499722204,
	"grad_norm": 18.027238845825195,
	"learning_rate": 2.841389125950737e-05,
	"loss": 3.0798,
	"step": 203000
	},
	{
	"epoch": 0.4899803827264459,
	"grad_norm": 20.950571060180664,
	"learning_rate": 2.8347142371765888e-05,
	"loss": 3.0573,
	"step": 203500
	},
	{
	"epoch": 0.49118426573068774,
	"grad_norm": 17.63266372680664,
	"learning_rate": 2.8280259718718317e-05,
	"loss": 3.048,
	"step": 204000
	},
	{
	"epoch": 0.49238814873492964,
	"grad_norm": 17.037296295166016,
	"learning_rate": 2.8213377065670743e-05,
	"loss": 3.016,
	"step": 204500
	},
	{
	"epoch": 0.49359203173917154,
	"grad_norm": 21.214052200317383,
	"learning_rate": 2.8146494412623165e-05,
	"loss": 3.0676,
	"step": 205000
	},
	{
	"epoch": 0.49359203173917154,
	"eval_runtime": 6343.1785,
	"eval_samples_per_second": 130.951,
	"eval_steps_per_second": 32.738,
	"step": 205000
	},
	{
	"epoch": 0.4947959147434134,
	"grad_norm": 17.722492218017578,
	"learning_rate": 2.807961175957559e-05,
	"loss": 3.076,
	"step": 205500
	},
	{
	"epoch": 0.4959997977476553,
	"grad_norm": 17.147768020629883,
	"learning_rate": 2.801272910652802e-05,
	"loss": 3.0684,
	"step": 206000
	},
	{
	"epoch": 0.4972036807518972,
	"grad_norm": 15.113913536071777,
	"learning_rate": 2.794584645348044e-05,
	"loss": 3.0133,
	"step": 206500
	},
	{
	"epoch": 0.49840756375613904,
	"grad_norm": 15.339323043823242,
	"learning_rate": 2.7878963800432868e-05,
	"loss": 3.06,
	"step": 207000
	},
	{
	"epoch": 0.49961144676038094,
	"grad_norm": 14.279352188110352,
	"learning_rate": 2.7812214912691387e-05,
	"loss": 3.0718,
	"step": 207500
	},
	{
	"epoch": 0.5008153297646228,
	"grad_norm": 15.7473726272583,
	"learning_rate": 2.7745466024949905e-05,
	"loss": 3.0382,
	"step": 208000
	},
	{
	"epoch": 0.5020192127688647,
	"grad_norm": 16.69623374938965,
	"learning_rate": 2.7678583371902334e-05,
	"loss": 3.0469,
	"step": 208500
	},
	{
	"epoch": 0.5032230957731065,
	"grad_norm": 12.795482635498047,
	"learning_rate": 2.7611700718854753e-05,
	"loss": 3.0691,
	"step": 209000
	},
	{
	"epoch": 0.5044269787773484,
	"grad_norm": 15.719594955444336,
	"learning_rate": 2.7544818065807182e-05,
	"loss": 3.0843,
	"step": 209500
	},
	{
	"epoch": 0.5056308617815903,
	"grad_norm": 16.107906341552734,
	"learning_rate": 2.74780691780657e-05,
	"loss": 3.0939,
	"step": 210000
	},
	{
	"epoch": 0.5056308617815903,
	"eval_runtime": 6288.8164,
	"eval_samples_per_second": 132.083,
	"eval_steps_per_second": 33.021,
	"step": 210000
	},
	{
	"epoch": 0.5068347447858322,
	"grad_norm": 22.665922164916992,
	"learning_rate": 2.741118652501813e-05,
	"loss": 3.0311,
	"step": 210500
	},
	{
	"epoch": 0.5080386277900741,
	"grad_norm": 12.993492126464844,
	"learning_rate": 2.734430387197055e-05,
	"loss": 3.0409,
	"step": 211000
	},
	{
	"epoch": 0.509242510794316,
	"grad_norm": 13.392237663269043,
	"learning_rate": 2.727742121892298e-05,
	"loss": 3.0185,
	"step": 211500
	},
	{
	"epoch": 0.5104463937985578,
	"grad_norm": 18.179622650146484,
	"learning_rate": 2.7210538565875404e-05,
	"loss": 3.1036,
	"step": 212000
	},
	{
	"epoch": 0.5116502768027997,
	"grad_norm": 16.70694923400879,
	"learning_rate": 2.7143655912827826e-05,
	"loss": 3.063,
	"step": 212500
	},
	{
	"epoch": 0.5128541598070416,
	"grad_norm": 23.674760818481445,
	"learning_rate": 2.7076773259780252e-05,
	"loss": 3.0342,
	"step": 213000
	},
	{
	"epoch": 0.5140580428112835,
	"grad_norm": 19.409990310668945,
	"learning_rate": 2.701002437203877e-05,
	"loss": 3.0462,
	"step": 213500
	},
	{
	"epoch": 0.5152619258155254,
	"grad_norm": 15.574653625488281,
	"learning_rate": 2.69431417189912e-05,
	"loss": 3.0292,
	"step": 214000
	},
	{
	"epoch": 0.5164658088197672,
	"grad_norm": 17.644498825073242,
	"learning_rate": 2.6876259065943622e-05,
	"loss": 3.0152,
	"step": 214500
	},
	{
	"epoch": 0.5176696918240091,
	"grad_norm": 14.58530330657959,
	"learning_rate": 2.6809376412896048e-05,
	"loss": 3.1034,
	"step": 215000
	},
	{
	"epoch": 0.5176696918240091,
	"eval_runtime": 6223.0215,
	"eval_samples_per_second": 133.479,
	"eval_steps_per_second": 33.37,
	"step": 215000
	},
	{
	"epoch": 0.518873574828251,
	"grad_norm": 19.024547576904297,
	"learning_rate": 2.674249375984847e-05,
	"loss": 3.0733,
	"step": 215500
	},
	{
	"epoch": 0.5200774578324929,
	"grad_norm": 17.260374069213867,
	"learning_rate": 2.6675611106800896e-05,
	"loss": 3.0252,
	"step": 216000
	},
	{
	"epoch": 0.5212813408367348,
	"grad_norm": 18.4815673828125,
	"learning_rate": 2.6608862219059415e-05,
	"loss": 3.069,
	"step": 216500
	},
	{
	"epoch": 0.5224852238409767,
	"grad_norm": 15.065186500549316,
	"learning_rate": 2.6541979566011844e-05,
	"loss": 3.0697,
	"step": 217000
	},
	{
	"epoch": 0.5236891068452185,
	"grad_norm": 16.79564666748047,
	"learning_rate": 2.6475096912964263e-05,
	"loss": 3.0433,
	"step": 217500
	},
	{
	"epoch": 0.5248929898494604,
	"grad_norm": 18.250133514404297,
	"learning_rate": 2.6408214259916692e-05,
	"loss": 3.0243,
	"step": 218000
	},
	{
	"epoch": 0.5260968728537023,
	"grad_norm": 15.040393829345703,
	"learning_rate": 2.6341331606869118e-05,
	"loss": 3.0501,
	"step": 218500
	},
	{
	"epoch": 0.5273007558579442,
	"grad_norm": 18.00982093811035,
	"learning_rate": 2.627444895382154e-05,
	"loss": 3.0481,
	"step": 219000
	},
	{
	"epoch": 0.5285046388621861,
	"grad_norm": 14.428119659423828,
	"learning_rate": 2.6207566300773966e-05,
	"loss": 3.0788,
	"step": 219500
	},
	{
	"epoch": 0.529708521866428,
	"grad_norm": 19.191162109375,
	"learning_rate": 2.6140683647726395e-05,
	"loss": 3.0549,
	"step": 220000
	},
	{
	"epoch": 0.529708521866428,
	"eval_runtime": 6262.92,
	"eval_samples_per_second": 132.629,
	"eval_steps_per_second": 33.157,
	"step": 220000
	},
	{
	"epoch": 0.5309124048706698,
	"grad_norm": 18.9827938079834,
	"learning_rate": 2.6073934759984914e-05,
	"loss": 3.032,
	"step": 220500
	},
	{
	"epoch": 0.5321162878749117,
	"grad_norm": 16.249061584472656,
	"learning_rate": 2.6007052106937336e-05,
	"loss": 3.0587,
	"step": 221000
	},
	{
	"epoch": 0.5333201708791536,
	"grad_norm": 27.886228561401367,
	"learning_rate": 2.5940303219195855e-05,
	"loss": 3.0959,
	"step": 221500
	},
	{
	"epoch": 0.5345240538833955,
	"grad_norm": 28.477378845214844,
	"learning_rate": 2.587342056614828e-05,
	"loss": 3.0545,
	"step": 222000
	},
	{
	"epoch": 0.5357279368876374,
	"grad_norm": 54.090702056884766,
	"learning_rate": 2.580653791310071e-05,
	"loss": 3.0052,
	"step": 222500
	},
	{
	"epoch": 0.5369318198918792,
	"grad_norm": 20.456764221191406,
	"learning_rate": 2.5739655260053132e-05,
	"loss": 3.0362,
	"step": 223000
	},
	{
	"epoch": 0.5381357028961211,
	"grad_norm": 18.759544372558594,
	"learning_rate": 2.5672772607005558e-05,
	"loss": 3.0841,
	"step": 223500
	},
	{
	"epoch": 0.539339585900363,
	"grad_norm": 24.140661239624023,
	"learning_rate": 2.5605889953957983e-05,
	"loss": 3.0545,
	"step": 224000
	},
	{
	"epoch": 0.5405434689046049,
	"grad_norm": 15.08611011505127,
	"learning_rate": 2.5539007300910406e-05,
	"loss": 3.0784,
	"step": 224500
	},
	{
	"epoch": 0.5417473519088468,
	"grad_norm": 20.986557006835938,
	"learning_rate": 2.547212464786283e-05,
	"loss": 3.0682,
	"step": 225000
	},
	{
	"epoch": 0.5417473519088468,
	"eval_runtime": 6240.4652,
	"eval_samples_per_second": 133.106,
	"eval_steps_per_second": 33.277,
	"step": 225000
	},
	{
	"epoch": 0.5429512349130887,
	"grad_norm": 11.451869010925293,
	"learning_rate": 2.5405375760121354e-05,
	"loss": 3.0627,
	"step": 225500
	},
	{
	"epoch": 0.5441551179173305,
	"grad_norm": 17.614988327026367,
	"learning_rate": 2.5338626872379872e-05,
	"loss": 3.0518,
	"step": 226000
	},
	{
	"epoch": 0.5453590009215724,
	"grad_norm": 14.993136405944824,
	"learning_rate": 2.5271744219332298e-05,
	"loss": 3.0515,
	"step": 226500
	},
	{
	"epoch": 0.5465628839258143,
	"grad_norm": 21.78707504272461,
	"learning_rate": 2.520486156628472e-05,
	"loss": 3.0632,
	"step": 227000
	},
	{
	"epoch": 0.5477667669300562,
	"grad_norm": 16.39373207092285,
	"learning_rate": 2.513797891323715e-05,
	"loss": 3.0524,
	"step": 227500
	},
	{
	"epoch": 0.5489706499342981,
	"grad_norm": 13.787343978881836,
	"learning_rate": 2.5071230025495668e-05,
	"loss": 3.0449,
	"step": 228000
	},
	{
	"epoch": 0.55017453293854,
	"grad_norm": 19.658519744873047,
	"learning_rate": 2.5004347372448094e-05,
	"loss": 3.0304,
	"step": 228500
	},
	{
	"epoch": 0.5513784159427818,
	"grad_norm": 16.18865203857422,
	"learning_rate": 2.493746471940052e-05,
	"loss": 3.0746,
	"step": 229000
	},
	{
	"epoch": 0.5525822989470237,
	"grad_norm": 17.702472686767578,
	"learning_rate": 2.4870582066352942e-05,
	"loss": 3.07,
	"step": 229500
	},
	{
	"epoch": 0.5537861819512656,
	"grad_norm": 18.08761215209961,
	"learning_rate": 2.4803699413305368e-05,
	"loss": 3.0417,
	"step": 230000
	},
	{
	"epoch": 0.5537861819512656,
	"eval_runtime": 6192.5264,
	"eval_samples_per_second": 134.137,
	"eval_steps_per_second": 33.534,
	"step": 230000
	},
	{
	"epoch": 0.5549900649555075,
	"grad_norm": 12.940227508544922,
	"learning_rate": 2.473695052556389e-05,
	"loss": 3.0623,
	"step": 230500
	},
	{
	"epoch": 0.5561939479597494,
	"grad_norm": 14.184712409973145,
	"learning_rate": 2.4670067872516316e-05,
	"loss": 3.0565,
	"step": 231000
	},
	{
	"epoch": 0.5573978309639912,
	"grad_norm": 16.096614837646484,
	"learning_rate": 2.4603185219468738e-05,
	"loss": 2.9976,
	"step": 231500
	},
	{
	"epoch": 0.5586017139682331,
	"grad_norm": 15.835817337036133,
	"learning_rate": 2.4536302566421164e-05,
	"loss": 2.9842,
	"step": 232000
	},
	{
	"epoch": 0.559805596972475,
	"grad_norm": 22.432340621948242,
	"learning_rate": 2.446941991337359e-05,
	"loss": 3.0831,
	"step": 232500
	},
	{
	"epoch": 0.5610094799767169,
	"grad_norm": 19.895309448242188,
	"learning_rate": 2.4402537260326015e-05,
	"loss": 3.0444,
	"step": 233000
	},
	{
	"epoch": 0.5622133629809588,
	"grad_norm": 14.998634338378906,
	"learning_rate": 2.4335788372584534e-05,
	"loss": 3.0233,
	"step": 233500
	},
	{
	"epoch": 0.5634172459852007,
	"grad_norm": 12.780035972595215,
	"learning_rate": 2.426890571953696e-05,
	"loss": 3.0215,
	"step": 234000
	},
	{
	"epoch": 0.5646211289894425,
	"grad_norm": 18.854740142822266,
	"learning_rate": 2.4202023066489385e-05,
	"loss": 3.0684,
	"step": 234500
	},
	{
	"epoch": 0.5658250119936844,
	"grad_norm": 17.486467361450195,
	"learning_rate": 2.4135140413441808e-05,
	"loss": 3.053,
	"step": 235000
	},
	{
	"epoch": 0.5658250119936844,
	"eval_runtime": 6288.8357,
	"eval_samples_per_second": 132.082,
	"eval_steps_per_second": 33.021,
	"step": 235000
	},
	{
	"epoch": 0.5670288949979263,
	"grad_norm": 14.92556095123291,
	"learning_rate": 2.4068257760394233e-05,
	"loss": 3.0641,
	"step": 235500
	},
	{
	"epoch": 0.5682327780021682,
	"grad_norm": 13.280654907226562,
	"learning_rate": 2.400137510734666e-05,
	"loss": 3.0217,
	"step": 236000
	},
	{
	"epoch": 0.5694366610064101,
	"grad_norm": 16.9669246673584,
	"learning_rate": 2.393462621960518e-05,
	"loss": 3.0162,
	"step": 236500
	},
	{
	"epoch": 0.570640544010652,
	"grad_norm": 14.215867042541504,
	"learning_rate": 2.3867743566557604e-05,
	"loss": 3.0158,
	"step": 237000
	},
	{
	"epoch": 0.5718444270148938,
	"grad_norm": 19.857236862182617,
	"learning_rate": 2.380086091351003e-05,
	"loss": 3.0011,
	"step": 237500
	},
	{
	"epoch": 0.5730483100191357,
	"grad_norm": 14.70789909362793,
	"learning_rate": 2.3733978260462455e-05,
	"loss": 3.0155,
	"step": 238000
	},
	{
	"epoch": 0.5742521930233776,
	"grad_norm": 16.156538009643555,
	"learning_rate": 2.3667229372720977e-05,
	"loss": 3.0281,
	"step": 238500
	},
	{
	"epoch": 0.5754560760276195,
	"grad_norm": 29.431739807128906,
	"learning_rate": 2.36003467196734e-05,
	"loss": 3.0404,
	"step": 239000
	},
	{
	"epoch": 0.5766599590318614,
	"grad_norm": 14.224696159362793,
	"learning_rate": 2.3533464066625825e-05,
	"loss": 3.0172,
	"step": 239500
	},
	{
	"epoch": 0.5778638420361032,
	"grad_norm": 19.29595184326172,
	"learning_rate": 2.346658141357825e-05,
	"loss": 3.0622,
	"step": 240000
	},
	{
	"epoch": 0.5778638420361032,
	"eval_runtime": 6227.4429,
	"eval_samples_per_second": 133.385,
	"eval_steps_per_second": 33.346,
	"step": 240000
	},
	{
	"epoch": 0.5790677250403451,
	"grad_norm": 24.003347396850586,
	"learning_rate": 2.3399698760530677e-05,
	"loss": 2.9962,
	"step": 240500
	},
	{
	"epoch": 0.580271608044587,
	"grad_norm": 16.034706115722656,
	"learning_rate": 2.33328161074831e-05,
	"loss": 3.0286,
	"step": 241000
	},
	{
	"epoch": 0.5814754910488289,
	"grad_norm": 16.609622955322266,
	"learning_rate": 2.3265933454435525e-05,
	"loss": 3.031,
	"step": 241500
	},
	{
	"epoch": 0.5826793740530708,
	"grad_norm": 30.813108444213867,
	"learning_rate": 2.319905080138795e-05,
	"loss": 3.0143,
	"step": 242000
	},
	{
	"epoch": 0.5838832570573127,
	"grad_norm": 15.091474533081055,
	"learning_rate": 2.313230191364647e-05,
	"loss": 3.0475,
	"step": 242500
	},
	{
	"epoch": 0.5850871400615545,
	"grad_norm": 19.889976501464844,
	"learning_rate": 2.3065419260598895e-05,
	"loss": 3.0551,
	"step": 243000
	},
	{
	"epoch": 0.5862910230657964,
	"grad_norm": 16.42539405822754,
	"learning_rate": 2.299853660755132e-05,
	"loss": 2.9885,
	"step": 243500
	},
	{
	"epoch": 0.5874949060700383,
	"grad_norm": 18.250354766845703,
	"learning_rate": 2.2931653954503746e-05,
	"loss": 3.0267,
	"step": 244000
	},
	{
	"epoch": 0.5886987890742802,
	"grad_norm": 11.44227409362793,
	"learning_rate": 2.286477130145617e-05,
	"loss": 2.9568,
	"step": 244500
	},
	{
	"epoch": 0.5899026720785221,
	"grad_norm": 21.37769889831543,
	"learning_rate": 2.279802241371469e-05,
	"loss": 3.0259,
	"step": 245000
	},
	{
	"epoch": 0.5899026720785221,
	"eval_runtime": 6297.4297,
	"eval_samples_per_second": 131.902,
	"eval_steps_per_second": 32.976,
	"step": 245000
	},
	{
	"epoch": 0.591106555082764,
	"grad_norm": 15.137754440307617,
	"learning_rate": 2.273127352597321e-05,
	"loss": 3.0087,
	"step": 245500
	},
	{
	"epoch": 0.5923104380870058,
	"grad_norm": 15.59156608581543,
	"learning_rate": 2.2664390872925635e-05,
	"loss": 3.0397,
	"step": 246000
	},
	{
	"epoch": 0.5935143210912477,
	"grad_norm": 14.741199493408203,
	"learning_rate": 2.259750821987806e-05,
	"loss": 3.0505,
	"step": 246500
	},
	{
	"epoch": 0.5947182040954896,
	"grad_norm": 37.30345153808594,
	"learning_rate": 2.2530625566830483e-05,
	"loss": 3.0312,
	"step": 247000
	},
	{
	"epoch": 0.5959220870997315,
	"grad_norm": 16.39379119873047,
	"learning_rate": 2.2463742913782912e-05,
	"loss": 3.0068,
	"step": 247500
	},
	{
	"epoch": 0.5971259701039734,
	"grad_norm": 16.724523544311523,
	"learning_rate": 2.2396860260735335e-05,
	"loss": 3.0172,
	"step": 248000
	},
	{
	"epoch": 0.5983298531082153,
	"grad_norm": 13.491678237915039,
	"learning_rate": 2.2330111372993857e-05,
	"loss": 3.0396,
	"step": 248500
	},
	{
	"epoch": 0.5995337361124571,
	"grad_norm": 17.01793670654297,
	"learning_rate": 2.226322871994628e-05,
	"loss": 3.0092,
	"step": 249000
	},
	{
	"epoch": 0.600737619116699,
	"grad_norm": 16.2504825592041,
	"learning_rate": 2.219634606689871e-05,
	"loss": 3.0564,
	"step": 249500
	},
	{
	"epoch": 0.6019415021209409,
	"grad_norm": 19.381729125976562,
	"learning_rate": 2.212946341385113e-05,
	"loss": 2.9991,
	"step": 250000
	},
	{
	"epoch": 0.6019415021209409,
	"eval_runtime": 6343.8627,
	"eval_samples_per_second": 130.937,
	"eval_steps_per_second": 32.734,
	"step": 250000
	},
	{
	"epoch": 0.6031453851251828,
	"grad_norm": 15.789433479309082,
	"learning_rate": 2.2062714526109653e-05,
	"loss": 3.0164,
	"step": 250500
	},
	{
	"epoch": 0.6043492681294247,
	"grad_norm": 15.380681037902832,
	"learning_rate": 2.1995831873062075e-05,
	"loss": 3.006,
	"step": 251000
	},
	{
	"epoch": 0.6055531511336665,
	"grad_norm": 12.976866722106934,
	"learning_rate": 2.19289492200145e-05,
	"loss": 3.099,
	"step": 251500
	},
	{
	"epoch": 0.6067570341379084,
	"grad_norm": 17.682626724243164,
	"learning_rate": 2.1862066566966927e-05,
	"loss": 3.0381,
	"step": 252000
	},
	{
	"epoch": 0.6079609171421503,
	"grad_norm": 15.32071304321289,
	"learning_rate": 2.1795183913919352e-05,
	"loss": 3.0404,
	"step": 252500
	},
	{
	"epoch": 0.6091648001463922,
	"grad_norm": 21.887651443481445,
	"learning_rate": 2.1728301260871775e-05,
	"loss": 3.0282,
	"step": 253000
	},
	{
	"epoch": 0.6103686831506341,
	"grad_norm": 16.731210708618164,
	"learning_rate": 2.1661552373130297e-05,
	"loss": 3.0219,
	"step": 253500
	},
	{
	"epoch": 0.611572566154876,
	"grad_norm": 22.759746551513672,
	"learning_rate": 2.1594669720082722e-05,
	"loss": 3.0442,
	"step": 254000
	},
	{
	"epoch": 0.6127764491591178,
	"grad_norm": 18.68710708618164,
	"learning_rate": 2.1527787067035145e-05,
	"loss": 3.0091,
	"step": 254500
	},
	{
	"epoch": 0.6139803321633597,
	"grad_norm": 23.144712448120117,
	"learning_rate": 2.146090441398757e-05,
	"loss": 3.0501,
	"step": 255000
	},
	{
	"epoch": 0.6139803321633597,
	"eval_runtime": 6230.1182,
	"eval_samples_per_second": 133.327,
	"eval_steps_per_second": 33.332,
	"step": 255000
	},
	{
	"epoch": 0.6151842151676016,
	"grad_norm": 18.833757400512695,
	"learning_rate": 2.1394021760939996e-05,
	"loss": 3.1018,
	"step": 255500
	},
	{
	"epoch": 0.6163880981718435,
	"grad_norm": 21.688997268676758,
	"learning_rate": 2.132727287319852e-05,
	"loss": 3.0579,
	"step": 256000
	},
	{
	"epoch": 0.6175919811760854,
	"grad_norm": 17.346538543701172,
	"learning_rate": 2.126039022015094e-05,
	"loss": 3.0306,
	"step": 256500
	},
	{
	"epoch": 0.6187958641803273,
	"grad_norm": 18.86598014831543,
	"learning_rate": 2.1193507567103366e-05,
	"loss": 3.0237,
	"step": 257000
	},
	{
	"epoch": 0.6199997471845691,
	"grad_norm": 13.735309600830078,
	"learning_rate": 2.1126624914055792e-05,
	"loss": 3.0416,
	"step": 257500
	},
	{
	"epoch": 0.621203630188811,
	"grad_norm": 21.433256149291992,
	"learning_rate": 2.1059742261008218e-05,
	"loss": 3.0162,
	"step": 258000
	},
	{
	"epoch": 0.6224075131930529,
	"grad_norm": 18.01786231994629,
	"learning_rate": 2.099285960796064e-05,
	"loss": 3.0192,
	"step": 258500
	},
	{
	"epoch": 0.6236113961972948,
	"grad_norm": 17.93750762939453,
	"learning_rate": 2.092597695491307e-05,
	"loss": 3.0162,
	"step": 259000
	},
	{
	"epoch": 0.6248152792015367,
	"grad_norm": 19.375873565673828,
	"learning_rate": 2.0859094301865492e-05,
	"loss": 2.9953,
	"step": 259500
	},
	{
	"epoch": 0.6260191622057785,
	"grad_norm": 16.76817512512207,
	"learning_rate": 2.0792479179430107e-05,
	"loss": 2.9848,
	"step": 260000
	},
	{
	"epoch": 0.6260191622057785,
	"eval_runtime": 6319.8113,
	"eval_samples_per_second": 131.435,
	"eval_steps_per_second": 32.859,
	"step": 260000
	},
	{
	"epoch": 0.6272230452100204,
	"grad_norm": 19.69635009765625,
	"learning_rate": 2.0725596526382532e-05,
	"loss": 3.0555,
	"step": 260500
	},
	{
	"epoch": 0.6284269282142623,
	"grad_norm": 16.243324279785156,
	"learning_rate": 2.0658713873334955e-05,
	"loss": 3.0212,
	"step": 261000
	},
	{
	"epoch": 0.6296308112185042,
	"grad_norm": 17.867599487304688,
	"learning_rate": 2.0591831220287384e-05,
	"loss": 3.0451,
	"step": 261500
	},
	{
	"epoch": 0.6308346942227461,
	"grad_norm": 17.559730529785156,
	"learning_rate": 2.0525082332545903e-05,
	"loss": 3.012,
	"step": 262000
	},
	{
	"epoch": 0.632038577226988,
	"grad_norm": 14.618083953857422,
	"learning_rate": 2.045833344480442e-05,
	"loss": 3.034,
	"step": 262500
	},
	{
	"epoch": 0.6332424602312298,
	"grad_norm": 16.521699905395508,
	"learning_rate": 2.0391450791756847e-05,
	"loss": 3.0197,
	"step": 263000
	},
	{
	"epoch": 0.6344463432354717,
	"grad_norm": 16.326717376708984,
	"learning_rate": 2.0324568138709273e-05,
	"loss": 3.0566,
	"step": 263500
	},
	{
	"epoch": 0.6356502262397136,
	"grad_norm": 22.72909164428711,
	"learning_rate": 2.02576854856617e-05,
	"loss": 3.0413,
	"step": 264000
	},
	{
	"epoch": 0.6368541092439555,
	"grad_norm": 21.150442123413086,
	"learning_rate": 2.019080283261412e-05,
	"loss": 3.0337,
	"step": 264500
	},
	{
	"epoch": 0.6380579922481974,
	"grad_norm": 18.094627380371094,
	"learning_rate": 2.0123920179566547e-05,
	"loss": 3.0103,
	"step": 265000
	},
	{
	"epoch": 0.6380579922481974,
	"eval_runtime": 6283.8462,
	"eval_samples_per_second": 132.187,
	"eval_steps_per_second": 33.047,
	"step": 265000
	},
	{
	"epoch": 0.6392618752524393,
	"grad_norm": 16.778398513793945,
	"learning_rate": 2.0057037526518972e-05,
	"loss": 3.0193,
	"step": 265500
	},
	{
	"epoch": 0.6404657582566811,
	"grad_norm": 16.389066696166992,
	"learning_rate": 1.9990154873471398e-05,
	"loss": 3.0297,
	"step": 266000
	},
	{
	"epoch": 0.641669641260923,
	"grad_norm": 15.284423828125,
	"learning_rate": 1.9923405985729917e-05,
	"loss": 3.0253,
	"step": 266500
	},
	{
	"epoch": 0.6428735242651649,
	"grad_norm": 21.423006057739258,
	"learning_rate": 1.9856523332682343e-05,
	"loss": 3.0313,
	"step": 267000
	},
	{
	"epoch": 0.6440774072694068,
	"grad_norm": 17.86176109313965,
	"learning_rate": 1.9789640679634768e-05,
	"loss": 3.0644,
	"step": 267500
	},
	{
	"epoch": 0.6452812902736487,
	"grad_norm": 19.17348861694336,
	"learning_rate": 1.9722758026587194e-05,
	"loss": 3.0494,
	"step": 268000
	},
	{
	"epoch": 0.6464851732778905,
	"grad_norm": 19.088390350341797,
	"learning_rate": 1.9655875373539616e-05,
	"loss": 3.0172,
	"step": 268500
	},
	{
	"epoch": 0.6476890562821324,
	"grad_norm": 17.714704513549805,
	"learning_rate": 1.9588992720492046e-05,
	"loss": 3.0296,
	"step": 269000
	},
	{
	"epoch": 0.6488929392863743,
	"grad_norm": 16.175125122070312,
	"learning_rate": 1.9522110067444468e-05,
	"loss": 3.033,
	"step": 269500
	},
	{
	"epoch": 0.6500968222906162,
	"grad_norm": 13.180002212524414,
	"learning_rate": 1.9455227414396894e-05,
	"loss": 3.042,
	"step": 270000
	},
	{
	"epoch": 0.6500968222906162,
	"eval_runtime": 6276.2648,
	"eval_samples_per_second": 132.347,
	"eval_steps_per_second": 33.087,
	"step": 270000
	},
	{
	"epoch": 0.6513007052948581,
	"grad_norm": 19.098552703857422,
	"learning_rate": 1.9388478526655412e-05,
	"loss": 3.0693,
	"step": 270500
	},
	{
	"epoch": 0.6525045882991,
	"grad_norm": 17.581096649169922,
	"learning_rate": 1.9321595873607838e-05,
	"loss": 3.0159,
	"step": 271000
	},
	{
	"epoch": 0.6537084713033418,
	"grad_norm": 16.60484504699707,
	"learning_rate": 1.9254713220560264e-05,
	"loss": 3.0212,
	"step": 271500
	},
	{
	"epoch": 0.6549123543075837,
	"grad_norm": 16.275178909301758,
	"learning_rate": 1.918783056751269e-05,
	"loss": 3.0536,
	"step": 272000
	},
	{
	"epoch": 0.6561162373118256,
	"grad_norm": 18.09239959716797,
	"learning_rate": 1.9121081679771208e-05,
	"loss": 3.0576,
	"step": 272500
	},
	{
	"epoch": 0.6573201203160675,
	"grad_norm": 17.817174911499023,
	"learning_rate": 1.9054199026723634e-05,
	"loss": 3.006,
	"step": 273000
	},
	{
	"epoch": 0.6585240033203094,
	"grad_norm": 20.33548355102539,
	"learning_rate": 1.8987450138982156e-05,
	"loss": 3.0236,
	"step": 273500
	},
	{
	"epoch": 0.6597278863245513,
	"grad_norm": 16.80567169189453,
	"learning_rate": 1.892056748593458e-05,
	"loss": 3.0272,
	"step": 274000
	},
	{
	"epoch": 0.660931769328793,
	"grad_norm": 14.377747535705566,
	"learning_rate": 1.8853684832887004e-05,
	"loss": 3.0447,
	"step": 274500
	},
	{
	"epoch": 0.662135652333035,
	"grad_norm": 20.724485397338867,
	"learning_rate": 1.878680217983943e-05,
	"loss": 3.0422,
	"step": 275000
	},
	{
	"epoch": 0.662135652333035,
	"eval_runtime": 6186.2818,
	"eval_samples_per_second": 134.272,
	"eval_steps_per_second": 33.568,
	"step": 275000
	},
	{
	"epoch": 0.6633395353372769,
	"grad_norm": 18.72093963623047,
	"learning_rate": 1.8719919526791856e-05,
	"loss": 3.0455,
	"step": 275500
	},
	{
	"epoch": 0.6645434183415188,
	"grad_norm": 20.733427047729492,
	"learning_rate": 1.8653170639050374e-05,
	"loss": 3.0217,
	"step": 276000
	},
	{
	"epoch": 0.6657473013457607,
	"grad_norm": 20.21004295349121,
	"learning_rate": 1.85862879860028e-05,
	"loss": 3.0201,
	"step": 276500
	},
	{
	"epoch": 0.6669511843500024,
	"grad_norm": 16.68962860107422,
	"learning_rate": 1.8519405332955226e-05,
	"loss": 3.0333,
	"step": 277000
	},
	{
	"epoch": 0.6681550673542443,
	"grad_norm": 16.575241088867188,
	"learning_rate": 1.8452522679907648e-05,
	"loss": 3.018,
	"step": 277500
	},
	{
	"epoch": 0.6693589503584862,
	"grad_norm": 19.38899803161621,
	"learning_rate": 1.8385640026860074e-05,
	"loss": 3.0496,
	"step": 278000
	},
	{
	"epoch": 0.6705628333627282,
	"grad_norm": 14.967867851257324,
	"learning_rate": 1.831902490442469e-05,
	"loss": 2.999,
	"step": 278500
	},
	{
	"epoch": 0.67176671636697,
	"grad_norm": 22.434553146362305,
	"learning_rate": 1.8252142251377114e-05,
	"loss": 3.0349,
	"step": 279000
	},
	{
	"epoch": 0.672970599371212,
	"grad_norm": 16.710906982421875,
	"learning_rate": 1.818525959832954e-05,
	"loss": 3.0342,
	"step": 279500
	},
	{
	"epoch": 0.6741744823754537,
	"grad_norm": 15.848820686340332,
	"learning_rate": 1.8118376945281966e-05,
	"loss": 3.0272,
	"step": 280000
	},
	{
	"epoch": 0.6741744823754537,
	"eval_runtime": 6353.5428,
	"eval_samples_per_second": 130.737,
	"eval_steps_per_second": 32.684,
	"step": 280000
	},
	{
	"epoch": 0.6753783653796956,
	"grad_norm": 15.844106674194336,
	"learning_rate": 1.805149429223439e-05,
	"loss": 3.0116,
	"step": 280500
	},
	{
	"epoch": 0.6765822483839375,
	"grad_norm": 19.46364402770996,
	"learning_rate": 1.7984611639186817e-05,
	"loss": 3.0428,
	"step": 281000
	},
	{
	"epoch": 0.6777861313881794,
	"grad_norm": 16.986345291137695,
	"learning_rate": 1.791772898613924e-05,
	"loss": 3.0407,
	"step": 281500
	},
	{
	"epoch": 0.6789900143924213,
	"grad_norm": 19.00211524963379,
	"learning_rate": 1.7850846333091666e-05,
	"loss": 3.0754,
	"step": 282000
	},
	{
	"epoch": 0.6801938973966632,
	"grad_norm": 16.347320556640625,
	"learning_rate": 1.778396368004409e-05,
	"loss": 3.0583,
	"step": 282500
	},
	{
	"epoch": 0.681397780400905,
	"grad_norm": 17.984121322631836,
	"learning_rate": 1.7717081026996517e-05,
	"loss": 3.0078,
	"step": 283000
	},
	{
	"epoch": 0.6826016634051469,
	"grad_norm": 13.47775936126709,
	"learning_rate": 1.765019837394894e-05,
	"loss": 3.0313,
	"step": 283500
	},
	{
	"epoch": 0.6838055464093888,
	"grad_norm": 19.955591201782227,
	"learning_rate": 1.7583449486207458e-05,
	"loss": 3.0128,
	"step": 284000
	},
	{
	"epoch": 0.6850094294136307,
	"grad_norm": 15.306801795959473,
	"learning_rate": 1.7516566833159887e-05,
	"loss": 3.0537,
	"step": 284500
	},
	{
	"epoch": 0.6862133124178726,
	"grad_norm": 18.41864013671875,
	"learning_rate": 1.744968418011231e-05,
	"loss": 2.9884,
	"step": 285000
	},
	{
	"epoch": 0.6862133124178726,
	"eval_runtime": 6358.5857,
	"eval_samples_per_second": 130.634,
	"eval_steps_per_second": 32.659,
	"step": 285000
	},
	{
	"epoch": 0.6874171954221144,
	"grad_norm": 23.076107025146484,
	"learning_rate": 1.7382801527064735e-05,
	"loss": 3.0266,
	"step": 285500
	},
	{
	"epoch": 0.6886210784263563,
	"grad_norm": 13.705315589904785,
	"learning_rate": 1.7315918874017158e-05,
	"loss": 3.0475,
	"step": 286000
	},
	{
	"epoch": 0.6898249614305982,
	"grad_norm": 16.31940460205078,
	"learning_rate": 1.7249036220969587e-05,
	"loss": 2.9996,
	"step": 286500
	},
	{
	"epoch": 0.6910288444348401,
	"grad_norm": 18.389102935791016,
	"learning_rate": 1.718215356792201e-05,
	"loss": 3.0546,
	"step": 287000
	},
	{
	"epoch": 0.692232727439082,
	"grad_norm": 13.655202865600586,
	"learning_rate": 1.711540468018053e-05,
	"loss": 3.0324,
	"step": 287500
	},
	{
	"epoch": 0.6934366104433239,
	"grad_norm": 16.57909393310547,
	"learning_rate": 1.7048522027132954e-05,
	"loss": 3.0293,
	"step": 288000
	},
	{
	"epoch": 0.6946404934475657,
	"grad_norm": 20.497554779052734,
	"learning_rate": 1.6981639374085383e-05,
	"loss": 3.0236,
	"step": 288500
	},
	{
	"epoch": 0.6958443764518076,
	"grad_norm": 18.09133529663086,
	"learning_rate": 1.6914756721037805e-05,
	"loss": 3.0379,
	"step": 289000
	},
	{
	"epoch": 0.6970482594560495,
	"grad_norm": 26.225669860839844,
	"learning_rate": 1.684787406799023e-05,
	"loss": 3.0053,
	"step": 289500
	},
	{
	"epoch": 0.6982521424602914,
	"grad_norm": 17.222896575927734,
	"learning_rate": 1.6780991414942657e-05,
	"loss": 2.9939,
	"step": 290000
	},
	{
	"epoch": 0.6982521424602914,
	"eval_runtime": 6305.6016,
	"eval_samples_per_second": 131.731,
	"eval_steps_per_second": 32.933,
	"step": 290000
	},
	{
	"epoch": 0.6994560254645333,
	"grad_norm": 13.189409255981445,
	"learning_rate": 1.6714108761895082e-05,
	"loss": 3.0342,
	"step": 290500
	},
	{
	"epoch": 0.7006599084687752,
	"grad_norm": 16.97842025756836,
	"learning_rate": 1.6647226108847505e-05,
	"loss": 3.046,
	"step": 291000
	},
	{
	"epoch": 0.701863791473017,
	"grad_norm": 22.634611129760742,
	"learning_rate": 1.658061098641212e-05,
	"loss": 3.0375,
	"step": 291500
	},
	{
	"epoch": 0.7030676744772589,
	"grad_norm": 18.193796157836914,
	"learning_rate": 1.6513728333364545e-05,
	"loss": 3.0379,
	"step": 292000
	},
	{
	"epoch": 0.7042715574815008,
	"grad_norm": 18.391408920288086,
	"learning_rate": 1.644684568031697e-05,
	"loss": 2.9838,
	"step": 292500
	},
	{
	"epoch": 0.7054754404857427,
	"grad_norm": 20.497100830078125,
	"learning_rate": 1.6380096792575493e-05,
	"loss": 3.0761,
	"step": 293000
	},
	{
	"epoch": 0.7066793234899846,
	"grad_norm": 18.94228744506836,
	"learning_rate": 1.6313214139527915e-05,
	"loss": 3.0614,
	"step": 293500
	},
	{
	"epoch": 0.7078832064942264,
	"grad_norm": 15.402490615844727,
	"learning_rate": 1.624633148648034e-05,
	"loss": 3.0053,
	"step": 294000
	},
	{
	"epoch": 0.7090870894984683,
	"grad_norm": 26.502038955688477,
	"learning_rate": 1.6179448833432767e-05,
	"loss": 3.0216,
	"step": 294500
	},
	{
	"epoch": 0.7102909725027102,
	"grad_norm": 20.452205657958984,
	"learning_rate": 1.6112566180385193e-05,
	"loss": 2.9757,
	"step": 295000
	},
	{
	"epoch": 0.7102909725027102,
	"eval_runtime": 6348.6102,
	"eval_samples_per_second": 130.839,
	"eval_steps_per_second": 32.71,
	"step": 295000
	},
	{
	"epoch": 0.7114948555069521,
	"grad_norm": 104.5809097290039,
	"learning_rate": 1.6045683527337615e-05,
	"loss": 3.0088,
	"step": 295500
	},
	{
	"epoch": 0.712698738511194,
	"grad_norm": 15.921069145202637,
	"learning_rate": 1.597880087429004e-05,
	"loss": 3.0624,
	"step": 296000
	},
	{
	"epoch": 0.7139026215154359,
	"grad_norm": 11.739727020263672,
	"learning_rate": 1.5911918221242467e-05,
	"loss": 3.0515,
	"step": 296500
	},
	{
	"epoch": 0.7151065045196777,
	"grad_norm": 15.340862274169922,
	"learning_rate": 1.5845169333500985e-05,
	"loss": 3.0208,
	"step": 297000
	},
	{
	"epoch": 0.7163103875239196,
	"grad_norm": 16.77552604675293,
	"learning_rate": 1.577828668045341e-05,
	"loss": 3.0112,
	"step": 297500
	},
	{
	"epoch": 0.7175142705281615,
	"grad_norm": 19.09606170654297,
	"learning_rate": 1.5711404027405837e-05,
	"loss": 3.0038,
	"step": 298000
	},
	{
	"epoch": 0.7187181535324034,
	"grad_norm": 12.892488479614258,
	"learning_rate": 1.5644521374358262e-05,
	"loss": 3.0353,
	"step": 298500
	},
	{
	"epoch": 0.7199220365366453,
	"grad_norm": 15.720181465148926,
	"learning_rate": 1.5577638721310685e-05,
	"loss": 3.003,
	"step": 299000
	},
	{
	"epoch": 0.7211259195408872,
	"grad_norm": 16.5432186126709,
	"learning_rate": 1.5510756068263114e-05,
	"loss": 3.0594,
	"step": 299500
	},
	{
	"epoch": 0.722329802545129,
	"grad_norm": 24.2777042388916,
	"learning_rate": 1.5443873415215536e-05,
	"loss": 3.0239,
	"step": 300000
	},
	{
	"epoch": 0.722329802545129,
	"eval_runtime": 6203.3821,
	"eval_samples_per_second": 133.902,
	"eval_steps_per_second": 33.476,
	"step": 300000
	},
	{
	"epoch": 0.7235336855493709,
	"grad_norm": 14.297070503234863,
	"learning_rate": 1.5376990762167962e-05,
	"loss": 3.0123,
	"step": 300500
	},
	{
	"epoch": 0.7247375685536128,
	"grad_norm": 18.216154098510742,
	"learning_rate": 1.5310108109120384e-05,
	"loss": 2.9833,
	"step": 301000
	},
	{
	"epoch": 0.7259414515578547,
	"grad_norm": 15.619494438171387,
	"learning_rate": 1.5243359221378908e-05,
	"loss": 3.0715,
	"step": 301500
	},
	{
	"epoch": 0.7271453345620966,
	"grad_norm": 22.748498916625977,
	"learning_rate": 1.5176476568331332e-05,
	"loss": 3.0101,
	"step": 302000
	},
	{
	"epoch": 0.7283492175663384,
	"grad_norm": 16.824371337890625,
	"learning_rate": 1.5109593915283756e-05,
	"loss": 3.0347,
	"step": 302500
	},
	{
	"epoch": 0.7295531005705803,
	"grad_norm": 15.611109733581543,
	"learning_rate": 1.504271126223618e-05,
	"loss": 3.0386,
	"step": 303000
	},
	{
	"epoch": 0.7307569835748222,
	"grad_norm": 17.015262603759766,
	"learning_rate": 1.4975962374494704e-05,
	"loss": 3.0148,
	"step": 303500
	},
	{
	"epoch": 0.7319608665790641,
	"grad_norm": 18.96904945373535,
	"learning_rate": 1.4909079721447128e-05,
	"loss": 3.1005,
	"step": 304000
	},
	{
	"epoch": 0.733164749583306,
	"grad_norm": 21.718101501464844,
	"learning_rate": 1.4842197068399552e-05,
	"loss": 3.0489,
	"step": 304500
	},
	{
	"epoch": 0.7343686325875479,
	"grad_norm": 14.246601104736328,
	"learning_rate": 1.4775314415351976e-05,
	"loss": 3.0439,
	"step": 305000
	},
	{
	"epoch": 0.7343686325875479,
	"eval_runtime": 6028.9355,
	"eval_samples_per_second": 137.776,
	"eval_steps_per_second": 34.444,
	"step": 305000
	},
	{
	"epoch": 0.7355725155917897,
	"grad_norm": 16.374101638793945,
	"learning_rate": 1.4708431762304404e-05,
	"loss": 2.9875,
	"step": 305500
	},
	{
	"epoch": 0.7367763985960316,
	"grad_norm": 21.80797004699707,
	"learning_rate": 1.4641549109256828e-05,
	"loss": 3.0288,
	"step": 306000
	},
	{
	"epoch": 0.7379802816002735,
	"grad_norm": 14.981256484985352,
	"learning_rate": 1.4574666456209252e-05,
	"loss": 3.0079,
	"step": 306500
	},
	{
	"epoch": 0.7391841646045154,
	"grad_norm": 15.336825370788574,
	"learning_rate": 1.4507783803161679e-05,
	"loss": 3.0317,
	"step": 307000
	},
	{
	"epoch": 0.7403880476087573,
	"grad_norm": 16.014474868774414,
	"learning_rate": 1.4440901150114103e-05,
	"loss": 3.0247,
	"step": 307500
	},
	{
	"epoch": 0.7415919306129992,
	"grad_norm": 14.997090339660645,
	"learning_rate": 1.4374152262372622e-05,
	"loss": 3.0177,
	"step": 308000
	},
	{
	"epoch": 0.742795813617241,
	"grad_norm": 17.185972213745117,
	"learning_rate": 1.4307269609325048e-05,
	"loss": 3.021,
	"step": 308500
	},
	{
	"epoch": 0.7439996966214829,
	"grad_norm": 14.902591705322266,
	"learning_rate": 1.4240386956277473e-05,
	"loss": 3.0291,
	"step": 309000
	},
	{
	"epoch": 0.7452035796257248,
	"grad_norm": 17.680278778076172,
	"learning_rate": 1.4173504303229897e-05,
	"loss": 3.0205,
	"step": 309500
	},
	{
	"epoch": 0.7464074626299667,
	"grad_norm": 18.492225646972656,
	"learning_rate": 1.4106621650182321e-05,
	"loss": 3.012,
	"step": 310000
	},
	{
	"epoch": 0.7464074626299667,
	"eval_runtime": 6370.9929,
	"eval_samples_per_second": 130.379,
	"eval_steps_per_second": 32.595,
	"step": 310000
	},
	{
	"epoch": 0.7476113456342086,
	"grad_norm": 18.544729232788086,
	"learning_rate": 1.4039872762440842e-05,
	"loss": 2.9965,
	"step": 310500
	},
	{
	"epoch": 0.7488152286384504,
	"grad_norm": 19.649858474731445,
	"learning_rate": 1.397299010939327e-05,
	"loss": 3.0335,
	"step": 311000
	},
	{
	"epoch": 0.7500191116426923,
	"grad_norm": 19.35677146911621,
	"learning_rate": 1.3906107456345693e-05,
	"loss": 3.0426,
	"step": 311500
	},
	{
	"epoch": 0.7512229946469342,
	"grad_norm": 19.635725021362305,
	"learning_rate": 1.3839224803298117e-05,
	"loss": 3.0506,
	"step": 312000
	},
	{
	"epoch": 0.7524268776511761,
	"grad_norm": 16.11264991760254,
	"learning_rate": 1.3772342150250541e-05,
	"loss": 3.0185,
	"step": 312500
	},
	{
	"epoch": 0.753630760655418,
	"grad_norm": 16.436038970947266,
	"learning_rate": 1.3705593262509065e-05,
	"loss": 2.9902,
	"step": 313000
	},
	{
	"epoch": 0.7548346436596599,
	"grad_norm": 15.412540435791016,
	"learning_rate": 1.363871060946149e-05,
	"loss": 2.987,
	"step": 313500
	},
	{
	"epoch": 0.7560385266639017,
	"grad_norm": 15.1536283493042,
	"learning_rate": 1.3571827956413913e-05,
	"loss": 2.9802,
	"step": 314000
	},
	{
	"epoch": 0.7572424096681436,
	"grad_norm": 12.424234390258789,
	"learning_rate": 1.3504945303366337e-05,
	"loss": 3.0389,
	"step": 314500
	},
	{
	"epoch": 0.7584462926723855,
	"grad_norm": 18.4250431060791,
	"learning_rate": 1.3438062650318765e-05,
	"loss": 3.0125,
	"step": 315000
	},
	{
	"epoch": 0.7584462926723855,
	"eval_runtime": 6375.7867,
	"eval_samples_per_second": 130.281,
	"eval_steps_per_second": 32.57,
	"step": 315000
	},
	{
	"epoch": 0.7596501756766274,
	"grad_norm": 16.10649299621582,
	"learning_rate": 1.3371313762577283e-05,
	"loss": 2.9806,
	"step": 315500
	},
	{
	"epoch": 0.7608540586808693,
	"grad_norm": 20.46068572998047,
	"learning_rate": 1.3304431109529707e-05,
	"loss": 3.0044,
	"step": 316000
	},
	{
	"epoch": 0.7620579416851112,
	"grad_norm": 13.980119705200195,
	"learning_rate": 1.3237548456482131e-05,
	"loss": 3.0349,
	"step": 316500
	},
	{
	"epoch": 0.763261824689353,
	"grad_norm": 14.805524826049805,
	"learning_rate": 1.3170665803434559e-05,
	"loss": 3.0352,
	"step": 317000
	},
	{
	"epoch": 0.7644657076935949,
	"grad_norm": 17.586395263671875,
	"learning_rate": 1.3103783150386983e-05,
	"loss": 3.0501,
	"step": 317500
	},
	{
	"epoch": 0.7656695906978368,
	"grad_norm": 17.75722312927246,
	"learning_rate": 1.3036900497339407e-05,
	"loss": 3.0598,
	"step": 318000
	},
	{
	"epoch": 0.7668734737020787,
	"grad_norm": 22.714632034301758,
	"learning_rate": 1.2970017844291834e-05,
	"loss": 3.0555,
	"step": 318500
	},
	{
	"epoch": 0.7680773567063206,
	"grad_norm": 13.692117691040039,
	"learning_rate": 1.2903268956550355e-05,
	"loss": 3.0004,
	"step": 319000
	},
	{
	"epoch": 0.7692812397105625,
	"grad_norm": 15.780096054077148,
	"learning_rate": 1.2836386303502779e-05,
	"loss": 3.0278,
	"step": 319500
	},
	{
	"epoch": 0.7704851227148043,
	"grad_norm": 22.532176971435547,
	"learning_rate": 1.2769503650455203e-05,
	"loss": 3.045,
	"step": 320000
	},
	{
	"epoch": 0.7704851227148043,
	"eval_runtime": 6361.4309,
	"eval_samples_per_second": 130.575,
	"eval_steps_per_second": 32.644,
	"step": 320000
	},
	{
	"epoch": 0.7716890057190462,
	"grad_norm": 16.199644088745117,
	"learning_rate": 1.270262099740763e-05,
	"loss": 3.03,
	"step": 320500
	},
	{
	"epoch": 0.7728928887232881,
	"grad_norm": 23.411863327026367,
	"learning_rate": 1.2635738344360054e-05,
	"loss": 3.0227,
	"step": 321000
	},
	{
	"epoch": 0.77409677172753,
	"grad_norm": 14.578089714050293,
	"learning_rate": 1.2568989456618575e-05,
	"loss": 3.0099,
	"step": 321500
	},
	{
	"epoch": 0.7753006547317719,
	"grad_norm": 22.472322463989258,
	"learning_rate": 1.2502106803570999e-05,
	"loss": 3.0347,
	"step": 322000
	},
	{
	"epoch": 0.7765045377360137,
	"grad_norm": 12.440498352050781,
	"learning_rate": 1.2435224150523425e-05,
	"loss": 2.9987,
	"step": 322500
	},
	{
	"epoch": 0.7777084207402556,
	"grad_norm": 20.633949279785156,
	"learning_rate": 1.2368341497475849e-05,
	"loss": 3.0421,
	"step": 323000
	},
	{
	"epoch": 0.7789123037444975,
	"grad_norm": 17.52497673034668,
	"learning_rate": 1.2301458844428274e-05,
	"loss": 3.0747,
	"step": 323500
	},
	{
	"epoch": 0.7801161867487394,
	"grad_norm": 19.617210388183594,
	"learning_rate": 1.2234576191380698e-05,
	"loss": 2.9955,
	"step": 324000
	},
	{
	"epoch": 0.7813200697529813,
	"grad_norm": 16.269994735717773,
	"learning_rate": 1.2167827303639219e-05,
	"loss": 2.94,
	"step": 324500
	},
	{
	"epoch": 0.7825239527572232,
	"grad_norm": 13.604962348937988,
	"learning_rate": 1.2100944650591644e-05,
	"loss": 3.0736,
	"step": 325000
	},
	{
	"epoch": 0.7825239527572232,
	"eval_runtime": 6376.4381,
	"eval_samples_per_second": 130.268,
	"eval_steps_per_second": 32.567,
	"step": 325000
	},
	{
	"epoch": 0.783727835761465,
	"grad_norm": 20.704360961914062,
	"learning_rate": 1.203406199754407e-05,
	"loss": 3.0536,
	"step": 325500
	},
	{
	"epoch": 0.7849317187657069,
	"grad_norm": 14.824162483215332,
	"learning_rate": 1.1967179344496494e-05,
	"loss": 3.0263,
	"step": 326000
	},
	{
	"epoch": 0.7861356017699488,
	"grad_norm": 16.627286911010742,
	"learning_rate": 1.190029669144892e-05,
	"loss": 3.0037,
	"step": 326500
	},
	{
	"epoch": 0.7873394847741907,
	"grad_norm": 13.925793647766113,
	"learning_rate": 1.183354780370744e-05,
	"loss": 3.0127,
	"step": 327000
	},
	{
	"epoch": 0.7885433677784326,
	"grad_norm": 19.544754028320312,
	"learning_rate": 1.1766665150659866e-05,
	"loss": 3.0307,
	"step": 327500
	},
	{
	"epoch": 0.7897472507826745,
	"grad_norm": 13.963886260986328,
	"learning_rate": 1.169978249761229e-05,
	"loss": 3.034,
	"step": 328000
	},
	{
	"epoch": 0.7909511337869163,
	"grad_norm": 17.435409545898438,
	"learning_rate": 1.1632899844564716e-05,
	"loss": 3.0295,
	"step": 328500
	},
	{
	"epoch": 0.7921550167911582,
	"grad_norm": 17.950336456298828,
	"learning_rate": 1.156601719151714e-05,
	"loss": 3.0332,
	"step": 329000
	},
	{
	"epoch": 0.7933588997954001,
	"grad_norm": 18.523168563842773,
	"learning_rate": 1.1499134538469566e-05,
	"loss": 3.0235,
	"step": 329500
	},
	{
	"epoch": 0.794562782799642,
	"grad_norm": 14.469148635864258,
	"learning_rate": 1.143225188542199e-05,
	"loss": 3.0022,
	"step": 330000
	},
	{
	"epoch": 0.794562782799642,
	"eval_runtime": 6383.675,
	"eval_samples_per_second": 130.12,
	"eval_steps_per_second": 32.53,
	"step": 330000
	},
	{
	"epoch": 0.7957666658038839,
	"grad_norm": 17.111066818237305,
	"learning_rate": 1.136550299768051e-05,
	"loss": 3.0552,
	"step": 330500
	},
	{
	"epoch": 0.7969705488081257,
	"grad_norm": 15.104440689086914,
	"learning_rate": 1.1298620344632934e-05,
	"loss": 3.0274,
	"step": 331000
	},
	{
	"epoch": 0.7981744318123676,
	"grad_norm": 16.809152603149414,
	"learning_rate": 1.123173769158536e-05,
	"loss": 3.0156,
	"step": 331500
	},
	{
	"epoch": 0.7993783148166095,
	"grad_norm": 16.31627655029297,
	"learning_rate": 1.1164855038537784e-05,
	"loss": 3.0302,
	"step": 332000
	},
	{
	"epoch": 0.8005821978208514,
	"grad_norm": 14.074172019958496,
	"learning_rate": 1.109797238549021e-05,
	"loss": 3.0415,
	"step": 332500
	},
	{
	"epoch": 0.8017860808250933,
	"grad_norm": 26.245460510253906,
	"learning_rate": 1.1031089732442635e-05,
	"loss": 3.0031,
	"step": 333000
	},
	{
	"epoch": 0.8029899638293352,
	"grad_norm": 30.44843864440918,
	"learning_rate": 1.0964340844701156e-05,
	"loss": 3.0017,
	"step": 333500
	},
	{
	"epoch": 0.804193846833577,
	"grad_norm": 17.4643611907959,
	"learning_rate": 1.0897458191653582e-05,
	"loss": 3.0633,
	"step": 334000
	},
	{
	"epoch": 0.8053977298378189,
	"grad_norm": 31.82565689086914,
	"learning_rate": 1.0830575538606006e-05,
	"loss": 3.043,
	"step": 334500
	},
	{
	"epoch": 0.8066016128420608,
	"grad_norm": 17.253402709960938,
	"learning_rate": 1.0763692885558431e-05,
	"loss": 3.0325,
	"step": 335000
	},
	{
	"epoch": 0.8066016128420608,
	"eval_runtime": 6315.4758,
	"eval_samples_per_second": 131.525,
	"eval_steps_per_second": 32.881,
	"step": 335000
	},
	{
	"epoch": 0.8078054958463027,
	"grad_norm": 22.236631393432617,
	"learning_rate": 1.0696810232510855e-05,
	"loss": 3.0358,
	"step": 335500
	},
	{
	"epoch": 0.8090093788505446,
	"grad_norm": 14.467453956604004,
	"learning_rate": 1.0629927579463281e-05,
	"loss": 2.9967,
	"step": 336000
	},
	{
	"epoch": 0.8102132618547865,
	"grad_norm": 23.571836471557617,
	"learning_rate": 1.0563044926415705e-05,
	"loss": 3.0579,
	"step": 336500
	},
	{
	"epoch": 0.8114171448590283,
	"grad_norm": 19.492727279663086,
	"learning_rate": 1.0496162273368131e-05,
	"loss": 3.0471,
	"step": 337000
	},
	{
	"epoch": 0.8126210278632702,
	"grad_norm": 14.599898338317871,
	"learning_rate": 1.0429413385626651e-05,
	"loss": 3.0066,
	"step": 337500
	},
	{
	"epoch": 0.8138249108675121,
	"grad_norm": 17.604732513427734,
	"learning_rate": 1.0362530732579075e-05,
	"loss": 3.0106,
	"step": 338000
	},
	{
	"epoch": 0.815028793871754,
	"grad_norm": 15.079025268554688,
	"learning_rate": 1.0295781844837596e-05,
	"loss": 3.006,
	"step": 338500
	},
	{
	"epoch": 0.8162326768759959,
	"grad_norm": 17.019149780273438,
	"learning_rate": 1.0228899191790021e-05,
	"loss": 3.0254,
	"step": 339000
	},
	{
	"epoch": 0.8174365598802377,
	"grad_norm": 15.817625045776367,
	"learning_rate": 1.0162016538742445e-05,
	"loss": 3.002,
	"step": 339500
	},
	{
	"epoch": 0.8186404428844796,
	"grad_norm": 13.755847930908203,
	"learning_rate": 1.0095133885694871e-05,
	"loss": 3.0058,
	"step": 340000
	},
	{
	"epoch": 0.8186404428844796,
	"eval_runtime": 6241.8468,
	"eval_samples_per_second": 133.077,
	"eval_steps_per_second": 33.269,
	"step": 340000
	},
	{
	"epoch": 0.8198443258887215,
	"grad_norm": 16.21925926208496,
	"learning_rate": 1.0028251232647295e-05,
	"loss": 3.0572,
	"step": 340500
	},
	{
	"epoch": 0.8210482088929634,
	"grad_norm": 17.245609283447266,
	"learning_rate": 9.961502344905817e-06,
	"loss": 3.0659,
	"step": 341000
	},
	{
	"epoch": 0.8222520918972053,
	"grad_norm": 17.12338638305664,
	"learning_rate": 9.894619691858241e-06,
	"loss": 3.0002,
	"step": 341500
	},
	{
	"epoch": 0.8234559749014472,
	"grad_norm": 13.26212215423584,
	"learning_rate": 9.827737038810667e-06,
	"loss": 2.9828,
	"step": 342000
	},
	{
	"epoch": 0.824659857905689,
	"grad_norm": 20.169322967529297,
	"learning_rate": 9.760854385763091e-06,
	"loss": 2.9912,
	"step": 342500
	},
	{
	"epoch": 0.8258637409099309,
	"grad_norm": 18.99537467956543,
	"learning_rate": 9.693971732715517e-06,
	"loss": 3.0485,
	"step": 343000
	},
	{
	"epoch": 0.8270676239141728,
	"grad_norm": 27.021839141845703,
	"learning_rate": 9.627089079667943e-06,
	"loss": 3.029,
	"step": 343500
	},
	{
	"epoch": 0.8282715069184147,
	"grad_norm": 21.197938919067383,
	"learning_rate": 9.560206426620367e-06,
	"loss": 3.058,
	"step": 344000
	},
	{
	"epoch": 0.8294753899226566,
	"grad_norm": 15.80473518371582,
	"learning_rate": 9.493457538878885e-06,
	"loss": 3.0378,
	"step": 344500
	},
	{
	"epoch": 0.8306792729268985,
	"grad_norm": 20.992782592773438,
	"learning_rate": 9.426574885831311e-06,
	"loss": 3.042,
	"step": 345000
	},
	{
	"epoch": 0.8306792729268985,
	"eval_runtime": 6237.488,
	"eval_samples_per_second": 133.17,
	"eval_steps_per_second": 33.293,
	"step": 345000
	},
	{
	"epoch": 0.8318831559311403,
	"grad_norm": 15.700128555297852,
	"learning_rate": 9.359692232783737e-06,
	"loss": 3.007,
	"step": 345500
	},
	{
	"epoch": 0.8330870389353822,
	"grad_norm": 15.391378402709961,
	"learning_rate": 9.292809579736161e-06,
	"loss": 3.0211,
	"step": 346000
	},
	{
	"epoch": 0.8342909219396241,
	"grad_norm": 17.32360076904297,
	"learning_rate": 9.225926926688587e-06,
	"loss": 3.0727,
	"step": 346500
	},
	{
	"epoch": 0.835494804943866,
	"grad_norm": 15.85698127746582,
	"learning_rate": 9.159178038947107e-06,
	"loss": 3.0066,
	"step": 347000
	},
	{
	"epoch": 0.8366986879481079,
	"grad_norm": 15.092347145080566,
	"learning_rate": 9.092295385899533e-06,
	"loss": 3.0106,
	"step": 347500
	},
	{
	"epoch": 0.8379025709523497,
	"grad_norm": 14.47977352142334,
	"learning_rate": 9.025412732851957e-06,
	"loss": 3.0139,
	"step": 348000
	},
	{
	"epoch": 0.8391064539565916,
	"grad_norm": 12.257486343383789,
	"learning_rate": 8.958530079804383e-06,
	"loss": 3.0264,
	"step": 348500
	},
	{
	"epoch": 0.8403103369608335,
	"grad_norm": 17.00981330871582,
	"learning_rate": 8.891781192062903e-06,
	"loss": 3.0321,
	"step": 349000
	},
	{
	"epoch": 0.8415142199650754,
	"grad_norm": 17.08600616455078,
	"learning_rate": 8.824898539015327e-06,
	"loss": 3.0046,
	"step": 349500
	},
	{
	"epoch": 0.8427181029693173,
	"grad_norm": 14.907938003540039,
	"learning_rate": 8.758015885967753e-06,
	"loss": 3.0485,
	"step": 350000
	},
	{
	"epoch": 0.8427181029693173,
	"eval_runtime": 6388.9903,
	"eval_samples_per_second": 130.012,
	"eval_steps_per_second": 32.503,
	"step": 350000
	},
	{
	"epoch": 0.8439219859735592,
	"grad_norm": 14.369677543640137,
	"learning_rate": 8.691133232920177e-06,
	"loss": 3.0205,
	"step": 350500
	},
	{
	"epoch": 0.845125868977801,
	"grad_norm": 19.901779174804688,
	"learning_rate": 8.624250579872602e-06,
	"loss": 3.0481,
	"step": 351000
	},
	{
	"epoch": 0.8463297519820429,
	"grad_norm": 14.823498725891113,
	"learning_rate": 8.557367926825027e-06,
	"loss": 2.9577,
	"step": 351500
	},
	{
	"epoch": 0.8475336349862848,
	"grad_norm": 19.70775032043457,
	"learning_rate": 8.490485273777452e-06,
	"loss": 3.0341,
	"step": 352000
	},
	{
	"epoch": 0.8487375179905267,
	"grad_norm": 17.01579475402832,
	"learning_rate": 8.423736386035973e-06,
	"loss": 2.9874,
	"step": 352500
	},
	{
	"epoch": 0.8499414009947686,
	"grad_norm": 16.942848205566406,
	"learning_rate": 8.356853732988397e-06,
	"loss": 3.0226,
	"step": 353000
	},
	{
	"epoch": 0.8511452839990105,
	"grad_norm": 16.905664443969727,
	"learning_rate": 8.289971079940822e-06,
	"loss": 2.9484,
	"step": 353500
	},
	{
	"epoch": 0.8523491670032523,
	"grad_norm": 15.149470329284668,
	"learning_rate": 8.223088426893248e-06,
	"loss": 2.9945,
	"step": 354000
	},
	{
	"epoch": 0.8535530500074942,
	"grad_norm": 21.70083236694336,
	"learning_rate": 8.156205773845672e-06,
	"loss": 3.0103,
	"step": 354500
	},
	{
	"epoch": 0.854756933011736,
	"grad_norm": 12.760059356689453,
	"learning_rate": 8.089323120798098e-06,
	"loss": 3.0178,
	"step": 355000
	},
	{
	"epoch": 0.854756933011736,
	"eval_runtime": 6293.9927,
	"eval_samples_per_second": 131.974,
	"eval_steps_per_second": 32.994,
	"step": 355000
	},
	{
	"epoch": 0.855960816015978,
	"grad_norm": 28.85261344909668,
	"learning_rate": 8.022440467750522e-06,
	"loss": 2.9688,
	"step": 355500
	},
	{
	"epoch": 0.8571646990202199,
	"grad_norm": 13.942831039428711,
	"learning_rate": 7.955557814702948e-06,
	"loss": 2.9447,
	"step": 356000
	},
	{
	"epoch": 0.8583685820244616,
	"grad_norm": 14.091262817382812,
	"learning_rate": 7.888808926961468e-06,
	"loss": 2.9865,
	"step": 356500
	},
	{
	"epoch": 0.8595724650287035,
	"grad_norm": 19.63146209716797,
	"learning_rate": 7.821926273913894e-06,
	"loss": 3.0031,
	"step": 357000
	},
	{
	"epoch": 0.8607763480329454,
	"grad_norm": 12.868454933166504,
	"learning_rate": 7.755043620866318e-06,
	"loss": 2.9701,
	"step": 357500
	},
	{
	"epoch": 0.8619802310371873,
	"grad_norm": 18.4489803314209,
	"learning_rate": 7.688160967818744e-06,
	"loss": 2.9628,
	"step": 358000
	},
	{
	"epoch": 0.8631841140414293,
	"grad_norm": 14.441180229187012,
	"learning_rate": 7.6212783147711685e-06,
	"loss": 3.0001,
	"step": 358500
	},
	{
	"epoch": 0.8643879970456712,
	"grad_norm": 14.59991455078125,
	"learning_rate": 7.554529427029688e-06,
	"loss": 3.0118,
	"step": 359000
	},
	{
	"epoch": 0.8655918800499129,
	"grad_norm": 24.200435638427734,
	"learning_rate": 7.487646773982113e-06,
	"loss": 3.0567,
	"step": 359500
	},
	{
	"epoch": 0.8667957630541548,
	"grad_norm": 17.150327682495117,
	"learning_rate": 7.420764120934539e-06,
	"loss": 3.0472,
	"step": 360000
	},
	{
	"epoch": 0.8667957630541548,
	"eval_runtime": 6262.3633,
	"eval_samples_per_second": 132.641,
	"eval_steps_per_second": 33.16,
	"step": 360000
	},
	{
	"epoch": 0.8679996460583967,
	"grad_norm": 20.363269805908203,
	"learning_rate": 7.353881467886964e-06,
	"loss": 2.9548,
	"step": 360500
	},
	{
	"epoch": 0.8692035290626386,
	"grad_norm": 16.118206024169922,
	"learning_rate": 7.2869988148393885e-06,
	"loss": 3.0507,
	"step": 361000
	},
	{
	"epoch": 0.8704074120668805,
	"grad_norm": 16.389257431030273,
	"learning_rate": 7.220116161791813e-06,
	"loss": 3.0169,
	"step": 361500
	},
	{
	"epoch": 0.8716112950711224,
	"grad_norm": 15.485569953918457,
	"learning_rate": 7.153233508744238e-06,
	"loss": 3.016,
	"step": 362000
	},
	{
	"epoch": 0.8728151780753642,
	"grad_norm": 18.530200958251953,
	"learning_rate": 7.086350855696663e-06,
	"loss": 3.0083,
	"step": 362500
	},
	{
	"epoch": 0.8740190610796061,
	"grad_norm": 14.700156211853027,
	"learning_rate": 7.0196019679551835e-06,
	"loss": 2.9861,
	"step": 363000
	},
	{
	"epoch": 0.875222944083848,
	"grad_norm": 19.87506675720215,
	"learning_rate": 6.952719314907609e-06,
	"loss": 3.0287,
	"step": 363500
	},
	{
	"epoch": 0.8764268270880899,
	"grad_norm": 25.59213638305664,
	"learning_rate": 6.885836661860033e-06,
	"loss": 3.0149,
	"step": 364000
	},
	{
	"epoch": 0.8776307100923318,
	"grad_norm": 16.81450653076172,
	"learning_rate": 6.818954008812459e-06,
	"loss": 3.0167,
	"step": 364500
	},
	{
	"epoch": 0.8788345930965736,
	"grad_norm": 20.761167526245117,
	"learning_rate": 6.7522051210709786e-06,
	"loss": 3.037,
	"step": 365000
	},
	{
	"epoch": 0.8788345930965736,
	"eval_runtime": 6325.2523,
	"eval_samples_per_second": 131.322,
	"eval_steps_per_second": 32.831,
	"step": 365000
	},
	{
	"epoch": 0.8800384761008155,
	"grad_norm": 18.997737884521484,
	"learning_rate": 6.685322468023404e-06,
	"loss": 3.0299,
	"step": 365500
	},
	{
	"epoch": 0.8812423591050574,
	"grad_norm": 18.71440315246582,
	"learning_rate": 6.618439814975828e-06,
	"loss": 3.018,
	"step": 366000
	},
	{
	"epoch": 0.8824462421092993,
	"grad_norm": 17.6945858001709,
	"learning_rate": 6.551557161928254e-06,
	"loss": 3.0215,
	"step": 366500
	},
	{
	"epoch": 0.8836501251135412,
	"grad_norm": 17.693279266357422,
	"learning_rate": 6.48467450888068e-06,
	"loss": 3.0327,
	"step": 367000
	},
	{
	"epoch": 0.8848540081177831,
	"grad_norm": 12.849013328552246,
	"learning_rate": 6.417791855833104e-06,
	"loss": 3.0219,
	"step": 367500
	},
	{
	"epoch": 0.8860578911220249,
	"grad_norm": 15.688241958618164,
	"learning_rate": 6.351042968091623e-06,
	"loss": 3.0481,
	"step": 368000
	},
	{
	"epoch": 0.8872617741262668,
	"grad_norm": 16.61380958557129,
	"learning_rate": 6.284160315044049e-06,
	"loss": 2.9957,
	"step": 368500
	},
	{
	"epoch": 0.8884656571305087,
	"grad_norm": 14.891318321228027,
	"learning_rate": 6.217277661996474e-06,
	"loss": 3.0474,
	"step": 369000
	},
	{
	"epoch": 0.8896695401347506,
	"grad_norm": 20.029443740844727,
	"learning_rate": 6.150395008948899e-06,
	"loss": 3.0241,
	"step": 369500
	},
	{
	"epoch": 0.8908734231389925,
	"grad_norm": 13.43873119354248,
	"learning_rate": 6.083512355901325e-06,
	"loss": 3.0318,
	"step": 370000
	},
	{
	"epoch": 0.8908734231389925,
	"eval_runtime": 6403.6333,
	"eval_samples_per_second": 129.715,
	"eval_steps_per_second": 32.429,
	"step": 370000
	},
	{
	"epoch": 0.8920773061432344,
	"grad_norm": 16.173236846923828,
	"learning_rate": 6.016763468159844e-06,
	"loss": 3.0562,
	"step": 370500
	},
	{
	"epoch": 0.8932811891474762,
	"grad_norm": 21.55840301513672,
	"learning_rate": 5.949880815112269e-06,
	"loss": 2.9967,
	"step": 371000
	},
	{
	"epoch": 0.8944850721517181,
	"grad_norm": 15.276843070983887,
	"learning_rate": 5.882998162064694e-06,
	"loss": 3.0263,
	"step": 371500
	},
	{
	"epoch": 0.89568895515596,
	"grad_norm": 15.087631225585938,
	"learning_rate": 5.81611550901712e-06,
	"loss": 2.9793,
	"step": 372000
	},
	{
	"epoch": 0.8968928381602019,
	"grad_norm": 12.954302787780762,
	"learning_rate": 5.749232855969545e-06,
	"loss": 3.0192,
	"step": 372500
	},
	{
	"epoch": 0.8980967211644438,
	"grad_norm": 20.37034797668457,
	"learning_rate": 5.6823502029219695e-06,
	"loss": 3.0274,
	"step": 373000
	},
	{
	"epoch": 0.8993006041686856,
	"grad_norm": 16.947673797607422,
	"learning_rate": 5.61560131518049e-06,
	"loss": 3.0792,
	"step": 373500
	},
	{
	"epoch": 0.9005044871729275,
	"grad_norm": 14.517135620117188,
	"learning_rate": 5.548718662132915e-06,
	"loss": 2.9878,
	"step": 374000
	},
	{
	"epoch": 0.9017083701771694,
	"grad_norm": 15.187361717224121,
	"learning_rate": 5.48183600908534e-06,
	"loss": 3.0541,
	"step": 374500
	},
	{
	"epoch": 0.9029122531814113,
	"grad_norm": 15.383942604064941,
	"learning_rate": 5.4149533560377646e-06,
	"loss": 3.021,
	"step": 375000
	},
	{
	"epoch": 0.9029122531814113,
	"eval_runtime": 6390.605,
	"eval_samples_per_second": 129.979,
	"eval_steps_per_second": 32.495,
	"step": 375000
	},
	{
	"epoch": 0.9041161361856532,
	"grad_norm": 17.510334014892578,
	"learning_rate": 5.3480707029901895e-06,
	"loss": 3.0943,
	"step": 375500
	},
	{
	"epoch": 0.9053200191898951,
	"grad_norm": 16.601346969604492,
	"learning_rate": 5.281321815248711e-06,
	"loss": 3.0723,
	"step": 376000
	},
	{
	"epoch": 0.9065239021941369,
	"grad_norm": 22.802818298339844,
	"learning_rate": 5.2144391622011356e-06,
	"loss": 3.0491,
	"step": 376500
	},
	{
	"epoch": 0.9077277851983788,
	"grad_norm": 17.018939971923828,
	"learning_rate": 5.1475565091535605e-06,
	"loss": 3.0556,
	"step": 377000
	},
	{
	"epoch": 0.9089316682026207,
	"grad_norm": 19.08505630493164,
	"learning_rate": 5.080673856105985e-06,
	"loss": 3.046,
	"step": 377500
	},
	{
	"epoch": 0.9101355512068626,
	"grad_norm": 16.25370216369629,
	"learning_rate": 5.01379120305841e-06,
	"loss": 3.0191,
	"step": 378000
	},
	{
	"epoch": 0.9113394342111045,
	"grad_norm": 16.954275131225586,
	"learning_rate": 4.946908550010835e-06,
	"loss": 3.0025,
	"step": 378500
	},
	{
	"epoch": 0.9125433172153464,
	"grad_norm": 26.870176315307617,
	"learning_rate": 4.8801596622693555e-06,
	"loss": 3.0288,
	"step": 379000
	},
	{
	"epoch": 0.9137472002195882,
	"grad_norm": 14.162908554077148,
	"learning_rate": 4.81327700922178e-06,
	"loss": 3.0278,
	"step": 379500
	},
	{
	"epoch": 0.9149510832238301,
	"grad_norm": 16.129444122314453,
	"learning_rate": 4.746394356174205e-06,
	"loss": 3.0409,
	"step": 380000
	},
	{
	"epoch": 0.9149510832238301,
	"eval_runtime": 6329.5669,
	"eval_samples_per_second": 131.233,
	"eval_steps_per_second": 32.808,
	"step": 380000
	},
	{
	"epoch": 0.916154966228072,
	"grad_norm": 19.689468383789062,
	"learning_rate": 4.67951170312663e-06,
	"loss": 3.0399,
	"step": 380500
	},
	{
	"epoch": 0.9173588492323139,
	"grad_norm": 17.123493194580078,
	"learning_rate": 4.6127628153851506e-06,
	"loss": 3.0142,
	"step": 381000
	},
	{
	"epoch": 0.9185627322365558,
	"grad_norm": 15.44541072845459,
	"learning_rate": 4.5458801623375755e-06,
	"loss": 2.9937,
	"step": 381500
	},
	{
	"epoch": 0.9197666152407976,
	"grad_norm": 20.037689208984375,
	"learning_rate": 4.47899750929e-06,
	"loss": 3.0889,
	"step": 382000
	},
	{
	"epoch": 0.9209704982450395,
	"grad_norm": 17.4291934967041,
	"learning_rate": 4.412114856242425e-06,
	"loss": 2.9653,
	"step": 382500
	},
	{
	"epoch": 0.9221743812492814,
	"grad_norm": 18.911190032958984,
	"learning_rate": 4.345232203194851e-06,
	"loss": 3.0299,
	"step": 383000
	},
	{
	"epoch": 0.9233782642535233,
	"grad_norm": 18.403993606567383,
	"learning_rate": 4.278349550147276e-06,
	"loss": 3.0437,
	"step": 383500
	},
	{
	"epoch": 0.9245821472577652,
	"grad_norm": 17.68988800048828,
	"learning_rate": 4.211600662405795e-06,
	"loss": 2.9655,
	"step": 384000
	},
	{
	"epoch": 0.9257860302620071,
	"grad_norm": 15.752707481384277,
	"learning_rate": 4.144718009358221e-06,
	"loss": 3.0118,
	"step": 384500
	},
	{
	"epoch": 0.9269899132662489,
	"grad_norm": 15.633676528930664,
	"learning_rate": 4.077835356310646e-06,
	"loss": 2.98,
	"step": 385000
	},
	{
	"epoch": 0.9269899132662489,
	"eval_runtime": 6416.4378,
	"eval_samples_per_second": 129.456,
	"eval_steps_per_second": 32.364,
	"step": 385000
	},
	{
	"epoch": 0.9281937962704908,
	"grad_norm": 22.764881134033203,
	"learning_rate": 4.010952703263071e-06,
	"loss": 3.0464,
	"step": 385500
	},
	{
	"epoch": 0.9293976792747327,
	"grad_norm": 16.236614227294922,
	"learning_rate": 3.944070050215496e-06,
	"loss": 3.0362,
	"step": 386000
	},
	{
	"epoch": 0.9306015622789746,
	"grad_norm": 14.50631332397461,
	"learning_rate": 3.877321162474017e-06,
	"loss": 3.071,
	"step": 386500
	},
	{
	"epoch": 0.9318054452832165,
	"grad_norm": 13.831846237182617,
	"learning_rate": 3.8104385094264415e-06,
	"loss": 3.0001,
	"step": 387000
	},
	{
	"epoch": 0.9330093282874584,
	"grad_norm": 12.26697826385498,
	"learning_rate": 3.7435558563788664e-06,
	"loss": 3.0437,
	"step": 387500
	},
	{
	"epoch": 0.9342132112917002,
	"grad_norm": 20.174835205078125,
	"learning_rate": 3.6766732033312913e-06,
	"loss": 3.0136,
	"step": 388000
	},
	{
	"epoch": 0.9354170942959421,
	"grad_norm": 19.26807975769043,
	"learning_rate": 3.609790550283716e-06,
	"loss": 3.0054,
	"step": 388500
	},
	{
	"epoch": 0.936620977300184,
	"grad_norm": 13.987044334411621,
	"learning_rate": 3.542907897236141e-06,
	"loss": 3.004,
	"step": 389000
	},
	{
	"epoch": 0.9378248603044259,
	"grad_norm": 19.408586502075195,
	"learning_rate": 3.476025244188567e-06,
	"loss": 3.0438,
	"step": 389500
	},
	{
	"epoch": 0.9390287433086678,
	"grad_norm": 20.116239547729492,
	"learning_rate": 3.4092763564470868e-06,
	"loss": 3.0043,
	"step": 390000
	},
	{
	"epoch": 0.9390287433086678,
	"eval_runtime": 6418.8738,
	"eval_samples_per_second": 129.407,
	"eval_steps_per_second": 32.352,
	"step": 390000
	},
	{
	"epoch": 0.9402326263129097,
	"grad_norm": 15.818509101867676,
	"learning_rate": 3.3423937033995117e-06,
	"loss": 2.9467,
	"step": 390500
	},
	{
	"epoch": 0.9414365093171515,
	"grad_norm": 17.208309173583984,
	"learning_rate": 3.2755110503519366e-06,
	"loss": 3.0507,
	"step": 391000
	},
	{
	"epoch": 0.9426403923213934,
	"grad_norm": 14.738162994384766,
	"learning_rate": 3.208628397304362e-06,
	"loss": 3.0281,
	"step": 391500
	},
	{
	"epoch": 0.9438442753256353,
	"grad_norm": 15.624344825744629,
	"learning_rate": 3.141879509562882e-06,
	"loss": 3.0248,
	"step": 392000
	},
	{
	"epoch": 0.9450481583298772,
	"grad_norm": 17.159011840820312,
	"learning_rate": 3.074996856515307e-06,
	"loss": 2.9597,
	"step": 392500
	},
	{
	"epoch": 0.9462520413341191,
	"grad_norm": 13.915901184082031,
	"learning_rate": 3.008114203467732e-06,
	"loss": 2.9937,
	"step": 393000
	},
	{
	"epoch": 0.9474559243383609,
	"grad_norm": 20.13627052307129,
	"learning_rate": 2.941231550420157e-06,
	"loss": 2.9966,
	"step": 393500
	},
	{
	"epoch": 0.9486598073426028,
	"grad_norm": 26.449026107788086,
	"learning_rate": 2.8743488973725822e-06,
	"loss": 2.9904,
	"step": 394000
	},
	{
	"epoch": 0.9498636903468447,
	"grad_norm": 18.189252853393555,
	"learning_rate": 2.807600009631102e-06,
	"loss": 3.0078,
	"step": 394500
	},
	{
	"epoch": 0.9510675733510866,
	"grad_norm": 20.91954803466797,
	"learning_rate": 2.740717356583527e-06,
	"loss": 3.0439,
	"step": 395000
	},
	{
	"epoch": 0.9510675733510866,
	"eval_runtime": 6350.5821,
	"eval_samples_per_second": 130.798,
	"eval_steps_per_second": 32.7,
	"step": 395000
	},
	{
	"epoch": 0.9522714563553285,
	"grad_norm": 18.318206787109375,
	"learning_rate": 2.673834703535952e-06,
	"loss": 2.989,
	"step": 395500
	},
	{
	"epoch": 0.9534753393595704,
	"grad_norm": 16.19314193725586,
	"learning_rate": 2.6069520504883773e-06,
	"loss": 2.9842,
	"step": 396000
	},
	{
	"epoch": 0.9546792223638122,
	"grad_norm": 16.36551856994629,
	"learning_rate": 2.540069397440802e-06,
	"loss": 2.9938,
	"step": 396500
	},
	{
	"epoch": 0.9558831053680541,
	"grad_norm": 19.816038131713867,
	"learning_rate": 2.473186744393227e-06,
	"loss": 3.0204,
	"step": 397000
	},
	{
	"epoch": 0.957086988372296,
	"grad_norm": 14.318347930908203,
	"learning_rate": 2.4064378566517474e-06,
	"loss": 3.0851,
	"step": 397500
	},
	{
	"epoch": 0.9582908713765379,
	"grad_norm": 17.114421844482422,
	"learning_rate": 2.3395552036041728e-06,
	"loss": 3.0096,
	"step": 398000
	},
	{
	"epoch": 0.9594947543807798,
	"grad_norm": 18.27849578857422,
	"learning_rate": 2.2726725505565977e-06,
	"loss": 3.0374,
	"step": 398500
	},
	{
	"epoch": 0.9606986373850217,
	"grad_norm": 16.87068748474121,
	"learning_rate": 2.2057898975090225e-06,
	"loss": 3.0484,
	"step": 399000
	},
	{
	"epoch": 0.9619025203892635,
	"grad_norm": 22.162954330444336,
	"learning_rate": 2.138907244461448e-06,
	"loss": 3.04,
	"step": 399500
	},
	{
	"epoch": 0.9631064033935054,
	"grad_norm": 16.329286575317383,
	"learning_rate": 2.0720245914138728e-06,
	"loss": 2.9491,
	"step": 400000
	},
	{
	"epoch": 0.9631064033935054,
	"eval_runtime": 6424.6879,
	"eval_samples_per_second": 129.29,
	"eval_steps_per_second": 32.323,
	"step": 400000
	},
	{
	"epoch": 0.9643102863977473,
	"grad_norm": 16.189512252807617,
	"learning_rate": 2.0052757036723927e-06,
	"loss": 3.045,
	"step": 400500
	},
	{
	"epoch": 0.9655141694019892,
	"grad_norm": 18.53325080871582,
	"learning_rate": 1.9383930506248176e-06,
	"loss": 3.0405,
	"step": 401000
	},
	{
	"epoch": 0.9667180524062311,
	"grad_norm": 21.920936584472656,
	"learning_rate": 1.871510397577243e-06,
	"loss": 3.0347,
	"step": 401500
	},
	{
	"epoch": 0.9679219354104729,
	"grad_norm": 10.188512802124023,
	"learning_rate": 1.8046277445296678e-06,
	"loss": 2.9497,
	"step": 402000
	},
	{
	"epoch": 0.9691258184147148,
	"grad_norm": 23.691808700561523,
	"learning_rate": 1.7377450914820931e-06,
	"loss": 3.0046,
	"step": 402500
	},
	{
	"epoch": 0.9703297014189567,
	"grad_norm": 17.392013549804688,
	"learning_rate": 1.6709962037406129e-06,
	"loss": 2.996,
	"step": 403000
	},
	{
	"epoch": 0.9715335844231986,
	"grad_norm": 19.87090492248535,
	"learning_rate": 1.6041135506930382e-06,
	"loss": 3.042,
	"step": 403500
	},
	{
	"epoch": 0.9727374674274405,
	"grad_norm": 19.895801544189453,
	"learning_rate": 1.537230897645463e-06,
	"loss": 2.978,
	"step": 404000
	},
	{
	"epoch": 0.9739413504316824,
	"grad_norm": 16.795654296875,
	"learning_rate": 1.4703482445978882e-06,
	"loss": 3.0219,
	"step": 404500
	},
	{
	"epoch": 0.9751452334359242,
	"grad_norm": 13.37932014465332,
	"learning_rate": 1.4034655915503133e-06,
	"loss": 3.0323,
	"step": 405000
	},
	{
	"epoch": 0.9751452334359242,
	"eval_runtime": 6375.6502,
	"eval_samples_per_second": 130.284,
	"eval_steps_per_second": 32.571,
	"step": 405000
	},
	{
	"epoch": 0.9763491164401661,
	"grad_norm": 14.84689712524414,
	"learning_rate": 1.3367167038088334e-06,
	"loss": 2.9709,
	"step": 405500
	},
	{
	"epoch": 0.977552999444408,
	"grad_norm": 14.532979011535645,
	"learning_rate": 1.2698340507612583e-06,
	"loss": 3.0614,
	"step": 406000
	},
	{
	"epoch": 0.9787568824486499,
	"grad_norm": 15.914132118225098,
	"learning_rate": 1.2029513977136834e-06,
	"loss": 3.0498,
	"step": 406500
	},
	{
	"epoch": 0.9799607654528918,
	"grad_norm": 14.478850364685059,
	"learning_rate": 1.1360687446661085e-06,
	"loss": 2.9675,
	"step": 407000
	},
	{
	"epoch": 0.9811646484571337,
	"grad_norm": 22.8538818359375,
	"learning_rate": 1.0691860916185336e-06,
	"loss": 3.0232,
	"step": 407500
	},
	{
	"epoch": 0.9823685314613755,
	"grad_norm": 15.004932403564453,
	"learning_rate": 1.0023034385709585e-06,
	"loss": 2.9698,
	"step": 408000
	},
	{
	"epoch": 0.9835724144656174,
	"grad_norm": 15.036443710327148,
	"learning_rate": 9.354207855233835e-07,
	"loss": 2.9961,
	"step": 408500
	},
	{
	"epoch": 0.9847762974698593,
	"grad_norm": 19.975051879882812,
	"learning_rate": 8.685381324758087e-07,
	"loss": 3.0067,
	"step": 409000
	},
	{
	"epoch": 0.9859801804741012,
	"grad_norm": 17.99605369567871,
	"learning_rate": 8.017892447343288e-07,
	"loss": 3.0702,
	"step": 409500
	},
	{
	"epoch": 0.9871840634783431,
	"grad_norm": 15.935543060302734,
	"learning_rate": 7.349065916867538e-07,
	"loss": 3.0132,
	"step": 410000
	},
	{
	"epoch": 0.9871840634783431,
	"eval_runtime": 6347.5902,
	"eval_samples_per_second": 130.86,
	"eval_steps_per_second": 32.715,
	"step": 410000
	},
	{
	"epoch": 0.9883879464825849,
	"grad_norm": 12.5308256149292,
	"learning_rate": 6.680239386391788e-07,
	"loss": 2.977,
	"step": 410500
	},
	{
	"epoch": 0.9895918294868268,
	"grad_norm": 15.325048446655273,
	"learning_rate": 6.011412855916039e-07,
	"loss": 3.0383,
	"step": 411000
	},
	{
	"epoch": 0.9907957124910687,
	"grad_norm": 16.378740310668945,
	"learning_rate": 5.342586325440288e-07,
	"loss": 3.0278,
	"step": 411500
	},
	{
	"epoch": 0.9919995954953106,
	"grad_norm": 17.669631958007812,
	"learning_rate": 4.673759794964539e-07,
	"loss": 2.9929,
	"step": 412000
	},
	{
	"epoch": 0.9932034784995525,
	"grad_norm": 16.54693603515625,
	"learning_rate": 4.004933264488789e-07,
	"loss": 2.9768,
	"step": 412500
	},
	{
	"epoch": 0.9944073615037944,
	"grad_norm": 16.434072494506836,
	"learning_rate": 3.337444387073991e-07,
	"loss": 3.0664,
	"step": 413000
	},
	{
	"epoch": 0.9956112445080362,
	"grad_norm": 28.83799171447754,
	"learning_rate": 2.6686178565982417e-07,
	"loss": 3.0716,
	"step": 413500
	},
	{
	"epoch": 0.9968151275122781,
	"grad_norm": 15.776455879211426,
	"learning_rate": 1.9997913261224917e-07,
	"loss": 3.0396,
	"step": 414000
	},
	{
	"epoch": 0.99801901051652,
	"grad_norm": 18.937358856201172,
	"learning_rate": 1.330964795646742e-07,
	"loss": 3.0165,
	"step": 414500
	},
	{
	"epoch": 0.9992228935207619,
	"grad_norm": 20.05877685546875,
	"learning_rate": 6.621382651709922e-08,
	"loss": 3.0059,
	"step": 415000
	},
	{
	"epoch": 0.9992228935207619,
	"eval_runtime": 6436.495,
	"eval_samples_per_second": 129.052,
	"eval_steps_per_second": 32.263,
	"step": 415000
	}
	],
	"logging_steps": 500,
	"max_steps": 415322,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1124779666016266e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}