Upload folder using huggingface_hub

137c748 verified 10 days ago

210 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 5000,
	"global_step": 542931,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00276278201097377,
	"grad_norm": 2.595154047012329,
	"learning_rate": 4.53088739087192e-07,
	"loss": 3.7252,
	"step": 500
	},
	{
	"epoch": 0.00552556402194754,
	"grad_norm": 3.3661036491394043,
	"learning_rate": 9.135447747449074e-07,
	"loss": 3.7548,
	"step": 1000
	},
	{
	"epoch": 0.00828834603292131,
	"grad_norm": 3.4492340087890625,
	"learning_rate": 1.3730798983313074e-06,
	"loss": 3.7204,
	"step": 1500
	},
	{
	"epoch": 0.01105112804389508,
	"grad_norm": 5.218665599822998,
	"learning_rate": 1.8335359339890227e-06,
	"loss": 3.7032,
	"step": 2000
	},
	{
	"epoch": 0.013813910054868851,
	"grad_norm": 5.617623805999756,
	"learning_rate": 2.293991969646738e-06,
	"loss": 3.6474,
	"step": 2500
	},
	{
	"epoch": 0.01657669206584262,
	"grad_norm": 5.512911319732666,
	"learning_rate": 2.7544480053044535e-06,
	"loss": 3.5624,
	"step": 3000
	},
	{
	"epoch": 0.019339474076816392,
	"grad_norm": 5.604681015014648,
	"learning_rate": 3.2139831288908536e-06,
	"loss": 3.4398,
	"step": 3500
	},
	{
	"epoch": 0.02210225608779016,
	"grad_norm": 6.751086235046387,
	"learning_rate": 3.6744391645485687e-06,
	"loss": 3.3622,
	"step": 4000
	},
	{
	"epoch": 0.02486503809876393,
	"grad_norm": 8.164905548095703,
	"learning_rate": 4.134895200206284e-06,
	"loss": 3.1909,
	"step": 4500
	},
	{
	"epoch": 0.027627820109737702,
	"grad_norm": 7.667040824890137,
	"learning_rate": 4.595351235863999e-06,
	"loss": 3.2288,
	"step": 5000
	},
	{
	"epoch": 0.027627820109737702,
	"eval_runtime": 1422.3033,
	"eval_samples_per_second": 254.484,
	"eval_steps_per_second": 31.811,
	"step": 5000
	},
	{
	"epoch": 0.03039060212071147,
	"grad_norm": 7.5037031173706055,
	"learning_rate": 5.055807271521715e-06,
	"loss": 3.1382,
	"step": 5500
	},
	{
	"epoch": 0.03315338413168524,
	"grad_norm": 7.567819595336914,
	"learning_rate": 5.51626330717943e-06,
	"loss": 3.1615,
	"step": 6000
	},
	{
	"epoch": 0.03591616614265901,
	"grad_norm": 9.968245506286621,
	"learning_rate": 5.976719342837146e-06,
	"loss": 3.102,
	"step": 6500
	},
	{
	"epoch": 0.038678948153632785,
	"grad_norm": 9.482606887817383,
	"learning_rate": 6.4371753784948614e-06,
	"loss": 3.1102,
	"step": 7000
	},
	{
	"epoch": 0.041441730164606554,
	"grad_norm": 7.074209213256836,
	"learning_rate": 6.8967105020812615e-06,
	"loss": 3.0017,
	"step": 7500
	},
	{
	"epoch": 0.04420451217558032,
	"grad_norm": 8.135669708251953,
	"learning_rate": 7.356245625667662e-06,
	"loss": 3.0574,
	"step": 8000
	},
	{
	"epoch": 0.04696729418655409,
	"grad_norm": 13.200604438781738,
	"learning_rate": 7.816701661325378e-06,
	"loss": 3.0581,
	"step": 8500
	},
	{
	"epoch": 0.04973007619752786,
	"grad_norm": 8.470757484436035,
	"learning_rate": 8.277157696983094e-06,
	"loss": 2.9737,
	"step": 9000
	},
	{
	"epoch": 0.052492858208501636,
	"grad_norm": 8.881372451782227,
	"learning_rate": 8.737613732640809e-06,
	"loss": 3.0145,
	"step": 9500
	},
	{
	"epoch": 0.055255640219475405,
	"grad_norm": 7.54667854309082,
	"learning_rate": 9.198069768298522e-06,
	"loss": 3.0479,
	"step": 10000
	},
	{
	"epoch": 0.055255640219475405,
	"eval_runtime": 1428.4865,
	"eval_samples_per_second": 253.382,
	"eval_steps_per_second": 31.673,
	"step": 10000
	},
	{
	"epoch": 0.058018422230449174,
	"grad_norm": 9.400116920471191,
	"learning_rate": 9.658525803956239e-06,
	"loss": 2.9569,
	"step": 10500
	},
	{
	"epoch": 0.06078120424142294,
	"grad_norm": 9.827701568603516,
	"learning_rate": 1.0118981839613954e-05,
	"loss": 2.9763,
	"step": 11000
	},
	{
	"epoch": 0.06354398625239671,
	"grad_norm": 9.987720489501953,
	"learning_rate": 1.0579437875271669e-05,
	"loss": 2.9257,
	"step": 11500
	},
	{
	"epoch": 0.06630676826337048,
	"grad_norm": 13.571234703063965,
	"learning_rate": 1.1039893910929384e-05,
	"loss": 2.9896,
	"step": 12000
	},
	{
	"epoch": 0.06906955027434425,
	"grad_norm": 11.866579055786133,
	"learning_rate": 1.1499429034515786e-05,
	"loss": 2.978,
	"step": 12500
	},
	{
	"epoch": 0.07183233228531802,
	"grad_norm": 15.338528633117676,
	"learning_rate": 1.19598850701735e-05,
	"loss": 2.9433,
	"step": 13000
	},
	{
	"epoch": 0.0745951142962918,
	"grad_norm": 8.874979019165039,
	"learning_rate": 1.2420341105831214e-05,
	"loss": 2.9817,
	"step": 13500
	},
	{
	"epoch": 0.07735789630726557,
	"grad_norm": 8.997846603393555,
	"learning_rate": 1.2880797141488931e-05,
	"loss": 2.8916,
	"step": 14000
	},
	{
	"epoch": 0.08012067831823934,
	"grad_norm": 11.824705123901367,
	"learning_rate": 1.3340332265075331e-05,
	"loss": 2.9126,
	"step": 14500
	},
	{
	"epoch": 0.08288346032921311,
	"grad_norm": 11.844013214111328,
	"learning_rate": 1.3800788300733048e-05,
	"loss": 2.9078,
	"step": 15000
	},
	{
	"epoch": 0.08288346032921311,
	"eval_runtime": 1417.0351,
	"eval_samples_per_second": 255.43,
	"eval_steps_per_second": 31.929,
	"step": 15000
	},
	{
	"epoch": 0.08564624234018688,
	"grad_norm": 9.543901443481445,
	"learning_rate": 1.4261244336390762e-05,
	"loss": 2.9336,
	"step": 15500
	},
	{
	"epoch": 0.08840902435116064,
	"grad_norm": 10.792810440063477,
	"learning_rate": 1.4721700372048478e-05,
	"loss": 2.9225,
	"step": 16000
	},
	{
	"epoch": 0.09117180636213441,
	"grad_norm": 9.682255744934082,
	"learning_rate": 1.5181235495634877e-05,
	"loss": 2.9388,
	"step": 16500
	},
	{
	"epoch": 0.09393458837310818,
	"grad_norm": 9.591748237609863,
	"learning_rate": 1.5641691531292592e-05,
	"loss": 2.9116,
	"step": 17000
	},
	{
	"epoch": 0.09669737038408195,
	"grad_norm": 15.961346626281738,
	"learning_rate": 1.610214756695031e-05,
	"loss": 2.8788,
	"step": 17500
	},
	{
	"epoch": 0.09946015239505572,
	"grad_norm": 12.563713073730469,
	"learning_rate": 1.6562603602608022e-05,
	"loss": 2.868,
	"step": 18000
	},
	{
	"epoch": 0.10222293440602949,
	"grad_norm": 9.912450790405273,
	"learning_rate": 1.702305963826574e-05,
	"loss": 2.8436,
	"step": 18500
	},
	{
	"epoch": 0.10498571641700327,
	"grad_norm": 10.168437957763672,
	"learning_rate": 1.748259476185214e-05,
	"loss": 2.893,
	"step": 19000
	},
	{
	"epoch": 0.10774849842797704,
	"grad_norm": 9.45627212524414,
	"learning_rate": 1.7943050797509856e-05,
	"loss": 2.9454,
	"step": 19500
	},
	{
	"epoch": 0.11051128043895081,
	"grad_norm": 11.309224128723145,
	"learning_rate": 1.840350683316757e-05,
	"loss": 2.898,
	"step": 20000
	},
	{
	"epoch": 0.11051128043895081,
	"eval_runtime": 1418.7718,
	"eval_samples_per_second": 255.117,
	"eval_steps_per_second": 31.89,
	"step": 20000
	},
	{
	"epoch": 0.11327406244992458,
	"grad_norm": 9.24001407623291,
	"learning_rate": 1.8863962868825286e-05,
	"loss": 2.8393,
	"step": 20500
	},
	{
	"epoch": 0.11603684446089835,
	"grad_norm": 11.295225143432617,
	"learning_rate": 1.9324418904483e-05,
	"loss": 2.8147,
	"step": 21000
	},
	{
	"epoch": 0.11879962647187212,
	"grad_norm": 16.763473510742188,
	"learning_rate": 1.97839540280694e-05,
	"loss": 2.8566,
	"step": 21500
	},
	{
	"epoch": 0.12156240848284589,
	"grad_norm": 11.213971138000488,
	"learning_rate": 2.02434891516558e-05,
	"loss": 2.8748,
	"step": 22000
	},
	{
	"epoch": 0.12432519049381965,
	"grad_norm": 8.82392406463623,
	"learning_rate": 2.0703945187313516e-05,
	"loss": 2.8374,
	"step": 22500
	},
	{
	"epoch": 0.12708797250479342,
	"grad_norm": 16.63780403137207,
	"learning_rate": 2.116440122297123e-05,
	"loss": 2.815,
	"step": 23000
	},
	{
	"epoch": 0.1298507545157672,
	"grad_norm": 8.42003345489502,
	"learning_rate": 2.1624857258628947e-05,
	"loss": 2.8534,
	"step": 23500
	},
	{
	"epoch": 0.13261353652674096,
	"grad_norm": 18.058134078979492,
	"learning_rate": 2.2085313294286665e-05,
	"loss": 2.8309,
	"step": 24000
	},
	{
	"epoch": 0.13537631853771473,
	"grad_norm": 10.62288761138916,
	"learning_rate": 2.2545769329944377e-05,
	"loss": 2.7925,
	"step": 24500
	},
	{
	"epoch": 0.1381391005486885,
	"grad_norm": 10.44122314453125,
	"learning_rate": 2.3006225365602095e-05,
	"loss": 2.8439,
	"step": 25000
	},
	{
	"epoch": 0.1381391005486885,
	"eval_runtime": 1423.542,
	"eval_samples_per_second": 254.262,
	"eval_steps_per_second": 31.783,
	"step": 25000
	},
	{
	"epoch": 0.14090188255966227,
	"grad_norm": 12.520238876342773,
	"learning_rate": 2.346668140125981e-05,
	"loss": 2.7922,
	"step": 25500
	},
	{
	"epoch": 0.14366466457063604,
	"grad_norm": 9.882099151611328,
	"learning_rate": 2.3927137436917525e-05,
	"loss": 2.8186,
	"step": 26000
	},
	{
	"epoch": 0.1464274465816098,
	"grad_norm": 9.38256549835205,
	"learning_rate": 2.4386672560503922e-05,
	"loss": 2.7843,
	"step": 26500
	},
	{
	"epoch": 0.1491902285925836,
	"grad_norm": 9.543642044067383,
	"learning_rate": 2.4846207684090326e-05,
	"loss": 2.8285,
	"step": 27000
	},
	{
	"epoch": 0.15195301060355737,
	"grad_norm": 11.416987419128418,
	"learning_rate": 2.530666371974804e-05,
	"loss": 2.8062,
	"step": 27500
	},
	{
	"epoch": 0.15471579261453114,
	"grad_norm": 11.19566535949707,
	"learning_rate": 2.5767119755405756e-05,
	"loss": 2.8096,
	"step": 28000
	},
	{
	"epoch": 0.1574785746255049,
	"grad_norm": 11.436910629272461,
	"learning_rate": 2.6227575791063468e-05,
	"loss": 2.7607,
	"step": 28500
	},
	{
	"epoch": 0.16024135663647868,
	"grad_norm": 11.108380317687988,
	"learning_rate": 2.668803182672119e-05,
	"loss": 2.8115,
	"step": 29000
	},
	{
	"epoch": 0.16300413864745245,
	"grad_norm": 8.149287223815918,
	"learning_rate": 2.7147566950307586e-05,
	"loss": 2.8093,
	"step": 29500
	},
	{
	"epoch": 0.16576692065842621,
	"grad_norm": 9.921182632446289,
	"learning_rate": 2.7608022985965305e-05,
	"loss": 2.7958,
	"step": 30000
	},
	{
	"epoch": 0.16576692065842621,
	"eval_runtime": 1420.6642,
	"eval_samples_per_second": 254.777,
	"eval_steps_per_second": 31.848,
	"step": 30000
	},
	{
	"epoch": 0.16852970266939998,
	"grad_norm": 9.527510643005371,
	"learning_rate": 2.8068479021623016e-05,
	"loss": 2.8025,
	"step": 30500
	},
	{
	"epoch": 0.17129248468037375,
	"grad_norm": 8.283650398254395,
	"learning_rate": 2.852893505728073e-05,
	"loss": 2.7871,
	"step": 31000
	},
	{
	"epoch": 0.17405526669134752,
	"grad_norm": 10.247408866882324,
	"learning_rate": 2.8989391092938447e-05,
	"loss": 2.8239,
	"step": 31500
	},
	{
	"epoch": 0.1768180487023213,
	"grad_norm": 9.047866821289062,
	"learning_rate": 2.9449847128596165e-05,
	"loss": 2.8061,
	"step": 32000
	},
	{
	"epoch": 0.17958083071329506,
	"grad_norm": 12.305429458618164,
	"learning_rate": 2.9910303164253877e-05,
	"loss": 2.7637,
	"step": 32500
	},
	{
	"epoch": 0.18234361272426883,
	"grad_norm": 8.979884147644043,
	"learning_rate": 3.0370759199911592e-05,
	"loss": 2.8169,
	"step": 33000
	},
	{
	"epoch": 0.1851063947352426,
	"grad_norm": 10.300788879394531,
	"learning_rate": 3.0830294323497995e-05,
	"loss": 2.7801,
	"step": 33500
	},
	{
	"epoch": 0.18786917674621637,
	"grad_norm": 11.265089988708496,
	"learning_rate": 3.129075035915571e-05,
	"loss": 2.7739,
	"step": 34000
	},
	{
	"epoch": 0.19063195875719013,
	"grad_norm": 7.74532413482666,
	"learning_rate": 3.1751206394813426e-05,
	"loss": 2.8098,
	"step": 34500
	},
	{
	"epoch": 0.1933947407681639,
	"grad_norm": 7.382881164550781,
	"learning_rate": 3.221166243047114e-05,
	"loss": 2.7901,
	"step": 35000
	},
	{
	"epoch": 0.1933947407681639,
	"eval_runtime": 1425.7104,
	"eval_samples_per_second": 253.876,
	"eval_steps_per_second": 31.735,
	"step": 35000
	},
	{
	"epoch": 0.19615752277913767,
	"grad_norm": 11.83242416381836,
	"learning_rate": 3.2672118466128856e-05,
	"loss": 2.7753,
	"step": 35500
	},
	{
	"epoch": 0.19892030479011144,
	"grad_norm": 7.594019412994385,
	"learning_rate": 3.313165358971525e-05,
	"loss": 2.7747,
	"step": 36000
	},
	{
	"epoch": 0.2016830868010852,
	"grad_norm": 7.169086933135986,
	"learning_rate": 3.359210962537297e-05,
	"loss": 2.7942,
	"step": 36500
	},
	{
	"epoch": 0.20444586881205898,
	"grad_norm": 9.127911567687988,
	"learning_rate": 3.405256566103069e-05,
	"loss": 2.8336,
	"step": 37000
	},
	{
	"epoch": 0.20720865082303275,
	"grad_norm": 9.519842147827148,
	"learning_rate": 3.4512100784617086e-05,
	"loss": 2.8049,
	"step": 37500
	},
	{
	"epoch": 0.20997143283400654,
	"grad_norm": 7.047683238983154,
	"learning_rate": 3.49725568202748e-05,
	"loss": 2.7987,
	"step": 38000
	},
	{
	"epoch": 0.2127342148449803,
	"grad_norm": 8.880785942077637,
	"learning_rate": 3.5433012855932516e-05,
	"loss": 2.7919,
	"step": 38500
	},
	{
	"epoch": 0.21549699685595408,
	"grad_norm": 9.917975425720215,
	"learning_rate": 3.589346889159023e-05,
	"loss": 2.8002,
	"step": 39000
	},
	{
	"epoch": 0.21825977886692785,
	"grad_norm": 8.076781272888184,
	"learning_rate": 3.6353924927247947e-05,
	"loss": 2.7868,
	"step": 39500
	},
	{
	"epoch": 0.22102256087790162,
	"grad_norm": 8.734768867492676,
	"learning_rate": 3.681438096290566e-05,
	"loss": 2.7937,
	"step": 40000
	},
	{
	"epoch": 0.22102256087790162,
	"eval_runtime": 1421.6361,
	"eval_samples_per_second": 254.603,
	"eval_steps_per_second": 31.826,
	"step": 40000
	},
	{
	"epoch": 0.2237853428888754,
	"grad_norm": 10.838555335998535,
	"learning_rate": 3.727483699856338e-05,
	"loss": 2.8301,
	"step": 40500
	},
	{
	"epoch": 0.22654812489984916,
	"grad_norm": 10.323356628417969,
	"learning_rate": 3.773529303422109e-05,
	"loss": 2.7691,
	"step": 41000
	},
	{
	"epoch": 0.22931090691082293,
	"grad_norm": 10.885273933410645,
	"learning_rate": 3.8195749069878814e-05,
	"loss": 2.8109,
	"step": 41500
	},
	{
	"epoch": 0.2320736889217967,
	"grad_norm": 7.563793659210205,
	"learning_rate": 3.865620510553652e-05,
	"loss": 2.7768,
	"step": 42000
	},
	{
	"epoch": 0.23483647093277046,
	"grad_norm": 18.850767135620117,
	"learning_rate": 3.911666114119424e-05,
	"loss": 2.8198,
	"step": 42500
	},
	{
	"epoch": 0.23759925294374423,
	"grad_norm": 6.142578601837158,
	"learning_rate": 3.957619626478064e-05,
	"loss": 2.7862,
	"step": 43000
	},
	{
	"epoch": 0.240362034954718,
	"grad_norm": 5.065933704376221,
	"learning_rate": 4.0036652300438356e-05,
	"loss": 2.7652,
	"step": 43500
	},
	{
	"epoch": 0.24312481696569177,
	"grad_norm": 7.932371139526367,
	"learning_rate": 4.049710833609607e-05,
	"loss": 2.7517,
	"step": 44000
	},
	{
	"epoch": 0.24588759897666554,
	"grad_norm": 11.972217559814453,
	"learning_rate": 4.0957564371753786e-05,
	"loss": 2.8162,
	"step": 44500
	},
	{
	"epoch": 0.2486503809876393,
	"grad_norm": 8.804488182067871,
	"learning_rate": 4.141709949534019e-05,
	"loss": 2.7491,
	"step": 45000
	},
	{
	"epoch": 0.2486503809876393,
	"eval_runtime": 1414.8499,
	"eval_samples_per_second": 255.824,
	"eval_steps_per_second": 31.979,
	"step": 45000
	},
	{
	"epoch": 0.2514131629986131,
	"grad_norm": 7.548344135284424,
	"learning_rate": 4.1877555530997905e-05,
	"loss": 2.8001,
	"step": 45500
	},
	{
	"epoch": 0.25417594500958685,
	"grad_norm": 7.751644134521484,
	"learning_rate": 4.233801156665562e-05,
	"loss": 2.7754,
	"step": 46000
	},
	{
	"epoch": 0.25693872702056064,
	"grad_norm": 7.323184013366699,
	"learning_rate": 4.2798467602313335e-05,
	"loss": 2.8117,
	"step": 46500
	},
	{
	"epoch": 0.2597015090315344,
	"grad_norm": 10.177978515625,
	"learning_rate": 4.325892363797105e-05,
	"loss": 2.7637,
	"step": 47000
	},
	{
	"epoch": 0.2624642910425082,
	"grad_norm": 9.300724029541016,
	"learning_rate": 4.3719379673628765e-05,
	"loss": 2.7798,
	"step": 47500
	},
	{
	"epoch": 0.2652270730534819,
	"grad_norm": 7.969640731811523,
	"learning_rate": 4.417983570928648e-05,
	"loss": 2.7597,
	"step": 48000
	},
	{
	"epoch": 0.2679898550644557,
	"grad_norm": 11.944114685058594,
	"learning_rate": 4.463937083287288e-05,
	"loss": 2.7944,
	"step": 48500
	},
	{
	"epoch": 0.27075263707542946,
	"grad_norm": 8.067237854003906,
	"learning_rate": 4.509982686853059e-05,
	"loss": 2.797,
	"step": 49000
	},
	{
	"epoch": 0.27351541908640326,
	"grad_norm": 8.342887878417969,
	"learning_rate": 4.5560282904188314e-05,
	"loss": 2.7753,
	"step": 49500
	},
	{
	"epoch": 0.276278201097377,
	"grad_norm": 7.031680107116699,
	"learning_rate": 4.602073893984602e-05,
	"loss": 2.7716,
	"step": 50000
	},
	{
	"epoch": 0.276278201097377,
	"eval_runtime": 1419.8091,
	"eval_samples_per_second": 254.931,
	"eval_steps_per_second": 31.867,
	"step": 50000
	},
	{
	"epoch": 0.2790409831083508,
	"grad_norm": 6.716032028198242,
	"learning_rate": 4.648119497550374e-05,
	"loss": 2.762,
	"step": 50500
	},
	{
	"epoch": 0.28180376511932453,
	"grad_norm": 6.020242214202881,
	"learning_rate": 4.694073009909014e-05,
	"loss": 2.7485,
	"step": 51000
	},
	{
	"epoch": 0.28456654713029833,
	"grad_norm": 6.298365592956543,
	"learning_rate": 4.7401186134747856e-05,
	"loss": 2.733,
	"step": 51500
	},
	{
	"epoch": 0.28732932914127207,
	"grad_norm": 11.52296257019043,
	"learning_rate": 4.786164217040557e-05,
	"loss": 2.7207,
	"step": 52000
	},
	{
	"epoch": 0.29009211115224587,
	"grad_norm": 7.5664143562316895,
	"learning_rate": 4.8322098206063286e-05,
	"loss": 2.7784,
	"step": 52500
	},
	{
	"epoch": 0.2928548931632196,
	"grad_norm": 7.839147567749023,
	"learning_rate": 4.8782554241721e-05,
	"loss": 2.75,
	"step": 53000
	},
	{
	"epoch": 0.2956176751741934,
	"grad_norm": 7.68875789642334,
	"learning_rate": 4.9242089365307405e-05,
	"loss": 2.8226,
	"step": 53500
	},
	{
	"epoch": 0.2983804571851672,
	"grad_norm": 9.220076560974121,
	"learning_rate": 4.970254540096512e-05,
	"loss": 2.7392,
	"step": 54000
	},
	{
	"epoch": 0.30114323919614094,
	"grad_norm": 6.299682140350342,
	"learning_rate": 4.998188839568023e-05,
	"loss": 2.7663,
	"step": 54500
	},
	{
	"epoch": 0.30390602120711474,
	"grad_norm": 7.302303791046143,
	"learning_rate": 4.993072567161308e-05,
	"loss": 2.7241,
	"step": 55000
	},
	{
	"epoch": 0.30390602120711474,
	"eval_runtime": 1421.4385,
	"eval_samples_per_second": 254.639,
	"eval_steps_per_second": 31.83,
	"step": 55000
	},
	{
	"epoch": 0.3066688032180885,
	"grad_norm": 7.086694240570068,
	"learning_rate": 4.9879562947545934e-05,
	"loss": 2.7075,
	"step": 55500
	},
	{
	"epoch": 0.3094315852290623,
	"grad_norm": 8.3382568359375,
	"learning_rate": 4.9828502548926916e-05,
	"loss": 2.7592,
	"step": 56000
	},
	{
	"epoch": 0.312194367240036,
	"grad_norm": 10.291159629821777,
	"learning_rate": 4.977733982485976e-05,
	"loss": 2.7674,
	"step": 56500
	},
	{
	"epoch": 0.3149571492510098,
	"grad_norm": 10.337152481079102,
	"learning_rate": 4.972617710079261e-05,
	"loss": 2.75,
	"step": 57000
	},
	{
	"epoch": 0.31771993126198356,
	"grad_norm": 5.782974720001221,
	"learning_rate": 4.9675014376725465e-05,
	"loss": 2.7324,
	"step": 57500
	},
	{
	"epoch": 0.32048271327295735,
	"grad_norm": 6.272622108459473,
	"learning_rate": 4.962385165265832e-05,
	"loss": 2.746,
	"step": 58000
	},
	{
	"epoch": 0.3232454952839311,
	"grad_norm": 6.653768539428711,
	"learning_rate": 4.957268892859116e-05,
	"loss": 2.7742,
	"step": 58500
	},
	{
	"epoch": 0.3260082772949049,
	"grad_norm": 6.433887481689453,
	"learning_rate": 4.9521526204524014e-05,
	"loss": 2.7635,
	"step": 59000
	},
	{
	"epoch": 0.32877105930587863,
	"grad_norm": 6.354071617126465,
	"learning_rate": 4.9470363480456866e-05,
	"loss": 2.7317,
	"step": 59500
	},
	{
	"epoch": 0.33153384131685243,
	"grad_norm": 7.874678611755371,
	"learning_rate": 4.941920075638972e-05,
	"loss": 2.7431,
	"step": 60000
	},
	{
	"epoch": 0.33153384131685243,
	"eval_runtime": 1414.971,
	"eval_samples_per_second": 255.802,
	"eval_steps_per_second": 31.976,
	"step": 60000
	},
	{
	"epoch": 0.33429662332782617,
	"grad_norm": 9.324529647827148,
	"learning_rate": 4.93681403577707e-05,
	"loss": 2.7606,
	"step": 60500
	},
	{
	"epoch": 0.33705940533879997,
	"grad_norm": 6.370975017547607,
	"learning_rate": 4.9316977633703545e-05,
	"loss": 2.7578,
	"step": 61000
	},
	{
	"epoch": 0.3398221873497737,
	"grad_norm": 6.50999116897583,
	"learning_rate": 4.92658149096364e-05,
	"loss": 2.7627,
	"step": 61500
	},
	{
	"epoch": 0.3425849693607475,
	"grad_norm": 6.26449728012085,
	"learning_rate": 4.921465218556925e-05,
	"loss": 2.7515,
	"step": 62000
	},
	{
	"epoch": 0.34534775137172125,
	"grad_norm": 5.123514175415039,
	"learning_rate": 4.916359178695024e-05,
	"loss": 2.7553,
	"step": 62500
	},
	{
	"epoch": 0.34811053338269504,
	"grad_norm": 7.093264102935791,
	"learning_rate": 4.911242906288308e-05,
	"loss": 2.7338,
	"step": 63000
	},
	{
	"epoch": 0.3508733153936688,
	"grad_norm": 5.520063400268555,
	"learning_rate": 4.906126633881593e-05,
	"loss": 2.7567,
	"step": 63500
	},
	{
	"epoch": 0.3536360974046426,
	"grad_norm": 6.911723613739014,
	"learning_rate": 4.901010361474878e-05,
	"loss": 2.7687,
	"step": 64000
	},
	{
	"epoch": 0.3563988794156164,
	"grad_norm": 7.70906400680542,
	"learning_rate": 4.895894089068163e-05,
	"loss": 2.7228,
	"step": 64500
	},
	{
	"epoch": 0.3591616614265901,
	"grad_norm": 6.372740745544434,
	"learning_rate": 4.890788049206262e-05,
	"loss": 2.733,
	"step": 65000
	},
	{
	"epoch": 0.3591616614265901,
	"eval_runtime": 1420.2395,
	"eval_samples_per_second": 254.854,
	"eval_steps_per_second": 31.857,
	"step": 65000
	},
	{
	"epoch": 0.3619244434375639,
	"grad_norm": 7.683312892913818,
	"learning_rate": 4.885671776799547e-05,
	"loss": 2.7507,
	"step": 65500
	},
	{
	"epoch": 0.36468722544853766,
	"grad_norm": 6.729420185089111,
	"learning_rate": 4.880555504392832e-05,
	"loss": 2.7595,
	"step": 66000
	},
	{
	"epoch": 0.36745000745951145,
	"grad_norm": 6.871359825134277,
	"learning_rate": 4.875439231986117e-05,
	"loss": 2.7179,
	"step": 66500
	},
	{
	"epoch": 0.3702127894704852,
	"grad_norm": 6.755906581878662,
	"learning_rate": 4.870343424669029e-05,
	"loss": 2.7454,
	"step": 67000
	},
	{
	"epoch": 0.372975571481459,
	"grad_norm": 5.853033065795898,
	"learning_rate": 4.865227152262313e-05,
	"loss": 2.7138,
	"step": 67500
	},
	{
	"epoch": 0.37573835349243273,
	"grad_norm": 7.575068950653076,
	"learning_rate": 4.8601108798555984e-05,
	"loss": 2.7798,
	"step": 68000
	},
	{
	"epoch": 0.3785011355034065,
	"grad_norm": 8.923949241638184,
	"learning_rate": 4.8549946074488836e-05,
	"loss": 2.7867,
	"step": 68500
	},
	{
	"epoch": 0.38126391751438027,
	"grad_norm": 6.704534530639648,
	"learning_rate": 4.849878335042168e-05,
	"loss": 2.6885,
	"step": 69000
	},
	{
	"epoch": 0.38402669952535406,
	"grad_norm": 6.3064117431640625,
	"learning_rate": 4.8447620626354533e-05,
	"loss": 2.75,
	"step": 69500
	},
	{
	"epoch": 0.3867894815363278,
	"grad_norm": 5.934976100921631,
	"learning_rate": 4.8396457902287385e-05,
	"loss": 2.7623,
	"step": 70000
	},
	{
	"epoch": 0.3867894815363278,
	"eval_runtime": 1418.267,
	"eval_samples_per_second": 255.208,
	"eval_steps_per_second": 31.902,
	"step": 70000
	},
	{
	"epoch": 0.3895522635473016,
	"grad_norm": 8.18109130859375,
	"learning_rate": 4.834529517822024e-05,
	"loss": 2.7414,
	"step": 70500
	},
	{
	"epoch": 0.39231504555827534,
	"grad_norm": 5.952932834625244,
	"learning_rate": 4.829413245415308e-05,
	"loss": 2.7224,
	"step": 71000
	},
	{
	"epoch": 0.39507782756924914,
	"grad_norm": 6.907143592834473,
	"learning_rate": 4.824307205553407e-05,
	"loss": 2.7661,
	"step": 71500
	},
	{
	"epoch": 0.3978406095802229,
	"grad_norm": 6.694629192352295,
	"learning_rate": 4.8191909331466916e-05,
	"loss": 2.7454,
	"step": 72000
	},
	{
	"epoch": 0.4006033915911967,
	"grad_norm": 6.9917192459106445,
	"learning_rate": 4.814074660739977e-05,
	"loss": 2.7164,
	"step": 72500
	},
	{
	"epoch": 0.4033661736021704,
	"grad_norm": 7.304172992706299,
	"learning_rate": 4.808958388333262e-05,
	"loss": 2.7476,
	"step": 73000
	},
	{
	"epoch": 0.4061289556131442,
	"grad_norm": 9.685128211975098,
	"learning_rate": 4.8038421159265465e-05,
	"loss": 2.7332,
	"step": 73500
	},
	{
	"epoch": 0.40889173762411796,
	"grad_norm": 5.05424165725708,
	"learning_rate": 4.798725843519832e-05,
	"loss": 2.7229,
	"step": 74000
	},
	{
	"epoch": 0.41165451963509175,
	"grad_norm": 6.11020040512085,
	"learning_rate": 4.7936198036579306e-05,
	"loss": 2.75,
	"step": 74500
	},
	{
	"epoch": 0.4144173016460655,
	"grad_norm": 5.443029403686523,
	"learning_rate": 4.788503531251216e-05,
	"loss": 2.7217,
	"step": 75000
	},
	{
	"epoch": 0.4144173016460655,
	"eval_runtime": 1418.9418,
	"eval_samples_per_second": 255.087,
	"eval_steps_per_second": 31.886,
	"step": 75000
	},
	{
	"epoch": 0.4171800836570393,
	"grad_norm": 6.66157865524292,
	"learning_rate": 4.7833872588445e-05,
	"loss": 2.6993,
	"step": 75500
	},
	{
	"epoch": 0.4199428656680131,
	"grad_norm": 6.773935317993164,
	"learning_rate": 4.7782709864377855e-05,
	"loss": 2.7365,
	"step": 76000
	},
	{
	"epoch": 0.42270564767898683,
	"grad_norm": 5.710464000701904,
	"learning_rate": 4.77315471403107e-05,
	"loss": 2.7073,
	"step": 76500
	},
	{
	"epoch": 0.4254684296899606,
	"grad_norm": 5.999380111694336,
	"learning_rate": 4.768048674169169e-05,
	"loss": 2.7089,
	"step": 77000
	},
	{
	"epoch": 0.42823121170093437,
	"grad_norm": 12.620460510253906,
	"learning_rate": 4.762932401762454e-05,
	"loss": 2.7287,
	"step": 77500
	},
	{
	"epoch": 0.43099399371190816,
	"grad_norm": 5.68431282043457,
	"learning_rate": 4.7578161293557385e-05,
	"loss": 2.7433,
	"step": 78000
	},
	{
	"epoch": 0.4337567757228819,
	"grad_norm": 4.173344135284424,
	"learning_rate": 4.752699856949024e-05,
	"loss": 2.7507,
	"step": 78500
	},
	{
	"epoch": 0.4365195577338557,
	"grad_norm": 7.130237579345703,
	"learning_rate": 4.747583584542309e-05,
	"loss": 2.6849,
	"step": 79000
	},
	{
	"epoch": 0.43928233974482944,
	"grad_norm": 7.622902870178223,
	"learning_rate": 4.742467312135594e-05,
	"loss": 2.7398,
	"step": 79500
	},
	{
	"epoch": 0.44204512175580324,
	"grad_norm": 6.098598003387451,
	"learning_rate": 4.7373510397288787e-05,
	"loss": 2.7279,
	"step": 80000
	},
	{
	"epoch": 0.44204512175580324,
	"eval_runtime": 1421.1349,
	"eval_samples_per_second": 254.693,
	"eval_steps_per_second": 31.837,
	"step": 80000
	},
	{
	"epoch": 0.444807903766777,
	"grad_norm": 5.454360485076904,
	"learning_rate": 4.732234767322164e-05,
	"loss": 2.7256,
	"step": 80500
	},
	{
	"epoch": 0.4475706857777508,
	"grad_norm": 9.29869556427002,
	"learning_rate": 4.727128727460262e-05,
	"loss": 2.7272,
	"step": 81000
	},
	{
	"epoch": 0.4503334677887245,
	"grad_norm": 10.766260147094727,
	"learning_rate": 4.722012455053547e-05,
	"loss": 2.7266,
	"step": 81500
	},
	{
	"epoch": 0.4530962497996983,
	"grad_norm": 5.04358434677124,
	"learning_rate": 4.7168961826468324e-05,
	"loss": 2.6443,
	"step": 82000
	},
	{
	"epoch": 0.45585903181067206,
	"grad_norm": 6.527529716491699,
	"learning_rate": 4.711779910240117e-05,
	"loss": 2.7191,
	"step": 82500
	},
	{
	"epoch": 0.45862181382164585,
	"grad_norm": 4.683417797088623,
	"learning_rate": 4.706673870378215e-05,
	"loss": 2.7299,
	"step": 83000
	},
	{
	"epoch": 0.4613845958326196,
	"grad_norm": 6.090554237365723,
	"learning_rate": 4.7015575979715e-05,
	"loss": 2.759,
	"step": 83500
	},
	{
	"epoch": 0.4641473778435934,
	"grad_norm": 6.470883369445801,
	"learning_rate": 4.6964413255647855e-05,
	"loss": 2.734,
	"step": 84000
	},
	{
	"epoch": 0.46691015985456713,
	"grad_norm": 8.398398399353027,
	"learning_rate": 4.691325053158071e-05,
	"loss": 2.7007,
	"step": 84500
	},
	{
	"epoch": 0.4696729418655409,
	"grad_norm": 5.122215270996094,
	"learning_rate": 4.686208780751355e-05,
	"loss": 2.6983,
	"step": 85000
	},
	{
	"epoch": 0.4696729418655409,
	"eval_runtime": 1425.8823,
	"eval_samples_per_second": 253.845,
	"eval_steps_per_second": 31.731,
	"step": 85000
	},
	{
	"epoch": 0.47243572387651467,
	"grad_norm": 5.900498867034912,
	"learning_rate": 4.681102740889454e-05,
	"loss": 2.7391,
	"step": 85500
	},
	{
	"epoch": 0.47519850588748846,
	"grad_norm": 8.789809226989746,
	"learning_rate": 4.6759864684827386e-05,
	"loss": 2.6843,
	"step": 86000
	},
	{
	"epoch": 0.47796128789846226,
	"grad_norm": 10.296858787536621,
	"learning_rate": 4.670870196076024e-05,
	"loss": 2.7054,
	"step": 86500
	},
	{
	"epoch": 0.480724069909436,
	"grad_norm": 7.866740703582764,
	"learning_rate": 4.665753923669309e-05,
	"loss": 2.7313,
	"step": 87000
	},
	{
	"epoch": 0.4834868519204098,
	"grad_norm": 5.662039756774902,
	"learning_rate": 4.660647883807408e-05,
	"loss": 2.6513,
	"step": 87500
	},
	{
	"epoch": 0.48624963393138354,
	"grad_norm": 6.773980617523193,
	"learning_rate": 4.655531611400692e-05,
	"loss": 2.7071,
	"step": 88000
	},
	{
	"epoch": 0.48901241594235734,
	"grad_norm": 9.490970611572266,
	"learning_rate": 4.6504153389939775e-05,
	"loss": 2.7469,
	"step": 88500
	},
	{
	"epoch": 0.4917751979533311,
	"grad_norm": 6.021182537078857,
	"learning_rate": 4.645299066587263e-05,
	"loss": 2.7378,
	"step": 89000
	},
	{
	"epoch": 0.4945379799643049,
	"grad_norm": 6.2784271240234375,
	"learning_rate": 4.640182794180548e-05,
	"loss": 2.691,
	"step": 89500
	},
	{
	"epoch": 0.4973007619752786,
	"grad_norm": 6.208467960357666,
	"learning_rate": 4.635076754318646e-05,
	"loss": 2.6986,
	"step": 90000
	},
	{
	"epoch": 0.4973007619752786,
	"eval_runtime": 1416.7509,
	"eval_samples_per_second": 255.481,
	"eval_steps_per_second": 31.936,
	"step": 90000
	},
	{
	"epoch": 0.5000635439862524,
	"grad_norm": 7.096754550933838,
	"learning_rate": 4.6299604819119306e-05,
	"loss": 2.7249,
	"step": 90500
	},
	{
	"epoch": 0.5028263259972262,
	"grad_norm": 6.615260601043701,
	"learning_rate": 4.624844209505216e-05,
	"loss": 2.691,
	"step": 91000
	},
	{
	"epoch": 0.5055891080081999,
	"grad_norm": 5.5422043800354,
	"learning_rate": 4.619727937098501e-05,
	"loss": 2.7257,
	"step": 91500
	},
	{
	"epoch": 0.5083518900191737,
	"grad_norm": 6.378222465515137,
	"learning_rate": 4.614621897236599e-05,
	"loss": 2.7359,
	"step": 92000
	},
	{
	"epoch": 0.5111146720301475,
	"grad_norm": 7.653573513031006,
	"learning_rate": 4.609505624829884e-05,
	"loss": 2.7233,
	"step": 92500
	},
	{
	"epoch": 0.5138774540411213,
	"grad_norm": 8.169157981872559,
	"learning_rate": 4.604389352423169e-05,
	"loss": 2.6786,
	"step": 93000
	},
	{
	"epoch": 0.516640236052095,
	"grad_norm": 6.562656402587891,
	"learning_rate": 4.599273080016454e-05,
	"loss": 2.705,
	"step": 93500
	},
	{
	"epoch": 0.5194030180630688,
	"grad_norm": 5.986241340637207,
	"learning_rate": 4.594167040154553e-05,
	"loss": 2.717,
	"step": 94000
	},
	{
	"epoch": 0.5221658000740426,
	"grad_norm": 6.135688304901123,
	"learning_rate": 4.589061000292651e-05,
	"loss": 2.6973,
	"step": 94500
	},
	{
	"epoch": 0.5249285820850164,
	"grad_norm": 5.69881534576416,
	"learning_rate": 4.583944727885936e-05,
	"loss": 2.7153,
	"step": 95000
	},
	{
	"epoch": 0.5249285820850164,
	"eval_runtime": 1415.9132,
	"eval_samples_per_second": 255.632,
	"eval_steps_per_second": 31.955,
	"step": 95000
	},
	{
	"epoch": 0.52769136409599,
	"grad_norm": 11.074015617370605,
	"learning_rate": 4.578828455479221e-05,
	"loss": 2.7301,
	"step": 95500
	},
	{
	"epoch": 0.5304541461069638,
	"grad_norm": 4.483022212982178,
	"learning_rate": 4.573712183072506e-05,
	"loss": 2.6829,
	"step": 96000
	},
	{
	"epoch": 0.5332169281179376,
	"grad_norm": 5.1948561668396,
	"learning_rate": 4.568595910665791e-05,
	"loss": 2.7031,
	"step": 96500
	},
	{
	"epoch": 0.5359797101289114,
	"grad_norm": 7.523544788360596,
	"learning_rate": 4.5634796382590763e-05,
	"loss": 2.75,
	"step": 97000
	},
	{
	"epoch": 0.5387424921398852,
	"grad_norm": 7.069555282592773,
	"learning_rate": 4.558363365852361e-05,
	"loss": 2.7049,
	"step": 97500
	},
	{
	"epoch": 0.5415052741508589,
	"grad_norm": 9.187417984008789,
	"learning_rate": 4.553247093445646e-05,
	"loss": 2.7008,
	"step": 98000
	},
	{
	"epoch": 0.5442680561618327,
	"grad_norm": 6.571780204772949,
	"learning_rate": 4.548141053583744e-05,
	"loss": 2.6672,
	"step": 98500
	},
	{
	"epoch": 0.5470308381728065,
	"grad_norm": 6.857777118682861,
	"learning_rate": 4.5430247811770294e-05,
	"loss": 2.6805,
	"step": 99000
	},
	{
	"epoch": 0.5497936201837803,
	"grad_norm": 4.911254405975342,
	"learning_rate": 4.5379085087703146e-05,
	"loss": 2.7083,
	"step": 99500
	},
	{
	"epoch": 0.552556402194754,
	"grad_norm": 6.255260467529297,
	"learning_rate": 4.532792236363599e-05,
	"loss": 2.7035,
	"step": 100000
	},
	{
	"epoch": 0.552556402194754,
	"eval_runtime": 1418.8162,
	"eval_samples_per_second": 255.109,
	"eval_steps_per_second": 31.889,
	"step": 100000
	},
	{
	"epoch": 0.5553191842057278,
	"grad_norm": 5.266800403594971,
	"learning_rate": 4.527686196501697e-05,
	"loss": 2.7331,
	"step": 100500
	},
	{
	"epoch": 0.5580819662167016,
	"grad_norm": 5.317836284637451,
	"learning_rate": 4.5225699240949825e-05,
	"loss": 2.7293,
	"step": 101000
	},
	{
	"epoch": 0.5608447482276754,
	"grad_norm": 6.019017219543457,
	"learning_rate": 4.517453651688268e-05,
	"loss": 2.6752,
	"step": 101500
	},
	{
	"epoch": 0.5636075302386491,
	"grad_norm": 9.754213333129883,
	"learning_rate": 4.512337379281553e-05,
	"loss": 2.7048,
	"step": 102000
	},
	{
	"epoch": 0.5663703122496229,
	"grad_norm": 5.172014236450195,
	"learning_rate": 4.507231339419651e-05,
	"loss": 2.6733,
	"step": 102500
	},
	{
	"epoch": 0.5691330942605967,
	"grad_norm": 23.669513702392578,
	"learning_rate": 4.502115067012936e-05,
	"loss": 2.6909,
	"step": 103000
	},
	{
	"epoch": 0.5718958762715705,
	"grad_norm": 4.895296573638916,
	"learning_rate": 4.4969987946062214e-05,
	"loss": 2.6816,
	"step": 103500
	},
	{
	"epoch": 0.5746586582825441,
	"grad_norm": 6.87628173828125,
	"learning_rate": 4.4918825221995066e-05,
	"loss": 2.7055,
	"step": 104000
	},
	{
	"epoch": 0.5774214402935179,
	"grad_norm": 6.831465721130371,
	"learning_rate": 4.486776482337605e-05,
	"loss": 2.6939,
	"step": 104500
	},
	{
	"epoch": 0.5801842223044917,
	"grad_norm": 6.297806739807129,
	"learning_rate": 4.481670442475703e-05,
	"loss": 2.7159,
	"step": 105000
	},
	{
	"epoch": 0.5801842223044917,
	"eval_runtime": 1418.3876,
	"eval_samples_per_second": 255.186,
	"eval_steps_per_second": 31.899,
	"step": 105000
	},
	{
	"epoch": 0.5829470043154655,
	"grad_norm": 5.875136852264404,
	"learning_rate": 4.4765541700689875e-05,
	"loss": 2.6865,
	"step": 105500
	},
	{
	"epoch": 0.5857097863264392,
	"grad_norm": 7.282098770141602,
	"learning_rate": 4.471437897662273e-05,
	"loss": 2.6504,
	"step": 106000
	},
	{
	"epoch": 0.588472568337413,
	"grad_norm": 7.123196125030518,
	"learning_rate": 4.466321625255558e-05,
	"loss": 2.6962,
	"step": 106500
	},
	{
	"epoch": 0.5912353503483868,
	"grad_norm": 5.343898296356201,
	"learning_rate": 4.461205352848843e-05,
	"loss": 2.6918,
	"step": 107000
	},
	{
	"epoch": 0.5939981323593606,
	"grad_norm": 7.826199054718018,
	"learning_rate": 4.4560890804421276e-05,
	"loss": 2.7273,
	"step": 107500
	},
	{
	"epoch": 0.5967609143703344,
	"grad_norm": 4.318883895874023,
	"learning_rate": 4.4509830405802264e-05,
	"loss": 2.7267,
	"step": 108000
	},
	{
	"epoch": 0.5995236963813081,
	"grad_norm": 7.37441873550415,
	"learning_rate": 4.4458667681735116e-05,
	"loss": 2.6595,
	"step": 108500
	},
	{
	"epoch": 0.6022864783922819,
	"grad_norm": 8.249720573425293,
	"learning_rate": 4.440750495766797e-05,
	"loss": 2.7001,
	"step": 109000
	},
	{
	"epoch": 0.6050492604032557,
	"grad_norm": 7.008593559265137,
	"learning_rate": 4.435634223360081e-05,
	"loss": 2.6998,
	"step": 109500
	},
	{
	"epoch": 0.6078120424142295,
	"grad_norm": 5.00942850112915,
	"learning_rate": 4.430517950953366e-05,
	"loss": 2.6903,
	"step": 110000
	},
	{
	"epoch": 0.6078120424142295,
	"eval_runtime": 1419.9436,
	"eval_samples_per_second": 254.907,
	"eval_steps_per_second": 31.864,
	"step": 110000
	},
	{
	"epoch": 0.6105748244252032,
	"grad_norm": 9.650525093078613,
	"learning_rate": 4.425401678546651e-05,
	"loss": 2.6904,
	"step": 110500
	},
	{
	"epoch": 0.613337606436177,
	"grad_norm": 8.574694633483887,
	"learning_rate": 4.420285406139936e-05,
	"loss": 2.7113,
	"step": 111000
	},
	{
	"epoch": 0.6161003884471508,
	"grad_norm": 8.437103271484375,
	"learning_rate": 4.4151691337332214e-05,
	"loss": 2.6072,
	"step": 111500
	},
	{
	"epoch": 0.6188631704581246,
	"grad_norm": 7.744716167449951,
	"learning_rate": 4.41006309387132e-05,
	"loss": 2.6759,
	"step": 112000
	},
	{
	"epoch": 0.6216259524690982,
	"grad_norm": 6.564632892608643,
	"learning_rate": 4.404946821464605e-05,
	"loss": 2.6762,
	"step": 112500
	},
	{
	"epoch": 0.624388734480072,
	"grad_norm": 8.12996768951416,
	"learning_rate": 4.39983054905789e-05,
	"loss": 2.6773,
	"step": 113000
	},
	{
	"epoch": 0.6271515164910458,
	"grad_norm": 10.49181842803955,
	"learning_rate": 4.394714276651175e-05,
	"loss": 2.7151,
	"step": 113500
	},
	{
	"epoch": 0.6299142985020196,
	"grad_norm": 10.710319519042969,
	"learning_rate": 4.3896082367892734e-05,
	"loss": 2.6788,
	"step": 114000
	},
	{
	"epoch": 0.6326770805129933,
	"grad_norm": 4.202202796936035,
	"learning_rate": 4.3844919643825586e-05,
	"loss": 2.7281,
	"step": 114500
	},
	{
	"epoch": 0.6354398625239671,
	"grad_norm": 5.33767557144165,
	"learning_rate": 4.379375691975843e-05,
	"loss": 2.7071,
	"step": 115000
	},
	{
	"epoch": 0.6354398625239671,
	"eval_runtime": 1417.9967,
	"eval_samples_per_second": 255.257,
	"eval_steps_per_second": 31.908,
	"step": 115000
	},
	{
	"epoch": 0.6382026445349409,
	"grad_norm": 7.461055278778076,
	"learning_rate": 4.374259419569128e-05,
	"loss": 2.7429,
	"step": 115500
	},
	{
	"epoch": 0.6409654265459147,
	"grad_norm": 5.790754318237305,
	"learning_rate": 4.3691533797072264e-05,
	"loss": 2.6729,
	"step": 116000
	},
	{
	"epoch": 0.6437282085568884,
	"grad_norm": 6.799173831939697,
	"learning_rate": 4.3640371073005116e-05,
	"loss": 2.6795,
	"step": 116500
	},
	{
	"epoch": 0.6464909905678622,
	"grad_norm": 8.002934455871582,
	"learning_rate": 4.358920834893797e-05,
	"loss": 2.7077,
	"step": 117000
	},
	{
	"epoch": 0.649253772578836,
	"grad_norm": 6.33392858505249,
	"learning_rate": 4.353814795031895e-05,
	"loss": 2.67,
	"step": 117500
	},
	{
	"epoch": 0.6520165545898098,
	"grad_norm": 7.54648494720459,
	"learning_rate": 4.34869852262518e-05,
	"loss": 2.703,
	"step": 118000
	},
	{
	"epoch": 0.6547793366007836,
	"grad_norm": 6.37369441986084,
	"learning_rate": 4.343582250218465e-05,
	"loss": 2.7147,
	"step": 118500
	},
	{
	"epoch": 0.6575421186117573,
	"grad_norm": 6.073976516723633,
	"learning_rate": 4.33846597781175e-05,
	"loss": 2.6448,
	"step": 119000
	},
	{
	"epoch": 0.6603049006227311,
	"grad_norm": 6.560715675354004,
	"learning_rate": 4.333349705405035e-05,
	"loss": 2.6999,
	"step": 119500
	},
	{
	"epoch": 0.6630676826337049,
	"grad_norm": 5.832411766052246,
	"learning_rate": 4.3282334329983196e-05,
	"loss": 2.6517,
	"step": 120000
	},
	{
	"epoch": 0.6630676826337049,
	"eval_runtime": 1414.7946,
	"eval_samples_per_second": 255.834,
	"eval_steps_per_second": 31.98,
	"step": 120000
	},
	{
	"epoch": 0.6658304646446787,
	"grad_norm": 7.141829490661621,
	"learning_rate": 4.323117160591605e-05,
	"loss": 2.6821,
	"step": 120500
	},
	{
	"epoch": 0.6685932466556523,
	"grad_norm": 10.832301139831543,
	"learning_rate": 4.31800088818489e-05,
	"loss": 2.6649,
	"step": 121000
	},
	{
	"epoch": 0.6713560286666261,
	"grad_norm": 6.108252048492432,
	"learning_rate": 4.312894848322989e-05,
	"loss": 2.6853,
	"step": 121500
	},
	{
	"epoch": 0.6741188106775999,
	"grad_norm": 6.897459983825684,
	"learning_rate": 4.3077785759162734e-05,
	"loss": 2.7084,
	"step": 122000
	},
	{
	"epoch": 0.6768815926885737,
	"grad_norm": 7.211142063140869,
	"learning_rate": 4.3026623035095586e-05,
	"loss": 2.7029,
	"step": 122500
	},
	{
	"epoch": 0.6796443746995474,
	"grad_norm": 6.063936710357666,
	"learning_rate": 4.297546031102843e-05,
	"loss": 2.6938,
	"step": 123000
	},
	{
	"epoch": 0.6824071567105212,
	"grad_norm": 7.535489082336426,
	"learning_rate": 4.292439991240942e-05,
	"loss": 2.71,
	"step": 123500
	},
	{
	"epoch": 0.685169938721495,
	"grad_norm": 6.275320529937744,
	"learning_rate": 4.287323718834227e-05,
	"loss": 2.6889,
	"step": 124000
	},
	{
	"epoch": 0.6879327207324688,
	"grad_norm": 5.57111930847168,
	"learning_rate": 4.2822074464275116e-05,
	"loss": 2.6347,
	"step": 124500
	},
	{
	"epoch": 0.6906955027434425,
	"grad_norm": 5.227652072906494,
	"learning_rate": 4.277091174020797e-05,
	"loss": 2.6816,
	"step": 125000
	},
	{
	"epoch": 0.6906955027434425,
	"eval_runtime": 1444.2501,
	"eval_samples_per_second": 250.617,
	"eval_steps_per_second": 31.328,
	"step": 125000
	},
	{
	"epoch": 0.6934582847544163,
	"grad_norm": 3.870896339416504,
	"learning_rate": 4.271974901614082e-05,
	"loss": 2.6564,
	"step": 125500
	},
	{
	"epoch": 0.6962210667653901,
	"grad_norm": 5.954395771026611,
	"learning_rate": 4.26686886175218e-05,
	"loss": 2.7183,
	"step": 126000
	},
	{
	"epoch": 0.6989838487763639,
	"grad_norm": 5.926782131195068,
	"learning_rate": 4.2617525893454654e-05,
	"loss": 2.7013,
	"step": 126500
	},
	{
	"epoch": 0.7017466307873376,
	"grad_norm": 6.156914710998535,
	"learning_rate": 4.25663631693875e-05,
	"loss": 2.6723,
	"step": 127000
	},
	{
	"epoch": 0.7045094127983114,
	"grad_norm": 5.73563289642334,
	"learning_rate": 4.251520044532035e-05,
	"loss": 2.7047,
	"step": 127500
	},
	{
	"epoch": 0.7072721948092852,
	"grad_norm": 6.068446636199951,
	"learning_rate": 4.246414004670133e-05,
	"loss": 2.6729,
	"step": 128000
	},
	{
	"epoch": 0.710034976820259,
	"grad_norm": 6.130403995513916,
	"learning_rate": 4.2412977322634185e-05,
	"loss": 2.7039,
	"step": 128500
	},
	{
	"epoch": 0.7127977588312328,
	"grad_norm": 5.924908638000488,
	"learning_rate": 4.236191692401517e-05,
	"loss": 2.7127,
	"step": 129000
	},
	{
	"epoch": 0.7155605408422064,
	"grad_norm": 7.866479396820068,
	"learning_rate": 4.2310754199948025e-05,
	"loss": 2.644,
	"step": 129500
	},
	{
	"epoch": 0.7183233228531802,
	"grad_norm": 6.398780345916748,
	"learning_rate": 4.225959147588087e-05,
	"loss": 2.7028,
	"step": 130000
	},
	{
	"epoch": 0.7183233228531802,
	"eval_runtime": 1453.3668,
	"eval_samples_per_second": 249.044,
	"eval_steps_per_second": 31.131,
	"step": 130000
	},
	{
	"epoch": 0.721086104864154,
	"grad_norm": 7.091272830963135,
	"learning_rate": 4.220842875181372e-05,
	"loss": 2.6944,
	"step": 130500
	},
	{
	"epoch": 0.7238488868751278,
	"grad_norm": 6.755273342132568,
	"learning_rate": 4.2157266027746574e-05,
	"loss": 2.7319,
	"step": 131000
	},
	{
	"epoch": 0.7266116688861015,
	"grad_norm": 7.107387065887451,
	"learning_rate": 4.2106103303679426e-05,
	"loss": 2.686,
	"step": 131500
	},
	{
	"epoch": 0.7293744508970753,
	"grad_norm": 5.511538982391357,
	"learning_rate": 4.205494057961227e-05,
	"loss": 2.7141,
	"step": 132000
	},
	{
	"epoch": 0.7321372329080491,
	"grad_norm": 6.616804599761963,
	"learning_rate": 4.2003777855545116e-05,
	"loss": 2.6817,
	"step": 132500
	},
	{
	"epoch": 0.7349000149190229,
	"grad_norm": 5.216026782989502,
	"learning_rate": 4.1952717456926105e-05,
	"loss": 2.6844,
	"step": 133000
	},
	{
	"epoch": 0.7376627969299966,
	"grad_norm": 6.271154880523682,
	"learning_rate": 4.190155473285896e-05,
	"loss": 2.6845,
	"step": 133500
	},
	{
	"epoch": 0.7404255789409704,
	"grad_norm": 7.05709981918335,
	"learning_rate": 4.185039200879181e-05,
	"loss": 2.6943,
	"step": 134000
	},
	{
	"epoch": 0.7431883609519442,
	"grad_norm": 8.08059024810791,
	"learning_rate": 4.1799229284724654e-05,
	"loss": 2.6897,
	"step": 134500
	},
	{
	"epoch": 0.745951142962918,
	"grad_norm": 9.127315521240234,
	"learning_rate": 4.1748066560657506e-05,
	"loss": 2.7364,
	"step": 135000
	},
	{
	"epoch": 0.745951142962918,
	"eval_runtime": 1433.8013,
	"eval_samples_per_second": 252.443,
	"eval_steps_per_second": 31.556,
	"step": 135000
	},
	{
	"epoch": 0.7487139249738917,
	"grad_norm": 6.763530254364014,
	"learning_rate": 4.169700616203849e-05,
	"loss": 2.6775,
	"step": 135500
	},
	{
	"epoch": 0.7514767069848655,
	"grad_norm": 7.9728617668151855,
	"learning_rate": 4.164584343797134e-05,
	"loss": 2.6517,
	"step": 136000
	},
	{
	"epoch": 0.7542394889958393,
	"grad_norm": 6.352534294128418,
	"learning_rate": 4.159468071390419e-05,
	"loss": 2.6726,
	"step": 136500
	},
	{
	"epoch": 0.757002271006813,
	"grad_norm": 8.01561450958252,
	"learning_rate": 4.154351798983704e-05,
	"loss": 2.656,
	"step": 137000
	},
	{
	"epoch": 0.7597650530177867,
	"grad_norm": 4.679101467132568,
	"learning_rate": 4.149245759121802e-05,
	"loss": 2.6909,
	"step": 137500
	},
	{
	"epoch": 0.7625278350287605,
	"grad_norm": 8.915389060974121,
	"learning_rate": 4.144129486715087e-05,
	"loss": 2.7239,
	"step": 138000
	},
	{
	"epoch": 0.7652906170397343,
	"grad_norm": 9.970344543457031,
	"learning_rate": 4.139013214308372e-05,
	"loss": 2.6624,
	"step": 138500
	},
	{
	"epoch": 0.7680533990507081,
	"grad_norm": 4.899960994720459,
	"learning_rate": 4.1338969419016574e-05,
	"loss": 2.6651,
	"step": 139000
	},
	{
	"epoch": 0.7708161810616819,
	"grad_norm": 6.549561023712158,
	"learning_rate": 4.128780669494942e-05,
	"loss": 2.6871,
	"step": 139500
	},
	{
	"epoch": 0.7735789630726556,
	"grad_norm": 9.052062034606934,
	"learning_rate": 4.123674629633041e-05,
	"loss": 2.6841,
	"step": 140000
	},
	{
	"epoch": 0.7735789630726556,
	"eval_runtime": 1389.3693,
	"eval_samples_per_second": 260.516,
	"eval_steps_per_second": 32.565,
	"step": 140000
	},
	{
	"epoch": 0.7763417450836294,
	"grad_norm": 9.36550521850586,
	"learning_rate": 4.118558357226326e-05,
	"loss": 2.6732,
	"step": 140500
	},
	{
	"epoch": 0.7791045270946032,
	"grad_norm": 6.052969932556152,
	"learning_rate": 4.113442084819611e-05,
	"loss": 2.6642,
	"step": 141000
	},
	{
	"epoch": 0.781867309105577,
	"grad_norm": 5.193731307983398,
	"learning_rate": 4.108325812412896e-05,
	"loss": 2.6776,
	"step": 141500
	},
	{
	"epoch": 0.7846300911165507,
	"grad_norm": 7.808539390563965,
	"learning_rate": 4.10320954000618e-05,
	"loss": 2.6496,
	"step": 142000
	},
	{
	"epoch": 0.7873928731275245,
	"grad_norm": 6.747580051422119,
	"learning_rate": 4.098103500144279e-05,
	"loss": 2.6942,
	"step": 142500
	},
	{
	"epoch": 0.7901556551384983,
	"grad_norm": 7.423492908477783,
	"learning_rate": 4.092987227737564e-05,
	"loss": 2.7079,
	"step": 143000
	},
	{
	"epoch": 0.7929184371494721,
	"grad_norm": 8.380352973937988,
	"learning_rate": 4.0878709553308494e-05,
	"loss": 2.7226,
	"step": 143500
	},
	{
	"epoch": 0.7956812191604458,
	"grad_norm": 5.976553440093994,
	"learning_rate": 4.082754682924134e-05,
	"loss": 2.6531,
	"step": 144000
	},
	{
	"epoch": 0.7984440011714196,
	"grad_norm": 6.945559024810791,
	"learning_rate": 4.077648643062232e-05,
	"loss": 2.6888,
	"step": 144500
	},
	{
	"epoch": 0.8012067831823934,
	"grad_norm": 5.81919002532959,
	"learning_rate": 4.072532370655517e-05,
	"loss": 2.7122,
	"step": 145000
	},
	{
	"epoch": 0.8012067831823934,
	"eval_runtime": 1417.5368,
	"eval_samples_per_second": 255.339,
	"eval_steps_per_second": 31.918,
	"step": 145000
	},
	{
	"epoch": 0.8039695651933672,
	"grad_norm": 4.8362908363342285,
	"learning_rate": 4.0674160982488025e-05,
	"loss": 2.7026,
	"step": 145500
	},
	{
	"epoch": 0.8067323472043408,
	"grad_norm": 5.70801305770874,
	"learning_rate": 4.062299825842088e-05,
	"loss": 2.676,
	"step": 146000
	},
	{
	"epoch": 0.8094951292153146,
	"grad_norm": 5.2062811851501465,
	"learning_rate": 4.057193785980186e-05,
	"loss": 2.6539,
	"step": 146500
	},
	{
	"epoch": 0.8122579112262884,
	"grad_norm": 7.768016815185547,
	"learning_rate": 4.0520775135734704e-05,
	"loss": 2.6562,
	"step": 147000
	},
	{
	"epoch": 0.8150206932372622,
	"grad_norm": 5.368041515350342,
	"learning_rate": 4.0469612411667556e-05,
	"loss": 2.6276,
	"step": 147500
	},
	{
	"epoch": 0.8177834752482359,
	"grad_norm": 8.40014934539795,
	"learning_rate": 4.041844968760041e-05,
	"loss": 2.6833,
	"step": 148000
	},
	{
	"epoch": 0.8205462572592097,
	"grad_norm": 5.6016740798950195,
	"learning_rate": 4.036728696353326e-05,
	"loss": 2.6668,
	"step": 148500
	},
	{
	"epoch": 0.8233090392701835,
	"grad_norm": 7.395069599151611,
	"learning_rate": 4.031622656491424e-05,
	"loss": 2.6534,
	"step": 149000
	},
	{
	"epoch": 0.8260718212811573,
	"grad_norm": 6.262421607971191,
	"learning_rate": 4.026506384084709e-05,
	"loss": 2.6487,
	"step": 149500
	},
	{
	"epoch": 0.828834603292131,
	"grad_norm": 5.546928882598877,
	"learning_rate": 4.0213901116779945e-05,
	"loss": 2.678,
	"step": 150000
	},
	{
	"epoch": 0.828834603292131,
	"eval_runtime": 1413.0655,
	"eval_samples_per_second": 256.147,
	"eval_steps_per_second": 32.019,
	"step": 150000
	},
	{
	"epoch": 0.8315973853031048,
	"grad_norm": 6.29634428024292,
	"learning_rate": 4.01627383927128e-05,
	"loss": 2.7104,
	"step": 150500
	},
	{
	"epoch": 0.8343601673140786,
	"grad_norm": 8.511784553527832,
	"learning_rate": 4.011167799409378e-05,
	"loss": 2.6784,
	"step": 151000
	},
	{
	"epoch": 0.8371229493250524,
	"grad_norm": 6.0729451179504395,
	"learning_rate": 4.0060515270026624e-05,
	"loss": 2.6968,
	"step": 151500
	},
	{
	"epoch": 0.8398857313360262,
	"grad_norm": 4.513732433319092,
	"learning_rate": 4.0009352545959476e-05,
	"loss": 2.661,
	"step": 152000
	},
	{
	"epoch": 0.8426485133469999,
	"grad_norm": 7.522515773773193,
	"learning_rate": 3.995818982189233e-05,
	"loss": 2.6892,
	"step": 152500
	},
	{
	"epoch": 0.8454112953579737,
	"grad_norm": 13.848055839538574,
	"learning_rate": 3.990712942327331e-05,
	"loss": 2.6444,
	"step": 153000
	},
	{
	"epoch": 0.8481740773689475,
	"grad_norm": 7.082030296325684,
	"learning_rate": 3.985596669920616e-05,
	"loss": 2.6872,
	"step": 153500
	},
	{
	"epoch": 0.8509368593799213,
	"grad_norm": 7.098601818084717,
	"learning_rate": 3.980480397513901e-05,
	"loss": 2.6684,
	"step": 154000
	},
	{
	"epoch": 0.8536996413908949,
	"grad_norm": 5.784538269042969,
	"learning_rate": 3.975364125107186e-05,
	"loss": 2.7026,
	"step": 154500
	},
	{
	"epoch": 0.8564624234018687,
	"grad_norm": 7.91291618347168,
	"learning_rate": 3.970258085245285e-05,
	"loss": 2.7019,
	"step": 155000
	},
	{
	"epoch": 0.8564624234018687,
	"eval_runtime": 95374.473,
	"eval_samples_per_second": 3.795,
	"eval_steps_per_second": 0.474,
	"step": 155000
	},
	{
	"epoch": 0.8592252054128425,
	"grad_norm": 6.4150710105896,
	"learning_rate": 3.96514181283857e-05,
	"loss": 2.6462,
	"step": 155500
	},
	{
	"epoch": 0.8619879874238163,
	"grad_norm": 6.692925930023193,
	"learning_rate": 3.9600255404318544e-05,
	"loss": 2.6601,
	"step": 156000
	},
	{
	"epoch": 0.86475076943479,
	"grad_norm": 6.283834934234619,
	"learning_rate": 3.954909268025139e-05,
	"loss": 2.6762,
	"step": 156500
	},
	{
	"epoch": 0.8675135514457638,
	"grad_norm": 7.09011173248291,
	"learning_rate": 3.949803228163238e-05,
	"loss": 2.6903,
	"step": 157000
	},
	{
	"epoch": 0.8702763334567376,
	"grad_norm": 5.456295490264893,
	"learning_rate": 3.944686955756523e-05,
	"loss": 2.6861,
	"step": 157500
	},
	{
	"epoch": 0.8730391154677114,
	"grad_norm": 8.332560539245605,
	"learning_rate": 3.939570683349808e-05,
	"loss": 2.6292,
	"step": 158000
	},
	{
	"epoch": 0.8758018974786851,
	"grad_norm": 11.606867790222168,
	"learning_rate": 3.9344544109430934e-05,
	"loss": 2.6681,
	"step": 158500
	},
	{
	"epoch": 0.8785646794896589,
	"grad_norm": 6.087031364440918,
	"learning_rate": 3.9293483710811915e-05,
	"loss": 2.6429,
	"step": 159000
	},
	{
	"epoch": 0.8813274615006327,
	"grad_norm": 7.540450572967529,
	"learning_rate": 3.924232098674476e-05,
	"loss": 2.6526,
	"step": 159500
	},
	{
	"epoch": 0.8840902435116065,
	"grad_norm": 5.995485305786133,
	"learning_rate": 3.919115826267761e-05,
	"loss": 2.6561,
	"step": 160000
	},
	{
	"epoch": 0.8840902435116065,
	"eval_runtime": 1415.0083,
	"eval_samples_per_second": 255.796,
	"eval_steps_per_second": 31.975,
	"step": 160000
	},
	{
	"epoch": 0.8868530255225802,
	"grad_norm": 6.677637100219727,
	"learning_rate": 3.9139995538610464e-05,
	"loss": 2.726,
	"step": 160500
	},
	{
	"epoch": 0.889615807533554,
	"grad_norm": 4.598792552947998,
	"learning_rate": 3.9088832814543316e-05,
	"loss": 2.6989,
	"step": 161000
	},
	{
	"epoch": 0.8923785895445278,
	"grad_norm": 6.177221775054932,
	"learning_rate": 3.90377724159243e-05,
	"loss": 2.6515,
	"step": 161500
	},
	{
	"epoch": 0.8951413715555016,
	"grad_norm": 4.76786994934082,
	"learning_rate": 3.898660969185714e-05,
	"loss": 2.6567,
	"step": 162000
	},
	{
	"epoch": 0.8979041535664753,
	"grad_norm": 8.788933753967285,
	"learning_rate": 3.8935446967789995e-05,
	"loss": 2.6491,
	"step": 162500
	},
	{
	"epoch": 0.900666935577449,
	"grad_norm": 5.806134223937988,
	"learning_rate": 3.888428424372285e-05,
	"loss": 2.638,
	"step": 163000
	},
	{
	"epoch": 0.9034297175884228,
	"grad_norm": 6.518142223358154,
	"learning_rate": 3.8833223845103836e-05,
	"loss": 2.7087,
	"step": 163500
	},
	{
	"epoch": 0.9061924995993966,
	"grad_norm": 5.603370189666748,
	"learning_rate": 3.878206112103668e-05,
	"loss": 2.6832,
	"step": 164000
	},
	{
	"epoch": 0.9089552816103704,
	"grad_norm": 4.990660667419434,
	"learning_rate": 3.873089839696953e-05,
	"loss": 2.6847,
	"step": 164500
	},
	{
	"epoch": 0.9117180636213441,
	"grad_norm": 7.145622730255127,
	"learning_rate": 3.8679735672902385e-05,
	"loss": 2.652,
	"step": 165000
	},
	{
	"epoch": 0.9117180636213441,
	"eval_runtime": 1419.0902,
	"eval_samples_per_second": 255.06,
	"eval_steps_per_second": 31.883,
	"step": 165000
	},
	{
	"epoch": 0.9144808456323179,
	"grad_norm": 6.253338813781738,
	"learning_rate": 3.8628675274283366e-05,
	"loss": 2.6564,
	"step": 165500
	},
	{
	"epoch": 0.9172436276432917,
	"grad_norm": 9.034163475036621,
	"learning_rate": 3.857761487566435e-05,
	"loss": 2.6881,
	"step": 166000
	},
	{
	"epoch": 0.9200064096542655,
	"grad_norm": 6.8109331130981445,
	"learning_rate": 3.85264521515972e-05,
	"loss": 2.6523,
	"step": 166500
	},
	{
	"epoch": 0.9227691916652392,
	"grad_norm": 6.663868427276611,
	"learning_rate": 3.8475289427530045e-05,
	"loss": 2.6115,
	"step": 167000
	},
	{
	"epoch": 0.925531973676213,
	"grad_norm": 6.121496677398682,
	"learning_rate": 3.84241267034629e-05,
	"loss": 2.6596,
	"step": 167500
	},
	{
	"epoch": 0.9282947556871868,
	"grad_norm": 7.0516533851623535,
	"learning_rate": 3.837296397939575e-05,
	"loss": 2.7253,
	"step": 168000
	},
	{
	"epoch": 0.9310575376981606,
	"grad_norm": 9.789468765258789,
	"learning_rate": 3.83218012553286e-05,
	"loss": 2.6783,
	"step": 168500
	},
	{
	"epoch": 0.9338203197091343,
	"grad_norm": 6.72811222076416,
	"learning_rate": 3.8270638531261446e-05,
	"loss": 2.6639,
	"step": 169000
	},
	{
	"epoch": 0.9365831017201081,
	"grad_norm": 6.445733070373535,
	"learning_rate": 3.82194758071943e-05,
	"loss": 2.6683,
	"step": 169500
	},
	{
	"epoch": 0.9393458837310819,
	"grad_norm": 6.840031623840332,
	"learning_rate": 3.816841540857528e-05,
	"loss": 2.6877,
	"step": 170000
	},
	{
	"epoch": 0.9393458837310819,
	"eval_runtime": 1422.4105,
	"eval_samples_per_second": 254.465,
	"eval_steps_per_second": 31.809,
	"step": 170000
	},
	{
	"epoch": 0.9421086657420557,
	"grad_norm": 7.416438579559326,
	"learning_rate": 3.811735500995627e-05,
	"loss": 2.6762,
	"step": 170500
	},
	{
	"epoch": 0.9448714477530293,
	"grad_norm": 7.09953498840332,
	"learning_rate": 3.806619228588912e-05,
	"loss": 2.6424,
	"step": 171000
	},
	{
	"epoch": 0.9476342297640031,
	"grad_norm": 4.984237194061279,
	"learning_rate": 3.801502956182197e-05,
	"loss": 2.615,
	"step": 171500
	},
	{
	"epoch": 0.9503970117749769,
	"grad_norm": 7.201922416687012,
	"learning_rate": 3.796386683775482e-05,
	"loss": 2.6765,
	"step": 172000
	},
	{
	"epoch": 0.9531597937859507,
	"grad_norm": 5.911804676055908,
	"learning_rate": 3.791270411368767e-05,
	"loss": 2.6948,
	"step": 172500
	},
	{
	"epoch": 0.9559225757969245,
	"grad_norm": 9.068735122680664,
	"learning_rate": 3.786154138962052e-05,
	"loss": 2.732,
	"step": 173000
	},
	{
	"epoch": 0.9586853578078982,
	"grad_norm": 5.268345355987549,
	"learning_rate": 3.781037866555337e-05,
	"loss": 2.6845,
	"step": 173500
	},
	{
	"epoch": 0.961448139818872,
	"grad_norm": 4.931880474090576,
	"learning_rate": 3.775921594148622e-05,
	"loss": 2.6898,
	"step": 174000
	},
	{
	"epoch": 0.9642109218298458,
	"grad_norm": 6.40797233581543,
	"learning_rate": 3.77081555428672e-05,
	"loss": 2.6438,
	"step": 174500
	},
	{
	"epoch": 0.9669737038408196,
	"grad_norm": 8.506610870361328,
	"learning_rate": 3.765699281880005e-05,
	"loss": 2.6475,
	"step": 175000
	},
	{
	"epoch": 0.9669737038408196,
	"eval_runtime": 1421.0183,
	"eval_samples_per_second": 254.714,
	"eval_steps_per_second": 31.84,
	"step": 175000
	},
	{
	"epoch": 0.9697364858517933,
	"grad_norm": 6.606350898742676,
	"learning_rate": 3.7605932420181033e-05,
	"loss": 2.649,
	"step": 175500
	},
	{
	"epoch": 0.9724992678627671,
	"grad_norm": 7.5227580070495605,
	"learning_rate": 3.7554769696113885e-05,
	"loss": 2.6666,
	"step": 176000
	},
	{
	"epoch": 0.9752620498737409,
	"grad_norm": 6.499021530151367,
	"learning_rate": 3.750360697204674e-05,
	"loss": 2.6652,
	"step": 176500
	},
	{
	"epoch": 0.9780248318847147,
	"grad_norm": 6.094892501831055,
	"learning_rate": 3.745244424797958e-05,
	"loss": 2.6776,
	"step": 177000
	},
	{
	"epoch": 0.9807876138956884,
	"grad_norm": 6.329995632171631,
	"learning_rate": 3.7401281523912435e-05,
	"loss": 2.7002,
	"step": 177500
	},
	{
	"epoch": 0.9835503959066622,
	"grad_norm": 7.394835472106934,
	"learning_rate": 3.7350118799845287e-05,
	"loss": 2.6647,
	"step": 178000
	},
	{
	"epoch": 0.986313177917636,
	"grad_norm": 9.899744987487793,
	"learning_rate": 3.729895607577814e-05,
	"loss": 2.6873,
	"step": 178500
	},
	{
	"epoch": 0.9890759599286097,
	"grad_norm": 8.495482444763184,
	"learning_rate": 3.7247793351710984e-05,
	"loss": 2.6574,
	"step": 179000
	},
	{
	"epoch": 0.9918387419395834,
	"grad_norm": 7.411177158355713,
	"learning_rate": 3.7196630627643836e-05,
	"loss": 2.6587,
	"step": 179500
	},
	{
	"epoch": 0.9946015239505572,
	"grad_norm": 6.457353591918945,
	"learning_rate": 3.714557022902482e-05,
	"loss": 2.6607,
	"step": 180000
	},
	{
	"epoch": 0.9946015239505572,
	"eval_runtime": 1418.3578,
	"eval_samples_per_second": 255.192,
	"eval_steps_per_second": 31.9,
	"step": 180000
	},
	{
	"epoch": 0.997364305961531,
	"grad_norm": 4.6210618019104,
	"learning_rate": 3.709440750495767e-05,
	"loss": 2.6894,
	"step": 180500
	},
	{
	"epoch": 1.0001270879725048,
	"grad_norm": 8.51563549041748,
	"learning_rate": 3.704324478089052e-05,
	"loss": 2.6624,
	"step": 181000
	},
	{
	"epoch": 1.0028898699834785,
	"grad_norm": 7.084454536437988,
	"learning_rate": 3.6992082056823366e-05,
	"loss": 2.644,
	"step": 181500
	},
	{
	"epoch": 1.0056526519944524,
	"grad_norm": 6.7502665519714355,
	"learning_rate": 3.6941021658204355e-05,
	"loss": 2.719,
	"step": 182000
	},
	{
	"epoch": 1.008415434005426,
	"grad_norm": 9.962002754211426,
	"learning_rate": 3.688985893413721e-05,
	"loss": 2.6581,
	"step": 182500
	},
	{
	"epoch": 1.0111782160163998,
	"grad_norm": 8.310935020446777,
	"learning_rate": 3.683869621007006e-05,
	"loss": 2.6834,
	"step": 183000
	},
	{
	"epoch": 1.0139409980273737,
	"grad_norm": 6.0927557945251465,
	"learning_rate": 3.6787533486002904e-05,
	"loss": 2.6788,
	"step": 183500
	},
	{
	"epoch": 1.0167037800383474,
	"grad_norm": 7.631921768188477,
	"learning_rate": 3.6736473087383886e-05,
	"loss": 2.6882,
	"step": 184000
	},
	{
	"epoch": 1.0194665620493213,
	"grad_norm": 11.251723289489746,
	"learning_rate": 3.668531036331674e-05,
	"loss": 2.6699,
	"step": 184500
	},
	{
	"epoch": 1.022229344060295,
	"grad_norm": 6.595937252044678,
	"learning_rate": 3.663414763924959e-05,
	"loss": 2.6798,
	"step": 185000
	},
	{
	"epoch": 1.022229344060295,
	"eval_runtime": 1415.123,
	"eval_samples_per_second": 255.775,
	"eval_steps_per_second": 31.972,
	"step": 185000
	},
	{
	"epoch": 1.0249921260712687,
	"grad_norm": 11.095263481140137,
	"learning_rate": 3.658308724063057e-05,
	"loss": 2.6569,
	"step": 185500
	},
	{
	"epoch": 1.0277549080822426,
	"grad_norm": 6.58620023727417,
	"learning_rate": 3.653192451656342e-05,
	"loss": 2.6731,
	"step": 186000
	},
	{
	"epoch": 1.0305176900932163,
	"grad_norm": 8.076006889343262,
	"learning_rate": 3.648076179249627e-05,
	"loss": 2.708,
	"step": 186500
	},
	{
	"epoch": 1.03328047210419,
	"grad_norm": 6.5196990966796875,
	"learning_rate": 3.642959906842912e-05,
	"loss": 2.6235,
	"step": 187000
	},
	{
	"epoch": 1.0360432541151638,
	"grad_norm": 5.743066787719727,
	"learning_rate": 3.637843634436197e-05,
	"loss": 2.6598,
	"step": 187500
	},
	{
	"epoch": 1.0388060361261375,
	"grad_norm": 5.8798112869262695,
	"learning_rate": 3.6327273620294824e-05,
	"loss": 2.6463,
	"step": 188000
	},
	{
	"epoch": 1.0415688181371114,
	"grad_norm": 5.750164031982422,
	"learning_rate": 3.627611089622767e-05,
	"loss": 2.6784,
	"step": 188500
	},
	{
	"epoch": 1.0443316001480851,
	"grad_norm": 10.507771492004395,
	"learning_rate": 3.622494817216052e-05,
	"loss": 2.6642,
	"step": 189000
	},
	{
	"epoch": 1.0470943821590588,
	"grad_norm": 6.932614803314209,
	"learning_rate": 3.61738877735415e-05,
	"loss": 2.6819,
	"step": 189500
	},
	{
	"epoch": 1.0498571641700327,
	"grad_norm": 6.338881969451904,
	"learning_rate": 3.6122725049474355e-05,
	"loss": 2.6597,
	"step": 190000
	},
	{
	"epoch": 1.0498571641700327,
	"eval_runtime": 1409.894,
	"eval_samples_per_second": 256.724,
	"eval_steps_per_second": 32.091,
	"step": 190000
	},
	{
	"epoch": 1.0526199461810064,
	"grad_norm": 6.120572090148926,
	"learning_rate": 3.607156232540721e-05,
	"loss": 2.6625,
	"step": 190500
	},
	{
	"epoch": 1.05538272819198,
	"grad_norm": 7.011288166046143,
	"learning_rate": 3.602039960134005e-05,
	"loss": 2.6853,
	"step": 191000
	},
	{
	"epoch": 1.058145510202954,
	"grad_norm": 6.725677013397217,
	"learning_rate": 3.5969236877272904e-05,
	"loss": 2.715,
	"step": 191500
	},
	{
	"epoch": 1.0609082922139277,
	"grad_norm": 5.5944132804870605,
	"learning_rate": 3.5918074153205756e-05,
	"loss": 2.6688,
	"step": 192000
	},
	{
	"epoch": 1.0636710742249016,
	"grad_norm": 5.993505954742432,
	"learning_rate": 3.5867013754586744e-05,
	"loss": 2.6747,
	"step": 192500
	},
	{
	"epoch": 1.0664338562358753,
	"grad_norm": 6.300167560577393,
	"learning_rate": 3.581585103051959e-05,
	"loss": 2.6711,
	"step": 193000
	},
	{
	"epoch": 1.069196638246849,
	"grad_norm": 4.657979965209961,
	"learning_rate": 3.5764688306452435e-05,
	"loss": 2.6409,
	"step": 193500
	},
	{
	"epoch": 1.0719594202578229,
	"grad_norm": 5.573739051818848,
	"learning_rate": 3.571352558238529e-05,
	"loss": 2.6507,
	"step": 194000
	},
	{
	"epoch": 1.0747222022687966,
	"grad_norm": 9.203325271606445,
	"learning_rate": 3.566236285831814e-05,
	"loss": 2.6963,
	"step": 194500
	},
	{
	"epoch": 1.0774849842797702,
	"grad_norm": 5.0021185874938965,
	"learning_rate": 3.561120013425099e-05,
	"loss": 2.6293,
	"step": 195000
	},
	{
	"epoch": 1.0774849842797702,
	"eval_runtime": 1412.7471,
	"eval_samples_per_second": 256.205,
	"eval_steps_per_second": 32.026,
	"step": 195000
	},
	{
	"epoch": 1.0802477662907441,
	"grad_norm": 5.483398914337158,
	"learning_rate": 3.5560037410183836e-05,
	"loss": 2.6449,
	"step": 195500
	},
	{
	"epoch": 1.0830105483017178,
	"grad_norm": 6.608130931854248,
	"learning_rate": 3.550887468611669e-05,
	"loss": 2.7054,
	"step": 196000
	},
	{
	"epoch": 1.0857733303126917,
	"grad_norm": 6.910079479217529,
	"learning_rate": 3.5457814287497676e-05,
	"loss": 2.6568,
	"step": 196500
	},
	{
	"epoch": 1.0885361123236654,
	"grad_norm": 4.9066619873046875,
	"learning_rate": 3.540665156343053e-05,
	"loss": 2.6738,
	"step": 197000
	},
	{
	"epoch": 1.0912988943346391,
	"grad_norm": 10.586669921875,
	"learning_rate": 3.535548883936337e-05,
	"loss": 2.6878,
	"step": 197500
	},
	{
	"epoch": 1.094061676345613,
	"grad_norm": 6.523357391357422,
	"learning_rate": 3.530432611529622e-05,
	"loss": 2.6964,
	"step": 198000
	},
	{
	"epoch": 1.0968244583565867,
	"grad_norm": 6.5124831199646,
	"learning_rate": 3.525326571667721e-05,
	"loss": 2.6358,
	"step": 198500
	},
	{
	"epoch": 1.0995872403675606,
	"grad_norm": 5.297051429748535,
	"learning_rate": 3.520220531805819e-05,
	"loss": 2.609,
	"step": 199000
	},
	{
	"epoch": 1.1023500223785343,
	"grad_norm": 9.636564254760742,
	"learning_rate": 3.515104259399104e-05,
	"loss": 2.6268,
	"step": 199500
	},
	{
	"epoch": 1.105112804389508,
	"grad_norm": 6.009031772613525,
	"learning_rate": 3.509987986992389e-05,
	"loss": 2.6668,
	"step": 200000
	},
	{
	"epoch": 1.105112804389508,
	"eval_runtime": 1415.3759,
	"eval_samples_per_second": 255.729,
	"eval_steps_per_second": 31.967,
	"step": 200000
	},
	{
	"epoch": 1.107875586400482,
	"grad_norm": 6.43049430847168,
	"learning_rate": 3.504871714585674e-05,
	"loss": 2.5873,
	"step": 200500
	},
	{
	"epoch": 1.1106383684114556,
	"grad_norm": 5.201763153076172,
	"learning_rate": 3.4997656747237726e-05,
	"loss": 2.6485,
	"step": 201000
	},
	{
	"epoch": 1.1134011504224293,
	"grad_norm": 8.699557304382324,
	"learning_rate": 3.494659634861871e-05,
	"loss": 2.6795,
	"step": 201500
	},
	{
	"epoch": 1.1161639324334032,
	"grad_norm": 6.473239421844482,
	"learning_rate": 3.489543362455156e-05,
	"loss": 2.6479,
	"step": 202000
	},
	{
	"epoch": 1.1189267144443769,
	"grad_norm": 5.315208435058594,
	"learning_rate": 3.484427090048441e-05,
	"loss": 2.6804,
	"step": 202500
	},
	{
	"epoch": 1.1216894964553508,
	"grad_norm": 5.999909400939941,
	"learning_rate": 3.4793108176417264e-05,
	"loss": 2.6287,
	"step": 203000
	},
	{
	"epoch": 1.1244522784663245,
	"grad_norm": 5.583693504333496,
	"learning_rate": 3.474194545235011e-05,
	"loss": 2.6928,
	"step": 203500
	},
	{
	"epoch": 1.1272150604772981,
	"grad_norm": 12.50479793548584,
	"learning_rate": 3.469078272828296e-05,
	"loss": 2.6234,
	"step": 204000
	},
	{
	"epoch": 1.129977842488272,
	"grad_norm": 7.096823692321777,
	"learning_rate": 3.463962000421581e-05,
	"loss": 2.6131,
	"step": 204500
	},
	{
	"epoch": 1.1327406244992457,
	"grad_norm": 8.93995475769043,
	"learning_rate": 3.4588457280148665e-05,
	"loss": 2.6765,
	"step": 205000
	},
	{
	"epoch": 1.1327406244992457,
	"eval_runtime": 1410.6732,
	"eval_samples_per_second": 256.582,
	"eval_steps_per_second": 32.073,
	"step": 205000
	},
	{
	"epoch": 1.1355034065102196,
	"grad_norm": 7.607180595397949,
	"learning_rate": 3.453729455608151e-05,
	"loss": 2.6506,
	"step": 205500
	},
	{
	"epoch": 1.1382661885211933,
	"grad_norm": 5.653107166290283,
	"learning_rate": 3.448613183201436e-05,
	"loss": 2.6471,
	"step": 206000
	},
	{
	"epoch": 1.141028970532167,
	"grad_norm": 5.887621879577637,
	"learning_rate": 3.4434969107947214e-05,
	"loss": 2.6733,
	"step": 206500
	},
	{
	"epoch": 1.143791752543141,
	"grad_norm": 6.376918315887451,
	"learning_rate": 3.438380638388006e-05,
	"loss": 2.6874,
	"step": 207000
	},
	{
	"epoch": 1.1465545345541146,
	"grad_norm": 5.099799156188965,
	"learning_rate": 3.433274598526105e-05,
	"loss": 2.6371,
	"step": 207500
	},
	{
	"epoch": 1.1493173165650883,
	"grad_norm": 6.011958122253418,
	"learning_rate": 3.428168558664203e-05,
	"loss": 2.6578,
	"step": 208000
	},
	{
	"epoch": 1.1520800985760622,
	"grad_norm": 6.049017429351807,
	"learning_rate": 3.4230522862574874e-05,
	"loss": 2.6667,
	"step": 208500
	},
	{
	"epoch": 1.1548428805870359,
	"grad_norm": 7.92437744140625,
	"learning_rate": 3.4179360138507726e-05,
	"loss": 2.6889,
	"step": 209000
	},
	{
	"epoch": 1.1576056625980098,
	"grad_norm": 6.145605087280273,
	"learning_rate": 3.412819741444058e-05,
	"loss": 2.6537,
	"step": 209500
	},
	{
	"epoch": 1.1603684446089835,
	"grad_norm": 7.511498928070068,
	"learning_rate": 3.407703469037343e-05,
	"loss": 2.6694,
	"step": 210000
	},
	{
	"epoch": 1.1603684446089835,
	"eval_runtime": 1410.6383,
	"eval_samples_per_second": 256.588,
	"eval_steps_per_second": 32.074,
	"step": 210000
	},
	{
	"epoch": 1.1631312266199572,
	"grad_norm": 13.444281578063965,
	"learning_rate": 3.4025871966306275e-05,
	"loss": 2.6653,
	"step": 210500
	},
	{
	"epoch": 1.165894008630931,
	"grad_norm": 6.2352399826049805,
	"learning_rate": 3.397470924223913e-05,
	"loss": 2.6504,
	"step": 211000
	},
	{
	"epoch": 1.1686567906419048,
	"grad_norm": 6.435050964355469,
	"learning_rate": 3.392354651817198e-05,
	"loss": 2.6625,
	"step": 211500
	},
	{
	"epoch": 1.1714195726528787,
	"grad_norm": 5.893118858337402,
	"learning_rate": 3.387248611955296e-05,
	"loss": 2.6887,
	"step": 212000
	},
	{
	"epoch": 1.1741823546638523,
	"grad_norm": 7.816985607147217,
	"learning_rate": 3.382132339548581e-05,
	"loss": 2.6655,
	"step": 212500
	},
	{
	"epoch": 1.176945136674826,
	"grad_norm": 6.382891654968262,
	"learning_rate": 3.377016067141866e-05,
	"loss": 2.675,
	"step": 213000
	},
	{
	"epoch": 1.1797079186858,
	"grad_norm": 5.761401653289795,
	"learning_rate": 3.371899794735151e-05,
	"loss": 2.6846,
	"step": 213500
	},
	{
	"epoch": 1.1824707006967736,
	"grad_norm": 6.107725620269775,
	"learning_rate": 3.366783522328436e-05,
	"loss": 2.6129,
	"step": 214000
	},
	{
	"epoch": 1.1852334827077473,
	"grad_norm": 6.5399394035339355,
	"learning_rate": 3.361677482466535e-05,
	"loss": 2.6943,
	"step": 214500
	},
	{
	"epoch": 1.1879962647187212,
	"grad_norm": 10.632125854492188,
	"learning_rate": 3.356571442604633e-05,
	"loss": 2.6334,
	"step": 215000
	},
	{
	"epoch": 1.1879962647187212,
	"eval_runtime": 1416.4537,
	"eval_samples_per_second": 255.535,
	"eval_steps_per_second": 31.942,
	"step": 215000
	},
	{
	"epoch": 1.190759046729695,
	"grad_norm": 8.258727073669434,
	"learning_rate": 3.351455170197918e-05,
	"loss": 2.6625,
	"step": 215500
	},
	{
	"epoch": 1.1935218287406686,
	"grad_norm": 6.275572776794434,
	"learning_rate": 3.346338897791203e-05,
	"loss": 2.6586,
	"step": 216000
	},
	{
	"epoch": 1.1962846107516425,
	"grad_norm": 5.8179144859313965,
	"learning_rate": 3.341222625384488e-05,
	"loss": 2.7107,
	"step": 216500
	},
	{
	"epoch": 1.1990473927626162,
	"grad_norm": 7.048791885375977,
	"learning_rate": 3.336106352977773e-05,
	"loss": 2.6541,
	"step": 217000
	},
	{
	"epoch": 1.20181017477359,
	"grad_norm": 5.731837272644043,
	"learning_rate": 3.330990080571058e-05,
	"loss": 2.6137,
	"step": 217500
	},
	{
	"epoch": 1.2045729567845638,
	"grad_norm": 6.205833911895752,
	"learning_rate": 3.325873808164343e-05,
	"loss": 2.6608,
	"step": 218000
	},
	{
	"epoch": 1.2073357387955375,
	"grad_norm": 7.904666900634766,
	"learning_rate": 3.320757535757628e-05,
	"loss": 2.6514,
	"step": 218500
	},
	{
	"epoch": 1.2100985208065114,
	"grad_norm": 7.223947525024414,
	"learning_rate": 3.3156514958957264e-05,
	"loss": 2.7057,
	"step": 219000
	},
	{
	"epoch": 1.212861302817485,
	"grad_norm": 5.2091569900512695,
	"learning_rate": 3.3105352234890116e-05,
	"loss": 2.6155,
	"step": 219500
	},
	{
	"epoch": 1.215624084828459,
	"grad_norm": 13.029759407043457,
	"learning_rate": 3.305418951082296e-05,
	"loss": 2.6393,
	"step": 220000
	},
	{
	"epoch": 1.215624084828459,
	"eval_runtime": 1409.2915,
	"eval_samples_per_second": 256.833,
	"eval_steps_per_second": 32.105,
	"step": 220000
	},
	{
	"epoch": 1.2183868668394326,
	"grad_norm": 5.841119766235352,
	"learning_rate": 3.300302678675581e-05,
	"loss": 2.6914,
	"step": 220500
	},
	{
	"epoch": 1.2211496488504063,
	"grad_norm": 5.692915916442871,
	"learning_rate": 3.2951966388136794e-05,
	"loss": 2.674,
	"step": 221000
	},
	{
	"epoch": 1.2239124308613802,
	"grad_norm": 6.484999656677246,
	"learning_rate": 3.2900803664069646e-05,
	"loss": 2.6225,
	"step": 221500
	},
	{
	"epoch": 1.226675212872354,
	"grad_norm": 8.07515811920166,
	"learning_rate": 3.28496409400025e-05,
	"loss": 2.6609,
	"step": 222000
	},
	{
	"epoch": 1.2294379948833276,
	"grad_norm": 7.687187194824219,
	"learning_rate": 3.2798478215935343e-05,
	"loss": 2.6666,
	"step": 222500
	},
	{
	"epoch": 1.2322007768943015,
	"grad_norm": 5.499644756317139,
	"learning_rate": 3.274741781731633e-05,
	"loss": 2.6853,
	"step": 223000
	},
	{
	"epoch": 1.2349635589052752,
	"grad_norm": 6.094354629516602,
	"learning_rate": 3.2696255093249184e-05,
	"loss": 2.665,
	"step": 223500
	},
	{
	"epoch": 1.2377263409162491,
	"grad_norm": 6.3320159912109375,
	"learning_rate": 3.2645092369182036e-05,
	"loss": 2.6958,
	"step": 224000
	},
	{
	"epoch": 1.2404891229272228,
	"grad_norm": 5.882307529449463,
	"learning_rate": 3.259392964511489e-05,
	"loss": 2.6822,
	"step": 224500
	},
	{
	"epoch": 1.2432519049381965,
	"grad_norm": 6.465645790100098,
	"learning_rate": 3.254276692104773e-05,
	"loss": 2.6648,
	"step": 225000
	},
	{
	"epoch": 1.2432519049381965,
	"eval_runtime": 1411.6928,
	"eval_samples_per_second": 256.396,
	"eval_steps_per_second": 32.05,
	"step": 225000
	},
	{
	"epoch": 1.2460146869491704,
	"grad_norm": 7.901124477386475,
	"learning_rate": 3.2491706522428715e-05,
	"loss": 2.6548,
	"step": 225500
	},
	{
	"epoch": 1.248777468960144,
	"grad_norm": 11.486516952514648,
	"learning_rate": 3.2440543798361567e-05,
	"loss": 2.6362,
	"step": 226000
	},
	{
	"epoch": 1.251540250971118,
	"grad_norm": 8.68649959564209,
	"learning_rate": 3.238938107429442e-05,
	"loss": 2.6175,
	"step": 226500
	},
	{
	"epoch": 1.2543030329820917,
	"grad_norm": 9.17063045501709,
	"learning_rate": 3.233821835022727e-05,
	"loss": 2.6319,
	"step": 227000
	},
	{
	"epoch": 1.2570658149930654,
	"grad_norm": 7.608591556549072,
	"learning_rate": 3.228715795160825e-05,
	"loss": 2.6814,
	"step": 227500
	},
	{
	"epoch": 1.2598285970040393,
	"grad_norm": 6.055707931518555,
	"learning_rate": 3.2236097552989234e-05,
	"loss": 2.6131,
	"step": 228000
	},
	{
	"epoch": 1.262591379015013,
	"grad_norm": 10.52354621887207,
	"learning_rate": 3.2184934828922086e-05,
	"loss": 2.6803,
	"step": 228500
	},
	{
	"epoch": 1.2653541610259866,
	"grad_norm": 4.819145679473877,
	"learning_rate": 3.213377210485494e-05,
	"loss": 2.6665,
	"step": 229000
	},
	{
	"epoch": 1.2681169430369605,
	"grad_norm": 6.71164608001709,
	"learning_rate": 3.208260938078779e-05,
	"loss": 2.6405,
	"step": 229500
	},
	{
	"epoch": 1.2708797250479342,
	"grad_norm": 6.727443218231201,
	"learning_rate": 3.2031446656720635e-05,
	"loss": 2.6668,
	"step": 230000
	},
	{
	"epoch": 1.2708797250479342,
	"eval_runtime": 1397.8356,
	"eval_samples_per_second": 258.938,
	"eval_steps_per_second": 32.368,
	"step": 230000
	},
	{
	"epoch": 1.273642507058908,
	"grad_norm": 6.408928871154785,
	"learning_rate": 3.198028393265348e-05,
	"loss": 2.6714,
	"step": 230500
	},
	{
	"epoch": 1.2764052890698818,
	"grad_norm": 7.555359363555908,
	"learning_rate": 3.192912120858633e-05,
	"loss": 2.6462,
	"step": 231000
	},
	{
	"epoch": 1.2791680710808555,
	"grad_norm": 7.9627909660339355,
	"learning_rate": 3.1877958484519184e-05,
	"loss": 2.6649,
	"step": 231500
	},
	{
	"epoch": 1.2819308530918294,
	"grad_norm": 5.883249759674072,
	"learning_rate": 3.182689808590017e-05,
	"loss": 2.6482,
	"step": 232000
	},
	{
	"epoch": 1.284693635102803,
	"grad_norm": 6.337319850921631,
	"learning_rate": 3.177573536183302e-05,
	"loss": 2.653,
	"step": 232500
	},
	{
	"epoch": 1.287456417113777,
	"grad_norm": 9.221954345703125,
	"learning_rate": 3.172457263776587e-05,
	"loss": 2.6429,
	"step": 233000
	},
	{
	"epoch": 1.2902191991247507,
	"grad_norm": 8.365209579467773,
	"learning_rate": 3.167340991369872e-05,
	"loss": 2.6898,
	"step": 233500
	},
	{
	"epoch": 1.2929819811357244,
	"grad_norm": 13.809211730957031,
	"learning_rate": 3.16223495150797e-05,
	"loss": 2.6034,
	"step": 234000
	},
	{
	"epoch": 1.2957447631466983,
	"grad_norm": 6.561621189117432,
	"learning_rate": 3.1571186791012555e-05,
	"loss": 2.6831,
	"step": 234500
	},
	{
	"epoch": 1.298507545157672,
	"grad_norm": 7.049484729766846,
	"learning_rate": 3.15200240669454e-05,
	"loss": 2.6741,
	"step": 235000
	},
	{
	"epoch": 1.298507545157672,
	"eval_runtime": 1410.5655,
	"eval_samples_per_second": 256.601,
	"eval_steps_per_second": 32.076,
	"step": 235000
	},
	{
	"epoch": 1.3012703271686457,
	"grad_norm": 7.707888126373291,
	"learning_rate": 3.146886134287825e-05,
	"loss": 2.6391,
	"step": 235500
	},
	{
	"epoch": 1.3040331091796196,
	"grad_norm": 8.038480758666992,
	"learning_rate": 3.1417800944259234e-05,
	"loss": 2.6347,
	"step": 236000
	},
	{
	"epoch": 1.3067958911905933,
	"grad_norm": 8.12757396697998,
	"learning_rate": 3.1366638220192086e-05,
	"loss": 2.6362,
	"step": 236500
	},
	{
	"epoch": 1.309558673201567,
	"grad_norm": 14.125542640686035,
	"learning_rate": 3.131547549612494e-05,
	"loss": 2.6423,
	"step": 237000
	},
	{
	"epoch": 1.3123214552125408,
	"grad_norm": 7.672112941741943,
	"learning_rate": 3.126431277205778e-05,
	"loss": 2.6628,
	"step": 237500
	},
	{
	"epoch": 1.3150842372235145,
	"grad_norm": 5.344297409057617,
	"learning_rate": 3.1213150047990635e-05,
	"loss": 2.6825,
	"step": 238000
	},
	{
	"epoch": 1.3178470192344884,
	"grad_norm": 5.527090549468994,
	"learning_rate": 3.116208964937162e-05,
	"loss": 2.6757,
	"step": 238500
	},
	{
	"epoch": 1.3206098012454621,
	"grad_norm": 6.49380350112915,
	"learning_rate": 3.1110926925304475e-05,
	"loss": 2.6798,
	"step": 239000
	},
	{
	"epoch": 1.323372583256436,
	"grad_norm": 6.0890069007873535,
	"learning_rate": 3.105976420123732e-05,
	"loss": 2.6273,
	"step": 239500
	},
	{
	"epoch": 1.3261353652674097,
	"grad_norm": 6.064700126647949,
	"learning_rate": 3.1008601477170166e-05,
	"loss": 2.6461,
	"step": 240000
	},
	{
	"epoch": 1.3261353652674097,
	"eval_runtime": 1411.2023,
	"eval_samples_per_second": 256.486,
	"eval_steps_per_second": 32.061,
	"step": 240000
	},
	{
	"epoch": 1.3288981472783834,
	"grad_norm": 8.562914848327637,
	"learning_rate": 3.0957541078551154e-05,
	"loss": 2.6699,
	"step": 240500
	},
	{
	"epoch": 1.3316609292893573,
	"grad_norm": 4.0414958000183105,
	"learning_rate": 3.0906378354484006e-05,
	"loss": 2.7082,
	"step": 241000
	},
	{
	"epoch": 1.334423711300331,
	"grad_norm": 6.873857021331787,
	"learning_rate": 3.085531795586499e-05,
	"loss": 2.6486,
	"step": 241500
	},
	{
	"epoch": 1.3371864933113047,
	"grad_norm": 7.180528163909912,
	"learning_rate": 3.080415523179784e-05,
	"loss": 2.6766,
	"step": 242000
	},
	{
	"epoch": 1.3399492753222786,
	"grad_norm": 3.9526586532592773,
	"learning_rate": 3.0752992507730685e-05,
	"loss": 2.6523,
	"step": 242500
	},
	{
	"epoch": 1.3427120573332523,
	"grad_norm": 7.868597030639648,
	"learning_rate": 3.070182978366354e-05,
	"loss": 2.7141,
	"step": 243000
	},
	{
	"epoch": 1.345474839344226,
	"grad_norm": 6.393147945404053,
	"learning_rate": 3.065066705959639e-05,
	"loss": 2.661,
	"step": 243500
	},
	{
	"epoch": 1.3482376213551999,
	"grad_norm": 6.155392646789551,
	"learning_rate": 3.059950433552924e-05,
	"loss": 2.6336,
	"step": 244000
	},
	{
	"epoch": 1.3510004033661736,
	"grad_norm": 5.36915922164917,
	"learning_rate": 3.0548341611462086e-05,
	"loss": 2.6183,
	"step": 244500
	},
	{
	"epoch": 1.3537631853771472,
	"grad_norm": 8.455395698547363,
	"learning_rate": 3.0497178887394938e-05,
	"loss": 2.6629,
	"step": 245000
	},
	{
	"epoch": 1.3537631853771472,
	"eval_runtime": 1408.8422,
	"eval_samples_per_second": 256.915,
	"eval_steps_per_second": 32.115,
	"step": 245000
	},
	{
	"epoch": 1.3565259673881211,
	"grad_norm": 7.414444446563721,
	"learning_rate": 3.044601616332779e-05,
	"loss": 2.6668,
	"step": 245500
	},
	{
	"epoch": 1.3592887493990948,
	"grad_norm": 5.821547031402588,
	"learning_rate": 3.039495576470877e-05,
	"loss": 2.6888,
	"step": 246000
	},
	{
	"epoch": 1.3620515314100687,
	"grad_norm": 6.702820301055908,
	"learning_rate": 3.034379304064162e-05,
	"loss": 2.6647,
	"step": 246500
	},
	{
	"epoch": 1.3648143134210424,
	"grad_norm": 8.23851203918457,
	"learning_rate": 3.0292630316574472e-05,
	"loss": 2.6668,
	"step": 247000
	},
	{
	"epoch": 1.3675770954320163,
	"grad_norm": 6.016136646270752,
	"learning_rate": 3.024146759250732e-05,
	"loss": 2.6509,
	"step": 247500
	},
	{
	"epoch": 1.37033987744299,
	"grad_norm": 6.836232662200928,
	"learning_rate": 3.019040719388831e-05,
	"loss": 2.6904,
	"step": 248000
	},
	{
	"epoch": 1.3731026594539637,
	"grad_norm": 7.973288059234619,
	"learning_rate": 3.013924446982116e-05,
	"loss": 2.6805,
	"step": 248500
	},
	{
	"epoch": 1.3758654414649376,
	"grad_norm": 6.736196517944336,
	"learning_rate": 3.0088081745754003e-05,
	"loss": 2.6456,
	"step": 249000
	},
	{
	"epoch": 1.3786282234759113,
	"grad_norm": 6.223706245422363,
	"learning_rate": 3.0036919021686855e-05,
	"loss": 2.6705,
	"step": 249500
	},
	{
	"epoch": 1.381391005486885,
	"grad_norm": 6.599213600158691,
	"learning_rate": 2.9985858623067843e-05,
	"loss": 2.6088,
	"step": 250000
	},
	{
	"epoch": 1.381391005486885,
	"eval_runtime": 1412.4913,
	"eval_samples_per_second": 256.251,
	"eval_steps_per_second": 32.032,
	"step": 250000
	},
	{
	"epoch": 1.384153787497859,
	"grad_norm": 5.85990571975708,
	"learning_rate": 2.993469589900069e-05,
	"loss": 2.6636,
	"step": 250500
	},
	{
	"epoch": 1.3869165695088326,
	"grad_norm": 8.427452087402344,
	"learning_rate": 2.9883533174933544e-05,
	"loss": 2.641,
	"step": 251000
	},
	{
	"epoch": 1.3896793515198063,
	"grad_norm": 4.338545799255371,
	"learning_rate": 2.9832472776314525e-05,
	"loss": 2.6391,
	"step": 251500
	},
	{
	"epoch": 1.3924421335307802,
	"grad_norm": 6.209786891937256,
	"learning_rate": 2.9781310052247374e-05,
	"loss": 2.6357,
	"step": 252000
	},
	{
	"epoch": 1.3952049155417539,
	"grad_norm": 5.6584672927856445,
	"learning_rate": 2.9730147328180226e-05,
	"loss": 2.6903,
	"step": 252500
	},
	{
	"epoch": 1.3979676975527278,
	"grad_norm": 6.956233501434326,
	"learning_rate": 2.9678984604113074e-05,
	"loss": 2.6452,
	"step": 253000
	},
	{
	"epoch": 1.4007304795637014,
	"grad_norm": 7.020050048828125,
	"learning_rate": 2.9627821880045926e-05,
	"loss": 2.707,
	"step": 253500
	},
	{
	"epoch": 1.4034932615746754,
	"grad_norm": 6.412283420562744,
	"learning_rate": 2.9576659155978775e-05,
	"loss": 2.5976,
	"step": 254000
	},
	{
	"epoch": 1.406256043585649,
	"grad_norm": 6.7848711013793945,
	"learning_rate": 2.9525598757359756e-05,
	"loss": 2.6319,
	"step": 254500
	},
	{
	"epoch": 1.4090188255966227,
	"grad_norm": 4.951188564300537,
	"learning_rate": 2.947443603329261e-05,
	"loss": 2.6127,
	"step": 255000
	},
	{
	"epoch": 1.4090188255966227,
	"eval_runtime": 1426.0103,
	"eval_samples_per_second": 253.822,
	"eval_steps_per_second": 31.728,
	"step": 255000
	},
	{
	"epoch": 1.4117816076075966,
	"grad_norm": 7.517430305480957,
	"learning_rate": 2.9423273309225457e-05,
	"loss": 2.6338,
	"step": 255500
	},
	{
	"epoch": 1.4145443896185703,
	"grad_norm": 8.3431978225708,
	"learning_rate": 2.937211058515831e-05,
	"loss": 2.6741,
	"step": 256000
	},
	{
	"epoch": 1.417307171629544,
	"grad_norm": 6.5295867919921875,
	"learning_rate": 2.9321050186539294e-05,
	"loss": 2.6293,
	"step": 256500
	},
	{
	"epoch": 1.420069953640518,
	"grad_norm": 7.589269638061523,
	"learning_rate": 2.9269887462472146e-05,
	"loss": 2.6028,
	"step": 257000
	},
	{
	"epoch": 1.4228327356514916,
	"grad_norm": 6.105846881866455,
	"learning_rate": 2.9218724738404994e-05,
	"loss": 2.6168,
	"step": 257500
	},
	{
	"epoch": 1.4255955176624653,
	"grad_norm": 5.840164661407471,
	"learning_rate": 2.9167562014337846e-05,
	"loss": 2.642,
	"step": 258000
	},
	{
	"epoch": 1.4283582996734392,
	"grad_norm": 7.00549840927124,
	"learning_rate": 2.911639929027069e-05,
	"loss": 2.6812,
	"step": 258500
	},
	{
	"epoch": 1.4311210816844129,
	"grad_norm": 8.726187705993652,
	"learning_rate": 2.906523656620354e-05,
	"loss": 2.6415,
	"step": 259000
	},
	{
	"epoch": 1.4338838636953868,
	"grad_norm": 7.919028282165527,
	"learning_rate": 2.9014073842136392e-05,
	"loss": 2.5798,
	"step": 259500
	},
	{
	"epoch": 1.4366466457063605,
	"grad_norm": 4.848925590515137,
	"learning_rate": 2.896291111806924e-05,
	"loss": 2.6991,
	"step": 260000
	},
	{
	"epoch": 1.4366466457063605,
	"eval_runtime": 1376.0192,
	"eval_samples_per_second": 263.044,
	"eval_steps_per_second": 32.881,
	"step": 260000
	},
	{
	"epoch": 1.4394094277173344,
	"grad_norm": 7.420814514160156,
	"learning_rate": 2.8911748394002093e-05,
	"loss": 2.6541,
	"step": 260500
	},
	{
	"epoch": 1.442172209728308,
	"grad_norm": 7.090695381164551,
	"learning_rate": 2.8860687995383078e-05,
	"loss": 2.6506,
	"step": 261000
	},
	{
	"epoch": 1.4449349917392817,
	"grad_norm": 6.3192338943481445,
	"learning_rate": 2.880952527131593e-05,
	"loss": 2.6555,
	"step": 261500
	},
	{
	"epoch": 1.4476977737502557,
	"grad_norm": 5.872584819793701,
	"learning_rate": 2.8758362547248778e-05,
	"loss": 2.615,
	"step": 262000
	},
	{
	"epoch": 1.4504605557612293,
	"grad_norm": 7.909795761108398,
	"learning_rate": 2.870719982318163e-05,
	"loss": 2.6214,
	"step": 262500
	},
	{
	"epoch": 1.453223337772203,
	"grad_norm": 6.419271469116211,
	"learning_rate": 2.8656139424562612e-05,
	"loss": 2.6541,
	"step": 263000
	},
	{
	"epoch": 1.455986119783177,
	"grad_norm": 8.628451347351074,
	"learning_rate": 2.860497670049546e-05,
	"loss": 2.6178,
	"step": 263500
	},
	{
	"epoch": 1.4587489017941506,
	"grad_norm": 6.384825706481934,
	"learning_rate": 2.8553813976428312e-05,
	"loss": 2.6617,
	"step": 264000
	},
	{
	"epoch": 1.4615116838051243,
	"grad_norm": 7.782327651977539,
	"learning_rate": 2.850265125236116e-05,
	"loss": 2.6056,
	"step": 264500
	},
	{
	"epoch": 1.4642744658160982,
	"grad_norm": 6.750179767608643,
	"learning_rate": 2.8451590853742143e-05,
	"loss": 2.6685,
	"step": 265000
	},
	{
	"epoch": 1.4642744658160982,
	"eval_runtime": 1431.562,
	"eval_samples_per_second": 252.838,
	"eval_steps_per_second": 31.605,
	"step": 265000
	},
	{
	"epoch": 1.467037247827072,
	"grad_norm": 6.400202751159668,
	"learning_rate": 2.8400428129674995e-05,
	"loss": 2.6467,
	"step": 265500
	},
	{
	"epoch": 1.4698000298380456,
	"grad_norm": 9.842098236083984,
	"learning_rate": 2.8349265405607843e-05,
	"loss": 2.5767,
	"step": 266000
	},
	{
	"epoch": 1.4725628118490195,
	"grad_norm": 6.3928680419921875,
	"learning_rate": 2.8298102681540695e-05,
	"loss": 2.643,
	"step": 266500
	},
	{
	"epoch": 1.4753255938599932,
	"grad_norm": 5.774998188018799,
	"learning_rate": 2.8246939957473544e-05,
	"loss": 2.7011,
	"step": 267000
	},
	{
	"epoch": 1.478088375870967,
	"grad_norm": 7.253933429718018,
	"learning_rate": 2.8195879558854525e-05,
	"loss": 2.6298,
	"step": 267500
	},
	{
	"epoch": 1.4808511578819408,
	"grad_norm": 6.2444658279418945,
	"learning_rate": 2.8144716834787377e-05,
	"loss": 2.661,
	"step": 268000
	},
	{
	"epoch": 1.4836139398929147,
	"grad_norm": 7.06601619720459,
	"learning_rate": 2.8093554110720226e-05,
	"loss": 2.6499,
	"step": 268500
	},
	{
	"epoch": 1.4863767219038884,
	"grad_norm": 8.167895317077637,
	"learning_rate": 2.8042391386653078e-05,
	"loss": 2.6404,
	"step": 269000
	},
	{
	"epoch": 1.489139503914862,
	"grad_norm": 6.798631191253662,
	"learning_rate": 2.7991330988034066e-05,
	"loss": 2.6585,
	"step": 269500
	},
	{
	"epoch": 1.491902285925836,
	"grad_norm": 6.69813346862793,
	"learning_rate": 2.7940168263966915e-05,
	"loss": 2.6658,
	"step": 270000
	},
	{
	"epoch": 1.491902285925836,
	"eval_runtime": 1470.9324,
	"eval_samples_per_second": 246.07,
	"eval_steps_per_second": 30.759,
	"step": 270000
	},
	{
	"epoch": 1.4946650679368096,
	"grad_norm": 6.37416410446167,
	"learning_rate": 2.7889005539899767e-05,
	"loss": 2.6653,
	"step": 270500
	},
	{
	"epoch": 1.4974278499477833,
	"grad_norm": 5.052603244781494,
	"learning_rate": 2.7837842815832615e-05,
	"loss": 2.6822,
	"step": 271000
	},
	{
	"epoch": 1.5001906319587572,
	"grad_norm": 7.3138861656188965,
	"learning_rate": 2.7786782417213597e-05,
	"loss": 2.637,
	"step": 271500
	},
	{
	"epoch": 1.502953413969731,
	"grad_norm": 12.509490013122559,
	"learning_rate": 2.773561969314645e-05,
	"loss": 2.6139,
	"step": 272000
	},
	{
	"epoch": 1.5057161959807046,
	"grad_norm": 8.668211936950684,
	"learning_rate": 2.7684456969079297e-05,
	"loss": 2.6967,
	"step": 272500
	},
	{
	"epoch": 1.5084789779916785,
	"grad_norm": 6.163717269897461,
	"learning_rate": 2.763339657046028e-05,
	"loss": 2.6344,
	"step": 273000
	},
	{
	"epoch": 1.5112417600026524,
	"grad_norm": 5.849397659301758,
	"learning_rate": 2.758223384639313e-05,
	"loss": 2.7212,
	"step": 273500
	},
	{
	"epoch": 1.5140045420136259,
	"grad_norm": 5.386920928955078,
	"learning_rate": 2.753107112232598e-05,
	"loss": 2.6579,
	"step": 274000
	},
	{
	"epoch": 1.5167673240245998,
	"grad_norm": 7.916058540344238,
	"learning_rate": 2.747990839825883e-05,
	"loss": 2.6906,
	"step": 274500
	},
	{
	"epoch": 1.5195301060355737,
	"grad_norm": 5.125283241271973,
	"learning_rate": 2.742874567419168e-05,
	"loss": 2.6266,
	"step": 275000
	},
	{
	"epoch": 1.5195301060355737,
	"eval_runtime": 1424.4614,
	"eval_samples_per_second": 254.098,
	"eval_steps_per_second": 31.763,
	"step": 275000
	},
	{
	"epoch": 1.5222928880465474,
	"grad_norm": 8.393288612365723,
	"learning_rate": 2.7377582950124532e-05,
	"loss": 2.6324,
	"step": 275500
	},
	{
	"epoch": 1.525055670057521,
	"grad_norm": 6.936960697174072,
	"learning_rate": 2.732642022605738e-05,
	"loss": 2.6751,
	"step": 276000
	},
	{
	"epoch": 1.527818452068495,
	"grad_norm": 7.31864595413208,
	"learning_rate": 2.7275257501990233e-05,
	"loss": 2.7046,
	"step": 276500
	},
	{
	"epoch": 1.5305812340794687,
	"grad_norm": 7.4950151443481445,
	"learning_rate": 2.7224197103371214e-05,
	"loss": 2.6602,
	"step": 277000
	},
	{
	"epoch": 1.5333440160904424,
	"grad_norm": 8.419631004333496,
	"learning_rate": 2.7173034379304063e-05,
	"loss": 2.6288,
	"step": 277500
	},
	{
	"epoch": 1.5361067981014163,
	"grad_norm": 4.573643684387207,
	"learning_rate": 2.7121871655236915e-05,
	"loss": 2.6075,
	"step": 278000
	},
	{
	"epoch": 1.53886958011239,
	"grad_norm": 6.746376991271973,
	"learning_rate": 2.7070708931169763e-05,
	"loss": 2.6455,
	"step": 278500
	},
	{
	"epoch": 1.5416323621233636,
	"grad_norm": 7.2786478996276855,
	"learning_rate": 2.7019546207102615e-05,
	"loss": 2.6467,
	"step": 279000
	},
	{
	"epoch": 1.5443951441343375,
	"grad_norm": 8.315926551818848,
	"learning_rate": 2.69684858084836e-05,
	"loss": 2.6329,
	"step": 279500
	},
	{
	"epoch": 1.5471579261453114,
	"grad_norm": 6.038636207580566,
	"learning_rate": 2.6917323084416452e-05,
	"loss": 2.6422,
	"step": 280000
	},
	{
	"epoch": 1.5471579261453114,
	"eval_runtime": 1397.1141,
	"eval_samples_per_second": 259.072,
	"eval_steps_per_second": 32.385,
	"step": 280000
	},
	{
	"epoch": 1.549920708156285,
	"grad_norm": 5.000608921051025,
	"learning_rate": 2.68661603603493e-05,
	"loss": 2.5991,
	"step": 280500
	},
	{
	"epoch": 1.5526834901672588,
	"grad_norm": 5.943995952606201,
	"learning_rate": 2.6814997636282153e-05,
	"loss": 2.5922,
	"step": 281000
	},
	{
	"epoch": 1.5554462721782327,
	"grad_norm": 8.255182266235352,
	"learning_rate": 2.6763834912214998e-05,
	"loss": 2.6483,
	"step": 281500
	},
	{
	"epoch": 1.5582090541892064,
	"grad_norm": 8.202108383178711,
	"learning_rate": 2.6712774513595983e-05,
	"loss": 2.6235,
	"step": 282000
	},
	{
	"epoch": 1.56097183620018,
	"grad_norm": 5.840571880340576,
	"learning_rate": 2.6661611789528835e-05,
	"loss": 2.652,
	"step": 282500
	},
	{
	"epoch": 1.563734618211154,
	"grad_norm": 5.939957141876221,
	"learning_rate": 2.6610449065461684e-05,
	"loss": 2.6501,
	"step": 283000
	},
	{
	"epoch": 1.5664974002221277,
	"grad_norm": 5.314937114715576,
	"learning_rate": 2.6559286341394536e-05,
	"loss": 2.656,
	"step": 283500
	},
	{
	"epoch": 1.5692601822331014,
	"grad_norm": 6.23870849609375,
	"learning_rate": 2.6508123617327384e-05,
	"loss": 2.6776,
	"step": 284000
	},
	{
	"epoch": 1.5720229642440753,
	"grad_norm": 6.62495231628418,
	"learning_rate": 2.6457063218708366e-05,
	"loss": 2.6351,
	"step": 284500
	},
	{
	"epoch": 1.574785746255049,
	"grad_norm": 6.557297706604004,
	"learning_rate": 2.6406002820089354e-05,
	"loss": 2.6637,
	"step": 285000
	},
	{
	"epoch": 1.574785746255049,
	"eval_runtime": 1399.3188,
	"eval_samples_per_second": 258.664,
	"eval_steps_per_second": 32.334,
	"step": 285000
	},
	{
	"epoch": 1.5775485282660227,
	"grad_norm": 7.950584411621094,
	"learning_rate": 2.6354840096022203e-05,
	"loss": 2.6292,
	"step": 285500
	},
	{
	"epoch": 1.5803113102769966,
	"grad_norm": 6.725704193115234,
	"learning_rate": 2.6303677371955055e-05,
	"loss": 2.64,
	"step": 286000
	},
	{
	"epoch": 1.5830740922879702,
	"grad_norm": 8.884140014648438,
	"learning_rate": 2.62525146478879e-05,
	"loss": 2.6596,
	"step": 286500
	},
	{
	"epoch": 1.585836874298944,
	"grad_norm": 6.812872409820557,
	"learning_rate": 2.620135192382075e-05,
	"loss": 2.6034,
	"step": 287000
	},
	{
	"epoch": 1.5885996563099178,
	"grad_norm": 7.91174840927124,
	"learning_rate": 2.61501891997536e-05,
	"loss": 2.6564,
	"step": 287500
	},
	{
	"epoch": 1.5913624383208917,
	"grad_norm": 5.403963565826416,
	"learning_rate": 2.6099128801134585e-05,
	"loss": 2.6303,
	"step": 288000
	},
	{
	"epoch": 1.5941252203318652,
	"grad_norm": 7.750992774963379,
	"learning_rate": 2.6047966077067437e-05,
	"loss": 2.6337,
	"step": 288500
	},
	{
	"epoch": 1.5968880023428391,
	"grad_norm": 8.077462196350098,
	"learning_rate": 2.5996803353000286e-05,
	"loss": 2.6428,
	"step": 289000
	},
	{
	"epoch": 1.599650784353813,
	"grad_norm": 5.293886184692383,
	"learning_rate": 2.5945640628933138e-05,
	"loss": 2.6432,
	"step": 289500
	},
	{
	"epoch": 1.6024135663647867,
	"grad_norm": 6.613586902618408,
	"learning_rate": 2.5894477904865986e-05,
	"loss": 2.618,
	"step": 290000
	},
	{
	"epoch": 1.6024135663647867,
	"eval_runtime": 1431.565,
	"eval_samples_per_second": 252.837,
	"eval_steps_per_second": 31.605,
	"step": 290000
	},
	{
	"epoch": 1.6051763483757604,
	"grad_norm": 7.696370601654053,
	"learning_rate": 2.584331518079884e-05,
	"loss": 2.6043,
	"step": 290500
	},
	{
	"epoch": 1.6079391303867343,
	"grad_norm": 14.686103820800781,
	"learning_rate": 2.579225478217982e-05,
	"loss": 2.6113,
	"step": 291000
	},
	{
	"epoch": 1.610701912397708,
	"grad_norm": 7.173743724822998,
	"learning_rate": 2.574109205811267e-05,
	"loss": 2.6496,
	"step": 291500
	},
	{
	"epoch": 1.6134646944086817,
	"grad_norm": 5.398017883300781,
	"learning_rate": 2.568992933404552e-05,
	"loss": 2.6616,
	"step": 292000
	},
	{
	"epoch": 1.6162274764196556,
	"grad_norm": 4.810672760009766,
	"learning_rate": 2.563876660997837e-05,
	"loss": 2.6557,
	"step": 292500
	},
	{
	"epoch": 1.6189902584306293,
	"grad_norm": 5.541525840759277,
	"learning_rate": 2.558760388591122e-05,
	"loss": 2.6657,
	"step": 293000
	},
	{
	"epoch": 1.621753040441603,
	"grad_norm": 6.207642555236816,
	"learning_rate": 2.5536543487292203e-05,
	"loss": 2.6438,
	"step": 293500
	},
	{
	"epoch": 1.6245158224525769,
	"grad_norm": 5.112069129943848,
	"learning_rate": 2.548538076322505e-05,
	"loss": 2.617,
	"step": 294000
	},
	{
	"epoch": 1.6272786044635508,
	"grad_norm": 5.147789001464844,
	"learning_rate": 2.5434218039157903e-05,
	"loss": 2.6407,
	"step": 294500
	},
	{
	"epoch": 1.6300413864745242,
	"grad_norm": 7.100889205932617,
	"learning_rate": 2.5383055315090752e-05,
	"loss": 2.6411,
	"step": 295000
	},
	{
	"epoch": 1.6300413864745242,
	"eval_runtime": 1371.2042,
	"eval_samples_per_second": 263.967,
	"eval_steps_per_second": 32.997,
	"step": 295000
	},
	{
	"epoch": 1.6328041684854981,
	"grad_norm": 8.297256469726562,
	"learning_rate": 2.5331892591023604e-05,
	"loss": 2.6792,
	"step": 295500
	},
	{
	"epoch": 1.635566950496472,
	"grad_norm": 7.450379371643066,
	"learning_rate": 2.5280729866956452e-05,
	"loss": 2.6567,
	"step": 296000
	},
	{
	"epoch": 1.6383297325074457,
	"grad_norm": 4.418615818023682,
	"learning_rate": 2.5229567142889304e-05,
	"loss": 2.5833,
	"step": 296500
	},
	{
	"epoch": 1.6410925145184194,
	"grad_norm": 8.853099822998047,
	"learning_rate": 2.5178404418822153e-05,
	"loss": 2.6617,
	"step": 297000
	},
	{
	"epoch": 1.6438552965293933,
	"grad_norm": 6.378116607666016,
	"learning_rate": 2.5127344020203138e-05,
	"loss": 2.6225,
	"step": 297500
	},
	{
	"epoch": 1.646618078540367,
	"grad_norm": 9.61796760559082,
	"learning_rate": 2.5076181296135987e-05,
	"loss": 2.7009,
	"step": 298000
	},
	{
	"epoch": 1.6493808605513407,
	"grad_norm": 6.160669803619385,
	"learning_rate": 2.502501857206884e-05,
	"loss": 2.667,
	"step": 298500
	},
	{
	"epoch": 1.6521436425623146,
	"grad_norm": 5.313681602478027,
	"learning_rate": 2.497395817344982e-05,
	"loss": 2.5937,
	"step": 299000
	},
	{
	"epoch": 1.6549064245732883,
	"grad_norm": 6.531844139099121,
	"learning_rate": 2.4922795449382672e-05,
	"loss": 2.6204,
	"step": 299500
	},
	{
	"epoch": 1.657669206584262,
	"grad_norm": 7.415525436401367,
	"learning_rate": 2.487163272531552e-05,
	"loss": 2.6015,
	"step": 300000
	},
	{
	"epoch": 1.657669206584262,
	"eval_runtime": 1437.4291,
	"eval_samples_per_second": 251.806,
	"eval_steps_per_second": 31.476,
	"step": 300000
	},
	{
	"epoch": 1.6604319885952359,
	"grad_norm": 7.35875129699707,
	"learning_rate": 2.4820470001248373e-05,
	"loss": 2.611,
	"step": 300500
	},
	{
	"epoch": 1.6631947706062098,
	"grad_norm": 6.453457355499268,
	"learning_rate": 2.476930727718122e-05,
	"loss": 2.6368,
	"step": 301000
	},
	{
	"epoch": 1.6659575526171833,
	"grad_norm": 5.64149808883667,
	"learning_rate": 2.4718144553114073e-05,
	"loss": 2.6352,
	"step": 301500
	},
	{
	"epoch": 1.6687203346281572,
	"grad_norm": 6.376221656799316,
	"learning_rate": 2.4666981829046922e-05,
	"loss": 2.6224,
	"step": 302000
	},
	{
	"epoch": 1.671483116639131,
	"grad_norm": 7.666605472564697,
	"learning_rate": 2.461581910497977e-05,
	"loss": 2.6664,
	"step": 302500
	},
	{
	"epoch": 1.6742458986501048,
	"grad_norm": 5.104877471923828,
	"learning_rate": 2.4564758706360755e-05,
	"loss": 2.5975,
	"step": 303000
	},
	{
	"epoch": 1.6770086806610784,
	"grad_norm": 14.055898666381836,
	"learning_rate": 2.4513595982293604e-05,
	"loss": 2.628,
	"step": 303500
	},
	{
	"epoch": 1.6797714626720524,
	"grad_norm": 9.033441543579102,
	"learning_rate": 2.4462433258226456e-05,
	"loss": 2.6281,
	"step": 304000
	},
	{
	"epoch": 1.682534244683026,
	"grad_norm": 12.3050537109375,
	"learning_rate": 2.4411270534159304e-05,
	"loss": 2.6701,
	"step": 304500
	},
	{
	"epoch": 1.6852970266939997,
	"grad_norm": 8.409795761108398,
	"learning_rate": 2.436021013554029e-05,
	"loss": 2.6023,
	"step": 305000
	},
	{
	"epoch": 1.6852970266939997,
	"eval_runtime": 1387.5318,
	"eval_samples_per_second": 260.861,
	"eval_steps_per_second": 32.608,
	"step": 305000
	},
	{
	"epoch": 1.6880598087049736,
	"grad_norm": 5.9802937507629395,
	"learning_rate": 2.4309149736921274e-05,
	"loss": 2.665,
	"step": 305500
	},
	{
	"epoch": 1.6908225907159473,
	"grad_norm": 6.1783270835876465,
	"learning_rate": 2.4257987012854126e-05,
	"loss": 2.6356,
	"step": 306000
	},
	{
	"epoch": 1.693585372726921,
	"grad_norm": 6.058241367340088,
	"learning_rate": 2.4206824288786975e-05,
	"loss": 2.6219,
	"step": 306500
	},
	{
	"epoch": 1.696348154737895,
	"grad_norm": 6.79514741897583,
	"learning_rate": 2.4155661564719824e-05,
	"loss": 2.6272,
	"step": 307000
	},
	{
	"epoch": 1.6991109367488686,
	"grad_norm": 9.22230052947998,
	"learning_rate": 2.4104498840652672e-05,
	"loss": 2.5919,
	"step": 307500
	},
	{
	"epoch": 1.7018737187598423,
	"grad_norm": 5.048295021057129,
	"learning_rate": 2.4053336116585524e-05,
	"loss": 2.6379,
	"step": 308000
	},
	{
	"epoch": 1.7046365007708162,
	"grad_norm": 7.282494068145752,
	"learning_rate": 2.4002173392518373e-05,
	"loss": 2.6391,
	"step": 308500
	},
	{
	"epoch": 1.70739928278179,
	"grad_norm": 6.831259727478027,
	"learning_rate": 2.3951010668451225e-05,
	"loss": 2.6218,
	"step": 309000
	},
	{
	"epoch": 1.7101620647927636,
	"grad_norm": 6.001838207244873,
	"learning_rate": 2.389995026983221e-05,
	"loss": 2.6372,
	"step": 309500
	},
	{
	"epoch": 1.7129248468037375,
	"grad_norm": 5.721564769744873,
	"learning_rate": 2.3848787545765058e-05,
	"loss": 2.7011,
	"step": 310000
	},
	{
	"epoch": 1.7129248468037375,
	"eval_runtime": 1416.3525,
	"eval_samples_per_second": 255.553,
	"eval_steps_per_second": 31.945,
	"step": 310000
	},
	{
	"epoch": 1.7156876288147114,
	"grad_norm": 7.709352970123291,
	"learning_rate": 2.379762482169791e-05,
	"loss": 2.6193,
	"step": 310500
	},
	{
	"epoch": 1.718450410825685,
	"grad_norm": 7.23681640625,
	"learning_rate": 2.374646209763076e-05,
	"loss": 2.6307,
	"step": 311000
	},
	{
	"epoch": 1.7212131928366587,
	"grad_norm": 6.505390167236328,
	"learning_rate": 2.3695401699011744e-05,
	"loss": 2.6409,
	"step": 311500
	},
	{
	"epoch": 1.7239759748476327,
	"grad_norm": 8.059307098388672,
	"learning_rate": 2.3644238974944592e-05,
	"loss": 2.6348,
	"step": 312000
	},
	{
	"epoch": 1.7267387568586063,
	"grad_norm": 7.6500749588012695,
	"learning_rate": 2.359307625087744e-05,
	"loss": 2.6435,
	"step": 312500
	},
	{
	"epoch": 1.72950153886958,
	"grad_norm": 9.657527923583984,
	"learning_rate": 2.3541913526810293e-05,
	"loss": 2.661,
	"step": 313000
	},
	{
	"epoch": 1.732264320880554,
	"grad_norm": 5.21886682510376,
	"learning_rate": 2.3490853128191275e-05,
	"loss": 2.6794,
	"step": 313500
	},
	{
	"epoch": 1.7350271028915276,
	"grad_norm": 6.33572244644165,
	"learning_rate": 2.3439690404124126e-05,
	"loss": 2.6372,
	"step": 314000
	},
	{
	"epoch": 1.7377898849025013,
	"grad_norm": 6.692564010620117,
	"learning_rate": 2.3388527680056975e-05,
	"loss": 2.6583,
	"step": 314500
	},
	{
	"epoch": 1.7405526669134752,
	"grad_norm": 5.055424690246582,
	"learning_rate": 2.3337364955989827e-05,
	"loss": 2.6386,
	"step": 315000
	},
	{
	"epoch": 1.7405526669134752,
	"eval_runtime": 1401.7623,
	"eval_samples_per_second": 258.213,
	"eval_steps_per_second": 32.277,
	"step": 315000
	},
	{
	"epoch": 1.7433154489244491,
	"grad_norm": 5.959291934967041,
	"learning_rate": 2.3286202231922676e-05,
	"loss": 2.6501,
	"step": 315500
	},
	{
	"epoch": 1.7460782309354226,
	"grad_norm": 7.027371406555176,
	"learning_rate": 2.323514183330366e-05,
	"loss": 2.6522,
	"step": 316000
	},
	{
	"epoch": 1.7488410129463965,
	"grad_norm": 6.8300557136535645,
	"learning_rate": 2.318397910923651e-05,
	"loss": 2.6386,
	"step": 316500
	},
	{
	"epoch": 1.7516037949573704,
	"grad_norm": 5.422798156738281,
	"learning_rate": 2.3132816385169358e-05,
	"loss": 2.6825,
	"step": 317000
	},
	{
	"epoch": 1.754366576968344,
	"grad_norm": 7.326968669891357,
	"learning_rate": 2.308165366110221e-05,
	"loss": 2.628,
	"step": 317500
	},
	{
	"epoch": 1.7571293589793178,
	"grad_norm": 6.498944282531738,
	"learning_rate": 2.3030490937035058e-05,
	"loss": 2.6193,
	"step": 318000
	},
	{
	"epoch": 1.7598921409902917,
	"grad_norm": 7.064229965209961,
	"learning_rate": 2.297953286386418e-05,
	"loss": 2.6416,
	"step": 318500
	},
	{
	"epoch": 1.7626549230012654,
	"grad_norm": 6.315282344818115,
	"learning_rate": 2.2928370139797028e-05,
	"loss": 2.6887,
	"step": 319000
	},
	{
	"epoch": 1.765417705012239,
	"grad_norm": 8.035995483398438,
	"learning_rate": 2.287720741572988e-05,
	"loss": 2.6238,
	"step": 319500
	},
	{
	"epoch": 1.768180487023213,
	"grad_norm": 7.513897895812988,
	"learning_rate": 2.282604469166273e-05,
	"loss": 2.626,
	"step": 320000
	},
	{
	"epoch": 1.768180487023213,
	"eval_runtime": 1385.5831,
	"eval_samples_per_second": 261.228,
	"eval_steps_per_second": 32.654,
	"step": 320000
	},
	{
	"epoch": 1.7709432690341866,
	"grad_norm": 6.0088090896606445,
	"learning_rate": 2.277488196759558e-05,
	"loss": 2.6455,
	"step": 320500
	},
	{
	"epoch": 1.7737060510451603,
	"grad_norm": 4.775638103485107,
	"learning_rate": 2.2723719243528426e-05,
	"loss": 2.6581,
	"step": 321000
	},
	{
	"epoch": 1.7764688330561342,
	"grad_norm": 5.797138690948486,
	"learning_rate": 2.2672556519461278e-05,
	"loss": 2.6307,
	"step": 321500
	},
	{
	"epoch": 1.7792316150671081,
	"grad_norm": 6.206060886383057,
	"learning_rate": 2.2621393795394127e-05,
	"loss": 2.6399,
	"step": 322000
	},
	{
	"epoch": 1.7819943970780816,
	"grad_norm": 6.536865711212158,
	"learning_rate": 2.257023107132698e-05,
	"loss": 2.6514,
	"step": 322500
	},
	{
	"epoch": 1.7847571790890555,
	"grad_norm": 5.105484962463379,
	"learning_rate": 2.2519170672707964e-05,
	"loss": 2.6481,
	"step": 323000
	},
	{
	"epoch": 1.7875199611000294,
	"grad_norm": 5.873786926269531,
	"learning_rate": 2.2468007948640812e-05,
	"loss": 2.6467,
	"step": 323500
	},
	{
	"epoch": 1.790282743111003,
	"grad_norm": 5.885590553283691,
	"learning_rate": 2.2416947550021797e-05,
	"loss": 2.6207,
	"step": 324000
	},
	{
	"epoch": 1.7930455251219768,
	"grad_norm": 9.117544174194336,
	"learning_rate": 2.2365784825954646e-05,
	"loss": 2.6161,
	"step": 324500
	},
	{
	"epoch": 1.7958083071329507,
	"grad_norm": 7.810193061828613,
	"learning_rate": 2.2314622101887498e-05,
	"loss": 2.6701,
	"step": 325000
	},
	{
	"epoch": 1.7958083071329507,
	"eval_runtime": 1431.4837,
	"eval_samples_per_second": 252.852,
	"eval_steps_per_second": 31.607,
	"step": 325000
	},
	{
	"epoch": 1.7985710891439244,
	"grad_norm": 5.142136573791504,
	"learning_rate": 2.2263459377820346e-05,
	"loss": 2.6457,
	"step": 325500
	},
	{
	"epoch": 1.801333871154898,
	"grad_norm": 6.691473960876465,
	"learning_rate": 2.2212398979201328e-05,
	"loss": 2.6182,
	"step": 326000
	},
	{
	"epoch": 1.804096653165872,
	"grad_norm": 10.478597640991211,
	"learning_rate": 2.216123625513418e-05,
	"loss": 2.6797,
	"step": 326500
	},
	{
	"epoch": 1.8068594351768457,
	"grad_norm": 6.4801554679870605,
	"learning_rate": 2.211007353106703e-05,
	"loss": 2.6638,
	"step": 327000
	},
	{
	"epoch": 1.8096222171878193,
	"grad_norm": 5.350027561187744,
	"learning_rate": 2.205891080699988e-05,
	"loss": 2.6383,
	"step": 327500
	},
	{
	"epoch": 1.8123849991987933,
	"grad_norm": 7.608794689178467,
	"learning_rate": 2.200774808293273e-05,
	"loss": 2.6547,
	"step": 328000
	},
	{
	"epoch": 1.815147781209767,
	"grad_norm": 7.434188365936279,
	"learning_rate": 2.195658535886558e-05,
	"loss": 2.6311,
	"step": 328500
	},
	{
	"epoch": 1.8179105632207406,
	"grad_norm": 5.700359344482422,
	"learning_rate": 2.190542263479843e-05,
	"loss": 2.641,
	"step": 329000
	},
	{
	"epoch": 1.8206733452317145,
	"grad_norm": 5.555663585662842,
	"learning_rate": 2.185425991073128e-05,
	"loss": 2.6202,
	"step": 329500
	},
	{
	"epoch": 1.8234361272426884,
	"grad_norm": 6.527945518493652,
	"learning_rate": 2.180309718666413e-05,
	"loss": 2.6888,
	"step": 330000
	},
	{
	"epoch": 1.8234361272426884,
	"eval_runtime": 1420.615,
	"eval_samples_per_second": 254.786,
	"eval_steps_per_second": 31.849,
	"step": 330000
	},
	{
	"epoch": 1.826198909253662,
	"grad_norm": 8.153132438659668,
	"learning_rate": 2.175193446259698e-05,
	"loss": 2.6267,
	"step": 330500
	},
	{
	"epoch": 1.8289616912646358,
	"grad_norm": 5.93485164642334,
	"learning_rate": 2.170077173852983e-05,
	"loss": 2.642,
	"step": 331000
	},
	{
	"epoch": 1.8317244732756097,
	"grad_norm": 7.894295692443848,
	"learning_rate": 2.164960901446268e-05,
	"loss": 2.6249,
	"step": 331500
	},
	{
	"epoch": 1.8344872552865834,
	"grad_norm": 7.009608268737793,
	"learning_rate": 2.159844629039553e-05,
	"loss": 2.6824,
	"step": 332000
	},
	{
	"epoch": 1.837250037297557,
	"grad_norm": 23.06879997253418,
	"learning_rate": 2.1547385891776513e-05,
	"loss": 2.6113,
	"step": 332500
	},
	{
	"epoch": 1.840012819308531,
	"grad_norm": 5.4768290519714355,
	"learning_rate": 2.1496223167709365e-05,
	"loss": 2.6372,
	"step": 333000
	},
	{
	"epoch": 1.8427756013195047,
	"grad_norm": 5.850235939025879,
	"learning_rate": 2.1445060443642213e-05,
	"loss": 2.6308,
	"step": 333500
	},
	{
	"epoch": 1.8455383833304784,
	"grad_norm": 6.897058963775635,
	"learning_rate": 2.1393897719575065e-05,
	"loss": 2.6435,
	"step": 334000
	},
	{
	"epoch": 1.8483011653414523,
	"grad_norm": 7.006948947906494,
	"learning_rate": 2.134283732095605e-05,
	"loss": 2.6398,
	"step": 334500
	},
	{
	"epoch": 1.851063947352426,
	"grad_norm": 5.789132595062256,
	"learning_rate": 2.1291674596888895e-05,
	"loss": 2.6249,
	"step": 335000
	},
	{
	"epoch": 1.851063947352426,
	"eval_runtime": 1441.3667,
	"eval_samples_per_second": 251.118,
	"eval_steps_per_second": 31.39,
	"step": 335000
	},
	{
	"epoch": 1.8538267293633997,
	"grad_norm": 7.754148006439209,
	"learning_rate": 2.1240511872821747e-05,
	"loss": 2.6279,
	"step": 335500
	},
	{
	"epoch": 1.8565895113743736,
	"grad_norm": 5.5116071701049805,
	"learning_rate": 2.1189349148754596e-05,
	"loss": 2.6443,
	"step": 336000
	},
	{
	"epoch": 1.8593522933853475,
	"grad_norm": 7.665276050567627,
	"learning_rate": 2.113828875013558e-05,
	"loss": 2.5898,
	"step": 336500
	},
	{
	"epoch": 1.862115075396321,
	"grad_norm": 6.607998371124268,
	"learning_rate": 2.1087126026068433e-05,
	"loss": 2.6224,
	"step": 337000
	},
	{
	"epoch": 1.8648778574072948,
	"grad_norm": 7.938060760498047,
	"learning_rate": 2.103596330200128e-05,
	"loss": 2.6023,
	"step": 337500
	},
	{
	"epoch": 1.8676406394182687,
	"grad_norm": 5.741148948669434,
	"learning_rate": 2.0984800577934133e-05,
	"loss": 2.6425,
	"step": 338000
	},
	{
	"epoch": 1.8704034214292424,
	"grad_norm": 7.50128173828125,
	"learning_rate": 2.093374017931512e-05,
	"loss": 2.6474,
	"step": 338500
	},
	{
	"epoch": 1.8731662034402161,
	"grad_norm": 5.097824573516846,
	"learning_rate": 2.0882577455247967e-05,
	"loss": 2.682,
	"step": 339000
	},
	{
	"epoch": 1.87592898545119,
	"grad_norm": 7.523733139038086,
	"learning_rate": 2.0831414731180816e-05,
	"loss": 2.6237,
	"step": 339500
	},
	{
	"epoch": 1.8786917674621637,
	"grad_norm": 10.524862289428711,
	"learning_rate": 2.0780252007113664e-05,
	"loss": 2.6293,
	"step": 340000
	},
	{
	"epoch": 1.8786917674621637,
	"eval_runtime": 1428.3224,
	"eval_samples_per_second": 253.411,
	"eval_steps_per_second": 31.677,
	"step": 340000
	},
	{
	"epoch": 1.8814545494731374,
	"grad_norm": 5.725772380828857,
	"learning_rate": 2.072919160849465e-05,
	"loss": 2.6238,
	"step": 340500
	},
	{
	"epoch": 1.8842173314841113,
	"grad_norm": 6.34156608581543,
	"learning_rate": 2.06780288844275e-05,
	"loss": 2.5932,
	"step": 341000
	},
	{
	"epoch": 1.886980113495085,
	"grad_norm": 9.06069278717041,
	"learning_rate": 2.062686616036035e-05,
	"loss": 2.6577,
	"step": 341500
	},
	{
	"epoch": 1.8897428955060587,
	"grad_norm": 7.7342329025268555,
	"learning_rate": 2.05757034362932e-05,
	"loss": 2.6486,
	"step": 342000
	},
	{
	"epoch": 1.8925056775170326,
	"grad_norm": 7.23144006729126,
	"learning_rate": 2.052454071222605e-05,
	"loss": 2.6266,
	"step": 342500
	},
	{
	"epoch": 1.8952684595280063,
	"grad_norm": 6.990833759307861,
	"learning_rate": 2.0473480313607035e-05,
	"loss": 2.6279,
	"step": 343000
	},
	{
	"epoch": 1.89803124153898,
	"grad_norm": 9.42507553100586,
	"learning_rate": 2.0422317589539884e-05,
	"loss": 2.61,
	"step": 343500
	},
	{
	"epoch": 1.9007940235499539,
	"grad_norm": 4.919162750244141,
	"learning_rate": 2.037125719092087e-05,
	"loss": 2.6752,
	"step": 344000
	},
	{
	"epoch": 1.9035568055609278,
	"grad_norm": 6.697198390960693,
	"learning_rate": 2.0320094466853717e-05,
	"loss": 2.6724,
	"step": 344500
	},
	{
	"epoch": 1.9063195875719015,
	"grad_norm": 8.001893043518066,
	"learning_rate": 2.026893174278657e-05,
	"loss": 2.6417,
	"step": 345000
	},
	{
	"epoch": 1.9063195875719015,
	"eval_runtime": 1396.1909,
	"eval_samples_per_second": 259.243,
	"eval_steps_per_second": 32.406,
	"step": 345000
	},
	{
	"epoch": 1.9090823695828751,
	"grad_norm": 6.076798915863037,
	"learning_rate": 2.0217769018719418e-05,
	"loss": 2.6188,
	"step": 345500
	},
	{
	"epoch": 1.911845151593849,
	"grad_norm": 6.7825398445129395,
	"learning_rate": 2.016660629465227e-05,
	"loss": 2.6218,
	"step": 346000
	},
	{
	"epoch": 1.9146079336048227,
	"grad_norm": 7.529403209686279,
	"learning_rate": 2.011544357058512e-05,
	"loss": 2.6696,
	"step": 346500
	},
	{
	"epoch": 1.9173707156157964,
	"grad_norm": 6.596738815307617,
	"learning_rate": 2.006428084651797e-05,
	"loss": 2.5924,
	"step": 347000
	},
	{
	"epoch": 1.9201334976267703,
	"grad_norm": 8.123401641845703,
	"learning_rate": 2.001311812245082e-05,
	"loss": 2.6367,
	"step": 347500
	},
	{
	"epoch": 1.922896279637744,
	"grad_norm": 7.292053699493408,
	"learning_rate": 1.996195539838367e-05,
	"loss": 2.6255,
	"step": 348000
	},
	{
	"epoch": 1.9256590616487177,
	"grad_norm": 8.276845932006836,
	"learning_rate": 1.9910894999764653e-05,
	"loss": 2.6787,
	"step": 348500
	},
	{
	"epoch": 1.9284218436596916,
	"grad_norm": 7.750123023986816,
	"learning_rate": 1.98597322756975e-05,
	"loss": 2.6608,
	"step": 349000
	},
	{
	"epoch": 1.9311846256706653,
	"grad_norm": 5.726837158203125,
	"learning_rate": 1.9808569551630353e-05,
	"loss": 2.6488,
	"step": 349500
	},
	{
	"epoch": 1.933947407681639,
	"grad_norm": 6.344818592071533,
	"learning_rate": 1.9757406827563202e-05,
	"loss": 2.6391,
	"step": 350000
	},
	{
	"epoch": 1.933947407681639,
	"eval_runtime": 1416.31,
	"eval_samples_per_second": 255.561,
	"eval_steps_per_second": 31.946,
	"step": 350000
	},
	{
	"epoch": 1.9367101896926129,
	"grad_norm": 6.042297840118408,
	"learning_rate": 1.9706346428944187e-05,
	"loss": 2.6575,
	"step": 350500
	},
	{
	"epoch": 1.9394729717035868,
	"grad_norm": 7.41777229309082,
	"learning_rate": 1.9655183704877035e-05,
	"loss": 2.6125,
	"step": 351000
	},
	{
	"epoch": 1.9422357537145603,
	"grad_norm": 7.600329875946045,
	"learning_rate": 1.960412330625802e-05,
	"loss": 2.5912,
	"step": 351500
	},
	{
	"epoch": 1.9449985357255342,
	"grad_norm": 8.74294376373291,
	"learning_rate": 1.9552960582190872e-05,
	"loss": 2.6447,
	"step": 352000
	},
	{
	"epoch": 1.947761317736508,
	"grad_norm": 7.785200595855713,
	"learning_rate": 1.950179785812372e-05,
	"loss": 2.6272,
	"step": 352500
	},
	{
	"epoch": 1.9505240997474818,
	"grad_norm": 5.1395263671875,
	"learning_rate": 1.9450635134056573e-05,
	"loss": 2.6262,
	"step": 353000
	},
	{
	"epoch": 1.9532868817584554,
	"grad_norm": 6.273059368133545,
	"learning_rate": 1.9399472409989418e-05,
	"loss": 2.6474,
	"step": 353500
	},
	{
	"epoch": 1.9560496637694293,
	"grad_norm": 7.929372787475586,
	"learning_rate": 1.9348412011370403e-05,
	"loss": 2.6075,
	"step": 354000
	},
	{
	"epoch": 1.958812445780403,
	"grad_norm": 5.680710792541504,
	"learning_rate": 1.9297249287303255e-05,
	"loss": 2.6348,
	"step": 354500
	},
	{
	"epoch": 1.9615752277913767,
	"grad_norm": 7.282249450683594,
	"learning_rate": 1.9246086563236104e-05,
	"loss": 2.6393,
	"step": 355000
	},
	{
	"epoch": 1.9615752277913767,
	"eval_runtime": 1435.1937,
	"eval_samples_per_second": 252.198,
	"eval_steps_per_second": 31.525,
	"step": 355000
	},
	{
	"epoch": 1.9643380098023506,
	"grad_norm": 7.032031536102295,
	"learning_rate": 1.9194923839168956e-05,
	"loss": 2.6573,
	"step": 355500
	},
	{
	"epoch": 1.9671007918133243,
	"grad_norm": 7.789410591125488,
	"learning_rate": 1.9143761115101804e-05,
	"loss": 2.6282,
	"step": 356000
	},
	{
	"epoch": 1.969863573824298,
	"grad_norm": 7.624570369720459,
	"learning_rate": 1.9092598391034656e-05,
	"loss": 2.6147,
	"step": 356500
	},
	{
	"epoch": 1.972626355835272,
	"grad_norm": 7.583735942840576,
	"learning_rate": 1.9041435666967505e-05,
	"loss": 2.6087,
	"step": 357000
	},
	{
	"epoch": 1.9753891378462458,
	"grad_norm": 7.545061111450195,
	"learning_rate": 1.8990272942900357e-05,
	"loss": 2.6363,
	"step": 357500
	},
	{
	"epoch": 1.9781519198572193,
	"grad_norm": 8.852106094360352,
	"learning_rate": 1.8939110218833202e-05,
	"loss": 2.6375,
	"step": 358000
	},
	{
	"epoch": 1.9809147018681932,
	"grad_norm": 9.523889541625977,
	"learning_rate": 1.8888049820214187e-05,
	"loss": 2.6647,
	"step": 358500
	},
	{
	"epoch": 1.983677483879167,
	"grad_norm": 5.024425029754639,
	"learning_rate": 1.883688709614704e-05,
	"loss": 2.6493,
	"step": 359000
	},
	{
	"epoch": 1.9864402658901408,
	"grad_norm": 6.810407638549805,
	"learning_rate": 1.8785724372079887e-05,
	"loss": 2.6589,
	"step": 359500
	},
	{
	"epoch": 1.9892030479011145,
	"grad_norm": 7.492327690124512,
	"learning_rate": 1.873456164801274e-05,
	"loss": 2.6184,
	"step": 360000
	},
	{
	"epoch": 1.9892030479011145,
	"eval_runtime": 1381.387,
	"eval_samples_per_second": 262.021,
	"eval_steps_per_second": 32.753,
	"step": 360000
	},
	{
	"epoch": 1.9919658299120884,
	"grad_norm": 7.694727420806885,
	"learning_rate": 1.8683501249393724e-05,
	"loss": 2.6087,
	"step": 360500
	},
	{
	"epoch": 1.994728611923062,
	"grad_norm": 6.121093273162842,
	"learning_rate": 1.8632338525326573e-05,
	"loss": 2.6543,
	"step": 361000
	},
	{
	"epoch": 1.9974913939340357,
	"grad_norm": 11.24258041381836,
	"learning_rate": 1.8581175801259425e-05,
	"loss": 2.5845,
	"step": 361500
	},
	{
	"epoch": 2.0002541759450096,
	"grad_norm": 6.372257709503174,
	"learning_rate": 1.8530013077192273e-05,
	"loss": 2.6031,
	"step": 362000
	},
	{
	"epoch": 2.0030169579559836,
	"grad_norm": 6.463737964630127,
	"learning_rate": 1.847895267857326e-05,
	"loss": 2.6096,
	"step": 362500
	},
	{
	"epoch": 2.005779739966957,
	"grad_norm": 5.803626537322998,
	"learning_rate": 1.8427789954506107e-05,
	"loss": 2.6181,
	"step": 363000
	},
	{
	"epoch": 2.008542521977931,
	"grad_norm": 6.860798358917236,
	"learning_rate": 1.8376627230438956e-05,
	"loss": 2.6372,
	"step": 363500
	},
	{
	"epoch": 2.011305303988905,
	"grad_norm": 6.21894645690918,
	"learning_rate": 1.832556683181994e-05,
	"loss": 2.5802,
	"step": 364000
	},
	{
	"epoch": 2.0140680859998783,
	"grad_norm": 5.939208507537842,
	"learning_rate": 1.827440410775279e-05,
	"loss": 2.6489,
	"step": 364500
	},
	{
	"epoch": 2.016830868010852,
	"grad_norm": 11.368240356445312,
	"learning_rate": 1.822324138368564e-05,
	"loss": 2.665,
	"step": 365000
	},
	{
	"epoch": 2.016830868010852,
	"eval_runtime": 1404.9151,
	"eval_samples_per_second": 257.633,
	"eval_steps_per_second": 32.205,
	"step": 365000
	},
	{
	"epoch": 2.019593650021826,
	"grad_norm": 6.604458808898926,
	"learning_rate": 1.817207865961849e-05,
	"loss": 2.6483,
	"step": 365500
	},
	{
	"epoch": 2.0223564320327996,
	"grad_norm": 9.250690460205078,
	"learning_rate": 1.812091593555134e-05,
	"loss": 2.5957,
	"step": 366000
	},
	{
	"epoch": 2.0251192140437735,
	"grad_norm": 4.720149517059326,
	"learning_rate": 1.806975321148419e-05,
	"loss": 2.6207,
	"step": 366500
	},
	{
	"epoch": 2.0278819960547474,
	"grad_norm": 4.749586582183838,
	"learning_rate": 1.801859048741704e-05,
	"loss": 2.5841,
	"step": 367000
	},
	{
	"epoch": 2.030644778065721,
	"grad_norm": 9.431694984436035,
	"learning_rate": 1.796742776334989e-05,
	"loss": 2.645,
	"step": 367500
	},
	{
	"epoch": 2.0334075600766948,
	"grad_norm": 9.072124481201172,
	"learning_rate": 1.7916367364730872e-05,
	"loss": 2.6951,
	"step": 368000
	},
	{
	"epoch": 2.0361703420876687,
	"grad_norm": 5.056208610534668,
	"learning_rate": 1.7865204640663724e-05,
	"loss": 2.5918,
	"step": 368500
	},
	{
	"epoch": 2.0389331240986426,
	"grad_norm": 6.752665996551514,
	"learning_rate": 1.7814041916596573e-05,
	"loss": 2.6602,
	"step": 369000
	},
	{
	"epoch": 2.041695906109616,
	"grad_norm": 10.628358840942383,
	"learning_rate": 1.7762879192529425e-05,
	"loss": 2.6218,
	"step": 369500
	},
	{
	"epoch": 2.04445868812059,
	"grad_norm": 6.070361614227295,
	"learning_rate": 1.7711716468462274e-05,
	"loss": 2.7051,
	"step": 370000
	},
	{
	"epoch": 2.04445868812059,
	"eval_runtime": 1429.0226,
	"eval_samples_per_second": 253.287,
	"eval_steps_per_second": 31.662,
	"step": 370000
	},
	{
	"epoch": 2.047221470131564,
	"grad_norm": 7.342000961303711,
	"learning_rate": 1.766065606984326e-05,
	"loss": 2.6368,
	"step": 370500
	},
	{
	"epoch": 2.0499842521425373,
	"grad_norm": 10.825027465820312,
	"learning_rate": 1.760949334577611e-05,
	"loss": 2.6431,
	"step": 371000
	},
	{
	"epoch": 2.0527470341535112,
	"grad_norm": 5.528331756591797,
	"learning_rate": 1.755833062170896e-05,
	"loss": 2.6038,
	"step": 371500
	},
	{
	"epoch": 2.055509816164485,
	"grad_norm": 5.892696380615234,
	"learning_rate": 1.7507167897641808e-05,
	"loss": 2.6242,
	"step": 372000
	},
	{
	"epoch": 2.0582725981754586,
	"grad_norm": 6.996720790863037,
	"learning_rate": 1.7456107499022793e-05,
	"loss": 2.6515,
	"step": 372500
	},
	{
	"epoch": 2.0610353801864325,
	"grad_norm": 6.8381757736206055,
	"learning_rate": 1.740494477495564e-05,
	"loss": 2.6302,
	"step": 373000
	},
	{
	"epoch": 2.0637981621974064,
	"grad_norm": 8.656445503234863,
	"learning_rate": 1.7353782050888493e-05,
	"loss": 2.6484,
	"step": 373500
	},
	{
	"epoch": 2.06656094420838,
	"grad_norm": 6.725839138031006,
	"learning_rate": 1.7302619326821342e-05,
	"loss": 2.6319,
	"step": 374000
	},
	{
	"epoch": 2.069323726219354,
	"grad_norm": 5.520457744598389,
	"learning_rate": 1.7251558928202327e-05,
	"loss": 2.626,
	"step": 374500
	},
	{
	"epoch": 2.0720865082303277,
	"grad_norm": 5.802083969116211,
	"learning_rate": 1.720039620413518e-05,
	"loss": 2.6161,
	"step": 375000
	},
	{
	"epoch": 2.0720865082303277,
	"eval_runtime": 1404.6799,
	"eval_samples_per_second": 257.676,
	"eval_steps_per_second": 32.21,
	"step": 375000
	},
	{
	"epoch": 2.0748492902413016,
	"grad_norm": 6.6860551834106445,
	"learning_rate": 1.7149233480068027e-05,
	"loss": 2.6162,
	"step": 375500
	},
	{
	"epoch": 2.077612072252275,
	"grad_norm": 6.858133792877197,
	"learning_rate": 1.709807075600088e-05,
	"loss": 2.6101,
	"step": 376000
	},
	{
	"epoch": 2.080374854263249,
	"grad_norm": 6.421977996826172,
	"learning_rate": 1.7046908031933724e-05,
	"loss": 2.6648,
	"step": 376500
	},
	{
	"epoch": 2.083137636274223,
	"grad_norm": 5.524794578552246,
	"learning_rate": 1.699584763331471e-05,
	"loss": 2.616,
	"step": 377000
	},
	{
	"epoch": 2.0859004182851963,
	"grad_norm": 11.743040084838867,
	"learning_rate": 1.694468490924756e-05,
	"loss": 2.5836,
	"step": 377500
	},
	{
	"epoch": 2.0886632002961703,
	"grad_norm": 11.61206340789795,
	"learning_rate": 1.689352218518041e-05,
	"loss": 2.6349,
	"step": 378000
	},
	{
	"epoch": 2.091425982307144,
	"grad_norm": 10.494318962097168,
	"learning_rate": 1.6842359461113262e-05,
	"loss": 2.6134,
	"step": 378500
	},
	{
	"epoch": 2.0941887643181176,
	"grad_norm": 5.6387619972229,
	"learning_rate": 1.679119673704611e-05,
	"loss": 2.6245,
	"step": 379000
	},
	{
	"epoch": 2.0969515463290915,
	"grad_norm": 8.307207107543945,
	"learning_rate": 1.6740136338427096e-05,
	"loss": 2.6092,
	"step": 379500
	},
	{
	"epoch": 2.0997143283400654,
	"grad_norm": 8.203621864318848,
	"learning_rate": 1.6688973614359944e-05,
	"loss": 2.6709,
	"step": 380000
	},
	{
	"epoch": 2.0997143283400654,
	"eval_runtime": 1387.6269,
	"eval_samples_per_second": 260.843,
	"eval_steps_per_second": 32.606,
	"step": 380000
	},
	{
	"epoch": 2.102477110351039,
	"grad_norm": 7.687305927276611,
	"learning_rate": 1.6637810890292796e-05,
	"loss": 2.6405,
	"step": 380500
	},
	{
	"epoch": 2.105239892362013,
	"grad_norm": 5.860333442687988,
	"learning_rate": 1.6586648166225645e-05,
	"loss": 2.6511,
	"step": 381000
	},
	{
	"epoch": 2.1080026743729867,
	"grad_norm": 6.413809299468994,
	"learning_rate": 1.6535587767606626e-05,
	"loss": 2.634,
	"step": 381500
	},
	{
	"epoch": 2.11076545638396,
	"grad_norm": 6.205860137939453,
	"learning_rate": 1.6484425043539478e-05,
	"loss": 2.6624,
	"step": 382000
	},
	{
	"epoch": 2.113528238394934,
	"grad_norm": 7.94976806640625,
	"learning_rate": 1.6433262319472327e-05,
	"loss": 2.592,
	"step": 382500
	},
	{
	"epoch": 2.116291020405908,
	"grad_norm": 6.3407793045043945,
	"learning_rate": 1.638209959540518e-05,
	"loss": 2.6391,
	"step": 383000
	},
	{
	"epoch": 2.119053802416882,
	"grad_norm": 5.911262512207031,
	"learning_rate": 1.6331039196786164e-05,
	"loss": 2.6936,
	"step": 383500
	},
	{
	"epoch": 2.1218165844278554,
	"grad_norm": 6.195751667022705,
	"learning_rate": 1.6279876472719012e-05,
	"loss": 2.6127,
	"step": 384000
	},
	{
	"epoch": 2.1245793664388293,
	"grad_norm": 7.307173252105713,
	"learning_rate": 1.6228713748651864e-05,
	"loss": 2.6623,
	"step": 384500
	},
	{
	"epoch": 2.127342148449803,
	"grad_norm": 7.353754043579102,
	"learning_rate": 1.6177551024584713e-05,
	"loss": 2.6114,
	"step": 385000
	},
	{
	"epoch": 2.127342148449803,
	"eval_runtime": 1366.6131,
	"eval_samples_per_second": 264.854,
	"eval_steps_per_second": 33.107,
	"step": 385000
	},
	{
	"epoch": 2.1301049304607766,
	"grad_norm": 6.172619342803955,
	"learning_rate": 1.6126490625965698e-05,
	"loss": 2.6657,
	"step": 385500
	},
	{
	"epoch": 2.1328677124717506,
	"grad_norm": 7.605554580688477,
	"learning_rate": 1.6075327901898546e-05,
	"loss": 2.6024,
	"step": 386000
	},
	{
	"epoch": 2.1356304944827245,
	"grad_norm": 8.817626953125,
	"learning_rate": 1.6024165177831395e-05,
	"loss": 2.6079,
	"step": 386500
	},
	{
	"epoch": 2.138393276493698,
	"grad_norm": 7.332306861877441,
	"learning_rate": 1.5973002453764247e-05,
	"loss": 2.6872,
	"step": 387000
	},
	{
	"epoch": 2.141156058504672,
	"grad_norm": 4.464954853057861,
	"learning_rate": 1.5921839729697096e-05,
	"loss": 2.6496,
	"step": 387500
	},
	{
	"epoch": 2.1439188405156457,
	"grad_norm": 5.7703962326049805,
	"learning_rate": 1.5870677005629948e-05,
	"loss": 2.6303,
	"step": 388000
	},
	{
	"epoch": 2.146681622526619,
	"grad_norm": 7.109230041503906,
	"learning_rate": 1.5819616607010933e-05,
	"loss": 2.6188,
	"step": 388500
	},
	{
	"epoch": 2.149444404537593,
	"grad_norm": 10.503727912902832,
	"learning_rate": 1.576845388294378e-05,
	"loss": 2.6147,
	"step": 389000
	},
	{
	"epoch": 2.152207186548567,
	"grad_norm": 7.042636394500732,
	"learning_rate": 1.5717291158876633e-05,
	"loss": 2.6058,
	"step": 389500
	},
	{
	"epoch": 2.1549699685595405,
	"grad_norm": 6.6826252937316895,
	"learning_rate": 1.5666230760257615e-05,
	"loss": 2.6158,
	"step": 390000
	},
	{
	"epoch": 2.1549699685595405,
	"eval_runtime": 1433.6301,
	"eval_samples_per_second": 252.473,
	"eval_steps_per_second": 31.56,
	"step": 390000
	},
	{
	"epoch": 2.1577327505705144,
	"grad_norm": 8.209315299987793,
	"learning_rate": 1.5615068036190463e-05,
	"loss": 2.648,
	"step": 390500
	},
	{
	"epoch": 2.1604955325814883,
	"grad_norm": 6.613926887512207,
	"learning_rate": 1.5563905312123315e-05,
	"loss": 2.6458,
	"step": 391000
	},
	{
	"epoch": 2.163258314592462,
	"grad_norm": 7.016421794891357,
	"learning_rate": 1.5512742588056164e-05,
	"loss": 2.6386,
	"step": 391500
	},
	{
	"epoch": 2.1660210966034357,
	"grad_norm": 6.227564811706543,
	"learning_rate": 1.5461579863989016e-05,
	"loss": 2.6648,
	"step": 392000
	},
	{
	"epoch": 2.1687838786144096,
	"grad_norm": 6.598555088043213,
	"learning_rate": 1.5410417139921864e-05,
	"loss": 2.6187,
	"step": 392500
	},
	{
	"epoch": 2.1715466606253835,
	"grad_norm": 8.013922691345215,
	"learning_rate": 1.5359254415854716e-05,
	"loss": 2.6079,
	"step": 393000
	},
	{
	"epoch": 2.174309442636357,
	"grad_norm": 5.305454730987549,
	"learning_rate": 1.53081940172357e-05,
	"loss": 2.6232,
	"step": 393500
	},
	{
	"epoch": 2.177072224647331,
	"grad_norm": 7.661605358123779,
	"learning_rate": 1.525703129316855e-05,
	"loss": 2.6102,
	"step": 394000
	},
	{
	"epoch": 2.1798350066583048,
	"grad_norm": 7.636397838592529,
	"learning_rate": 1.52058685691014e-05,
	"loss": 2.635,
	"step": 394500
	},
	{
	"epoch": 2.1825977886692782,
	"grad_norm": 9.935632705688477,
	"learning_rate": 1.5154705845034247e-05,
	"loss": 2.5679,
	"step": 395000
	},
	{
	"epoch": 2.1825977886692782,
	"eval_runtime": 1450.0546,
	"eval_samples_per_second": 249.613,
	"eval_steps_per_second": 31.202,
	"step": 395000
	},
	{
	"epoch": 2.185360570680252,
	"grad_norm": 6.385195255279541,
	"learning_rate": 1.5103543120967097e-05,
	"loss": 2.6055,
	"step": 395500
	},
	{
	"epoch": 2.188123352691226,
	"grad_norm": 4.359088897705078,
	"learning_rate": 1.5052380396899948e-05,
	"loss": 2.6116,
	"step": 396000
	},
	{
	"epoch": 2.1908861347021995,
	"grad_norm": 6.967292308807373,
	"learning_rate": 1.5001217672832798e-05,
	"loss": 2.5738,
	"step": 396500
	},
	{
	"epoch": 2.1936489167131734,
	"grad_norm": 5.064013481140137,
	"learning_rate": 1.4950054948765648e-05,
	"loss": 2.59,
	"step": 397000
	},
	{
	"epoch": 2.1964116987241473,
	"grad_norm": 7.287230014801025,
	"learning_rate": 1.4898892224698498e-05,
	"loss": 2.5935,
	"step": 397500
	},
	{
	"epoch": 2.1991744807351212,
	"grad_norm": 5.277096271514893,
	"learning_rate": 1.4847831826079483e-05,
	"loss": 2.6603,
	"step": 398000
	},
	{
	"epoch": 2.2019372627460947,
	"grad_norm": 5.027023792266846,
	"learning_rate": 1.4796771427460468e-05,
	"loss": 2.6749,
	"step": 398500
	},
	{
	"epoch": 2.2047000447570686,
	"grad_norm": 5.998363494873047,
	"learning_rate": 1.4745608703393319e-05,
	"loss": 2.6365,
	"step": 399000
	},
	{
	"epoch": 2.2074628267680425,
	"grad_norm": 5.35511589050293,
	"learning_rate": 1.4694445979326169e-05,
	"loss": 2.6342,
	"step": 399500
	},
	{
	"epoch": 2.210225608779016,
	"grad_norm": 4.967937469482422,
	"learning_rate": 1.4643283255259016e-05,
	"loss": 2.6388,
	"step": 400000
	},
	{
	"epoch": 2.210225608779016,
	"eval_runtime": 1400.0792,
	"eval_samples_per_second": 258.523,
	"eval_steps_per_second": 32.316,
	"step": 400000
	},
	{
	"epoch": 2.21298839078999,
	"grad_norm": 5.5652055740356445,
	"learning_rate": 1.4592120531191866e-05,
	"loss": 2.629,
	"step": 400500
	},
	{
	"epoch": 2.215751172800964,
	"grad_norm": 6.4792962074279785,
	"learning_rate": 1.4540957807124716e-05,
	"loss": 2.6253,
	"step": 401000
	},
	{
	"epoch": 2.2185139548119372,
	"grad_norm": 5.494840621948242,
	"learning_rate": 1.4489795083057567e-05,
	"loss": 2.5912,
	"step": 401500
	},
	{
	"epoch": 2.221276736822911,
	"grad_norm": 6.507066249847412,
	"learning_rate": 1.4438632358990417e-05,
	"loss": 2.5945,
	"step": 402000
	},
	{
	"epoch": 2.224039518833885,
	"grad_norm": 5.496526718139648,
	"learning_rate": 1.4387571960371402e-05,
	"loss": 2.6173,
	"step": 402500
	},
	{
	"epoch": 2.2268023008448585,
	"grad_norm": 6.222531795501709,
	"learning_rate": 1.4336511561752385e-05,
	"loss": 2.6482,
	"step": 403000
	},
	{
	"epoch": 2.2295650828558324,
	"grad_norm": 5.230762481689453,
	"learning_rate": 1.4285348837685236e-05,
	"loss": 2.6678,
	"step": 403500
	},
	{
	"epoch": 2.2323278648668063,
	"grad_norm": 7.752573490142822,
	"learning_rate": 1.4234186113618086e-05,
	"loss": 2.6552,
	"step": 404000
	},
	{
	"epoch": 2.2350906468777803,
	"grad_norm": 6.026094436645508,
	"learning_rate": 1.4183023389550934e-05,
	"loss": 2.6387,
	"step": 404500
	},
	{
	"epoch": 2.2378534288887537,
	"grad_norm": 8.043586730957031,
	"learning_rate": 1.4131962990931918e-05,
	"loss": 2.6137,
	"step": 405000
	},
	{
	"epoch": 2.2378534288887537,
	"eval_runtime": 1371.0294,
	"eval_samples_per_second": 264.001,
	"eval_steps_per_second": 33.001,
	"step": 405000
	},
	{
	"epoch": 2.2406162108997276,
	"grad_norm": 13.741228103637695,
	"learning_rate": 1.4080800266864768e-05,
	"loss": 2.621,
	"step": 405500
	},
	{
	"epoch": 2.2433789929107015,
	"grad_norm": 7.889692306518555,
	"learning_rate": 1.4029637542797618e-05,
	"loss": 2.645,
	"step": 406000
	},
	{
	"epoch": 2.246141774921675,
	"grad_norm": 7.462569236755371,
	"learning_rate": 1.3978474818730469e-05,
	"loss": 2.5896,
	"step": 406500
	},
	{
	"epoch": 2.248904556932649,
	"grad_norm": 6.514028072357178,
	"learning_rate": 1.3927312094663319e-05,
	"loss": 2.6266,
	"step": 407000
	},
	{
	"epoch": 2.251667338943623,
	"grad_norm": 6.088305950164795,
	"learning_rate": 1.3876149370596169e-05,
	"loss": 2.5982,
	"step": 407500
	},
	{
	"epoch": 2.2544301209545963,
	"grad_norm": 8.39070987701416,
	"learning_rate": 1.382498664652902e-05,
	"loss": 2.6371,
	"step": 408000
	},
	{
	"epoch": 2.25719290296557,
	"grad_norm": 7.8665361404418945,
	"learning_rate": 1.377382392246187e-05,
	"loss": 2.621,
	"step": 408500
	},
	{
	"epoch": 2.259955684976544,
	"grad_norm": 6.9274373054504395,
	"learning_rate": 1.3722661198394718e-05,
	"loss": 2.6896,
	"step": 409000
	},
	{
	"epoch": 2.2627184669875176,
	"grad_norm": 7.833282947540283,
	"learning_rate": 1.3671498474327568e-05,
	"loss": 2.6513,
	"step": 409500
	},
	{
	"epoch": 2.2654812489984915,
	"grad_norm": 7.596132278442383,
	"learning_rate": 1.3620438075708552e-05,
	"loss": 2.6452,
	"step": 410000
	},
	{
	"epoch": 2.2654812489984915,
	"eval_runtime": 1432.6263,
	"eval_samples_per_second": 252.65,
	"eval_steps_per_second": 31.582,
	"step": 410000
	},
	{
	"epoch": 2.2682440310094654,
	"grad_norm": 7.686011791229248,
	"learning_rate": 1.3569275351641402e-05,
	"loss": 2.6487,
	"step": 410500
	},
	{
	"epoch": 2.2710068130204393,
	"grad_norm": 10.180373191833496,
	"learning_rate": 1.3518112627574252e-05,
	"loss": 2.6355,
	"step": 411000
	},
	{
	"epoch": 2.2737695950314127,
	"grad_norm": 5.1875410079956055,
	"learning_rate": 1.3466949903507103e-05,
	"loss": 2.6251,
	"step": 411500
	},
	{
	"epoch": 2.2765323770423866,
	"grad_norm": 5.864450931549072,
	"learning_rate": 1.3415787179439953e-05,
	"loss": 2.5926,
	"step": 412000
	},
	{
	"epoch": 2.2792951590533606,
	"grad_norm": 6.403237342834473,
	"learning_rate": 1.3364624455372803e-05,
	"loss": 2.5844,
	"step": 412500
	},
	{
	"epoch": 2.282057941064334,
	"grad_norm": 6.299551963806152,
	"learning_rate": 1.3313461731305653e-05,
	"loss": 2.6534,
	"step": 413000
	},
	{
	"epoch": 2.284820723075308,
	"grad_norm": 5.631259441375732,
	"learning_rate": 1.3262299007238502e-05,
	"loss": 2.6481,
	"step": 413500
	},
	{
	"epoch": 2.287583505086282,
	"grad_norm": 6.804217338562012,
	"learning_rate": 1.3211136283171352e-05,
	"loss": 2.6417,
	"step": 414000
	},
	{
	"epoch": 2.2903462870972553,
	"grad_norm": 6.593264102935791,
	"learning_rate": 1.3160075884552337e-05,
	"loss": 2.6293,
	"step": 414500
	},
	{
	"epoch": 2.293109069108229,
	"grad_norm": 7.17709493637085,
	"learning_rate": 1.3108913160485188e-05,
	"loss": 2.6037,
	"step": 415000
	},
	{
	"epoch": 2.293109069108229,
	"eval_runtime": 1394.243,
	"eval_samples_per_second": 259.605,
	"eval_steps_per_second": 32.451,
	"step": 415000
	},
	{
	"epoch": 2.295871851119203,
	"grad_norm": 8.601012229919434,
	"learning_rate": 1.3057750436418038e-05,
	"loss": 2.6404,
	"step": 415500
	},
	{
	"epoch": 2.2986346331301766,
	"grad_norm": 5.984838485717773,
	"learning_rate": 1.3006587712350888e-05,
	"loss": 2.6162,
	"step": 416000
	},
	{
	"epoch": 2.3013974151411505,
	"grad_norm": 6.601894378662109,
	"learning_rate": 1.2955629639180006e-05,
	"loss": 2.5866,
	"step": 416500
	},
	{
	"epoch": 2.3041601971521244,
	"grad_norm": 7.93733024597168,
	"learning_rate": 1.2904466915112856e-05,
	"loss": 2.6262,
	"step": 417000
	},
	{
	"epoch": 2.3069229791630983,
	"grad_norm": 7.534053325653076,
	"learning_rate": 1.2853304191045707e-05,
	"loss": 2.6565,
	"step": 417500
	},
	{
	"epoch": 2.3096857611740718,
	"grad_norm": 5.987677574157715,
	"learning_rate": 1.2802141466978554e-05,
	"loss": 2.6128,
	"step": 418000
	},
	{
	"epoch": 2.3124485431850457,
	"grad_norm": 9.730072021484375,
	"learning_rate": 1.2750978742911404e-05,
	"loss": 2.6266,
	"step": 418500
	},
	{
	"epoch": 2.3152113251960196,
	"grad_norm": 5.9827799797058105,
	"learning_rate": 1.2699816018844254e-05,
	"loss": 2.6411,
	"step": 419000
	},
	{
	"epoch": 2.317974107206993,
	"grad_norm": 8.000412940979004,
	"learning_rate": 1.2648653294777104e-05,
	"loss": 2.6197,
	"step": 419500
	},
	{
	"epoch": 2.320736889217967,
	"grad_norm": 5.673067092895508,
	"learning_rate": 1.2597490570709955e-05,
	"loss": 2.6396,
	"step": 420000
	},
	{
	"epoch": 2.320736889217967,
	"eval_runtime": 1399.3763,
	"eval_samples_per_second": 258.653,
	"eval_steps_per_second": 32.332,
	"step": 420000
	},
	{
	"epoch": 2.323499671228941,
	"grad_norm": 11.707938194274902,
	"learning_rate": 1.254643017209094e-05,
	"loss": 2.685,
	"step": 420500
	},
	{
	"epoch": 2.3262624532399143,
	"grad_norm": 9.935530662536621,
	"learning_rate": 1.249526744802379e-05,
	"loss": 2.6652,
	"step": 421000
	},
	{
	"epoch": 2.3290252352508882,
	"grad_norm": 7.645023345947266,
	"learning_rate": 1.2444104723956638e-05,
	"loss": 2.6288,
	"step": 421500
	},
	{
	"epoch": 2.331788017261862,
	"grad_norm": 8.301952362060547,
	"learning_rate": 1.2392941999889489e-05,
	"loss": 2.6653,
	"step": 422000
	},
	{
	"epoch": 2.3345507992728356,
	"grad_norm": 8.863719940185547,
	"learning_rate": 1.2341881601270474e-05,
	"loss": 2.6188,
	"step": 422500
	},
	{
	"epoch": 2.3373135812838095,
	"grad_norm": 6.79737663269043,
	"learning_rate": 1.2290718877203324e-05,
	"loss": 2.6198,
	"step": 423000
	},
	{
	"epoch": 2.3400763632947834,
	"grad_norm": 13.54198932647705,
	"learning_rate": 1.2239556153136174e-05,
	"loss": 2.6335,
	"step": 423500
	},
	{
	"epoch": 2.3428391453057573,
	"grad_norm": 6.236546039581299,
	"learning_rate": 1.2188393429069023e-05,
	"loss": 2.5878,
	"step": 424000
	},
	{
	"epoch": 2.345601927316731,
	"grad_norm": 6.494855880737305,
	"learning_rate": 1.2137230705001873e-05,
	"loss": 2.6116,
	"step": 424500
	},
	{
	"epoch": 2.3483647093277047,
	"grad_norm": 5.994902610778809,
	"learning_rate": 1.2086170306382858e-05,
	"loss": 2.6368,
	"step": 425000
	},
	{
	"epoch": 2.3483647093277047,
	"eval_runtime": 1385.8563,
	"eval_samples_per_second": 261.176,
	"eval_steps_per_second": 32.648,
	"step": 425000
	},
	{
	"epoch": 2.351127491338678,
	"grad_norm": 6.626513481140137,
	"learning_rate": 1.2035007582315708e-05,
	"loss": 2.6542,
	"step": 425500
	},
	{
	"epoch": 2.353890273349652,
	"grad_norm": 6.740534782409668,
	"learning_rate": 1.1983844858248559e-05,
	"loss": 2.6394,
	"step": 426000
	},
	{
	"epoch": 2.356653055360626,
	"grad_norm": 6.561714172363281,
	"learning_rate": 1.1932682134181407e-05,
	"loss": 2.6508,
	"step": 426500
	},
	{
	"epoch": 2.3594158373716,
	"grad_norm": 7.288315773010254,
	"learning_rate": 1.188162173556239e-05,
	"loss": 2.673,
	"step": 427000
	},
	{
	"epoch": 2.3621786193825733,
	"grad_norm": 6.247045040130615,
	"learning_rate": 1.183045901149524e-05,
	"loss": 2.6219,
	"step": 427500
	},
	{
	"epoch": 2.3649414013935472,
	"grad_norm": 6.165623664855957,
	"learning_rate": 1.1779296287428091e-05,
	"loss": 2.567,
	"step": 428000
	},
	{
	"epoch": 2.367704183404521,
	"grad_norm": 7.5528717041015625,
	"learning_rate": 1.1728133563360941e-05,
	"loss": 2.6683,
	"step": 428500
	},
	{
	"epoch": 2.3704669654154946,
	"grad_norm": 6.398986339569092,
	"learning_rate": 1.1677073164741925e-05,
	"loss": 2.5937,
	"step": 429000
	},
	{
	"epoch": 2.3732297474264685,
	"grad_norm": 5.770337104797363,
	"learning_rate": 1.162601276612291e-05,
	"loss": 2.6698,
	"step": 429500
	},
	{
	"epoch": 2.3759925294374424,
	"grad_norm": 11.233945846557617,
	"learning_rate": 1.157485004205576e-05,
	"loss": 2.6207,
	"step": 430000
	},
	{
	"epoch": 2.3759925294374424,
	"eval_runtime": 1412.4375,
	"eval_samples_per_second": 256.261,
	"eval_steps_per_second": 32.033,
	"step": 430000
	},
	{
	"epoch": 2.3787553114484163,
	"grad_norm": 8.665916442871094,
	"learning_rate": 1.152368731798861e-05,
	"loss": 2.6306,
	"step": 430500
	},
	{
	"epoch": 2.38151809345939,
	"grad_norm": 5.553136825561523,
	"learning_rate": 1.1472524593921459e-05,
	"loss": 2.6256,
	"step": 431000
	},
	{
	"epoch": 2.3842808754703637,
	"grad_norm": 5.725644588470459,
	"learning_rate": 1.1421361869854309e-05,
	"loss": 2.6169,
	"step": 431500
	},
	{
	"epoch": 2.387043657481337,
	"grad_norm": 5.656550407409668,
	"learning_rate": 1.137019914578716e-05,
	"loss": 2.614,
	"step": 432000
	},
	{
	"epoch": 2.389806439492311,
	"grad_norm": 5.470634460449219,
	"learning_rate": 1.131903642172001e-05,
	"loss": 2.6239,
	"step": 432500
	},
	{
	"epoch": 2.392569221503285,
	"grad_norm": 6.324733257293701,
	"learning_rate": 1.1267873697652858e-05,
	"loss": 2.6097,
	"step": 433000
	},
	{
	"epoch": 2.395332003514259,
	"grad_norm": 5.290309906005859,
	"learning_rate": 1.1216710973585708e-05,
	"loss": 2.6635,
	"step": 433500
	},
	{
	"epoch": 2.3980947855252324,
	"grad_norm": 9.409131050109863,
	"learning_rate": 1.1165650574966693e-05,
	"loss": 2.6287,
	"step": 434000
	},
	{
	"epoch": 2.4008575675362063,
	"grad_norm": 6.079099655151367,
	"learning_rate": 1.1114487850899544e-05,
	"loss": 2.5926,
	"step": 434500
	},
	{
	"epoch": 2.40362034954718,
	"grad_norm": 5.747387886047363,
	"learning_rate": 1.1063427452280529e-05,
	"loss": 2.6502,
	"step": 435000
	},
	{
	"epoch": 2.40362034954718,
	"eval_runtime": 1441.4109,
	"eval_samples_per_second": 251.11,
	"eval_steps_per_second": 31.389,
	"step": 435000
	},
	{
	"epoch": 2.4063831315581536,
	"grad_norm": 5.655724048614502,
	"learning_rate": 1.1012264728213379e-05,
	"loss": 2.6302,
	"step": 435500
	},
	{
	"epoch": 2.4091459135691276,
	"grad_norm": 7.379015922546387,
	"learning_rate": 1.0961102004146228e-05,
	"loss": 2.6013,
	"step": 436000
	},
	{
	"epoch": 2.4119086955801015,
	"grad_norm": 5.20357608795166,
	"learning_rate": 1.0909939280079078e-05,
	"loss": 2.593,
	"step": 436500
	},
	{
	"epoch": 2.414671477591075,
	"grad_norm": 7.364123344421387,
	"learning_rate": 1.0858776556011928e-05,
	"loss": 2.5955,
	"step": 437000
	},
	{
	"epoch": 2.417434259602049,
	"grad_norm": 6.859920978546143,
	"learning_rate": 1.0807716157392913e-05,
	"loss": 2.6142,
	"step": 437500
	},
	{
	"epoch": 2.4201970416130227,
	"grad_norm": 8.261401176452637,
	"learning_rate": 1.0756553433325762e-05,
	"loss": 2.6348,
	"step": 438000
	},
	{
	"epoch": 2.422959823623996,
	"grad_norm": 6.4325852394104,
	"learning_rate": 1.0705390709258612e-05,
	"loss": 2.6208,
	"step": 438500
	},
	{
	"epoch": 2.42572260563497,
	"grad_norm": 7.540378093719482,
	"learning_rate": 1.0654227985191462e-05,
	"loss": 2.6543,
	"step": 439000
	},
	{
	"epoch": 2.428485387645944,
	"grad_norm": 4.978431701660156,
	"learning_rate": 1.0603065261124313e-05,
	"loss": 2.6658,
	"step": 439500
	},
	{
	"epoch": 2.431248169656918,
	"grad_norm": 7.280527114868164,
	"learning_rate": 1.0551902537057161e-05,
	"loss": 2.6231,
	"step": 440000
	},
	{
	"epoch": 2.431248169656918,
	"eval_runtime": 1447.4545,
	"eval_samples_per_second": 250.062,
	"eval_steps_per_second": 31.258,
	"step": 440000
	},
	{
	"epoch": 2.4340109516678914,
	"grad_norm": 8.55695915222168,
	"learning_rate": 1.0500739812990011e-05,
	"loss": 2.6355,
	"step": 440500
	},
	{
	"epoch": 2.4367737336788653,
	"grad_norm": 6.825678825378418,
	"learning_rate": 1.0449577088922862e-05,
	"loss": 2.5972,
	"step": 441000
	},
	{
	"epoch": 2.439536515689839,
	"grad_norm": 9.022064208984375,
	"learning_rate": 1.0398414364855712e-05,
	"loss": 2.6085,
	"step": 441500
	},
	{
	"epoch": 2.4422992977008127,
	"grad_norm": 7.041652202606201,
	"learning_rate": 1.0347353966236697e-05,
	"loss": 2.628,
	"step": 442000
	},
	{
	"epoch": 2.4450620797117866,
	"grad_norm": 8.78257942199707,
	"learning_rate": 1.029629356761768e-05,
	"loss": 2.5947,
	"step": 442500
	},
	{
	"epoch": 2.4478248617227605,
	"grad_norm": 3.7992634773254395,
	"learning_rate": 1.0245130843550529e-05,
	"loss": 2.6069,
	"step": 443000
	},
	{
	"epoch": 2.450587643733734,
	"grad_norm": 5.678961753845215,
	"learning_rate": 1.0193968119483379e-05,
	"loss": 2.6333,
	"step": 443500
	},
	{
	"epoch": 2.453350425744708,
	"grad_norm": 6.932492256164551,
	"learning_rate": 1.014280539541623e-05,
	"loss": 2.6285,
	"step": 444000
	},
	{
	"epoch": 2.4561132077556818,
	"grad_norm": 8.48609447479248,
	"learning_rate": 1.009164267134908e-05,
	"loss": 2.6003,
	"step": 444500
	},
	{
	"epoch": 2.4588759897666552,
	"grad_norm": 7.256680488586426,
	"learning_rate": 1.004047994728193e-05,
	"loss": 2.5648,
	"step": 445000
	},
	{
	"epoch": 2.4588759897666552,
	"eval_runtime": 1380.4966,
	"eval_samples_per_second": 262.19,
	"eval_steps_per_second": 32.774,
	"step": 445000
	},
	{
	"epoch": 2.461638771777629,
	"grad_norm": 10.294569969177246,
	"learning_rate": 9.98931722321478e-06,
	"loss": 2.6668,
	"step": 445500
	},
	{
	"epoch": 2.464401553788603,
	"grad_norm": 7.309881687164307,
	"learning_rate": 9.93815449914763e-06,
	"loss": 2.6188,
	"step": 446000
	},
	{
	"epoch": 2.467164335799577,
	"grad_norm": 8.109071731567383,
	"learning_rate": 9.887094100528614e-06,
	"loss": 2.5915,
	"step": 446500
	},
	{
	"epoch": 2.4699271178105504,
	"grad_norm": 6.958956718444824,
	"learning_rate": 9.835931376461462e-06,
	"loss": 2.6043,
	"step": 447000
	},
	{
	"epoch": 2.4726898998215243,
	"grad_norm": 5.835160732269287,
	"learning_rate": 9.784768652394313e-06,
	"loss": 2.6273,
	"step": 447500
	},
	{
	"epoch": 2.4754526818324982,
	"grad_norm": 7.2995781898498535,
	"learning_rate": 9.733605928327163e-06,
	"loss": 2.6368,
	"step": 448000
	},
	{
	"epoch": 2.4782154638434717,
	"grad_norm": 6.141138553619385,
	"learning_rate": 9.682443204260013e-06,
	"loss": 2.6429,
	"step": 448500
	},
	{
	"epoch": 2.4809782458544456,
	"grad_norm": 7.309754371643066,
	"learning_rate": 9.631382805640998e-06,
	"loss": 2.6084,
	"step": 449000
	},
	{
	"epoch": 2.4837410278654195,
	"grad_norm": 6.5357794761657715,
	"learning_rate": 9.580220081573847e-06,
	"loss": 2.6064,
	"step": 449500
	},
	{
	"epoch": 2.486503809876393,
	"grad_norm": 5.566898822784424,
	"learning_rate": 9.529057357506697e-06,
	"loss": 2.6275,
	"step": 450000
	},
	{
	"epoch": 2.486503809876393,
	"eval_runtime": 1385.5398,
	"eval_samples_per_second": 261.236,
	"eval_steps_per_second": 32.655,
	"step": 450000
	},
	{
	"epoch": 2.489266591887367,
	"grad_norm": 7.904833793640137,
	"learning_rate": 9.477894633439547e-06,
	"loss": 2.6019,
	"step": 450500
	},
	{
	"epoch": 2.492029373898341,
	"grad_norm": 7.342651844024658,
	"learning_rate": 9.426731909372398e-06,
	"loss": 2.675,
	"step": 451000
	},
	{
	"epoch": 2.4947921559093142,
	"grad_norm": 6.255519390106201,
	"learning_rate": 9.375569185305246e-06,
	"loss": 2.6526,
	"step": 451500
	},
	{
	"epoch": 2.497554937920288,
	"grad_norm": 5.555826663970947,
	"learning_rate": 9.324406461238096e-06,
	"loss": 2.6009,
	"step": 452000
	},
	{
	"epoch": 2.500317719931262,
	"grad_norm": 9.351966857910156,
	"learning_rate": 9.273346062619081e-06,
	"loss": 2.6516,
	"step": 452500
	},
	{
	"epoch": 2.503080501942236,
	"grad_norm": 13.138755798339844,
	"learning_rate": 9.222183338551932e-06,
	"loss": 2.5894,
	"step": 453000
	},
	{
	"epoch": 2.5058432839532094,
	"grad_norm": 5.904870986938477,
	"learning_rate": 9.171020614484782e-06,
	"loss": 2.6366,
	"step": 453500
	},
	{
	"epoch": 2.5086060659641833,
	"grad_norm": 7.674947261810303,
	"learning_rate": 9.11985789041763e-06,
	"loss": 2.6441,
	"step": 454000
	},
	{
	"epoch": 2.511368847975157,
	"grad_norm": 7.656473636627197,
	"learning_rate": 9.068797491798615e-06,
	"loss": 2.6298,
	"step": 454500
	},
	{
	"epoch": 2.5141316299861307,
	"grad_norm": 5.670429706573486,
	"learning_rate": 9.017634767731466e-06,
	"loss": 2.6246,
	"step": 455000
	},
	{
	"epoch": 2.5141316299861307,
	"eval_runtime": 1400.9354,
	"eval_samples_per_second": 258.365,
	"eval_steps_per_second": 32.296,
	"step": 455000
	},
	{
	"epoch": 2.5168944119971046,
	"grad_norm": 7.4133148193359375,
	"learning_rate": 8.966472043664316e-06,
	"loss": 2.6301,
	"step": 455500
	},
	{
	"epoch": 2.5196571940080785,
	"grad_norm": 12.215228080749512,
	"learning_rate": 8.915309319597166e-06,
	"loss": 2.5877,
	"step": 456000
	},
	{
	"epoch": 2.522419976019052,
	"grad_norm": 7.437780857086182,
	"learning_rate": 8.864146595530015e-06,
	"loss": 2.6486,
	"step": 456500
	},
	{
	"epoch": 2.525182758030026,
	"grad_norm": 6.193426609039307,
	"learning_rate": 8.812983871462865e-06,
	"loss": 2.6423,
	"step": 457000
	},
	{
	"epoch": 2.527945540041,
	"grad_norm": 6.621194362640381,
	"learning_rate": 8.761821147395715e-06,
	"loss": 2.6323,
	"step": 457500
	},
	{
	"epoch": 2.5307083220519733,
	"grad_norm": 8.068601608276367,
	"learning_rate": 8.710658423328566e-06,
	"loss": 2.6727,
	"step": 458000
	},
	{
	"epoch": 2.533471104062947,
	"grad_norm": 4.508535385131836,
	"learning_rate": 8.659598024709549e-06,
	"loss": 2.6195,
	"step": 458500
	},
	{
	"epoch": 2.536233886073921,
	"grad_norm": 7.6524128913879395,
	"learning_rate": 8.6084353006424e-06,
	"loss": 2.6293,
	"step": 459000
	},
	{
	"epoch": 2.538996668084895,
	"grad_norm": 6.510564804077148,
	"learning_rate": 8.55727257657525e-06,
	"loss": 2.5563,
	"step": 459500
	},
	{
	"epoch": 2.5417594500958685,
	"grad_norm": 7.351913928985596,
	"learning_rate": 8.5061098525081e-06,
	"loss": 2.6318,
	"step": 460000
	},
	{
	"epoch": 2.5417594500958685,
	"eval_runtime": 1443.1461,
	"eval_samples_per_second": 250.808,
	"eval_steps_per_second": 31.352,
	"step": 460000
	},
	{
	"epoch": 2.5445222321068424,
	"grad_norm": 10.461015701293945,
	"learning_rate": 8.45494712844095e-06,
	"loss": 2.623,
	"step": 460500
	},
	{
	"epoch": 2.547285014117816,
	"grad_norm": 7.475493907928467,
	"learning_rate": 8.403886729821933e-06,
	"loss": 2.6073,
	"step": 461000
	},
	{
	"epoch": 2.5500477961287897,
	"grad_norm": 5.767341136932373,
	"learning_rate": 8.352724005754784e-06,
	"loss": 2.6477,
	"step": 461500
	},
	{
	"epoch": 2.5528105781397636,
	"grad_norm": 6.720097541809082,
	"learning_rate": 8.301561281687634e-06,
	"loss": 2.6244,
	"step": 462000
	},
	{
	"epoch": 2.5555733601507375,
	"grad_norm": 9.576379776000977,
	"learning_rate": 8.250398557620484e-06,
	"loss": 2.6118,
	"step": 462500
	},
	{
	"epoch": 2.558336142161711,
	"grad_norm": 7.282556056976318,
	"learning_rate": 8.19933815900147e-06,
	"loss": 2.6138,
	"step": 463000
	},
	{
	"epoch": 2.561098924172685,
	"grad_norm": 8.628390312194824,
	"learning_rate": 8.148175434934318e-06,
	"loss": 2.6197,
	"step": 463500
	},
	{
	"epoch": 2.563861706183659,
	"grad_norm": 6.606767654418945,
	"learning_rate": 8.097012710867168e-06,
	"loss": 2.6339,
	"step": 464000
	},
	{
	"epoch": 2.5666244881946323,
	"grad_norm": 5.061454772949219,
	"learning_rate": 8.045849986800018e-06,
	"loss": 2.6692,
	"step": 464500
	},
	{
	"epoch": 2.569387270205606,
	"grad_norm": 5.3237104415893555,
	"learning_rate": 7.994687262732869e-06,
	"loss": 2.6403,
	"step": 465000
	},
	{
	"epoch": 2.569387270205606,
	"eval_runtime": 1446.7808,
	"eval_samples_per_second": 250.178,
	"eval_steps_per_second": 31.273,
	"step": 465000
	},
	{
	"epoch": 2.57215005221658,
	"grad_norm": 7.996010780334473,
	"learning_rate": 7.943626864113852e-06,
	"loss": 2.6071,
	"step": 465500
	},
	{
	"epoch": 2.574912834227554,
	"grad_norm": 5.897533416748047,
	"learning_rate": 7.892464140046702e-06,
	"loss": 2.6137,
	"step": 466000
	},
	{
	"epoch": 2.5776756162385275,
	"grad_norm": 6.0307488441467285,
	"learning_rate": 7.841301415979552e-06,
	"loss": 2.6316,
	"step": 466500
	},
	{
	"epoch": 2.5804383982495014,
	"grad_norm": 8.005854606628418,
	"learning_rate": 7.790138691912403e-06,
	"loss": 2.6063,
	"step": 467000
	},
	{
	"epoch": 2.583201180260475,
	"grad_norm": 5.740025997161865,
	"learning_rate": 7.739078293293386e-06,
	"loss": 2.615,
	"step": 467500
	},
	{
	"epoch": 2.5859639622714488,
	"grad_norm": 8.913529396057129,
	"learning_rate": 7.687915569226235e-06,
	"loss": 2.619,
	"step": 468000
	},
	{
	"epoch": 2.5887267442824227,
	"grad_norm": 7.639087677001953,
	"learning_rate": 7.636752845159085e-06,
	"loss": 2.6082,
	"step": 468500
	},
	{
	"epoch": 2.5914895262933966,
	"grad_norm": 6.564584732055664,
	"learning_rate": 7.585590121091936e-06,
	"loss": 2.6301,
	"step": 469000
	},
	{
	"epoch": 2.59425230830437,
	"grad_norm": 7.4024834632873535,
	"learning_rate": 7.534427397024786e-06,
	"loss": 2.63,
	"step": 469500
	},
	{
	"epoch": 2.597015090315344,
	"grad_norm": 6.080173969268799,
	"learning_rate": 7.4833669984057704e-06,
	"loss": 2.64,
	"step": 470000
	},
	{
	"epoch": 2.597015090315344,
	"eval_runtime": 1388.5169,
	"eval_samples_per_second": 260.676,
	"eval_steps_per_second": 32.585,
	"step": 470000
	},
	{
	"epoch": 2.599777872326318,
	"grad_norm": 5.737242698669434,
	"learning_rate": 7.43220427433862e-06,
	"loss": 2.6081,
	"step": 470500
	},
	{
	"epoch": 2.6025406543372913,
	"grad_norm": 5.815971851348877,
	"learning_rate": 7.38104155027147e-06,
	"loss": 2.6399,
	"step": 471000
	},
	{
	"epoch": 2.6053034363482652,
	"grad_norm": 7.472295761108398,
	"learning_rate": 7.32987882620432e-06,
	"loss": 2.6019,
	"step": 471500
	},
	{
	"epoch": 2.608066218359239,
	"grad_norm": 10.439508438110352,
	"learning_rate": 7.278920753033438e-06,
	"loss": 2.6021,
	"step": 472000
	},
	{
	"epoch": 2.610829000370213,
	"grad_norm": 4.827859878540039,
	"learning_rate": 7.227758028966289e-06,
	"loss": 2.6533,
	"step": 472500
	},
	{
	"epoch": 2.6135917823811865,
	"grad_norm": 7.332652568817139,
	"learning_rate": 7.176595304899138e-06,
	"loss": 2.6024,
	"step": 473000
	},
	{
	"epoch": 2.6163545643921604,
	"grad_norm": 8.309117317199707,
	"learning_rate": 7.125432580831988e-06,
	"loss": 2.6284,
	"step": 473500
	},
	{
	"epoch": 2.619117346403134,
	"grad_norm": 5.733798503875732,
	"learning_rate": 7.074269856764839e-06,
	"loss": 2.5479,
	"step": 474000
	},
	{
	"epoch": 2.621880128414108,
	"grad_norm": 7.765644073486328,
	"learning_rate": 7.023107132697689e-06,
	"loss": 2.6764,
	"step": 474500
	},
	{
	"epoch": 2.6246429104250817,
	"grad_norm": 7.007179260253906,
	"learning_rate": 6.9719444086305375e-06,
	"loss": 2.6276,
	"step": 475000
	},
	{
	"epoch": 2.6246429104250817,
	"eval_runtime": 1395.7273,
	"eval_samples_per_second": 259.329,
	"eval_steps_per_second": 32.417,
	"step": 475000
	},
	{
	"epoch": 2.6274056924360556,
	"grad_norm": 8.562434196472168,
	"learning_rate": 6.920781684563388e-06,
	"loss": 2.5855,
	"step": 475500
	},
	{
	"epoch": 2.630168474447029,
	"grad_norm": 6.0895867347717285,
	"learning_rate": 6.869618960496238e-06,
	"loss": 2.622,
	"step": 476000
	},
	{
	"epoch": 2.632931256458003,
	"grad_norm": 5.998204708099365,
	"learning_rate": 6.818558561877222e-06,
	"loss": 2.6498,
	"step": 476500
	},
	{
	"epoch": 2.635694038468977,
	"grad_norm": 10.850279808044434,
	"learning_rate": 6.7673958378100725e-06,
	"loss": 2.6251,
	"step": 477000
	},
	{
	"epoch": 2.6384568204799503,
	"grad_norm": 8.587841987609863,
	"learning_rate": 6.716233113742922e-06,
	"loss": 2.6448,
	"step": 477500
	},
	{
	"epoch": 2.6412196024909242,
	"grad_norm": 7.590404510498047,
	"learning_rate": 6.665070389675772e-06,
	"loss": 2.6155,
	"step": 478000
	},
	{
	"epoch": 2.643982384501898,
	"grad_norm": 9.195626258850098,
	"learning_rate": 6.614009991056756e-06,
	"loss": 2.6585,
	"step": 478500
	},
	{
	"epoch": 2.646745166512872,
	"grad_norm": 7.80164909362793,
	"learning_rate": 6.562847266989607e-06,
	"loss": 2.6388,
	"step": 479000
	},
	{
	"epoch": 2.6495079485238455,
	"grad_norm": 8.529934883117676,
	"learning_rate": 6.511684542922455e-06,
	"loss": 2.5775,
	"step": 479500
	},
	{
	"epoch": 2.6522707305348194,
	"grad_norm": 4.80623722076416,
	"learning_rate": 6.4605218188553055e-06,
	"loss": 2.6404,
	"step": 480000
	},
	{
	"epoch": 2.6522707305348194,
	"eval_runtime": 1401.4337,
	"eval_samples_per_second": 258.273,
	"eval_steps_per_second": 32.285,
	"step": 480000
	},
	{
	"epoch": 2.655033512545793,
	"grad_norm": 7.216457366943359,
	"learning_rate": 6.4094614202362905e-06,
	"loss": 2.5943,
	"step": 480500
	},
	{
	"epoch": 2.657796294556767,
	"grad_norm": 9.760845184326172,
	"learning_rate": 6.358298696169141e-06,
	"loss": 2.6424,
	"step": 481000
	},
	{
	"epoch": 2.6605590765677407,
	"grad_norm": 5.927933692932129,
	"learning_rate": 6.307135972101991e-06,
	"loss": 2.6467,
	"step": 481500
	},
	{
	"epoch": 2.6633218585787146,
	"grad_norm": 12.73469352722168,
	"learning_rate": 6.25597324803484e-06,
	"loss": 2.657,
	"step": 482000
	},
	{
	"epoch": 2.666084640589688,
	"grad_norm": 10.275845527648926,
	"learning_rate": 6.204912849415824e-06,
	"loss": 2.6168,
	"step": 482500
	},
	{
	"epoch": 2.668847422600662,
	"grad_norm": 6.86333703994751,
	"learning_rate": 6.153750125348674e-06,
	"loss": 2.6537,
	"step": 483000
	},
	{
	"epoch": 2.671610204611636,
	"grad_norm": 7.216489315032959,
	"learning_rate": 6.102587401281524e-06,
	"loss": 2.6347,
	"step": 483500
	},
	{
	"epoch": 2.6743729866226094,
	"grad_norm": 15.533758163452148,
	"learning_rate": 6.0514246772143745e-06,
	"loss": 2.6386,
	"step": 484000
	},
	{
	"epoch": 2.6771357686335833,
	"grad_norm": 9.071037292480469,
	"learning_rate": 6.000364278595359e-06,
	"loss": 2.6346,
	"step": 484500
	},
	{
	"epoch": 2.679898550644557,
	"grad_norm": 6.715532302856445,
	"learning_rate": 5.949201554528208e-06,
	"loss": 2.5978,
	"step": 485000
	},
	{
	"epoch": 2.679898550644557,
	"eval_runtime": 1414.4263,
	"eval_samples_per_second": 255.901,
	"eval_steps_per_second": 31.988,
	"step": 485000
	},
	{
	"epoch": 2.682661332655531,
	"grad_norm": 6.801553249359131,
	"learning_rate": 5.898038830461058e-06,
	"loss": 2.6455,
	"step": 485500
	},
	{
	"epoch": 2.6854241146665045,
	"grad_norm": 8.986194610595703,
	"learning_rate": 5.846876106393908e-06,
	"loss": 2.6106,
	"step": 486000
	},
	{
	"epoch": 2.6881868966774785,
	"grad_norm": 9.200784683227539,
	"learning_rate": 5.795713382326758e-06,
	"loss": 2.628,
	"step": 486500
	},
	{
	"epoch": 2.690949678688452,
	"grad_norm": 12.348143577575684,
	"learning_rate": 5.744652983707743e-06,
	"loss": 2.6519,
	"step": 487000
	},
	{
	"epoch": 2.693712460699426,
	"grad_norm": 5.376158237457275,
	"learning_rate": 5.6934902596405925e-06,
	"loss": 2.5868,
	"step": 487500
	},
	{
	"epoch": 2.6964752427103997,
	"grad_norm": 6.574330806732178,
	"learning_rate": 5.642327535573443e-06,
	"loss": 2.6171,
	"step": 488000
	},
	{
	"epoch": 2.6992380247213736,
	"grad_norm": 7.850590229034424,
	"learning_rate": 5.591164811506292e-06,
	"loss": 2.6335,
	"step": 488500
	},
	{
	"epoch": 2.702000806732347,
	"grad_norm": 4.8061113357543945,
	"learning_rate": 5.540104412887276e-06,
	"loss": 2.6141,
	"step": 489000
	},
	{
	"epoch": 2.704763588743321,
	"grad_norm": 5.521638870239258,
	"learning_rate": 5.488941688820126e-06,
	"loss": 2.5994,
	"step": 489500
	},
	{
	"epoch": 2.7075263707542945,
	"grad_norm": 7.759128093719482,
	"learning_rate": 5.437778964752976e-06,
	"loss": 2.6212,
	"step": 490000
	},
	{
	"epoch": 2.7075263707542945,
	"eval_runtime": 1444.9579,
	"eval_samples_per_second": 250.494,
	"eval_steps_per_second": 31.312,
	"step": 490000
	},
	{
	"epoch": 2.7102891527652684,
	"grad_norm": 7.741880893707275,
	"learning_rate": 5.386616240685826e-06,
	"loss": 2.6377,
	"step": 490500
	},
	{
	"epoch": 2.7130519347762423,
	"grad_norm": 6.901477813720703,
	"learning_rate": 5.3355558420668105e-06,
	"loss": 2.6113,
	"step": 491000
	},
	{
	"epoch": 2.715814716787216,
	"grad_norm": 4.808909893035889,
	"learning_rate": 5.284393117999661e-06,
	"loss": 2.6073,
	"step": 491500
	},
	{
	"epoch": 2.7185774987981897,
	"grad_norm": 5.946444034576416,
	"learning_rate": 5.23323039393251e-06,
	"loss": 2.5861,
	"step": 492000
	},
	{
	"epoch": 2.7213402808091636,
	"grad_norm": 6.473993301391602,
	"learning_rate": 5.1820676698653605e-06,
	"loss": 2.5685,
	"step": 492500
	},
	{
	"epoch": 2.7241030628201375,
	"grad_norm": 5.835826873779297,
	"learning_rate": 5.131007271246345e-06,
	"loss": 2.5697,
	"step": 493000
	},
	{
	"epoch": 2.726865844831111,
	"grad_norm": 6.624295711517334,
	"learning_rate": 5.079844547179195e-06,
	"loss": 2.5782,
	"step": 493500
	},
	{
	"epoch": 2.729628626842085,
	"grad_norm": 9.765020370483398,
	"learning_rate": 5.028681823112045e-06,
	"loss": 2.6423,
	"step": 494000
	},
	{
	"epoch": 2.7323914088530588,
	"grad_norm": 7.017053127288818,
	"learning_rate": 4.9775190990448946e-06,
	"loss": 2.6669,
	"step": 494500
	},
	{
	"epoch": 2.7351541908640327,
	"grad_norm": 6.12160587310791,
	"learning_rate": 4.926356374977745e-06,
	"loss": 2.6144,
	"step": 495000
	},
	{
	"epoch": 2.7351541908640327,
	"eval_runtime": 1425.3262,
	"eval_samples_per_second": 253.944,
	"eval_steps_per_second": 31.744,
	"step": 495000
	},
	{
	"epoch": 2.737916972875006,
	"grad_norm": 7.875446796417236,
	"learning_rate": 4.875398301806864e-06,
	"loss": 2.6609,
	"step": 495500
	},
	{
	"epoch": 2.74067975488598,
	"grad_norm": 5.206502914428711,
	"learning_rate": 4.824235577739713e-06,
	"loss": 2.6007,
	"step": 496000
	},
	{
	"epoch": 2.7434425368969535,
	"grad_norm": 6.697471618652344,
	"learning_rate": 4.773072853672563e-06,
	"loss": 2.6205,
	"step": 496500
	},
	{
	"epoch": 2.7462053189079274,
	"grad_norm": 6.960028648376465,
	"learning_rate": 4.721910129605413e-06,
	"loss": 2.5956,
	"step": 497000
	},
	{
	"epoch": 2.7489681009189013,
	"grad_norm": 5.795044422149658,
	"learning_rate": 4.670747405538263e-06,
	"loss": 2.6254,
	"step": 497500
	},
	{
	"epoch": 2.751730882929875,
	"grad_norm": 5.511195182800293,
	"learning_rate": 4.6195846814711125e-06,
	"loss": 2.6216,
	"step": 498000
	},
	{
	"epoch": 2.7544936649408487,
	"grad_norm": 7.889344215393066,
	"learning_rate": 4.568421957403963e-06,
	"loss": 2.5932,
	"step": 498500
	},
	{
	"epoch": 2.7572564469518226,
	"grad_norm": 6.596147060394287,
	"learning_rate": 4.517259233336812e-06,
	"loss": 2.6322,
	"step": 499000
	},
	{
	"epoch": 2.7600192289627965,
	"grad_norm": 8.392708778381348,
	"learning_rate": 4.466198834717797e-06,
	"loss": 2.6114,
	"step": 499500
	},
	{
	"epoch": 2.76278201097377,
	"grad_norm": 5.404835224151611,
	"learning_rate": 4.4150361106506475e-06,
	"loss": 2.6497,
	"step": 500000
	},
	{
	"epoch": 2.76278201097377,
	"eval_runtime": 1379.3919,
	"eval_samples_per_second": 262.4,
	"eval_steps_per_second": 32.801,
	"step": 500000
	},
	{
	"epoch": 2.765544792984744,
	"grad_norm": 10.54916000366211,
	"learning_rate": 4.363873386583497e-06,
	"loss": 2.6555,
	"step": 500500
	},
	{
	"epoch": 2.768307574995718,
	"grad_norm": 7.687312602996826,
	"learning_rate": 4.312710662516347e-06,
	"loss": 2.611,
	"step": 501000
	},
	{
	"epoch": 2.7710703570066917,
	"grad_norm": 5.376524448394775,
	"learning_rate": 4.261547938449197e-06,
	"loss": 2.686,
	"step": 501500
	},
	{
	"epoch": 2.773833139017665,
	"grad_norm": 6.104116439819336,
	"learning_rate": 4.210487539830181e-06,
	"loss": 2.5986,
	"step": 502000
	},
	{
	"epoch": 2.776595921028639,
	"grad_norm": 6.0707597732543945,
	"learning_rate": 4.15932481576303e-06,
	"loss": 2.6303,
	"step": 502500
	},
	{
	"epoch": 2.7793587030396125,
	"grad_norm": 7.738794803619385,
	"learning_rate": 4.1081620916958805e-06,
	"loss": 2.6115,
	"step": 503000
	},
	{
	"epoch": 2.7821214850505864,
	"grad_norm": 6.483746528625488,
	"learning_rate": 4.056999367628731e-06,
	"loss": 2.6179,
	"step": 503500
	},
	{
	"epoch": 2.7848842670615603,
	"grad_norm": 8.825859069824219,
	"learning_rate": 4.005938969009715e-06,
	"loss": 2.6217,
	"step": 504000
	},
	{
	"epoch": 2.7876470490725342,
	"grad_norm": 6.525907039642334,
	"learning_rate": 3.954776244942565e-06,
	"loss": 2.6415,
	"step": 504500
	},
	{
	"epoch": 2.7904098310835077,
	"grad_norm": 6.188871383666992,
	"learning_rate": 3.903613520875415e-06,
	"loss": 2.629,
	"step": 505000
	},
	{
	"epoch": 2.7904098310835077,
	"eval_runtime": 1400.5744,
	"eval_samples_per_second": 258.432,
	"eval_steps_per_second": 32.305,
	"step": 505000
	},
	{
	"epoch": 2.7931726130944816,
	"grad_norm": 5.803805828094482,
	"learning_rate": 3.852450796808265e-06,
	"loss": 2.6107,
	"step": 505500
	},
	{
	"epoch": 2.7959353951054555,
	"grad_norm": 5.849481105804443,
	"learning_rate": 3.8013903981892486e-06,
	"loss": 2.6773,
	"step": 506000
	},
	{
	"epoch": 2.798698177116429,
	"grad_norm": 5.97512674331665,
	"learning_rate": 3.750227674122099e-06,
	"loss": 2.622,
	"step": 506500
	},
	{
	"epoch": 2.801460959127403,
	"grad_norm": 23.599891662597656,
	"learning_rate": 3.6990649500549487e-06,
	"loss": 2.6565,
	"step": 507000
	},
	{
	"epoch": 2.804223741138377,
	"grad_norm": 8.95606803894043,
	"learning_rate": 3.647902225987799e-06,
	"loss": 2.6444,
	"step": 507500
	},
	{
	"epoch": 2.8069865231493507,
	"grad_norm": 6.165973663330078,
	"learning_rate": 3.5967395019206493e-06,
	"loss": 2.6061,
	"step": 508000
	},
	{
	"epoch": 2.809749305160324,
	"grad_norm": 5.899477958679199,
	"learning_rate": 3.545679103301633e-06,
	"loss": 2.6525,
	"step": 508500
	},
	{
	"epoch": 2.812512087171298,
	"grad_norm": 12.357131958007812,
	"learning_rate": 3.4945163792344833e-06,
	"loss": 2.601,
	"step": 509000
	},
	{
	"epoch": 2.8152748691822715,
	"grad_norm": 5.383533000946045,
	"learning_rate": 3.4433536551673327e-06,
	"loss": 2.6151,
	"step": 509500
	},
	{
	"epoch": 2.8180376511932455,
	"grad_norm": 6.1412153244018555,
	"learning_rate": 3.392190931100183e-06,
	"loss": 2.6158,
	"step": 510000
	},
	{
	"epoch": 2.8180376511932455,
	"eval_runtime": 1441.3572,
	"eval_samples_per_second": 251.12,
	"eval_steps_per_second": 31.391,
	"step": 510000
	},
	{
	"epoch": 2.8208004332042194,
	"grad_norm": 9.799259185791016,
	"learning_rate": 3.3411305324811675e-06,
	"loss": 2.6548,
	"step": 510500
	},
	{
	"epoch": 2.8235632152151933,
	"grad_norm": 6.84127140045166,
	"learning_rate": 3.289967808414017e-06,
	"loss": 2.6121,
	"step": 511000
	},
	{
	"epoch": 2.8263259972261667,
	"grad_norm": 5.669933795928955,
	"learning_rate": 3.2388050843468672e-06,
	"loss": 2.647,
	"step": 511500
	},
	{
	"epoch": 2.8290887792371406,
	"grad_norm": 4.693601608276367,
	"learning_rate": 3.187744685727851e-06,
	"loss": 2.6306,
	"step": 512000
	},
	{
	"epoch": 2.8318515612481145,
	"grad_norm": 4.971369743347168,
	"learning_rate": 3.1365819616607012e-06,
	"loss": 2.6419,
	"step": 512500
	},
	{
	"epoch": 2.834614343259088,
	"grad_norm": 6.460732460021973,
	"learning_rate": 3.085419237593551e-06,
	"loss": 2.5998,
	"step": 513000
	},
	{
	"epoch": 2.837377125270062,
	"grad_norm": 7.711912155151367,
	"learning_rate": 3.0342565135264013e-06,
	"loss": 2.6082,
	"step": 513500
	},
	{
	"epoch": 2.840139907281036,
	"grad_norm": 6.650845527648926,
	"learning_rate": 2.983093789459251e-06,
	"loss": 2.6067,
	"step": 514000
	},
	{
	"epoch": 2.8429026892920097,
	"grad_norm": 6.2975664138793945,
	"learning_rate": 2.931931065392101e-06,
	"loss": 2.6717,
	"step": 514500
	},
	{
	"epoch": 2.845665471302983,
	"grad_norm": 8.976877212524414,
	"learning_rate": 2.880768341324951e-06,
	"loss": 2.6582,
	"step": 515000
	},
	{
	"epoch": 2.845665471302983,
	"eval_runtime": 1422.7904,
	"eval_samples_per_second": 254.397,
	"eval_steps_per_second": 31.8,
	"step": 515000
	},
	{
	"epoch": 2.848428253313957,
	"grad_norm": 7.009723663330078,
	"learning_rate": 2.8296056172578008e-06,
	"loss": 2.6485,
	"step": 515500
	},
	{
	"epoch": 2.8511910353249306,
	"grad_norm": 12.484458923339844,
	"learning_rate": 2.7785452186387853e-06,
	"loss": 2.5926,
	"step": 516000
	},
	{
	"epoch": 2.8539538173359045,
	"grad_norm": 8.153068542480469,
	"learning_rate": 2.727382494571635e-06,
	"loss": 2.6376,
	"step": 516500
	},
	{
	"epoch": 2.8567165993468784,
	"grad_norm": 8.453513145446777,
	"learning_rate": 2.676219770504485e-06,
	"loss": 2.5791,
	"step": 517000
	},
	{
	"epoch": 2.8594793813578523,
	"grad_norm": 5.08599853515625,
	"learning_rate": 2.6250570464373353e-06,
	"loss": 2.6142,
	"step": 517500
	},
	{
	"epoch": 2.8622421633688258,
	"grad_norm": 6.9135589599609375,
	"learning_rate": 2.5740989732664537e-06,
	"loss": 2.6435,
	"step": 518000
	},
	{
	"epoch": 2.8650049453797997,
	"grad_norm": 7.915692329406738,
	"learning_rate": 2.5229362491993036e-06,
	"loss": 2.6459,
	"step": 518500
	},
	{
	"epoch": 2.8677677273907736,
	"grad_norm": 6.149202823638916,
	"learning_rate": 2.4717735251321534e-06,
	"loss": 2.6444,
	"step": 519000
	},
	{
	"epoch": 2.870530509401747,
	"grad_norm": 5.931761741638184,
	"learning_rate": 2.4206108010650033e-06,
	"loss": 2.6396,
	"step": 519500
	},
	{
	"epoch": 2.873293291412721,
	"grad_norm": 7.582653045654297,
	"learning_rate": 2.3694480769978536e-06,
	"loss": 2.6285,
	"step": 520000
	},
	{
	"epoch": 2.873293291412721,
	"eval_runtime": 1392.8266,
	"eval_samples_per_second": 259.869,
	"eval_steps_per_second": 32.484,
	"step": 520000
	},
	{
	"epoch": 2.876056073423695,
	"grad_norm": 5.626070976257324,
	"learning_rate": 2.3182853529307034e-06,
	"loss": 2.5947,
	"step": 520500
	},
	{
	"epoch": 2.8788188554346688,
	"grad_norm": 6.177218914031982,
	"learning_rate": 2.2671226288635533e-06,
	"loss": 2.6351,
	"step": 521000
	},
	{
	"epoch": 2.881581637445642,
	"grad_norm": 7.875889778137207,
	"learning_rate": 2.215959904796403e-06,
	"loss": 2.6291,
	"step": 521500
	},
	{
	"epoch": 2.884344419456616,
	"grad_norm": 6.308676242828369,
	"learning_rate": 2.164797180729253e-06,
	"loss": 2.5921,
	"step": 522000
	},
	{
	"epoch": 2.8871072014675896,
	"grad_norm": 6.715153217315674,
	"learning_rate": 2.1137367821102375e-06,
	"loss": 2.6217,
	"step": 522500
	},
	{
	"epoch": 2.8898699834785635,
	"grad_norm": 6.99116849899292,
	"learning_rate": 2.0625740580430874e-06,
	"loss": 2.645,
	"step": 523000
	},
	{
	"epoch": 2.8926327654895374,
	"grad_norm": 7.715075969696045,
	"learning_rate": 2.0114113339759372e-06,
	"loss": 2.6156,
	"step": 523500
	},
	{
	"epoch": 2.8953955475005113,
	"grad_norm": 8.207829475402832,
	"learning_rate": 1.9602486099087875e-06,
	"loss": 2.6027,
	"step": 524000
	},
	{
	"epoch": 2.8981583295114848,
	"grad_norm": 6.43826150894165,
	"learning_rate": 1.9091882112897712e-06,
	"loss": 2.6053,
	"step": 524500
	},
	{
	"epoch": 2.9009211115224587,
	"grad_norm": 9.398484230041504,
	"learning_rate": 1.8580254872226213e-06,
	"loss": 2.5925,
	"step": 525000
	},
	{
	"epoch": 2.9009211115224587,
	"eval_runtime": 1412.1705,
	"eval_samples_per_second": 256.31,
	"eval_steps_per_second": 32.039,
	"step": 525000
	},
	{
	"epoch": 2.903683893533432,
	"grad_norm": 6.568800926208496,
	"learning_rate": 1.8068627631554713e-06,
	"loss": 2.5867,
	"step": 525500
	},
	{
	"epoch": 2.906446675544406,
	"grad_norm": 6.8241963386535645,
	"learning_rate": 1.7557000390883212e-06,
	"loss": 2.5929,
	"step": 526000
	},
	{
	"epoch": 2.90920945755538,
	"grad_norm": 4.7916436195373535,
	"learning_rate": 1.7046396404693056e-06,
	"loss": 2.6441,
	"step": 526500
	},
	{
	"epoch": 2.911972239566354,
	"grad_norm": 8.739401817321777,
	"learning_rate": 1.6534769164021556e-06,
	"loss": 2.6121,
	"step": 527000
	},
	{
	"epoch": 2.914735021577328,
	"grad_norm": 8.750603675842285,
	"learning_rate": 1.6023141923350055e-06,
	"loss": 2.6541,
	"step": 527500
	},
	{
	"epoch": 2.9174978035883012,
	"grad_norm": 7.22824239730835,
	"learning_rate": 1.5511514682678553e-06,
	"loss": 2.6455,
	"step": 528000
	},
	{
	"epoch": 2.920260585599275,
	"grad_norm": 8.114001274108887,
	"learning_rate": 1.4999887442007054e-06,
	"loss": 2.5991,
	"step": 528500
	},
	{
	"epoch": 2.9230233676102486,
	"grad_norm": 4.913358688354492,
	"learning_rate": 1.4488260201335552e-06,
	"loss": 2.6597,
	"step": 529000
	},
	{
	"epoch": 2.9257861496212225,
	"grad_norm": 4.944784164428711,
	"learning_rate": 1.397663296066405e-06,
	"loss": 2.5788,
	"step": 529500
	},
	{
	"epoch": 2.9285489316321964,
	"grad_norm": 6.435703754425049,
	"learning_rate": 1.3465005719992551e-06,
	"loss": 2.5839,
	"step": 530000
	},
	{
	"epoch": 2.9285489316321964,
	"eval_runtime": 1465.041,
	"eval_samples_per_second": 247.06,
	"eval_steps_per_second": 30.883,
	"step": 530000
	},
	{
	"epoch": 2.9313117136431703,
	"grad_norm": 6.146181583404541,
	"learning_rate": 1.295337847932105e-06,
	"loss": 2.5753,
	"step": 530500
	},
	{
	"epoch": 2.934074495654144,
	"grad_norm": 6.585812568664551,
	"learning_rate": 1.2442774493130894e-06,
	"loss": 2.6388,
	"step": 531000
	},
	{
	"epoch": 2.9368372776651177,
	"grad_norm": 5.040027618408203,
	"learning_rate": 1.1931147252459392e-06,
	"loss": 2.6404,
	"step": 531500
	},
	{
	"epoch": 2.939600059676091,
	"grad_norm": 6.62531042098999,
	"learning_rate": 1.141952001178789e-06,
	"loss": 2.6357,
	"step": 532000
	},
	{
	"epoch": 2.942362841687065,
	"grad_norm": 6.749676704406738,
	"learning_rate": 1.0907892771116393e-06,
	"loss": 2.6343,
	"step": 532500
	},
	{
	"epoch": 2.945125623698039,
	"grad_norm": 6.896877765655518,
	"learning_rate": 1.0397288784926235e-06,
	"loss": 2.5909,
	"step": 533000
	},
	{
	"epoch": 2.947888405709013,
	"grad_norm": 5.896803855895996,
	"learning_rate": 9.885661544254733e-07,
	"loss": 2.6058,
	"step": 533500
	},
	{
	"epoch": 2.9506511877199864,
	"grad_norm": 7.961572170257568,
	"learning_rate": 9.374034303583234e-07,
	"loss": 2.5977,
	"step": 534000
	},
	{
	"epoch": 2.9534139697309603,
	"grad_norm": 5.0403594970703125,
	"learning_rate": 8.862407062911732e-07,
	"loss": 2.6199,
	"step": 534500
	},
	{
	"epoch": 2.956176751741934,
	"grad_norm": 5.320588111877441,
	"learning_rate": 8.351803076721575e-07,
	"loss": 2.6392,
	"step": 535000
	},
	{
	"epoch": 2.956176751741934,
	"eval_runtime": 1384.9303,
	"eval_samples_per_second": 261.351,
	"eval_steps_per_second": 32.67,
	"step": 535000
	},
	{
	"epoch": 2.9589395337529076,
	"grad_norm": 6.019600868225098,
	"learning_rate": 7.840175836050074e-07,
	"loss": 2.6634,
	"step": 535500
	},
	{
	"epoch": 2.9617023157638815,
	"grad_norm": 8.975756645202637,
	"learning_rate": 7.328548595378574e-07,
	"loss": 2.6451,
	"step": 536000
	},
	{
	"epoch": 2.9644650977748555,
	"grad_norm": 5.559593200683594,
	"learning_rate": 6.816921354707074e-07,
	"loss": 2.579,
	"step": 536500
	},
	{
	"epoch": 2.9672278797858294,
	"grad_norm": 5.876176834106445,
	"learning_rate": 6.305294114035572e-07,
	"loss": 2.6417,
	"step": 537000
	},
	{
	"epoch": 2.969990661796803,
	"grad_norm": 6.175969123840332,
	"learning_rate": 5.793666873364073e-07,
	"loss": 2.6182,
	"step": 537500
	},
	{
	"epoch": 2.9727534438077767,
	"grad_norm": 7.48173713684082,
	"learning_rate": 5.283062887173914e-07,
	"loss": 2.6455,
	"step": 538000
	},
	{
	"epoch": 2.97551622581875,
	"grad_norm": 7.331089496612549,
	"learning_rate": 4.771435646502415e-07,
	"loss": 2.625,
	"step": 538500
	},
	{
	"epoch": 2.978279007829724,
	"grad_norm": 4.610020637512207,
	"learning_rate": 4.259808405830914e-07,
	"loss": 2.6334,
	"step": 539000
	},
	{
	"epoch": 2.981041789840698,
	"grad_norm": 8.355249404907227,
	"learning_rate": 3.748181165159413e-07,
	"loss": 2.6034,
	"step": 539500
	},
	{
	"epoch": 2.983804571851672,
	"grad_norm": 6.447065830230713,
	"learning_rate": 3.2365539244879124e-07,
	"loss": 2.6019,
	"step": 540000
	},
	{
	"epoch": 2.983804571851672,
	"eval_runtime": 1372.3117,
	"eval_samples_per_second": 263.754,
	"eval_steps_per_second": 32.97,
	"step": 540000
	},
	{
	"epoch": 2.9865673538626454,
	"grad_norm": 8.215147018432617,
	"learning_rate": 2.724926683816412e-07,
	"loss": 2.6186,
	"step": 540500
	},
	{
	"epoch": 2.9893301358736193,
	"grad_norm": 5.153554439544678,
	"learning_rate": 2.2132994431449112e-07,
	"loss": 2.6318,
	"step": 541000
	},
	{
	"epoch": 2.992092917884593,
	"grad_norm": 6.764389991760254,
	"learning_rate": 1.7016722024734108e-07,
	"loss": 2.6113,
	"step": 541500
	},
	{
	"epoch": 2.9948556998955667,
	"grad_norm": 8.090177536010742,
	"learning_rate": 1.1910682162832533e-07,
	"loss": 2.6307,
	"step": 542000
	},
	{
	"epoch": 2.9976184819065406,
	"grad_norm": 10.311904907226562,
	"learning_rate": 6.794409756117527e-08,
	"loss": 2.6157,
	"step": 542500
	}
	],
	"logging_steps": 500,
	"max_steps": 542931,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.8505448008628067e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}