Upload folder using huggingface_hub

137c748 verified 9 days ago

135 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.990047413608987,
	"eval_steps": 1000,
	"global_step": 70000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004271496305155696,
	"grad_norm": 5.181503772735596,
	"learning_rate": 7.118451025056948e-07,
	"loss": 5.7231,
	"step": 100
	},
	{
	"epoch": 0.008542992610311393,
	"grad_norm": 4.810484886169434,
	"learning_rate": 1.4236902050113896e-06,
	"loss": 5.663,
	"step": 200
	},
	{
	"epoch": 0.012814488915467088,
	"grad_norm": 6.623730182647705,
	"learning_rate": 2.1355353075170844e-06,
	"loss": 5.8302,
	"step": 300
	},
	{
	"epoch": 0.017085985220622785,
	"grad_norm": 4.488267421722412,
	"learning_rate": 2.847380410022779e-06,
	"loss": 5.5719,
	"step": 400
	},
	{
	"epoch": 0.02135748152577848,
	"grad_norm": 5.217711448669434,
	"learning_rate": 3.559225512528474e-06,
	"loss": 5.572,
	"step": 500
	},
	{
	"epoch": 0.025628977830934176,
	"grad_norm": 6.749180316925049,
	"learning_rate": 4.271070615034169e-06,
	"loss": 5.6101,
	"step": 600
	},
	{
	"epoch": 0.029900474136089872,
	"grad_norm": 7.648950099945068,
	"learning_rate": 4.9829157175398636e-06,
	"loss": 5.6377,
	"step": 700
	},
	{
	"epoch": 0.03417197044124557,
	"grad_norm": 8.535877227783203,
	"learning_rate": 5.694760820045558e-06,
	"loss": 5.3197,
	"step": 800
	},
	{
	"epoch": 0.03844346674640126,
	"grad_norm": 10.138134002685547,
	"learning_rate": 6.406605922551254e-06,
	"loss": 5.2204,
	"step": 900
	},
	{
	"epoch": 0.04271496305155696,
	"grad_norm": 9.492013931274414,
	"learning_rate": 7.118451025056948e-06,
	"loss": 5.1271,
	"step": 1000
	},
	{
	"epoch": 0.04271496305155696,
	"eval_runtime": 404.87,
	"eval_samples_per_second": 115.647,
	"eval_steps_per_second": 14.456,
	"step": 1000
	},
	{
	"epoch": 0.046986459356712654,
	"grad_norm": 9.8007230758667,
	"learning_rate": 7.830296127562643e-06,
	"loss": 4.8906,
	"step": 1100
	},
	{
	"epoch": 0.05125795566186835,
	"grad_norm": 15.544700622558594,
	"learning_rate": 8.542141230068338e-06,
	"loss": 4.7123,
	"step": 1200
	},
	{
	"epoch": 0.05552945196702405,
	"grad_norm": 11.552872657775879,
	"learning_rate": 9.253986332574032e-06,
	"loss": 4.542,
	"step": 1300
	},
	{
	"epoch": 0.059800948272179744,
	"grad_norm": 8.390003204345703,
	"learning_rate": 9.965831435079727e-06,
	"loss": 4.1772,
	"step": 1400
	},
	{
	"epoch": 0.06407244457733544,
	"grad_norm": 6.352422714233398,
	"learning_rate": 1.0677676537585422e-05,
	"loss": 4.1877,
	"step": 1500
	},
	{
	"epoch": 0.06834394088249114,
	"grad_norm": 11.394415855407715,
	"learning_rate": 1.1389521640091117e-05,
	"loss": 4.1625,
	"step": 1600
	},
	{
	"epoch": 0.07261543718764683,
	"grad_norm": 7.095893859863281,
	"learning_rate": 1.2101366742596812e-05,
	"loss": 4.0512,
	"step": 1700
	},
	{
	"epoch": 0.07688693349280253,
	"grad_norm": 11.011418342590332,
	"learning_rate": 1.2813211845102508e-05,
	"loss": 4.0444,
	"step": 1800
	},
	{
	"epoch": 0.08115842979795823,
	"grad_norm": 7.294766902923584,
	"learning_rate": 1.35250569476082e-05,
	"loss": 4.1648,
	"step": 1900
	},
	{
	"epoch": 0.08542992610311392,
	"grad_norm": 9.359979629516602,
	"learning_rate": 1.4236902050113896e-05,
	"loss": 4.1958,
	"step": 2000
	},
	{
	"epoch": 0.08542992610311392,
	"eval_runtime": 404.9689,
	"eval_samples_per_second": 115.619,
	"eval_steps_per_second": 14.453,
	"step": 2000
	},
	{
	"epoch": 0.08970142240826962,
	"grad_norm": 9.699823379516602,
	"learning_rate": 1.494874715261959e-05,
	"loss": 4.0555,
	"step": 2100
	},
	{
	"epoch": 0.09397291871342531,
	"grad_norm": 9.576581954956055,
	"learning_rate": 1.5660592255125285e-05,
	"loss": 4.1073,
	"step": 2200
	},
	{
	"epoch": 0.09824441501858101,
	"grad_norm": 9.165473937988281,
	"learning_rate": 1.637243735763098e-05,
	"loss": 4.0373,
	"step": 2300
	},
	{
	"epoch": 0.1025159113237367,
	"grad_norm": 9.258238792419434,
	"learning_rate": 1.7084282460136675e-05,
	"loss": 3.8695,
	"step": 2400
	},
	{
	"epoch": 0.1067874076288924,
	"grad_norm": 10.60352897644043,
	"learning_rate": 1.779612756264237e-05,
	"loss": 3.8457,
	"step": 2500
	},
	{
	"epoch": 0.1110589039340481,
	"grad_norm": 8.64367961883545,
	"learning_rate": 1.8507972665148065e-05,
	"loss": 3.8887,
	"step": 2600
	},
	{
	"epoch": 0.1153304002392038,
	"grad_norm": 11.192293167114258,
	"learning_rate": 1.9219817767653758e-05,
	"loss": 4.0215,
	"step": 2700
	},
	{
	"epoch": 0.11960189654435949,
	"grad_norm": 11.153294563293457,
	"learning_rate": 1.9931662870159454e-05,
	"loss": 3.9655,
	"step": 2800
	},
	{
	"epoch": 0.12387339284951518,
	"grad_norm": 9.78614616394043,
	"learning_rate": 2.064350797266515e-05,
	"loss": 4.0018,
	"step": 2900
	},
	{
	"epoch": 0.12814488915467087,
	"grad_norm": 11.2694730758667,
	"learning_rate": 2.1355353075170844e-05,
	"loss": 3.9469,
	"step": 3000
	},
	{
	"epoch": 0.12814488915467087,
	"eval_runtime": 404.9852,
	"eval_samples_per_second": 115.614,
	"eval_steps_per_second": 14.452,
	"step": 3000
	},
	{
	"epoch": 0.1324163854598266,
	"grad_norm": 9.227404594421387,
	"learning_rate": 2.2067198177676537e-05,
	"loss": 3.9662,
	"step": 3100
	},
	{
	"epoch": 0.13668788176498228,
	"grad_norm": 13.020267486572266,
	"learning_rate": 2.2779043280182233e-05,
	"loss": 3.9011,
	"step": 3200
	},
	{
	"epoch": 0.14095937807013798,
	"grad_norm": 8.806400299072266,
	"learning_rate": 2.349088838268793e-05,
	"loss": 3.9507,
	"step": 3300
	},
	{
	"epoch": 0.14523087437529367,
	"grad_norm": 7.716139793395996,
	"learning_rate": 2.4202733485193623e-05,
	"loss": 3.9536,
	"step": 3400
	},
	{
	"epoch": 0.14950237068044936,
	"grad_norm": 12.768115997314453,
	"learning_rate": 2.4914578587699316e-05,
	"loss": 3.9268,
	"step": 3500
	},
	{
	"epoch": 0.15377386698560505,
	"grad_norm": 10.236725807189941,
	"learning_rate": 2.5626423690205016e-05,
	"loss": 3.8231,
	"step": 3600
	},
	{
	"epoch": 0.15804536329076074,
	"grad_norm": 13.891462326049805,
	"learning_rate": 2.633826879271071e-05,
	"loss": 3.8843,
	"step": 3700
	},
	{
	"epoch": 0.16231685959591646,
	"grad_norm": 12.619128227233887,
	"learning_rate": 2.70501138952164e-05,
	"loss": 3.8942,
	"step": 3800
	},
	{
	"epoch": 0.16658835590107215,
	"grad_norm": 8.733612060546875,
	"learning_rate": 2.77619589977221e-05,
	"loss": 3.7588,
	"step": 3900
	},
	{
	"epoch": 0.17085985220622785,
	"grad_norm": 10.724875450134277,
	"learning_rate": 2.8473804100227792e-05,
	"loss": 3.8525,
	"step": 4000
	},
	{
	"epoch": 0.17085985220622785,
	"eval_runtime": 404.7816,
	"eval_samples_per_second": 115.672,
	"eval_steps_per_second": 14.46,
	"step": 4000
	},
	{
	"epoch": 0.17513134851138354,
	"grad_norm": 9.703784942626953,
	"learning_rate": 2.9185649202733488e-05,
	"loss": 3.7397,
	"step": 4100
	},
	{
	"epoch": 0.17940284481653923,
	"grad_norm": 10.537924766540527,
	"learning_rate": 2.989749430523918e-05,
	"loss": 3.8457,
	"step": 4200
	},
	{
	"epoch": 0.18367434112169492,
	"grad_norm": 13.7029447555542,
	"learning_rate": 3.0609339407744874e-05,
	"loss": 3.8889,
	"step": 4300
	},
	{
	"epoch": 0.18794583742685061,
	"grad_norm": 11.692300796508789,
	"learning_rate": 3.132118451025057e-05,
	"loss": 3.9057,
	"step": 4400
	},
	{
	"epoch": 0.19221733373200633,
	"grad_norm": 11.873428344726562,
	"learning_rate": 3.203302961275627e-05,
	"loss": 3.8959,
	"step": 4500
	},
	{
	"epoch": 0.19648883003716203,
	"grad_norm": 10.291272163391113,
	"learning_rate": 3.274487471526196e-05,
	"loss": 3.8212,
	"step": 4600
	},
	{
	"epoch": 0.20076032634231772,
	"grad_norm": 10.874945640563965,
	"learning_rate": 3.3456719817767654e-05,
	"loss": 3.8884,
	"step": 4700
	},
	{
	"epoch": 0.2050318226474734,
	"grad_norm": 15.713820457458496,
	"learning_rate": 3.416856492027335e-05,
	"loss": 3.9066,
	"step": 4800
	},
	{
	"epoch": 0.2093033189526291,
	"grad_norm": 11.526785850524902,
	"learning_rate": 3.488041002277905e-05,
	"loss": 3.7686,
	"step": 4900
	},
	{
	"epoch": 0.2135748152577848,
	"grad_norm": 10.42326545715332,
	"learning_rate": 3.559225512528474e-05,
	"loss": 3.784,
	"step": 5000
	},
	{
	"epoch": 0.2135748152577848,
	"eval_runtime": 404.8034,
	"eval_samples_per_second": 115.666,
	"eval_steps_per_second": 14.459,
	"step": 5000
	},
	{
	"epoch": 0.2178463115629405,
	"grad_norm": 14.717082023620605,
	"learning_rate": 3.630410022779043e-05,
	"loss": 3.8462,
	"step": 5100
	},
	{
	"epoch": 0.2221178078680962,
	"grad_norm": 11.965718269348145,
	"learning_rate": 3.701594533029613e-05,
	"loss": 3.9435,
	"step": 5200
	},
	{
	"epoch": 0.2263893041732519,
	"grad_norm": 10.752185821533203,
	"learning_rate": 3.7727790432801826e-05,
	"loss": 3.8663,
	"step": 5300
	},
	{
	"epoch": 0.2306608004784076,
	"grad_norm": 12.059910774230957,
	"learning_rate": 3.8439635535307516e-05,
	"loss": 3.7925,
	"step": 5400
	},
	{
	"epoch": 0.23493229678356328,
	"grad_norm": 9.081160545349121,
	"learning_rate": 3.915148063781321e-05,
	"loss": 3.8639,
	"step": 5500
	},
	{
	"epoch": 0.23920379308871897,
	"grad_norm": 10.45064926147461,
	"learning_rate": 3.986332574031891e-05,
	"loss": 3.8497,
	"step": 5600
	},
	{
	"epoch": 0.24347528939387467,
	"grad_norm": 15.188603401184082,
	"learning_rate": 4.0575170842824605e-05,
	"loss": 3.7753,
	"step": 5700
	},
	{
	"epoch": 0.24774678569903036,
	"grad_norm": 9.032523155212402,
	"learning_rate": 4.12870159453303e-05,
	"loss": 3.8309,
	"step": 5800
	},
	{
	"epoch": 0.2520182820041861,
	"grad_norm": 9.886519432067871,
	"learning_rate": 4.199886104783599e-05,
	"loss": 3.8508,
	"step": 5900
	},
	{
	"epoch": 0.25628977830934174,
	"grad_norm": 11.432881355285645,
	"learning_rate": 4.271070615034169e-05,
	"loss": 3.8327,
	"step": 6000
	},
	{
	"epoch": 0.25628977830934174,
	"eval_runtime": 404.7732,
	"eval_samples_per_second": 115.675,
	"eval_steps_per_second": 14.46,
	"step": 6000
	},
	{
	"epoch": 0.26056127461449746,
	"grad_norm": 10.134676933288574,
	"learning_rate": 4.3422551252847384e-05,
	"loss": 3.8419,
	"step": 6100
	},
	{
	"epoch": 0.2648327709196532,
	"grad_norm": 12.583077430725098,
	"learning_rate": 4.4134396355353074e-05,
	"loss": 3.884,
	"step": 6200
	},
	{
	"epoch": 0.26910426722480885,
	"grad_norm": 9.845976829528809,
	"learning_rate": 4.484624145785877e-05,
	"loss": 3.7787,
	"step": 6300
	},
	{
	"epoch": 0.27337576352996457,
	"grad_norm": 21.58133888244629,
	"learning_rate": 4.555808656036447e-05,
	"loss": 3.8962,
	"step": 6400
	},
	{
	"epoch": 0.27764725983512023,
	"grad_norm": 12.139480590820312,
	"learning_rate": 4.626993166287016e-05,
	"loss": 3.722,
	"step": 6500
	},
	{
	"epoch": 0.28191875614027595,
	"grad_norm": 8.343817710876465,
	"learning_rate": 4.698177676537586e-05,
	"loss": 3.8009,
	"step": 6600
	},
	{
	"epoch": 0.2861902524454316,
	"grad_norm": 17.52387809753418,
	"learning_rate": 4.769362186788155e-05,
	"loss": 3.8687,
	"step": 6700
	},
	{
	"epoch": 0.29046174875058733,
	"grad_norm": 7.540428638458252,
	"learning_rate": 4.8405466970387246e-05,
	"loss": 3.727,
	"step": 6800
	},
	{
	"epoch": 0.29473324505574305,
	"grad_norm": 11.794758796691895,
	"learning_rate": 4.911731207289294e-05,
	"loss": 3.7971,
	"step": 6900
	},
	{
	"epoch": 0.2990047413608987,
	"grad_norm": 10.799798011779785,
	"learning_rate": 4.982915717539863e-05,
	"loss": 3.8319,
	"step": 7000
	},
	{
	"epoch": 0.2990047413608987,
	"eval_runtime": 404.96,
	"eval_samples_per_second": 115.621,
	"eval_steps_per_second": 14.453,
	"step": 7000
	},
	{
	"epoch": 0.30327623766605444,
	"grad_norm": 10.189812660217285,
	"learning_rate": 4.993988197883213e-05,
	"loss": 3.8696,
	"step": 7100
	},
	{
	"epoch": 0.3075477339712101,
	"grad_norm": 9.960589408874512,
	"learning_rate": 4.986077931940072e-05,
	"loss": 3.7356,
	"step": 7200
	},
	{
	"epoch": 0.3118192302763658,
	"grad_norm": 19.682788848876953,
	"learning_rate": 4.978167665996931e-05,
	"loss": 3.8524,
	"step": 7300
	},
	{
	"epoch": 0.3160907265815215,
	"grad_norm": 10.302993774414062,
	"learning_rate": 4.9702574000537896e-05,
	"loss": 3.6824,
	"step": 7400
	},
	{
	"epoch": 0.3203622228866772,
	"grad_norm": 11.691702842712402,
	"learning_rate": 4.9623471341106494e-05,
	"loss": 3.8522,
	"step": 7500
	},
	{
	"epoch": 0.3246337191918329,
	"grad_norm": 8.01658821105957,
	"learning_rate": 4.954436868167508e-05,
	"loss": 3.8386,
	"step": 7600
	},
	{
	"epoch": 0.3289052154969886,
	"grad_norm": 8.131669998168945,
	"learning_rate": 4.946526602224367e-05,
	"loss": 3.7587,
	"step": 7700
	},
	{
	"epoch": 0.3331767118021443,
	"grad_norm": 63.0767822265625,
	"learning_rate": 4.938616336281226e-05,
	"loss": 3.9019,
	"step": 7800
	},
	{
	"epoch": 0.3374482081073,
	"grad_norm": 10.04031753540039,
	"learning_rate": 4.930706070338085e-05,
	"loss": 3.8661,
	"step": 7900
	},
	{
	"epoch": 0.3417197044124557,
	"grad_norm": 8.829032897949219,
	"learning_rate": 4.922795804394944e-05,
	"loss": 3.8105,
	"step": 8000
	},
	{
	"epoch": 0.3417197044124557,
	"eval_runtime": 405.1664,
	"eval_samples_per_second": 115.562,
	"eval_steps_per_second": 14.446,
	"step": 8000
	},
	{
	"epoch": 0.34599120071761136,
	"grad_norm": 15.314312934875488,
	"learning_rate": 4.914885538451803e-05,
	"loss": 3.6279,
	"step": 8100
	},
	{
	"epoch": 0.3502626970227671,
	"grad_norm": 8.690494537353516,
	"learning_rate": 4.906975272508662e-05,
	"loss": 3.8336,
	"step": 8200
	},
	{
	"epoch": 0.3545341933279228,
	"grad_norm": 10.526517868041992,
	"learning_rate": 4.8990650065655206e-05,
	"loss": 3.8046,
	"step": 8300
	},
	{
	"epoch": 0.35880568963307846,
	"grad_norm": 7.85405969619751,
	"learning_rate": 4.8911547406223804e-05,
	"loss": 3.7721,
	"step": 8400
	},
	{
	"epoch": 0.3630771859382342,
	"grad_norm": 11.473519325256348,
	"learning_rate": 4.883244474679239e-05,
	"loss": 3.7854,
	"step": 8500
	},
	{
	"epoch": 0.36734868224338985,
	"grad_norm": 9.746980667114258,
	"learning_rate": 4.875334208736098e-05,
	"loss": 3.7573,
	"step": 8600
	},
	{
	"epoch": 0.37162017854854557,
	"grad_norm": 9.924898147583008,
	"learning_rate": 4.867423942792957e-05,
	"loss": 3.8054,
	"step": 8700
	},
	{
	"epoch": 0.37589167485370123,
	"grad_norm": 8.137608528137207,
	"learning_rate": 4.859513676849816e-05,
	"loss": 3.8245,
	"step": 8800
	},
	{
	"epoch": 0.38016317115885695,
	"grad_norm": 8.987218856811523,
	"learning_rate": 4.851603410906675e-05,
	"loss": 3.742,
	"step": 8900
	},
	{
	"epoch": 0.38443466746401267,
	"grad_norm": 9.04791259765625,
	"learning_rate": 4.843693144963534e-05,
	"loss": 3.7748,
	"step": 9000
	},
	{
	"epoch": 0.38443466746401267,
	"eval_runtime": 404.3649,
	"eval_samples_per_second": 115.791,
	"eval_steps_per_second": 14.475,
	"step": 9000
	},
	{
	"epoch": 0.38870616376916833,
	"grad_norm": 10.426161766052246,
	"learning_rate": 4.835782879020393e-05,
	"loss": 3.823,
	"step": 9100
	},
	{
	"epoch": 0.39297766007432405,
	"grad_norm": 8.951033592224121,
	"learning_rate": 4.8278726130772516e-05,
	"loss": 3.5732,
	"step": 9200
	},
	{
	"epoch": 0.3972491563794797,
	"grad_norm": 10.766894340515137,
	"learning_rate": 4.819962347134111e-05,
	"loss": 3.7286,
	"step": 9300
	},
	{
	"epoch": 0.40152065268463544,
	"grad_norm": 9.429593086242676,
	"learning_rate": 4.81205208119097e-05,
	"loss": 3.7493,
	"step": 9400
	},
	{
	"epoch": 0.4057921489897911,
	"grad_norm": 14.518060684204102,
	"learning_rate": 4.804141815247829e-05,
	"loss": 3.81,
	"step": 9500
	},
	{
	"epoch": 0.4100636452949468,
	"grad_norm": 20.795759201049805,
	"learning_rate": 4.7962315493046875e-05,
	"loss": 3.7045,
	"step": 9600
	},
	{
	"epoch": 0.41433514160010254,
	"grad_norm": 10.095163345336914,
	"learning_rate": 4.788321283361547e-05,
	"loss": 3.7767,
	"step": 9700
	},
	{
	"epoch": 0.4186066379052582,
	"grad_norm": 14.195402145385742,
	"learning_rate": 4.780411017418406e-05,
	"loss": 3.6874,
	"step": 9800
	},
	{
	"epoch": 0.4228781342104139,
	"grad_norm": 8.357501029968262,
	"learning_rate": 4.772500751475265e-05,
	"loss": 3.6675,
	"step": 9900
	},
	{
	"epoch": 0.4271496305155696,
	"grad_norm": 8.715255737304688,
	"learning_rate": 4.764590485532124e-05,
	"loss": 3.7657,
	"step": 10000
	},
	{
	"epoch": 0.4271496305155696,
	"eval_runtime": 405.002,
	"eval_samples_per_second": 115.609,
	"eval_steps_per_second": 14.452,
	"step": 10000
	},
	{
	"epoch": 0.4314211268207253,
	"grad_norm": 11.821653366088867,
	"learning_rate": 4.7566802195889826e-05,
	"loss": 3.6386,
	"step": 10100
	},
	{
	"epoch": 0.435692623125881,
	"grad_norm": 10.1320161819458,
	"learning_rate": 4.748769953645842e-05,
	"loss": 3.808,
	"step": 10200
	},
	{
	"epoch": 0.4399641194310367,
	"grad_norm": 9.089192390441895,
	"learning_rate": 4.740859687702701e-05,
	"loss": 3.7376,
	"step": 10300
	},
	{
	"epoch": 0.4442356157361924,
	"grad_norm": 9.963017463684082,
	"learning_rate": 4.73294942175956e-05,
	"loss": 3.8257,
	"step": 10400
	},
	{
	"epoch": 0.4485071120413481,
	"grad_norm": 9.806687355041504,
	"learning_rate": 4.7250391558164185e-05,
	"loss": 3.7903,
	"step": 10500
	},
	{
	"epoch": 0.4527786083465038,
	"grad_norm": 10.770492553710938,
	"learning_rate": 4.7171288898732776e-05,
	"loss": 3.7205,
	"step": 10600
	},
	{
	"epoch": 0.45705010465165946,
	"grad_norm": 11.635176658630371,
	"learning_rate": 4.709218623930137e-05,
	"loss": 3.6938,
	"step": 10700
	},
	{
	"epoch": 0.4613216009568152,
	"grad_norm": 8.8875732421875,
	"learning_rate": 4.701308357986996e-05,
	"loss": 3.7123,
	"step": 10800
	},
	{
	"epoch": 0.46559309726197085,
	"grad_norm": 7.193441867828369,
	"learning_rate": 4.6933980920438544e-05,
	"loss": 3.6563,
	"step": 10900
	},
	{
	"epoch": 0.46986459356712656,
	"grad_norm": 9.051284790039062,
	"learning_rate": 4.6854878261007135e-05,
	"loss": 3.7284,
	"step": 11000
	},
	{
	"epoch": 0.46986459356712656,
	"eval_runtime": 405.9538,
	"eval_samples_per_second": 115.338,
	"eval_steps_per_second": 14.418,
	"step": 11000
	},
	{
	"epoch": 0.4741360898722823,
	"grad_norm": 12.352762222290039,
	"learning_rate": 4.677577560157573e-05,
	"loss": 3.789,
	"step": 11100
	},
	{
	"epoch": 0.47840758617743795,
	"grad_norm": 9.574907302856445,
	"learning_rate": 4.669667294214432e-05,
	"loss": 3.7442,
	"step": 11200
	},
	{
	"epoch": 0.48267908248259367,
	"grad_norm": 9.639921188354492,
	"learning_rate": 4.661757028271291e-05,
	"loss": 3.7511,
	"step": 11300
	},
	{
	"epoch": 0.48695057878774933,
	"grad_norm": 10.295048713684082,
	"learning_rate": 4.6538467623281494e-05,
	"loss": 3.7032,
	"step": 11400
	},
	{
	"epoch": 0.49122207509290505,
	"grad_norm": 8.52436351776123,
	"learning_rate": 4.6459364963850086e-05,
	"loss": 3.7266,
	"step": 11500
	},
	{
	"epoch": 0.4954935713980607,
	"grad_norm": 12.574061393737793,
	"learning_rate": 4.638026230441868e-05,
	"loss": 3.7196,
	"step": 11600
	},
	{
	"epoch": 0.49976506770321644,
	"grad_norm": 12.421334266662598,
	"learning_rate": 4.630115964498727e-05,
	"loss": 3.6734,
	"step": 11700
	},
	{
	"epoch": 0.5040365640083722,
	"grad_norm": 14.321782112121582,
	"learning_rate": 4.6222056985555854e-05,
	"loss": 3.8048,
	"step": 11800
	},
	{
	"epoch": 0.5083080603135278,
	"grad_norm": 12.409293174743652,
	"learning_rate": 4.614295432612445e-05,
	"loss": 3.7366,
	"step": 11900
	},
	{
	"epoch": 0.5125795566186835,
	"grad_norm": 9.002853393554688,
	"learning_rate": 4.6063851666693037e-05,
	"loss": 3.7532,
	"step": 12000
	},
	{
	"epoch": 0.5125795566186835,
	"eval_runtime": 404.8624,
	"eval_samples_per_second": 115.649,
	"eval_steps_per_second": 14.457,
	"step": 12000
	},
	{
	"epoch": 0.5168510529238393,
	"grad_norm": 8.214455604553223,
	"learning_rate": 4.598474900726162e-05,
	"loss": 3.7221,
	"step": 12100
	},
	{
	"epoch": 0.5211225492289949,
	"grad_norm": 7.018616199493408,
	"learning_rate": 4.590564634783022e-05,
	"loss": 3.6718,
	"step": 12200
	},
	{
	"epoch": 0.5253940455341506,
	"grad_norm": 12.610575675964355,
	"learning_rate": 4.5826543688398804e-05,
	"loss": 3.7282,
	"step": 12300
	},
	{
	"epoch": 0.5296655418393064,
	"grad_norm": 10.168871879577637,
	"learning_rate": 4.5747441028967396e-05,
	"loss": 3.7455,
	"step": 12400
	},
	{
	"epoch": 0.533937038144462,
	"grad_norm": 9.421287536621094,
	"learning_rate": 4.566833836953599e-05,
	"loss": 3.8177,
	"step": 12500
	},
	{
	"epoch": 0.5382085344496177,
	"grad_norm": 11.314359664916992,
	"learning_rate": 4.558923571010458e-05,
	"loss": 3.7797,
	"step": 12600
	},
	{
	"epoch": 0.5424800307547734,
	"grad_norm": 10.510274887084961,
	"learning_rate": 4.5510133050673163e-05,
	"loss": 3.7639,
	"step": 12700
	},
	{
	"epoch": 0.5467515270599291,
	"grad_norm": 14.740921020507812,
	"learning_rate": 4.5431030391241755e-05,
	"loss": 3.8299,
	"step": 12800
	},
	{
	"epoch": 0.5510230233650848,
	"grad_norm": 7.322781562805176,
	"learning_rate": 4.5351927731810346e-05,
	"loss": 3.8357,
	"step": 12900
	},
	{
	"epoch": 0.5552945196702405,
	"grad_norm": 10.399321556091309,
	"learning_rate": 4.527282507237894e-05,
	"loss": 3.6613,
	"step": 13000
	},
	{
	"epoch": 0.5552945196702405,
	"eval_runtime": 404.2488,
	"eval_samples_per_second": 115.825,
	"eval_steps_per_second": 14.479,
	"step": 13000
	},
	{
	"epoch": 0.5595660159753962,
	"grad_norm": 8.805388450622559,
	"learning_rate": 4.519372241294752e-05,
	"loss": 3.7299,
	"step": 13100
	},
	{
	"epoch": 0.5638375122805519,
	"grad_norm": 7.358932018280029,
	"learning_rate": 4.5114619753516114e-05,
	"loss": 3.7956,
	"step": 13200
	},
	{
	"epoch": 0.5681090085857076,
	"grad_norm": 8.338736534118652,
	"learning_rate": 4.5035517094084706e-05,
	"loss": 3.8274,
	"step": 13300
	},
	{
	"epoch": 0.5723805048908632,
	"grad_norm": 9.217434883117676,
	"learning_rate": 4.495641443465329e-05,
	"loss": 3.8071,
	"step": 13400
	},
	{
	"epoch": 0.576652001196019,
	"grad_norm": 8.726869583129883,
	"learning_rate": 4.487731177522189e-05,
	"loss": 3.7296,
	"step": 13500
	},
	{
	"epoch": 0.5809234975011747,
	"grad_norm": 11.813636779785156,
	"learning_rate": 4.479820911579047e-05,
	"loss": 3.8608,
	"step": 13600
	},
	{
	"epoch": 0.5851949938063303,
	"grad_norm": 11.595725059509277,
	"learning_rate": 4.4719106456359065e-05,
	"loss": 3.7096,
	"step": 13700
	},
	{
	"epoch": 0.5894664901114861,
	"grad_norm": 9.259355545043945,
	"learning_rate": 4.4640003796927656e-05,
	"loss": 3.6732,
	"step": 13800
	},
	{
	"epoch": 0.5937379864166418,
	"grad_norm": 13.34984016418457,
	"learning_rate": 4.456090113749625e-05,
	"loss": 3.8131,
	"step": 13900
	},
	{
	"epoch": 0.5980094827217974,
	"grad_norm": 10.516456604003906,
	"learning_rate": 4.448179847806483e-05,
	"loss": 3.7439,
	"step": 14000
	},
	{
	"epoch": 0.5980094827217974,
	"eval_runtime": 404.1711,
	"eval_samples_per_second": 115.847,
	"eval_steps_per_second": 14.481,
	"step": 14000
	},
	{
	"epoch": 0.6022809790269531,
	"grad_norm": 12.842930793762207,
	"learning_rate": 4.4402695818633424e-05,
	"loss": 3.7682,
	"step": 14100
	},
	{
	"epoch": 0.6065524753321089,
	"grad_norm": 19.421875,
	"learning_rate": 4.4323593159202015e-05,
	"loss": 3.663,
	"step": 14200
	},
	{
	"epoch": 0.6108239716372645,
	"grad_norm": 7.454352855682373,
	"learning_rate": 4.42444904997706e-05,
	"loss": 3.7463,
	"step": 14300
	},
	{
	"epoch": 0.6150954679424202,
	"grad_norm": 13.48552131652832,
	"learning_rate": 4.41653878403392e-05,
	"loss": 3.649,
	"step": 14400
	},
	{
	"epoch": 0.619366964247576,
	"grad_norm": 11.968147277832031,
	"learning_rate": 4.408628518090778e-05,
	"loss": 3.7516,
	"step": 14500
	},
	{
	"epoch": 0.6236384605527316,
	"grad_norm": 12.150687217712402,
	"learning_rate": 4.4007182521476375e-05,
	"loss": 3.7322,
	"step": 14600
	},
	{
	"epoch": 0.6279099568578873,
	"grad_norm": 8.789100646972656,
	"learning_rate": 4.3928079862044966e-05,
	"loss": 3.6886,
	"step": 14700
	},
	{
	"epoch": 0.632181453163043,
	"grad_norm": 10.21249008178711,
	"learning_rate": 4.384897720261356e-05,
	"loss": 3.6862,
	"step": 14800
	},
	{
	"epoch": 0.6364529494681987,
	"grad_norm": 9.880081176757812,
	"learning_rate": 4.376987454318214e-05,
	"loss": 3.6766,
	"step": 14900
	},
	{
	"epoch": 0.6407244457733544,
	"grad_norm": 11.831520080566406,
	"learning_rate": 4.3690771883750734e-05,
	"loss": 3.645,
	"step": 15000
	},
	{
	"epoch": 0.6407244457733544,
	"eval_runtime": 404.5696,
	"eval_samples_per_second": 115.733,
	"eval_steps_per_second": 14.467,
	"step": 15000
	},
	{
	"epoch": 0.6449959420785101,
	"grad_norm": 8.91051959991455,
	"learning_rate": 4.3611669224319325e-05,
	"loss": 3.6847,
	"step": 15100
	},
	{
	"epoch": 0.6492674383836659,
	"grad_norm": 9.260310173034668,
	"learning_rate": 4.353256656488791e-05,
	"loss": 3.7197,
	"step": 15200
	},
	{
	"epoch": 0.6535389346888215,
	"grad_norm": 10.138089179992676,
	"learning_rate": 4.34534639054565e-05,
	"loss": 3.6529,
	"step": 15300
	},
	{
	"epoch": 0.6578104309939772,
	"grad_norm": 8.813399314880371,
	"learning_rate": 4.337436124602509e-05,
	"loss": 3.6541,
	"step": 15400
	},
	{
	"epoch": 0.6620819272991328,
	"grad_norm": 9.144048690795898,
	"learning_rate": 4.3295258586593684e-05,
	"loss": 3.5101,
	"step": 15500
	},
	{
	"epoch": 0.6663534236042886,
	"grad_norm": 8.948995590209961,
	"learning_rate": 4.321615592716227e-05,
	"loss": 3.7848,
	"step": 15600
	},
	{
	"epoch": 0.6706249199094443,
	"grad_norm": 9.42180061340332,
	"learning_rate": 4.313705326773087e-05,
	"loss": 3.5926,
	"step": 15700
	},
	{
	"epoch": 0.6748964162146,
	"grad_norm": 8.974250793457031,
	"learning_rate": 4.305795060829945e-05,
	"loss": 3.6967,
	"step": 15800
	},
	{
	"epoch": 0.6791679125197557,
	"grad_norm": 12.110358238220215,
	"learning_rate": 4.2978847948868044e-05,
	"loss": 3.6521,
	"step": 15900
	},
	{
	"epoch": 0.6834394088249114,
	"grad_norm": 9.907513618469238,
	"learning_rate": 4.2899745289436635e-05,
	"loss": 3.703,
	"step": 16000
	},
	{
	"epoch": 0.6834394088249114,
	"eval_runtime": 404.4023,
	"eval_samples_per_second": 115.781,
	"eval_steps_per_second": 14.473,
	"step": 16000
	},
	{
	"epoch": 0.687710905130067,
	"grad_norm": 8.421221733093262,
	"learning_rate": 4.2820642630005226e-05,
	"loss": 3.5446,
	"step": 16100
	},
	{
	"epoch": 0.6919824014352227,
	"grad_norm": 8.890350341796875,
	"learning_rate": 4.274153997057381e-05,
	"loss": 3.7051,
	"step": 16200
	},
	{
	"epoch": 0.6962538977403785,
	"grad_norm": 7.985939979553223,
	"learning_rate": 4.26624373111424e-05,
	"loss": 3.7894,
	"step": 16300
	},
	{
	"epoch": 0.7005253940455342,
	"grad_norm": 9.559375762939453,
	"learning_rate": 4.2583334651710994e-05,
	"loss": 3.7158,
	"step": 16400
	},
	{
	"epoch": 0.7047968903506898,
	"grad_norm": 9.920624732971191,
	"learning_rate": 4.250423199227958e-05,
	"loss": 3.7286,
	"step": 16500
	},
	{
	"epoch": 0.7090683866558456,
	"grad_norm": 13.251816749572754,
	"learning_rate": 4.242512933284817e-05,
	"loss": 3.7271,
	"step": 16600
	},
	{
	"epoch": 0.7133398829610013,
	"grad_norm": 11.248520851135254,
	"learning_rate": 4.234602667341676e-05,
	"loss": 3.6633,
	"step": 16700
	},
	{
	"epoch": 0.7176113792661569,
	"grad_norm": 7.556328296661377,
	"learning_rate": 4.226692401398535e-05,
	"loss": 3.6706,
	"step": 16800
	},
	{
	"epoch": 0.7218828755713126,
	"grad_norm": 6.298122406005859,
	"learning_rate": 4.218782135455394e-05,
	"loss": 3.7307,
	"step": 16900
	},
	{
	"epoch": 0.7261543718764684,
	"grad_norm": 10.17672061920166,
	"learning_rate": 4.2108718695122536e-05,
	"loss": 3.7274,
	"step": 17000
	},
	{
	"epoch": 0.7261543718764684,
	"eval_runtime": 403.9594,
	"eval_samples_per_second": 115.908,
	"eval_steps_per_second": 14.489,
	"step": 17000
	},
	{
	"epoch": 0.730425868181624,
	"grad_norm": 8.036096572875977,
	"learning_rate": 4.202961603569112e-05,
	"loss": 3.641,
	"step": 17100
	},
	{
	"epoch": 0.7346973644867797,
	"grad_norm": 8.982136726379395,
	"learning_rate": 4.195051337625971e-05,
	"loss": 3.7079,
	"step": 17200
	},
	{
	"epoch": 0.7389688607919355,
	"grad_norm": 11.923723220825195,
	"learning_rate": 4.1871410716828304e-05,
	"loss": 3.7252,
	"step": 17300
	},
	{
	"epoch": 0.7432403570970911,
	"grad_norm": 10.336372375488281,
	"learning_rate": 4.179230805739689e-05,
	"loss": 3.6793,
	"step": 17400
	},
	{
	"epoch": 0.7475118534022468,
	"grad_norm": 10.367877960205078,
	"learning_rate": 4.171320539796548e-05,
	"loss": 3.6833,
	"step": 17500
	},
	{
	"epoch": 0.7517833497074025,
	"grad_norm": 8.473801612854004,
	"learning_rate": 4.163410273853407e-05,
	"loss": 3.6678,
	"step": 17600
	},
	{
	"epoch": 0.7560548460125582,
	"grad_norm": 7.864530563354492,
	"learning_rate": 4.155500007910266e-05,
	"loss": 3.6848,
	"step": 17700
	},
	{
	"epoch": 0.7603263423177139,
	"grad_norm": 10.16886043548584,
	"learning_rate": 4.147589741967125e-05,
	"loss": 3.8073,
	"step": 17800
	},
	{
	"epoch": 0.7645978386228696,
	"grad_norm": 10.161076545715332,
	"learning_rate": 4.1396794760239846e-05,
	"loss": 3.7171,
	"step": 17900
	},
	{
	"epoch": 0.7688693349280253,
	"grad_norm": 9.742669105529785,
	"learning_rate": 4.131769210080843e-05,
	"loss": 3.6089,
	"step": 18000
	},
	{
	"epoch": 0.7688693349280253,
	"eval_runtime": 403.6413,
	"eval_samples_per_second": 115.999,
	"eval_steps_per_second": 14.5,
	"step": 18000
	},
	{
	"epoch": 0.773140831233181,
	"grad_norm": 7.834203243255615,
	"learning_rate": 4.123858944137702e-05,
	"loss": 3.7618,
	"step": 18100
	},
	{
	"epoch": 0.7774123275383367,
	"grad_norm": 8.670865058898926,
	"learning_rate": 4.1159486781945614e-05,
	"loss": 3.5937,
	"step": 18200
	},
	{
	"epoch": 0.7816838238434923,
	"grad_norm": 10.17273998260498,
	"learning_rate": 4.10803841225142e-05,
	"loss": 3.6682,
	"step": 18300
	},
	{
	"epoch": 0.7859553201486481,
	"grad_norm": 7.384734630584717,
	"learning_rate": 4.100128146308279e-05,
	"loss": 3.7461,
	"step": 18400
	},
	{
	"epoch": 0.7902268164538038,
	"grad_norm": 9.957521438598633,
	"learning_rate": 4.092217880365138e-05,
	"loss": 3.646,
	"step": 18500
	},
	{
	"epoch": 0.7944983127589594,
	"grad_norm": 9.32741928100586,
	"learning_rate": 4.084307614421997e-05,
	"loss": 3.7085,
	"step": 18600
	},
	{
	"epoch": 0.7987698090641152,
	"grad_norm": 8.64340591430664,
	"learning_rate": 4.076397348478856e-05,
	"loss": 3.7954,
	"step": 18700
	},
	{
	"epoch": 0.8030413053692709,
	"grad_norm": 8.776473999023438,
	"learning_rate": 4.068487082535715e-05,
	"loss": 3.7171,
	"step": 18800
	},
	{
	"epoch": 0.8073128016744265,
	"grad_norm": 13.726973533630371,
	"learning_rate": 4.060576816592574e-05,
	"loss": 3.7593,
	"step": 18900
	},
	{
	"epoch": 0.8115842979795822,
	"grad_norm": 8.291767120361328,
	"learning_rate": 4.052666550649433e-05,
	"loss": 3.6206,
	"step": 19000
	},
	{
	"epoch": 0.8115842979795822,
	"eval_runtime": 404.755,
	"eval_samples_per_second": 115.68,
	"eval_steps_per_second": 14.461,
	"step": 19000
	},
	{
	"epoch": 0.815855794284738,
	"grad_norm": 9.087343215942383,
	"learning_rate": 4.044756284706292e-05,
	"loss": 3.6748,
	"step": 19100
	},
	{
	"epoch": 0.8201272905898936,
	"grad_norm": 7.206308364868164,
	"learning_rate": 4.0368460187631515e-05,
	"loss": 3.6976,
	"step": 19200
	},
	{
	"epoch": 0.8243987868950493,
	"grad_norm": 13.21072006225586,
	"learning_rate": 4.02893575282001e-05,
	"loss": 3.7547,
	"step": 19300
	},
	{
	"epoch": 0.8286702832002051,
	"grad_norm": 11.711308479309082,
	"learning_rate": 4.0210254868768685e-05,
	"loss": 3.7046,
	"step": 19400
	},
	{
	"epoch": 0.8329417795053607,
	"grad_norm": 7.493105411529541,
	"learning_rate": 4.013115220933728e-05,
	"loss": 3.6605,
	"step": 19500
	},
	{
	"epoch": 0.8372132758105164,
	"grad_norm": 10.920802116394043,
	"learning_rate": 4.005204954990587e-05,
	"loss": 3.701,
	"step": 19600
	},
	{
	"epoch": 0.8414847721156721,
	"grad_norm": 8.588319778442383,
	"learning_rate": 3.997294689047446e-05,
	"loss": 3.7119,
	"step": 19700
	},
	{
	"epoch": 0.8457562684208279,
	"grad_norm": 9.688274383544922,
	"learning_rate": 3.989384423104305e-05,
	"loss": 3.6968,
	"step": 19800
	},
	{
	"epoch": 0.8500277647259835,
	"grad_norm": 13.46649169921875,
	"learning_rate": 3.981474157161164e-05,
	"loss": 3.6608,
	"step": 19900
	},
	{
	"epoch": 0.8542992610311392,
	"grad_norm": 9.020798683166504,
	"learning_rate": 3.973563891218023e-05,
	"loss": 3.7014,
	"step": 20000
	},
	{
	"epoch": 0.8542992610311392,
	"eval_runtime": 404.5707,
	"eval_samples_per_second": 115.733,
	"eval_steps_per_second": 14.467,
	"step": 20000
	},
	{
	"epoch": 0.858570757336295,
	"grad_norm": 7.667457103729248,
	"learning_rate": 3.9656536252748825e-05,
	"loss": 3.6261,
	"step": 20100
	},
	{
	"epoch": 0.8628422536414506,
	"grad_norm": 10.752103805541992,
	"learning_rate": 3.957743359331741e-05,
	"loss": 3.7678,
	"step": 20200
	},
	{
	"epoch": 0.8671137499466063,
	"grad_norm": 8.758957862854004,
	"learning_rate": 3.9498330933885994e-05,
	"loss": 3.8176,
	"step": 20300
	},
	{
	"epoch": 0.871385246251762,
	"grad_norm": 9.372211456298828,
	"learning_rate": 3.941922827445459e-05,
	"loss": 3.6383,
	"step": 20400
	},
	{
	"epoch": 0.8756567425569177,
	"grad_norm": 10.67364501953125,
	"learning_rate": 3.934012561502318e-05,
	"loss": 3.7067,
	"step": 20500
	},
	{
	"epoch": 0.8799282388620734,
	"grad_norm": 12.151751518249512,
	"learning_rate": 3.926102295559177e-05,
	"loss": 3.7826,
	"step": 20600
	},
	{
	"epoch": 0.884199735167229,
	"grad_norm": 7.820495128631592,
	"learning_rate": 3.918192029616036e-05,
	"loss": 3.6867,
	"step": 20700
	},
	{
	"epoch": 0.8884712314723848,
	"grad_norm": 9.453180313110352,
	"learning_rate": 3.910281763672895e-05,
	"loss": 3.7301,
	"step": 20800
	},
	{
	"epoch": 0.8927427277775405,
	"grad_norm": 11.202925682067871,
	"learning_rate": 3.9023714977297536e-05,
	"loss": 3.6845,
	"step": 20900
	},
	{
	"epoch": 0.8970142240826962,
	"grad_norm": 13.49270248413086,
	"learning_rate": 3.894461231786613e-05,
	"loss": 3.7193,
	"step": 21000
	},
	{
	"epoch": 0.8970142240826962,
	"eval_runtime": 403.5135,
	"eval_samples_per_second": 116.036,
	"eval_steps_per_second": 14.505,
	"step": 21000
	},
	{
	"epoch": 0.9012857203878518,
	"grad_norm": 8.086437225341797,
	"learning_rate": 3.886550965843472e-05,
	"loss": 3.6406,
	"step": 21100
	},
	{
	"epoch": 0.9055572166930076,
	"grad_norm": 10.620895385742188,
	"learning_rate": 3.878640699900331e-05,
	"loss": 3.762,
	"step": 21200
	},
	{
	"epoch": 0.9098287129981633,
	"grad_norm": 6.320925712585449,
	"learning_rate": 3.8707304339571896e-05,
	"loss": 3.7283,
	"step": 21300
	},
	{
	"epoch": 0.9141002093033189,
	"grad_norm": 8.072772026062012,
	"learning_rate": 3.862820168014049e-05,
	"loss": 3.6657,
	"step": 21400
	},
	{
	"epoch": 0.9183717056084747,
	"grad_norm": 8.310846328735352,
	"learning_rate": 3.854909902070908e-05,
	"loss": 3.7271,
	"step": 21500
	},
	{
	"epoch": 0.9226432019136304,
	"grad_norm": 6.958920478820801,
	"learning_rate": 3.846999636127766e-05,
	"loss": 3.8027,
	"step": 21600
	},
	{
	"epoch": 0.926914698218786,
	"grad_norm": 10.530051231384277,
	"learning_rate": 3.839089370184626e-05,
	"loss": 3.6227,
	"step": 21700
	},
	{
	"epoch": 0.9311861945239417,
	"grad_norm": 9.503134727478027,
	"learning_rate": 3.8311791042414846e-05,
	"loss": 3.7262,
	"step": 21800
	},
	{
	"epoch": 0.9354576908290975,
	"grad_norm": 8.891386985778809,
	"learning_rate": 3.823268838298344e-05,
	"loss": 3.6882,
	"step": 21900
	},
	{
	"epoch": 0.9397291871342531,
	"grad_norm": 9.793424606323242,
	"learning_rate": 3.815358572355203e-05,
	"loss": 3.7304,
	"step": 22000
	},
	{
	"epoch": 0.9397291871342531,
	"eval_runtime": 404.4356,
	"eval_samples_per_second": 115.771,
	"eval_steps_per_second": 14.472,
	"step": 22000
	},
	{
	"epoch": 0.9440006834394088,
	"grad_norm": 8.443710327148438,
	"learning_rate": 3.807448306412062e-05,
	"loss": 3.6348,
	"step": 22100
	},
	{
	"epoch": 0.9482721797445646,
	"grad_norm": 8.634336471557617,
	"learning_rate": 3.7995380404689205e-05,
	"loss": 3.6732,
	"step": 22200
	},
	{
	"epoch": 0.9525436760497202,
	"grad_norm": 9.720598220825195,
	"learning_rate": 3.79162777452578e-05,
	"loss": 3.7,
	"step": 22300
	},
	{
	"epoch": 0.9568151723548759,
	"grad_norm": 9.388401985168457,
	"learning_rate": 3.783717508582639e-05,
	"loss": 3.646,
	"step": 22400
	},
	{
	"epoch": 0.9610866686600316,
	"grad_norm": 8.947492599487305,
	"learning_rate": 3.775807242639497e-05,
	"loss": 3.5409,
	"step": 22500
	},
	{
	"epoch": 0.9653581649651873,
	"grad_norm": 9.596850395202637,
	"learning_rate": 3.7678969766963565e-05,
	"loss": 3.6636,
	"step": 22600
	},
	{
	"epoch": 0.969629661270343,
	"grad_norm": 12.37696361541748,
	"learning_rate": 3.7599867107532156e-05,
	"loss": 3.7021,
	"step": 22700
	},
	{
	"epoch": 0.9739011575754987,
	"grad_norm": 8.767573356628418,
	"learning_rate": 3.752076444810075e-05,
	"loss": 3.6152,
	"step": 22800
	},
	{
	"epoch": 0.9781726538806544,
	"grad_norm": 8.559804916381836,
	"learning_rate": 3.744166178866933e-05,
	"loss": 3.6866,
	"step": 22900
	},
	{
	"epoch": 0.9824441501858101,
	"grad_norm": 7.025428771972656,
	"learning_rate": 3.736255912923793e-05,
	"loss": 3.7933,
	"step": 23000
	},
	{
	"epoch": 0.9824441501858101,
	"eval_runtime": 403.8391,
	"eval_samples_per_second": 115.942,
	"eval_steps_per_second": 14.493,
	"step": 23000
	},
	{
	"epoch": 0.9867156464909658,
	"grad_norm": 8.558939933776855,
	"learning_rate": 3.7283456469806515e-05,
	"loss": 3.6242,
	"step": 23100
	},
	{
	"epoch": 0.9909871427961214,
	"grad_norm": 7.838054656982422,
	"learning_rate": 3.720435381037511e-05,
	"loss": 3.7873,
	"step": 23200
	},
	{
	"epoch": 0.9952586391012772,
	"grad_norm": 9.238251686096191,
	"learning_rate": 3.71252511509437e-05,
	"loss": 3.7437,
	"step": 23300
	},
	{
	"epoch": 0.9995301354064329,
	"grad_norm": 8.105572700500488,
	"learning_rate": 3.704614849151229e-05,
	"loss": 3.5954,
	"step": 23400
	},
	{
	"epoch": 1.0038016317115885,
	"grad_norm": 8.4044771194458,
	"learning_rate": 3.6967045832080874e-05,
	"loss": 3.6959,
	"step": 23500
	},
	{
	"epoch": 1.0080731280167443,
	"grad_norm": 7.410630702972412,
	"learning_rate": 3.6887943172649466e-05,
	"loss": 3.5738,
	"step": 23600
	},
	{
	"epoch": 1.0123446243218999,
	"grad_norm": 13.264152526855469,
	"learning_rate": 3.680884051321806e-05,
	"loss": 3.7171,
	"step": 23700
	},
	{
	"epoch": 1.0166161206270556,
	"grad_norm": 10.43344783782959,
	"learning_rate": 3.672973785378664e-05,
	"loss": 3.7067,
	"step": 23800
	},
	{
	"epoch": 1.0208876169322114,
	"grad_norm": 10.395238876342773,
	"learning_rate": 3.665063519435524e-05,
	"loss": 3.7069,
	"step": 23900
	},
	{
	"epoch": 1.025159113237367,
	"grad_norm": 9.611321449279785,
	"learning_rate": 3.6571532534923825e-05,
	"loss": 3.6583,
	"step": 24000
	},
	{
	"epoch": 1.025159113237367,
	"eval_runtime": 403.723,
	"eval_samples_per_second": 115.976,
	"eval_steps_per_second": 14.498,
	"step": 24000
	},
	{
	"epoch": 1.0294306095425227,
	"grad_norm": 7.200385570526123,
	"learning_rate": 3.6492429875492417e-05,
	"loss": 3.6306,
	"step": 24100
	},
	{
	"epoch": 1.0337021058476785,
	"grad_norm": 9.20836067199707,
	"learning_rate": 3.641332721606101e-05,
	"loss": 3.6762,
	"step": 24200
	},
	{
	"epoch": 1.037973602152834,
	"grad_norm": 7.563958644866943,
	"learning_rate": 3.63342245566296e-05,
	"loss": 3.7167,
	"step": 24300
	},
	{
	"epoch": 1.0422450984579898,
	"grad_norm": 13.854744911193848,
	"learning_rate": 3.6255121897198184e-05,
	"loss": 3.618,
	"step": 24400
	},
	{
	"epoch": 1.0465165947631456,
	"grad_norm": 7.969038963317871,
	"learning_rate": 3.6176019237766776e-05,
	"loss": 3.722,
	"step": 24500
	},
	{
	"epoch": 1.0507880910683012,
	"grad_norm": 9.738038063049316,
	"learning_rate": 3.609691657833537e-05,
	"loss": 3.7552,
	"step": 24600
	},
	{
	"epoch": 1.055059587373457,
	"grad_norm": 10.093921661376953,
	"learning_rate": 3.601781391890395e-05,
	"loss": 3.7502,
	"step": 24700
	},
	{
	"epoch": 1.0593310836786127,
	"grad_norm": 6.876298427581787,
	"learning_rate": 3.593871125947254e-05,
	"loss": 3.6343,
	"step": 24800
	},
	{
	"epoch": 1.0636025799837683,
	"grad_norm": 7.968320846557617,
	"learning_rate": 3.5859608600041135e-05,
	"loss": 3.6845,
	"step": 24900
	},
	{
	"epoch": 1.067874076288924,
	"grad_norm": 9.148797988891602,
	"learning_rate": 3.5780505940609726e-05,
	"loss": 3.6106,
	"step": 25000
	},
	{
	"epoch": 1.067874076288924,
	"eval_runtime": 403.8237,
	"eval_samples_per_second": 115.947,
	"eval_steps_per_second": 14.494,
	"step": 25000
	},
	{
	"epoch": 1.0721455725940796,
	"grad_norm": 9.72523307800293,
	"learning_rate": 3.570140328117831e-05,
	"loss": 3.6919,
	"step": 25100
	},
	{
	"epoch": 1.0764170688992354,
	"grad_norm": 9.23186206817627,
	"learning_rate": 3.562230062174691e-05,
	"loss": 3.6378,
	"step": 25200
	},
	{
	"epoch": 1.0806885652043912,
	"grad_norm": 8.581460952758789,
	"learning_rate": 3.5543197962315494e-05,
	"loss": 3.7005,
	"step": 25300
	},
	{
	"epoch": 1.0849600615095467,
	"grad_norm": 9.83565902709961,
	"learning_rate": 3.5464095302884085e-05,
	"loss": 3.6315,
	"step": 25400
	},
	{
	"epoch": 1.0892315578147025,
	"grad_norm": 7.4981770515441895,
	"learning_rate": 3.538499264345268e-05,
	"loss": 3.703,
	"step": 25500
	},
	{
	"epoch": 1.0935030541198583,
	"grad_norm": 9.84447193145752,
	"learning_rate": 3.530588998402126e-05,
	"loss": 3.703,
	"step": 25600
	},
	{
	"epoch": 1.0977745504250138,
	"grad_norm": 11.77198600769043,
	"learning_rate": 3.522678732458985e-05,
	"loss": 3.74,
	"step": 25700
	},
	{
	"epoch": 1.1020460467301696,
	"grad_norm": 9.35525131225586,
	"learning_rate": 3.5147684665158445e-05,
	"loss": 3.6574,
	"step": 25800
	},
	{
	"epoch": 1.1063175430353254,
	"grad_norm": 11.326153755187988,
	"learning_rate": 3.5068582005727036e-05,
	"loss": 3.6052,
	"step": 25900
	},
	{
	"epoch": 1.110589039340481,
	"grad_norm": 8.957196235656738,
	"learning_rate": 3.498947934629562e-05,
	"loss": 3.6924,
	"step": 26000
	},
	{
	"epoch": 1.110589039340481,
	"eval_runtime": 404.7232,
	"eval_samples_per_second": 115.689,
	"eval_steps_per_second": 14.462,
	"step": 26000
	},
	{
	"epoch": 1.1148605356456367,
	"grad_norm": 8.46112060546875,
	"learning_rate": 3.491037668686421e-05,
	"loss": 3.5975,
	"step": 26100
	},
	{
	"epoch": 1.1191320319507922,
	"grad_norm": 10.088958740234375,
	"learning_rate": 3.4831274027432804e-05,
	"loss": 3.6885,
	"step": 26200
	},
	{
	"epoch": 1.123403528255948,
	"grad_norm": 8.147522926330566,
	"learning_rate": 3.4752171368001395e-05,
	"loss": 3.587,
	"step": 26300
	},
	{
	"epoch": 1.1276750245611038,
	"grad_norm": 9.306445121765137,
	"learning_rate": 3.467306870856999e-05,
	"loss": 3.6943,
	"step": 26400
	},
	{
	"epoch": 1.1319465208662594,
	"grad_norm": 7.206762790679932,
	"learning_rate": 3.459396604913858e-05,
	"loss": 3.8088,
	"step": 26500
	},
	{
	"epoch": 1.1362180171714151,
	"grad_norm": 7.733761787414551,
	"learning_rate": 3.451486338970716e-05,
	"loss": 3.6604,
	"step": 26600
	},
	{
	"epoch": 1.140489513476571,
	"grad_norm": 12.075209617614746,
	"learning_rate": 3.4435760730275754e-05,
	"loss": 3.6716,
	"step": 26700
	},
	{
	"epoch": 1.1447610097817265,
	"grad_norm": 13.957979202270508,
	"learning_rate": 3.4356658070844346e-05,
	"loss": 3.6605,
	"step": 26800
	},
	{
	"epoch": 1.1490325060868822,
	"grad_norm": 6.747539520263672,
	"learning_rate": 3.427755541141293e-05,
	"loss": 3.6524,
	"step": 26900
	},
	{
	"epoch": 1.153304002392038,
	"grad_norm": 7.960626602172852,
	"learning_rate": 3.419845275198152e-05,
	"loss": 3.6574,
	"step": 27000
	},
	{
	"epoch": 1.153304002392038,
	"eval_runtime": 403.5226,
	"eval_samples_per_second": 116.033,
	"eval_steps_per_second": 14.505,
	"step": 27000
	},
	{
	"epoch": 1.1575754986971936,
	"grad_norm": 6.446537971496582,
	"learning_rate": 3.4119350092550114e-05,
	"loss": 3.6968,
	"step": 27100
	},
	{
	"epoch": 1.1618469950023493,
	"grad_norm": 8.360943794250488,
	"learning_rate": 3.4040247433118705e-05,
	"loss": 3.7481,
	"step": 27200
	},
	{
	"epoch": 1.1661184913075051,
	"grad_norm": 9.145593643188477,
	"learning_rate": 3.396114477368729e-05,
	"loss": 3.7588,
	"step": 27300
	},
	{
	"epoch": 1.1703899876126607,
	"grad_norm": 11.084358215332031,
	"learning_rate": 3.388204211425589e-05,
	"loss": 3.6393,
	"step": 27400
	},
	{
	"epoch": 1.1746614839178164,
	"grad_norm": 11.370959281921387,
	"learning_rate": 3.380293945482447e-05,
	"loss": 3.6566,
	"step": 27500
	},
	{
	"epoch": 1.1789329802229722,
	"grad_norm": 9.31324291229248,
	"learning_rate": 3.372383679539306e-05,
	"loss": 3.5833,
	"step": 27600
	},
	{
	"epoch": 1.1832044765281278,
	"grad_norm": 10.302188873291016,
	"learning_rate": 3.3644734135961656e-05,
	"loss": 3.6591,
	"step": 27700
	},
	{
	"epoch": 1.1874759728332835,
	"grad_norm": 9.487174034118652,
	"learning_rate": 3.356563147653024e-05,
	"loss": 3.6245,
	"step": 27800
	},
	{
	"epoch": 1.191747469138439,
	"grad_norm": 8.596895217895508,
	"learning_rate": 3.348652881709883e-05,
	"loss": 3.7252,
	"step": 27900
	},
	{
	"epoch": 1.1960189654435949,
	"grad_norm": 8.368951797485352,
	"learning_rate": 3.3407426157667423e-05,
	"loss": 3.7371,
	"step": 28000
	},
	{
	"epoch": 1.1960189654435949,
	"eval_runtime": 404.648,
	"eval_samples_per_second": 115.71,
	"eval_steps_per_second": 14.464,
	"step": 28000
	},
	{
	"epoch": 1.2002904617487506,
	"grad_norm": 15.659690856933594,
	"learning_rate": 3.3328323498236015e-05,
	"loss": 3.5971,
	"step": 28100
	},
	{
	"epoch": 1.2045619580539062,
	"grad_norm": 7.678028106689453,
	"learning_rate": 3.32492208388046e-05,
	"loss": 3.722,
	"step": 28200
	},
	{
	"epoch": 1.208833454359062,
	"grad_norm": 7.527515888214111,
	"learning_rate": 3.317011817937319e-05,
	"loss": 3.6987,
	"step": 28300
	},
	{
	"epoch": 1.2131049506642178,
	"grad_norm": 7.842383861541748,
	"learning_rate": 3.309101551994178e-05,
	"loss": 3.6394,
	"step": 28400
	},
	{
	"epoch": 1.2173764469693733,
	"grad_norm": 7.929213523864746,
	"learning_rate": 3.3011912860510374e-05,
	"loss": 3.6538,
	"step": 28500
	},
	{
	"epoch": 1.221647943274529,
	"grad_norm": 10.908970832824707,
	"learning_rate": 3.293281020107896e-05,
	"loss": 3.8107,
	"step": 28600
	},
	{
	"epoch": 1.2259194395796849,
	"grad_norm": 13.46042251586914,
	"learning_rate": 3.285370754164755e-05,
	"loss": 3.7662,
	"step": 28700
	},
	{
	"epoch": 1.2301909358848404,
	"grad_norm": 9.317851066589355,
	"learning_rate": 3.277460488221614e-05,
	"loss": 3.7211,
	"step": 28800
	},
	{
	"epoch": 1.2344624321899962,
	"grad_norm": 8.503124237060547,
	"learning_rate": 3.2695502222784726e-05,
	"loss": 3.5346,
	"step": 28900
	},
	{
	"epoch": 1.2387339284951517,
	"grad_norm": 7.7580718994140625,
	"learning_rate": 3.2616399563353325e-05,
	"loss": 3.7839,
	"step": 29000
	},
	{
	"epoch": 1.2387339284951517,
	"eval_runtime": 404.9737,
	"eval_samples_per_second": 115.617,
	"eval_steps_per_second": 14.453,
	"step": 29000
	},
	{
	"epoch": 1.2430054248003075,
	"grad_norm": 6.63585090637207,
	"learning_rate": 3.253729690392191e-05,
	"loss": 3.7525,
	"step": 29100
	},
	{
	"epoch": 1.2472769211054633,
	"grad_norm": 8.438802719116211,
	"learning_rate": 3.24581942444905e-05,
	"loss": 3.6626,
	"step": 29200
	},
	{
	"epoch": 1.251548417410619,
	"grad_norm": 10.101741790771484,
	"learning_rate": 3.237909158505909e-05,
	"loss": 3.6074,
	"step": 29300
	},
	{
	"epoch": 1.2558199137157746,
	"grad_norm": 7.5071797370910645,
	"learning_rate": 3.2299988925627684e-05,
	"loss": 3.6081,
	"step": 29400
	},
	{
	"epoch": 1.2600914100209304,
	"grad_norm": 8.632312774658203,
	"learning_rate": 3.222088626619627e-05,
	"loss": 3.5992,
	"step": 29500
	},
	{
	"epoch": 1.264362906326086,
	"grad_norm": 8.449037551879883,
	"learning_rate": 3.214178360676487e-05,
	"loss": 3.5541,
	"step": 29600
	},
	{
	"epoch": 1.2686344026312417,
	"grad_norm": 7.799576759338379,
	"learning_rate": 3.206268094733345e-05,
	"loss": 3.6541,
	"step": 29700
	},
	{
	"epoch": 1.2729058989363975,
	"grad_norm": 11.673965454101562,
	"learning_rate": 3.1983578287902036e-05,
	"loss": 3.6498,
	"step": 29800
	},
	{
	"epoch": 1.277177395241553,
	"grad_norm": 8.359036445617676,
	"learning_rate": 3.1904475628470635e-05,
	"loss": 3.6494,
	"step": 29900
	},
	{
	"epoch": 1.2814488915467088,
	"grad_norm": 13.046087265014648,
	"learning_rate": 3.182537296903922e-05,
	"loss": 3.8596,
	"step": 30000
	},
	{
	"epoch": 1.2814488915467088,
	"eval_runtime": 404.5555,
	"eval_samples_per_second": 115.737,
	"eval_steps_per_second": 14.468,
	"step": 30000
	},
	{
	"epoch": 1.2857203878518644,
	"grad_norm": 10.439358711242676,
	"learning_rate": 3.174627030960781e-05,
	"loss": 3.7013,
	"step": 30100
	},
	{
	"epoch": 1.2899918841570202,
	"grad_norm": 7.784947395324707,
	"learning_rate": 3.16671676501764e-05,
	"loss": 3.7573,
	"step": 30200
	},
	{
	"epoch": 1.294263380462176,
	"grad_norm": 11.142706871032715,
	"learning_rate": 3.1588064990744994e-05,
	"loss": 3.6061,
	"step": 30300
	},
	{
	"epoch": 1.2985348767673317,
	"grad_norm": 8.045978546142578,
	"learning_rate": 3.150896233131358e-05,
	"loss": 3.6615,
	"step": 30400
	},
	{
	"epoch": 1.3028063730724873,
	"grad_norm": 8.409544944763184,
	"learning_rate": 3.142985967188217e-05,
	"loss": 3.6075,
	"step": 30500
	},
	{
	"epoch": 1.307077869377643,
	"grad_norm": 10.13918685913086,
	"learning_rate": 3.135075701245076e-05,
	"loss": 3.6318,
	"step": 30600
	},
	{
	"epoch": 1.3113493656827986,
	"grad_norm": 10.452644348144531,
	"learning_rate": 3.1271654353019346e-05,
	"loss": 3.6653,
	"step": 30700
	},
	{
	"epoch": 1.3156208619879544,
	"grad_norm": 8.69783878326416,
	"learning_rate": 3.119255169358794e-05,
	"loss": 3.5687,
	"step": 30800
	},
	{
	"epoch": 1.3198923582931101,
	"grad_norm": 9.234668731689453,
	"learning_rate": 3.111344903415653e-05,
	"loss": 3.6629,
	"step": 30900
	},
	{
	"epoch": 1.324163854598266,
	"grad_norm": 7.855345249176025,
	"learning_rate": 3.103434637472512e-05,
	"loss": 3.7406,
	"step": 31000
	},
	{
	"epoch": 1.324163854598266,
	"eval_runtime": 404.076,
	"eval_samples_per_second": 115.874,
	"eval_steps_per_second": 14.485,
	"step": 31000
	},
	{
	"epoch": 1.3284353509034215,
	"grad_norm": 13.292342185974121,
	"learning_rate": 3.0955243715293705e-05,
	"loss": 3.7277,
	"step": 31100
	},
	{
	"epoch": 1.3327068472085772,
	"grad_norm": 14.126769065856934,
	"learning_rate": 3.0876141055862304e-05,
	"loss": 3.8065,
	"step": 31200
	},
	{
	"epoch": 1.3369783435137328,
	"grad_norm": 7.635355472564697,
	"learning_rate": 3.079703839643089e-05,
	"loss": 3.6653,
	"step": 31300
	},
	{
	"epoch": 1.3412498398188886,
	"grad_norm": 9.28641128540039,
	"learning_rate": 3.071793573699948e-05,
	"loss": 3.7125,
	"step": 31400
	},
	{
	"epoch": 1.3455213361240443,
	"grad_norm": 8.960599899291992,
	"learning_rate": 3.063883307756807e-05,
	"loss": 3.639,
	"step": 31500
	},
	{
	"epoch": 1.3497928324292,
	"grad_norm": 10.085050582885742,
	"learning_rate": 3.055973041813666e-05,
	"loss": 3.7317,
	"step": 31600
	},
	{
	"epoch": 1.3540643287343557,
	"grad_norm": 8.527816772460938,
	"learning_rate": 3.048062775870525e-05,
	"loss": 3.6044,
	"step": 31700
	},
	{
	"epoch": 1.3583358250395112,
	"grad_norm": 11.678420066833496,
	"learning_rate": 3.0401525099273835e-05,
	"loss": 3.572,
	"step": 31800
	},
	{
	"epoch": 1.362607321344667,
	"grad_norm": 5.9545207023620605,
	"learning_rate": 3.032242243984243e-05,
	"loss": 3.7374,
	"step": 31900
	},
	{
	"epoch": 1.3668788176498228,
	"grad_norm": 8.175214767456055,
	"learning_rate": 3.024331978041102e-05,
	"loss": 3.624,
	"step": 32000
	},
	{
	"epoch": 1.3668788176498228,
	"eval_runtime": 403.7487,
	"eval_samples_per_second": 115.968,
	"eval_steps_per_second": 14.497,
	"step": 32000
	},
	{
	"epoch": 1.3711503139549786,
	"grad_norm": 7.345489978790283,
	"learning_rate": 3.016421712097961e-05,
	"loss": 3.6508,
	"step": 32100
	},
	{
	"epoch": 1.375421810260134,
	"grad_norm": 10.301737785339355,
	"learning_rate": 3.0085114461548198e-05,
	"loss": 3.5836,
	"step": 32200
	},
	{
	"epoch": 1.3796933065652899,
	"grad_norm": 8.771992683410645,
	"learning_rate": 3.000601180211679e-05,
	"loss": 3.7915,
	"step": 32300
	},
	{
	"epoch": 1.3839648028704454,
	"grad_norm": 9.168205261230469,
	"learning_rate": 2.9926909142685378e-05,
	"loss": 3.6517,
	"step": 32400
	},
	{
	"epoch": 1.3882362991756012,
	"grad_norm": 7.1654744148254395,
	"learning_rate": 2.984780648325397e-05,
	"loss": 3.503,
	"step": 32500
	},
	{
	"epoch": 1.392507795480757,
	"grad_norm": 8.390599250793457,
	"learning_rate": 2.9768703823822557e-05,
	"loss": 3.7276,
	"step": 32600
	},
	{
	"epoch": 1.3967792917859125,
	"grad_norm": 12.229002952575684,
	"learning_rate": 2.9689601164391152e-05,
	"loss": 3.7753,
	"step": 32700
	},
	{
	"epoch": 1.4010507880910683,
	"grad_norm": 11.649025917053223,
	"learning_rate": 2.9610498504959737e-05,
	"loss": 3.6765,
	"step": 32800
	},
	{
	"epoch": 1.4053222843962239,
	"grad_norm": 8.619730949401855,
	"learning_rate": 2.9531395845528325e-05,
	"loss": 3.6508,
	"step": 32900
	},
	{
	"epoch": 1.4095937807013796,
	"grad_norm": 9.323366165161133,
	"learning_rate": 2.945229318609692e-05,
	"loss": 3.7256,
	"step": 33000
	},
	{
	"epoch": 1.4095937807013796,
	"eval_runtime": 404.2192,
	"eval_samples_per_second": 115.833,
	"eval_steps_per_second": 14.48,
	"step": 33000
	},
	{
	"epoch": 1.4138652770065354,
	"grad_norm": 13.431550979614258,
	"learning_rate": 2.9373190526665504e-05,
	"loss": 3.7312,
	"step": 33100
	},
	{
	"epoch": 1.4181367733116912,
	"grad_norm": 7.221197128295898,
	"learning_rate": 2.92940878672341e-05,
	"loss": 3.5233,
	"step": 33200
	},
	{
	"epoch": 1.4224082696168467,
	"grad_norm": 8.221494674682617,
	"learning_rate": 2.9214985207802687e-05,
	"loss": 3.6815,
	"step": 33300
	},
	{
	"epoch": 1.4266797659220025,
	"grad_norm": 8.996779441833496,
	"learning_rate": 2.913588254837128e-05,
	"loss": 3.5838,
	"step": 33400
	},
	{
	"epoch": 1.430951262227158,
	"grad_norm": 7.899658679962158,
	"learning_rate": 2.9056779888939867e-05,
	"loss": 3.5632,
	"step": 33500
	},
	{
	"epoch": 1.4352227585323138,
	"grad_norm": 7.839208602905273,
	"learning_rate": 2.897767722950846e-05,
	"loss": 3.6154,
	"step": 33600
	},
	{
	"epoch": 1.4394942548374696,
	"grad_norm": 7.053780555725098,
	"learning_rate": 2.8898574570077047e-05,
	"loss": 3.6218,
	"step": 33700
	},
	{
	"epoch": 1.4437657511426254,
	"grad_norm": 11.56430721282959,
	"learning_rate": 2.8819471910645635e-05,
	"loss": 3.6301,
	"step": 33800
	},
	{
	"epoch": 1.448037247447781,
	"grad_norm": 12.948223114013672,
	"learning_rate": 2.8740369251214226e-05,
	"loss": 3.6278,
	"step": 33900
	},
	{
	"epoch": 1.4523087437529367,
	"grad_norm": 10.741262435913086,
	"learning_rate": 2.8661266591782814e-05,
	"loss": 3.7338,
	"step": 34000
	},
	{
	"epoch": 1.4523087437529367,
	"eval_runtime": 404.4425,
	"eval_samples_per_second": 115.769,
	"eval_steps_per_second": 14.472,
	"step": 34000
	},
	{
	"epoch": 1.4565802400580923,
	"grad_norm": 8.808819770812988,
	"learning_rate": 2.858216393235141e-05,
	"loss": 3.5755,
	"step": 34100
	},
	{
	"epoch": 1.460851736363248,
	"grad_norm": 7.9008097648620605,
	"learning_rate": 2.8503061272919994e-05,
	"loss": 3.5744,
	"step": 34200
	},
	{
	"epoch": 1.4651232326684038,
	"grad_norm": 10.011557579040527,
	"learning_rate": 2.842395861348859e-05,
	"loss": 3.7014,
	"step": 34300
	},
	{
	"epoch": 1.4693947289735594,
	"grad_norm": 8.058487892150879,
	"learning_rate": 2.8344855954057177e-05,
	"loss": 3.6554,
	"step": 34400
	},
	{
	"epoch": 1.4736662252787152,
	"grad_norm": 7.3602824211120605,
	"learning_rate": 2.8265753294625768e-05,
	"loss": 3.7166,
	"step": 34500
	},
	{
	"epoch": 1.4779377215838707,
	"grad_norm": 7.900210857391357,
	"learning_rate": 2.8186650635194356e-05,
	"loss": 3.6276,
	"step": 34600
	},
	{
	"epoch": 1.4822092178890265,
	"grad_norm": 7.839376926422119,
	"learning_rate": 2.8107547975762948e-05,
	"loss": 3.6036,
	"step": 34700
	},
	{
	"epoch": 1.4864807141941823,
	"grad_norm": 8.925679206848145,
	"learning_rate": 2.8028445316331536e-05,
	"loss": 3.6868,
	"step": 34800
	},
	{
	"epoch": 1.490752210499338,
	"grad_norm": 8.532880783081055,
	"learning_rate": 2.7949342656900124e-05,
	"loss": 3.7388,
	"step": 34900
	},
	{
	"epoch": 1.4950237068044936,
	"grad_norm": 9.397866249084473,
	"learning_rate": 2.7870239997468716e-05,
	"loss": 3.7206,
	"step": 35000
	},
	{
	"epoch": 1.4950237068044936,
	"eval_runtime": 404.715,
	"eval_samples_per_second": 115.691,
	"eval_steps_per_second": 14.462,
	"step": 35000
	},
	{
	"epoch": 1.4992952031096494,
	"grad_norm": 9.152342796325684,
	"learning_rate": 2.7791137338037304e-05,
	"loss": 3.6816,
	"step": 35100
	},
	{
	"epoch": 1.503566699414805,
	"grad_norm": 7.594329357147217,
	"learning_rate": 2.77120346786059e-05,
	"loss": 3.6713,
	"step": 35200
	},
	{
	"epoch": 1.5078381957199607,
	"grad_norm": 9.826537132263184,
	"learning_rate": 2.7632932019174483e-05,
	"loss": 3.6467,
	"step": 35300
	},
	{
	"epoch": 1.5121096920251165,
	"grad_norm": 9.374577522277832,
	"learning_rate": 2.7553829359743078e-05,
	"loss": 3.6588,
	"step": 35400
	},
	{
	"epoch": 1.5163811883302722,
	"grad_norm": 10.790063858032227,
	"learning_rate": 2.7474726700311666e-05,
	"loss": 3.5689,
	"step": 35500
	},
	{
	"epoch": 1.5206526846354278,
	"grad_norm": 10.145702362060547,
	"learning_rate": 2.7395624040880258e-05,
	"loss": 3.7457,
	"step": 35600
	},
	{
	"epoch": 1.5249241809405834,
	"grad_norm": 11.168187141418457,
	"learning_rate": 2.7316521381448846e-05,
	"loss": 3.5706,
	"step": 35700
	},
	{
	"epoch": 1.5291956772457391,
	"grad_norm": 9.234560012817383,
	"learning_rate": 2.7237418722017437e-05,
	"loss": 3.6744,
	"step": 35800
	},
	{
	"epoch": 1.533467173550895,
	"grad_norm": 10.015559196472168,
	"learning_rate": 2.7158316062586025e-05,
	"loss": 3.6374,
	"step": 35900
	},
	{
	"epoch": 1.5377386698560507,
	"grad_norm": 8.472687721252441,
	"learning_rate": 2.7079213403154613e-05,
	"loss": 3.6958,
	"step": 36000
	},
	{
	"epoch": 1.5377386698560507,
	"eval_runtime": 404.1589,
	"eval_samples_per_second": 115.85,
	"eval_steps_per_second": 14.482,
	"step": 36000
	},
	{
	"epoch": 1.5420101661612062,
	"grad_norm": 7.5909199714660645,
	"learning_rate": 2.7000110743723205e-05,
	"loss": 3.6096,
	"step": 36100
	},
	{
	"epoch": 1.546281662466362,
	"grad_norm": 18.598318099975586,
	"learning_rate": 2.6921008084291793e-05,
	"loss": 3.6368,
	"step": 36200
	},
	{
	"epoch": 1.5505531587715176,
	"grad_norm": 10.265989303588867,
	"learning_rate": 2.6841905424860388e-05,
	"loss": 3.6886,
	"step": 36300
	},
	{
	"epoch": 1.5548246550766733,
	"grad_norm": 16.7838077545166,
	"learning_rate": 2.6762802765428973e-05,
	"loss": 3.4999,
	"step": 36400
	},
	{
	"epoch": 1.559096151381829,
	"grad_norm": 9.542481422424316,
	"learning_rate": 2.6683700105997567e-05,
	"loss": 3.5173,
	"step": 36500
	},
	{
	"epoch": 1.5633676476869849,
	"grad_norm": 7.0144758224487305,
	"learning_rate": 2.6604597446566156e-05,
	"loss": 3.6004,
	"step": 36600
	},
	{
	"epoch": 1.5676391439921404,
	"grad_norm": 7.273271560668945,
	"learning_rate": 2.6525494787134747e-05,
	"loss": 3.5539,
	"step": 36700
	},
	{
	"epoch": 1.571910640297296,
	"grad_norm": 9.942744255065918,
	"learning_rate": 2.6446392127703335e-05,
	"loss": 3.6823,
	"step": 36800
	},
	{
	"epoch": 1.5761821366024518,
	"grad_norm": 8.686135292053223,
	"learning_rate": 2.6367289468271923e-05,
	"loss": 3.6757,
	"step": 36900
	},
	{
	"epoch": 1.5804536329076075,
	"grad_norm": 6.468233108520508,
	"learning_rate": 2.6288186808840515e-05,
	"loss": 3.6318,
	"step": 37000
	},
	{
	"epoch": 1.5804536329076075,
	"eval_runtime": 403.714,
	"eval_samples_per_second": 115.978,
	"eval_steps_per_second": 14.498,
	"step": 37000
	},
	{
	"epoch": 1.5847251292127633,
	"grad_norm": 8.390809059143066,
	"learning_rate": 2.6209084149409103e-05,
	"loss": 3.6048,
	"step": 37100
	},
	{
	"epoch": 1.588996625517919,
	"grad_norm": 11.824224472045898,
	"learning_rate": 2.6129981489977694e-05,
	"loss": 3.6128,
	"step": 37200
	},
	{
	"epoch": 1.5932681218230746,
	"grad_norm": 9.557259559631348,
	"learning_rate": 2.6050878830546282e-05,
	"loss": 3.5252,
	"step": 37300
	},
	{
	"epoch": 1.5975396181282302,
	"grad_norm": 10.761728286743164,
	"learning_rate": 2.5971776171114874e-05,
	"loss": 3.6447,
	"step": 37400
	},
	{
	"epoch": 1.601811114433386,
	"grad_norm": 7.978828430175781,
	"learning_rate": 2.5892673511683462e-05,
	"loss": 3.6211,
	"step": 37500
	},
	{
	"epoch": 1.6060826107385417,
	"grad_norm": 8.314446449279785,
	"learning_rate": 2.5813570852252057e-05,
	"loss": 3.6197,
	"step": 37600
	},
	{
	"epoch": 1.6103541070436975,
	"grad_norm": 7.391338348388672,
	"learning_rate": 2.573446819282064e-05,
	"loss": 3.6123,
	"step": 37700
	},
	{
	"epoch": 1.614625603348853,
	"grad_norm": 9.402429580688477,
	"learning_rate": 2.5655365533389236e-05,
	"loss": 3.7008,
	"step": 37800
	},
	{
	"epoch": 1.6188970996540089,
	"grad_norm": 9.703052520751953,
	"learning_rate": 2.5576262873957825e-05,
	"loss": 3.6748,
	"step": 37900
	},
	{
	"epoch": 1.6231685959591644,
	"grad_norm": 7.890733242034912,
	"learning_rate": 2.5497160214526413e-05,
	"loss": 3.6766,
	"step": 38000
	},
	{
	"epoch": 1.6231685959591644,
	"eval_runtime": 403.3234,
	"eval_samples_per_second": 116.09,
	"eval_steps_per_second": 14.512,
	"step": 38000
	},
	{
	"epoch": 1.6274400922643202,
	"grad_norm": 7.096985816955566,
	"learning_rate": 2.5418057555095004e-05,
	"loss": 3.6308,
	"step": 38100
	},
	{
	"epoch": 1.631711588569476,
	"grad_norm": 10.07547378540039,
	"learning_rate": 2.5338954895663592e-05,
	"loss": 3.5905,
	"step": 38200
	},
	{
	"epoch": 1.6359830848746317,
	"grad_norm": 8.68416690826416,
	"learning_rate": 2.5259852236232184e-05,
	"loss": 3.5352,
	"step": 38300
	},
	{
	"epoch": 1.6402545811797873,
	"grad_norm": 10.171316146850586,
	"learning_rate": 2.5180749576800772e-05,
	"loss": 3.6892,
	"step": 38400
	},
	{
	"epoch": 1.6445260774849428,
	"grad_norm": 12.549208641052246,
	"learning_rate": 2.5101646917369363e-05,
	"loss": 3.6036,
	"step": 38500
	},
	{
	"epoch": 1.6487975737900986,
	"grad_norm": 9.339801788330078,
	"learning_rate": 2.502254425793795e-05,
	"loss": 3.5937,
	"step": 38600
	},
	{
	"epoch": 1.6530690700952544,
	"grad_norm": 7.933904647827148,
	"learning_rate": 2.4943441598506543e-05,
	"loss": 3.588,
	"step": 38700
	},
	{
	"epoch": 1.6573405664004102,
	"grad_norm": 11.310770988464355,
	"learning_rate": 2.486433893907513e-05,
	"loss": 3.7504,
	"step": 38800
	},
	{
	"epoch": 1.6616120627055657,
	"grad_norm": 9.128674507141113,
	"learning_rate": 2.4785236279643722e-05,
	"loss": 3.65,
	"step": 38900
	},
	{
	"epoch": 1.6658835590107215,
	"grad_norm": 10.278397560119629,
	"learning_rate": 2.4706133620212314e-05,
	"loss": 3.7471,
	"step": 39000
	},
	{
	"epoch": 1.6658835590107215,
	"eval_runtime": 403.4984,
	"eval_samples_per_second": 116.04,
	"eval_steps_per_second": 14.506,
	"step": 39000
	},
	{
	"epoch": 1.670155055315877,
	"grad_norm": 9.706366539001465,
	"learning_rate": 2.4627030960780902e-05,
	"loss": 3.6192,
	"step": 39100
	},
	{
	"epoch": 1.6744265516210328,
	"grad_norm": 8.632245063781738,
	"learning_rate": 2.4547928301349494e-05,
	"loss": 3.5752,
	"step": 39200
	},
	{
	"epoch": 1.6786980479261886,
	"grad_norm": 8.402227401733398,
	"learning_rate": 2.4468825641918085e-05,
	"loss": 3.6774,
	"step": 39300
	},
	{
	"epoch": 1.6829695442313444,
	"grad_norm": 8.275464057922363,
	"learning_rate": 2.4389722982486673e-05,
	"loss": 3.6148,
	"step": 39400
	},
	{
	"epoch": 1.6872410405365,
	"grad_norm": 9.17482852935791,
	"learning_rate": 2.431062032305526e-05,
	"loss": 3.6413,
	"step": 39500
	},
	{
	"epoch": 1.6915125368416555,
	"grad_norm": 8.914527893066406,
	"learning_rate": 2.4231517663623853e-05,
	"loss": 3.7191,
	"step": 39600
	},
	{
	"epoch": 1.6957840331468113,
	"grad_norm": 8.066243171691895,
	"learning_rate": 2.415241500419244e-05,
	"loss": 3.5606,
	"step": 39700
	},
	{
	"epoch": 1.700055529451967,
	"grad_norm": 9.488569259643555,
	"learning_rate": 2.4073312344761032e-05,
	"loss": 3.6873,
	"step": 39800
	},
	{
	"epoch": 1.7043270257571228,
	"grad_norm": 9.717203140258789,
	"learning_rate": 2.399420968532962e-05,
	"loss": 3.688,
	"step": 39900
	},
	{
	"epoch": 1.7085985220622786,
	"grad_norm": 8.048073768615723,
	"learning_rate": 2.3915107025898212e-05,
	"loss": 3.515,
	"step": 40000
	},
	{
	"epoch": 1.7085985220622786,
	"eval_runtime": 404.1323,
	"eval_samples_per_second": 115.858,
	"eval_steps_per_second": 14.483,
	"step": 40000
	},
	{
	"epoch": 1.7128700183674341,
	"grad_norm": 9.101920127868652,
	"learning_rate": 2.3836004366466803e-05,
	"loss": 3.6674,
	"step": 40100
	},
	{
	"epoch": 1.7171415146725897,
	"grad_norm": 6.701783180236816,
	"learning_rate": 2.375690170703539e-05,
	"loss": 3.6339,
	"step": 40200
	},
	{
	"epoch": 1.7214130109777455,
	"grad_norm": 9.65266227722168,
	"learning_rate": 2.3677799047603983e-05,
	"loss": 3.5557,
	"step": 40300
	},
	{
	"epoch": 1.7256845072829012,
	"grad_norm": 9.488314628601074,
	"learning_rate": 2.359869638817257e-05,
	"loss": 3.7312,
	"step": 40400
	},
	{
	"epoch": 1.729956003588057,
	"grad_norm": 8.73523235321045,
	"learning_rate": 2.3519593728741163e-05,
	"loss": 3.6714,
	"step": 40500
	},
	{
	"epoch": 1.7342274998932126,
	"grad_norm": 9.438526153564453,
	"learning_rate": 2.344049106930975e-05,
	"loss": 3.6664,
	"step": 40600
	},
	{
	"epoch": 1.7384989961983683,
	"grad_norm": 9.409259796142578,
	"learning_rate": 2.336138840987834e-05,
	"loss": 3.5598,
	"step": 40700
	},
	{
	"epoch": 1.742770492503524,
	"grad_norm": 6.831430435180664,
	"learning_rate": 2.328228575044693e-05,
	"loss": 3.7215,
	"step": 40800
	},
	{
	"epoch": 1.7470419888086797,
	"grad_norm": 8.387484550476074,
	"learning_rate": 2.320318309101552e-05,
	"loss": 3.578,
	"step": 40900
	},
	{
	"epoch": 1.7513134851138354,
	"grad_norm": 9.247336387634277,
	"learning_rate": 2.312408043158411e-05,
	"loss": 3.615,
	"step": 41000
	},
	{
	"epoch": 1.7513134851138354,
	"eval_runtime": 404.0825,
	"eval_samples_per_second": 115.872,
	"eval_steps_per_second": 14.485,
	"step": 41000
	},
	{
	"epoch": 1.7555849814189912,
	"grad_norm": 11.280122756958008,
	"learning_rate": 2.30449777721527e-05,
	"loss": 3.5713,
	"step": 41100
	},
	{
	"epoch": 1.7598564777241468,
	"grad_norm": 8.902118682861328,
	"learning_rate": 2.2965875112721293e-05,
	"loss": 3.6999,
	"step": 41200
	},
	{
	"epoch": 1.7641279740293023,
	"grad_norm": 11.0384521484375,
	"learning_rate": 2.288677245328988e-05,
	"loss": 3.7134,
	"step": 41300
	},
	{
	"epoch": 1.768399470334458,
	"grad_norm": 8.986517906188965,
	"learning_rate": 2.2807669793858472e-05,
	"loss": 3.5391,
	"step": 41400
	},
	{
	"epoch": 1.7726709666396139,
	"grad_norm": 9.237929344177246,
	"learning_rate": 2.272856713442706e-05,
	"loss": 3.781,
	"step": 41500
	},
	{
	"epoch": 1.7769424629447697,
	"grad_norm": 12.143738746643066,
	"learning_rate": 2.264946447499565e-05,
	"loss": 3.5613,
	"step": 41600
	},
	{
	"epoch": 1.7812139592499252,
	"grad_norm": 9.296298027038574,
	"learning_rate": 2.257036181556424e-05,
	"loss": 3.6645,
	"step": 41700
	},
	{
	"epoch": 1.785485455555081,
	"grad_norm": 9.721207618713379,
	"learning_rate": 2.2491259156132828e-05,
	"loss": 3.5764,
	"step": 41800
	},
	{
	"epoch": 1.7897569518602365,
	"grad_norm": 11.145936012268066,
	"learning_rate": 2.241215649670142e-05,
	"loss": 3.5321,
	"step": 41900
	},
	{
	"epoch": 1.7940284481653923,
	"grad_norm": 10.27043628692627,
	"learning_rate": 2.233305383727001e-05,
	"loss": 3.6625,
	"step": 42000
	},
	{
	"epoch": 1.7940284481653923,
	"eval_runtime": 405.1907,
	"eval_samples_per_second": 115.555,
	"eval_steps_per_second": 14.445,
	"step": 42000
	},
	{
	"epoch": 1.798299944470548,
	"grad_norm": 10.281463623046875,
	"learning_rate": 2.22539511778386e-05,
	"loss": 3.5566,
	"step": 42100
	},
	{
	"epoch": 1.8025714407757039,
	"grad_norm": 6.728999614715576,
	"learning_rate": 2.217484851840719e-05,
	"loss": 3.5608,
	"step": 42200
	},
	{
	"epoch": 1.8068429370808594,
	"grad_norm": 6.053191184997559,
	"learning_rate": 2.209574585897578e-05,
	"loss": 3.685,
	"step": 42300
	},
	{
	"epoch": 1.811114433386015,
	"grad_norm": 8.071969032287598,
	"learning_rate": 2.201664319954437e-05,
	"loss": 3.6003,
	"step": 42400
	},
	{
	"epoch": 1.8153859296911707,
	"grad_norm": 29.326370239257812,
	"learning_rate": 2.1937540540112962e-05,
	"loss": 3.6615,
	"step": 42500
	},
	{
	"epoch": 1.8196574259963265,
	"grad_norm": 8.652432441711426,
	"learning_rate": 2.185843788068155e-05,
	"loss": 3.5731,
	"step": 42600
	},
	{
	"epoch": 1.8239289223014823,
	"grad_norm": 11.717292785644531,
	"learning_rate": 2.1779335221250138e-05,
	"loss": 3.6371,
	"step": 42700
	},
	{
	"epoch": 1.828200418606638,
	"grad_norm": 10.365557670593262,
	"learning_rate": 2.170023256181873e-05,
	"loss": 3.6857,
	"step": 42800
	},
	{
	"epoch": 1.8324719149117936,
	"grad_norm": 12.400829315185547,
	"learning_rate": 2.1621129902387317e-05,
	"loss": 3.6896,
	"step": 42900
	},
	{
	"epoch": 1.8367434112169492,
	"grad_norm": 8.40799331665039,
	"learning_rate": 2.154202724295591e-05,
	"loss": 3.6611,
	"step": 43000
	},
	{
	"epoch": 1.8367434112169492,
	"eval_runtime": 403.8313,
	"eval_samples_per_second": 115.944,
	"eval_steps_per_second": 14.494,
	"step": 43000
	},
	{
	"epoch": 1.841014907522105,
	"grad_norm": 10.518604278564453,
	"learning_rate": 2.14629245835245e-05,
	"loss": 3.6118,
	"step": 43100
	},
	{
	"epoch": 1.8452864038272607,
	"grad_norm": 7.877737998962402,
	"learning_rate": 2.138382192409309e-05,
	"loss": 3.5943,
	"step": 43200
	},
	{
	"epoch": 1.8495579001324165,
	"grad_norm": 12.722783088684082,
	"learning_rate": 2.130471926466168e-05,
	"loss": 3.6583,
	"step": 43300
	},
	{
	"epoch": 1.853829396437572,
	"grad_norm": 8.382994651794434,
	"learning_rate": 2.1225616605230268e-05,
	"loss": 3.5931,
	"step": 43400
	},
	{
	"epoch": 1.8581008927427278,
	"grad_norm": 10.603730201721191,
	"learning_rate": 2.114651394579886e-05,
	"loss": 3.6558,
	"step": 43500
	},
	{
	"epoch": 1.8623723890478834,
	"grad_norm": 6.978638172149658,
	"learning_rate": 2.106741128636745e-05,
	"loss": 3.504,
	"step": 43600
	},
	{
	"epoch": 1.8666438853530392,
	"grad_norm": 7.777115345001221,
	"learning_rate": 2.0988308626936036e-05,
	"loss": 3.7573,
	"step": 43700
	},
	{
	"epoch": 1.870915381658195,
	"grad_norm": 8.054482460021973,
	"learning_rate": 2.0909205967504627e-05,
	"loss": 3.5624,
	"step": 43800
	},
	{
	"epoch": 1.8751868779633507,
	"grad_norm": 8.191532135009766,
	"learning_rate": 2.083010330807322e-05,
	"loss": 3.6115,
	"step": 43900
	},
	{
	"epoch": 1.8794583742685063,
	"grad_norm": 9.908390998840332,
	"learning_rate": 2.0751000648641807e-05,
	"loss": 3.6564,
	"step": 44000
	},
	{
	"epoch": 1.8794583742685063,
	"eval_runtime": 403.8168,
	"eval_samples_per_second": 115.949,
	"eval_steps_per_second": 14.494,
	"step": 44000
	},
	{
	"epoch": 1.8837298705736618,
	"grad_norm": 10.703449249267578,
	"learning_rate": 2.06718979892104e-05,
	"loss": 3.6265,
	"step": 44100
	},
	{
	"epoch": 1.8880013668788176,
	"grad_norm": 8.703311920166016,
	"learning_rate": 2.059279532977899e-05,
	"loss": 3.601,
	"step": 44200
	},
	{
	"epoch": 1.8922728631839734,
	"grad_norm": 16.844961166381836,
	"learning_rate": 2.0513692670347578e-05,
	"loss": 3.5735,
	"step": 44300
	},
	{
	"epoch": 1.8965443594891291,
	"grad_norm": 7.944665908813477,
	"learning_rate": 2.043459001091617e-05,
	"loss": 3.6514,
	"step": 44400
	},
	{
	"epoch": 1.9008158557942847,
	"grad_norm": 10.938014030456543,
	"learning_rate": 2.0355487351484758e-05,
	"loss": 3.6739,
	"step": 44500
	},
	{
	"epoch": 1.9050873520994405,
	"grad_norm": 7.884680271148682,
	"learning_rate": 2.027638469205335e-05,
	"loss": 3.6705,
	"step": 44600
	},
	{
	"epoch": 1.909358848404596,
	"grad_norm": 10.993422508239746,
	"learning_rate": 2.0197282032621937e-05,
	"loss": 3.5416,
	"step": 44700
	},
	{
	"epoch": 1.9136303447097518,
	"grad_norm": 9.719098091125488,
	"learning_rate": 2.0118179373190525e-05,
	"loss": 3.6548,
	"step": 44800
	},
	{
	"epoch": 1.9179018410149076,
	"grad_norm": 9.458189964294434,
	"learning_rate": 2.0039076713759117e-05,
	"loss": 3.7504,
	"step": 44900
	},
	{
	"epoch": 1.9221733373200633,
	"grad_norm": 10.599435806274414,
	"learning_rate": 1.9959974054327708e-05,
	"loss": 3.5734,
	"step": 45000
	},
	{
	"epoch": 1.9221733373200633,
	"eval_runtime": 404.0106,
	"eval_samples_per_second": 115.893,
	"eval_steps_per_second": 14.487,
	"step": 45000
	},
	{
	"epoch": 1.926444833625219,
	"grad_norm": 9.23690128326416,
	"learning_rate": 1.9880871394896296e-05,
	"loss": 3.7208,
	"step": 45100
	},
	{
	"epoch": 1.9307163299303745,
	"grad_norm": 7.124606609344482,
	"learning_rate": 1.9801768735464888e-05,
	"loss": 3.6351,
	"step": 45200
	},
	{
	"epoch": 1.9349878262355302,
	"grad_norm": 8.71446704864502,
	"learning_rate": 1.9722666076033476e-05,
	"loss": 3.6835,
	"step": 45300
	},
	{
	"epoch": 1.939259322540686,
	"grad_norm": 9.558823585510254,
	"learning_rate": 1.9643563416602067e-05,
	"loss": 3.5569,
	"step": 45400
	},
	{
	"epoch": 1.9435308188458418,
	"grad_norm": 9.622088432312012,
	"learning_rate": 1.956446075717066e-05,
	"loss": 3.6797,
	"step": 45500
	},
	{
	"epoch": 1.9478023151509976,
	"grad_norm": 8.641619682312012,
	"learning_rate": 1.9485358097739247e-05,
	"loss": 3.6377,
	"step": 45600
	},
	{
	"epoch": 1.952073811456153,
	"grad_norm": 12.308704376220703,
	"learning_rate": 1.940625543830784e-05,
	"loss": 3.5211,
	"step": 45700
	},
	{
	"epoch": 1.9563453077613087,
	"grad_norm": 8.850275993347168,
	"learning_rate": 1.9327152778876426e-05,
	"loss": 3.5652,
	"step": 45800
	},
	{
	"epoch": 1.9606168040664644,
	"grad_norm": 8.595603942871094,
	"learning_rate": 1.9248050119445015e-05,
	"loss": 3.6181,
	"step": 45900
	},
	{
	"epoch": 1.9648883003716202,
	"grad_norm": 8.737709999084473,
	"learning_rate": 1.9168947460013606e-05,
	"loss": 3.6392,
	"step": 46000
	},
	{
	"epoch": 1.9648883003716202,
	"eval_runtime": 403.5624,
	"eval_samples_per_second": 116.022,
	"eval_steps_per_second": 14.503,
	"step": 46000
	},
	{
	"epoch": 1.969159796676776,
	"grad_norm": 10.178166389465332,
	"learning_rate": 1.9089844800582198e-05,
	"loss": 3.5406,
	"step": 46100
	},
	{
	"epoch": 1.9734312929819315,
	"grad_norm": 8.49496841430664,
	"learning_rate": 1.9010742141150786e-05,
	"loss": 3.5631,
	"step": 46200
	},
	{
	"epoch": 1.9777027892870873,
	"grad_norm": 12.1917724609375,
	"learning_rate": 1.8931639481719377e-05,
	"loss": 3.6878,
	"step": 46300
	},
	{
	"epoch": 1.9819742855922429,
	"grad_norm": 7.169999599456787,
	"learning_rate": 1.8852536822287965e-05,
	"loss": 3.5653,
	"step": 46400
	},
	{
	"epoch": 1.9862457818973986,
	"grad_norm": 9.828686714172363,
	"learning_rate": 1.8773434162856557e-05,
	"loss": 3.5959,
	"step": 46500
	},
	{
	"epoch": 1.9905172782025544,
	"grad_norm": 11.669685363769531,
	"learning_rate": 1.8694331503425148e-05,
	"loss": 3.7558,
	"step": 46600
	},
	{
	"epoch": 1.9947887745077102,
	"grad_norm": 9.722572326660156,
	"learning_rate": 1.8615228843993736e-05,
	"loss": 3.5793,
	"step": 46700
	},
	{
	"epoch": 1.9990602708128657,
	"grad_norm": 7.060891151428223,
	"learning_rate": 1.8536126184562324e-05,
	"loss": 3.5613,
	"step": 46800
	},
	{
	"epoch": 2.0033317671180213,
	"grad_norm": 7.597713470458984,
	"learning_rate": 1.8457023525130916e-05,
	"loss": 3.527,
	"step": 46900
	},
	{
	"epoch": 2.007603263423177,
	"grad_norm": 8.622049331665039,
	"learning_rate": 1.8377920865699504e-05,
	"loss": 3.576,
	"step": 47000
	},
	{
	"epoch": 2.007603263423177,
	"eval_runtime": 404.752,
	"eval_samples_per_second": 115.681,
	"eval_steps_per_second": 14.461,
	"step": 47000
	},
	{
	"epoch": 2.011874759728333,
	"grad_norm": 7.117955207824707,
	"learning_rate": 1.8298818206268095e-05,
	"loss": 3.6644,
	"step": 47100
	},
	{
	"epoch": 2.0161462560334886,
	"grad_norm": 7.748778820037842,
	"learning_rate": 1.8219715546836687e-05,
	"loss": 3.5904,
	"step": 47200
	},
	{
	"epoch": 2.0204177523386444,
	"grad_norm": 7.402785301208496,
	"learning_rate": 1.8140612887405275e-05,
	"loss": 3.6069,
	"step": 47300
	},
	{
	"epoch": 2.0246892486437997,
	"grad_norm": 7.453569412231445,
	"learning_rate": 1.8061510227973867e-05,
	"loss": 3.6795,
	"step": 47400
	},
	{
	"epoch": 2.0289607449489555,
	"grad_norm": 8.299507141113281,
	"learning_rate": 1.7982407568542455e-05,
	"loss": 3.6194,
	"step": 47500
	},
	{
	"epoch": 2.0332322412541113,
	"grad_norm": 10.050152778625488,
	"learning_rate": 1.7903304909111046e-05,
	"loss": 3.5512,
	"step": 47600
	},
	{
	"epoch": 2.037503737559267,
	"grad_norm": 8.691873550415039,
	"learning_rate": 1.7824202249679638e-05,
	"loss": 3.6216,
	"step": 47700
	},
	{
	"epoch": 2.041775233864423,
	"grad_norm": 7.912090301513672,
	"learning_rate": 1.7745099590248222e-05,
	"loss": 3.5601,
	"step": 47800
	},
	{
	"epoch": 2.0460467301695786,
	"grad_norm": 9.80728530883789,
	"learning_rate": 1.7665996930816814e-05,
	"loss": 3.6074,
	"step": 47900
	},
	{
	"epoch": 2.050318226474734,
	"grad_norm": 11.86419677734375,
	"learning_rate": 1.7586894271385405e-05,
	"loss": 3.5964,
	"step": 48000
	},
	{
	"epoch": 2.050318226474734,
	"eval_runtime": 403.5223,
	"eval_samples_per_second": 116.033,
	"eval_steps_per_second": 14.505,
	"step": 48000
	},
	{
	"epoch": 2.0545897227798897,
	"grad_norm": 8.644769668579102,
	"learning_rate": 1.7507791611953993e-05,
	"loss": 3.53,
	"step": 48100
	},
	{
	"epoch": 2.0588612190850455,
	"grad_norm": 8.596597671508789,
	"learning_rate": 1.7428688952522585e-05,
	"loss": 3.6423,
	"step": 48200
	},
	{
	"epoch": 2.0631327153902013,
	"grad_norm": 8.68507194519043,
	"learning_rate": 1.7349586293091173e-05,
	"loss": 3.5187,
	"step": 48300
	},
	{
	"epoch": 2.067404211695357,
	"grad_norm": 12.417092323303223,
	"learning_rate": 1.7270483633659764e-05,
	"loss": 3.6873,
	"step": 48400
	},
	{
	"epoch": 2.0716757080005124,
	"grad_norm": 7.873465061187744,
	"learning_rate": 1.7191380974228356e-05,
	"loss": 3.556,
	"step": 48500
	},
	{
	"epoch": 2.075947204305668,
	"grad_norm": 9.485852241516113,
	"learning_rate": 1.7112278314796944e-05,
	"loss": 3.5671,
	"step": 48600
	},
	{
	"epoch": 2.080218700610824,
	"grad_norm": 9.282876968383789,
	"learning_rate": 1.7033175655365536e-05,
	"loss": 3.5649,
	"step": 48700
	},
	{
	"epoch": 2.0844901969159797,
	"grad_norm": 9.663043022155762,
	"learning_rate": 1.6954072995934127e-05,
	"loss": 3.5675,
	"step": 48800
	},
	{
	"epoch": 2.0887616932211355,
	"grad_norm": 9.47641372680664,
	"learning_rate": 1.6874970336502712e-05,
	"loss": 3.5404,
	"step": 48900
	},
	{
	"epoch": 2.0930331895262912,
	"grad_norm": 9.768278121948242,
	"learning_rate": 1.6795867677071303e-05,
	"loss": 3.6144,
	"step": 49000
	},
	{
	"epoch": 2.0930331895262912,
	"eval_runtime": 403.9425,
	"eval_samples_per_second": 115.913,
	"eval_steps_per_second": 14.49,
	"step": 49000
	},
	{
	"epoch": 2.0973046858314466,
	"grad_norm": 9.314282417297363,
	"learning_rate": 1.6716765017639895e-05,
	"loss": 3.6568,
	"step": 49100
	},
	{
	"epoch": 2.1015761821366024,
	"grad_norm": 8.707430839538574,
	"learning_rate": 1.6637662358208483e-05,
	"loss": 3.5775,
	"step": 49200
	},
	{
	"epoch": 2.105847678441758,
	"grad_norm": 11.704259872436523,
	"learning_rate": 1.6558559698777074e-05,
	"loss": 3.5568,
	"step": 49300
	},
	{
	"epoch": 2.110119174746914,
	"grad_norm": 8.504453659057617,
	"learning_rate": 1.6479457039345662e-05,
	"loss": 3.6528,
	"step": 49400
	},
	{
	"epoch": 2.1143906710520697,
	"grad_norm": 8.935593605041504,
	"learning_rate": 1.6400354379914254e-05,
	"loss": 3.7016,
	"step": 49500
	},
	{
	"epoch": 2.1186621673572255,
	"grad_norm": 8.349204063415527,
	"learning_rate": 1.6321251720482845e-05,
	"loss": 3.5431,
	"step": 49600
	},
	{
	"epoch": 2.122933663662381,
	"grad_norm": 11.8608980178833,
	"learning_rate": 1.6242149061051433e-05,
	"loss": 3.5844,
	"step": 49700
	},
	{
	"epoch": 2.1272051599675366,
	"grad_norm": 7.555705547332764,
	"learning_rate": 1.6163046401620025e-05,
	"loss": 3.5815,
	"step": 49800
	},
	{
	"epoch": 2.1314766562726923,
	"grad_norm": 9.529816627502441,
	"learning_rate": 1.6083943742188613e-05,
	"loss": 3.5485,
	"step": 49900
	},
	{
	"epoch": 2.135748152577848,
	"grad_norm": 9.32353401184082,
	"learning_rate": 1.60048410827572e-05,
	"loss": 3.589,
	"step": 50000
	},
	{
	"epoch": 2.135748152577848,
	"eval_runtime": 404.1831,
	"eval_samples_per_second": 115.844,
	"eval_steps_per_second": 14.481,
	"step": 50000
	},
	{
	"epoch": 2.140019648883004,
	"grad_norm": 8.285137176513672,
	"learning_rate": 1.5925738423325793e-05,
	"loss": 3.6874,
	"step": 50100
	},
	{
	"epoch": 2.144291145188159,
	"grad_norm": 6.94751501083374,
	"learning_rate": 1.5846635763894384e-05,
	"loss": 3.6489,
	"step": 50200
	},
	{
	"epoch": 2.148562641493315,
	"grad_norm": 11.093490600585938,
	"learning_rate": 1.5767533104462972e-05,
	"loss": 3.6675,
	"step": 50300
	},
	{
	"epoch": 2.1528341377984708,
	"grad_norm": 8.154306411743164,
	"learning_rate": 1.5688430445031564e-05,
	"loss": 3.5934,
	"step": 50400
	},
	{
	"epoch": 2.1571056341036265,
	"grad_norm": 8.806336402893066,
	"learning_rate": 1.5609327785600152e-05,
	"loss": 3.5804,
	"step": 50500
	},
	{
	"epoch": 2.1613771304087823,
	"grad_norm": 10.496975898742676,
	"learning_rate": 1.5530225126168743e-05,
	"loss": 3.6913,
	"step": 50600
	},
	{
	"epoch": 2.165648626713938,
	"grad_norm": 9.081565856933594,
	"learning_rate": 1.5451122466737335e-05,
	"loss": 3.7297,
	"step": 50700
	},
	{
	"epoch": 2.1699201230190934,
	"grad_norm": 7.850902557373047,
	"learning_rate": 1.5372019807305923e-05,
	"loss": 3.7112,
	"step": 50800
	},
	{
	"epoch": 2.174191619324249,
	"grad_norm": 8.145720481872559,
	"learning_rate": 1.529291714787451e-05,
	"loss": 3.6324,
	"step": 50900
	},
	{
	"epoch": 2.178463115629405,
	"grad_norm": 8.924689292907715,
	"learning_rate": 1.52138144884431e-05,
	"loss": 3.6598,
	"step": 51000
	},
	{
	"epoch": 2.178463115629405,
	"eval_runtime": 404.5353,
	"eval_samples_per_second": 115.743,
	"eval_steps_per_second": 14.468,
	"step": 51000
	},
	{
	"epoch": 2.1827346119345608,
	"grad_norm": 13.303974151611328,
	"learning_rate": 1.513471182901169e-05,
	"loss": 3.5284,
	"step": 51100
	},
	{
	"epoch": 2.1870061082397165,
	"grad_norm": 8.976105690002441,
	"learning_rate": 1.5055609169580282e-05,
	"loss": 3.6514,
	"step": 51200
	},
	{
	"epoch": 2.1912776045448723,
	"grad_norm": 7.439825057983398,
	"learning_rate": 1.4976506510148872e-05,
	"loss": 3.5687,
	"step": 51300
	},
	{
	"epoch": 2.1955491008500276,
	"grad_norm": 8.54857349395752,
	"learning_rate": 1.4897403850717462e-05,
	"loss": 3.7166,
	"step": 51400
	},
	{
	"epoch": 2.1998205971551834,
	"grad_norm": 11.23593521118164,
	"learning_rate": 1.4818301191286051e-05,
	"loss": 3.5591,
	"step": 51500
	},
	{
	"epoch": 2.204092093460339,
	"grad_norm": 13.313474655151367,
	"learning_rate": 1.4739198531854643e-05,
	"loss": 3.7213,
	"step": 51600
	},
	{
	"epoch": 2.208363589765495,
	"grad_norm": 9.998103141784668,
	"learning_rate": 1.4660095872423233e-05,
	"loss": 3.5843,
	"step": 51700
	},
	{
	"epoch": 2.2126350860706507,
	"grad_norm": 8.799863815307617,
	"learning_rate": 1.4580993212991822e-05,
	"loss": 3.7109,
	"step": 51800
	},
	{
	"epoch": 2.216906582375806,
	"grad_norm": 7.352701187133789,
	"learning_rate": 1.4501890553560412e-05,
	"loss": 3.6722,
	"step": 51900
	},
	{
	"epoch": 2.221178078680962,
	"grad_norm": 12.166138648986816,
	"learning_rate": 1.4422787894129e-05,
	"loss": 3.582,
	"step": 52000
	},
	{
	"epoch": 2.221178078680962,
	"eval_runtime": 403.5081,
	"eval_samples_per_second": 116.037,
	"eval_steps_per_second": 14.505,
	"step": 52000
	},
	{
	"epoch": 2.2254495749861176,
	"grad_norm": 10.341227531433105,
	"learning_rate": 1.434368523469759e-05,
	"loss": 3.7105,
	"step": 52100
	},
	{
	"epoch": 2.2297210712912734,
	"grad_norm": 7.697736740112305,
	"learning_rate": 1.426458257526618e-05,
	"loss": 3.5896,
	"step": 52200
	},
	{
	"epoch": 2.233992567596429,
	"grad_norm": 7.957235336303711,
	"learning_rate": 1.4185479915834771e-05,
	"loss": 3.5472,
	"step": 52300
	},
	{
	"epoch": 2.2382640639015845,
	"grad_norm": 7.778316020965576,
	"learning_rate": 1.4106377256403361e-05,
	"loss": 3.5998,
	"step": 52400
	},
	{
	"epoch": 2.2425355602067403,
	"grad_norm": 8.099467277526855,
	"learning_rate": 1.4027274596971951e-05,
	"loss": 3.7143,
	"step": 52500
	},
	{
	"epoch": 2.246807056511896,
	"grad_norm": 8.077199935913086,
	"learning_rate": 1.394817193754054e-05,
	"loss": 3.6727,
	"step": 52600
	},
	{
	"epoch": 2.251078552817052,
	"grad_norm": 10.278371810913086,
	"learning_rate": 1.3869069278109132e-05,
	"loss": 3.638,
	"step": 52700
	},
	{
	"epoch": 2.2553500491222076,
	"grad_norm": 10.49933910369873,
	"learning_rate": 1.3789966618677722e-05,
	"loss": 3.5718,
	"step": 52800
	},
	{
	"epoch": 2.2596215454273634,
	"grad_norm": 10.37414264678955,
	"learning_rate": 1.3710863959246312e-05,
	"loss": 3.551,
	"step": 52900
	},
	{
	"epoch": 2.2638930417325187,
	"grad_norm": 6.969189643859863,
	"learning_rate": 1.36317612998149e-05,
	"loss": 3.593,
	"step": 53000
	},
	{
	"epoch": 2.2638930417325187,
	"eval_runtime": 404.0848,
	"eval_samples_per_second": 115.872,
	"eval_steps_per_second": 14.485,
	"step": 53000
	},
	{
	"epoch": 2.2681645380376745,
	"grad_norm": 7.354485511779785,
	"learning_rate": 1.355265864038349e-05,
	"loss": 3.5927,
	"step": 53100
	},
	{
	"epoch": 2.2724360343428303,
	"grad_norm": 10.107403755187988,
	"learning_rate": 1.347355598095208e-05,
	"loss": 3.6626,
	"step": 53200
	},
	{
	"epoch": 2.276707530647986,
	"grad_norm": 9.613969802856445,
	"learning_rate": 1.339445332152067e-05,
	"loss": 3.6073,
	"step": 53300
	},
	{
	"epoch": 2.280979026953142,
	"grad_norm": 7.995043754577637,
	"learning_rate": 1.3315350662089259e-05,
	"loss": 3.5675,
	"step": 53400
	},
	{
	"epoch": 2.2852505232582976,
	"grad_norm": 7.049370765686035,
	"learning_rate": 1.323624800265785e-05,
	"loss": 3.6559,
	"step": 53500
	},
	{
	"epoch": 2.289522019563453,
	"grad_norm": 10.962531089782715,
	"learning_rate": 1.315714534322644e-05,
	"loss": 3.667,
	"step": 53600
	},
	{
	"epoch": 2.2937935158686087,
	"grad_norm": 8.100302696228027,
	"learning_rate": 1.307804268379503e-05,
	"loss": 3.6044,
	"step": 53700
	},
	{
	"epoch": 2.2980650121737645,
	"grad_norm": 8.079455375671387,
	"learning_rate": 1.299894002436362e-05,
	"loss": 3.7206,
	"step": 53800
	},
	{
	"epoch": 2.3023365084789202,
	"grad_norm": 8.500101089477539,
	"learning_rate": 1.2919837364932211e-05,
	"loss": 3.6075,
	"step": 53900
	},
	{
	"epoch": 2.306608004784076,
	"grad_norm": 12.927189826965332,
	"learning_rate": 1.2840734705500801e-05,
	"loss": 3.654,
	"step": 54000
	},
	{
	"epoch": 2.306608004784076,
	"eval_runtime": 403.7677,
	"eval_samples_per_second": 115.963,
	"eval_steps_per_second": 14.496,
	"step": 54000
	},
	{
	"epoch": 2.3108795010892313,
	"grad_norm": 7.132537841796875,
	"learning_rate": 1.2761632046069388e-05,
	"loss": 3.6083,
	"step": 54100
	},
	{
	"epoch": 2.315150997394387,
	"grad_norm": 8.612030982971191,
	"learning_rate": 1.2682529386637979e-05,
	"loss": 3.5848,
	"step": 54200
	},
	{
	"epoch": 2.319422493699543,
	"grad_norm": 8.210352897644043,
	"learning_rate": 1.2603426727206569e-05,
	"loss": 3.7611,
	"step": 54300
	},
	{
	"epoch": 2.3236939900046987,
	"grad_norm": 9.12792682647705,
	"learning_rate": 1.2524324067775159e-05,
	"loss": 3.518,
	"step": 54400
	},
	{
	"epoch": 2.3279654863098544,
	"grad_norm": 9.999760627746582,
	"learning_rate": 1.2445221408343748e-05,
	"loss": 3.5513,
	"step": 54500
	},
	{
	"epoch": 2.3322369826150102,
	"grad_norm": 12.578611373901367,
	"learning_rate": 1.236611874891234e-05,
	"loss": 3.5614,
	"step": 54600
	},
	{
	"epoch": 2.3365084789201656,
	"grad_norm": 12.089159965515137,
	"learning_rate": 1.228701608948093e-05,
	"loss": 3.5944,
	"step": 54700
	},
	{
	"epoch": 2.3407799752253213,
	"grad_norm": 7.965277671813965,
	"learning_rate": 1.2207913430049518e-05,
	"loss": 3.4852,
	"step": 54800
	},
	{
	"epoch": 2.345051471530477,
	"grad_norm": 10.866728782653809,
	"learning_rate": 1.2128810770618108e-05,
	"loss": 3.5431,
	"step": 54900
	},
	{
	"epoch": 2.349322967835633,
	"grad_norm": 10.489164352416992,
	"learning_rate": 1.2049708111186699e-05,
	"loss": 3.4309,
	"step": 55000
	},
	{
	"epoch": 2.349322967835633,
	"eval_runtime": 404.0413,
	"eval_samples_per_second": 115.884,
	"eval_steps_per_second": 14.486,
	"step": 55000
	},
	{
	"epoch": 2.3535944641407887,
	"grad_norm": 8.494600296020508,
	"learning_rate": 1.1970605451755289e-05,
	"loss": 3.4994,
	"step": 55100
	},
	{
	"epoch": 2.3578659604459444,
	"grad_norm": 9.755086898803711,
	"learning_rate": 1.1891502792323879e-05,
	"loss": 3.5679,
	"step": 55200
	},
	{
	"epoch": 2.3621374567510998,
	"grad_norm": 9.621931076049805,
	"learning_rate": 1.1812400132892468e-05,
	"loss": 3.6264,
	"step": 55300
	},
	{
	"epoch": 2.3664089530562555,
	"grad_norm": 12.946763038635254,
	"learning_rate": 1.1733297473461058e-05,
	"loss": 3.5741,
	"step": 55400
	},
	{
	"epoch": 2.3706804493614113,
	"grad_norm": 8.984336853027344,
	"learning_rate": 1.1654194814029648e-05,
	"loss": 3.5317,
	"step": 55500
	},
	{
	"epoch": 2.374951945666567,
	"grad_norm": 9.304176330566406,
	"learning_rate": 1.1575092154598238e-05,
	"loss": 3.6013,
	"step": 55600
	},
	{
	"epoch": 2.379223441971723,
	"grad_norm": 8.324792861938477,
	"learning_rate": 1.1495989495166828e-05,
	"loss": 3.5887,
	"step": 55700
	},
	{
	"epoch": 2.383494938276878,
	"grad_norm": 11.814824104309082,
	"learning_rate": 1.1416886835735419e-05,
	"loss": 3.4865,
	"step": 55800
	},
	{
	"epoch": 2.387766434582034,
	"grad_norm": 9.219450950622559,
	"learning_rate": 1.1337784176304007e-05,
	"loss": 3.5598,
	"step": 55900
	},
	{
	"epoch": 2.3920379308871897,
	"grad_norm": 10.202199935913086,
	"learning_rate": 1.1258681516872597e-05,
	"loss": 3.6973,
	"step": 56000
	},
	{
	"epoch": 2.3920379308871897,
	"eval_runtime": 405.1455,
	"eval_samples_per_second": 115.568,
	"eval_steps_per_second": 14.447,
	"step": 56000
	},
	{
	"epoch": 2.3963094271923455,
	"grad_norm": 10.352853775024414,
	"learning_rate": 1.1179578857441188e-05,
	"loss": 3.5715,
	"step": 56100
	},
	{
	"epoch": 2.4005809234975013,
	"grad_norm": 9.794927597045898,
	"learning_rate": 1.1100476198009778e-05,
	"loss": 3.5751,
	"step": 56200
	},
	{
	"epoch": 2.4048524198026566,
	"grad_norm": 9.24485969543457,
	"learning_rate": 1.1021373538578368e-05,
	"loss": 3.6939,
	"step": 56300
	},
	{
	"epoch": 2.4091239161078124,
	"grad_norm": 6.9035162925720215,
	"learning_rate": 1.0942270879146956e-05,
	"loss": 3.6613,
	"step": 56400
	},
	{
	"epoch": 2.413395412412968,
	"grad_norm": 9.021778106689453,
	"learning_rate": 1.0863168219715548e-05,
	"loss": 3.5978,
	"step": 56500
	},
	{
	"epoch": 2.417666908718124,
	"grad_norm": 7.050608158111572,
	"learning_rate": 1.0784065560284137e-05,
	"loss": 3.7212,
	"step": 56600
	},
	{
	"epoch": 2.4219384050232797,
	"grad_norm": 8.771140098571777,
	"learning_rate": 1.0704962900852727e-05,
	"loss": 3.6447,
	"step": 56700
	},
	{
	"epoch": 2.4262099013284355,
	"grad_norm": 14.564820289611816,
	"learning_rate": 1.0625860241421317e-05,
	"loss": 3.6091,
	"step": 56800
	},
	{
	"epoch": 2.4304813976335913,
	"grad_norm": 10.664299011230469,
	"learning_rate": 1.0546757581989907e-05,
	"loss": 3.6506,
	"step": 56900
	},
	{
	"epoch": 2.4347528939387466,
	"grad_norm": 14.445178985595703,
	"learning_rate": 1.0467654922558497e-05,
	"loss": 3.6226,
	"step": 57000
	},
	{
	"epoch": 2.4347528939387466,
	"eval_runtime": 404.9602,
	"eval_samples_per_second": 115.621,
	"eval_steps_per_second": 14.453,
	"step": 57000
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 19.93160057067871,
	"learning_rate": 1.0388552263127086e-05,
	"loss": 3.6144,
	"step": 57100
	},
	{
	"epoch": 2.443295886549058,
	"grad_norm": 7.793177604675293,
	"learning_rate": 1.0309449603695676e-05,
	"loss": 3.6577,
	"step": 57200
	},
	{
	"epoch": 2.447567382854214,
	"grad_norm": 7.95759391784668,
	"learning_rate": 1.0230346944264268e-05,
	"loss": 3.6079,
	"step": 57300
	},
	{
	"epoch": 2.4518388791593697,
	"grad_norm": 10.07507610321045,
	"learning_rate": 1.0151244284832856e-05,
	"loss": 3.5974,
	"step": 57400
	},
	{
	"epoch": 2.456110375464525,
	"grad_norm": 9.73681926727295,
	"learning_rate": 1.0072141625401446e-05,
	"loss": 3.5602,
	"step": 57500
	},
	{
	"epoch": 2.460381871769681,
	"grad_norm": 18.652366638183594,
	"learning_rate": 9.993038965970037e-06,
	"loss": 3.5649,
	"step": 57600
	},
	{
	"epoch": 2.4646533680748366,
	"grad_norm": 10.758431434631348,
	"learning_rate": 9.913936306538627e-06,
	"loss": 3.6587,
	"step": 57700
	},
	{
	"epoch": 2.4689248643799924,
	"grad_norm": 8.963933944702148,
	"learning_rate": 9.834833647107217e-06,
	"loss": 3.5872,
	"step": 57800
	},
	{
	"epoch": 2.473196360685148,
	"grad_norm": 12.521937370300293,
	"learning_rate": 9.755730987675805e-06,
	"loss": 3.6379,
	"step": 57900
	},
	{
	"epoch": 2.4774678569903035,
	"grad_norm": 8.87618350982666,
	"learning_rate": 9.676628328244396e-06,
	"loss": 3.6867,
	"step": 58000
	},
	{
	"epoch": 2.4774678569903035,
	"eval_runtime": 403.9214,
	"eval_samples_per_second": 115.919,
	"eval_steps_per_second": 14.49,
	"step": 58000
	},
	{
	"epoch": 2.4817393532954592,
	"grad_norm": 8.210921287536621,
	"learning_rate": 9.597525668812986e-06,
	"loss": 3.5951,
	"step": 58100
	},
	{
	"epoch": 2.486010849600615,
	"grad_norm": 11.452202796936035,
	"learning_rate": 9.518423009381576e-06,
	"loss": 3.573,
	"step": 58200
	},
	{
	"epoch": 2.490282345905771,
	"grad_norm": 6.497128486633301,
	"learning_rate": 9.439320349950166e-06,
	"loss": 3.5676,
	"step": 58300
	},
	{
	"epoch": 2.4945538422109266,
	"grad_norm": 10.434738159179688,
	"learning_rate": 9.360217690518757e-06,
	"loss": 3.6214,
	"step": 58400
	},
	{
	"epoch": 2.4988253385160824,
	"grad_norm": 10.927915573120117,
	"learning_rate": 9.281115031087345e-06,
	"loss": 3.6166,
	"step": 58500
	},
	{
	"epoch": 2.503096834821238,
	"grad_norm": 9.382610321044922,
	"learning_rate": 9.202012371655935e-06,
	"loss": 3.6148,
	"step": 58600
	},
	{
	"epoch": 2.5073683311263935,
	"grad_norm": 10.243247032165527,
	"learning_rate": 9.122909712224525e-06,
	"loss": 3.5586,
	"step": 58700
	},
	{
	"epoch": 2.5116398274315492,
	"grad_norm": 9.074312210083008,
	"learning_rate": 9.043807052793116e-06,
	"loss": 3.5202,
	"step": 58800
	},
	{
	"epoch": 2.515911323736705,
	"grad_norm": 8.498826026916504,
	"learning_rate": 8.964704393361706e-06,
	"loss": 3.6136,
	"step": 58900
	},
	{
	"epoch": 2.520182820041861,
	"grad_norm": 9.749957084655762,
	"learning_rate": 8.885601733930294e-06,
	"loss": 3.6116,
	"step": 59000
	},
	{
	"epoch": 2.520182820041861,
	"eval_runtime": 403.7151,
	"eval_samples_per_second": 115.978,
	"eval_steps_per_second": 14.498,
	"step": 59000
	},
	{
	"epoch": 2.5244543163470166,
	"grad_norm": 12.452668190002441,
	"learning_rate": 8.806499074498886e-06,
	"loss": 3.6322,
	"step": 59100
	},
	{
	"epoch": 2.528725812652172,
	"grad_norm": 10.466354370117188,
	"learning_rate": 8.727396415067475e-06,
	"loss": 3.623,
	"step": 59200
	},
	{
	"epoch": 2.5329973089573277,
	"grad_norm": 11.655385971069336,
	"learning_rate": 8.648293755636065e-06,
	"loss": 3.6222,
	"step": 59300
	},
	{
	"epoch": 2.5372688052624834,
	"grad_norm": 46.87141799926758,
	"learning_rate": 8.569191096204655e-06,
	"loss": 3.5937,
	"step": 59400
	},
	{
	"epoch": 2.541540301567639,
	"grad_norm": 7.815254211425781,
	"learning_rate": 8.490088436773245e-06,
	"loss": 3.6052,
	"step": 59500
	},
	{
	"epoch": 2.545811797872795,
	"grad_norm": 8.2904052734375,
	"learning_rate": 8.410985777341835e-06,
	"loss": 3.668,
	"step": 59600
	},
	{
	"epoch": 2.5500832941779503,
	"grad_norm": 7.5048017501831055,
	"learning_rate": 8.331883117910424e-06,
	"loss": 3.5193,
	"step": 59700
	},
	{
	"epoch": 2.554354790483106,
	"grad_norm": 8.502148628234863,
	"learning_rate": 8.252780458479014e-06,
	"loss": 3.5909,
	"step": 59800
	},
	{
	"epoch": 2.558626286788262,
	"grad_norm": 7.68582820892334,
	"learning_rate": 8.173677799047606e-06,
	"loss": 3.5942,
	"step": 59900
	},
	{
	"epoch": 2.5628977830934176,
	"grad_norm": 8.871585845947266,
	"learning_rate": 8.094575139616194e-06,
	"loss": 3.609,
	"step": 60000
	},
	{
	"epoch": 2.5628977830934176,
	"eval_runtime": 403.125,
	"eval_samples_per_second": 116.148,
	"eval_steps_per_second": 14.519,
	"step": 60000
	},
	{
	"epoch": 2.5671692793985734,
	"grad_norm": 11.707693099975586,
	"learning_rate": 8.015472480184783e-06,
	"loss": 3.559,
	"step": 60100
	},
	{
	"epoch": 2.5714407757037288,
	"grad_norm": 11.136000633239746,
	"learning_rate": 7.936369820753373e-06,
	"loss": 3.6089,
	"step": 60200
	},
	{
	"epoch": 2.575712272008885,
	"grad_norm": 8.095897674560547,
	"learning_rate": 7.857267161321965e-06,
	"loss": 3.5446,
	"step": 60300
	},
	{
	"epoch": 2.5799837683140403,
	"grad_norm": 9.27779769897461,
	"learning_rate": 7.778164501890555e-06,
	"loss": 3.6471,
	"step": 60400
	},
	{
	"epoch": 2.584255264619196,
	"grad_norm": 10.214181900024414,
	"learning_rate": 7.699061842459143e-06,
	"loss": 3.568,
	"step": 60500
	},
	{
	"epoch": 2.588526760924352,
	"grad_norm": 7.064481258392334,
	"learning_rate": 7.619959183027733e-06,
	"loss": 3.6581,
	"step": 60600
	},
	{
	"epoch": 2.5927982572295076,
	"grad_norm": 10.396333694458008,
	"learning_rate": 7.540856523596324e-06,
	"loss": 3.5857,
	"step": 60700
	},
	{
	"epoch": 2.5970697535346634,
	"grad_norm": 9.091317176818848,
	"learning_rate": 7.461753864164914e-06,
	"loss": 3.5121,
	"step": 60800
	},
	{
	"epoch": 2.6013412498398187,
	"grad_norm": 8.94211483001709,
	"learning_rate": 7.3826512047335035e-06,
	"loss": 3.5963,
	"step": 60900
	},
	{
	"epoch": 2.6056127461449745,
	"grad_norm": 9.317548751831055,
	"learning_rate": 7.303548545302094e-06,
	"loss": 3.6764,
	"step": 61000
	},
	{
	"epoch": 2.6056127461449745,
	"eval_runtime": 403.6369,
	"eval_samples_per_second": 116.0,
	"eval_steps_per_second": 14.501,
	"step": 61000
	},
	{
	"epoch": 2.6098842424501303,
	"grad_norm": 9.0656156539917,
	"learning_rate": 7.224445885870683e-06,
	"loss": 3.5781,
	"step": 61100
	},
	{
	"epoch": 2.614155738755286,
	"grad_norm": 12.859307289123535,
	"learning_rate": 7.145343226439273e-06,
	"loss": 3.553,
	"step": 61200
	},
	{
	"epoch": 2.618427235060442,
	"grad_norm": 10.962692260742188,
	"learning_rate": 7.0662405670078635e-06,
	"loss": 3.6146,
	"step": 61300
	},
	{
	"epoch": 2.622698731365597,
	"grad_norm": 11.84343147277832,
	"learning_rate": 6.987137907576453e-06,
	"loss": 3.6113,
	"step": 61400
	},
	{
	"epoch": 2.626970227670753,
	"grad_norm": 8.770605087280273,
	"learning_rate": 6.908035248145044e-06,
	"loss": 3.6307,
	"step": 61500
	},
	{
	"epoch": 2.6312417239759087,
	"grad_norm": 11.979937553405762,
	"learning_rate": 6.828932588713632e-06,
	"loss": 3.5754,
	"step": 61600
	},
	{
	"epoch": 2.6355132202810645,
	"grad_norm": 8.271350860595703,
	"learning_rate": 6.749829929282223e-06,
	"loss": 3.6004,
	"step": 61700
	},
	{
	"epoch": 2.6397847165862203,
	"grad_norm": 9.494888305664062,
	"learning_rate": 6.6707272698508125e-06,
	"loss": 3.5873,
	"step": 61800
	},
	{
	"epoch": 2.6440562128913756,
	"grad_norm": 8.384838104248047,
	"learning_rate": 6.591624610419403e-06,
	"loss": 3.7076,
	"step": 61900
	},
	{
	"epoch": 2.648327709196532,
	"grad_norm": 11.468506813049316,
	"learning_rate": 6.512521950987993e-06,
	"loss": 3.6043,
	"step": 62000
	},
	{
	"epoch": 2.648327709196532,
	"eval_runtime": 403.9819,
	"eval_samples_per_second": 115.901,
	"eval_steps_per_second": 14.488,
	"step": 62000
	},
	{
	"epoch": 2.652599205501687,
	"grad_norm": 9.485078811645508,
	"learning_rate": 6.433419291556582e-06,
	"loss": 3.6547,
	"step": 62100
	},
	{
	"epoch": 2.656870701806843,
	"grad_norm": 6.771136283874512,
	"learning_rate": 6.3543166321251725e-06,
	"loss": 3.6359,
	"step": 62200
	},
	{
	"epoch": 2.6611421981119987,
	"grad_norm": 7.749585151672363,
	"learning_rate": 6.275213972693762e-06,
	"loss": 3.6473,
	"step": 62300
	},
	{
	"epoch": 2.6654136944171545,
	"grad_norm": 9.156508445739746,
	"learning_rate": 6.196111313262352e-06,
	"loss": 3.5664,
	"step": 62400
	},
	{
	"epoch": 2.6696851907223103,
	"grad_norm": 7.322949409484863,
	"learning_rate": 6.117008653830942e-06,
	"loss": 3.6327,
	"step": 62500
	},
	{
	"epoch": 2.6739566870274656,
	"grad_norm": 9.038566589355469,
	"learning_rate": 6.0379059943995325e-06,
	"loss": 3.588,
	"step": 62600
	},
	{
	"epoch": 2.6782281833326214,
	"grad_norm": 9.974699020385742,
	"learning_rate": 5.9588033349681214e-06,
	"loss": 3.5183,
	"step": 62700
	},
	{
	"epoch": 2.682499679637777,
	"grad_norm": 15.095208168029785,
	"learning_rate": 5.879700675536712e-06,
	"loss": 3.6799,
	"step": 62800
	},
	{
	"epoch": 2.686771175942933,
	"grad_norm": 6.498071670532227,
	"learning_rate": 5.800598016105302e-06,
	"loss": 3.665,
	"step": 62900
	},
	{
	"epoch": 2.6910426722480887,
	"grad_norm": 10.172649383544922,
	"learning_rate": 5.721495356673892e-06,
	"loss": 3.5558,
	"step": 63000
	},
	{
	"epoch": 2.6910426722480887,
	"eval_runtime": 404.4896,
	"eval_samples_per_second": 115.756,
	"eval_steps_per_second": 14.47,
	"step": 63000
	},
	{
	"epoch": 2.695314168553244,
	"grad_norm": 9.67616081237793,
	"learning_rate": 5.6423926972424814e-06,
	"loss": 3.6391,
	"step": 63100
	},
	{
	"epoch": 2.6995856648584,
	"grad_norm": 8.725837707519531,
	"learning_rate": 5.563290037811072e-06,
	"loss": 3.5525,
	"step": 63200
	},
	{
	"epoch": 2.7038571611635556,
	"grad_norm": 7.677910327911377,
	"learning_rate": 5.484187378379661e-06,
	"loss": 3.5785,
	"step": 63300
	},
	{
	"epoch": 2.7081286574687113,
	"grad_norm": 9.097688674926758,
	"learning_rate": 5.405084718948252e-06,
	"loss": 3.6759,
	"step": 63400
	},
	{
	"epoch": 2.712400153773867,
	"grad_norm": 9.70285415649414,
	"learning_rate": 5.325982059516841e-06,
	"loss": 3.641,
	"step": 63500
	},
	{
	"epoch": 2.7166716500790224,
	"grad_norm": 8.540017127990723,
	"learning_rate": 5.246879400085431e-06,
	"loss": 3.6462,
	"step": 63600
	},
	{
	"epoch": 2.7209431463841782,
	"grad_norm": 9.38048267364502,
	"learning_rate": 5.167776740654021e-06,
	"loss": 3.6205,
	"step": 63700
	},
	{
	"epoch": 2.725214642689334,
	"grad_norm": 7.8036417961120605,
	"learning_rate": 5.088674081222611e-06,
	"loss": 3.5581,
	"step": 63800
	},
	{
	"epoch": 2.7294861389944898,
	"grad_norm": 8.558833122253418,
	"learning_rate": 5.009571421791201e-06,
	"loss": 3.6245,
	"step": 63900
	},
	{
	"epoch": 2.7337576352996455,
	"grad_norm": 10.551793098449707,
	"learning_rate": 4.93046876235979e-06,
	"loss": 3.6178,
	"step": 64000
	},
	{
	"epoch": 2.7337576352996455,
	"eval_runtime": 403.4664,
	"eval_samples_per_second": 116.049,
	"eval_steps_per_second": 14.507,
	"step": 64000
	},
	{
	"epoch": 2.7380291316048013,
	"grad_norm": 7.700866222381592,
	"learning_rate": 4.851366102928381e-06,
	"loss": 3.5907,
	"step": 64100
	},
	{
	"epoch": 2.742300627909957,
	"grad_norm": 10.438343048095703,
	"learning_rate": 4.772263443496971e-06,
	"loss": 3.6566,
	"step": 64200
	},
	{
	"epoch": 2.7465721242151124,
	"grad_norm": 10.483076095581055,
	"learning_rate": 4.693160784065561e-06,
	"loss": 3.5357,
	"step": 64300
	},
	{
	"epoch": 2.750843620520268,
	"grad_norm": 10.251741409301758,
	"learning_rate": 4.61405812463415e-06,
	"loss": 3.5436,
	"step": 64400
	},
	{
	"epoch": 2.755115116825424,
	"grad_norm": 7.065600872039795,
	"learning_rate": 4.534955465202741e-06,
	"loss": 3.588,
	"step": 64500
	},
	{
	"epoch": 2.7593866131305798,
	"grad_norm": 6.57476282119751,
	"learning_rate": 4.45585280577133e-06,
	"loss": 3.5464,
	"step": 64600
	},
	{
	"epoch": 2.7636581094357355,
	"grad_norm": 10.847752571105957,
	"learning_rate": 4.376750146339921e-06,
	"loss": 3.6241,
	"step": 64700
	},
	{
	"epoch": 2.767929605740891,
	"grad_norm": 9.701374053955078,
	"learning_rate": 4.29764748690851e-06,
	"loss": 3.6638,
	"step": 64800
	},
	{
	"epoch": 2.7722011020460466,
	"grad_norm": 8.982709884643555,
	"learning_rate": 4.2185448274771e-06,
	"loss": 3.5764,
	"step": 64900
	},
	{
	"epoch": 2.7764725983512024,
	"grad_norm": 11.895380973815918,
	"learning_rate": 4.13944216804569e-06,
	"loss": 3.6685,
	"step": 65000
	},
	{
	"epoch": 2.7764725983512024,
	"eval_runtime": 404.1638,
	"eval_samples_per_second": 115.849,
	"eval_steps_per_second": 14.482,
	"step": 65000
	},
	{
	"epoch": 2.780744094656358,
	"grad_norm": 7.826374053955078,
	"learning_rate": 4.06033950861428e-06,
	"loss": 3.6005,
	"step": 65100
	},
	{
	"epoch": 2.785015590961514,
	"grad_norm": 9.21237564086914,
	"learning_rate": 3.98123684918287e-06,
	"loss": 3.5123,
	"step": 65200
	},
	{
	"epoch": 2.7892870872666693,
	"grad_norm": 9.817154884338379,
	"learning_rate": 3.902134189751459e-06,
	"loss": 3.6442,
	"step": 65300
	},
	{
	"epoch": 2.793558583571825,
	"grad_norm": 9.74837875366211,
	"learning_rate": 3.823031530320049e-06,
	"loss": 3.5619,
	"step": 65400
	},
	{
	"epoch": 2.797830079876981,
	"grad_norm": 8.357489585876465,
	"learning_rate": 3.74392887088864e-06,
	"loss": 3.613,
	"step": 65500
	},
	{
	"epoch": 2.8021015761821366,
	"grad_norm": 10.162979125976562,
	"learning_rate": 3.664826211457229e-06,
	"loss": 3.636,
	"step": 65600
	},
	{
	"epoch": 2.8063730724872924,
	"grad_norm": 9.95310115814209,
	"learning_rate": 3.5857235520258194e-06,
	"loss": 3.7321,
	"step": 65700
	},
	{
	"epoch": 2.8106445687924477,
	"grad_norm": 8.15718936920166,
	"learning_rate": 3.5066208925944088e-06,
	"loss": 3.6125,
	"step": 65800
	},
	{
	"epoch": 2.814916065097604,
	"grad_norm": 11.377549171447754,
	"learning_rate": 3.427518233162999e-06,
	"loss": 3.6859,
	"step": 65900
	},
	{
	"epoch": 2.8191875614027593,
	"grad_norm": 7.227240562438965,
	"learning_rate": 3.348415573731589e-06,
	"loss": 3.6915,
	"step": 66000
	},
	{
	"epoch": 2.8191875614027593,
	"eval_runtime": 403.9368,
	"eval_samples_per_second": 115.914,
	"eval_steps_per_second": 14.49,
	"step": 66000
	},
	{
	"epoch": 2.823459057707915,
	"grad_norm": 9.386198043823242,
	"learning_rate": 3.2693129143001786e-06,
	"loss": 3.5728,
	"step": 66100
	},
	{
	"epoch": 2.827730554013071,
	"grad_norm": 9.223987579345703,
	"learning_rate": 3.1902102548687688e-06,
	"loss": 3.6028,
	"step": 66200
	},
	{
	"epoch": 2.8320020503182266,
	"grad_norm": 7.933398246765137,
	"learning_rate": 3.1111075954373586e-06,
	"loss": 3.6051,
	"step": 66300
	},
	{
	"epoch": 2.8362735466233824,
	"grad_norm": 8.923637390136719,
	"learning_rate": 3.0320049360059483e-06,
	"loss": 3.6427,
	"step": 66400
	},
	{
	"epoch": 2.8405450429285377,
	"grad_norm": 9.507107734680176,
	"learning_rate": 2.9529022765745386e-06,
	"loss": 3.6082,
	"step": 66500
	},
	{
	"epoch": 2.8448165392336935,
	"grad_norm": 8.927079200744629,
	"learning_rate": 2.8737996171431284e-06,
	"loss": 3.6545,
	"step": 66600
	},
	{
	"epoch": 2.8490880355388493,
	"grad_norm": 11.978940963745117,
	"learning_rate": 2.7946969577117186e-06,
	"loss": 3.6035,
	"step": 66700
	},
	{
	"epoch": 2.853359531844005,
	"grad_norm": 8.081381797790527,
	"learning_rate": 2.7155942982803084e-06,
	"loss": 3.5326,
	"step": 66800
	},
	{
	"epoch": 2.857631028149161,
	"grad_norm": 7.906234264373779,
	"learning_rate": 2.6364916388488986e-06,
	"loss": 3.5,
	"step": 66900
	},
	{
	"epoch": 2.861902524454316,
	"grad_norm": 7.646207809448242,
	"learning_rate": 2.5573889794174884e-06,
	"loss": 3.6673,
	"step": 67000
	},
	{
	"epoch": 2.861902524454316,
	"eval_runtime": 403.9147,
	"eval_samples_per_second": 115.921,
	"eval_steps_per_second": 14.491,
	"step": 67000
	},
	{
	"epoch": 2.866174020759472,
	"grad_norm": 7.473504543304443,
	"learning_rate": 2.478286319986078e-06,
	"loss": 3.5667,
	"step": 67100
	},
	{
	"epoch": 2.8704455170646277,
	"grad_norm": 7.414896011352539,
	"learning_rate": 2.399183660554668e-06,
	"loss": 3.703,
	"step": 67200
	},
	{
	"epoch": 2.8747170133697835,
	"grad_norm": 10.893074035644531,
	"learning_rate": 2.3200810011232577e-06,
	"loss": 3.5693,
	"step": 67300
	},
	{
	"epoch": 2.8789885096749392,
	"grad_norm": 9.107102394104004,
	"learning_rate": 2.240978341691848e-06,
	"loss": 3.5448,
	"step": 67400
	},
	{
	"epoch": 2.8832600059800946,
	"grad_norm": 12.374472618103027,
	"learning_rate": 2.1618756822604377e-06,
	"loss": 3.5897,
	"step": 67500
	},
	{
	"epoch": 2.887531502285251,
	"grad_norm": 10.249347686767578,
	"learning_rate": 2.0827730228290275e-06,
	"loss": 3.6645,
	"step": 67600
	},
	{
	"epoch": 2.891802998590406,
	"grad_norm": 10.349568367004395,
	"learning_rate": 2.0036703633976173e-06,
	"loss": 3.5886,
	"step": 67700
	},
	{
	"epoch": 2.896074494895562,
	"grad_norm": 9.08791732788086,
	"learning_rate": 1.9245677039662075e-06,
	"loss": 3.6344,
	"step": 67800
	},
	{
	"epoch": 2.9003459912007177,
	"grad_norm": 23.89297866821289,
	"learning_rate": 1.8454650445347973e-06,
	"loss": 3.5352,
	"step": 67900
	},
	{
	"epoch": 2.9046174875058735,
	"grad_norm": 7.383826732635498,
	"learning_rate": 1.7663623851033873e-06,
	"loss": 3.5756,
	"step": 68000
	},
	{
	"epoch": 2.9046174875058735,
	"eval_runtime": 403.9584,
	"eval_samples_per_second": 115.908,
	"eval_steps_per_second": 14.489,
	"step": 68000
	},
	{
	"epoch": 2.9088889838110292,
	"grad_norm": 10.697755813598633,
	"learning_rate": 1.6872597256719771e-06,
	"loss": 3.7499,
	"step": 68100
	},
	{
	"epoch": 2.9131604801161846,
	"grad_norm": 8.796770095825195,
	"learning_rate": 1.608157066240567e-06,
	"loss": 3.6521,
	"step": 68200
	},
	{
	"epoch": 2.9174319764213403,
	"grad_norm": 9.28873348236084,
	"learning_rate": 1.529054406809157e-06,
	"loss": 3.6073,
	"step": 68300
	},
	{
	"epoch": 2.921703472726496,
	"grad_norm": 9.964879035949707,
	"learning_rate": 1.449951747377747e-06,
	"loss": 3.5816,
	"step": 68400
	},
	{
	"epoch": 2.925974969031652,
	"grad_norm": 8.402993202209473,
	"learning_rate": 1.3708490879463367e-06,
	"loss": 3.5752,
	"step": 68500
	},
	{
	"epoch": 2.9302464653368077,
	"grad_norm": 11.395208358764648,
	"learning_rate": 1.2917464285149267e-06,
	"loss": 3.5633,
	"step": 68600
	},
	{
	"epoch": 2.934517961641963,
	"grad_norm": 8.817408561706543,
	"learning_rate": 1.2126437690835167e-06,
	"loss": 3.6463,
	"step": 68700
	},
	{
	"epoch": 2.9387894579471188,
	"grad_norm": 12.337442398071289,
	"learning_rate": 1.1335411096521067e-06,
	"loss": 3.6794,
	"step": 68800
	},
	{
	"epoch": 2.9430609542522745,
	"grad_norm": 8.89869213104248,
	"learning_rate": 1.0544384502206965e-06,
	"loss": 3.4842,
	"step": 68900
	},
	{
	"epoch": 2.9473324505574303,
	"grad_norm": 8.63214111328125,
	"learning_rate": 9.753357907892865e-07,
	"loss": 3.5863,
	"step": 69000
	},
	{
	"epoch": 2.9473324505574303,
	"eval_runtime": 404.2191,
	"eval_samples_per_second": 115.833,
	"eval_steps_per_second": 14.48,
	"step": 69000
	},
	{
	"epoch": 2.951603946862586,
	"grad_norm": 8.96723747253418,
	"learning_rate": 8.962331313578763e-07,
	"loss": 3.6939,
	"step": 69100
	},
	{
	"epoch": 2.9558754431677414,
	"grad_norm": 9.602298736572266,
	"learning_rate": 8.171304719264663e-07,
	"loss": 3.7252,
	"step": 69200
	},
	{
	"epoch": 2.960146939472897,
	"grad_norm": 12.317747116088867,
	"learning_rate": 7.380278124950561e-07,
	"loss": 3.6703,
	"step": 69300
	},
	{
	"epoch": 2.964418435778053,
	"grad_norm": 7.297631740570068,
	"learning_rate": 6.589251530636461e-07,
	"loss": 3.6542,
	"step": 69400
	},
	{
	"epoch": 2.9686899320832087,
	"grad_norm": 8.46646499633789,
	"learning_rate": 5.79822493632236e-07,
	"loss": 3.6304,
	"step": 69500
	},
	{
	"epoch": 2.9729614283883645,
	"grad_norm": 9.025291442871094,
	"learning_rate": 5.007198342008259e-07,
	"loss": 3.5323,
	"step": 69600
	},
	{
	"epoch": 2.9772329246935203,
	"grad_norm": 8.952362060546875,
	"learning_rate": 4.216171747694158e-07,
	"loss": 3.5854,
	"step": 69700
	},
	{
	"epoch": 2.981504420998676,
	"grad_norm": 6.965066432952881,
	"learning_rate": 3.4251451533800567e-07,
	"loss": 3.4377,
	"step": 69800
	},
	{
	"epoch": 2.9857759173038314,
	"grad_norm": 10.185367584228516,
	"learning_rate": 2.6341185590659557e-07,
	"loss": 3.5891,
	"step": 69900
	},
	{
	"epoch": 2.990047413608987,
	"grad_norm": 11.02718734741211,
	"learning_rate": 1.8430919647518552e-07,
	"loss": 3.5265,
	"step": 70000
	},
	{
	"epoch": 2.990047413608987,
	"eval_runtime": 403.8967,
	"eval_samples_per_second": 115.926,
	"eval_steps_per_second": 14.491,
	"step": 70000
	}
	],
	"logging_steps": 100,
	"max_steps": 70233,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3668072761491424e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}