Training in progress, step 2400, checkpoint

f7cd1b6 verified 14 days ago

39.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.96,
	"eval_steps": 500,
	"global_step": 2400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0004,
	"grad_norm": 8.119571685791016,
	"learning_rate": 0.0,
	"loss": 3.4677,
	"step": 1
	},
	{
	"epoch": 0.004,
	"grad_norm": 8.098031997680664,
	"learning_rate": 9e-06,
	"loss": 4.4682,
	"step": 10
	},
	{
	"epoch": 0.008,
	"grad_norm": 8.463135719299316,
	"learning_rate": 1.9e-05,
	"loss": 4.6132,
	"step": 20
	},
	{
	"epoch": 0.012,
	"grad_norm": 7.452148914337158,
	"learning_rate": 2.9e-05,
	"loss": 4.223,
	"step": 30
	},
	{
	"epoch": 0.016,
	"grad_norm": 5.572236061096191,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 4.4111,
	"step": 40
	},
	{
	"epoch": 0.02,
	"grad_norm": 7.39447021484375,
	"learning_rate": 4.9e-05,
	"loss": 4.0543,
	"step": 50
	},
	{
	"epoch": 0.024,
	"grad_norm": 9.954078674316406,
	"learning_rate": 4.999833521640187e-05,
	"loss": 4.5007,
	"step": 60
	},
	{
	"epoch": 0.028,
	"grad_norm": 5.994736194610596,
	"learning_rate": 4.9992580693557054e-05,
	"loss": 4.6204,
	"step": 70
	},
	{
	"epoch": 0.032,
	"grad_norm": 7.18951940536499,
	"learning_rate": 4.998271682453017e-05,
	"loss": 4.2467,
	"step": 80
	},
	{
	"epoch": 0.036,
	"grad_norm": 9.591761589050293,
	"learning_rate": 4.996874523116464e-05,
	"loss": 4.4063,
	"step": 90
	},
	{
	"epoch": 0.04,
	"grad_norm": 7.566534519195557,
	"learning_rate": 4.995066821070679e-05,
	"loss": 4.0773,
	"step": 100
	},
	{
	"epoch": 0.044,
	"grad_norm": 5.793056488037109,
	"learning_rate": 4.9928488735428105e-05,
	"loss": 4.063,
	"step": 110
	},
	{
	"epoch": 0.048,
	"grad_norm": 7.917051792144775,
	"learning_rate": 4.990221045213652e-05,
	"loss": 4.2533,
	"step": 120
	},
	{
	"epoch": 0.052,
	"grad_norm": 7.804363250732422,
	"learning_rate": 4.987183768157686e-05,
	"loss": 4.0497,
	"step": 130
	},
	{
	"epoch": 0.056,
	"grad_norm": 7.605108261108398,
	"learning_rate": 4.983737541772033e-05,
	"loss": 4.4334,
	"step": 140
	},
	{
	"epoch": 0.06,
	"grad_norm": 9.323838233947754,
	"learning_rate": 4.979882932694346e-05,
	"loss": 4.0412,
	"step": 150
	},
	{
	"epoch": 0.064,
	"grad_norm": 9.219818115234375,
	"learning_rate": 4.9756205747096385e-05,
	"loss": 3.9774,
	"step": 160
	},
	{
	"epoch": 0.068,
	"grad_norm": 8.375937461853027,
	"learning_rate": 4.9709511686460775e-05,
	"loss": 4.0021,
	"step": 170
	},
	{
	"epoch": 0.072,
	"grad_norm": 8.215436935424805,
	"learning_rate": 4.96587548225975e-05,
	"loss": 4.4227,
	"step": 180
	},
	{
	"epoch": 0.076,
	"grad_norm": 9.561295509338379,
	"learning_rate": 4.960394350108429e-05,
	"loss": 4.1091,
	"step": 190
	},
	{
	"epoch": 0.08,
	"grad_norm": 9.014528274536133,
	"learning_rate": 4.954508673414351e-05,
	"loss": 3.9428,
	"step": 200
	},
	{
	"epoch": 0.084,
	"grad_norm": 7.69431209564209,
	"learning_rate": 4.948219419916037e-05,
	"loss": 4.368,
	"step": 210
	},
	{
	"epoch": 0.088,
	"grad_norm": 11.925583839416504,
	"learning_rate": 4.941527623709172e-05,
	"loss": 3.6757,
	"step": 220
	},
	{
	"epoch": 0.092,
	"grad_norm": 8.191117286682129,
	"learning_rate": 4.934434385076576e-05,
	"loss": 4.1905,
	"step": 230
	},
	{
	"epoch": 0.096,
	"grad_norm": 7.863613128662109,
	"learning_rate": 4.926940870307296e-05,
	"loss": 4.0099,
	"step": 240
	},
	{
	"epoch": 0.1,
	"grad_norm": 10.665002822875977,
	"learning_rate": 4.9190483115048375e-05,
	"loss": 3.9059,
	"step": 250
	},
	{
	"epoch": 0.104,
	"grad_norm": 10.385906219482422,
	"learning_rate": 4.910758006384583e-05,
	"loss": 3.9221,
	"step": 260
	},
	{
	"epoch": 0.108,
	"grad_norm": 8.544922828674316,
	"learning_rate": 4.9020713180604126e-05,
	"loss": 3.9398,
	"step": 270
	},
	{
	"epoch": 0.112,
	"grad_norm": 7.989080429077148,
	"learning_rate": 4.892989674820585e-05,
	"loss": 3.7757,
	"step": 280
	},
	{
	"epoch": 0.116,
	"grad_norm": 6.576107025146484,
	"learning_rate": 4.8835145698928856e-05,
	"loss": 3.5309,
	"step": 290
	},
	{
	"epoch": 0.12,
	"grad_norm": 9.80089282989502,
	"learning_rate": 4.873647561199115e-05,
	"loss": 4.1776,
	"step": 300
	},
	{
	"epoch": 0.124,
	"grad_norm": 15.050427436828613,
	"learning_rate": 4.863390271098922e-05,
	"loss": 3.5808,
	"step": 310
	},
	{
	"epoch": 0.128,
	"grad_norm": 8.734102249145508,
	"learning_rate": 4.852744386123061e-05,
	"loss": 3.9796,
	"step": 320
	},
	{
	"epoch": 0.132,
	"grad_norm": 8.711186408996582,
	"learning_rate": 4.84171165669608e-05,
	"loss": 4.2317,
	"step": 330
	},
	{
	"epoch": 0.136,
	"grad_norm": 6.751059055328369,
	"learning_rate": 4.8302938968485144e-05,
	"loss": 3.7145,
	"step": 340
	},
	{
	"epoch": 0.14,
	"grad_norm": 10.623860359191895,
	"learning_rate": 4.8184929839186196e-05,
	"loss": 3.9616,
	"step": 350
	},
	{
	"epoch": 0.144,
	"grad_norm": 7.5071330070495605,
	"learning_rate": 4.806310858243694e-05,
	"loss": 4.0164,
	"step": 360
	},
	{
	"epoch": 0.148,
	"grad_norm": 8.607765197753906,
	"learning_rate": 4.793749522841042e-05,
	"loss": 4.4924,
	"step": 370
	},
	{
	"epoch": 0.152,
	"grad_norm": 8.406026840209961,
	"learning_rate": 4.780811043078636e-05,
	"loss": 3.4254,
	"step": 380
	},
	{
	"epoch": 0.156,
	"grad_norm": 9.387131690979004,
	"learning_rate": 4.767497546335519e-05,
	"loss": 3.9158,
	"step": 390
	},
	{
	"epoch": 0.16,
	"grad_norm": 7.5071258544921875,
	"learning_rate": 4.753811221652017e-05,
	"loss": 4.1042,
	"step": 400
	},
	{
	"epoch": 0.164,
	"grad_norm": 6.716228008270264,
	"learning_rate": 4.739754319369814e-05,
	"loss": 3.8632,
	"step": 410
	},
	{
	"epoch": 0.168,
	"grad_norm": 9.47385311126709,
	"learning_rate": 4.7253291507619404e-05,
	"loss": 3.7837,
	"step": 420
	},
	{
	"epoch": 0.172,
	"grad_norm": 7.547070026397705,
	"learning_rate": 4.710538087652748e-05,
	"loss": 4.0398,
	"step": 430
	},
	{
	"epoch": 0.176,
	"grad_norm": 13.61339282989502,
	"learning_rate": 4.695383562027933e-05,
	"loss": 3.7789,
	"step": 440
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.434921741485596,
	"learning_rate": 4.679868065634656e-05,
	"loss": 3.9506,
	"step": 450
	},
	{
	"epoch": 0.184,
	"grad_norm": 7.865591049194336,
	"learning_rate": 4.663994149571849e-05,
	"loss": 3.4036,
	"step": 460
	},
	{
	"epoch": 0.188,
	"grad_norm": 9.311790466308594,
	"learning_rate": 4.647764423870751e-05,
	"loss": 4.1299,
	"step": 470
	},
	{
	"epoch": 0.192,
	"grad_norm": 8.277907371520996,
	"learning_rate": 4.631181557065761e-05,
	"loss": 4.0614,
	"step": 480
	},
	{
	"epoch": 0.196,
	"grad_norm": 12.398967742919922,
	"learning_rate": 4.614248275755676e-05,
	"loss": 3.7492,
	"step": 490
	},
	{
	"epoch": 0.2,
	"grad_norm": 7.308017730712891,
	"learning_rate": 4.5969673641553685e-05,
	"loss": 4.1606,
	"step": 500
	},
	{
	"epoch": 0.204,
	"grad_norm": 6.510436058044434,
	"learning_rate": 4.579341663638004e-05,
	"loss": 3.5708,
	"step": 510
	},
	{
	"epoch": 0.208,
	"grad_norm": 10.914970397949219,
	"learning_rate": 4.5613740722678525e-05,
	"loss": 3.4741,
	"step": 520
	},
	{
	"epoch": 0.212,
	"grad_norm": 8.786978721618652,
	"learning_rate": 4.5430675443237817e-05,
	"loss": 3.6204,
	"step": 530
	},
	{
	"epoch": 0.216,
	"grad_norm": 10.566540718078613,
	"learning_rate": 4.524425089813507e-05,
	"loss": 3.9298,
	"step": 540
	},
	{
	"epoch": 0.22,
	"grad_norm": 8.051084518432617,
	"learning_rate": 4.505449773978677e-05,
	"loss": 3.7783,
	"step": 550
	},
	{
	"epoch": 0.224,
	"grad_norm": 11.182727813720703,
	"learning_rate": 4.4861447167908824e-05,
	"loss": 3.8174,
	"step": 560
	},
	{
	"epoch": 0.228,
	"grad_norm": 11.375614166259766,
	"learning_rate": 4.466513092438653e-05,
	"loss": 4.0511,
	"step": 570
	},
	{
	"epoch": 0.232,
	"grad_norm": 8.66441535949707,
	"learning_rate": 4.446558128805561e-05,
	"loss": 3.7058,
	"step": 580
	},
	{
	"epoch": 0.236,
	"grad_norm": 5.743879795074463,
	"learning_rate": 4.426283106939474e-05,
	"loss": 3.817,
	"step": 590
	},
	{
	"epoch": 0.24,
	"grad_norm": 10.231585502624512,
	"learning_rate": 4.4056913605130804e-05,
	"loss": 3.9779,
	"step": 600
	},
	{
	"epoch": 0.244,
	"grad_norm": 5.9834465980529785,
	"learning_rate": 4.3847862752757604e-05,
	"loss": 3.4466,
	"step": 610
	},
	{
	"epoch": 0.248,
	"grad_norm": 9.162353515625,
	"learning_rate": 4.363571288496888e-05,
	"loss": 3.576,
	"step": 620
	},
	{
	"epoch": 0.252,
	"grad_norm": 10.162070274353027,
	"learning_rate": 4.342049888400669e-05,
	"loss": 4.084,
	"step": 630
	},
	{
	"epoch": 0.256,
	"grad_norm": 12.520784378051758,
	"learning_rate": 4.3202256135925956e-05,
	"loss": 3.6774,
	"step": 640
	},
	{
	"epoch": 0.26,
	"grad_norm": 10.249221801757812,
	"learning_rate": 4.298102052477621e-05,
	"loss": 3.9724,
	"step": 650
	},
	{
	"epoch": 0.264,
	"grad_norm": 10.406034469604492,
	"learning_rate": 4.2756828426701426e-05,
	"loss": 3.9906,
	"step": 660
	},
	{
	"epoch": 0.268,
	"grad_norm": 15.699187278747559,
	"learning_rate": 4.2529716703959024e-05,
	"loss": 3.2696,
	"step": 670
	},
	{
	"epoch": 0.272,
	"grad_norm": 10.240876197814941,
	"learning_rate": 4.229972269885877e-05,
	"loss": 3.2456,
	"step": 680
	},
	{
	"epoch": 0.276,
	"grad_norm": 11.525603294372559,
	"learning_rate": 4.206688422762295e-05,
	"loss": 3.6349,
	"step": 690
	},
	{
	"epoch": 0.28,
	"grad_norm": 6.479814052581787,
	"learning_rate": 4.1831239574168493e-05,
	"loss": 3.5024,
	"step": 700
	},
	{
	"epoch": 0.284,
	"grad_norm": 10.296248435974121,
	"learning_rate": 4.159282748381218e-05,
	"loss": 4.0567,
	"step": 710
	},
	{
	"epoch": 0.288,
	"grad_norm": 13.293269157409668,
	"learning_rate": 4.135168715690015e-05,
	"loss": 3.9591,
	"step": 720
	},
	{
	"epoch": 0.292,
	"grad_norm": 7.214468479156494,
	"learning_rate": 4.110785824236236e-05,
	"loss": 3.8723,
	"step": 730
	},
	{
	"epoch": 0.296,
	"grad_norm": 8.655447006225586,
	"learning_rate": 4.086138083119347e-05,
	"loss": 3.7503,
	"step": 740
	},
	{
	"epoch": 0.3,
	"grad_norm": 12.488017082214355,
	"learning_rate": 4.061229544986095e-05,
	"loss": 3.6059,
	"step": 750
	},
	{
	"epoch": 0.304,
	"grad_norm": 10.392841339111328,
	"learning_rate": 4.036064305364162e-05,
	"loss": 3.7607,
	"step": 760
	},
	{
	"epoch": 0.308,
	"grad_norm": 13.796865463256836,
	"learning_rate": 4.010646501988769e-05,
	"loss": 3.3188,
	"step": 770
	},
	{
	"epoch": 0.312,
	"grad_norm": 6.374794006347656,
	"learning_rate": 3.9849803141223324e-05,
	"loss": 3.3962,
	"step": 780
	},
	{
	"epoch": 0.316,
	"grad_norm": 9.044532775878906,
	"learning_rate": 3.9590699618673086e-05,
	"loss": 3.9154,
	"step": 790
	},
	{
	"epoch": 0.32,
	"grad_norm": 8.740546226501465,
	"learning_rate": 3.932919705472306e-05,
	"loss": 3.4457,
	"step": 800
	},
	{
	"epoch": 0.324,
	"grad_norm": 10.944662094116211,
	"learning_rate": 3.906533844631604e-05,
	"loss": 3.6514,
	"step": 810
	},
	{
	"epoch": 0.328,
	"grad_norm": 8.953042984008789,
	"learning_rate": 3.879916717778191e-05,
	"loss": 3.705,
	"step": 820
	},
	{
	"epoch": 0.332,
	"grad_norm": 10.540362358093262,
	"learning_rate": 3.8530727013704215e-05,
	"loss": 3.4666,
	"step": 830
	},
	{
	"epoch": 0.336,
	"grad_norm": 8.946858406066895,
	"learning_rate": 3.826006209172433e-05,
	"loss": 3.8688,
	"step": 840
	},
	{
	"epoch": 0.34,
	"grad_norm": 8.028446197509766,
	"learning_rate": 3.7987216915284184e-05,
	"loss": 3.6068,
	"step": 850
	},
	{
	"epoch": 0.344,
	"grad_norm": 13.014655113220215,
	"learning_rate": 3.771223634630892e-05,
	"loss": 3.883,
	"step": 860
	},
	{
	"epoch": 0.348,
	"grad_norm": 7.317591667175293,
	"learning_rate": 3.743516559783055e-05,
	"loss": 3.8452,
	"step": 870
	},
	{
	"epoch": 0.352,
	"grad_norm": 9.003655433654785,
	"learning_rate": 3.7156050226553956e-05,
	"loss": 3.5083,
	"step": 880
	},
	{
	"epoch": 0.356,
	"grad_norm": 8.790939331054688,
	"learning_rate": 3.687493612536628e-05,
	"loss": 3.6303,
	"step": 890
	},
	{
	"epoch": 0.36,
	"grad_norm": 9.35024642944336,
	"learning_rate": 3.659186951579111e-05,
	"loss": 3.3183,
	"step": 900
	},
	{
	"epoch": 0.364,
	"grad_norm": 12.418292045593262,
	"learning_rate": 3.630689694038866e-05,
	"loss": 3.6162,
	"step": 910
	},
	{
	"epoch": 0.368,
	"grad_norm": 9.97085952758789,
	"learning_rate": 3.6020065255103056e-05,
	"loss": 3.6587,
	"step": 920
	},
	{
	"epoch": 0.372,
	"grad_norm": 11.682862281799316,
	"learning_rate": 3.573142162155819e-05,
	"loss": 3.679,
	"step": 930
	},
	{
	"epoch": 0.376,
	"grad_norm": 10.91349983215332,
	"learning_rate": 3.544101349930328e-05,
	"loss": 3.5703,
	"step": 940
	},
	{
	"epoch": 0.38,
	"grad_norm": 7.593992710113525,
	"learning_rate": 3.514888863800944e-05,
	"loss": 3.0866,
	"step": 950
	},
	{
	"epoch": 0.384,
	"grad_norm": 7.078611850738525,
	"learning_rate": 3.485509506961856e-05,
	"loss": 3.5236,
	"step": 960
	},
	{
	"epoch": 0.388,
	"grad_norm": 4.66752290725708,
	"learning_rate": 3.4559681100445756e-05,
	"loss": 3.0979,
	"step": 970
	},
	{
	"epoch": 0.392,
	"grad_norm": 11.089188575744629,
	"learning_rate": 3.4262695303236724e-05,
	"loss": 3.5252,
	"step": 980
	},
	{
	"epoch": 0.396,
	"grad_norm": 9.009184837341309,
	"learning_rate": 3.396418650918127e-05,
	"loss": 3.7062,
	"step": 990
	},
	{
	"epoch": 0.4,
	"grad_norm": 7.165460109710693,
	"learning_rate": 3.366420379988441e-05,
	"loss": 3.4182,
	"step": 1000
	},
	{
	"epoch": 0.404,
	"grad_norm": 13.719085693359375,
	"learning_rate": 3.336279649929614e-05,
	"loss": 3.6603,
	"step": 1010
	},
	{
	"epoch": 0.408,
	"grad_norm": 10.594961166381836,
	"learning_rate": 3.306001416560156e-05,
	"loss": 3.824,
	"step": 1020
	},
	{
	"epoch": 0.412,
	"grad_norm": 9.565075874328613,
	"learning_rate": 3.275590658307234e-05,
	"loss": 3.074,
	"step": 1030
	},
	{
	"epoch": 0.416,
	"grad_norm": 11.031000137329102,
	"learning_rate": 3.245052375388107e-05,
	"loss": 3.3561,
	"step": 1040
	},
	{
	"epoch": 0.42,
	"grad_norm": 8.683501243591309,
	"learning_rate": 3.214391588987976e-05,
	"loss": 3.4976,
	"step": 1050
	},
	{
	"epoch": 0.424,
	"grad_norm": 7.569673538208008,
	"learning_rate": 3.1836133404343885e-05,
	"loss": 3.3982,
	"step": 1060
	},
	{
	"epoch": 0.428,
	"grad_norm": 9.724939346313477,
	"learning_rate": 3.1527226903683286e-05,
	"loss": 3.1605,
	"step": 1070
	},
	{
	"epoch": 0.432,
	"grad_norm": 11.795547485351562,
	"learning_rate": 3.121724717912138e-05,
	"loss": 3.4858,
	"step": 1080
	},
	{
	"epoch": 0.436,
	"grad_norm": 10.01028823852539,
	"learning_rate": 3.090624519834383e-05,
	"loss": 3.5917,
	"step": 1090
	},
	{
	"epoch": 0.44,
	"grad_norm": 10.159195899963379,
	"learning_rate": 3.0594272097118436e-05,
	"loss": 3.5127,
	"step": 1100
	},
	{
	"epoch": 0.444,
	"grad_norm": 12.02109432220459,
	"learning_rate": 3.028137917088716e-05,
	"loss": 3.7095,
	"step": 1110
	},
	{
	"epoch": 0.448,
	"grad_norm": 11.922860145568848,
	"learning_rate": 2.9967617866331997e-05,
	"loss": 3.0155,
	"step": 1120
	},
	{
	"epoch": 0.452,
	"grad_norm": 7.406614780426025,
	"learning_rate": 2.9653039772916052e-05,
	"loss": 3.5601,
	"step": 1130
	},
	{
	"epoch": 0.456,
	"grad_norm": 9.041807174682617,
	"learning_rate": 2.9337696614400977e-05,
	"loss": 3.4362,
	"step": 1140
	},
	{
	"epoch": 0.46,
	"grad_norm": 7.662649631500244,
	"learning_rate": 2.902164024034246e-05,
	"loss": 3.2583,
	"step": 1150
	},
	{
	"epoch": 0.464,
	"grad_norm": 10.045381546020508,
	"learning_rate": 2.8704922617564983e-05,
	"loss": 3.5937,
	"step": 1160
	},
	{
	"epoch": 0.468,
	"grad_norm": 10.429932594299316,
	"learning_rate": 2.8387595821617275e-05,
	"loss": 3.5703,
	"step": 1170
	},
	{
	"epoch": 0.472,
	"grad_norm": 13.951080322265625,
	"learning_rate": 2.8069712028209927e-05,
	"loss": 3.2037,
	"step": 1180
	},
	{
	"epoch": 0.476,
	"grad_norm": 9.768102645874023,
	"learning_rate": 2.7751323504636544e-05,
	"loss": 3.2948,
	"step": 1190
	},
	{
	"epoch": 0.48,
	"grad_norm": 16.445524215698242,
	"learning_rate": 2.7432482601179794e-05,
	"loss": 3.7049,
	"step": 1200
	},
	{
	"epoch": 0.484,
	"grad_norm": 10.077542304992676,
	"learning_rate": 2.711324174250382e-05,
	"loss": 3.7272,
	"step": 1210
	},
	{
	"epoch": 0.488,
	"grad_norm": 10.981230735778809,
	"learning_rate": 2.6793653419034482e-05,
	"loss": 3.3686,
	"step": 1220
	},
	{
	"epoch": 0.492,
	"grad_norm": 8.846978187561035,
	"learning_rate": 2.6473770178328715e-05,
	"loss": 3.7523,
	"step": 1230
	},
	{
	"epoch": 0.496,
	"grad_norm": 13.945764541625977,
	"learning_rate": 2.6153644616434526e-05,
	"loss": 3.5152,
	"step": 1240
	},
	{
	"epoch": 0.5,
	"grad_norm": 10.375041961669922,
	"learning_rate": 2.583332936924299e-05,
	"loss": 3.4198,
	"step": 1250
	},
	{
	"epoch": 0.504,
	"grad_norm": 7.862137794494629,
	"learning_rate": 2.5512877103833783e-05,
	"loss": 3.4253,
	"step": 1260
	},
	{
	"epoch": 0.508,
	"grad_norm": 9.651905059814453,
	"learning_rate": 2.519234050981543e-05,
	"loss": 2.9916,
	"step": 1270
	},
	{
	"epoch": 0.512,
	"grad_norm": 8.323561668395996,
	"learning_rate": 2.4871772290662044e-05,
	"loss": 3.0336,
	"step": 1280
	},
	{
	"epoch": 0.516,
	"grad_norm": 7.276916980743408,
	"learning_rate": 2.4551225155047573e-05,
	"loss": 3.3251,
	"step": 1290
	},
	{
	"epoch": 0.52,
	"grad_norm": 9.36464786529541,
	"learning_rate": 2.423075180817938e-05,
	"loss": 3.0858,
	"step": 1300
	},
	{
	"epoch": 0.524,
	"grad_norm": 9.869660377502441,
	"learning_rate": 2.391040494313229e-05,
	"loss": 3.2847,
	"step": 1310
	},
	{
	"epoch": 0.528,
	"grad_norm": 8.658061981201172,
	"learning_rate": 2.3590237232184644e-05,
	"loss": 3.1331,
	"step": 1320
	},
	{
	"epoch": 0.532,
	"grad_norm": 8.946754455566406,
	"learning_rate": 2.3270301318157792e-05,
	"loss": 3.4923,
	"step": 1330
	},
	{
	"epoch": 0.536,
	"grad_norm": 10.488960266113281,
	"learning_rate": 2.2950649805760438e-05,
	"loss": 3.2958,
	"step": 1340
	},
	{
	"epoch": 0.54,
	"grad_norm": 12.32264518737793,
	"learning_rate": 2.263133525293918e-05,
	"loss": 2.9298,
	"step": 1350
	},
	{
	"epoch": 0.544,
	"grad_norm": 14.110706329345703,
	"learning_rate": 2.2312410162236883e-05,
	"loss": 3.2753,
	"step": 1360
	},
	{
	"epoch": 0.548,
	"grad_norm": 11.187686920166016,
	"learning_rate": 2.1993926972159972e-05,
	"loss": 3.4152,
	"step": 1370
	},
	{
	"epoch": 0.552,
	"grad_norm": 10.895075798034668,
	"learning_rate": 2.1675938048556446e-05,
	"loss": 3.4019,
	"step": 1380
	},
	{
	"epoch": 0.556,
	"grad_norm": 5.504537105560303,
	"learning_rate": 2.1358495676005664e-05,
	"loss": 3.167,
	"step": 1390
	},
	{
	"epoch": 0.56,
	"grad_norm": 8.452468872070312,
	"learning_rate": 2.1041652049221648e-05,
	"loss": 3.0729,
	"step": 1400
	},
	{
	"epoch": 0.564,
	"grad_norm": 11.04509449005127,
	"learning_rate": 2.0725459264471047e-05,
	"loss": 3.642,
	"step": 1410
	},
	{
	"epoch": 0.568,
	"grad_norm": 8.009263038635254,
	"learning_rate": 2.0409969311007335e-05,
	"loss": 3.1349,
	"step": 1420
	},
	{
	"epoch": 0.572,
	"grad_norm": 8.250015258789062,
	"learning_rate": 2.009523406252263e-05,
	"loss": 3.4037,
	"step": 1430
	},
	{
	"epoch": 0.576,
	"grad_norm": 6.933814525604248,
	"learning_rate": 1.9781305268618417e-05,
	"loss": 3.2761,
	"step": 1440
	},
	{
	"epoch": 0.58,
	"grad_norm": 8.798672676086426,
	"learning_rate": 1.9468234546296844e-05,
	"loss": 3.2963,
	"step": 1450
	},
	{
	"epoch": 0.584,
	"grad_norm": 8.615999221801758,
	"learning_rate": 1.9156073371473618e-05,
	"loss": 3.3487,
	"step": 1460
	},
	{
	"epoch": 0.588,
	"grad_norm": 6.798926830291748,
	"learning_rate": 1.8844873070514272e-05,
	"loss": 3.2746,
	"step": 1470
	},
	{
	"epoch": 0.592,
	"grad_norm": 8.364091873168945,
	"learning_rate": 1.8534684811794893e-05,
	"loss": 3.071,
	"step": 1480
	},
	{
	"epoch": 0.596,
	"grad_norm": 6.177745342254639,
	"learning_rate": 1.822555959728892e-05,
	"loss": 2.8733,
	"step": 1490
	},
	{
	"epoch": 0.6,
	"grad_norm": 7.9252238273620605,
	"learning_rate": 1.7917548254181273e-05,
	"loss": 3.0836,
	"step": 1500
	},
	{
	"epoch": 0.604,
	"grad_norm": 10.669748306274414,
	"learning_rate": 1.7610701426511128e-05,
	"loss": 3.587,
	"step": 1510
	},
	{
	"epoch": 0.608,
	"grad_norm": 6.509505271911621,
	"learning_rate": 1.7305069566845046e-05,
	"loss": 2.8579,
	"step": 1520
	},
	{
	"epoch": 0.612,
	"grad_norm": 8.801206588745117,
	"learning_rate": 1.7000702927981254e-05,
	"loss": 3.5055,
	"step": 1530
	},
	{
	"epoch": 0.616,
	"grad_norm": 13.360625267028809,
	"learning_rate": 1.669765155468708e-05,
	"loss": 3.007,
	"step": 1540
	},
	{
	"epoch": 0.62,
	"grad_norm": 9.038350105285645,
	"learning_rate": 1.6395965275470393e-05,
	"loss": 3.546,
	"step": 1550
	},
	{
	"epoch": 0.624,
	"grad_norm": 12.468111038208008,
	"learning_rate": 1.6095693694386697e-05,
	"loss": 3.046,
	"step": 1560
	},
	{
	"epoch": 0.628,
	"grad_norm": 9.378480911254883,
	"learning_rate": 1.5796886182883053e-05,
	"loss": 2.9804,
	"step": 1570
	},
	{
	"epoch": 0.632,
	"grad_norm": 8.186980247497559,
	"learning_rate": 1.549959187168038e-05,
	"loss": 3.1672,
	"step": 1580
	},
	{
	"epoch": 0.636,
	"grad_norm": 13.096222877502441,
	"learning_rate": 1.520385964269519e-05,
	"loss": 3.0177,
	"step": 1590
	},
	{
	"epoch": 0.64,
	"grad_norm": 9.109463691711426,
	"learning_rate": 1.4909738121002276e-05,
	"loss": 3.101,
	"step": 1600
	},
	{
	"epoch": 0.644,
	"grad_norm": 8.423794746398926,
	"learning_rate": 1.4617275666839725e-05,
	"loss": 2.8508,
	"step": 1610
	},
	{
	"epoch": 0.648,
	"grad_norm": 6.3356122970581055,
	"learning_rate": 1.4326520367657314e-05,
	"loss": 3.3239,
	"step": 1620
	},
	{
	"epoch": 0.652,
	"grad_norm": 8.81240177154541,
	"learning_rate": 1.4037520030209934e-05,
	"loss": 3.2261,
	"step": 1630
	},
	{
	"epoch": 0.656,
	"grad_norm": 7.250948905944824,
	"learning_rate": 1.3750322172696972e-05,
	"loss": 3.1138,
	"step": 1640
	},
	{
	"epoch": 0.66,
	"grad_norm": 9.962249755859375,
	"learning_rate": 1.3464974016949342e-05,
	"loss": 3.2969,
	"step": 1650
	},
	{
	"epoch": 0.664,
	"grad_norm": 7.954286575317383,
	"learning_rate": 1.3181522480665098e-05,
	"loss": 2.7313,
	"step": 1660
	},
	{
	"epoch": 0.668,
	"grad_norm": 11.184345245361328,
	"learning_rate": 1.2900014169695082e-05,
	"loss": 3.2666,
	"step": 1670
	},
	{
	"epoch": 0.672,
	"grad_norm": 8.145426750183105,
	"learning_rate": 1.262049537037992e-05,
	"loss": 2.7759,
	"step": 1680
	},
	{
	"epoch": 0.676,
	"grad_norm": 12.047683715820312,
	"learning_rate": 1.2343012041939469e-05,
	"loss": 2.9462,
	"step": 1690
	},
	{
	"epoch": 0.68,
	"grad_norm": 11.436731338500977,
	"learning_rate": 1.2067609808916086e-05,
	"loss": 3.362,
	"step": 1700
	},
	{
	"epoch": 0.684,
	"grad_norm": 7.729074954986572,
	"learning_rate": 1.1794333953672893e-05,
	"loss": 3.4444,
	"step": 1710
	},
	{
	"epoch": 0.688,
	"grad_norm": 11.743609428405762,
	"learning_rate": 1.1523229408948394e-05,
	"loss": 2.9723,
	"step": 1720
	},
	{
	"epoch": 0.692,
	"grad_norm": 7.753131866455078,
	"learning_rate": 1.1254340750468445e-05,
	"loss": 3.0701,
	"step": 1730
	},
	{
	"epoch": 0.696,
	"grad_norm": 10.646190643310547,
	"learning_rate": 1.0987712189617049e-05,
	"loss": 3.3374,
	"step": 1740
	},
	{
	"epoch": 0.7,
	"grad_norm": 8.74120044708252,
	"learning_rate": 1.0723387566166979e-05,
	"loss": 3.0917,
	"step": 1750
	},
	{
	"epoch": 0.704,
	"grad_norm": 9.45445728302002,
	"learning_rate": 1.0461410341071528e-05,
	"loss": 3.2809,
	"step": 1760
	},
	{
	"epoch": 0.708,
	"grad_norm": 11.984269142150879,
	"learning_rate": 1.0201823589318554e-05,
	"loss": 3.256,
	"step": 1770
	},
	{
	"epoch": 0.712,
	"grad_norm": 6.780118465423584,
	"learning_rate": 9.944669992847946e-06,
	"loss": 3.0955,
	"step": 1780
	},
	{
	"epoch": 0.716,
	"grad_norm": 10.487933158874512,
	"learning_rate": 9.689991833533804e-06,
	"loss": 3.1214,
	"step": 1790
	},
	{
	"epoch": 0.72,
	"grad_norm": 7.70168399810791,
	"learning_rate": 9.437830986232265e-06,
	"loss": 3.052,
	"step": 1800
	},
	{
	"epoch": 0.724,
	"grad_norm": 13.816009521484375,
	"learning_rate": 9.188228911896412e-06,
	"loss": 3.4094,
	"step": 1810
	},
	{
	"epoch": 0.728,
	"grad_norm": 8.344259262084961,
	"learning_rate": 8.94122665075909e-06,
	"loss": 3.0472,
	"step": 1820
	},
	{
	"epoch": 0.732,
	"grad_norm": 19.413257598876953,
	"learning_rate": 8.696864815584995e-06,
	"loss": 2.6052,
	"step": 1830
	},
	{
	"epoch": 0.736,
	"grad_norm": 10.31498908996582,
	"learning_rate": 8.455183584993009e-06,
	"loss": 3.0981,
	"step": 1840
	},
	{
	"epoch": 0.74,
	"grad_norm": 11.46462345123291,
	"learning_rate": 8.2162226968499e-06,
	"loss": 3.1952,
	"step": 1850
	},
	{
	"epoch": 0.744,
	"grad_norm": 9.817370414733887,
	"learning_rate": 7.980021441736576e-06,
	"loss": 2.9148,
	"step": 1860
	},
	{
	"epoch": 0.748,
	"grad_norm": 12.085224151611328,
	"learning_rate": 7.746618656487748e-06,
	"loss": 3.1418,
	"step": 1870
	},
	{
	"epoch": 0.752,
	"grad_norm": 13.42601490020752,
	"learning_rate": 7.516052717806346e-06,
	"loss": 3.0495,
	"step": 1880
	},
	{
	"epoch": 0.756,
	"grad_norm": 10.328361511230469,
	"learning_rate": 7.288361535953472e-06,
	"loss": 3.2537,
	"step": 1890
	},
	{
	"epoch": 0.76,
	"grad_norm": 8.320837020874023,
	"learning_rate": 7.06358254851513e-06,
	"loss": 3.2002,
	"step": 1900
	},
	{
	"epoch": 0.764,
	"grad_norm": 12.367525100708008,
	"learning_rate": 6.841752714246588e-06,
	"loss": 3.415,
	"step": 1910
	},
	{
	"epoch": 0.768,
	"grad_norm": 8.72415828704834,
	"learning_rate": 6.622908506995581e-06,
	"loss": 2.7481,
	"step": 1920
	},
	{
	"epoch": 0.772,
	"grad_norm": 9.888436317443848,
	"learning_rate": 6.407085909705157e-06,
	"loss": 3.4815,
	"step": 1930
	},
	{
	"epoch": 0.776,
	"grad_norm": 7.541075706481934,
	"learning_rate": 6.194320408497245e-06,
	"loss": 3.4048,
	"step": 1940
	},
	{
	"epoch": 0.78,
	"grad_norm": 11.171248435974121,
	"learning_rate": 5.98464698683798e-06,
	"loss": 3.5409,
	"step": 1950
	},
	{
	"epoch": 0.784,
	"grad_norm": 9.28205394744873,
	"learning_rate": 5.778100119785587e-06,
	"loss": 3.1082,
	"step": 1960
	},
	{
	"epoch": 0.788,
	"grad_norm": 8.433388710021973,
	"learning_rate": 5.5747137683219404e-06,
	"loss": 2.9565,
	"step": 1970
	},
	{
	"epoch": 0.792,
	"grad_norm": 14.938470840454102,
	"learning_rate": 5.374521373768549e-06,
	"loss": 3.2282,
	"step": 1980
	},
	{
	"epoch": 0.796,
	"grad_norm": 9.903738975524902,
	"learning_rate": 5.177555852288119e-06,
	"loss": 2.9652,
	"step": 1990
	},
	{
	"epoch": 0.8,
	"grad_norm": 13.002461433410645,
	"learning_rate": 4.983849589472348e-06,
	"loss": 3.221,
	"step": 2000
	},
	{
	"epoch": 0.804,
	"grad_norm": 12.107378005981445,
	"learning_rate": 4.793434435016986e-06,
	"loss": 3.1341,
	"step": 2010
	},
	{
	"epoch": 0.808,
	"grad_norm": 11.94257640838623,
	"learning_rate": 4.606341697485087e-06,
	"loss": 3.318,
	"step": 2020
	},
	{
	"epoch": 0.812,
	"grad_norm": 10.116772651672363,
	"learning_rate": 4.422602139159091e-06,
	"loss": 3.2286,
	"step": 2030
	},
	{
	"epoch": 0.816,
	"grad_norm": 10.068933486938477,
	"learning_rate": 4.242245970982883e-06,
	"loss": 3.306,
	"step": 2040
	},
	{
	"epoch": 0.82,
	"grad_norm": 10.280326843261719,
	"learning_rate": 4.065302847594369e-06,
	"loss": 3.005,
	"step": 2050
	},
	{
	"epoch": 0.824,
	"grad_norm": 10.214073181152344,
	"learning_rate": 3.891801862449629e-06,
	"loss": 2.9953,
	"step": 2060
	},
	{
	"epoch": 0.828,
	"grad_norm": 12.787151336669922,
	"learning_rate": 3.721771543039254e-06,
	"loss": 2.9877,
	"step": 2070
	},
	{
	"epoch": 0.832,
	"grad_norm": 7.119079113006592,
	"learning_rate": 3.5552398461978277e-06,
	"loss": 3.0851,
	"step": 2080
	},
	{
	"epoch": 0.836,
	"grad_norm": 6.1061177253723145,
	"learning_rate": 3.3922341535071483e-06,
	"loss": 2.9198,
	"step": 2090
	},
	{
	"epoch": 0.84,
	"grad_norm": 9.866963386535645,
	"learning_rate": 3.23278126679408e-06,
	"loss": 2.9846,
	"step": 2100
	},
	{
	"epoch": 0.844,
	"grad_norm": 9.084943771362305,
	"learning_rate": 3.0769074037237583e-06,
	"loss": 2.9903,
	"step": 2110
	},
	{
	"epoch": 0.848,
	"grad_norm": 6.5540595054626465,
	"learning_rate": 2.9246381934887684e-06,
	"loss": 3.2851,
	"step": 2120
	},
	{
	"epoch": 0.852,
	"grad_norm": 7.740701675415039,
	"learning_rate": 2.7759986725951703e-06,
	"loss": 2.9797,
	"step": 2130
	},
	{
	"epoch": 0.856,
	"grad_norm": 10.074856758117676,
	"learning_rate": 2.6310132807458894e-06,
	"loss": 3.1325,
	"step": 2140
	},
	{
	"epoch": 0.86,
	"grad_norm": 10.44127368927002,
	"learning_rate": 2.4897058568223137e-06,
	"loss": 3.0159,
	"step": 2150
	},
	{
	"epoch": 0.864,
	"grad_norm": 9.894632339477539,
	"learning_rate": 2.3520996349645995e-06,
	"loss": 2.8015,
	"step": 2160
	},
	{
	"epoch": 0.868,
	"grad_norm": 9.043245315551758,
	"learning_rate": 2.218217240751491e-06,
	"loss": 3.4477,
	"step": 2170
	},
	{
	"epoch": 0.872,
	"grad_norm": 9.901315689086914,
	"learning_rate": 2.088080687480151e-06,
	"loss": 3.3157,
	"step": 2180
	},
	{
	"epoch": 0.876,
	"grad_norm": 8.202696800231934,
	"learning_rate": 1.961711372546657e-06,
	"loss": 2.9467,
	"step": 2190
	},
	{
	"epoch": 0.88,
	"grad_norm": 8.691917419433594,
	"learning_rate": 1.8391300739278139e-06,
	"loss": 2.9079,
	"step": 2200
	},
	{
	"epoch": 0.884,
	"grad_norm": 13.363630294799805,
	"learning_rate": 1.7203569467647674e-06,
	"loss": 3.2583,
	"step": 2210
	},
	{
	"epoch": 0.888,
	"grad_norm": 11.732659339904785,
	"learning_rate": 1.6054115200490493e-06,
	"loss": 3.0431,
	"step": 2220
	},
	{
	"epoch": 0.892,
	"grad_norm": 7.8193230628967285,
	"learning_rate": 1.4943126934115536e-06,
	"loss": 3.1155,
	"step": 2230
	},
	{
	"epoch": 0.896,
	"grad_norm": 6.232199192047119,
	"learning_rate": 1.3870787340150376e-06,
	"loss": 3.2006,
	"step": 2240
	},
	{
	"epoch": 0.9,
	"grad_norm": 5.650846004486084,
	"learning_rate": 1.2837272735505668e-06,
	"loss": 2.8882,
	"step": 2250
	},
	{
	"epoch": 0.904,
	"grad_norm": 7.191598892211914,
	"learning_rate": 1.1842753053384559e-06,
	"loss": 3.0833,
	"step": 2260
	},
	{
	"epoch": 0.908,
	"grad_norm": 8.854833602905273,
	"learning_rate": 1.0887391815342124e-06,
	"loss": 3.3196,
	"step": 2270
	},
	{
	"epoch": 0.912,
	"grad_norm": 13.160386085510254,
	"learning_rate": 9.971346104398455e-07,
	"loss": 3.564,
	"step": 2280
	},
	{
	"epoch": 0.916,
	"grad_norm": 8.540671348571777,
	"learning_rate": 9.09476653921082e-07,
	"loss": 3.1383,
	"step": 2290
	},
	{
	"epoch": 0.92,
	"grad_norm": 12.331473350524902,
	"learning_rate": 8.257797249308419e-07,
	"loss": 3.259,
	"step": 2300
	},
	{
	"epoch": 0.924,
	"grad_norm": 7.576813697814941,
	"learning_rate": 7.460575851394341e-07,
	"loss": 2.8659,
	"step": 2310
	},
	{
	"epoch": 0.928,
	"grad_norm": 6.937955379486084,
	"learning_rate": 6.703233426718136e-07,
	"loss": 2.9416,
	"step": 2320
	},
	{
	"epoch": 0.932,
	"grad_norm": 7.9867777824401855,
	"learning_rate": 5.985894499523193e-07,
	"loss": 3.0008,
	"step": 2330
	},
	{
	"epoch": 0.936,
	"grad_norm": 10.474209785461426,
	"learning_rate": 5.308677016572145e-07,
	"loss": 3.6042,
	"step": 2340
	},
	{
	"epoch": 0.94,
	"grad_norm": 6.954331398010254,
	"learning_rate": 4.6716923277536627e-07,
	"loss": 2.696,
	"step": 2350
	},
	{
	"epoch": 0.944,
	"grad_norm": 6.555063247680664,
	"learning_rate": 4.075045167774072e-07,
	"loss": 3.2311,
	"step": 2360
	},
	{
	"epoch": 0.948,
	"grad_norm": 7.122920513153076,
	"learning_rate": 3.518833638936514e-07,
	"loss": 3.1349,
	"step": 2370
	},
	{
	"epoch": 0.952,
	"grad_norm": 10.269899368286133,
	"learning_rate": 3.003149195010907e-07,
	"loss": 2.9381,
	"step": 2380
	},
	{
	"epoch": 0.956,
	"grad_norm": 8.958882331848145,
	"learning_rate": 2.528076626196585e-07,
	"loss": 3.0804,
	"step": 2390
	},
	{
	"epoch": 0.96,
	"grad_norm": 11.036646842956543,
	"learning_rate": 2.0936940451811437e-07,
	"loss": 3.0191,
	"step": 2400
	}
	],
	"logging_steps": 10,
	"max_steps": 2500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.128334475132928e+20,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}