Model save

426c2c4 verified over 1 year ago

67.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1911,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005232862375719519,
	"grad_norm": 0.7093115077895382,
	"learning_rate": 5.208333333333333e-08,
	"loss": 1.3326,
	"step": 1
	},
	{
	"epoch": 0.0026164311878597592,
	"grad_norm": 0.7177076522063459,
	"learning_rate": 2.604166666666667e-07,
	"loss": 1.3899,
	"step": 5
	},
	{
	"epoch": 0.0052328623757195184,
	"grad_norm": 0.7583191114646187,
	"learning_rate": 5.208333333333334e-07,
	"loss": 1.4091,
	"step": 10
	},
	{
	"epoch": 0.007849293563579277,
	"grad_norm": 0.8096572396517622,
	"learning_rate": 7.8125e-07,
	"loss": 1.3974,
	"step": 15
	},
	{
	"epoch": 0.010465724751439037,
	"grad_norm": 0.7135393613888278,
	"learning_rate": 1.0416666666666667e-06,
	"loss": 1.4201,
	"step": 20
	},
	{
	"epoch": 0.013082155939298797,
	"grad_norm": 0.8237790378312874,
	"learning_rate": 1.3020833333333335e-06,
	"loss": 1.38,
	"step": 25
	},
	{
	"epoch": 0.015698587127158554,
	"grad_norm": 0.6714119856024239,
	"learning_rate": 1.5625e-06,
	"loss": 1.351,
	"step": 30
	},
	{
	"epoch": 0.018315018315018316,
	"grad_norm": 0.8239045782794375,
	"learning_rate": 1.8229166666666666e-06,
	"loss": 1.3952,
	"step": 35
	},
	{
	"epoch": 0.020931449502878074,
	"grad_norm": 1.0046248611988764,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 1.3865,
	"step": 40
	},
	{
	"epoch": 0.023547880690737835,
	"grad_norm": 0.9510024082096722,
	"learning_rate": 2.3437500000000002e-06,
	"loss": 1.3277,
	"step": 45
	},
	{
	"epoch": 0.026164311878597593,
	"grad_norm": 0.9091511707564879,
	"learning_rate": 2.604166666666667e-06,
	"loss": 1.3283,
	"step": 50
	},
	{
	"epoch": 0.02878074306645735,
	"grad_norm": 0.6123784246790888,
	"learning_rate": 2.8645833333333334e-06,
	"loss": 1.2988,
	"step": 55
	},
	{
	"epoch": 0.03139717425431711,
	"grad_norm": 0.4784674969150843,
	"learning_rate": 3.125e-06,
	"loss": 1.2584,
	"step": 60
	},
	{
	"epoch": 0.034013605442176874,
	"grad_norm": 0.3377324101778873,
	"learning_rate": 3.385416666666667e-06,
	"loss": 1.301,
	"step": 65
	},
	{
	"epoch": 0.03663003663003663,
	"grad_norm": 0.2500962071399914,
	"learning_rate": 3.6458333333333333e-06,
	"loss": 1.276,
	"step": 70
	},
	{
	"epoch": 0.03924646781789639,
	"grad_norm": 0.24599412075991076,
	"learning_rate": 3.90625e-06,
	"loss": 1.2516,
	"step": 75
	},
	{
	"epoch": 0.04186289900575615,
	"grad_norm": 0.22877062148669897,
	"learning_rate": 4.166666666666667e-06,
	"loss": 1.285,
	"step": 80
	},
	{
	"epoch": 0.044479330193615906,
	"grad_norm": 0.23251824977802066,
	"learning_rate": 4.427083333333334e-06,
	"loss": 1.2306,
	"step": 85
	},
	{
	"epoch": 0.04709576138147567,
	"grad_norm": 0.17838050643581013,
	"learning_rate": 4.6875000000000004e-06,
	"loss": 1.1997,
	"step": 90
	},
	{
	"epoch": 0.04971219256933543,
	"grad_norm": 0.18600609316398758,
	"learning_rate": 4.947916666666667e-06,
	"loss": 1.2432,
	"step": 95
	},
	{
	"epoch": 0.052328623757195186,
	"grad_norm": 0.16796016800278632,
	"learning_rate": 5.208333333333334e-06,
	"loss": 1.2136,
	"step": 100
	},
	{
	"epoch": 0.054945054945054944,
	"grad_norm": 0.15844027288563875,
	"learning_rate": 5.468750000000001e-06,
	"loss": 1.3021,
	"step": 105
	},
	{
	"epoch": 0.0575614861329147,
	"grad_norm": 0.1414394595758024,
	"learning_rate": 5.729166666666667e-06,
	"loss": 1.207,
	"step": 110
	},
	{
	"epoch": 0.06017791732077447,
	"grad_norm": 0.13372102221955964,
	"learning_rate": 5.989583333333334e-06,
	"loss": 1.1969,
	"step": 115
	},
	{
	"epoch": 0.06279434850863422,
	"grad_norm": 0.13133233903537844,
	"learning_rate": 6.25e-06,
	"loss": 1.2135,
	"step": 120
	},
	{
	"epoch": 0.06541077969649398,
	"grad_norm": 0.13504128154908707,
	"learning_rate": 6.510416666666667e-06,
	"loss": 1.2203,
	"step": 125
	},
	{
	"epoch": 0.06802721088435375,
	"grad_norm": 0.11673714164624863,
	"learning_rate": 6.770833333333334e-06,
	"loss": 1.1957,
	"step": 130
	},
	{
	"epoch": 0.0706436420722135,
	"grad_norm": 0.11648588731735841,
	"learning_rate": 7.031250000000001e-06,
	"loss": 1.213,
	"step": 135
	},
	{
	"epoch": 0.07326007326007326,
	"grad_norm": 0.10764121011945749,
	"learning_rate": 7.291666666666667e-06,
	"loss": 1.1774,
	"step": 140
	},
	{
	"epoch": 0.07587650444793302,
	"grad_norm": 0.1207489841636154,
	"learning_rate": 7.552083333333334e-06,
	"loss": 1.188,
	"step": 145
	},
	{
	"epoch": 0.07849293563579278,
	"grad_norm": 0.11189371737439505,
	"learning_rate": 7.8125e-06,
	"loss": 1.1865,
	"step": 150
	},
	{
	"epoch": 0.08110936682365254,
	"grad_norm": 0.10576666590076779,
	"learning_rate": 8.072916666666667e-06,
	"loss": 1.2143,
	"step": 155
	},
	{
	"epoch": 0.0837257980115123,
	"grad_norm": 0.10753980068597714,
	"learning_rate": 8.333333333333334e-06,
	"loss": 1.1912,
	"step": 160
	},
	{
	"epoch": 0.08634222919937205,
	"grad_norm": 0.2087852496477166,
	"learning_rate": 8.59375e-06,
	"loss": 1.1904,
	"step": 165
	},
	{
	"epoch": 0.08895866038723181,
	"grad_norm": 0.11274393602070457,
	"learning_rate": 8.854166666666667e-06,
	"loss": 1.1934,
	"step": 170
	},
	{
	"epoch": 0.09157509157509157,
	"grad_norm": 0.10078115406285185,
	"learning_rate": 9.114583333333334e-06,
	"loss": 1.1925,
	"step": 175
	},
	{
	"epoch": 0.09419152276295134,
	"grad_norm": 0.09778449783264744,
	"learning_rate": 9.375000000000001e-06,
	"loss": 1.2049,
	"step": 180
	},
	{
	"epoch": 0.0968079539508111,
	"grad_norm": 0.09777505019147527,
	"learning_rate": 9.635416666666668e-06,
	"loss": 1.1996,
	"step": 185
	},
	{
	"epoch": 0.09942438513867086,
	"grad_norm": 0.09301261390047985,
	"learning_rate": 9.895833333333334e-06,
	"loss": 1.201,
	"step": 190
	},
	{
	"epoch": 0.10204081632653061,
	"grad_norm": 0.09164005113888346,
	"learning_rate": 9.999924849924331e-06,
	"loss": 1.2041,
	"step": 195
	},
	{
	"epoch": 0.10465724751439037,
	"grad_norm": 0.09513443297611852,
	"learning_rate": 9.999465607642677e-06,
	"loss": 1.1851,
	"step": 200
	},
	{
	"epoch": 0.10727367870225013,
	"grad_norm": 0.0924625015215378,
	"learning_rate": 9.998588911421522e-06,
	"loss": 1.1497,
	"step": 205
	},
	{
	"epoch": 0.10989010989010989,
	"grad_norm": 0.0867096881663944,
	"learning_rate": 9.99729483446475e-06,
	"loss": 1.1878,
	"step": 210
	},
	{
	"epoch": 0.11250654107796965,
	"grad_norm": 0.09113399973145837,
	"learning_rate": 9.995583484827415e-06,
	"loss": 1.2096,
	"step": 215
	},
	{
	"epoch": 0.1151229722658294,
	"grad_norm": 0.09372219223412578,
	"learning_rate": 9.993455005406717e-06,
	"loss": 1.1434,
	"step": 220
	},
	{
	"epoch": 0.11773940345368916,
	"grad_norm": 0.0888706071797912,
	"learning_rate": 9.990909573930075e-06,
	"loss": 1.1714,
	"step": 225
	},
	{
	"epoch": 0.12035583464154893,
	"grad_norm": 0.08688437225632582,
	"learning_rate": 9.987947402940285e-06,
	"loss": 1.2416,
	"step": 230
	},
	{
	"epoch": 0.12297226582940869,
	"grad_norm": 0.08844989176928374,
	"learning_rate": 9.984568739777776e-06,
	"loss": 1.1494,
	"step": 235
	},
	{
	"epoch": 0.12558869701726844,
	"grad_norm": 0.09356745534616749,
	"learning_rate": 9.980773866559946e-06,
	"loss": 1.181,
	"step": 240
	},
	{
	"epoch": 0.1282051282051282,
	"grad_norm": 0.08899586003278553,
	"learning_rate": 9.976563100157615e-06,
	"loss": 1.1746,
	"step": 245
	},
	{
	"epoch": 0.13082155939298795,
	"grad_norm": 0.09647258606085989,
	"learning_rate": 9.971936792168569e-06,
	"loss": 1.1681,
	"step": 250
	},
	{
	"epoch": 0.13343799058084774,
	"grad_norm": 0.09145921664695972,
	"learning_rate": 9.966895328888195e-06,
	"loss": 1.1759,
	"step": 255
	},
	{
	"epoch": 0.1360544217687075,
	"grad_norm": 0.09211002833483616,
	"learning_rate": 9.961439131277223e-06,
	"loss": 1.179,
	"step": 260
	},
	{
	"epoch": 0.13867085295656725,
	"grad_norm": 0.08869761747590328,
	"learning_rate": 9.955568654926582e-06,
	"loss": 1.1448,
	"step": 265
	},
	{
	"epoch": 0.141287284144427,
	"grad_norm": 0.08433870852751438,
	"learning_rate": 9.949284390019362e-06,
	"loss": 1.1419,
	"step": 270
	},
	{
	"epoch": 0.14390371533228677,
	"grad_norm": 0.0862719212805683,
	"learning_rate": 9.942586861289874e-06,
	"loss": 1.1877,
	"step": 275
	},
	{
	"epoch": 0.14652014652014653,
	"grad_norm": 0.08374106195292667,
	"learning_rate": 9.935476627979837e-06,
	"loss": 1.1565,
	"step": 280
	},
	{
	"epoch": 0.14913657770800628,
	"grad_norm": 0.09016812822944884,
	"learning_rate": 9.927954283791687e-06,
	"loss": 1.157,
	"step": 285
	},
	{
	"epoch": 0.15175300889586604,
	"grad_norm": 0.09210986306145622,
	"learning_rate": 9.920020456838998e-06,
	"loss": 1.198,
	"step": 290
	},
	{
	"epoch": 0.1543694400837258,
	"grad_norm": 0.08480839343551977,
	"learning_rate": 9.911675809594042e-06,
	"loss": 1.1847,
	"step": 295
	},
	{
	"epoch": 0.15698587127158556,
	"grad_norm": 0.08344711172445468,
	"learning_rate": 9.902921038832456e-06,
	"loss": 1.1578,
	"step": 300
	},
	{
	"epoch": 0.15960230245944532,
	"grad_norm": 0.09164623997355711,
	"learning_rate": 9.893756875575082e-06,
	"loss": 1.1462,
	"step": 305
	},
	{
	"epoch": 0.16221873364730507,
	"grad_norm": 0.09255247041493149,
	"learning_rate": 9.884184085026918e-06,
	"loss": 1.1392,
	"step": 310
	},
	{
	"epoch": 0.16483516483516483,
	"grad_norm": 0.0897808746322372,
	"learning_rate": 9.874203466513215e-06,
	"loss": 1.1641,
	"step": 315
	},
	{
	"epoch": 0.1674515960230246,
	"grad_norm": 1.0170278609791918,
	"learning_rate": 9.863815853412748e-06,
	"loss": 1.1577,
	"step": 320
	},
	{
	"epoch": 0.17006802721088435,
	"grad_norm": 0.08826036294074761,
	"learning_rate": 9.853022113088223e-06,
	"loss": 1.2158,
	"step": 325
	},
	{
	"epoch": 0.1726844583987441,
	"grad_norm": 0.08802482576182481,
	"learning_rate": 9.84182314681385e-06,
	"loss": 1.178,
	"step": 330
	},
	{
	"epoch": 0.17530088958660386,
	"grad_norm": 0.08428748258121495,
	"learning_rate": 9.83021988970009e-06,
	"loss": 1.1748,
	"step": 335
	},
	{
	"epoch": 0.17791732077446362,
	"grad_norm": 0.0915158879642272,
	"learning_rate": 9.818213310615575e-06,
	"loss": 1.1485,
	"step": 340
	},
	{
	"epoch": 0.18053375196232338,
	"grad_norm": 0.08416073413575607,
	"learning_rate": 9.805804412106197e-06,
	"loss": 1.1549,
	"step": 345
	},
	{
	"epoch": 0.18315018315018314,
	"grad_norm": 0.24967945822809895,
	"learning_rate": 9.792994230311419e-06,
	"loss": 1.1103,
	"step": 350
	},
	{
	"epoch": 0.1857666143380429,
	"grad_norm": 0.08534468582528122,
	"learning_rate": 9.779783834877727e-06,
	"loss": 1.1502,
	"step": 355
	},
	{
	"epoch": 0.18838304552590268,
	"grad_norm": 0.08785714030468032,
	"learning_rate": 9.766174328869344e-06,
	"loss": 1.1203,
	"step": 360
	},
	{
	"epoch": 0.19099947671376244,
	"grad_norm": 0.09104404101954715,
	"learning_rate": 9.752166848676101e-06,
	"loss": 1.1587,
	"step": 365
	},
	{
	"epoch": 0.1936159079016222,
	"grad_norm": 0.08702616441035418,
	"learning_rate": 9.737762563918564e-06,
	"loss": 1.1517,
	"step": 370
	},
	{
	"epoch": 0.19623233908948196,
	"grad_norm": 0.08351621618433638,
	"learning_rate": 9.722962677350367e-06,
	"loss": 1.1694,
	"step": 375
	},
	{
	"epoch": 0.1988487702773417,
	"grad_norm": 0.08613990809273116,
	"learning_rate": 9.707768424757778e-06,
	"loss": 1.1412,
	"step": 380
	},
	{
	"epoch": 0.20146520146520147,
	"grad_norm": 0.08504331047696817,
	"learning_rate": 9.692181074856515e-06,
	"loss": 1.2068,
	"step": 385
	},
	{
	"epoch": 0.20408163265306123,
	"grad_norm": 0.08832625003357134,
	"learning_rate": 9.676201929185809e-06,
	"loss": 1.1562,
	"step": 390
	},
	{
	"epoch": 0.206698063840921,
	"grad_norm": 0.08410128753490248,
	"learning_rate": 9.659832321999727e-06,
	"loss": 1.1808,
	"step": 395
	},
	{
	"epoch": 0.20931449502878074,
	"grad_norm": 0.08437421775574223,
	"learning_rate": 9.643073620155755e-06,
	"loss": 1.1513,
	"step": 400
	},
	{
	"epoch": 0.2119309262166405,
	"grad_norm": 0.08297823254670997,
	"learning_rate": 9.625927223000679e-06,
	"loss": 1.1992,
	"step": 405
	},
	{
	"epoch": 0.21454735740450026,
	"grad_norm": 0.08762545372392672,
	"learning_rate": 9.608394562253724e-06,
	"loss": 1.1399,
	"step": 410
	},
	{
	"epoch": 0.21716378859236002,
	"grad_norm": 0.08663186312112149,
	"learning_rate": 9.590477101887016e-06,
	"loss": 1.1991,
	"step": 415
	},
	{
	"epoch": 0.21978021978021978,
	"grad_norm": 0.08978933643128004,
	"learning_rate": 9.572176338003341e-06,
	"loss": 1.1494,
	"step": 420
	},
	{
	"epoch": 0.22239665096807953,
	"grad_norm": 0.08867801298992739,
	"learning_rate": 9.553493798711217e-06,
	"loss": 1.1474,
	"step": 425
	},
	{
	"epoch": 0.2250130821559393,
	"grad_norm": 0.08900603406641072,
	"learning_rate": 9.534431043997298e-06,
	"loss": 1.1369,
	"step": 430
	},
	{
	"epoch": 0.22762951334379905,
	"grad_norm": 0.09379226586738242,
	"learning_rate": 9.514989665596114e-06,
	"loss": 1.1704,
	"step": 435
	},
	{
	"epoch": 0.2302459445316588,
	"grad_norm": 0.08713543794920169,
	"learning_rate": 9.495171286857171e-06,
	"loss": 1.1874,
	"step": 440
	},
	{
	"epoch": 0.23286237571951857,
	"grad_norm": 0.08824396670528444,
	"learning_rate": 9.47497756260939e-06,
	"loss": 1.1212,
	"step": 445
	},
	{
	"epoch": 0.23547880690737832,
	"grad_norm": 0.08660495234850499,
	"learning_rate": 9.454410179022932e-06,
	"loss": 1.163,
	"step": 450
	},
	{
	"epoch": 0.23809523809523808,
	"grad_norm": 0.08750470885437896,
	"learning_rate": 9.433470853468409e-06,
	"loss": 1.1602,
	"step": 455
	},
	{
	"epoch": 0.24071166928309787,
	"grad_norm": 0.08628399049083942,
	"learning_rate": 9.412161334373477e-06,
	"loss": 1.1678,
	"step": 460
	},
	{
	"epoch": 0.24332810047095763,
	"grad_norm": 0.08571628924285413,
	"learning_rate": 9.39048340107685e-06,
	"loss": 1.1723,
	"step": 465
	},
	{
	"epoch": 0.24594453165881738,
	"grad_norm": 0.08791633295219613,
	"learning_rate": 9.36843886367972e-06,
	"loss": 1.1566,
	"step": 470
	},
	{
	"epoch": 0.24856096284667714,
	"grad_norm": 0.08738481746757637,
	"learning_rate": 9.346029562894616e-06,
	"loss": 1.1626,
	"step": 475
	},
	{
	"epoch": 0.25117739403453687,
	"grad_norm": 0.08497656897045082,
	"learning_rate": 9.323257369891702e-06,
	"loss": 1.1282,
	"step": 480
	},
	{
	"epoch": 0.25379382522239663,
	"grad_norm": 0.09461836398952288,
	"learning_rate": 9.300124186142542e-06,
	"loss": 1.1765,
	"step": 485
	},
	{
	"epoch": 0.2564102564102564,
	"grad_norm": 0.08978125569108607,
	"learning_rate": 9.276631943261325e-06,
	"loss": 1.1511,
	"step": 490
	},
	{
	"epoch": 0.25902668759811615,
	"grad_norm": 0.08888179419029707,
	"learning_rate": 9.252782602843565e-06,
	"loss": 1.1976,
	"step": 495
	},
	{
	"epoch": 0.2616431187859759,
	"grad_norm": 0.08676326656909038,
	"learning_rate": 9.228578156302327e-06,
	"loss": 1.1431,
	"step": 500
	},
	{
	"epoch": 0.26425954997383566,
	"grad_norm": 0.08911630868462432,
	"learning_rate": 9.204020624701932e-06,
	"loss": 1.1745,
	"step": 505
	},
	{
	"epoch": 0.2668759811616955,
	"grad_norm": 0.0896364208788128,
	"learning_rate": 9.1791120585892e-06,
	"loss": 1.1191,
	"step": 510
	},
	{
	"epoch": 0.26949241234955523,
	"grad_norm": 0.08715125789778647,
	"learning_rate": 9.153854537822235e-06,
	"loss": 1.1597,
	"step": 515
	},
	{
	"epoch": 0.272108843537415,
	"grad_norm": 0.08940795227056254,
	"learning_rate": 9.12825017139675e-06,
	"loss": 1.1768,
	"step": 520
	},
	{
	"epoch": 0.27472527472527475,
	"grad_norm": 0.08987300483710815,
	"learning_rate": 9.102301097269974e-06,
	"loss": 1.1848,
	"step": 525
	},
	{
	"epoch": 0.2773417059131345,
	"grad_norm": 0.08688476589575474,
	"learning_rate": 9.076009482182132e-06,
	"loss": 1.155,
	"step": 530
	},
	{
	"epoch": 0.27995813710099426,
	"grad_norm": 0.08866136812688989,
	"learning_rate": 9.049377521475514e-06,
	"loss": 1.1464,
	"step": 535
	},
	{
	"epoch": 0.282574568288854,
	"grad_norm": 0.08688176593226869,
	"learning_rate": 9.022407438911177e-06,
	"loss": 1.1775,
	"step": 540
	},
	{
	"epoch": 0.2851909994767138,
	"grad_norm": 0.08921372549008971,
	"learning_rate": 8.99510148648325e-06,
	"loss": 1.1447,
	"step": 545
	},
	{
	"epoch": 0.28780743066457354,
	"grad_norm": 0.08881883359020548,
	"learning_rate": 8.967461944230908e-06,
	"loss": 1.1529,
	"step": 550
	},
	{
	"epoch": 0.2904238618524333,
	"grad_norm": 0.09167492045293721,
	"learning_rate": 8.939491120047974e-06,
	"loss": 1.1934,
	"step": 555
	},
	{
	"epoch": 0.29304029304029305,
	"grad_norm": 0.09803844949821347,
	"learning_rate": 8.911191349490215e-06,
	"loss": 1.1604,
	"step": 560
	},
	{
	"epoch": 0.2956567242281528,
	"grad_norm": 0.08822343779730063,
	"learning_rate": 8.882564995580329e-06,
	"loss": 1.1652,
	"step": 565
	},
	{
	"epoch": 0.29827315541601257,
	"grad_norm": 0.09087021944109164,
	"learning_rate": 8.85361444861063e-06,
	"loss": 1.152,
	"step": 570
	},
	{
	"epoch": 0.3008895866038723,
	"grad_norm": 0.08966543759541298,
	"learning_rate": 8.824342125943461e-06,
	"loss": 1.1434,
	"step": 575
	},
	{
	"epoch": 0.3035060177917321,
	"grad_norm": 0.08498500583112445,
	"learning_rate": 8.79475047180934e-06,
	"loss": 1.1821,
	"step": 580
	},
	{
	"epoch": 0.30612244897959184,
	"grad_norm": 0.08988190311113226,
	"learning_rate": 8.764841957102866e-06,
	"loss": 1.1974,
	"step": 585
	},
	{
	"epoch": 0.3087388801674516,
	"grad_norm": 0.09197928084619712,
	"learning_rate": 8.734619079176416e-06,
	"loss": 1.1856,
	"step": 590
	},
	{
	"epoch": 0.31135531135531136,
	"grad_norm": 0.08755785801058809,
	"learning_rate": 8.704084361631597e-06,
	"loss": 1.1638,
	"step": 595
	},
	{
	"epoch": 0.3139717425431711,
	"grad_norm": 0.08732771300829235,
	"learning_rate": 8.673240354108539e-06,
	"loss": 1.1286,
	"step": 600
	},
	{
	"epoch": 0.3165881737310309,
	"grad_norm": 0.08526709940215751,
	"learning_rate": 8.642089632072992e-06,
	"loss": 1.113,
	"step": 605
	},
	{
	"epoch": 0.31920460491889063,
	"grad_norm": 0.09343388151136044,
	"learning_rate": 8.61063479660128e-06,
	"loss": 1.1909,
	"step": 610
	},
	{
	"epoch": 0.3218210361067504,
	"grad_norm": 0.09166163273899633,
	"learning_rate": 8.578878474163115e-06,
	"loss": 1.1998,
	"step": 615
	},
	{
	"epoch": 0.32443746729461015,
	"grad_norm": 0.08646409623512233,
	"learning_rate": 8.546823316402282e-06,
	"loss": 1.1754,
	"step": 620
	},
	{
	"epoch": 0.3270538984824699,
	"grad_norm": 0.08819056884980772,
	"learning_rate": 8.514471999915229e-06,
	"loss": 1.1826,
	"step": 625
	},
	{
	"epoch": 0.32967032967032966,
	"grad_norm": 0.08749700044724819,
	"learning_rate": 8.48182722602757e-06,
	"loss": 1.1722,
	"step": 630
	},
	{
	"epoch": 0.3322867608581894,
	"grad_norm": 0.09134268192230549,
	"learning_rate": 8.448891720568535e-06,
	"loss": 1.1441,
	"step": 635
	},
	{
	"epoch": 0.3349031920460492,
	"grad_norm": 0.09018139513674642,
	"learning_rate": 8.415668233643346e-06,
	"loss": 1.1358,
	"step": 640
	},
	{
	"epoch": 0.33751962323390894,
	"grad_norm": 0.08829658429170438,
	"learning_rate": 8.382159539403605e-06,
	"loss": 1.1945,
	"step": 645
	},
	{
	"epoch": 0.3401360544217687,
	"grad_norm": 0.0897490752560212,
	"learning_rate": 8.348368435815636e-06,
	"loss": 1.1444,
	"step": 650
	},
	{
	"epoch": 0.34275248560962845,
	"grad_norm": 0.08957345807921631,
	"learning_rate": 8.314297744426865e-06,
	"loss": 1.1493,
	"step": 655
	},
	{
	"epoch": 0.3453689167974882,
	"grad_norm": 0.08701430974911231,
	"learning_rate": 8.279950310130218e-06,
	"loss": 1.1431,
	"step": 660
	},
	{
	"epoch": 0.34798534798534797,
	"grad_norm": 0.09086431580546972,
	"learning_rate": 8.245329000926574e-06,
	"loss": 1.154,
	"step": 665
	},
	{
	"epoch": 0.35060177917320773,
	"grad_norm": 0.0871637799963955,
	"learning_rate": 8.210436707685286e-06,
	"loss": 1.17,
	"step": 670
	},
	{
	"epoch": 0.3532182103610675,
	"grad_norm": 0.09041417796185347,
	"learning_rate": 8.175276343902802e-06,
	"loss": 1.1578,
	"step": 675
	},
	{
	"epoch": 0.35583464154892724,
	"grad_norm": 0.08625800774031583,
	"learning_rate": 8.139850845459378e-06,
	"loss": 1.152,
	"step": 680
	},
	{
	"epoch": 0.358451072736787,
	"grad_norm": 0.08569835072754965,
	"learning_rate": 8.104163170373942e-06,
	"loss": 1.1474,
	"step": 685
	},
	{
	"epoch": 0.36106750392464676,
	"grad_norm": 0.0862643619125561,
	"learning_rate": 8.068216298557088e-06,
	"loss": 1.1798,
	"step": 690
	},
	{
	"epoch": 0.3636839351125065,
	"grad_norm": 0.08923553182172266,
	"learning_rate": 8.032013231562271e-06,
	"loss": 1.1774,
	"step": 695
	},
	{
	"epoch": 0.3663003663003663,
	"grad_norm": 0.0938085723659071,
	"learning_rate": 7.995556992335168e-06,
	"loss": 1.1686,
	"step": 700
	},
	{
	"epoch": 0.36891679748822603,
	"grad_norm": 0.09116157462150036,
	"learning_rate": 7.95885062496126e-06,
	"loss": 1.1596,
	"step": 705
	},
	{
	"epoch": 0.3715332286760858,
	"grad_norm": 0.087377253429772,
	"learning_rate": 7.92189719441166e-06,
	"loss": 1.121,
	"step": 710
	},
	{
	"epoch": 0.3741496598639456,
	"grad_norm": 0.08786198964388132,
	"learning_rate": 7.884699786287188e-06,
	"loss": 1.1874,
	"step": 715
	},
	{
	"epoch": 0.37676609105180536,
	"grad_norm": 0.0876911684073287,
	"learning_rate": 7.847261506560716e-06,
	"loss": 1.1725,
	"step": 720
	},
	{
	"epoch": 0.3793825222396651,
	"grad_norm": 0.08709531166064968,
	"learning_rate": 7.809585481317824e-06,
	"loss": 1.151,
	"step": 725
	},
	{
	"epoch": 0.3819989534275249,
	"grad_norm": 0.08904419588580584,
	"learning_rate": 7.77167485649578e-06,
	"loss": 1.1723,
	"step": 730
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.08714848924978698,
	"learning_rate": 7.733532797620849e-06,
	"loss": 1.1719,
	"step": 735
	},
	{
	"epoch": 0.3872318158032444,
	"grad_norm": 0.0879637315772245,
	"learning_rate": 7.695162489543966e-06,
	"loss": 1.1916,
	"step": 740
	},
	{
	"epoch": 0.38984824699110415,
	"grad_norm": 0.09131210712124205,
	"learning_rate": 7.656567136174817e-06,
	"loss": 1.1221,
	"step": 745
	},
	{
	"epoch": 0.3924646781789639,
	"grad_norm": 0.08589014065766336,
	"learning_rate": 7.6177499602143e-06,
	"loss": 1.1239,
	"step": 750
	},
	{
	"epoch": 0.39508110936682367,
	"grad_norm": 0.09203458025099896,
	"learning_rate": 7.578714202885436e-06,
	"loss": 1.189,
	"step": 755
	},
	{
	"epoch": 0.3976975405546834,
	"grad_norm": 0.09039825298617554,
	"learning_rate": 7.53946312366273e-06,
	"loss": 1.1516,
	"step": 760
	},
	{
	"epoch": 0.4003139717425432,
	"grad_norm": 0.0903818016412424,
	"learning_rate": 7.500000000000001e-06,
	"loss": 1.1021,
	"step": 765
	},
	{
	"epoch": 0.40293040293040294,
	"grad_norm": 0.09041941058273394,
	"learning_rate": 7.460328127056718e-06,
	"loss": 1.1985,
	"step": 770
	},
	{
	"epoch": 0.4055468341182627,
	"grad_norm": 0.09065571364174703,
	"learning_rate": 7.420450817422855e-06,
	"loss": 1.1658,
	"step": 775
	},
	{
	"epoch": 0.40816326530612246,
	"grad_norm": 0.0906781027830754,
	"learning_rate": 7.38037140084229e-06,
	"loss": 1.1592,
	"step": 780
	},
	{
	"epoch": 0.4107796964939822,
	"grad_norm": 0.08872684387079897,
	"learning_rate": 7.340093223934775e-06,
	"loss": 1.1568,
	"step": 785
	},
	{
	"epoch": 0.413396127681842,
	"grad_norm": 0.08708882267716725,
	"learning_rate": 7.29961964991649e-06,
	"loss": 1.1302,
	"step": 790
	},
	{
	"epoch": 0.41601255886970173,
	"grad_norm": 0.09987822856102017,
	"learning_rate": 7.2589540583192165e-06,
	"loss": 1.2165,
	"step": 795
	},
	{
	"epoch": 0.4186289900575615,
	"grad_norm": 0.08691615677709154,
	"learning_rate": 7.218099844708152e-06,
	"loss": 1.1847,
	"step": 800
	},
	{
	"epoch": 0.42124542124542125,
	"grad_norm": 0.0875710124804,
	"learning_rate": 7.177060420398376e-06,
	"loss": 1.155,
	"step": 805
	},
	{
	"epoch": 0.423861852433281,
	"grad_norm": 0.09103596369664581,
	"learning_rate": 7.135839212170008e-06,
	"loss": 1.1482,
	"step": 810
	},
	{
	"epoch": 0.42647828362114076,
	"grad_norm": 0.09142349753820916,
	"learning_rate": 7.094439661982072e-06,
	"loss": 1.1698,
	"step": 815
	},
	{
	"epoch": 0.4290947148090005,
	"grad_norm": 0.09008053931300881,
	"learning_rate": 7.0528652266850935e-06,
	"loss": 1.159,
	"step": 820
	},
	{
	"epoch": 0.4317111459968603,
	"grad_norm": 0.09147508459628673,
	"learning_rate": 7.011119377732459e-06,
	"loss": 1.1582,
	"step": 825
	},
	{
	"epoch": 0.43432757718472004,
	"grad_norm": 0.08802145673026414,
	"learning_rate": 6.969205600890539e-06,
	"loss": 1.172,
	"step": 830
	},
	{
	"epoch": 0.4369440083725798,
	"grad_norm": 0.0883394508080139,
	"learning_rate": 6.9271273959476415e-06,
	"loss": 1.1679,
	"step": 835
	},
	{
	"epoch": 0.43956043956043955,
	"grad_norm": 0.09257358766531258,
	"learning_rate": 6.884888276421766e-06,
	"loss": 1.1459,
	"step": 840
	},
	{
	"epoch": 0.4421768707482993,
	"grad_norm": 0.09097031092390022,
	"learning_rate": 6.842491769267241e-06,
	"loss": 1.1634,
	"step": 845
	},
	{
	"epoch": 0.44479330193615907,
	"grad_norm": 0.09044290737240641,
	"learning_rate": 6.79994141458021e-06,
	"loss": 1.175,
	"step": 850
	},
	{
	"epoch": 0.4474097331240188,
	"grad_norm": 0.08881468117501355,
	"learning_rate": 6.757240765303047e-06,
	"loss": 1.1345,
	"step": 855
	},
	{
	"epoch": 0.4500261643118786,
	"grad_norm": 0.09065311873335255,
	"learning_rate": 6.7143933869276755e-06,
	"loss": 1.1279,
	"step": 860
	},
	{
	"epoch": 0.45264259549973834,
	"grad_norm": 0.09184933289996511,
	"learning_rate": 6.671402857197864e-06,
	"loss": 1.1384,
	"step": 865
	},
	{
	"epoch": 0.4552590266875981,
	"grad_norm": 0.08935816076743913,
	"learning_rate": 6.628272765810468e-06,
	"loss": 1.1944,
	"step": 870
	},
	{
	"epoch": 0.45787545787545786,
	"grad_norm": 0.0865160813282612,
	"learning_rate": 6.585006714115709e-06,
	"loss": 1.1647,
	"step": 875
	},
	{
	"epoch": 0.4604918890633176,
	"grad_norm": 0.0989149367662354,
	"learning_rate": 6.541608314816451e-06,
	"loss": 1.1822,
	"step": 880
	},
	{
	"epoch": 0.4631083202511774,
	"grad_norm": 0.08957489979358704,
	"learning_rate": 6.498081191666549e-06,
	"loss": 1.099,
	"step": 885
	},
	{
	"epoch": 0.46572475143903713,
	"grad_norm": 0.08577118327070016,
	"learning_rate": 6.454428979168257e-06,
	"loss": 1.1611,
	"step": 890
	},
	{
	"epoch": 0.4683411826268969,
	"grad_norm": 0.09320922691441037,
	"learning_rate": 6.410655322268758e-06,
	"loss": 1.1723,
	"step": 895
	},
	{
	"epoch": 0.47095761381475665,
	"grad_norm": 0.09240895994287311,
	"learning_rate": 6.3667638760558055e-06,
	"loss": 1.1925,
	"step": 900
	},
	{
	"epoch": 0.4735740450026164,
	"grad_norm": 0.0923474851653278,
	"learning_rate": 6.3227583054525296e-06,
	"loss": 1.1375,
	"step": 905
	},
	{
	"epoch": 0.47619047619047616,
	"grad_norm": 0.09601612097293628,
	"learning_rate": 6.2786422849114074e-06,
	"loss": 1.151,
	"step": 910
	},
	{
	"epoch": 0.478806907378336,
	"grad_norm": 0.09251678910997652,
	"learning_rate": 6.2344194981074616e-06,
	"loss": 1.1752,
	"step": 915
	},
	{
	"epoch": 0.48142333856619574,
	"grad_norm": 0.09499383199025971,
	"learning_rate": 6.190093637630662e-06,
	"loss": 1.181,
	"step": 920
	},
	{
	"epoch": 0.4840397697540555,
	"grad_norm": 0.09218457504806246,
	"learning_rate": 6.145668404677604e-06,
	"loss": 1.1275,
	"step": 925
	},
	{
	"epoch": 0.48665620094191525,
	"grad_norm": 0.09480903465950775,
	"learning_rate": 6.101147508742456e-06,
	"loss": 1.1352,
	"step": 930
	},
	{
	"epoch": 0.489272632129775,
	"grad_norm": 0.08915545874295981,
	"learning_rate": 6.056534667307212e-06,
	"loss": 1.1671,
	"step": 935
	},
	{
	"epoch": 0.49188906331763477,
	"grad_norm": 0.09205914759599232,
	"learning_rate": 6.011833605531295e-06,
	"loss": 1.1304,
	"step": 940
	},
	{
	"epoch": 0.4945054945054945,
	"grad_norm": 0.09332848310400364,
	"learning_rate": 5.967048055940503e-06,
	"loss": 1.1408,
	"step": 945
	},
	{
	"epoch": 0.4971219256933543,
	"grad_norm": 0.08939769403020309,
	"learning_rate": 5.922181758115333e-06,
	"loss": 1.191,
	"step": 950
	},
	{
	"epoch": 0.49973835688121404,
	"grad_norm": 0.09642367429708014,
	"learning_rate": 5.8772384583787455e-06,
	"loss": 1.1692,
	"step": 955
	},
	{
	"epoch": 0.5023547880690737,
	"grad_norm": 0.08887288118634253,
	"learning_rate": 5.832221909483334e-06,
	"loss": 1.2212,
	"step": 960
	},
	{
	"epoch": 0.5049712192569336,
	"grad_norm": 0.09689598858333648,
	"learning_rate": 5.787135870297976e-06,
	"loss": 1.1289,
	"step": 965
	},
	{
	"epoch": 0.5075876504447933,
	"grad_norm": 0.09107397379124381,
	"learning_rate": 5.741984105493967e-06,
	"loss": 1.1809,
	"step": 970
	},
	{
	"epoch": 0.5102040816326531,
	"grad_norm": 0.09071246683679475,
	"learning_rate": 5.696770385230679e-06,
	"loss": 1.1393,
	"step": 975
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 0.09036453577604019,
	"learning_rate": 5.651498484840737e-06,
	"loss": 1.1806,
	"step": 980
	},
	{
	"epoch": 0.5154369440083726,
	"grad_norm": 0.0893188715090235,
	"learning_rate": 5.6061721845148e-06,
	"loss": 1.1399,
	"step": 985
	},
	{
	"epoch": 0.5180533751962323,
	"grad_norm": 0.09085590942264107,
	"learning_rate": 5.560795268985899e-06,
	"loss": 1.142,
	"step": 990
	},
	{
	"epoch": 0.5206698063840921,
	"grad_norm": 0.09019310702073005,
	"learning_rate": 5.515371527213422e-06,
	"loss": 1.133,
	"step": 995
	},
	{
	"epoch": 0.5232862375719518,
	"grad_norm": 0.09126968115906356,
	"learning_rate": 5.469904752066736e-06,
	"loss": 1.1553,
	"step": 1000
	},
	{
	"epoch": 0.5259026687598116,
	"grad_norm": 0.09464747718065981,
	"learning_rate": 5.424398740008481e-06,
	"loss": 1.1718,
	"step": 1005
	},
	{
	"epoch": 0.5285190999476713,
	"grad_norm": 0.09436242020454211,
	"learning_rate": 5.378857290777566e-06,
	"loss": 1.155,
	"step": 1010
	},
	{
	"epoch": 0.5311355311355311,
	"grad_norm": 0.10001855825215443,
	"learning_rate": 5.333284207071901e-06,
	"loss": 1.1544,
	"step": 1015
	},
	{
	"epoch": 0.533751962323391,
	"grad_norm": 0.09354368422313043,
	"learning_rate": 5.287683294230855e-06,
	"loss": 1.1898,
	"step": 1020
	},
	{
	"epoch": 0.5363683935112507,
	"grad_norm": 0.09193771963055702,
	"learning_rate": 5.242058359917531e-06,
	"loss": 1.142,
	"step": 1025
	},
	{
	"epoch": 0.5389848246991105,
	"grad_norm": 0.09421770405872586,
	"learning_rate": 5.196413213800812e-06,
	"loss": 1.1405,
	"step": 1030
	},
	{
	"epoch": 0.5416012558869702,
	"grad_norm": 0.09278287279169352,
	"learning_rate": 5.150751667237266e-06,
	"loss": 1.1413,
	"step": 1035
	},
	{
	"epoch": 0.54421768707483,
	"grad_norm": 0.09200594925059793,
	"learning_rate": 5.1050775329528865e-06,
	"loss": 1.1763,
	"step": 1040
	},
	{
	"epoch": 0.5468341182626897,
	"grad_norm": 0.09202351377274724,
	"learning_rate": 5.059394624724749e-06,
	"loss": 1.1813,
	"step": 1045
	},
	{
	"epoch": 0.5494505494505495,
	"grad_norm": 0.09295646295778348,
	"learning_rate": 5.0137067570625345e-06,
	"loss": 1.147,
	"step": 1050
	},
	{
	"epoch": 0.5520669806384092,
	"grad_norm": 0.09596103826973694,
	"learning_rate": 4.968017744890052e-06,
	"loss": 1.1715,
	"step": 1055
	},
	{
	"epoch": 0.554683411826269,
	"grad_norm": 0.09280818950416957,
	"learning_rate": 4.922331403226667e-06,
	"loss": 1.1407,
	"step": 1060
	},
	{
	"epoch": 0.5572998430141287,
	"grad_norm": 0.08975080950200469,
	"learning_rate": 4.876651546868759e-06,
	"loss": 1.1852,
	"step": 1065
	},
	{
	"epoch": 0.5599162742019885,
	"grad_norm": 0.09265399542476259,
	"learning_rate": 4.830981990071193e-06,
	"loss": 1.1443,
	"step": 1070
	},
	{
	"epoch": 0.5625327053898482,
	"grad_norm": 0.09049838209270984,
	"learning_rate": 4.785326546228818e-06,
	"loss": 1.1858,
	"step": 1075
	},
	{
	"epoch": 0.565149136577708,
	"grad_norm": 0.08900263422386634,
	"learning_rate": 4.739689027558052e-06,
	"loss": 1.1406,
	"step": 1080
	},
	{
	"epoch": 0.5677655677655677,
	"grad_norm": 0.08902029592212933,
	"learning_rate": 4.694073244778571e-06,
	"loss": 1.179,
	"step": 1085
	},
	{
	"epoch": 0.5703819989534276,
	"grad_norm": 0.09275284871138449,
	"learning_rate": 4.648483006795115e-06,
	"loss": 1.1595,
	"step": 1090
	},
	{
	"epoch": 0.5729984301412873,
	"grad_norm": 0.09439177740704392,
	"learning_rate": 4.602922120379432e-06,
	"loss": 1.1233,
	"step": 1095
	},
	{
	"epoch": 0.5756148613291471,
	"grad_norm": 0.09274318315418675,
	"learning_rate": 4.557394389852427e-06,
	"loss": 1.1898,
	"step": 1100
	},
	{
	"epoch": 0.5782312925170068,
	"grad_norm": 0.09405997276406405,
	"learning_rate": 4.5119036167664966e-06,
	"loss": 1.1649,
	"step": 1105
	},
	{
	"epoch": 0.5808477237048666,
	"grad_norm": 0.09385980984186612,
	"learning_rate": 4.466453599588103e-06,
	"loss": 1.191,
	"step": 1110
	},
	{
	"epoch": 0.5834641548927263,
	"grad_norm": 0.0898832303576217,
	"learning_rate": 4.421048133380601e-06,
	"loss": 1.1165,
	"step": 1115
	},
	{
	"epoch": 0.5860805860805861,
	"grad_norm": 0.09360216710271695,
	"learning_rate": 4.375691009487351e-06,
	"loss": 1.178,
	"step": 1120
	},
	{
	"epoch": 0.5886970172684458,
	"grad_norm": 0.09683340115595745,
	"learning_rate": 4.330386015215145e-06,
	"loss": 1.2107,
	"step": 1125
	},
	{
	"epoch": 0.5913134484563056,
	"grad_norm": 0.09145018465422285,
	"learning_rate": 4.285136933517971e-06,
	"loss": 1.1315,
	"step": 1130
	},
	{
	"epoch": 0.5939298796441653,
	"grad_norm": 0.0896731050577423,
	"learning_rate": 4.239947542681125e-06,
	"loss": 1.1074,
	"step": 1135
	},
	{
	"epoch": 0.5965463108320251,
	"grad_norm": 0.09660990701138071,
	"learning_rate": 4.194821616005738e-06,
	"loss": 1.1084,
	"step": 1140
	},
	{
	"epoch": 0.5991627420198848,
	"grad_norm": 0.09209943029817762,
	"learning_rate": 4.1497629214937e-06,
	"loss": 1.1389,
	"step": 1145
	},
	{
	"epoch": 0.6017791732077447,
	"grad_norm": 0.1006325243229284,
	"learning_rate": 4.104775221533039e-06,
	"loss": 1.1816,
	"step": 1150
	},
	{
	"epoch": 0.6043956043956044,
	"grad_norm": 0.09349785393398444,
	"learning_rate": 4.059862272583755e-06,
	"loss": 1.1799,
	"step": 1155
	},
	{
	"epoch": 0.6070120355834642,
	"grad_norm": 0.0911894072302353,
	"learning_rate": 4.015027824864158e-06,
	"loss": 1.1787,
	"step": 1160
	},
	{
	"epoch": 0.6096284667713239,
	"grad_norm": 0.09090197142913302,
	"learning_rate": 3.97027562203773e-06,
	"loss": 1.1497,
	"step": 1165
	},
	{
	"epoch": 0.6122448979591837,
	"grad_norm": 0.09220893282730831,
	"learning_rate": 3.92560940090053e-06,
	"loss": 1.1556,
	"step": 1170
	},
	{
	"epoch": 0.6148613291470434,
	"grad_norm": 0.09513786147473494,
	"learning_rate": 3.881032891069169e-06,
	"loss": 1.1619,
	"step": 1175
	},
	{
	"epoch": 0.6174777603349032,
	"grad_norm": 0.09592949877983106,
	"learning_rate": 3.836549814669389e-06,
	"loss": 1.1717,
	"step": 1180
	},
	{
	"epoch": 0.6200941915227629,
	"grad_norm": 0.09162720160250148,
	"learning_rate": 3.7921638860252674e-06,
	"loss": 1.1496,
	"step": 1185
	},
	{
	"epoch": 0.6227106227106227,
	"grad_norm": 0.0929693110938376,
	"learning_rate": 3.747878811349075e-06,
	"loss": 1.179,
	"step": 1190
	},
	{
	"epoch": 0.6253270538984824,
	"grad_norm": 0.1717629210930998,
	"learning_rate": 3.703698288431801e-06,
	"loss": 1.1444,
	"step": 1195
	},
	{
	"epoch": 0.6279434850863422,
	"grad_norm": 0.09078602967297458,
	"learning_rate": 3.659626006334395e-06,
	"loss": 1.1602,
	"step": 1200
	},
	{
	"epoch": 0.6305599162742019,
	"grad_norm": 0.10359394840301954,
	"learning_rate": 3.615665645079728e-06,
	"loss": 1.1518,
	"step": 1205
	},
	{
	"epoch": 0.6331763474620618,
	"grad_norm": 0.09092011886226412,
	"learning_rate": 3.5718208753453166e-06,
	"loss": 1.1963,
	"step": 1210
	},
	{
	"epoch": 0.6357927786499215,
	"grad_norm": 0.09272641870883862,
	"learning_rate": 3.5280953581568155e-06,
	"loss": 1.16,
	"step": 1215
	},
	{
	"epoch": 0.6384092098377813,
	"grad_norm": 0.08834856572554059,
	"learning_rate": 3.484492744582325e-06,
	"loss": 1.1579,
	"step": 1220
	},
	{
	"epoch": 0.6410256410256411,
	"grad_norm": 0.09127555751260019,
	"learning_rate": 3.441016675427532e-06,
	"loss": 1.1536,
	"step": 1225
	},
	{
	"epoch": 0.6436420722135008,
	"grad_norm": 0.20406095763855414,
	"learning_rate": 3.397670780931699e-06,
	"loss": 1.1381,
	"step": 1230
	},
	{
	"epoch": 0.6462585034013606,
	"grad_norm": 0.0895588108461287,
	"learning_rate": 3.354458680464543e-06,
	"loss": 1.1363,
	"step": 1235
	},
	{
	"epoch": 0.6488749345892203,
	"grad_norm": 0.09164524609745374,
	"learning_rate": 3.311383982224017e-06,
	"loss": 1.1459,
	"step": 1240
	},
	{
	"epoch": 0.6514913657770801,
	"grad_norm": 0.09366284043931154,
	"learning_rate": 3.268450282935026e-06,
	"loss": 1.1663,
	"step": 1245
	},
	{
	"epoch": 0.6541077969649398,
	"grad_norm": 0.09332801200983233,
	"learning_rate": 3.2256611675491096e-06,
	"loss": 1.1582,
	"step": 1250
	},
	{
	"epoch": 0.6567242281527996,
	"grad_norm": 0.09420123178793989,
	"learning_rate": 3.183020208945086e-06,
	"loss": 1.1485,
	"step": 1255
	},
	{
	"epoch": 0.6593406593406593,
	"grad_norm": 0.09544963446821658,
	"learning_rate": 3.1405309676307283e-06,
	"loss": 1.1876,
	"step": 1260
	},
	{
	"epoch": 0.6619570905285191,
	"grad_norm": 0.09735866573127151,
	"learning_rate": 3.0981969914454555e-06,
	"loss": 1.1823,
	"step": 1265
	},
	{
	"epoch": 0.6645735217163788,
	"grad_norm": 0.09258003535852607,
	"learning_rate": 3.056021815264102e-06,
	"loss": 1.1615,
	"step": 1270
	},
	{
	"epoch": 0.6671899529042387,
	"grad_norm": 0.08811860630150058,
	"learning_rate": 3.0140089607017386e-06,
	"loss": 1.1935,
	"step": 1275
	},
	{
	"epoch": 0.6698063840920984,
	"grad_norm": 0.0926515991851408,
	"learning_rate": 2.972161935819632e-06,
	"loss": 1.1368,
	"step": 1280
	},
	{
	"epoch": 0.6724228152799582,
	"grad_norm": 0.09298206722745225,
	"learning_rate": 2.930484234832315e-06,
	"loss": 1.1613,
	"step": 1285
	},
	{
	"epoch": 0.6750392464678179,
	"grad_norm": 0.08718106601664169,
	"learning_rate": 2.8889793378158284e-06,
	"loss": 1.1373,
	"step": 1290
	},
	{
	"epoch": 0.6776556776556777,
	"grad_norm": 0.09364478524137042,
	"learning_rate": 2.8476507104171273e-06,
	"loss": 1.1599,
	"step": 1295
	},
	{
	"epoch": 0.6802721088435374,
	"grad_norm": 0.08648218131861361,
	"learning_rate": 2.806501803564708e-06,
	"loss": 1.1718,
	"step": 1300
	},
	{
	"epoch": 0.6828885400313972,
	"grad_norm": 0.09271938103028711,
	"learning_rate": 2.765536053180447e-06,
	"loss": 1.1501,
	"step": 1305
	},
	{
	"epoch": 0.6855049712192569,
	"grad_norm": 0.09416500959969552,
	"learning_rate": 2.724756879892717e-06,
	"loss": 1.1582,
	"step": 1310
	},
	{
	"epoch": 0.6881214024071167,
	"grad_norm": 0.09647225239602465,
	"learning_rate": 2.6841676887507505e-06,
	"loss": 1.1443,
	"step": 1315
	},
	{
	"epoch": 0.6907378335949764,
	"grad_norm": 0.09415539941506598,
	"learning_rate": 2.643771868940327e-06,
	"loss": 1.1565,
	"step": 1320
	},
	{
	"epoch": 0.6933542647828362,
	"grad_norm": 0.09124599697629637,
	"learning_rate": 2.603572793500775e-06,
	"loss": 1.1421,
	"step": 1325
	},
	{
	"epoch": 0.6959706959706959,
	"grad_norm": 0.09126639454111003,
	"learning_rate": 2.5635738190433252e-06,
	"loss": 1.1413,
	"step": 1330
	},
	{
	"epoch": 0.6985871271585558,
	"grad_norm": 0.09952564680953281,
	"learning_rate": 2.523778285470835e-06,
	"loss": 1.177,
	"step": 1335
	},
	{
	"epoch": 0.7012035583464155,
	"grad_norm": 0.09114528754560879,
	"learning_rate": 2.4841895156989047e-06,
	"loss": 1.1661,
	"step": 1340
	},
	{
	"epoch": 0.7038199895342753,
	"grad_norm": 0.09202095365080962,
	"learning_rate": 2.444810815378416e-06,
	"loss": 1.1186,
	"step": 1345
	},
	{
	"epoch": 0.706436420722135,
	"grad_norm": 0.09293569476066414,
	"learning_rate": 2.4056454726195166e-06,
	"loss": 1.1673,
	"step": 1350
	},
	{
	"epoch": 0.7090528519099948,
	"grad_norm": 0.0947692422323796,
	"learning_rate": 2.366696757717054e-06,
	"loss": 1.1345,
	"step": 1355
	},
	{
	"epoch": 0.7116692830978545,
	"grad_norm": 0.0928402764545078,
	"learning_rate": 2.327967922877515e-06,
	"loss": 1.2186,
	"step": 1360
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 0.08953711007777569,
	"learning_rate": 2.28946220194746e-06,
	"loss": 1.159,
	"step": 1365
	},
	{
	"epoch": 0.716902145473574,
	"grad_norm": 0.0891685929865638,
	"learning_rate": 2.2511828101435105e-06,
	"loss": 1.1711,
	"step": 1370
	},
	{
	"epoch": 0.7195185766614338,
	"grad_norm": 0.08872499060461402,
	"learning_rate": 2.213132943783864e-06,
	"loss": 1.1262,
	"step": 1375
	},
	{
	"epoch": 0.7221350078492935,
	"grad_norm": 0.09018865422225913,
	"learning_rate": 2.1753157800214107e-06,
	"loss": 1.1448,
	"step": 1380
	},
	{
	"epoch": 0.7247514390371533,
	"grad_norm": 0.09255990516976745,
	"learning_rate": 2.137734476578443e-06,
	"loss": 1.1951,
	"step": 1385
	},
	{
	"epoch": 0.727367870225013,
	"grad_norm": 0.08814414164100583,
	"learning_rate": 2.1003921714829823e-06,
	"loss": 1.1657,
	"step": 1390
	},
	{
	"epoch": 0.7299843014128728,
	"grad_norm": 0.08989614430153806,
	"learning_rate": 2.063291982806759e-06,
	"loss": 1.1201,
	"step": 1395
	},
	{
	"epoch": 0.7326007326007326,
	"grad_norm": 0.09752021041617213,
	"learning_rate": 2.0264370084048498e-06,
	"loss": 1.1853,
	"step": 1400
	},
	{
	"epoch": 0.7352171637885924,
	"grad_norm": 0.0951117119155389,
	"learning_rate": 1.9898303256570093e-06,
	"loss": 1.1325,
	"step": 1405
	},
	{
	"epoch": 0.7378335949764521,
	"grad_norm": 0.09421101398847186,
	"learning_rate": 1.953474991210717e-06,
	"loss": 1.152,
	"step": 1410
	},
	{
	"epoch": 0.7404500261643119,
	"grad_norm": 0.09127814615367837,
	"learning_rate": 1.917374040725935e-06,
	"loss": 1.1695,
	"step": 1415
	},
	{
	"epoch": 0.7430664573521716,
	"grad_norm": 0.0929739978066435,
	"learning_rate": 1.8815304886216385e-06,
	"loss": 1.1487,
	"step": 1420
	},
	{
	"epoch": 0.7456828885400314,
	"grad_norm": 0.09984071894833883,
	"learning_rate": 1.8459473278241125e-06,
	"loss": 1.1208,
	"step": 1425
	},
	{
	"epoch": 0.7482993197278912,
	"grad_norm": 0.08978226240423473,
	"learning_rate": 1.8106275295170462e-06,
	"loss": 1.151,
	"step": 1430
	},
	{
	"epoch": 0.7509157509157509,
	"grad_norm": 0.08592008855291842,
	"learning_rate": 1.7755740428934333e-06,
	"loss": 1.1305,
	"step": 1435
	},
	{
	"epoch": 0.7535321821036107,
	"grad_norm": 0.08991613497803638,
	"learning_rate": 1.7407897949093184e-06,
	"loss": 1.1185,
	"step": 1440
	},
	{
	"epoch": 0.7561486132914704,
	"grad_norm": 0.0881827045855804,
	"learning_rate": 1.7062776900393979e-06,
	"loss": 1.1882,
	"step": 1445
	},
	{
	"epoch": 0.7587650444793302,
	"grad_norm": 0.09823529922897513,
	"learning_rate": 1.6720406100344977e-06,
	"loss": 1.159,
	"step": 1450
	},
	{
	"epoch": 0.7613814756671899,
	"grad_norm": 0.0918690597533081,
	"learning_rate": 1.6380814136809442e-06,
	"loss": 1.1465,
	"step": 1455
	},
	{
	"epoch": 0.7639979068550498,
	"grad_norm": 0.09514583884699968,
	"learning_rate": 1.6044029365618612e-06,
	"loss": 1.1075,
	"step": 1460
	},
	{
	"epoch": 0.7666143380429095,
	"grad_norm": 0.08938834682344118,
	"learning_rate": 1.571007990820394e-06,
	"loss": 1.1776,
	"step": 1465
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.09025983792300737,
	"learning_rate": 1.5378993649249053e-06,
	"loss": 1.1439,
	"step": 1470
	},
	{
	"epoch": 0.771847200418629,
	"grad_norm": 0.12420625501789342,
	"learning_rate": 1.5050798234361269e-06,
	"loss": 1.1878,
	"step": 1475
	},
	{
	"epoch": 0.7744636316064888,
	"grad_norm": 0.0916852143560027,
	"learning_rate": 1.4725521067763298e-06,
	"loss": 1.1365,
	"step": 1480
	},
	{
	"epoch": 0.7770800627943485,
	"grad_norm": 0.08990582712487037,
	"learning_rate": 1.4403189310004917e-06,
	"loss": 1.1606,
	"step": 1485
	},
	{
	"epoch": 0.7796964939822083,
	"grad_norm": 0.0898250912235613,
	"learning_rate": 1.4083829875695172e-06,
	"loss": 1.1369,
	"step": 1490
	},
	{
	"epoch": 0.782312925170068,
	"grad_norm": 0.08643871593208942,
	"learning_rate": 1.376746943125491e-06,
	"loss": 1.1521,
	"step": 1495
	},
	{
	"epoch": 0.7849293563579278,
	"grad_norm": 0.09699351922882188,
	"learning_rate": 1.34541343926902e-06,
	"loss": 1.1538,
	"step": 1500
	},
	{
	"epoch": 0.7875457875457875,
	"grad_norm": 0.09362779687742182,
	"learning_rate": 1.3143850923386586e-06,
	"loss": 1.1545,
	"step": 1505
	},
	{
	"epoch": 0.7901622187336473,
	"grad_norm": 0.0960893233426078,
	"learning_rate": 1.2836644931924469e-06,
	"loss": 1.1819,
	"step": 1510
	},
	{
	"epoch": 0.792778649921507,
	"grad_norm": 0.11158068373603516,
	"learning_rate": 1.2532542069915722e-06,
	"loss": 1.1416,
	"step": 1515
	},
	{
	"epoch": 0.7953950811093669,
	"grad_norm": 0.0891532569068602,
	"learning_rate": 1.2231567729861809e-06,
	"loss": 1.1318,
	"step": 1520
	},
	{
	"epoch": 0.7980115122972266,
	"grad_norm": 0.08941090773600295,
	"learning_rate": 1.1933747043033505e-06,
	"loss": 1.155,
	"step": 1525
	},
	{
	"epoch": 0.8006279434850864,
	"grad_norm": 0.09417150844445865,
	"learning_rate": 1.1639104877372475e-06,
	"loss": 1.1656,
	"step": 1530
	},
	{
	"epoch": 0.8032443746729461,
	"grad_norm": 0.09732531849636676,
	"learning_rate": 1.134766583541475e-06,
	"loss": 1.1511,
	"step": 1535
	},
	{
	"epoch": 0.8058608058608059,
	"grad_norm": 0.09041353322682366,
	"learning_rate": 1.1059454252236457e-06,
	"loss": 1.1633,
	"step": 1540
	},
	{
	"epoch": 0.8084772370486656,
	"grad_norm": 0.08924111402124033,
	"learning_rate": 1.0774494193421842e-06,
	"loss": 1.1638,
	"step": 1545
	},
	{
	"epoch": 0.8110936682365254,
	"grad_norm": 0.08906347087320848,
	"learning_rate": 1.0492809453053836e-06,
	"loss": 1.1428,
	"step": 1550
	},
	{
	"epoch": 0.8137100994243851,
	"grad_norm": 0.09931949226958557,
	"learning_rate": 1.0214423551727188e-06,
	"loss": 1.1551,
	"step": 1555
	},
	{
	"epoch": 0.8163265306122449,
	"grad_norm": 0.09231523884912021,
	"learning_rate": 9.939359734584552e-07,
	"loss": 1.1274,
	"step": 1560
	},
	{
	"epoch": 0.8189429618001046,
	"grad_norm": 0.09024048942683224,
	"learning_rate": 9.667640969375465e-07,
	"loss": 1.1292,
	"step": 1565
	},
	{
	"epoch": 0.8215593929879644,
	"grad_norm": 0.09114167737765824,
	"learning_rate": 9.399289944538664e-07,
	"loss": 1.1618,
	"step": 1570
	},
	{
	"epoch": 0.8241758241758241,
	"grad_norm": 0.09619116235928656,
	"learning_rate": 9.134329067307485e-07,
	"loss": 1.1815,
	"step": 1575
	},
	{
	"epoch": 0.826792255363684,
	"grad_norm": 0.09366351832282298,
	"learning_rate": 8.872780461838931e-07,
	"loss": 1.1743,
	"step": 1580
	},
	{
	"epoch": 0.8294086865515437,
	"grad_norm": 0.09032902184148513,
	"learning_rate": 8.614665967366276e-07,
	"loss": 1.1892,
	"step": 1585
	},
	{
	"epoch": 0.8320251177394035,
	"grad_norm": 0.09293264712898819,
	"learning_rate": 8.360007136375553e-07,
	"loss": 1.165,
	"step": 1590
	},
	{
	"epoch": 0.8346415489272632,
	"grad_norm": 0.09151115721297814,
	"learning_rate": 8.108825232805856e-07,
	"loss": 1.164,
	"step": 1595
	},
	{
	"epoch": 0.837257980115123,
	"grad_norm": 0.09489044639295917,
	"learning_rate": 7.861141230273839e-07,
	"loss": 1.1353,
	"step": 1600
	},
	{
	"epoch": 0.8398744113029827,
	"grad_norm": 0.09562784828651455,
	"learning_rate": 7.61697581032243e-07,
	"loss": 1.1759,
	"step": 1605
	},
	{
	"epoch": 0.8424908424908425,
	"grad_norm": 0.08998604269061755,
	"learning_rate": 7.376349360693952e-07,
	"loss": 1.1508,
	"step": 1610
	},
	{
	"epoch": 0.8451072736787022,
	"grad_norm": 0.09627443444242165,
	"learning_rate": 7.139281973627693e-07,
	"loss": 1.201,
	"step": 1615
	},
	{
	"epoch": 0.847723704866562,
	"grad_norm": 0.08931968675335339,
	"learning_rate": 6.905793444182257e-07,
	"loss": 1.1128,
	"step": 1620
	},
	{
	"epoch": 0.8503401360544217,
	"grad_norm": 0.08954411277957602,
	"learning_rate": 6.675903268582623e-07,
	"loss": 1.1492,
	"step": 1625
	},
	{
	"epoch": 0.8529565672422815,
	"grad_norm": 0.093953286316433,
	"learning_rate": 6.449630642592336e-07,
	"loss": 1.1368,
	"step": 1630
	},
	{
	"epoch": 0.8555729984301413,
	"grad_norm": 0.09373965859270121,
	"learning_rate": 6.22699445991054e-07,
	"loss": 1.198,
	"step": 1635
	},
	{
	"epoch": 0.858189429618001,
	"grad_norm": 0.09061630590131814,
	"learning_rate": 6.008013310594418e-07,
	"loss": 1.132,
	"step": 1640
	},
	{
	"epoch": 0.8608058608058609,
	"grad_norm": 0.09611482874800488,
	"learning_rate": 5.7927054795069e-07,
	"loss": 1.1624,
	"step": 1645
	},
	{
	"epoch": 0.8634222919937206,
	"grad_norm": 0.09051341176877918,
	"learning_rate": 5.581088944789953e-07,
	"loss": 1.1563,
	"step": 1650
	},
	{
	"epoch": 0.8660387231815804,
	"grad_norm": 0.08699408313720076,
	"learning_rate": 5.373181376363312e-07,
	"loss": 1.1935,
	"step": 1655
	},
	{
	"epoch": 0.8686551543694401,
	"grad_norm": 0.09489646346012261,
	"learning_rate": 5.169000134449115e-07,
	"loss": 1.185,
	"step": 1660
	},
	{
	"epoch": 0.8712715855572999,
	"grad_norm": 0.09257338125449141,
	"learning_rate": 4.968562268122285e-07,
	"loss": 1.1777,
	"step": 1665
	},
	{
	"epoch": 0.8738880167451596,
	"grad_norm": 0.09184746461118028,
	"learning_rate": 4.771884513886998e-07,
	"loss": 1.1872,
	"step": 1670
	},
	{
	"epoch": 0.8765044479330194,
	"grad_norm": 0.09013545936327065,
	"learning_rate": 4.578983294279138e-07,
	"loss": 1.1465,
	"step": 1675
	},
	{
	"epoch": 0.8791208791208791,
	"grad_norm": 0.09456190273676769,
	"learning_rate": 4.389874716495013e-07,
	"loss": 1.1729,
	"step": 1680
	},
	{
	"epoch": 0.8817373103087389,
	"grad_norm": 0.09236101919389716,
	"learning_rate": 4.204574571046438e-07,
	"loss": 1.1816,
	"step": 1685
	},
	{
	"epoch": 0.8843537414965986,
	"grad_norm": 0.09172117579338826,
	"learning_rate": 4.0230983304422543e-07,
	"loss": 1.1846,
	"step": 1690
	},
	{
	"epoch": 0.8869701726844584,
	"grad_norm": 0.09136763206816247,
	"learning_rate": 3.8454611478963235e-07,
	"loss": 1.1894,
	"step": 1695
	},
	{
	"epoch": 0.8895866038723181,
	"grad_norm": 0.09361682354937588,
	"learning_rate": 3.671677856062261e-07,
	"loss": 1.1359,
	"step": 1700
	},
	{
	"epoch": 0.892203035060178,
	"grad_norm": 0.09300698311619561,
	"learning_rate": 3.501762965794919e-07,
	"loss": 1.188,
	"step": 1705
	},
	{
	"epoch": 0.8948194662480377,
	"grad_norm": 0.08947489152597186,
	"learning_rate": 3.335730664938758e-07,
	"loss": 1.1547,
	"step": 1710
	},
	{
	"epoch": 0.8974358974358975,
	"grad_norm": 0.0910579074415647,
	"learning_rate": 3.1735948171431e-07,
	"loss": 1.1491,
	"step": 1715
	},
	{
	"epoch": 0.9000523286237572,
	"grad_norm": 0.0928618229612821,
	"learning_rate": 3.015368960704584e-07,
	"loss": 1.192,
	"step": 1720
	},
	{
	"epoch": 0.902668759811617,
	"grad_norm": 0.09756621044157429,
	"learning_rate": 2.8610663074366773e-07,
	"loss": 1.1696,
	"step": 1725
	},
	{
	"epoch": 0.9052851909994767,
	"grad_norm": 0.0921375489250745,
	"learning_rate": 2.7106997415665527e-07,
	"loss": 1.1309,
	"step": 1730
	},
	{
	"epoch": 0.9079016221873365,
	"grad_norm": 0.09207854242951917,
	"learning_rate": 2.564281818659159e-07,
	"loss": 1.1251,
	"step": 1735
	},
	{
	"epoch": 0.9105180533751962,
	"grad_norm": 0.09352988984475613,
	"learning_rate": 2.4218247645689306e-07,
	"loss": 1.1971,
	"step": 1740
	},
	{
	"epoch": 0.913134484563056,
	"grad_norm": 0.08856172913123674,
	"learning_rate": 2.2833404744188824e-07,
	"loss": 1.1427,
	"step": 1745
	},
	{
	"epoch": 0.9157509157509157,
	"grad_norm": 0.09697929384761596,
	"learning_rate": 2.1488405116074028e-07,
	"loss": 1.1201,
	"step": 1750
	},
	{
	"epoch": 0.9183673469387755,
	"grad_norm": 0.0960470883117448,
	"learning_rate": 2.0183361068426778e-07,
	"loss": 1.1678,
	"step": 1755
	},
	{
	"epoch": 0.9209837781266352,
	"grad_norm": 0.09009468323982603,
	"learning_rate": 1.8918381572049393e-07,
	"loss": 1.15,
	"step": 1760
	},
	{
	"epoch": 0.923600209314495,
	"grad_norm": 0.09038500937307103,
	"learning_rate": 1.7693572252365841e-07,
	"loss": 1.1524,
	"step": 1765
	},
	{
	"epoch": 0.9262166405023547,
	"grad_norm": 0.0935616350765029,
	"learning_rate": 1.650903538060189e-07,
	"loss": 1.1654,
	"step": 1770
	},
	{
	"epoch": 0.9288330716902146,
	"grad_norm": 0.09353048793106586,
	"learning_rate": 1.536486986524538e-07,
	"loss": 1.1752,
	"step": 1775
	},
	{
	"epoch": 0.9314495028780743,
	"grad_norm": 0.09494299784964721,
	"learning_rate": 1.426117124378762e-07,
	"loss": 1.1574,
	"step": 1780
	},
	{
	"epoch": 0.9340659340659341,
	"grad_norm": 0.09202594407561465,
	"learning_rate": 1.3198031674745814e-07,
	"loss": 1.1091,
	"step": 1785
	},
	{
	"epoch": 0.9366823652537938,
	"grad_norm": 0.09485952901545334,
	"learning_rate": 1.2175539929968117e-07,
	"loss": 1.1455,
	"step": 1790
	},
	{
	"epoch": 0.9392987964416536,
	"grad_norm": 0.0898806651171433,
	"learning_rate": 1.1193781387220936e-07,
	"loss": 1.1468,
	"step": 1795
	},
	{
	"epoch": 0.9419152276295133,
	"grad_norm": 0.09584452763045823,
	"learning_rate": 1.0252838023059985e-07,
	"loss": 1.1922,
	"step": 1800
	},
	{
	"epoch": 0.9445316588173731,
	"grad_norm": 0.09231922052171501,
	"learning_rate": 9.352788405985469e-08,
	"loss": 1.1465,
	"step": 1805
	},
	{
	"epoch": 0.9471480900052328,
	"grad_norm": 0.09015656002427216,
	"learning_rate": 8.493707689881448e-08,
	"loss": 1.149,
	"step": 1810
	},
	{
	"epoch": 0.9497645211930926,
	"grad_norm": 0.08904186680424883,
	"learning_rate": 7.675667607740356e-08,
	"loss": 1.1633,
	"step": 1815
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 0.09460621552754211,
	"learning_rate": 6.898736465673739e-08,
	"loss": 1.1649,
	"step": 1820
	},
	{
	"epoch": 0.9549973835688121,
	"grad_norm": 0.09701362107852395,
	"learning_rate": 6.162979137208314e-08,
	"loss": 1.1721,
	"step": 1825
	},
	{
	"epoch": 0.957613814756672,
	"grad_norm": 0.09119591337917335,
	"learning_rate": 5.468457057869358e-08,
	"loss": 1.1421,
	"step": 1830
	},
	{
	"epoch": 0.9602302459445317,
	"grad_norm": 0.09386063000292352,
	"learning_rate": 4.815228220050538e-08,
	"loss": 1.1494,
	"step": 1835
	},
	{
	"epoch": 0.9628466771323915,
	"grad_norm": 0.09314853572272408,
	"learning_rate": 4.2033471681718895e-08,
	"loss": 1.1461,
	"step": 1840
	},
	{
	"epoch": 0.9654631083202512,
	"grad_norm": 0.09482802830237459,
	"learning_rate": 3.632864994125129e-08,
	"loss": 1.1258,
	"step": 1845
	},
	{
	"epoch": 0.968079539508111,
	"grad_norm": 0.09214541317430823,
	"learning_rate": 3.103829333007624e-08,
	"loss": 1.1607,
	"step": 1850
	},
	{
	"epoch": 0.9706959706959707,
	"grad_norm": 0.09498845107605784,
	"learning_rate": 2.616284359144794e-08,
	"loss": 1.1273,
	"step": 1855
	},
	{
	"epoch": 0.9733124018838305,
	"grad_norm": 0.09632397271400663,
	"learning_rate": 2.1702707824017287e-08,
	"loss": 1.1715,
	"step": 1860
	},
	{
	"epoch": 0.9759288330716902,
	"grad_norm": 0.09265306344478029,
	"learning_rate": 1.7658258447836306e-08,
	"loss": 1.177,
	"step": 1865
	},
	{
	"epoch": 0.97854526425955,
	"grad_norm": 0.09534022115904282,
	"learning_rate": 1.4029833173264673e-08,
	"loss": 1.1683,
	"step": 1870
	},
	{
	"epoch": 0.9811616954474097,
	"grad_norm": 0.09336462707005236,
	"learning_rate": 1.0817734972768946e-08,
	"loss": 1.1523,
	"step": 1875
	},
	{
	"epoch": 0.9837781266352695,
	"grad_norm": 0.09623214092200802,
	"learning_rate": 8.022232055623913e-09,
	"loss": 1.1352,
	"step": 1880
	},
	{
	"epoch": 0.9863945578231292,
	"grad_norm": 0.09408768079361217,
	"learning_rate": 5.643557845518843e-09,
	"loss": 1.1799,
	"step": 1885
	},
	{
	"epoch": 0.989010989010989,
	"grad_norm": 0.09123794699673446,
	"learning_rate": 3.6819109610658486e-09,
	"loss": 1.1595,
	"step": 1890
	},
	{
	"epoch": 0.9916274201988488,
	"grad_norm": 0.09345060971759653,
	"learning_rate": 2.137455199215377e-09,
	"loss": 1.1038,
	"step": 1895
	},
	{
	"epoch": 0.9942438513867086,
	"grad_norm": 0.09109158309879825,
	"learning_rate": 1.0103195215788175e-09,
	"loss": 1.1526,
	"step": 1900
	},
	{
	"epoch": 0.9968602825745683,
	"grad_norm": 0.08848167389727797,
	"learning_rate": 3.005980436604494e-10,
	"loss": 1.1857,
	"step": 1905
	},
	{
	"epoch": 0.9994767137624281,
	"grad_norm": 0.09385894732886857,
	"learning_rate": 8.350027000392224e-12,
	"loss": 1.1728,
	"step": 1910
	},
	{
	"epoch": 1.0,
	"eval_runtime": 3.7017,
	"eval_samples_per_second": 2.701,
	"eval_steps_per_second": 0.81,
	"step": 1911
	},
	{
	"epoch": 1.0,
	"step": 1911,
	"total_flos": 2.014665441804288e+16,
	"train_loss": 1.17021960310135,
	"train_runtime": 9201.8355,
	"train_samples_per_second": 3.321,
	"train_steps_per_second": 0.208
	}
	],
	"logging_steps": 5,
	"max_steps": 1911,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.014665441804288e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}