Upload LoRA adapter folder

11ae149 verified 5 months ago

30.1 kB

	{
	"best_metric": 0.09759029000997543,
	"best_model_checkpoint": "./xlam_lora_new_2560_1_delete_over_size_3epoch_multi_t2/checkpoint-1384",
	"epoch": 2.9994592321095954,
	"eval_steps": 173,
	"global_step": 1560,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.019227302769933306,
	"grad_norm": 0.8343315720558167,
	"learning_rate": 3.846153846153846e-06,
	"loss": 0.6641,
	"step": 10
	},
	{
	"epoch": 0.03845460553986661,
	"grad_norm": 0.461275190114975,
	"learning_rate": 7.692307692307692e-06,
	"loss": 0.6363,
	"step": 20
	},
	{
	"epoch": 0.05768190830979992,
	"grad_norm": 0.5201115608215332,
	"learning_rate": 1.153846153846154e-05,
	"loss": 0.6127,
	"step": 30
	},
	{
	"epoch": 0.07690921107973323,
	"grad_norm": 0.3447195589542389,
	"learning_rate": 1.5384615384615384e-05,
	"loss": 0.5328,
	"step": 40
	},
	{
	"epoch": 0.09613651384966652,
	"grad_norm": 0.37843698263168335,
	"learning_rate": 1.923076923076923e-05,
	"loss": 0.4072,
	"step": 50
	},
	{
	"epoch": 0.11536381661959984,
	"grad_norm": 0.3421487510204315,
	"learning_rate": 2.307692307692308e-05,
	"loss": 0.3608,
	"step": 60
	},
	{
	"epoch": 0.13459111938953314,
	"grad_norm": 0.28197693824768066,
	"learning_rate": 2.6923076923076923e-05,
	"loss": 0.3121,
	"step": 70
	},
	{
	"epoch": 0.15381842215946645,
	"grad_norm": 0.2969784438610077,
	"learning_rate": 2.999986518943083e-05,
	"loss": 0.2089,
	"step": 80
	},
	{
	"epoch": 0.17304572492939974,
	"grad_norm": 0.35552915930747986,
	"learning_rate": 2.999514707393943e-05,
	"loss": 0.238,
	"step": 90
	},
	{
	"epoch": 0.19227302769933305,
	"grad_norm": 0.36513009667396545,
	"learning_rate": 2.9983690852978995e-05,
	"loss": 0.2228,
	"step": 100
	},
	{
	"epoch": 0.21150033046926636,
	"grad_norm": 0.3532279431819916,
	"learning_rate": 2.996550167443001e-05,
	"loss": 0.2321,
	"step": 110
	},
	{
	"epoch": 0.23072763323919968,
	"grad_norm": 0.35095521807670593,
	"learning_rate": 2.9940587711643693e-05,
	"loss": 0.1888,
	"step": 120
	},
	{
	"epoch": 0.24995493600913296,
	"grad_norm": 0.2918124198913574,
	"learning_rate": 2.9908960159769243e-05,
	"loss": 0.1585,
	"step": 130
	},
	{
	"epoch": 0.2691822387790663,
	"grad_norm": 0.372545063495636,
	"learning_rate": 2.9870633230723313e-05,
	"loss": 0.1973,
	"step": 140
	},
	{
	"epoch": 0.28840954154899956,
	"grad_norm": 0.36561667919158936,
	"learning_rate": 2.9825624146803807e-05,
	"loss": 0.1859,
	"step": 150
	},
	{
	"epoch": 0.3076368443189329,
	"grad_norm": 0.38816386461257935,
	"learning_rate": 2.977395313295105e-05,
	"loss": 0.1965,
	"step": 160
	},
	{
	"epoch": 0.3268641470888662,
	"grad_norm": 0.3820708096027374,
	"learning_rate": 2.971564340765961e-05,
	"loss": 0.1516,
	"step": 170
	},
	{
	"epoch": 0.3326323379198462,
	"eval_loss": 0.13869456946849823,
	"eval_runtime": 203.7684,
	"eval_samples_per_second": 5.261,
	"eval_steps_per_second": 5.261,
	"step": 173
	},
	{
	"epoch": 0.34609144985879947,
	"grad_norm": 0.41539186239242554,
	"learning_rate": 2.9650721172545048e-05,
	"loss": 0.1895,
	"step": 180
	},
	{
	"epoch": 0.3653187526287328,
	"grad_norm": 0.4073317348957062,
	"learning_rate": 2.9579215600570152e-05,
	"loss": 0.1545,
	"step": 190
	},
	{
	"epoch": 0.3845460553986661,
	"grad_norm": 0.3595292866230011,
	"learning_rate": 2.950115882293597e-05,
	"loss": 0.1629,
	"step": 200
	},
	{
	"epoch": 0.40377335816859944,
	"grad_norm": 0.28112220764160156,
	"learning_rate": 2.9416585914643627e-05,
	"loss": 0.1576,
	"step": 210
	},
	{
	"epoch": 0.4230006609385327,
	"grad_norm": 0.4690268933773041,
	"learning_rate": 2.932553487873324e-05,
	"loss": 0.1614,
	"step": 220
	},
	{
	"epoch": 0.442227963708466,
	"grad_norm": 0.5640648007392883,
	"learning_rate": 2.922804662920718e-05,
	"loss": 0.1689,
	"step": 230
	},
	{
	"epoch": 0.46145526647839935,
	"grad_norm": 0.6498159766197205,
	"learning_rate": 2.912416497264529e-05,
	"loss": 0.1704,
	"step": 240
	},
	{
	"epoch": 0.48068256924833264,
	"grad_norm": 0.46260717511177063,
	"learning_rate": 2.9013936588520235e-05,
	"loss": 0.1938,
	"step": 250
	},
	{
	"epoch": 0.4999098720182659,
	"grad_norm": 0.44871020317077637,
	"learning_rate": 2.8897411008222026e-05,
	"loss": 0.1674,
	"step": 260
	},
	{
	"epoch": 0.5191371747881992,
	"grad_norm": 0.5815374255180359,
	"learning_rate": 2.8774640592800948e-05,
	"loss": 0.1424,
	"step": 270
	},
	{
	"epoch": 0.5383644775581325,
	"grad_norm": 0.5914287567138672,
	"learning_rate": 2.864568050943899e-05,
	"loss": 0.1818,
	"step": 280
	},
	{
	"epoch": 0.5575917803280659,
	"grad_norm": 0.5079910755157471,
	"learning_rate": 2.8510588706660338e-05,
	"loss": 0.1633,
	"step": 290
	},
	{
	"epoch": 0.5768190830979991,
	"grad_norm": 0.5987181067466736,
	"learning_rate": 2.836942588829208e-05,
	"loss": 0.1455,
	"step": 300
	},
	{
	"epoch": 0.5960463858679325,
	"grad_norm": 0.6342700719833374,
	"learning_rate": 2.8222255486186798e-05,
	"loss": 0.1522,
	"step": 310
	},
	{
	"epoch": 0.6152736886378658,
	"grad_norm": 0.5555654764175415,
	"learning_rate": 2.8069143631719276e-05,
	"loss": 0.1394,
	"step": 320
	},
	{
	"epoch": 0.634500991407799,
	"grad_norm": 0.5811598300933838,
	"learning_rate": 2.7910159126070257e-05,
	"loss": 0.1623,
	"step": 330
	},
	{
	"epoch": 0.6537282941777324,
	"grad_norm": 0.7482380270957947,
	"learning_rate": 2.774537340931043e-05,
	"loss": 0.1458,
	"step": 340
	},
	{
	"epoch": 0.6652646758396924,
	"eval_loss": 0.11664145439863205,
	"eval_runtime": 203.7283,
	"eval_samples_per_second": 5.262,
	"eval_steps_per_second": 5.262,
	"step": 346
	},
	{
	"epoch": 0.6729555969476657,
	"grad_norm": 0.5891281962394714,
	"learning_rate": 2.7574860528298677e-05,
	"loss": 0.1406,
	"step": 350
	},
	{
	"epoch": 0.6921828997175989,
	"grad_norm": 0.5311967730522156,
	"learning_rate": 2.739869710340894e-05,
	"loss": 0.1525,
	"step": 360
	},
	{
	"epoch": 0.7114102024875323,
	"grad_norm": 0.5632440447807312,
	"learning_rate": 2.7216962294100668e-05,
	"loss": 0.1392,
	"step": 370
	},
	{
	"epoch": 0.7306375052574656,
	"grad_norm": 0.6121944785118103,
	"learning_rate": 2.7029737763348316e-05,
	"loss": 0.1602,
	"step": 380
	},
	{
	"epoch": 0.7498648080273989,
	"grad_norm": 0.6687933802604675,
	"learning_rate": 2.6837107640945904e-05,
	"loss": 0.1583,
	"step": 390
	},
	{
	"epoch": 0.7690921107973322,
	"grad_norm": 0.5596562623977661,
	"learning_rate": 2.6639158485703087e-05,
	"loss": 0.1667,
	"step": 400
	},
	{
	"epoch": 0.7883194135672655,
	"grad_norm": 0.7156023979187012,
	"learning_rate": 2.6435979246549727e-05,
	"loss": 0.1438,
	"step": 410
	},
	{
	"epoch": 0.8075467163371989,
	"grad_norm": 0.5293470621109009,
	"learning_rate": 2.6227661222566516e-05,
	"loss": 0.1865,
	"step": 420
	},
	{
	"epoch": 0.8267740191071321,
	"grad_norm": 0.5734898447990417,
	"learning_rate": 2.6014298021959482e-05,
	"loss": 0.1477,
	"step": 430
	},
	{
	"epoch": 0.8460013218770654,
	"grad_norm": 0.5020838975906372,
	"learning_rate": 2.5795985519996915e-05,
	"loss": 0.1303,
	"step": 440
	},
	{
	"epoch": 0.8652286246469988,
	"grad_norm": 0.6881216764450073,
	"learning_rate": 2.5572821815927615e-05,
	"loss": 0.1429,
	"step": 450
	},
	{
	"epoch": 0.884455927416932,
	"grad_norm": 0.4911053776741028,
	"learning_rate": 2.5344907188899715e-05,
	"loss": 0.1547,
	"step": 460
	},
	{
	"epoch": 0.9036832301868654,
	"grad_norm": 0.8948251605033875,
	"learning_rate": 2.511234405290005e-05,
	"loss": 0.136,
	"step": 470
	},
	{
	"epoch": 0.9229105329567987,
	"grad_norm": 0.4923257529735565,
	"learning_rate": 2.4875236910734145e-05,
	"loss": 0.123,
	"step": 480
	},
	{
	"epoch": 0.9421378357267319,
	"grad_norm": 0.6984175443649292,
	"learning_rate": 2.4633692307067654e-05,
	"loss": 0.1519,
	"step": 490
	},
	{
	"epoch": 0.9613651384966653,
	"grad_norm": 0.6080285310745239,
	"learning_rate": 2.4387818780550236e-05,
	"loss": 0.1267,
	"step": 500
	},
	{
	"epoch": 0.9805924412665986,
	"grad_norm": 0.6914392113685608,
	"learning_rate": 2.4137726815043483e-05,
	"loss": 0.1664,
	"step": 510
	},
	{
	"epoch": 0.9978970137595385,
	"eval_loss": 0.10869105905294418,
	"eval_runtime": 203.0899,
	"eval_samples_per_second": 5.278,
	"eval_steps_per_second": 5.278,
	"step": 519
	},
	{
	"epoch": 0.9998197440365318,
	"grad_norm": 0.5257564187049866,
	"learning_rate": 2.3883528789974703e-05,
	"loss": 0.1474,
	"step": 520
	},
	{
	"epoch": 1.0190470468064652,
	"grad_norm": 0.5023784041404724,
	"learning_rate": 2.3625338929838952e-05,
	"loss": 0.1057,
	"step": 530
	},
	{
	"epoch": 1.0382743495763984,
	"grad_norm": 0.6757215857505798,
	"learning_rate": 2.3363273252872003e-05,
	"loss": 0.1477,
	"step": 540
	},
	{
	"epoch": 1.0575016523463319,
	"grad_norm": 0.5462861657142639,
	"learning_rate": 2.3097449518917257e-05,
	"loss": 0.1205,
	"step": 550
	},
	{
	"epoch": 1.076728955116265,
	"grad_norm": 0.7116460800170898,
	"learning_rate": 2.2827987176510082e-05,
	"loss": 0.1164,
	"step": 560
	},
	{
	"epoch": 1.0959562578861983,
	"grad_norm": 0.5546866655349731,
	"learning_rate": 2.255500730920332e-05,
	"loss": 0.1304,
	"step": 570
	},
	{
	"epoch": 1.1151835606561318,
	"grad_norm": 0.4724363088607788,
	"learning_rate": 2.2278632581158095e-05,
	"loss": 0.1295,
	"step": 580
	},
	{
	"epoch": 1.134410863426065,
	"grad_norm": 1.0140602588653564,
	"learning_rate": 2.1998987182024384e-05,
	"loss": 0.1122,
	"step": 590
	},
	{
	"epoch": 1.1536381661959982,
	"grad_norm": 0.790867805480957,
	"learning_rate": 2.1716196771136115e-05,
	"loss": 0.1169,
	"step": 600
	},
	{
	"epoch": 1.1728654689659317,
	"grad_norm": 0.6885173320770264,
	"learning_rate": 2.1430388421045812e-05,
	"loss": 0.1352,
	"step": 610
	},
	{
	"epoch": 1.192092771735865,
	"grad_norm": 0.6807064414024353,
	"learning_rate": 2.1141690560424253e-05,
	"loss": 0.1226,
	"step": 620
	},
	{
	"epoch": 1.2113200745057981,
	"grad_norm": 0.5460578799247742,
	"learning_rate": 2.0850232916350735e-05,
	"loss": 0.1214,
	"step": 630
	},
	{
	"epoch": 1.2305473772757316,
	"grad_norm": 0.7612866163253784,
	"learning_rate": 2.05561464560199e-05,
	"loss": 0.1164,
	"step": 640
	},
	{
	"epoch": 1.2497746800456648,
	"grad_norm": 0.38693496584892273,
	"learning_rate": 2.025956332789132e-05,
	"loss": 0.1398,
	"step": 650
	},
	{
	"epoch": 1.269001982815598,
	"grad_norm": 0.5924756526947021,
	"learning_rate": 1.996061680230823e-05,
	"loss": 0.1214,
	"step": 660
	},
	{
	"epoch": 1.2882292855855315,
	"grad_norm": 0.7164785861968994,
	"learning_rate": 1.9659441211612234e-05,
	"loss": 0.1226,
	"step": 670
	},
	{
	"epoch": 1.3074565883554647,
	"grad_norm": 0.5729460716247559,
	"learning_rate": 1.93561718897807e-05,
	"loss": 0.1481,
	"step": 680
	},
	{
	"epoch": 1.326683891125398,
	"grad_norm": 0.6892575025558472,
	"learning_rate": 1.9050945111614142e-05,
	"loss": 0.1498,
	"step": 690
	},
	{
	"epoch": 1.3305293516793848,
	"eval_loss": 0.10392692685127258,
	"eval_runtime": 203.0603,
	"eval_samples_per_second": 5.279,
	"eval_steps_per_second": 5.279,
	"step": 692
	},
	{
	"epoch": 1.3459111938953314,
	"grad_norm": 0.5614696145057678,
	"learning_rate": 1.8743898031500772e-05,
	"loss": 0.1105,
	"step": 700
	},
	{
	"epoch": 1.3651384966652647,
	"grad_norm": 0.6355635523796082,
	"learning_rate": 1.843516862178589e-05,
	"loss": 0.1291,
	"step": 710
	},
	{
	"epoch": 1.3843657994351979,
	"grad_norm": 0.7176327109336853,
	"learning_rate": 1.8124895610773645e-05,
	"loss": 0.1387,
	"step": 720
	},
	{
	"epoch": 1.4035931022051313,
	"grad_norm": 0.9504517316818237,
	"learning_rate": 1.781321842038914e-05,
	"loss": 0.1346,
	"step": 730
	},
	{
	"epoch": 1.4228204049750646,
	"grad_norm": 0.7893795371055603,
	"learning_rate": 1.7500277103528883e-05,
	"loss": 0.1224,
	"step": 740
	},
	{
	"epoch": 1.4420477077449978,
	"grad_norm": 0.5944446921348572,
	"learning_rate": 1.718621228112764e-05,
	"loss": 0.1095,
	"step": 750
	},
	{
	"epoch": 1.4612750105149312,
	"grad_norm": 0.5783366560935974,
	"learning_rate": 1.6871165078970118e-05,
	"loss": 0.1116,
	"step": 760
	},
	{
	"epoch": 1.4805023132848645,
	"grad_norm": 0.6842564940452576,
	"learning_rate": 1.6555277064275717e-05,
	"loss": 0.1215,
	"step": 770
	},
	{
	"epoch": 1.4997296160547977,
	"grad_norm": 0.5818539261817932,
	"learning_rate": 1.623869018208499e-05,
	"loss": 0.1283,
	"step": 780
	},
	{
	"epoch": 1.5189569188247312,
	"grad_norm": 0.658789336681366,
	"learning_rate": 1.5921546691476264e-05,
	"loss": 0.1168,
	"step": 790
	},
	{
	"epoch": 1.5381842215946644,
	"grad_norm": 0.7144546508789062,
	"learning_rate": 1.5603989101641228e-05,
	"loss": 0.1247,
	"step": 800
	},
	{
	"epoch": 1.5574115243645976,
	"grad_norm": 0.5796612501144409,
	"learning_rate": 1.5286160107848036e-05,
	"loss": 0.1279,
	"step": 810
	},
	{
	"epoch": 1.576638827134531,
	"grad_norm": 0.6537405252456665,
	"learning_rate": 1.4968202527320868e-05,
	"loss": 0.1396,
	"step": 820
	},
	{
	"epoch": 1.5958661299044643,
	"grad_norm": 0.7590240836143494,
	"learning_rate": 1.4650259235064662e-05,
	"loss": 0.1183,
	"step": 830
	},
	{
	"epoch": 1.6150934326743975,
	"grad_norm": 0.6850148439407349,
	"learning_rate": 1.43324730996639e-05,
	"loss": 0.1277,
	"step": 840
	},
	{
	"epoch": 1.634320735444331,
	"grad_norm": 0.7500022053718567,
	"learning_rate": 1.4014986919084228e-05,
	"loss": 0.1285,
	"step": 850
	},
	{
	"epoch": 1.6535480382142642,
	"grad_norm": 0.6234251856803894,
	"learning_rate": 1.3697943356505897e-05,
	"loss": 0.1071,
	"step": 860
	},
	{
	"epoch": 1.663161689599231,
	"eval_loss": 0.10122876614332199,
	"eval_runtime": 203.2008,
	"eval_samples_per_second": 5.276,
	"eval_steps_per_second": 5.276,
	"step": 865
	},
	{
	"epoch": 1.6727753409841974,
	"grad_norm": 1.0110090970993042,
	"learning_rate": 1.3381484876217669e-05,
	"loss": 0.1252,
	"step": 870
	},
	{
	"epoch": 1.692002643754131,
	"grad_norm": 0.8749274611473083,
	"learning_rate": 1.3065753679600186e-05,
	"loss": 0.1086,
	"step": 880
	},
	{
	"epoch": 1.7112299465240641,
	"grad_norm": 0.563439667224884,
	"learning_rate": 1.2750891641227418e-05,
	"loss": 0.1273,
	"step": 890
	},
	{
	"epoch": 1.7304572492939974,
	"grad_norm": 0.6679959297180176,
	"learning_rate": 1.2437040245114966e-05,
	"loss": 0.1124,
	"step": 900
	},
	{
	"epoch": 1.7496845520639308,
	"grad_norm": 0.8824312090873718,
	"learning_rate": 1.2124340521143929e-05,
	"loss": 0.1275,
	"step": 910
	},
	{
	"epoch": 1.768911854833864,
	"grad_norm": 0.6557831168174744,
	"learning_rate": 1.1812932981688715e-05,
	"loss": 0.1207,
	"step": 920
	},
	{
	"epoch": 1.7881391576037973,
	"grad_norm": 0.5608255863189697,
	"learning_rate": 1.1502957558477537e-05,
	"loss": 0.1095,
	"step": 930
	},
	{
	"epoch": 1.8073664603737307,
	"grad_norm": 0.8327426910400391,
	"learning_rate": 1.119455353971371e-05,
	"loss": 0.1423,
	"step": 940
	},
	{
	"epoch": 1.826593763143664,
	"grad_norm": 0.7187633514404297,
	"learning_rate": 1.0887859507486183e-05,
	"loss": 0.1142,
	"step": 950
	},
	{
	"epoch": 1.8458210659135972,
	"grad_norm": 0.7449970841407776,
	"learning_rate": 1.0583013275497318e-05,
	"loss": 0.1315,
	"step": 960
	},
	{
	"epoch": 1.8650483686835306,
	"grad_norm": 0.5967345237731934,
	"learning_rate": 1.0280151827136e-05,
	"loss": 0.1147,
	"step": 970
	},
	{
	"epoch": 1.884275671453464,
	"grad_norm": 0.8269909024238586,
	"learning_rate": 9.979411253923813e-06,
	"loss": 0.131,
	"step": 980
	},
	{
	"epoch": 1.903502974223397,
	"grad_norm": 0.6085448861122131,
	"learning_rate": 9.680926694361966e-06,
	"loss": 0.1339,
	"step": 990
	},
	{
	"epoch": 1.9227302769933305,
	"grad_norm": 0.7495784163475037,
	"learning_rate": 9.384832273206514e-06,
	"loss": 0.1324,
	"step": 1000
	},
	{
	"epoch": 1.941957579763264,
	"grad_norm": 0.8735560178756714,
	"learning_rate": 9.091261041199051e-06,
	"loss": 0.1225,
	"step": 1010
	},
	{
	"epoch": 1.961184882533197,
	"grad_norm": 0.7350926995277405,
	"learning_rate": 8.80034491528005e-06,
	"loss": 0.1108,
	"step": 1020
	},
	{
	"epoch": 1.9804121853031305,
	"grad_norm": 0.7938897013664246,
	"learning_rate": 8.51221461931167e-06,
	"loss": 0.1416,
	"step": 1030
	},
	{
	"epoch": 1.995794027519077,
	"eval_loss": 0.09892405569553375,
	"eval_runtime": 202.9814,
	"eval_samples_per_second": 5.281,
	"eval_steps_per_second": 5.281,
	"step": 1038
	},
	{
	"epoch": 1.999639488073064,
	"grad_norm": 1.0423219203948975,
	"learning_rate": 8.226999625336663e-06,
	"loss": 0.1597,
	"step": 1040
	},
	{
	"epoch": 2.018866790842997,
	"grad_norm": 0.7138562202453613,
	"learning_rate": 7.944828095399802e-06,
	"loss": 0.1114,
	"step": 1050
	},
	{
	"epoch": 2.0380940936129304,
	"grad_norm": 0.6143700480461121,
	"learning_rate": 7.66582682395797e-06,
	"loss": 0.1066,
	"step": 1060
	},
	{
	"epoch": 2.057321396382864,
	"grad_norm": 0.8447745442390442,
	"learning_rate": 7.390121180904763e-06,
	"loss": 0.113,
	"step": 1070
	},
	{
	"epoch": 2.076548699152797,
	"grad_norm": 0.41642722487449646,
	"learning_rate": 7.117835055235195e-06,
	"loss": 0.1095,
	"step": 1080
	},
	{
	"epoch": 2.0957760019227303,
	"grad_norm": 0.7106382250785828,
	"learning_rate": 6.849090799375931e-06,
	"loss": 0.1214,
	"step": 1090
	},
	{
	"epoch": 2.1150033046926637,
	"grad_norm": 0.6263849139213562,
	"learning_rate": 6.584009174205888e-06,
	"loss": 0.1293,
	"step": 1100
	},
	{
	"epoch": 2.1342306074625967,
	"grad_norm": 0.7726497054100037,
	"learning_rate": 6.322709294792051e-06,
	"loss": 0.1394,
	"step": 1110
	},
	{
	"epoch": 2.15345791023253,
	"grad_norm": 0.7134016752243042,
	"learning_rate": 6.065308576864859e-06,
	"loss": 0.1039,
	"step": 1120
	},
	{
	"epoch": 2.1726852130024636,
	"grad_norm": 0.6412186026573181,
	"learning_rate": 5.811922684057118e-06,
	"loss": 0.1151,
	"step": 1130
	},
	{
	"epoch": 2.1919125157723967,
	"grad_norm": 0.9640927314758301,
	"learning_rate": 5.5626654759303085e-06,
	"loss": 0.1247,
	"step": 1140
	},
	{
	"epoch": 2.21113981854233,
	"grad_norm": 0.8550817370414734,
	"learning_rate": 5.3176489568115e-06,
	"loss": 0.1069,
	"step": 1150
	},
	{
	"epoch": 2.2303671213122636,
	"grad_norm": 0.6239781975746155,
	"learning_rate": 5.0769832254639355e-06,
	"loss": 0.1013,
	"step": 1160
	},
	{
	"epoch": 2.2495944240821966,
	"grad_norm": 0.7141818404197693,
	"learning_rate": 4.840776425613887e-06,
	"loss": 0.0976,
	"step": 1170
	},
	{
	"epoch": 2.26882172685213,
	"grad_norm": 0.48725616931915283,
	"learning_rate": 4.609134697356009e-06,
	"loss": 0.1049,
	"step": 1180
	},
	{
	"epoch": 2.2880490296220635,
	"grad_norm": 0.8563340902328491,
	"learning_rate": 4.382162129459055e-06,
	"loss": 0.0988,
	"step": 1190
	},
	{
	"epoch": 2.3072763323919965,
	"grad_norm": 0.7721908092498779,
	"learning_rate": 4.159960712593301e-06,
	"loss": 0.1022,
	"step": 1200
	},
	{
	"epoch": 2.32650363516193,
	"grad_norm": 0.6547017097473145,
	"learning_rate": 3.942630293500821e-06,
	"loss": 0.1321,
	"step": 1210
	},
	{
	"epoch": 2.3284263654389235,
	"eval_loss": 0.09838072210550308,
	"eval_runtime": 203.6342,
	"eval_samples_per_second": 5.264,
	"eval_steps_per_second": 5.264,
	"step": 1211
	},
	{
	"epoch": 2.3457309379318634,
	"grad_norm": 0.6637281775474548,
	"learning_rate": 3.730268530129097e-06,
	"loss": 0.0987,
	"step": 1220
	},
	{
	"epoch": 2.3649582407017964,
	"grad_norm": 0.9455267786979675,
	"learning_rate": 3.522970847748196e-06,
	"loss": 0.1286,
	"step": 1230
	},
	{
	"epoch": 2.38418554347173,
	"grad_norm": 0.7048280239105225,
	"learning_rate": 3.3208303960711895e-06,
	"loss": 0.0998,
	"step": 1240
	},
	{
	"epoch": 2.4034128462416633,
	"grad_norm": 0.8539944291114807,
	"learning_rate": 3.1239380073971e-06,
	"loss": 0.114,
	"step": 1250
	},
	{
	"epoch": 2.4226401490115963,
	"grad_norm": 0.8466408252716064,
	"learning_rate": 2.9323821557952007e-06,
	"loss": 0.0986,
	"step": 1260
	},
	{
	"epoch": 2.4418674517815298,
	"grad_norm": 0.6942047476768494,
	"learning_rate": 2.7462489173489636e-06,
	"loss": 0.1112,
	"step": 1270
	},
	{
	"epoch": 2.461094754551463,
	"grad_norm": 0.7220749258995056,
	"learning_rate": 2.5656219314775886e-06,
	"loss": 0.1083,
	"step": 1280
	},
	{
	"epoch": 2.480322057321396,
	"grad_norm": 0.8154662847518921,
	"learning_rate": 2.3905823633523997e-06,
	"loss": 0.0981,
	"step": 1290
	},
	{
	"epoch": 2.4995493600913297,
	"grad_norm": 0.7933881282806396,
	"learning_rate": 2.221208867425096e-06,
	"loss": 0.0965,
	"step": 1300
	},
	{
	"epoch": 2.518776662861263,
	"grad_norm": 0.770427405834198,
	"learning_rate": 2.0575775520841878e-06,
	"loss": 0.1399,
	"step": 1310
	},
	{
	"epoch": 2.538003965631196,
	"grad_norm": 0.7757827043533325,
	"learning_rate": 1.8997619454554955e-06,
	"loss": 0.1022,
	"step": 1320
	},
	{
	"epoch": 2.5572312684011296,
	"grad_norm": 0.8519064784049988,
	"learning_rate": 1.7478329623621226e-06,
	"loss": 0.1114,
	"step": 1330
	},
	{
	"epoch": 2.576458571171063,
	"grad_norm": 0.4863261878490448,
	"learning_rate": 1.601858872458702e-06,
	"loss": 0.0964,
	"step": 1340
	},
	{
	"epoch": 2.5956858739409965,
	"grad_norm": 0.7736539244651794,
	"learning_rate": 1.4619052695542612e-06,
	"loss": 0.1062,
	"step": 1350
	},
	{
	"epoch": 2.6149131767109295,
	"grad_norm": 0.8441415429115295,
	"learning_rate": 1.3280350421374888e-06,
	"loss": 0.1158,
	"step": 1360
	},
	{
	"epoch": 2.634140479480863,
	"grad_norm": 1.0856326818466187,
	"learning_rate": 1.2003083451176366e-06,
	"loss": 0.1314,
	"step": 1370
	},
	{
	"epoch": 2.653367782250796,
	"grad_norm": 0.6666831374168396,
	"learning_rate": 1.0787825727937783e-06,
	"loss": 0.0889,
	"step": 1380
	},
	{
	"epoch": 2.6610587033587696,
	"eval_loss": 0.09759029000997543,
	"eval_runtime": 202.9122,
	"eval_samples_per_second": 5.283,
	"eval_steps_per_second": 5.283,
	"step": 1384
	},
	{
	"epoch": 2.6725950850207294,
	"grad_norm": 0.7304587960243225,
	"learning_rate": 9.635123330645218e-07,
	"loss": 0.1098,
	"step": 1390
	},
	{
	"epoch": 2.691822387790663,
	"grad_norm": 0.7729344964027405,
	"learning_rate": 8.545494228898448e-07,
	"loss": 0.0874,
	"step": 1400
	},
	{
	"epoch": 2.7110496905605963,
	"grad_norm": 0.8187854886054993,
	"learning_rate": 7.519428050159765e-07,
	"loss": 0.1295,
	"step": 1410
	},
	{
	"epoch": 2.7302769933305293,
	"grad_norm": 0.5940708518028259,
	"learning_rate": 6.557385859738985e-07,
	"loss": 0.1194,
	"step": 1420
	},
	{
	"epoch": 2.7495042961004628,
	"grad_norm": 0.8048242926597595,
	"learning_rate": 5.659799953612438e-07,
	"loss": 0.1112,
	"step": 1430
	},
	{
	"epoch": 2.7687315988703958,
	"grad_norm": 0.65644371509552,
	"learning_rate": 4.827073664169812e-07,
	"loss": 0.1061,
	"step": 1440
	},
	{
	"epoch": 2.7879589016403292,
	"grad_norm": 0.733321487903595,
	"learning_rate": 4.059581178975741e-07,
	"loss": 0.1187,
	"step": 1450
	},
	{
	"epoch": 2.8071862044102627,
	"grad_norm": 0.48416727781295776,
	"learning_rate": 3.357667372627754e-07,
	"loss": 0.1183,
	"step": 1460
	},
	{
	"epoch": 2.826413507180196,
	"grad_norm": 0.5195744633674622,
	"learning_rate": 2.7216476517860245e-07,
	"loss": 0.0869,
	"step": 1470
	},
	{
	"epoch": 2.845640809950129,
	"grad_norm": 0.6493935585021973,
	"learning_rate": 2.151807813444606e-07,
	"loss": 0.0867,
	"step": 1480
	},
	{
	"epoch": 2.8648681127200626,
	"grad_norm": 0.7516520023345947,
	"learning_rate": 1.6484039165079455e-07,
	"loss": 0.1259,
	"step": 1490
	},
	{
	"epoch": 2.8840954154899956,
	"grad_norm": 0.7778034210205078,
	"learning_rate": 1.211662166730071e-07,
	"loss": 0.1229,
	"step": 1500
	},
	{
	"epoch": 2.903322718259929,
	"grad_norm": 0.6024238467216492,
	"learning_rate": 8.417788150686001e-08,
	"loss": 0.0972,
	"step": 1510
	},
	{
	"epoch": 2.9225500210298625,
	"grad_norm": 0.6645819544792175,
	"learning_rate": 5.389200694988494e-08,
	"loss": 0.1297,
	"step": 1520
	},
	{
	"epoch": 2.941777323799796,
	"grad_norm": 0.9006750583648682,
	"learning_rate": 3.032220203278924e-08,
	"loss": 0.1088,
	"step": 1530
	},
	{
	"epoch": 2.961004626569729,
	"grad_norm": 0.7198818325996399,
	"learning_rate": 1.3479057904204339e-08,
	"loss": 0.1041,
	"step": 1540
	},
	{
	"epoch": 2.9802319293396624,
	"grad_norm": 0.6966450810432434,
	"learning_rate": 3.3701430715277202e-09,
	"loss": 0.09,
	"step": 1550
	},
	{
	"epoch": 2.9936910412786157,
	"eval_loss": 0.09760043770074844,
	"eval_runtime": 202.9049,
	"eval_samples_per_second": 5.283,
	"eval_steps_per_second": 5.283,
	"step": 1557
	},
	{
	"epoch": 2.9994592321095954,
	"grad_norm": 0.7270023822784424,
	"learning_rate": 0.0,
	"loss": 0.1184,
	"step": 1560
	},
	{
	"epoch": 2.9994592321095954,
	"step": 1560,
	"total_flos": 1.3623219564340838e+18,
	"train_loss": 0.1486816066579941,
	"train_runtime": 34006.2437,
	"train_samples_per_second": 1.468,
	"train_steps_per_second": 0.046
	}
	],
	"logging_steps": 10,
	"max_steps": 1560,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 173,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3623219564340838e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}