question_generation_1.5B_model_v2 / trainer_state.json

End of training

54eb50f verified 2 months ago

32.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 100,
	"global_step": 880,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05714285714285714,
	"grad_norm": 0.17341195046901703,
	"learning_rate": 2.272727272727273e-05,
	"loss": 0.9238,
	"step": 5
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 0.151872456073761,
	"learning_rate": 5.113636363636364e-05,
	"loss": 0.8658,
	"step": 10
	},
	{
	"epoch": 0.17142857142857143,
	"grad_norm": 0.1270148754119873,
	"learning_rate": 7.954545454545455e-05,
	"loss": 0.8384,
	"step": 15
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 0.13214267790317535,
	"learning_rate": 0.00010795454545454545,
	"loss": 0.7931,
	"step": 20
	},
	{
	"epoch": 0.2857142857142857,
	"grad_norm": 0.125133216381073,
	"learning_rate": 0.00013636363636363637,
	"loss": 0.7621,
	"step": 25
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 0.1484372466802597,
	"learning_rate": 0.00016477272727272727,
	"loss": 0.7396,
	"step": 30
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.14502882957458496,
	"learning_rate": 0.00019318181818181817,
	"loss": 0.7783,
	"step": 35
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 0.1474684476852417,
	"learning_rate": 0.0002215909090909091,
	"loss": 0.7208,
	"step": 40
	},
	{
	"epoch": 0.5142857142857142,
	"grad_norm": 0.14219504594802856,
	"learning_rate": 0.00025,
	"loss": 0.7467,
	"step": 45
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.14778761565685272,
	"learning_rate": 0.0002784090909090909,
	"loss": 0.6922,
	"step": 50
	},
	{
	"epoch": 0.6285714285714286,
	"grad_norm": 0.1440540999174118,
	"learning_rate": 0.0003068181818181818,
	"loss": 0.6895,
	"step": 55
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 0.14411456882953644,
	"learning_rate": 0.00033522727272727274,
	"loss": 0.7601,
	"step": 60
	},
	{
	"epoch": 0.7428571428571429,
	"grad_norm": 0.1502826064825058,
	"learning_rate": 0.00036363636363636367,
	"loss": 0.6845,
	"step": 65
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15052765607833862,
	"learning_rate": 0.00039204545454545454,
	"loss": 0.6665,
	"step": 70
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 0.1469675898551941,
	"learning_rate": 0.0004204545454545455,
	"loss": 0.7189,
	"step": 75
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 0.136297807097435,
	"learning_rate": 0.00044886363636363635,
	"loss": 0.6771,
	"step": 80
	},
	{
	"epoch": 0.9714285714285714,
	"grad_norm": 0.15446212887763977,
	"learning_rate": 0.0004772727272727273,
	"loss": 0.6908,
	"step": 85
	},
	{
	"epoch": 1.022857142857143,
	"grad_norm": 0.15397129952907562,
	"learning_rate": 0.0004999980332062218,
	"loss": 0.7028,
	"step": 90
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.15528780221939087,
	"learning_rate": 0.0004999291986732823,
	"loss": 0.6689,
	"step": 95
	},
	{
	"epoch": 1.1371428571428572,
	"grad_norm": 0.17444616556167603,
	"learning_rate": 0.0004997620553954645,
	"loss": 0.6345,
	"step": 100
	},
	{
	"epoch": 1.1371428571428572,
	"eval_loss": 0.6875521540641785,
	"eval_runtime": 29.6981,
	"eval_samples_per_second": 2.727,
	"eval_steps_per_second": 2.727,
	"step": 100
	},
	{
	"epoch": 1.1942857142857144,
	"grad_norm": 0.16984045505523682,
	"learning_rate": 0.0004994966691179711,
	"loss": 0.6399,
	"step": 105
	},
	{
	"epoch": 1.2514285714285713,
	"grad_norm": 0.18500125408172607,
	"learning_rate": 0.0004991331442295331,
	"loss": 0.6482,
	"step": 110
	},
	{
	"epoch": 1.3085714285714285,
	"grad_norm": 0.19161580502986908,
	"learning_rate": 0.0004986716237213483,
	"loss": 0.6554,
	"step": 115
	},
	{
	"epoch": 1.3657142857142857,
	"grad_norm": 0.17785383760929108,
	"learning_rate": 0.0004981122891308368,
	"loss": 0.5931,
	"step": 120
	},
	{
	"epoch": 1.4228571428571428,
	"grad_norm": 0.1681031882762909,
	"learning_rate": 0.0004974553604702333,
	"loss": 0.5979,
	"step": 125
	},
	{
	"epoch": 1.48,
	"grad_norm": 0.1733732372522354,
	"learning_rate": 0.0004967010961400466,
	"loss": 0.6648,
	"step": 130
	},
	{
	"epoch": 1.5371428571428571,
	"grad_norm": 0.1732897013425827,
	"learning_rate": 0.0004958497928274184,
	"loss": 0.6383,
	"step": 135
	},
	{
	"epoch": 1.5942857142857143,
	"grad_norm": 0.18160653114318848,
	"learning_rate": 0.000494901785389423,
	"loss": 0.6114,
	"step": 140
	},
	{
	"epoch": 1.6514285714285715,
	"grad_norm": 0.16878579556941986,
	"learning_rate": 0.0004938574467213517,
	"loss": 0.636,
	"step": 145
	},
	{
	"epoch": 1.7085714285714286,
	"grad_norm": 0.16055361926555634,
	"learning_rate": 0.0004927171876100363,
	"loss": 0.6337,
	"step": 150
	},
	{
	"epoch": 1.7657142857142856,
	"grad_norm": 0.17928151786327362,
	"learning_rate": 0.0004914814565722671,
	"loss": 0.61,
	"step": 155
	},
	{
	"epoch": 1.822857142857143,
	"grad_norm": 0.17349475622177124,
	"learning_rate": 0.0004901507396783714,
	"loss": 0.656,
	"step": 160
	},
	{
	"epoch": 1.88,
	"grad_norm": 0.17489437758922577,
	"learning_rate": 0.0004887255603610184,
	"loss": 0.6506,
	"step": 165
	},
	{
	"epoch": 1.9371428571428573,
	"grad_norm": 0.18316401541233063,
	"learning_rate": 0.00048720647920932994,
	"loss": 0.5985,
	"step": 170
	},
	{
	"epoch": 1.9942857142857142,
	"grad_norm": 0.16122691333293915,
	"learning_rate": 0.0004855940937483735,
	"loss": 0.6132,
	"step": 175
	},
	{
	"epoch": 2.045714285714286,
	"grad_norm": 0.1657329797744751,
	"learning_rate": 0.0004838890382041291,
	"loss": 0.5925,
	"step": 180
	},
	{
	"epoch": 2.1028571428571428,
	"grad_norm": 0.2137223184108734,
	"learning_rate": 0.00048209198325401817,
	"loss": 0.4924,
	"step": 185
	},
	{
	"epoch": 2.16,
	"grad_norm": 0.18751586973667145,
	"learning_rate": 0.0004802036357630951,
	"loss": 0.5103,
	"step": 190
	},
	{
	"epoch": 2.217142857142857,
	"grad_norm": 0.22524061799049377,
	"learning_rate": 0.00047822473850600447,
	"loss": 0.4742,
	"step": 195
	},
	{
	"epoch": 2.2742857142857145,
	"grad_norm": 0.23922263085842133,
	"learning_rate": 0.0004761560698748135,
	"loss": 0.472,
	"step": 200
	},
	{
	"epoch": 2.2742857142857145,
	"eval_loss": 0.7193492650985718,
	"eval_runtime": 29.6354,
	"eval_samples_per_second": 2.733,
	"eval_steps_per_second": 2.733,
	"step": 200
	},
	{
	"epoch": 2.3314285714285714,
	"grad_norm": 0.25317704677581787,
	"learning_rate": 0.00047399844357283395,
	"loss": 0.4624,
	"step": 205
	},
	{
	"epoch": 2.388571428571429,
	"grad_norm": 0.22575099766254425,
	"learning_rate": 0.0004717527082945554,
	"loss": 0.4803,
	"step": 210
	},
	{
	"epoch": 2.4457142857142857,
	"grad_norm": 0.22181181609630585,
	"learning_rate": 0.0004694197473918139,
	"loss": 0.4805,
	"step": 215
	},
	{
	"epoch": 2.5028571428571427,
	"grad_norm": 0.2090139091014862,
	"learning_rate": 0.0004670004785263289,
	"loss": 0.5365,
	"step": 220
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.24724529683589935,
	"learning_rate": 0.0004644958533087443,
	"loss": 0.5005,
	"step": 225
	},
	{
	"epoch": 2.617142857142857,
	"grad_norm": 0.22190535068511963,
	"learning_rate": 0.0004619068569243159,
	"loss": 0.4974,
	"step": 230
	},
	{
	"epoch": 2.6742857142857144,
	"grad_norm": 0.21910065412521362,
	"learning_rate": 0.00045923450774539243,
	"loss": 0.5322,
	"step": 235
	},
	{
	"epoch": 2.7314285714285713,
	"grad_norm": 0.24561282992362976,
	"learning_rate": 0.0004564798569308423,
	"loss": 0.5154,
	"step": 240
	},
	{
	"epoch": 2.7885714285714287,
	"grad_norm": 0.22541281580924988,
	"learning_rate": 0.00045364398801258396,
	"loss": 0.4968,
	"step": 245
	},
	{
	"epoch": 2.8457142857142856,
	"grad_norm": 0.21167173981666565,
	"learning_rate": 0.000450728016469383,
	"loss": 0.5049,
	"step": 250
	},
	{
	"epoch": 2.902857142857143,
	"grad_norm": 0.20972833037376404,
	"learning_rate": 0.0004477330892880823,
	"loss": 0.5303,
	"step": 255
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.21511210501194,
	"learning_rate": 0.0004446603845124388,
	"loss": 0.5203,
	"step": 260
	},
	{
	"epoch": 3.0114285714285716,
	"grad_norm": 0.20611043274402618,
	"learning_rate": 0.0004415111107797445,
	"loss": 0.5064,
	"step": 265
	},
	{
	"epoch": 3.0685714285714285,
	"grad_norm": 0.2586754262447357,
	"learning_rate": 0.0004382865068454133,
	"loss": 0.3602,
	"step": 270
	},
	{
	"epoch": 3.125714285714286,
	"grad_norm": 0.25579819083213806,
	"learning_rate": 0.00043498784109572097,
	"loss": 0.3523,
	"step": 275
	},
	{
	"epoch": 3.182857142857143,
	"grad_norm": 0.2642401456832886,
	"learning_rate": 0.00043161641104889003,
	"loss": 0.3604,
	"step": 280
	},
	{
	"epoch": 3.24,
	"grad_norm": 0.2600599527359009,
	"learning_rate": 0.00042817354284471575,
	"loss": 0.3497,
	"step": 285
	},
	{
	"epoch": 3.297142857142857,
	"grad_norm": 0.2751370966434479,
	"learning_rate": 0.00042466059072293367,
	"loss": 0.3525,
	"step": 290
	},
	{
	"epoch": 3.354285714285714,
	"grad_norm": 0.2760413885116577,
	"learning_rate": 0.00042107893649053456,
	"loss": 0.3369,
	"step": 295
	},
	{
	"epoch": 3.4114285714285715,
	"grad_norm": 0.28514841198921204,
	"learning_rate": 0.0004174299889782355,
	"loss": 0.3499,
	"step": 300
	},
	{
	"epoch": 3.4114285714285715,
	"eval_loss": 0.7963736057281494,
	"eval_runtime": 29.7356,
	"eval_samples_per_second": 2.724,
	"eval_steps_per_second": 2.724,
	"step": 300
	},
	{
	"epoch": 3.4685714285714284,
	"grad_norm": 0.28093528747558594,
	"learning_rate": 0.0004137151834863213,
	"loss": 0.3601,
	"step": 305
	},
	{
	"epoch": 3.525714285714286,
	"grad_norm": 0.2521819472312927,
	"learning_rate": 0.0004099359812200746,
	"loss": 0.3768,
	"step": 310
	},
	{
	"epoch": 3.5828571428571427,
	"grad_norm": 0.2599101960659027,
	"learning_rate": 0.00040609386871501583,
	"loss": 0.3248,
	"step": 315
	},
	{
	"epoch": 3.64,
	"grad_norm": 0.277692049741745,
	"learning_rate": 0.0004021903572521802,
	"loss": 0.363,
	"step": 320
	},
	{
	"epoch": 3.697142857142857,
	"grad_norm": 0.2820269763469696,
	"learning_rate": 0.00039822698226366017,
	"loss": 0.3676,
	"step": 325
	},
	{
	"epoch": 3.7542857142857144,
	"grad_norm": 0.28230783343315125,
	"learning_rate": 0.00039420530272864934,
	"loss": 0.3556,
	"step": 330
	},
	{
	"epoch": 3.8114285714285714,
	"grad_norm": 0.3273780941963196,
	"learning_rate": 0.0003901269005602235,
	"loss": 0.3656,
	"step": 335
	},
	{
	"epoch": 3.8685714285714283,
	"grad_norm": 0.28806638717651367,
	"learning_rate": 0.0003859933799831008,
	"loss": 0.3499,
	"step": 340
	},
	{
	"epoch": 3.9257142857142857,
	"grad_norm": 0.30954381823539734,
	"learning_rate": 0.00038180636690262563,
	"loss": 0.392,
	"step": 345
	},
	{
	"epoch": 3.982857142857143,
	"grad_norm": 0.29088252782821655,
	"learning_rate": 0.000377567508265225,
	"loss": 0.3736,
	"step": 350
	},
	{
	"epoch": 4.034285714285715,
	"grad_norm": 0.22520305216312408,
	"learning_rate": 0.0003732784714105876,
	"loss": 0.2785,
	"step": 355
	},
	{
	"epoch": 4.091428571428572,
	"grad_norm": 0.3518202602863312,
	"learning_rate": 0.0003689409434158224,
	"loss": 0.2139,
	"step": 360
	},
	{
	"epoch": 4.148571428571429,
	"grad_norm": 0.2898755967617035,
	"learning_rate": 0.0003645566304318526,
	"loss": 0.2234,
	"step": 365
	},
	{
	"epoch": 4.2057142857142855,
	"grad_norm": 0.3240414261817932,
	"learning_rate": 0.00036012725701230734,
	"loss": 0.2342,
	"step": 370
	},
	{
	"epoch": 4.2628571428571425,
	"grad_norm": 0.28856348991394043,
	"learning_rate": 0.00035565456543517487,
	"loss": 0.2117,
	"step": 375
	},
	{
	"epoch": 4.32,
	"grad_norm": 0.3389490246772766,
	"learning_rate": 0.0003511403150174838,
	"loss": 0.2435,
	"step": 380
	},
	{
	"epoch": 4.377142857142857,
	"grad_norm": 0.31090596318244934,
	"learning_rate": 0.00034658628142328216,
	"loss": 0.2281,
	"step": 385
	},
	{
	"epoch": 4.434285714285714,
	"grad_norm": 0.3269132077693939,
	"learning_rate": 0.0003419942559651863,
	"loss": 0.2637,
	"step": 390
	},
	{
	"epoch": 4.491428571428571,
	"grad_norm": 0.30986836552619934,
	"learning_rate": 0.0003373660448997746,
	"loss": 0.228,
	"step": 395
	},
	{
	"epoch": 4.548571428571429,
	"grad_norm": 0.28136685490608215,
	"learning_rate": 0.000332703468717103,
	"loss": 0.2457,
	"step": 400
	},
	{
	"epoch": 4.548571428571429,
	"eval_loss": 0.9142104983329773,
	"eval_runtime": 29.7632,
	"eval_samples_per_second": 2.721,
	"eval_steps_per_second": 2.721,
	"step": 400
	},
	{
	"epoch": 4.605714285714286,
	"grad_norm": 0.3222131133079529,
	"learning_rate": 0.00032800836142462175,
	"loss": 0.2238,
	"step": 405
	},
	{
	"epoch": 4.662857142857143,
	"grad_norm": 0.3103245496749878,
	"learning_rate": 0.0003232825698257755,
	"loss": 0.2444,
	"step": 410
	},
	{
	"epoch": 4.72,
	"grad_norm": 0.319525808095932,
	"learning_rate": 0.00031852795279356945,
	"loss": 0.2498,
	"step": 415
	},
	{
	"epoch": 4.777142857142858,
	"grad_norm": 0.2778545320034027,
	"learning_rate": 0.0003137463805393885,
	"loss": 0.231,
	"step": 420
	},
	{
	"epoch": 4.8342857142857145,
	"grad_norm": 0.3173794448375702,
	"learning_rate": 0.0003089397338773569,
	"loss": 0.2471,
	"step": 425
	},
	{
	"epoch": 4.8914285714285715,
	"grad_norm": 0.3207133710384369,
	"learning_rate": 0.00030410990348452574,
	"loss": 0.2302,
	"step": 430
	},
	{
	"epoch": 4.948571428571428,
	"grad_norm": 0.26637086272239685,
	"learning_rate": 0.0002992587891571833,
	"loss": 0.2244,
	"step": 435
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.48891177773475647,
	"learning_rate": 0.0002943882990635759,
	"loss": 0.2451,
	"step": 440
	},
	{
	"epoch": 5.057142857142857,
	"grad_norm": 0.23097443580627441,
	"learning_rate": 0.0002895003489933375,
	"loss": 0.135,
	"step": 445
	},
	{
	"epoch": 5.114285714285714,
	"grad_norm": 0.30315983295440674,
	"learning_rate": 0.0002845968616039207,
	"loss": 0.1345,
	"step": 450
	},
	{
	"epoch": 5.171428571428572,
	"grad_norm": 0.29658541083335876,
	"learning_rate": 0.0002796797656643263,
	"loss": 0.147,
	"step": 455
	},
	{
	"epoch": 5.228571428571429,
	"grad_norm": 0.28584039211273193,
	"learning_rate": 0.00027475099529642886,
	"loss": 0.1333,
	"step": 460
	},
	{
	"epoch": 5.285714285714286,
	"grad_norm": 0.3031592071056366,
	"learning_rate": 0.0002698124892141971,
	"loss": 0.147,
	"step": 465
	},
	{
	"epoch": 5.3428571428571425,
	"grad_norm": 0.3030093312263489,
	"learning_rate": 0.00026486618996110777,
	"loss": 0.1298,
	"step": 470
	},
	{
	"epoch": 5.4,
	"grad_norm": 0.27724677324295044,
	"learning_rate": 0.0002599140431460531,
	"loss": 0.1406,
	"step": 475
	},
	{
	"epoch": 5.457142857142857,
	"grad_norm": 0.27622610330581665,
	"learning_rate": 0.00025495799667804255,
	"loss": 0.1225,
	"step": 480
	},
	{
	"epoch": 5.514285714285714,
	"grad_norm": 0.2955563962459564,
	"learning_rate": 0.00025,
	"loss": 0.1263,
	"step": 485
	},
	{
	"epoch": 5.571428571428571,
	"grad_norm": 0.3078777492046356,
	"learning_rate": 0.00024504200332195757,
	"loss": 0.1265,
	"step": 490
	},
	{
	"epoch": 5.628571428571428,
	"grad_norm": 0.33732086420059204,
	"learning_rate": 0.00024008595685394692,
	"loss": 0.1611,
	"step": 495
	},
	{
	"epoch": 5.685714285714286,
	"grad_norm": 0.29280802607536316,
	"learning_rate": 0.00023513381003889227,
	"loss": 0.1229,
	"step": 500
	},
	{
	"epoch": 5.685714285714286,
	"eval_loss": 1.0489529371261597,
	"eval_runtime": 29.6727,
	"eval_samples_per_second": 2.73,
	"eval_steps_per_second": 2.73,
	"step": 500
	},
	{
	"epoch": 5.742857142857143,
	"grad_norm": 0.2972449064254761,
	"learning_rate": 0.00023018751078580287,
	"loss": 0.138,
	"step": 505
	},
	{
	"epoch": 5.8,
	"grad_norm": 0.29159605503082275,
	"learning_rate": 0.00022524900470357118,
	"loss": 0.1351,
	"step": 510
	},
	{
	"epoch": 5.857142857142857,
	"grad_norm": 0.3165677785873413,
	"learning_rate": 0.00022032023433567378,
	"loss": 0.1371,
	"step": 515
	},
	{
	"epoch": 5.914285714285715,
	"grad_norm": 0.3170928657054901,
	"learning_rate": 0.0002154031383960793,
	"loss": 0.1494,
	"step": 520
	},
	{
	"epoch": 5.9714285714285715,
	"grad_norm": 0.2793048024177551,
	"learning_rate": 0.0002104996510066625,
	"loss": 0.139,
	"step": 525
	},
	{
	"epoch": 6.022857142857143,
	"grad_norm": 0.16289132833480835,
	"learning_rate": 0.00020561170093642424,
	"loss": 0.1127,
	"step": 530
	},
	{
	"epoch": 6.08,
	"grad_norm": 0.22523629665374756,
	"learning_rate": 0.00020074121084281678,
	"loss": 0.0794,
	"step": 535
	},
	{
	"epoch": 6.137142857142857,
	"grad_norm": 0.301932692527771,
	"learning_rate": 0.0001958900965154743,
	"loss": 0.0724,
	"step": 540
	},
	{
	"epoch": 6.194285714285714,
	"grad_norm": 0.21225464344024658,
	"learning_rate": 0.00019106026612264316,
	"loss": 0.0747,
	"step": 545
	},
	{
	"epoch": 6.251428571428572,
	"grad_norm": 0.17405834794044495,
	"learning_rate": 0.0001862536194606115,
	"loss": 0.0638,
	"step": 550
	},
	{
	"epoch": 6.308571428571429,
	"grad_norm": 0.22534868121147156,
	"learning_rate": 0.00018147204720643065,
	"loss": 0.0722,
	"step": 555
	},
	{
	"epoch": 6.365714285714286,
	"grad_norm": 0.2658616900444031,
	"learning_rate": 0.00017671743017422448,
	"loss": 0.0696,
	"step": 560
	},
	{
	"epoch": 6.422857142857143,
	"grad_norm": 0.27225354313850403,
	"learning_rate": 0.00017199163857537826,
	"loss": 0.0764,
	"step": 565
	},
	{
	"epoch": 6.48,
	"grad_norm": 0.2424718737602234,
	"learning_rate": 0.000167296531282897,
	"loss": 0.0725,
	"step": 570
	},
	{
	"epoch": 6.537142857142857,
	"grad_norm": 0.21518002450466156,
	"learning_rate": 0.00016263395510022544,
	"loss": 0.0688,
	"step": 575
	},
	{
	"epoch": 6.594285714285714,
	"grad_norm": 0.27070116996765137,
	"learning_rate": 0.00015800574403481376,
	"loss": 0.0814,
	"step": 580
	},
	{
	"epoch": 6.651428571428571,
	"grad_norm": 0.28266236186027527,
	"learning_rate": 0.00015341371857671783,
	"loss": 0.0789,
	"step": 585
	},
	{
	"epoch": 6.708571428571428,
	"grad_norm": 0.2508731782436371,
	"learning_rate": 0.00014885968498251623,
	"loss": 0.0677,
	"step": 590
	},
	{
	"epoch": 6.765714285714286,
	"grad_norm": 0.2912222146987915,
	"learning_rate": 0.0001443454345648252,
	"loss": 0.0755,
	"step": 595
	},
	{
	"epoch": 6.822857142857143,
	"grad_norm": 0.21923169493675232,
	"learning_rate": 0.00013987274298769264,
	"loss": 0.0728,
	"step": 600
	},
	{
	"epoch": 6.822857142857143,
	"eval_loss": 1.1974577903747559,
	"eval_runtime": 29.5963,
	"eval_samples_per_second": 2.737,
	"eval_steps_per_second": 2.737,
	"step": 600
	},
	{
	"epoch": 6.88,
	"grad_norm": 0.2651500999927521,
	"learning_rate": 0.0001354433695681474,
	"loss": 0.0799,
	"step": 605
	},
	{
	"epoch": 6.937142857142857,
	"grad_norm": 0.24103859066963196,
	"learning_rate": 0.00013105905658417755,
	"loss": 0.0779,
	"step": 610
	},
	{
	"epoch": 6.994285714285715,
	"grad_norm": 0.26907840371131897,
	"learning_rate": 0.00012672152858941244,
	"loss": 0.077,
	"step": 615
	},
	{
	"epoch": 7.045714285714285,
	"grad_norm": 0.12422758340835571,
	"learning_rate": 0.00012243249173477514,
	"loss": 0.0527,
	"step": 620
	},
	{
	"epoch": 7.102857142857143,
	"grad_norm": 0.1850104182958603,
	"learning_rate": 0.00011819363309737438,
	"loss": 0.0449,
	"step": 625
	},
	{
	"epoch": 7.16,
	"grad_norm": 0.2082287222146988,
	"learning_rate": 0.00011400662001689926,
	"loss": 0.04,
	"step": 630
	},
	{
	"epoch": 7.217142857142857,
	"grad_norm": 0.18963204324245453,
	"learning_rate": 0.00010987309943977646,
	"loss": 0.0434,
	"step": 635
	},
	{
	"epoch": 7.274285714285714,
	"grad_norm": 0.20188449323177338,
	"learning_rate": 0.00010579469727135068,
	"loss": 0.041,
	"step": 640
	},
	{
	"epoch": 7.331428571428571,
	"grad_norm": 0.19002296030521393,
	"learning_rate": 0.00010177301773633993,
	"loss": 0.0415,
	"step": 645
	},
	{
	"epoch": 7.388571428571429,
	"grad_norm": 0.16656257212162018,
	"learning_rate": 9.780964274781984e-05,
	"loss": 0.0384,
	"step": 650
	},
	{
	"epoch": 7.445714285714286,
	"grad_norm": 0.2054123878479004,
	"learning_rate": 9.390613128498418e-05,
	"loss": 0.0414,
	"step": 655
	},
	{
	"epoch": 7.502857142857143,
	"grad_norm": 0.19603969156742096,
	"learning_rate": 9.006401877992549e-05,
	"loss": 0.04,
	"step": 660
	},
	{
	"epoch": 7.5600000000000005,
	"grad_norm": 0.22474470734596252,
	"learning_rate": 8.628481651367875e-05,
	"loss": 0.0448,
	"step": 665
	},
	{
	"epoch": 7.617142857142857,
	"grad_norm": 0.1726624220609665,
	"learning_rate": 8.257001102176459e-05,
	"loss": 0.0368,
	"step": 670
	},
	{
	"epoch": 7.674285714285714,
	"grad_norm": 0.21024195849895477,
	"learning_rate": 7.892106350946543e-05,
	"loss": 0.0456,
	"step": 675
	},
	{
	"epoch": 7.731428571428571,
	"grad_norm": 0.1670810580253601,
	"learning_rate": 7.533940927706637e-05,
	"loss": 0.0436,
	"step": 680
	},
	{
	"epoch": 7.788571428571428,
	"grad_norm": 0.18880096077919006,
	"learning_rate": 7.182645715528436e-05,
	"loss": 0.039,
	"step": 685
	},
	{
	"epoch": 7.845714285714286,
	"grad_norm": 0.16823258996009827,
	"learning_rate": 6.838358895111e-05,
	"loss": 0.0418,
	"step": 690
	},
	{
	"epoch": 7.902857142857143,
	"grad_norm": 0.1878485232591629,
	"learning_rate": 6.501215890427908e-05,
	"loss": 0.0462,
	"step": 695
	},
	{
	"epoch": 7.96,
	"grad_norm": 0.17427195608615875,
	"learning_rate": 6.171349315458669e-05,
	"loss": 0.0398,
	"step": 700
	},
	{
	"epoch": 7.96,
	"eval_loss": 1.317841649055481,
	"eval_runtime": 29.5847,
	"eval_samples_per_second": 2.738,
	"eval_steps_per_second": 2.738,
	"step": 700
	},
	{
	"epoch": 8.01142857142857,
	"grad_norm": 0.11310245841741562,
	"learning_rate": 5.848888922025553e-05,
	"loss": 0.0364,
	"step": 705
	},
	{
	"epoch": 8.06857142857143,
	"grad_norm": 0.13256970047950745,
	"learning_rate": 5.533961548756128e-05,
	"loss": 0.0295,
	"step": 710
	},
	{
	"epoch": 8.125714285714286,
	"grad_norm": 0.12489226460456848,
	"learning_rate": 5.226691071191772e-05,
	"loss": 0.0281,
	"step": 715
	},
	{
	"epoch": 8.182857142857143,
	"grad_norm": 0.10919743031263351,
	"learning_rate": 4.9271983530617046e-05,
	"loss": 0.0258,
	"step": 720
	},
	{
	"epoch": 8.24,
	"grad_norm": 0.13559609651565552,
	"learning_rate": 4.6356011987416066e-05,
	"loss": 0.0272,
	"step": 725
	},
	{
	"epoch": 8.297142857142857,
	"grad_norm": 0.117083340883255,
	"learning_rate": 4.35201430691578e-05,
	"loss": 0.0285,
	"step": 730
	},
	{
	"epoch": 8.354285714285714,
	"grad_norm": 0.16256172955036163,
	"learning_rate": 4.076549225460757e-05,
	"loss": 0.0257,
	"step": 735
	},
	{
	"epoch": 8.411428571428571,
	"grad_norm": 0.1305255889892578,
	"learning_rate": 3.809314307568412e-05,
	"loss": 0.0255,
	"step": 740
	},
	{
	"epoch": 8.468571428571428,
	"grad_norm": 0.11966060847043991,
	"learning_rate": 3.550414669125573e-05,
	"loss": 0.0263,
	"step": 745
	},
	{
	"epoch": 8.525714285714285,
	"grad_norm": 0.17564554512500763,
	"learning_rate": 3.2999521473671136e-05,
	"loss": 0.0266,
	"step": 750
	},
	{
	"epoch": 8.582857142857144,
	"grad_norm": 0.1525678038597107,
	"learning_rate": 3.0580252608186086e-05,
	"loss": 0.0292,
	"step": 755
	},
	{
	"epoch": 8.64,
	"grad_norm": 0.20154449343681335,
	"learning_rate": 2.824729170544457e-05,
	"loss": 0.0304,
	"step": 760
	},
	{
	"epoch": 8.697142857142858,
	"grad_norm": 0.14955027401447296,
	"learning_rate": 2.6001556427166062e-05,
	"loss": 0.0277,
	"step": 765
	},
	{
	"epoch": 8.754285714285714,
	"grad_norm": 0.13878516852855682,
	"learning_rate": 2.3843930125186542e-05,
	"loss": 0.0255,
	"step": 770
	},
	{
	"epoch": 8.811428571428571,
	"grad_norm": 0.12101715803146362,
	"learning_rate": 2.177526149399556e-05,
	"loss": 0.0263,
	"step": 775
	},
	{
	"epoch": 8.868571428571428,
	"grad_norm": 0.11588730663061142,
	"learning_rate": 1.9796364236904924e-05,
	"loss": 0.0319,
	"step": 780
	},
	{
	"epoch": 8.925714285714285,
	"grad_norm": 0.15549886226654053,
	"learning_rate": 1.7908016745981858e-05,
	"loss": 0.0275,
	"step": 785
	},
	{
	"epoch": 8.982857142857142,
	"grad_norm": 0.11943016201257706,
	"learning_rate": 1.6110961795870906e-05,
	"loss": 0.0283,
	"step": 790
	},
	{
	"epoch": 9.034285714285714,
	"grad_norm": 0.10950807482004166,
	"learning_rate": 1.4405906251626494e-05,
	"loss": 0.0273,
	"step": 795
	},
	{
	"epoch": 9.09142857142857,
	"grad_norm": 0.12409886717796326,
	"learning_rate": 1.2793520790670116e-05,
	"loss": 0.0213,
	"step": 800
	},
	{
	"epoch": 9.09142857142857,
	"eval_loss": 1.399065613746643,
	"eval_runtime": 29.6981,
	"eval_samples_per_second": 2.727,
	"eval_steps_per_second": 2.727,
	"step": 800
	},
	{
	"epoch": 9.14857142857143,
	"grad_norm": 0.10451866686344147,
	"learning_rate": 1.1274439638981532e-05,
	"loss": 0.0219,
	"step": 805
	},
	{
	"epoch": 9.205714285714286,
	"grad_norm": 0.11612384021282196,
	"learning_rate": 9.849260321628667e-06,
	"loss": 0.0239,
	"step": 810
	},
	{
	"epoch": 9.262857142857143,
	"grad_norm": 0.10945022851228714,
	"learning_rate": 8.51854342773295e-06,
	"loss": 0.0233,
	"step": 815
	},
	{
	"epoch": 9.32,
	"grad_norm": 0.11814412474632263,
	"learning_rate": 7.282812389963784e-06,
	"loss": 0.0221,
	"step": 820
	},
	{
	"epoch": 9.377142857142857,
	"grad_norm": 0.12562333047389984,
	"learning_rate": 6.142553278648239e-06,
	"loss": 0.0234,
	"step": 825
	},
	{
	"epoch": 9.434285714285714,
	"grad_norm": 0.11704660952091217,
	"learning_rate": 5.0982146105769125e-06,
	"loss": 0.0277,
	"step": 830
	},
	{
	"epoch": 9.491428571428571,
	"grad_norm": 0.1091628223657608,
	"learning_rate": 4.150207172581522e-06,
	"loss": 0.0237,
	"step": 835
	},
	{
	"epoch": 9.548571428571428,
	"grad_norm": 0.11104241013526917,
	"learning_rate": 3.298903859953517e-06,
	"loss": 0.0239,
	"step": 840
	},
	{
	"epoch": 9.605714285714285,
	"grad_norm": 0.11044926196336746,
	"learning_rate": 2.544639529766829e-06,
	"loss": 0.0234,
	"step": 845
	},
	{
	"epoch": 9.662857142857142,
	"grad_norm": 0.12619182467460632,
	"learning_rate": 1.887710869163284e-06,
	"loss": 0.0233,
	"step": 850
	},
	{
	"epoch": 9.72,
	"grad_norm": 0.12324284762144089,
	"learning_rate": 1.328376278651705e-06,
	"loss": 0.023,
	"step": 855
	},
	{
	"epoch": 9.777142857142858,
	"grad_norm": 0.11614653468132019,
	"learning_rate": 8.668557704669122e-07,
	"loss": 0.0238,
	"step": 860
	},
	{
	"epoch": 9.834285714285715,
	"grad_norm": 0.13400106132030487,
	"learning_rate": 5.033308820289185e-07,
	"loss": 0.0237,
	"step": 865
	},
	{
	"epoch": 9.891428571428571,
	"grad_norm": 0.12201932817697525,
	"learning_rate": 2.3794460453555045e-07,
	"loss": 0.0216,
	"step": 870
	},
	{
	"epoch": 9.948571428571428,
	"grad_norm": 0.12058448791503906,
	"learning_rate": 7.080132671774542e-08,
	"loss": 0.0238,
	"step": 875
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.15471021831035614,
	"learning_rate": 1.966793778229725e-09,
	"loss": 0.0221,
	"step": 880
	},
	{
	"epoch": 10.0,
	"step": 880,
	"total_flos": 5.7149261611008e+16,
	"train_loss": 0.2784872981296344,
	"train_runtime": 8588.2113,
	"train_samples_per_second": 0.815,
	"train_steps_per_second": 0.102
	}
	],
	"logging_steps": 5,
	"max_steps": 880,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 40,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.7149261611008e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}