lion_8bit / trainer_state.json

Upload task output 8ca8a9ea-9ae3-4938-9713-015819984d61

ad7a2d6 verified 4 months ago

40.2 kB

	{
	"best_global_step": 1044,
	"best_metric": 0.5790691375732422,
	"best_model_checkpoint": "/workspace/scripts/soutputs/8ca8a9ea-9ae3-4938-9713-015819984d61/checkpoint-1044",
	"epoch": 2.9914040114613183,
	"eval_steps": 500,
	"global_step": 1044,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014326647564469915,
	"grad_norm": 1.6428219079971313,
	"learning_rate": 1.4026021586989397e-06,
	"loss": 0.9723,
	"step": 5
	},
	{
	"epoch": 0.02865329512893983,
	"grad_norm": 1.3679360151290894,
	"learning_rate": 3.155854857072614e-06,
	"loss": 0.9416,
	"step": 10
	},
	{
	"epoch": 0.04297994269340974,
	"grad_norm": 1.0384185314178467,
	"learning_rate": 4.9091075554462895e-06,
	"loss": 0.8955,
	"step": 15
	},
	{
	"epoch": 0.05730659025787966,
	"grad_norm": 0.6389966607093811,
	"learning_rate": 6.662360253819964e-06,
	"loss": 0.8219,
	"step": 20
	},
	{
	"epoch": 0.07163323782234957,
	"grad_norm": 0.46849510073661804,
	"learning_rate": 8.415612952193638e-06,
	"loss": 0.7583,
	"step": 25
	},
	{
	"epoch": 0.08595988538681948,
	"grad_norm": 0.5466313362121582,
	"learning_rate": 1.0168865650567315e-05,
	"loss": 0.7283,
	"step": 30
	},
	{
	"epoch": 0.10028653295128939,
	"grad_norm": 0.46641281247138977,
	"learning_rate": 1.1922118348940989e-05,
	"loss": 0.708,
	"step": 35
	},
	{
	"epoch": 0.11461318051575932,
	"grad_norm": 0.5155534744262695,
	"learning_rate": 1.2272343115538091e-05,
	"loss": 0.7074,
	"step": 40
	},
	{
	"epoch": 0.12893982808022922,
	"grad_norm": 0.45078691840171814,
	"learning_rate": 1.2270613524924088e-05,
	"loss": 0.6699,
	"step": 45
	},
	{
	"epoch": 0.14326647564469913,
	"grad_norm": 0.4526143968105316,
	"learning_rate": 1.2267553922326047e-05,
	"loss": 0.6663,
	"step": 50
	},
	{
	"epoch": 0.15759312320916904,
	"grad_norm": 0.44320717453956604,
	"learning_rate": 1.2263165044858593e-05,
	"loss": 0.6612,
	"step": 55
	},
	{
	"epoch": 0.17191977077363896,
	"grad_norm": 0.4532703757286072,
	"learning_rate": 1.2257447949883163e-05,
	"loss": 0.6705,
	"step": 60
	},
	{
	"epoch": 0.18624641833810887,
	"grad_norm": 0.3655495345592499,
	"learning_rate": 1.2250404014753254e-05,
	"loss": 0.6574,
	"step": 65
	},
	{
	"epoch": 0.20057306590257878,
	"grad_norm": 0.3733099102973938,
	"learning_rate": 1.2242034936482603e-05,
	"loss": 0.6834,
	"step": 70
	},
	{
	"epoch": 0.2148997134670487,
	"grad_norm": 0.355129599571228,
	"learning_rate": 1.2232342731336339e-05,
	"loss": 0.6645,
	"step": 75
	},
	{
	"epoch": 0.22922636103151864,
	"grad_norm": 0.358656108379364,
	"learning_rate": 1.222132973434523e-05,
	"loss": 0.653,
	"step": 80
	},
	{
	"epoch": 0.24355300859598855,
	"grad_norm": 0.29975712299346924,
	"learning_rate": 1.2208998598743134e-05,
	"loss": 0.6719,
	"step": 85
	},
	{
	"epoch": 0.25787965616045844,
	"grad_norm": 0.32437002658843994,
	"learning_rate": 1.2195352295327777e-05,
	"loss": 0.6661,
	"step": 90
	},
	{
	"epoch": 0.2722063037249284,
	"grad_norm": 0.28565841913223267,
	"learning_rate": 1.2180394111745045e-05,
	"loss": 0.6515,
	"step": 95
	},
	{
	"epoch": 0.28653295128939826,
	"grad_norm": 0.28558802604675293,
	"learning_rate": 1.2164127651696922e-05,
	"loss": 0.6448,
	"step": 100
	},
	{
	"epoch": 0.28653295128939826,
	"eval_loss": 0.6602650880813599,
	"eval_runtime": 2.8798,
	"eval_samples_per_second": 14.584,
	"eval_steps_per_second": 14.584,
	"step": 100
	},
	{
	"epoch": 0.3008595988538682,
	"grad_norm": 0.3361125886440277,
	"learning_rate": 1.214655683407329e-05,
	"loss": 0.6516,
	"step": 105
	},
	{
	"epoch": 0.3151862464183381,
	"grad_norm": 0.2776224613189697,
	"learning_rate": 1.2127685892007806e-05,
	"loss": 0.6592,
	"step": 110
	},
	{
	"epoch": 0.32951289398280803,
	"grad_norm": 0.26801374554634094,
	"learning_rate": 1.2107519371858048e-05,
	"loss": 0.6565,
	"step": 115
	},
	{
	"epoch": 0.3438395415472779,
	"grad_norm": 0.297080934047699,
	"learning_rate": 1.2086062132110227e-05,
	"loss": 0.642,
	"step": 120
	},
	{
	"epoch": 0.35816618911174786,
	"grad_norm": 0.28340891003608704,
	"learning_rate": 1.2063319342208684e-05,
	"loss": 0.6478,
	"step": 125
	},
	{
	"epoch": 0.37249283667621774,
	"grad_norm": 0.2782769203186035,
	"learning_rate": 1.2039296481310471e-05,
	"loss": 0.6368,
	"step": 130
	},
	{
	"epoch": 0.3868194842406877,
	"grad_norm": 0.292530357837677,
	"learning_rate": 1.2013999336965322e-05,
	"loss": 0.6153,
	"step": 135
	},
	{
	"epoch": 0.40114613180515757,
	"grad_norm": 0.24663622677326202,
	"learning_rate": 1.1987434003721335e-05,
	"loss": 0.6424,
	"step": 140
	},
	{
	"epoch": 0.4154727793696275,
	"grad_norm": 0.2681853473186493,
	"learning_rate": 1.195960688165667e-05,
	"loss": 0.6348,
	"step": 145
	},
	{
	"epoch": 0.4297994269340974,
	"grad_norm": 0.2627250850200653,
	"learning_rate": 1.1930524674837664e-05,
	"loss": 0.6249,
	"step": 150
	},
	{
	"epoch": 0.44412607449856734,
	"grad_norm": 0.24072442948818207,
	"learning_rate": 1.1900194389703684e-05,
	"loss": 0.6391,
	"step": 155
	},
	{
	"epoch": 0.4584527220630373,
	"grad_norm": 0.25336554646492004,
	"learning_rate": 1.1868623333379166e-05,
	"loss": 0.6298,
	"step": 160
	},
	{
	"epoch": 0.47277936962750716,
	"grad_norm": 0.2672167718410492,
	"learning_rate": 1.1835819111913174e-05,
	"loss": 0.6368,
	"step": 165
	},
	{
	"epoch": 0.4871060171919771,
	"grad_norm": 0.2560673952102661,
	"learning_rate": 1.1801789628446977e-05,
	"loss": 0.6318,
	"step": 170
	},
	{
	"epoch": 0.501432664756447,
	"grad_norm": 0.27951574325561523,
	"learning_rate": 1.1766543081310029e-05,
	"loss": 0.6109,
	"step": 175
	},
	{
	"epoch": 0.5157593123209169,
	"grad_norm": 0.25252604484558105,
	"learning_rate": 1.1730087962044844e-05,
	"loss": 0.6273,
	"step": 180
	},
	{
	"epoch": 0.5300859598853869,
	"grad_norm": 0.25956350564956665,
	"learning_rate": 1.1692433053361224e-05,
	"loss": 0.6133,
	"step": 185
	},
	{
	"epoch": 0.5444126074498568,
	"grad_norm": 0.2530823349952698,
	"learning_rate": 1.165358742702035e-05,
	"loss": 0.6214,
	"step": 190
	},
	{
	"epoch": 0.5587392550143266,
	"grad_norm": 0.2583998143672943,
	"learning_rate": 1.1613560441649214e-05,
	"loss": 0.6105,
	"step": 195
	},
	{
	"epoch": 0.5730659025787965,
	"grad_norm": 0.27742502093315125,
	"learning_rate": 1.1572361740485967e-05,
	"loss": 0.6349,
	"step": 200
	},
	{
	"epoch": 0.5730659025787965,
	"eval_loss": 0.6322649717330933,
	"eval_runtime": 2.88,
	"eval_samples_per_second": 14.583,
	"eval_steps_per_second": 14.583,
	"step": 200
	},
	{
	"epoch": 0.5873925501432665,
	"grad_norm": 0.2662568688392639,
	"learning_rate": 1.1530001249056676e-05,
	"loss": 0.6299,
	"step": 205
	},
	{
	"epoch": 0.6017191977077364,
	"grad_norm": 0.2614499032497406,
	"learning_rate": 1.148648917278409e-05,
	"loss": 0.6005,
	"step": 210
	},
	{
	"epoch": 0.6160458452722063,
	"grad_norm": 0.26987332105636597,
	"learning_rate": 1.1441835994528954e-05,
	"loss": 0.6214,
	"step": 215
	},
	{
	"epoch": 0.6303724928366762,
	"grad_norm": 0.24090726673603058,
	"learning_rate": 1.1396052472064512e-05,
	"loss": 0.6245,
	"step": 220
	},
	{
	"epoch": 0.6446991404011462,
	"grad_norm": 0.2746104300022125,
	"learning_rate": 1.1349149635484741e-05,
	"loss": 0.6222,
	"step": 225
	},
	{
	"epoch": 0.6590257879656161,
	"grad_norm": 0.26875993609428406,
	"learning_rate": 1.1301138784547013e-05,
	"loss": 0.6092,
	"step": 230
	},
	{
	"epoch": 0.673352435530086,
	"grad_norm": 0.2399819940328598,
	"learning_rate": 1.1252031485949773e-05,
	"loss": 0.6177,
	"step": 235
	},
	{
	"epoch": 0.6876790830945558,
	"grad_norm": 0.27088305354118347,
	"learning_rate": 1.1201839570545898e-05,
	"loss": 0.6024,
	"step": 240
	},
	{
	"epoch": 0.7020057306590258,
	"grad_norm": 0.2598998248577118,
	"learning_rate": 1.1150575130492442e-05,
	"loss": 0.6068,
	"step": 245
	},
	{
	"epoch": 0.7163323782234957,
	"grad_norm": 0.26509082317352295,
	"learning_rate": 1.1098250516337403e-05,
	"loss": 0.6128,
	"step": 250
	},
	{
	"epoch": 0.7306590257879656,
	"grad_norm": 0.23148998618125916,
	"learning_rate": 1.1044878334044251e-05,
	"loss": 0.6225,
	"step": 255
	},
	{
	"epoch": 0.7449856733524355,
	"grad_norm": 0.23298867046833038,
	"learning_rate": 1.0990471441954915e-05,
	"loss": 0.6176,
	"step": 260
	},
	{
	"epoch": 0.7593123209169055,
	"grad_norm": 0.25643882155418396,
	"learning_rate": 1.093504294769198e-05,
	"loss": 0.6132,
	"step": 265
	},
	{
	"epoch": 0.7736389684813754,
	"grad_norm": 0.2456223964691162,
	"learning_rate": 1.087860620500081e-05,
	"loss": 0.6083,
	"step": 270
	},
	{
	"epoch": 0.7879656160458453,
	"grad_norm": 0.24799339473247528,
	"learning_rate": 1.0821174810532391e-05,
	"loss": 0.6064,
	"step": 275
	},
	{
	"epoch": 0.8022922636103151,
	"grad_norm": 0.24989920854568481,
	"learning_rate": 1.076276260056765e-05,
	"loss": 0.6063,
	"step": 280
	},
	{
	"epoch": 0.8166189111747851,
	"grad_norm": 0.253239244222641,
	"learning_rate": 1.0703383647684028e-05,
	"loss": 0.6071,
	"step": 285
	},
	{
	"epoch": 0.830945558739255,
	"grad_norm": 0.24544061720371246,
	"learning_rate": 1.064305225736515e-05,
	"loss": 0.611,
	"step": 290
	},
	{
	"epoch": 0.8452722063037249,
	"grad_norm": 0.24104644358158112,
	"learning_rate": 1.0581782964554359e-05,
	"loss": 0.5985,
	"step": 295
	},
	{
	"epoch": 0.8595988538681948,
	"grad_norm": 0.23256933689117432,
	"learning_rate": 1.0519590530152995e-05,
	"loss": 0.5887,
	"step": 300
	},
	{
	"epoch": 0.8595988538681948,
	"eval_loss": 0.6149212718009949,
	"eval_runtime": 2.8878,
	"eval_samples_per_second": 14.544,
	"eval_steps_per_second": 14.544,
	"step": 300
	},
	{
	"epoch": 0.8739255014326648,
	"grad_norm": 0.26569247245788574,
	"learning_rate": 1.0456489937464206e-05,
	"loss": 0.5988,
	"step": 305
	},
	{
	"epoch": 0.8882521489971347,
	"grad_norm": 0.2356170415878296,
	"learning_rate": 1.0392496388583203e-05,
	"loss": 0.6133,
	"step": 310
	},
	{
	"epoch": 0.9025787965616046,
	"grad_norm": 0.25165677070617676,
	"learning_rate": 1.0327625300734795e-05,
	"loss": 0.6022,
	"step": 315
	},
	{
	"epoch": 0.9169054441260746,
	"grad_norm": 0.2422744333744049,
	"learning_rate": 1.0261892302559097e-05,
	"loss": 0.6209,
	"step": 320
	},
	{
	"epoch": 0.9312320916905444,
	"grad_norm": 0.2504790723323822,
	"learning_rate": 1.019531323034629e-05,
	"loss": 0.5836,
	"step": 325
	},
	{
	"epoch": 0.9455587392550143,
	"grad_norm": 0.23083172738552094,
	"learning_rate": 1.0127904124221387e-05,
	"loss": 0.6036,
	"step": 330
	},
	{
	"epoch": 0.9598853868194842,
	"grad_norm": 0.23841316998004913,
	"learning_rate": 1.0059681224279856e-05,
	"loss": 0.6028,
	"step": 335
	},
	{
	"epoch": 0.9742120343839542,
	"grad_norm": 0.2634727656841278,
	"learning_rate": 9.990660966675092e-06,
	"loss": 0.6074,
	"step": 340
	},
	{
	"epoch": 0.9885386819484241,
	"grad_norm": 0.22332459688186646,
	"learning_rate": 9.920859979658633e-06,
	"loss": 0.6061,
	"step": 345
	},
	{
	"epoch": 0.997134670487106,
	"eval_loss": 0.6086744070053101,
	"eval_runtime": 2.8877,
	"eval_samples_per_second": 14.544,
	"eval_steps_per_second": 14.544,
	"step": 348
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.6092488169670105,
	"eval_runtime": 2.8916,
	"eval_samples_per_second": 14.525,
	"eval_steps_per_second": 14.525,
	"step": 349
	},
	{
	"epoch": 1.002865329512894,
	"grad_norm": 0.23956461250782013,
	"learning_rate": 9.85029507957412e-06,
	"loss": 0.5824,
	"step": 350
	},
	{
	"epoch": 1.0171919770773639,
	"grad_norm": 0.2437165081501007,
	"learning_rate": 9.77898326680592e-06,
	"loss": 0.5803,
	"step": 355
	},
	{
	"epoch": 1.0315186246418337,
	"grad_norm": 0.2500912845134735,
	"learning_rate": 9.706941721683432e-06,
	"loss": 0.5957,
	"step": 360
	},
	{
	"epoch": 1.0458452722063036,
	"grad_norm": 0.2493949979543686,
	"learning_rate": 9.634187800342016e-06,
	"loss": 0.5911,
	"step": 365
	},
	{
	"epoch": 1.0601719197707737,
	"grad_norm": 0.23148047924041748,
	"learning_rate": 9.56073903054159e-06,
	"loss": 0.5688,
	"step": 370
	},
	{
	"epoch": 1.0744985673352436,
	"grad_norm": 0.23534221947193146,
	"learning_rate": 9.486613107443863e-06,
	"loss": 0.5938,
	"step": 375
	},
	{
	"epoch": 1.0888252148997135,
	"grad_norm": 0.23032759130001068,
	"learning_rate": 9.411827889349254e-06,
	"loss": 0.5675,
	"step": 380
	},
	{
	"epoch": 1.1031518624641834,
	"grad_norm": 0.23191657662391663,
	"learning_rate": 9.336401393394483e-06,
	"loss": 0.5899,
	"step": 385
	},
	{
	"epoch": 1.1174785100286533,
	"grad_norm": 0.2217395305633545,
	"learning_rate": 9.260351791211929e-06,
	"loss": 0.5726,
	"step": 390
	},
	{
	"epoch": 1.1318051575931232,
	"grad_norm": 0.2425890415906906,
	"learning_rate": 9.183697404551733e-06,
	"loss": 0.5762,
	"step": 395
	},
	{
	"epoch": 1.146131805157593,
	"grad_norm": 0.2324853092432022,
	"learning_rate": 9.106456700867764e-06,
	"loss": 0.596,
	"step": 400
	},
	{
	"epoch": 1.146131805157593,
	"eval_loss": 0.6035182476043701,
	"eval_runtime": 2.8972,
	"eval_samples_per_second": 14.497,
	"eval_steps_per_second": 14.497,
	"step": 400
	},
	{
	"epoch": 1.1604584527220632,
	"grad_norm": 0.23952153325080872,
	"learning_rate": 9.028648288868459e-06,
	"loss": 0.5904,
	"step": 405
	},
	{
	"epoch": 1.174785100286533,
	"grad_norm": 0.23701021075248718,
	"learning_rate": 8.950290914033645e-06,
	"loss": 0.5785,
	"step": 410
	},
	{
	"epoch": 1.189111747851003,
	"grad_norm": 0.2227863371372223,
	"learning_rate": 8.871403454098416e-06,
	"loss": 0.5724,
	"step": 415
	},
	{
	"epoch": 1.2034383954154728,
	"grad_norm": 0.2232217639684677,
	"learning_rate": 8.792004914505126e-06,
	"loss": 0.5727,
	"step": 420
	},
	{
	"epoch": 1.2177650429799427,
	"grad_norm": 0.24012598395347595,
	"learning_rate": 8.712114423824633e-06,
	"loss": 0.589,
	"step": 425
	},
	{
	"epoch": 1.2320916905444126,
	"grad_norm": 0.2352171540260315,
	"learning_rate": 8.631751229147881e-06,
	"loss": 0.5667,
	"step": 430
	},
	{
	"epoch": 1.2464183381088825,
	"grad_norm": 0.23246026039123535,
	"learning_rate": 8.550934691448907e-06,
	"loss": 0.5927,
	"step": 435
	},
	{
	"epoch": 1.2607449856733524,
	"grad_norm": 0.24500536918640137,
	"learning_rate": 8.469684280920438e-06,
	"loss": 0.5831,
	"step": 440
	},
	{
	"epoch": 1.2750716332378222,
	"grad_norm": 0.22870078682899475,
	"learning_rate": 8.388019572283156e-06,
	"loss": 0.5851,
	"step": 445
	},
	{
	"epoch": 1.2893982808022924,
	"grad_norm": 0.22906720638275146,
	"learning_rate": 8.305960240069795e-06,
	"loss": 0.586,
	"step": 450
	},
	{
	"epoch": 1.3037249283667622,
	"grad_norm": 0.22709061205387115,
	"learning_rate": 8.223526053885171e-06,
	"loss": 0.5719,
	"step": 455
	},
	{
	"epoch": 1.3180515759312321,
	"grad_norm": 0.2257590889930725,
	"learning_rate": 8.140736873643331e-06,
	"loss": 0.5718,
	"step": 460
	},
	{
	"epoch": 1.332378223495702,
	"grad_norm": 0.22583012282848358,
	"learning_rate": 8.05761264478293e-06,
	"loss": 0.5754,
	"step": 465
	},
	{
	"epoch": 1.346704871060172,
	"grad_norm": 0.22651982307434082,
	"learning_rate": 7.974173393462007e-06,
	"loss": 0.5651,
	"step": 470
	},
	{
	"epoch": 1.3610315186246418,
	"grad_norm": 0.24124553799629211,
	"learning_rate": 7.890439221733317e-06,
	"loss": 0.5826,
	"step": 475
	},
	{
	"epoch": 1.3753581661891117,
	"grad_norm": 0.22888998687267303,
	"learning_rate": 7.806430302701367e-06,
	"loss": 0.5705,
	"step": 480
	},
	{
	"epoch": 1.3896848137535818,
	"grad_norm": 0.21681609749794006,
	"learning_rate": 7.722166875662358e-06,
	"loss": 0.5814,
	"step": 485
	},
	{
	"epoch": 1.4040114613180517,
	"grad_norm": 0.2206772118806839,
	"learning_rate": 7.63766924122816e-06,
	"loss": 0.5844,
	"step": 490
	},
	{
	"epoch": 1.4183381088825215,
	"grad_norm": 0.22052349150180817,
	"learning_rate": 7.552957756435512e-06,
	"loss": 0.5674,
	"step": 495
	},
	{
	"epoch": 1.4326647564469914,
	"grad_norm": 0.24319517612457275,
	"learning_rate": 7.468052829841645e-06,
	"loss": 0.5813,
	"step": 500
	},
	{
	"epoch": 1.4326647564469914,
	"eval_loss": 0.5956406593322754,
	"eval_runtime": 2.8806,
	"eval_samples_per_second": 14.581,
	"eval_steps_per_second": 14.581,
	"step": 500
	},
	{
	"epoch": 1.4469914040114613,
	"grad_norm": 0.2275008261203766,
	"learning_rate": 7.382974916607492e-06,
	"loss": 0.5853,
	"step": 505
	},
	{
	"epoch": 1.4613180515759312,
	"grad_norm": 0.23689113557338715,
	"learning_rate": 7.297744513569644e-06,
	"loss": 0.5796,
	"step": 510
	},
	{
	"epoch": 1.475644699140401,
	"grad_norm": 0.23207077383995056,
	"learning_rate": 7.2123821543023e-06,
	"loss": 0.5832,
	"step": 515
	},
	{
	"epoch": 1.4899713467048712,
	"grad_norm": 0.237880676984787,
	"learning_rate": 7.126908404170343e-06,
	"loss": 0.5783,
	"step": 520
	},
	{
	"epoch": 1.5042979942693409,
	"grad_norm": 0.22841981053352356,
	"learning_rate": 7.041343855374771e-06,
	"loss": 0.5623,
	"step": 525
	},
	{
	"epoch": 1.518624641833811,
	"grad_norm": 0.223537415266037,
	"learning_rate": 6.955709121991649e-06,
	"loss": 0.574,
	"step": 530
	},
	{
	"epoch": 1.5329512893982808,
	"grad_norm": 0.22695119678974152,
	"learning_rate": 6.870024835005807e-06,
	"loss": 0.5592,
	"step": 535
	},
	{
	"epoch": 1.5472779369627507,
	"grad_norm": 0.22849540412425995,
	"learning_rate": 6.784311637340442e-06,
	"loss": 0.5613,
	"step": 540
	},
	{
	"epoch": 1.5616045845272206,
	"grad_norm": 0.2229369729757309,
	"learning_rate": 6.6985901788838775e-06,
	"loss": 0.566,
	"step": 545
	},
	{
	"epoch": 1.5759312320916905,
	"grad_norm": 0.21880346536636353,
	"learning_rate": 6.612881111514604e-06,
	"loss": 0.5767,
	"step": 550
	},
	{
	"epoch": 1.5902578796561606,
	"grad_norm": 0.21992699801921844,
	"learning_rate": 6.527205084125875e-06,
	"loss": 0.5711,
	"step": 555
	},
	{
	"epoch": 1.6045845272206303,
	"grad_norm": 0.23056058585643768,
	"learning_rate": 6.441582737651007e-06,
	"loss": 0.5607,
	"step": 560
	},
	{
	"epoch": 1.6189111747851004,
	"grad_norm": 0.22267192602157593,
	"learning_rate": 6.356034700090591e-06,
	"loss": 0.5549,
	"step": 565
	},
	{
	"epoch": 1.63323782234957,
	"grad_norm": 0.22011469304561615,
	"learning_rate": 6.270581581542831e-06,
	"loss": 0.5821,
	"step": 570
	},
	{
	"epoch": 1.6475644699140402,
	"grad_norm": 0.22847089171409607,
	"learning_rate": 6.185243969238195e-06,
	"loss": 0.5821,
	"step": 575
	},
	{
	"epoch": 1.66189111747851,
	"grad_norm": 0.22488202154636383,
	"learning_rate": 6.10004242257957e-06,
	"loss": 0.5585,
	"step": 580
	},
	{
	"epoch": 1.67621776504298,
	"grad_norm": 0.22973030805587769,
	"learning_rate": 6.01499746818912e-06,
	"loss": 0.5715,
	"step": 585
	},
	{
	"epoch": 1.6905444126074498,
	"grad_norm": 0.22791410982608795,
	"learning_rate": 5.930129594963047e-06,
	"loss": 0.5709,
	"step": 590
	},
	{
	"epoch": 1.7048710601719197,
	"grad_norm": 0.2369392067193985,
	"learning_rate": 5.845459249135437e-06,
	"loss": 0.5712,
	"step": 595
	},
	{
	"epoch": 1.7191977077363898,
	"grad_norm": 0.22787928581237793,
	"learning_rate": 5.7610068293523925e-06,
	"loss": 0.5806,
	"step": 600
	},
	{
	"epoch": 1.7191977077363898,
	"eval_loss": 0.589396595954895,
	"eval_runtime": 2.8838,
	"eval_samples_per_second": 14.564,
	"eval_steps_per_second": 14.564,
	"step": 600
	},
	{
	"epoch": 1.7335243553008595,
	"grad_norm": 0.2262052297592163,
	"learning_rate": 5.676792681757612e-06,
	"loss": 0.5653,
	"step": 605
	},
	{
	"epoch": 1.7478510028653296,
	"grad_norm": 0.2277483344078064,
	"learning_rate": 5.5928370950906355e-06,
	"loss": 0.5634,
	"step": 610
	},
	{
	"epoch": 1.7621776504297995,
	"grad_norm": 0.2228267937898636,
	"learning_rate": 5.5091602957989115e-06,
	"loss": 0.5472,
	"step": 615
	},
	{
	"epoch": 1.7765042979942693,
	"grad_norm": 0.22168482840061188,
	"learning_rate": 5.425782443164878e-06,
	"loss": 0.5565,
	"step": 620
	},
	{
	"epoch": 1.7908309455587392,
	"grad_norm": 0.22628583014011383,
	"learning_rate": 5.342723624449211e-06,
	"loss": 0.558,
	"step": 625
	},
	{
	"epoch": 1.8051575931232091,
	"grad_norm": 0.22420856356620789,
	"learning_rate": 5.260003850051442e-06,
	"loss": 0.5721,
	"step": 630
	},
	{
	"epoch": 1.8194842406876792,
	"grad_norm": 0.22148585319519043,
	"learning_rate": 5.177643048689078e-06,
	"loss": 0.5688,
	"step": 635
	},
	{
	"epoch": 1.8338108882521489,
	"grad_norm": 0.21723760664463043,
	"learning_rate": 5.095661062596411e-06,
	"loss": 0.5719,
	"step": 640
	},
	{
	"epoch": 1.848137535816619,
	"grad_norm": 0.22150275111198425,
	"learning_rate": 5.014077642744153e-06,
	"loss": 0.5486,
	"step": 645
	},
	{
	"epoch": 1.8624641833810889,
	"grad_norm": 0.21508848667144775,
	"learning_rate": 4.932912444081069e-06,
	"loss": 0.555,
	"step": 650
	},
	{
	"epoch": 1.8767908309455588,
	"grad_norm": 0.2276742309331894,
	"learning_rate": 4.852185020798736e-06,
	"loss": 0.5527,
	"step": 655
	},
	{
	"epoch": 1.8911174785100286,
	"grad_norm": 0.22282367944717407,
	"learning_rate": 4.771914821620574e-06,
	"loss": 0.5513,
	"step": 660
	},
	{
	"epoch": 1.9054441260744985,
	"grad_norm": 0.22503264248371124,
	"learning_rate": 4.6921211851162955e-06,
	"loss": 0.5656,
	"step": 665
	},
	{
	"epoch": 1.9197707736389686,
	"grad_norm": 0.22671757638454437,
	"learning_rate": 4.612823335042883e-06,
	"loss": 0.5746,
	"step": 670
	},
	{
	"epoch": 1.9340974212034383,
	"grad_norm": 0.2195613831281662,
	"learning_rate": 4.534040375713239e-06,
	"loss": 0.5481,
	"step": 675
	},
	{
	"epoch": 1.9484240687679084,
	"grad_norm": 0.2245696634054184,
	"learning_rate": 4.455791287393597e-06,
	"loss": 0.558,
	"step": 680
	},
	{
	"epoch": 1.962750716332378,
	"grad_norm": 0.21683502197265625,
	"learning_rate": 4.37809492173083e-06,
	"loss": 0.5523,
	"step": 685
	},
	{
	"epoch": 1.9770773638968482,
	"grad_norm": 0.2247258424758911,
	"learning_rate": 4.300969997210741e-06,
	"loss": 0.5735,
	"step": 690
	},
	{
	"epoch": 1.991404011461318,
	"grad_norm": 0.22837325930595398,
	"learning_rate": 4.224435094648434e-06,
	"loss": 0.5669,
	"step": 695
	},
	{
	"epoch": 1.994269340974212,
	"eval_loss": 0.5852823853492737,
	"eval_runtime": 2.8671,
	"eval_samples_per_second": 14.649,
	"eval_steps_per_second": 14.649,
	"step": 696
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.5849316716194153,
	"eval_runtime": 2.8768,
	"eval_samples_per_second": 14.6,
	"eval_steps_per_second": 14.6,
	"step": 698
	},
	{
	"epoch": 2.005730659025788,
	"grad_norm": 0.21968944370746613,
	"learning_rate": 4.148508652711858e-06,
	"loss": 0.5577,
	"step": 700
	},
	{
	"epoch": 2.005730659025788,
	"eval_loss": 0.5852600932121277,
	"eval_runtime": 2.8671,
	"eval_samples_per_second": 14.649,
	"eval_steps_per_second": 14.649,
	"step": 700
	},
	{
	"epoch": 2.020057306590258,
	"grad_norm": 0.22937500476837158,
	"learning_rate": 4.073208963479584e-06,
	"loss": 0.5605,
	"step": 705
	},
	{
	"epoch": 2.0343839541547277,
	"grad_norm": 0.23057711124420166,
	"learning_rate": 3.998554168033906e-06,
	"loss": 0.5525,
	"step": 710
	},
	{
	"epoch": 2.048710601719198,
	"grad_norm": 0.2270784080028534,
	"learning_rate": 3.924562252090337e-06,
	"loss": 0.5562,
	"step": 715
	},
	{
	"epoch": 2.0630372492836675,
	"grad_norm": 0.2220994234085083,
	"learning_rate": 3.8512510416644995e-06,
	"loss": 0.5447,
	"step": 720
	},
	{
	"epoch": 2.0773638968481376,
	"grad_norm": 0.23204341530799866,
	"learning_rate": 3.778638198777512e-06,
	"loss": 0.549,
	"step": 725
	},
	{
	"epoch": 2.0916905444126073,
	"grad_norm": 0.22262004017829895,
	"learning_rate": 3.706741217200896e-06,
	"loss": 0.5499,
	"step": 730
	},
	{
	"epoch": 2.1060171919770774,
	"grad_norm": 0.22019214928150177,
	"learning_rate": 3.6355774182419905e-06,
	"loss": 0.55,
	"step": 735
	},
	{
	"epoch": 2.1203438395415475,
	"grad_norm": 0.22234179079532623,
	"learning_rate": 3.5651639465709426e-06,
	"loss": 0.5524,
	"step": 740
	},
	{
	"epoch": 2.134670487106017,
	"grad_norm": 0.22449831664562225,
	"learning_rate": 3.495517766090224e-06,
	"loss": 0.5459,
	"step": 745
	},
	{
	"epoch": 2.1489971346704873,
	"grad_norm": 0.23554570972919464,
	"learning_rate": 3.426655655847724e-06,
	"loss": 0.5617,
	"step": 750
	},
	{
	"epoch": 2.163323782234957,
	"grad_norm": 0.23134228587150574,
	"learning_rate": 3.3585942059943785e-06,
	"loss": 0.5523,
	"step": 755
	},
	{
	"epoch": 2.177650429799427,
	"grad_norm": 0.2272178828716278,
	"learning_rate": 3.291349813787276e-06,
	"loss": 0.5506,
	"step": 760
	},
	{
	"epoch": 2.1919770773638967,
	"grad_norm": 0.22482511401176453,
	"learning_rate": 3.2249386796392656e-06,
	"loss": 0.5451,
	"step": 765
	},
	{
	"epoch": 2.206303724928367,
	"grad_norm": 0.2274748831987381,
	"learning_rate": 3.159376803215985e-06,
	"loss": 0.5531,
	"step": 770
	},
	{
	"epoch": 2.2206303724928365,
	"grad_norm": 0.2227988839149475,
	"learning_rate": 3.0946799795812396e-06,
	"loss": 0.5489,
	"step": 775
	},
	{
	"epoch": 2.2349570200573066,
	"grad_norm": 0.22400720417499542,
	"learning_rate": 3.030863795391684e-06,
	"loss": 0.5456,
	"step": 780
	},
	{
	"epoch": 2.2492836676217767,
	"grad_norm": 0.2268913835287094,
	"learning_rate": 2.9679436251417016e-06,
	"loss": 0.5394,
	"step": 785
	},
	{
	"epoch": 2.2636103151862463,
	"grad_norm": 0.22335706651210785,
	"learning_rate": 2.9059346274594124e-06,
	"loss": 0.5377,
	"step": 790
	},
	{
	"epoch": 2.2779369627507164,
	"grad_norm": 0.22807373106479645,
	"learning_rate": 2.8448517414546884e-06,
	"loss": 0.5484,
	"step": 795
	},
	{
	"epoch": 2.292263610315186,
	"grad_norm": 0.22118327021598816,
	"learning_rate": 2.7847096831200282e-06,
	"loss": 0.5419,
	"step": 800
	},
	{
	"epoch": 2.292263610315186,
	"eval_loss": 0.5827357769012451,
	"eval_runtime": 2.9066,
	"eval_samples_per_second": 14.45,
	"eval_steps_per_second": 14.45,
	"step": 800
	},
	{
	"epoch": 2.306590257879656,
	"grad_norm": 0.22792136669158936,
	"learning_rate": 2.7255229417852123e-06,
	"loss": 0.5496,
	"step": 805
	},
	{
	"epoch": 2.3209169054441263,
	"grad_norm": 0.22095544636249542,
	"learning_rate": 2.667305776626566e-06,
	"loss": 0.554,
	"step": 810
	},
	{
	"epoch": 2.335243553008596,
	"grad_norm": 0.22290435433387756,
	"learning_rate": 2.6100722132316454e-06,
	"loss": 0.5492,
	"step": 815
	},
	{
	"epoch": 2.349570200573066,
	"grad_norm": 0.23009058833122253,
	"learning_rate": 2.553836040220221e-06,
	"loss": 0.5473,
	"step": 820
	},
	{
	"epoch": 2.3638968481375358,
	"grad_norm": 0.22500832378864288,
	"learning_rate": 2.49861080592235e-06,
	"loss": 0.5586,
	"step": 825
	},
	{
	"epoch": 2.378223495702006,
	"grad_norm": 0.22200486063957214,
	"learning_rate": 2.4444098151143295e-06,
	"loss": 0.5358,
	"step": 830
	},
	{
	"epoch": 2.3925501432664755,
	"grad_norm": 0.22904905676841736,
	"learning_rate": 2.391246125813331e-06,
	"loss": 0.5524,
	"step": 835
	},
	{
	"epoch": 2.4068767908309456,
	"grad_norm": 0.23062781989574432,
	"learning_rate": 2.339132546131483e-06,
	"loss": 0.5404,
	"step": 840
	},
	{
	"epoch": 2.4212034383954153,
	"grad_norm": 0.22324807941913605,
	"learning_rate": 2.288081631190158e-06,
	"loss": 0.5377,
	"step": 845
	},
	{
	"epoch": 2.4355300859598854,
	"grad_norm": 0.22595882415771484,
	"learning_rate": 2.2381056800952273e-06,
	"loss": 0.5465,
	"step": 850
	},
	{
	"epoch": 2.4498567335243555,
	"grad_norm": 0.23639383912086487,
	"learning_rate": 2.189216732973958e-06,
	"loss": 0.5518,
	"step": 855
	},
	{
	"epoch": 2.464183381088825,
	"grad_norm": 0.23035073280334473,
	"learning_rate": 2.1414265680743383e-06,
	"loss": 0.5444,
	"step": 860
	},
	{
	"epoch": 2.4785100286532953,
	"grad_norm": 0.22556614875793457,
	"learning_rate": 2.0947466989274793e-06,
	"loss": 0.5519,
	"step": 865
	},
	{
	"epoch": 2.492836676217765,
	"grad_norm": 0.22614265978336334,
	"learning_rate": 2.0491883715737904e-06,
	"loss": 0.5526,
	"step": 870
	},
	{
	"epoch": 2.507163323782235,
	"grad_norm": 0.22689661383628845,
	"learning_rate": 2.0047625618536037e-06,
	"loss": 0.5489,
	"step": 875
	},
	{
	"epoch": 2.5214899713467047,
	"grad_norm": 0.22763052582740784,
	"learning_rate": 1.961479972762888e-06,
	"loss": 0.5397,
	"step": 880
	},
	{
	"epoch": 2.535816618911175,
	"grad_norm": 0.22761483490467072,
	"learning_rate": 1.919351031874699e-06,
	"loss": 0.5452,
	"step": 885
	},
	{
	"epoch": 2.5501432664756445,
	"grad_norm": 0.22768139839172363,
	"learning_rate": 1.8783858888269978e-06,
	"loss": 0.5522,
	"step": 890
	},
	{
	"epoch": 2.5644699140401146,
	"grad_norm": 0.23226258158683777,
	"learning_rate": 1.8385944128773981e-06,
	"loss": 0.521,
	"step": 895
	},
	{
	"epoch": 2.5787965616045847,
	"grad_norm": 0.2272603064775467,
	"learning_rate": 1.7999861905254893e-06,
	"loss": 0.5526,
	"step": 900
	},
	{
	"epoch": 2.5787965616045847,
	"eval_loss": 0.5810644030570984,
	"eval_runtime": 2.9211,
	"eval_samples_per_second": 14.378,
	"eval_steps_per_second": 14.378,
	"step": 900
	},
	{
	"epoch": 2.5931232091690544,
	"grad_norm": 0.22808772325515747,
	"learning_rate": 1.7625705232032741e-06,
	"loss": 0.5573,
	"step": 905
	},
	{
	"epoch": 2.6074498567335245,
	"grad_norm": 0.22595611214637756,
	"learning_rate": 1.726356425034279e-06,
	"loss": 0.5378,
	"step": 910
	},
	{
	"epoch": 2.621776504297994,
	"grad_norm": 0.22707025706768036,
	"learning_rate": 1.6913526206618854e-06,
	"loss": 0.5243,
	"step": 915
	},
	{
	"epoch": 2.6361031518624642,
	"grad_norm": 0.2284831553697586,
	"learning_rate": 1.6575675431474023e-06,
	"loss": 0.5411,
	"step": 920
	},
	{
	"epoch": 2.6504297994269344,
	"grad_norm": 0.22921448945999146,
	"learning_rate": 1.6250093319383871e-06,
	"loss": 0.5411,
	"step": 925
	},
	{
	"epoch": 2.664756446991404,
	"grad_norm": 0.2303130179643631,
	"learning_rate": 1.5936858309077084e-06,
	"loss": 0.546,
	"step": 930
	},
	{
	"epoch": 2.6790830945558737,
	"grad_norm": 0.2226521223783493,
	"learning_rate": 1.5636045864637997e-06,
	"loss": 0.5378,
	"step": 935
	},
	{
	"epoch": 2.693409742120344,
	"grad_norm": 0.22775433957576752,
	"learning_rate": 1.5347728457326013e-06,
	"loss": 0.5341,
	"step": 940
	},
	{
	"epoch": 2.707736389684814,
	"grad_norm": 0.23151849210262299,
	"learning_rate": 1.507197554811592e-06,
	"loss": 0.5411,
	"step": 945
	},
	{
	"epoch": 2.7220630372492836,
	"grad_norm": 0.22131632268428802,
	"learning_rate": 1.480885357096343e-06,
	"loss": 0.5322,
	"step": 950
	},
	{
	"epoch": 2.7363896848137537,
	"grad_norm": 0.22514161467552185,
	"learning_rate": 1.4558425916800066e-06,
	"loss": 0.5287,
	"step": 955
	},
	{
	"epoch": 2.7507163323782233,
	"grad_norm": 0.22741974890232086,
	"learning_rate": 1.4320752918261058e-06,
	"loss": 0.5467,
	"step": 960
	},
	{
	"epoch": 2.7650429799426934,
	"grad_norm": 0.22180503606796265,
	"learning_rate": 1.4095891835150126e-06,
	"loss": 0.5398,
	"step": 965
	},
	{
	"epoch": 2.7793696275071635,
	"grad_norm": 0.2328280508518219,
	"learning_rate": 1.3883896840644583e-06,
	"loss": 0.5347,
	"step": 970
	},
	{
	"epoch": 2.793696275071633,
	"grad_norm": 0.22877122461795807,
	"learning_rate": 1.3684819008243952e-06,
	"loss": 0.5453,
	"step": 975
	},
	{
	"epoch": 2.8080229226361033,
	"grad_norm": 0.22728435695171356,
	"learning_rate": 1.3498706299465446e-06,
	"loss": 0.5356,
	"step": 980
	},
	{
	"epoch": 2.822349570200573,
	"grad_norm": 0.22559645771980286,
	"learning_rate": 1.3325603552289166e-06,
	"loss": 0.5432,
	"step": 985
	},
	{
	"epoch": 2.836676217765043,
	"grad_norm": 0.2304041087627411,
	"learning_rate": 1.3165552470355781e-06,
	"loss": 0.5441,
	"step": 990
	},
	{
	"epoch": 2.8510028653295127,
	"grad_norm": 0.22864393889904022,
	"learning_rate": 1.301859161291938e-06,
	"loss": 0.5417,
	"step": 995
	},
	{
	"epoch": 2.865329512893983,
	"grad_norm": 0.22412388026714325,
	"learning_rate": 1.2884756385557813e-06,
	"loss": 0.5374,
	"step": 1000
	},
	{
	"epoch": 2.865329512893983,
	"eval_loss": 0.5795248746871948,
	"eval_runtime": 2.889,
	"eval_samples_per_second": 14.538,
	"eval_steps_per_second": 14.538,
	"step": 1000
	},
	{
	"epoch": 2.8796561604584525,
	"grad_norm": 0.22551295161247253,
	"learning_rate": 1.2764079031642852e-06,
	"loss": 0.5425,
	"step": 1005
	},
	{
	"epoch": 2.8939828080229226,
	"grad_norm": 0.22314225137233734,
	"learning_rate": 1.265658862457217e-06,
	"loss": 0.5405,
	"step": 1010
	},
	{
	"epoch": 2.9083094555873927,
	"grad_norm": 0.22527816891670227,
	"learning_rate": 1.2562311060765001e-06,
	"loss": 0.5436,
	"step": 1015
	},
	{
	"epoch": 2.9226361031518624,
	"grad_norm": 0.22648297250270844,
	"learning_rate": 1.248126905342324e-06,
	"loss": 0.5497,
	"step": 1020
	},
	{
	"epoch": 2.9369627507163325,
	"grad_norm": 0.2278534471988678,
	"learning_rate": 1.2413482127059402e-06,
	"loss": 0.5391,
	"step": 1025
	},
	{
	"epoch": 2.951289398280802,
	"grad_norm": 0.2279985249042511,
	"learning_rate": 1.2358966612792807e-06,
	"loss": 0.5398,
	"step": 1030
	},
	{
	"epoch": 2.9656160458452723,
	"grad_norm": 0.23118627071380615,
	"learning_rate": 1.2317735644415136e-06,
	"loss": 0.5517,
	"step": 1035
	},
	{
	"epoch": 2.9799426934097424,
	"grad_norm": 0.22241578996181488,
	"learning_rate": 1.228979915522621e-06,
	"loss": 0.5407,
	"step": 1040
	},
	{
	"epoch": 2.9914040114613183,
	"eval_loss": 0.5790691375732422,
	"eval_runtime": 2.8699,
	"eval_samples_per_second": 14.635,
	"eval_steps_per_second": 14.635,
	"step": 1044
	}
	],
	"logging_steps": 5,
	"max_steps": 1047,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1950747837551084e+18,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}