SFT warmup LoRA for 4B judge (9367 samples, 1 epoch)

bc9cb33 verified 4 days ago

28 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 25,
	"global_step": 781,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0064047822374039285,
	"grad_norm": 5.6078200340271,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.1562,
	"step": 5
	},
	{
	"epoch": 0.012809564474807857,
	"grad_norm": 5.326383590698242,
	"learning_rate": 2.25e-06,
	"loss": 1.0619,
	"step": 10
	},
	{
	"epoch": 0.019214346712211786,
	"grad_norm": 2.7833762168884277,
	"learning_rate": 3.5e-06,
	"loss": 1.0511,
	"step": 15
	},
	{
	"epoch": 0.025619128949615714,
	"grad_norm": 1.1198874711990356,
	"learning_rate": 4.75e-06,
	"loss": 0.931,
	"step": 20
	},
	{
	"epoch": 0.03202391118701964,
	"grad_norm": 1.2183799743652344,
	"learning_rate": 4.999659159998194e-06,
	"loss": 0.8819,
	"step": 25
	},
	{
	"epoch": 0.03842869342442357,
	"grad_norm": 0.7168175578117371,
	"learning_rate": 4.998274656771894e-06,
	"loss": 0.845,
	"step": 30
	},
	{
	"epoch": 0.0448334756618275,
	"grad_norm": 0.5571187734603882,
	"learning_rate": 4.995825777227236e-06,
	"loss": 0.7982,
	"step": 35
	},
	{
	"epoch": 0.05123825789923143,
	"grad_norm": 0.5454768538475037,
	"learning_rate": 4.992313564696022e-06,
	"loss": 0.7583,
	"step": 40
	},
	{
	"epoch": 0.057643040136635355,
	"grad_norm": 0.4312361776828766,
	"learning_rate": 4.9877395155372815e-06,
	"loss": 0.7783,
	"step": 45
	},
	{
	"epoch": 0.06404782237403928,
	"grad_norm": 0.34762468934059143,
	"learning_rate": 4.982105578499759e-06,
	"loss": 0.7645,
	"step": 50
	},
	{
	"epoch": 0.07045260461144322,
	"grad_norm": 0.34647414088249207,
	"learning_rate": 4.975414153891664e-06,
	"loss": 0.7397,
	"step": 55
	},
	{
	"epoch": 0.07685738684884715,
	"grad_norm": 0.33078256249427795,
	"learning_rate": 4.967668092558024e-06,
	"loss": 0.7325,
	"step": 60
	},
	{
	"epoch": 0.08326216908625107,
	"grad_norm": 0.3410351872444153,
	"learning_rate": 4.9588706946661066e-06,
	"loss": 0.7037,
	"step": 65
	},
	{
	"epoch": 0.089666951323655,
	"grad_norm": 0.3349353075027466,
	"learning_rate": 4.949025708299395e-06,
	"loss": 0.6928,
	"step": 70
	},
	{
	"epoch": 0.09607173356105893,
	"grad_norm": 0.32335689663887024,
	"learning_rate": 4.93813732786074e-06,
	"loss": 0.6764,
	"step": 75
	},
	{
	"epoch": 0.10247651579846286,
	"grad_norm": 0.33923929929733276,
	"learning_rate": 4.926210192285359e-06,
	"loss": 0.7398,
	"step": 80
	},
	{
	"epoch": 0.10888129803586678,
	"grad_norm": 0.32697415351867676,
	"learning_rate": 4.913249383064438e-06,
	"loss": 0.6927,
	"step": 85
	},
	{
	"epoch": 0.11528608027327071,
	"grad_norm": 0.34032362699508667,
	"learning_rate": 4.899260422080195e-06,
	"loss": 0.6909,
	"step": 90
	},
	{
	"epoch": 0.12169086251067464,
	"grad_norm": 0.3949951231479645,
	"learning_rate": 4.884249269253309e-06,
	"loss": 0.6517,
	"step": 95
	},
	{
	"epoch": 0.12809564474807855,
	"grad_norm": 0.40848004817962646,
	"learning_rate": 4.868222320003731e-06,
	"loss": 0.6625,
	"step": 100
	},
	{
	"epoch": 0.1345004269854825,
	"grad_norm": 0.36571186780929565,
	"learning_rate": 4.851186402525946e-06,
	"loss": 0.6693,
	"step": 105
	},
	{
	"epoch": 0.14090520922288644,
	"grad_norm": 0.33602604269981384,
	"learning_rate": 4.8331487748798636e-06,
	"loss": 0.6699,
	"step": 110
	},
	{
	"epoch": 0.14730999146029036,
	"grad_norm": 0.3456333875656128,
	"learning_rate": 4.814117121898554e-06,
	"loss": 0.6265,
	"step": 115
	},
	{
	"epoch": 0.1537147736976943,
	"grad_norm": 0.2806994915008545,
	"learning_rate": 4.794099551914173e-06,
	"loss": 0.6181,
	"step": 120
	},
	{
	"epoch": 0.16011955593509822,
	"grad_norm": 0.352857381105423,
	"learning_rate": 4.773104593303449e-06,
	"loss": 0.6869,
	"step": 125
	},
	{
	"epoch": 0.16652433817250215,
	"grad_norm": 0.3353271782398224,
	"learning_rate": 4.751141190854214e-06,
	"loss": 0.6184,
	"step": 130
	},
	{
	"epoch": 0.17292912040990607,
	"grad_norm": 0.39950162172317505,
	"learning_rate": 4.728218701954525e-06,
	"loss": 0.6631,
	"step": 135
	},
	{
	"epoch": 0.17933390264731,
	"grad_norm": 0.3852960169315338,
	"learning_rate": 4.704346892606001e-06,
	"loss": 0.6077,
	"step": 140
	},
	{
	"epoch": 0.18573868488471393,
	"grad_norm": 0.3433144688606262,
	"learning_rate": 4.6795359332630694e-06,
	"loss": 0.6487,
	"step": 145
	},
	{
	"epoch": 0.19214346712211786,
	"grad_norm": 0.437122106552124,
	"learning_rate": 4.653796394499904e-06,
	"loss": 0.6284,
	"step": 150
	},
	{
	"epoch": 0.19854824935952178,
	"grad_norm": 0.3337637484073639,
	"learning_rate": 4.627139242506882e-06,
	"loss": 0.6177,
	"step": 155
	},
	{
	"epoch": 0.2049530315969257,
	"grad_norm": 0.3271448016166687,
	"learning_rate": 4.599575834418505e-06,
	"loss": 0.6604,
	"step": 160
	},
	{
	"epoch": 0.21135781383432964,
	"grad_norm": 0.4029073715209961,
	"learning_rate": 4.571117913474749e-06,
	"loss": 0.6151,
	"step": 165
	},
	{
	"epoch": 0.21776259607173357,
	"grad_norm": 0.35433897376060486,
	"learning_rate": 4.541777604017924e-06,
	"loss": 0.5941,
	"step": 170
	},
	{
	"epoch": 0.2241673783091375,
	"grad_norm": 0.40683719515800476,
	"learning_rate": 4.511567406327162e-06,
	"loss": 0.6196,
	"step": 175
	},
	{
	"epoch": 0.23057216054654142,
	"grad_norm": 0.41791296005249023,
	"learning_rate": 4.480500191292744e-06,
	"loss": 0.6104,
	"step": 180
	},
	{
	"epoch": 0.23697694278394535,
	"grad_norm": 0.3712579011917114,
	"learning_rate": 4.448589194932521e-06,
	"loss": 0.6091,
	"step": 185
	},
	{
	"epoch": 0.24338172502134928,
	"grad_norm": 0.3512028157711029,
	"learning_rate": 4.415848012752789e-06,
	"loss": 0.5894,
	"step": 190
	},
	{
	"epoch": 0.2497865072587532,
	"grad_norm": 0.3832685649394989,
	"learning_rate": 4.38229059395599e-06,
	"loss": 0.6143,
	"step": 195
	},
	{
	"epoch": 0.2561912894961571,
	"grad_norm": 0.3921290338039398,
	"learning_rate": 4.347931235497738e-06,
	"loss": 0.6161,
	"step": 200
	},
	{
	"epoch": 0.26259607173356103,
	"grad_norm": 0.40466588735580444,
	"learning_rate": 4.312784575995669e-06,
	"loss": 0.6008,
	"step": 205
	},
	{
	"epoch": 0.269000853970965,
	"grad_norm": 0.9247767329216003,
	"learning_rate": 4.276865589492747e-06,
	"loss": 0.5971,
	"step": 210
	},
	{
	"epoch": 0.27540563620836894,
	"grad_norm": 0.5003313422203064,
	"learning_rate": 4.240189579077649e-06,
	"loss": 0.5832,
	"step": 215
	},
	{
	"epoch": 0.28181041844577287,
	"grad_norm": 0.41465386748313904,
	"learning_rate": 4.202772170364969e-06,
	"loss": 0.5909,
	"step": 220
	},
	{
	"epoch": 0.2882152006831768,
	"grad_norm": 0.3520627021789551,
	"learning_rate": 4.164629304838012e-06,
	"loss": 0.5826,
	"step": 225
	},
	{
	"epoch": 0.2946199829205807,
	"grad_norm": 0.38733118772506714,
	"learning_rate": 4.125777233057007e-06,
	"loss": 0.6092,
	"step": 230
	},
	{
	"epoch": 0.30102476515798465,
	"grad_norm": 0.3622700870037079,
	"learning_rate": 4.086232507735648e-06,
	"loss": 0.5844,
	"step": 235
	},
	{
	"epoch": 0.3074295473953886,
	"grad_norm": 0.47380566596984863,
	"learning_rate": 4.0460119766889e-06,
	"loss": 0.6075,
	"step": 240
	},
	{
	"epoch": 0.3138343296327925,
	"grad_norm": 0.4540008008480072,
	"learning_rate": 4.005132775655076e-06,
	"loss": 0.572,
	"step": 245
	},
	{
	"epoch": 0.32023911187019644,
	"grad_norm": 0.47770172357559204,
	"learning_rate": 3.963612320995257e-06,
	"loss": 0.6175,
	"step": 250
	},
	{
	"epoch": 0.32664389410760036,
	"grad_norm": 0.3514467179775238,
	"learning_rate": 3.921468302273137e-06,
	"loss": 0.5618,
	"step": 255
	},
	{
	"epoch": 0.3330486763450043,
	"grad_norm": 0.45986905694007874,
	"learning_rate": 3.8787186747184826e-06,
	"loss": 0.5442,
	"step": 260
	},
	{
	"epoch": 0.3394534585824082,
	"grad_norm": 0.4583056569099426,
	"learning_rate": 3.8353816515774115e-06,
	"loss": 0.569,
	"step": 265
	},
	{
	"epoch": 0.34585824081981215,
	"grad_norm": 0.3687354028224945,
	"learning_rate": 3.79147569635273e-06,
	"loss": 0.5555,
	"step": 270
	},
	{
	"epoch": 0.3522630230572161,
	"grad_norm": 0.38063594698905945,
	"learning_rate": 3.747019514937663e-06,
	"loss": 0.6,
	"step": 275
	},
	{
	"epoch": 0.35866780529462,
	"grad_norm": 0.430896520614624,
	"learning_rate": 3.70203204764631e-06,
	"loss": 0.5843,
	"step": 280
	},
	{
	"epoch": 0.36507258753202393,
	"grad_norm": 0.5169083476066589,
	"learning_rate": 3.6565324611442234e-06,
	"loss": 0.5914,
	"step": 285
	},
	{
	"epoch": 0.37147736976942786,
	"grad_norm": 0.36347025632858276,
	"learning_rate": 3.6105401402825595e-06,
	"loss": 0.5674,
	"step": 290
	},
	{
	"epoch": 0.3778821520068318,
	"grad_norm": 0.3636574447154999,
	"learning_rate": 3.5640746798392657e-06,
	"loss": 0.6123,
	"step": 295
	},
	{
	"epoch": 0.3842869342442357,
	"grad_norm": 0.4619109332561493,
	"learning_rate": 3.5171558761708334e-06,
	"loss": 0.5708,
	"step": 300
	},
	{
	"epoch": 0.39069171648163964,
	"grad_norm": 0.447704553604126,
	"learning_rate": 3.469803718778166e-06,
	"loss": 0.5722,
	"step": 305
	},
	{
	"epoch": 0.39709649871904357,
	"grad_norm": 0.39746832847595215,
	"learning_rate": 3.4220383817901625e-06,
	"loss": 0.5772,
	"step": 310
	},
	{
	"epoch": 0.4035012809564475,
	"grad_norm": 0.4326777160167694,
	"learning_rate": 3.3738802153686414e-06,
	"loss": 0.5715,
	"step": 315
	},
	{
	"epoch": 0.4099060631938514,
	"grad_norm": 0.4147851765155792,
	"learning_rate": 3.3253497370382605e-06,
	"loss": 0.572,
	"step": 320
	},
	{
	"epoch": 0.41631084543125535,
	"grad_norm": 0.43767350912094116,
	"learning_rate": 3.2764676229451397e-06,
	"loss": 0.563,
	"step": 325
	},
	{
	"epoch": 0.4227156276686593,
	"grad_norm": 0.36241263151168823,
	"learning_rate": 3.227254699047904e-06,
	"loss": 0.5649,
	"step": 330
	},
	{
	"epoch": 0.4291204099060632,
	"grad_norm": 0.5232857465744019,
	"learning_rate": 3.177731932244892e-06,
	"loss": 0.5645,
	"step": 335
	},
	{
	"epoch": 0.43552519214346713,
	"grad_norm": 0.4475226104259491,
	"learning_rate": 3.127920421441327e-06,
	"loss": 0.5767,
	"step": 340
	},
	{
	"epoch": 0.44192997438087106,
	"grad_norm": 0.4484921991825104,
	"learning_rate": 3.077841388560243e-06,
	"loss": 0.591,
	"step": 345
	},
	{
	"epoch": 0.448334756618275,
	"grad_norm": 0.5250320434570312,
	"learning_rate": 3.0275161695009975e-06,
	"loss": 0.5814,
	"step": 350
	},
	{
	"epoch": 0.4547395388556789,
	"grad_norm": 0.47690996527671814,
	"learning_rate": 2.9769662050492276e-06,
	"loss": 0.5602,
	"step": 355
	},
	{
	"epoch": 0.46114432109308284,
	"grad_norm": 0.4651663899421692,
	"learning_rate": 2.926213031742125e-06,
	"loss": 0.5741,
	"step": 360
	},
	{
	"epoch": 0.46754910333048677,
	"grad_norm": 0.46296215057373047,
	"learning_rate": 2.8752782726929045e-06,
	"loss": 0.5614,
	"step": 365
	},
	{
	"epoch": 0.4739538855678907,
	"grad_norm": 0.5162904262542725,
	"learning_rate": 2.8241836283784026e-06,
	"loss": 0.5483,
	"step": 370
	},
	{
	"epoch": 0.4803586678052946,
	"grad_norm": 0.3958864212036133,
	"learning_rate": 2.7729508673936972e-06,
	"loss": 0.5745,
	"step": 375
	},
	{
	"epoch": 0.48676345004269855,
	"grad_norm": 0.4186757504940033,
	"learning_rate": 2.721601817177725e-06,
	"loss": 0.5459,
	"step": 380
	},
	{
	"epoch": 0.4931682322801025,
	"grad_norm": 0.4372413456439972,
	"learning_rate": 2.6701583547138165e-06,
	"loss": 0.5852,
	"step": 385
	},
	{
	"epoch": 0.4995730145175064,
	"grad_norm": 0.4488023519515991,
	"learning_rate": 2.618642397209126e-06,
	"loss": 0.5427,
	"step": 390
	},
	{
	"epoch": 0.5059777967549103,
	"grad_norm": 0.4278182089328766,
	"learning_rate": 2.567075892756924e-06,
	"loss": 0.5586,
	"step": 395
	},
	{
	"epoch": 0.5123825789923142,
	"grad_norm": 0.48016875982284546,
	"learning_rate": 2.5154808109857367e-06,
	"loss": 0.5405,
	"step": 400
	},
	{
	"epoch": 0.5187873612297181,
	"grad_norm": 0.5077680945396423,
	"learning_rate": 2.4638791336992967e-06,
	"loss": 0.5682,
	"step": 405
	},
	{
	"epoch": 0.5251921434671221,
	"grad_norm": 0.5091099739074707,
	"learning_rate": 2.4122928455113233e-06,
	"loss": 0.5619,
	"step": 410
	},
	{
	"epoch": 0.531596925704526,
	"grad_norm": 0.4333205223083496,
	"learning_rate": 2.360743924479093e-06,
	"loss": 0.5879,
	"step": 415
	},
	{
	"epoch": 0.53800170794193,
	"grad_norm": 0.4178122282028198,
	"learning_rate": 2.3092543327398083e-06,
	"loss": 0.5332,
	"step": 420
	},
	{
	"epoch": 0.544406490179334,
	"grad_norm": 0.4080513119697571,
	"learning_rate": 2.2578460071537512e-06,
	"loss": 0.5728,
	"step": 425
	},
	{
	"epoch": 0.5508112724167379,
	"grad_norm": 0.48982349038124084,
	"learning_rate": 2.2065408499582e-06,
	"loss": 0.575,
	"step": 430
	},
	{
	"epoch": 0.5572160546541418,
	"grad_norm": 0.4953416883945465,
	"learning_rate": 2.155360719436102e-06,
	"loss": 0.5404,
	"step": 435
	},
	{
	"epoch": 0.5636208368915457,
	"grad_norm": 0.4608188271522522,
	"learning_rate": 2.1043274206034727e-06,
	"loss": 0.5579,
	"step": 440
	},
	{
	"epoch": 0.5700256191289497,
	"grad_norm": 0.48403236269950867,
	"learning_rate": 2.0534626959194816e-06,
	"loss": 0.5383,
	"step": 445
	},
	{
	"epoch": 0.5764304013663536,
	"grad_norm": 0.4532581865787506,
	"learning_rate": 2.002788216023203e-06,
	"loss": 0.5638,
	"step": 450
	},
	{
	"epoch": 0.5828351836037575,
	"grad_norm": 0.53521728515625,
	"learning_rate": 1.9523255705009558e-06,
	"loss": 0.5549,
	"step": 455
	},
	{
	"epoch": 0.5892399658411615,
	"grad_norm": 0.4711097180843353,
	"learning_rate": 1.902096258688174e-06,
	"loss": 0.5027,
	"step": 460
	},
	{
	"epoch": 0.5956447480785654,
	"grad_norm": 0.43662044405937195,
	"learning_rate": 1.8521216805097358e-06,
	"loss": 0.556,
	"step": 465
	},
	{
	"epoch": 0.6020495303159693,
	"grad_norm": 0.3957918882369995,
	"learning_rate": 1.8024231273626424e-06,
	"loss": 0.5596,
	"step": 470
	},
	{
	"epoch": 0.6084543125533732,
	"grad_norm": 0.5218236446380615,
	"learning_rate": 1.7530217730449312e-06,
	"loss": 0.5405,
	"step": 475
	},
	{
	"epoch": 0.6148590947907772,
	"grad_norm": 0.4223135709762573,
	"learning_rate": 1.7039386647346975e-06,
	"loss": 0.5279,
	"step": 480
	},
	{
	"epoch": 0.6212638770281811,
	"grad_norm": 0.3835909068584442,
	"learning_rate": 1.6551947140230568e-06,
	"loss": 0.5747,
	"step": 485
	},
	{
	"epoch": 0.627668659265585,
	"grad_norm": 0.5082884430885315,
	"learning_rate": 1.6068106880048747e-06,
	"loss": 0.5518,
	"step": 490
	},
	{
	"epoch": 0.6340734415029889,
	"grad_norm": 0.4860563278198242,
	"learning_rate": 1.5588072004310634e-06,
	"loss": 0.5641,
	"step": 495
	},
	{
	"epoch": 0.6404782237403929,
	"grad_norm": 0.4176677167415619,
	"learning_rate": 1.5112047029262e-06,
	"loss": 0.5547,
	"step": 500
	},
	{
	"epoch": 0.6468830059777968,
	"grad_norm": 0.3659776747226715,
	"learning_rate": 1.4640234762752248e-06,
	"loss": 0.5503,
	"step": 505
	},
	{
	"epoch": 0.6532877882152007,
	"grad_norm": 0.4908987283706665,
	"learning_rate": 1.4172836217829267e-06,
	"loss": 0.5549,
	"step": 510
	},
	{
	"epoch": 0.6596925704526047,
	"grad_norm": 0.44962796568870544,
	"learning_rate": 1.3710050527098867e-06,
	"loss": 0.573,
	"step": 515
	},
	{
	"epoch": 0.6660973526900086,
	"grad_norm": 0.4549601376056671,
	"learning_rate": 1.3252074857885453e-06,
	"loss": 0.5666,
	"step": 520
	},
	{
	"epoch": 0.6725021349274125,
	"grad_norm": 0.48955774307250977,
	"learning_rate": 1.2799104328229928e-06,
	"loss": 0.5379,
	"step": 525
	},
	{
	"epoch": 0.6789069171648164,
	"grad_norm": 0.45902734994888306,
	"learning_rate": 1.2351331923760743e-06,
	"loss": 0.5345,
	"step": 530
	},
	{
	"epoch": 0.6853116994022204,
	"grad_norm": 0.49846968054771423,
	"learning_rate": 1.1908948415473418e-06,
	"loss": 0.5367,
	"step": 535
	},
	{
	"epoch": 0.6917164816396243,
	"grad_norm": 0.48370206356048584,
	"learning_rate": 1.1472142278453582e-06,
	"loss": 0.5325,
	"step": 540
	},
	{
	"epoch": 0.6981212638770282,
	"grad_norm": 0.3830443024635315,
	"learning_rate": 1.1041099611578177e-06,
	"loss": 0.5585,
	"step": 545
	},
	{
	"epoch": 0.7045260461144321,
	"grad_norm": 0.47550487518310547,
	"learning_rate": 1.0616004058229084e-06,
	"loss": 0.5417,
	"step": 550
	},
	{
	"epoch": 0.7109308283518361,
	"grad_norm": 0.46026965975761414,
	"learning_rate": 1.0197036728052847e-06,
	"loss": 0.5715,
	"step": 555
	},
	{
	"epoch": 0.71733561058924,
	"grad_norm": 0.42247724533081055,
	"learning_rate": 9.784376119799851e-07,
	"loss": 0.5459,
	"step": 560
	},
	{
	"epoch": 0.7237403928266439,
	"grad_norm": 0.5001282095909119,
	"learning_rate": 9.378198045275968e-07,
	"loss": 0.5557,
	"step": 565
	},
	{
	"epoch": 0.7301451750640479,
	"grad_norm": 0.4762704372406006,
	"learning_rate": 8.97867555443886e-07,
	"loss": 0.5338,
	"step": 570
	},
	{
	"epoch": 0.7365499573014518,
	"grad_norm": 0.48811063170433044,
	"learning_rate": 8.585978861670958e-07,
	"loss": 0.5331,
	"step": 575
	},
	{
	"epoch": 0.7429547395388557,
	"grad_norm": 0.45258718729019165,
	"learning_rate": 8.200275273260611e-07,
	"loss": 0.5461,
	"step": 580
	},
	{
	"epoch": 0.7493595217762596,
	"grad_norm": 0.4314691424369812,
	"learning_rate": 7.821729116122126e-07,
	"loss": 0.558,
	"step": 585
	},
	{
	"epoch": 0.7557643040136636,
	"grad_norm": 0.4526233673095703,
	"learning_rate": 7.450501667785146e-07,
	"loss": 0.5455,
	"step": 590
	},
	{
	"epoch": 0.7621690862510675,
	"grad_norm": 0.4625132977962494,
	"learning_rate": 7.086751087683297e-07,
	"loss": 0.5514,
	"step": 595
	},
	{
	"epoch": 0.7685738684884714,
	"grad_norm": 0.4986107349395752,
	"learning_rate": 6.730632349771193e-07,
	"loss": 0.5566,
	"step": 600
	},
	{
	"epoch": 0.7749786507258754,
	"grad_norm": 0.5132951140403748,
	"learning_rate": 6.3822971764986e-07,
	"loss": 0.5363,
	"step": 605
	},
	{
	"epoch": 0.7813834329632793,
	"grad_norm": 0.48895248770713806,
	"learning_rate": 6.041893974169963e-07,
	"loss": 0.5382,
	"step": 610
	},
	{
	"epoch": 0.7877882152006832,
	"grad_norm": 0.48889264464378357,
	"learning_rate": 5.709567769716678e-07,
	"loss": 0.5511,
	"step": 615
	},
	{
	"epoch": 0.7941929974380871,
	"grad_norm": 0.4542140066623688,
	"learning_rate": 5.385460148909169e-07,
	"loss": 0.5227,
	"step": 620
	},
	{
	"epoch": 0.8005977796754911,
	"grad_norm": 0.48940637707710266,
	"learning_rate": 5.069709196035011e-07,
	"loss": 0.5519,
	"step": 625
	},
	{
	"epoch": 0.807002561912895,
	"grad_norm": 0.45722976326942444,
	"learning_rate": 4.762449435068914e-07,
	"loss": 0.5358,
	"step": 630
	},
	{
	"epoch": 0.8134073441502989,
	"grad_norm": 0.5042068958282471,
	"learning_rate": 4.4638117723595054e-07,
	"loss": 0.5686,
	"step": 635
	},
	{
	"epoch": 0.8198121263877028,
	"grad_norm": 0.4974375069141388,
	"learning_rate": 4.173923440857358e-07,
	"loss": 0.5528,
	"step": 640
	},
	{
	"epoch": 0.8262169086251068,
	"grad_norm": 0.4234403669834137,
	"learning_rate": 3.892907945908128e-07,
	"loss": 0.5305,
	"step": 645
	},
	{
	"epoch": 0.8326216908625107,
	"grad_norm": 0.5144878029823303,
	"learning_rate": 3.6208850126337595e-07,
	"loss": 0.5282,
	"step": 650
	},
	{
	"epoch": 0.8390264730999146,
	"grad_norm": 0.41059333086013794,
	"learning_rate": 3.357970534924229e-07,
	"loss": 0.5601,
	"step": 655
	},
	{
	"epoch": 0.8454312553373186,
	"grad_norm": 0.40885528922080994,
	"learning_rate": 3.104276526061617e-07,
	"loss": 0.536,
	"step": 660
	},
	{
	"epoch": 0.8518360375747225,
	"grad_norm": 0.462971568107605,
	"learning_rate": 2.859911070997437e-07,
	"loss": 0.5513,
	"step": 665
	},
	{
	"epoch": 0.8582408198121264,
	"grad_norm": 0.6165898442268372,
	"learning_rate": 2.624978280303628e-07,
	"loss": 0.5542,
	"step": 670
	},
	{
	"epoch": 0.8646456020495303,
	"grad_norm": 0.514519453048706,
	"learning_rate": 2.3995782458168276e-07,
	"loss": 0.5572,
	"step": 675
	},
	{
	"epoch": 0.8710503842869343,
	"grad_norm": 0.5139626264572144,
	"learning_rate": 2.1838069979947945e-07,
	"loss": 0.5372,
	"step": 680
	},
	{
	"epoch": 0.8774551665243382,
	"grad_norm": 1.6515536308288574,
	"learning_rate": 1.9777564650031112e-07,
	"loss": 0.5515,
	"step": 685
	},
	{
	"epoch": 0.8838599487617421,
	"grad_norm": 0.4731055200099945,
	"learning_rate": 1.7815144335497524e-07,
	"loss": 0.5515,
	"step": 690
	},
	{
	"epoch": 0.890264730999146,
	"grad_norm": 0.5183550715446472,
	"learning_rate": 1.5951645114839875e-07,
	"loss": 0.5419,
	"step": 695
	},
	{
	"epoch": 0.89666951323655,
	"grad_norm": 0.5357317328453064,
	"learning_rate": 1.4187860921757252e-07,
	"loss": 0.5571,
	"step": 700
	},
	{
	"epoch": 0.9030742954739539,
	"grad_norm": 0.5177751779556274,
	"learning_rate": 1.2524543206904188e-07,
	"loss": 0.5607,
	"step": 705
	},
	{
	"epoch": 0.9094790777113578,
	"grad_norm": 0.4790054261684418,
	"learning_rate": 1.0962400617738872e-07,
	"loss": 0.581,
	"step": 710
	},
	{
	"epoch": 0.9158838599487618,
	"grad_norm": 0.5255675911903381,
	"learning_rate": 9.502098696608147e-08,
	"loss": 0.5449,
	"step": 715
	},
	{
	"epoch": 0.9222886421861657,
	"grad_norm": 0.38730135560035706,
	"learning_rate": 8.144259597196308e-08,
	"loss": 0.5518,
	"step": 720
	},
	{
	"epoch": 0.9286934244235696,
	"grad_norm": 0.42933622002601624,
	"learning_rate": 6.889461819460485e-08,
	"loss": 0.5365,
	"step": 725
	},
	{
	"epoch": 0.9350982066609735,
	"grad_norm": 0.50970458984375,
	"learning_rate": 5.738239963163472e-08,
	"loss": 0.5282,
	"step": 730
	},
	{
	"epoch": 0.9415029888983775,
	"grad_norm": 0.5318973064422607,
	"learning_rate": 4.691084500110521e-08,
	"loss": 0.5281,
	"step": 735
	},
	{
	"epoch": 0.9479077711357814,
	"grad_norm": 0.4877215623855591,
	"learning_rate": 3.748441565186583e-08,
	"loss": 0.5136,
	"step": 740
	},
	{
	"epoch": 0.9543125533731853,
	"grad_norm": 0.5620718002319336,
	"learning_rate": 2.910712766282908e-08,
	"loss": 0.5385,
	"step": 745
	},
	{
	"epoch": 0.9607173356105893,
	"grad_norm": 0.5282920598983765,
	"learning_rate": 2.178255013194075e-08,
	"loss": 0.5296,
	"step": 750
	},
	{
	"epoch": 0.9671221178479932,
	"grad_norm": 0.422025591135025,
	"learning_rate": 1.5513803655587966e-08,
	"loss": 0.5131,
	"step": 755
	},
	{
	"epoch": 0.9735269000853971,
	"grad_norm": 0.5139475464820862,
	"learning_rate": 1.0303558999082974e-08,
	"loss": 0.5625,
	"step": 760
	},
	{
	"epoch": 0.979931682322801,
	"grad_norm": 0.48410946130752563,
	"learning_rate": 6.1540359588005416e-09,
	"loss": 0.5286,
	"step": 765
	},
	{
	"epoch": 0.986336464560205,
	"grad_norm": 0.4075927138328552,
	"learning_rate": 3.067002416444198e-09,
	"loss": 0.5113,
	"step": 770
	},
	{
	"epoch": 0.9927412467976089,
	"grad_norm": 0.4521820545196533,
	"learning_rate": 1.0437735858506715e-09,
	"loss": 0.5399,
	"step": 775
	},
	{
	"epoch": 0.9991460290350128,
	"grad_norm": 0.41308000683784485,
	"learning_rate": 8.521145264978048e-11,
	"loss": 0.5787,
	"step": 780
	},
	{
	"epoch": 1.0,
	"step": 781,
	"total_flos": 7.995150581897871e+17,
	"train_loss": 0.5977290161287891,
	"train_runtime": 6942.3995,
	"train_samples_per_second": 1.349,
	"train_steps_per_second": 0.112
	}
	],
	"logging_steps": 5,
	"max_steps": 781,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.995150581897871e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}