Push best model used for final benchmarks

c668209 verified 3 months ago

24 kB

	{
	"best_global_step": 6586,
	"best_metric": 0.847490661036219,
	"best_model_checkpoint": "outputs/final-run/checkpoint-6586",
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 6586,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.015186028853454821,
	"grad_norm": 2.3480491638183594,
	"learning_rate": 9.999658552822536e-06,
	"loss": 0.6629,
	"step": 50
	},
	{
	"epoch": 0.030372057706909643,
	"grad_norm": 3.3713912963867188,
	"learning_rate": 9.998606244733398e-06,
	"loss": 0.5702,
	"step": 100
	},
	{
	"epoch": 0.04555808656036447,
	"grad_norm": 5.710732460021973,
	"learning_rate": 9.996843083169648e-06,
	"loss": 0.5245,
	"step": 150
	},
	{
	"epoch": 0.060744115413819286,
	"grad_norm": 5.55316686630249,
	"learning_rate": 9.994369318871088e-06,
	"loss": 0.4684,
	"step": 200
	},
	{
	"epoch": 0.07593014426727411,
	"grad_norm": 8.149177551269531,
	"learning_rate": 9.991185303632574e-06,
	"loss": 0.4783,
	"step": 250
	},
	{
	"epoch": 0.09111617312072894,
	"grad_norm": 7.209503650665283,
	"learning_rate": 9.987291490253976e-06,
	"loss": 0.4589,
	"step": 300
	},
	{
	"epoch": 0.10630220197418375,
	"grad_norm": 7.983670234680176,
	"learning_rate": 9.98268843247581e-06,
	"loss": 0.4623,
	"step": 350
	},
	{
	"epoch": 0.12148823082763857,
	"grad_norm": 4.2466206550598145,
	"learning_rate": 9.977376784900465e-06,
	"loss": 0.4694,
	"step": 400
	},
	{
	"epoch": 0.1366742596810934,
	"grad_norm": 6.11989164352417,
	"learning_rate": 9.971357302899133e-06,
	"loss": 0.4965,
	"step": 450
	},
	{
	"epoch": 0.15186028853454822,
	"grad_norm": 4.606278896331787,
	"learning_rate": 9.964630842504372e-06,
	"loss": 0.4919,
	"step": 500
	},
	{
	"epoch": 0.16704631738800305,
	"grad_norm": 5.91365909576416,
	"learning_rate": 9.957198360288374e-06,
	"loss": 0.4536,
	"step": 550
	},
	{
	"epoch": 0.18223234624145787,
	"grad_norm": 5.541100025177002,
	"learning_rate": 9.949060913226936e-06,
	"loss": 0.4719,
	"step": 600
	},
	{
	"epoch": 0.19741837509491267,
	"grad_norm": 4.289076805114746,
	"learning_rate": 9.94021965854914e-06,
	"loss": 0.4136,
	"step": 650
	},
	{
	"epoch": 0.2126044039483675,
	"grad_norm": 14.322737693786621,
	"learning_rate": 9.930675853572787e-06,
	"loss": 0.4705,
	"step": 700
	},
	{
	"epoch": 0.22779043280182232,
	"grad_norm": 6.375570297241211,
	"learning_rate": 9.920430855525589e-06,
	"loss": 0.4701,
	"step": 750
	},
	{
	"epoch": 0.24297646165527714,
	"grad_norm": 3.261223316192627,
	"learning_rate": 9.909486121352163e-06,
	"loss": 0.4528,
	"step": 800
	},
	{
	"epoch": 0.25816249050873197,
	"grad_norm": 3.854436159133911,
	"learning_rate": 9.89784320750684e-06,
	"loss": 0.4265,
	"step": 850
	},
	{
	"epoch": 0.2733485193621868,
	"grad_norm": 10.977453231811523,
	"learning_rate": 9.885503769732304e-06,
	"loss": 0.4329,
	"step": 900
	},
	{
	"epoch": 0.2885345482156416,
	"grad_norm": 6.016301155090332,
	"learning_rate": 9.872469562824157e-06,
	"loss": 0.4147,
	"step": 950
	},
	{
	"epoch": 0.30372057706909644,
	"grad_norm": 5.806178569793701,
	"learning_rate": 9.858742440381343e-06,
	"loss": 0.4718,
	"step": 1000
	},
	{
	"epoch": 0.31890660592255127,
	"grad_norm": 6.394021987915039,
	"learning_rate": 9.844324354542558e-06,
	"loss": 0.3912,
	"step": 1050
	},
	{
	"epoch": 0.3340926347760061,
	"grad_norm": 7.948565483093262,
	"learning_rate": 9.82921735570864e-06,
	"loss": 0.4223,
	"step": 1100
	},
	{
	"epoch": 0.3492786636294609,
	"grad_norm": 5.151625156402588,
	"learning_rate": 9.813423592250969e-06,
	"loss": 0.4079,
	"step": 1150
	},
	{
	"epoch": 0.36446469248291574,
	"grad_norm": 6.724940299987793,
	"learning_rate": 9.796945310205958e-06,
	"loss": 0.4306,
	"step": 1200
	},
	{
	"epoch": 0.37965072133637057,
	"grad_norm": 3.623936176300049,
	"learning_rate": 9.779784852955636e-06,
	"loss": 0.438,
	"step": 1250
	},
	{
	"epoch": 0.39483675018982534,
	"grad_norm": 6.648692607879639,
	"learning_rate": 9.761944660894397e-06,
	"loss": 0.4515,
	"step": 1300
	},
	{
	"epoch": 0.41002277904328016,
	"grad_norm": 5.989009380340576,
	"learning_rate": 9.743427271081954e-06,
	"loss": 0.3911,
	"step": 1350
	},
	{
	"epoch": 0.425208807896735,
	"grad_norm": 3.3359053134918213,
	"learning_rate": 9.724235316882537e-06,
	"loss": 0.4454,
	"step": 1400
	},
	{
	"epoch": 0.4403948367501898,
	"grad_norm": 11.017061233520508,
	"learning_rate": 9.704371527590404e-06,
	"loss": 0.4022,
	"step": 1450
	},
	{
	"epoch": 0.45558086560364464,
	"grad_norm": 7.159852981567383,
	"learning_rate": 9.68383872804171e-06,
	"loss": 0.4464,
	"step": 1500
	},
	{
	"epoch": 0.47076689445709946,
	"grad_norm": 4.259323596954346,
	"learning_rate": 9.662639838212781e-06,
	"loss": 0.3829,
	"step": 1550
	},
	{
	"epoch": 0.4859529233105543,
	"grad_norm": 7.917912483215332,
	"learning_rate": 9.640777872804868e-06,
	"loss": 0.4186,
	"step": 1600
	},
	{
	"epoch": 0.5011389521640092,
	"grad_norm": 8.7236967086792,
	"learning_rate": 9.61825594081542e-06,
	"loss": 0.3766,
	"step": 1650
	},
	{
	"epoch": 0.5163249810174639,
	"grad_norm": 4.761518478393555,
	"learning_rate": 9.595077245095959e-06,
	"loss": 0.4057,
	"step": 1700
	},
	{
	"epoch": 0.5315110098709187,
	"grad_norm": 2.5256729125976562,
	"learning_rate": 9.571245081896594e-06,
	"loss": 0.4321,
	"step": 1750
	},
	{
	"epoch": 0.5466970387243736,
	"grad_norm": 9.82975959777832,
	"learning_rate": 9.546762840397268e-06,
	"loss": 0.4067,
	"step": 1800
	},
	{
	"epoch": 0.5618830675778284,
	"grad_norm": 4.607714653015137,
	"learning_rate": 9.521634002225774e-06,
	"loss": 0.3834,
	"step": 1850
	},
	{
	"epoch": 0.5770690964312832,
	"grad_norm": 8.330415725708008,
	"learning_rate": 9.495862140962638e-06,
	"loss": 0.374,
	"step": 1900
	},
	{
	"epoch": 0.592255125284738,
	"grad_norm": 5.7992634773254395,
	"learning_rate": 9.469450921632912e-06,
	"loss": 0.3852,
	"step": 1950
	},
	{
	"epoch": 0.6074411541381929,
	"grad_norm": 5.298435211181641,
	"learning_rate": 9.44240410018498e-06,
	"loss": 0.4345,
	"step": 2000
	},
	{
	"epoch": 0.6226271829916477,
	"grad_norm": 6.483381271362305,
	"learning_rate": 9.414725522956414e-06,
	"loss": 0.407,
	"step": 2050
	},
	{
	"epoch": 0.6378132118451025,
	"grad_norm": 5.179783821105957,
	"learning_rate": 9.386419126126983e-06,
	"loss": 0.432,
	"step": 2100
	},
	{
	"epoch": 0.6529992406985573,
	"grad_norm": 5.316011428833008,
	"learning_rate": 9.357488935158897e-06,
	"loss": 0.4071,
	"step": 2150
	},
	{
	"epoch": 0.6681852695520122,
	"grad_norm": 10.58410930633545,
	"learning_rate": 9.327939064224346e-06,
	"loss": 0.3772,
	"step": 2200
	},
	{
	"epoch": 0.683371298405467,
	"grad_norm": 4.013734817504883,
	"learning_rate": 9.297773715620406e-06,
	"loss": 0.4064,
	"step": 2250
	},
	{
	"epoch": 0.6985573272589218,
	"grad_norm": 9.252372741699219,
	"learning_rate": 9.266997179171442e-06,
	"loss": 0.3911,
	"step": 2300
	},
	{
	"epoch": 0.7137433561123766,
	"grad_norm": 8.192291259765625,
	"learning_rate": 9.235613831619052e-06,
	"loss": 0.3816,
	"step": 2350
	},
	{
	"epoch": 0.7289293849658315,
	"grad_norm": 4.068896770477295,
	"learning_rate": 9.203628135999643e-06,
	"loss": 0.4304,
	"step": 2400
	},
	{
	"epoch": 0.7441154138192863,
	"grad_norm": 2.9444737434387207,
	"learning_rate": 9.171044641009741e-06,
	"loss": 0.4231,
	"step": 2450
	},
	{
	"epoch": 0.7593014426727411,
	"grad_norm": 4.700106620788574,
	"learning_rate": 9.137867980359126e-06,
	"loss": 0.3982,
	"step": 2500
	},
	{
	"epoch": 0.7744874715261959,
	"grad_norm": 14.975322723388672,
	"learning_rate": 9.104102872111858e-06,
	"loss": 0.4241,
	"step": 2550
	},
	{
	"epoch": 0.7896735003796507,
	"grad_norm": 4.325404644012451,
	"learning_rate": 9.069754118015339e-06,
	"loss": 0.3725,
	"step": 2600
	},
	{
	"epoch": 0.8048595292331056,
	"grad_norm": 3.829643964767456,
	"learning_rate": 9.034826602817433e-06,
	"loss": 0.4048,
	"step": 2650
	},
	{
	"epoch": 0.8200455580865603,
	"grad_norm": 6.086367607116699,
	"learning_rate": 8.99932529357182e-06,
	"loss": 0.4333,
	"step": 2700
	},
	{
	"epoch": 0.8352315869400152,
	"grad_norm": 4.058459758758545,
	"learning_rate": 8.963255238931623e-06,
	"loss": 0.4004,
	"step": 2750
	},
	{
	"epoch": 0.85041761579347,
	"grad_norm": 4.049592971801758,
	"learning_rate": 8.926621568431442e-06,
	"loss": 0.4126,
	"step": 2800
	},
	{
	"epoch": 0.8656036446469249,
	"grad_norm": 3.434569835662842,
	"learning_rate": 8.889429491757872e-06,
	"loss": 0.4134,
	"step": 2850
	},
	{
	"epoch": 0.8807896735003796,
	"grad_norm": 5.300995349884033,
	"learning_rate": 8.851684298008642e-06,
	"loss": 0.4224,
	"step": 2900
	},
	{
	"epoch": 0.8959757023538345,
	"grad_norm": 8.158344268798828,
	"learning_rate": 8.813391354940445e-06,
	"loss": 0.3538,
	"step": 2950
	},
	{
	"epoch": 0.9111617312072893,
	"grad_norm": 6.747292518615723,
	"learning_rate": 8.77455610820559e-06,
	"loss": 0.3907,
	"step": 3000
	},
	{
	"epoch": 0.9263477600607442,
	"grad_norm": 6.279948711395264,
	"learning_rate": 8.735184080577569e-06,
	"loss": 0.4344,
	"step": 3050
	},
	{
	"epoch": 0.9415337889141989,
	"grad_norm": 4.355826377868652,
	"learning_rate": 8.69528087116567e-06,
	"loss": 0.4082,
	"step": 3100
	},
	{
	"epoch": 0.9567198177676538,
	"grad_norm": 6.685491561889648,
	"learning_rate": 8.65485215461872e-06,
	"loss": 0.3851,
	"step": 3150
	},
	{
	"epoch": 0.9719058466211086,
	"grad_norm": 5.933023452758789,
	"learning_rate": 8.61390368031809e-06,
	"loss": 0.3734,
	"step": 3200
	},
	{
	"epoch": 0.9870918754745635,
	"grad_norm": 9.179722785949707,
	"learning_rate": 8.572441271560077e-06,
	"loss": 0.3934,
	"step": 3250
	},
	{
	"epoch": 1.0,
	"eval_f1": 0.8445935154128733,
	"eval_loss": 0.37980714440345764,
	"eval_runtime": 7.8494,
	"eval_samples_per_second": 745.663,
	"eval_steps_per_second": 23.314,
	"step": 3293
	},
	{
	"epoch": 1.0021260440394837,
	"grad_norm": 1.5981299877166748,
	"learning_rate": 8.53047082472777e-06,
	"loss": 0.3967,
	"step": 3300
	},
	{
	"epoch": 1.0173120728929386,
	"grad_norm": 5.159671783447266,
	"learning_rate": 8.487998308452525e-06,
	"loss": 0.3125,
	"step": 3350
	},
	{
	"epoch": 1.0324981017463932,
	"grad_norm": 8.904830932617188,
	"learning_rate": 8.445029762765159e-06,
	"loss": 0.3201,
	"step": 3400
	},
	{
	"epoch": 1.047684130599848,
	"grad_norm": 4.215548992156982,
	"learning_rate": 8.401571298237e-06,
	"loss": 0.3043,
	"step": 3450
	},
	{
	"epoch": 1.062870159453303,
	"grad_norm": 2.9603254795074463,
	"learning_rate": 8.357629095110906e-06,
	"loss": 0.307,
	"step": 3500
	},
	{
	"epoch": 1.0780561883067579,
	"grad_norm": 8.665258407592773,
	"learning_rate": 8.313209402422348e-06,
	"loss": 0.3081,
	"step": 3550
	},
	{
	"epoch": 1.0932422171602125,
	"grad_norm": 7.101922512054443,
	"learning_rate": 8.268318537110762e-06,
	"loss": 0.3536,
	"step": 3600
	},
	{
	"epoch": 1.1084282460136674,
	"grad_norm": 9.113100051879883,
	"learning_rate": 8.222962883121196e-06,
	"loss": 0.3557,
	"step": 3650
	},
	{
	"epoch": 1.1236142748671223,
	"grad_norm": 3.427243947982788,
	"learning_rate": 8.177148890496452e-06,
	"loss": 0.2984,
	"step": 3700
	},
	{
	"epoch": 1.138800303720577,
	"grad_norm": 6.6492695808410645,
	"learning_rate": 8.130883074459823e-06,
	"loss": 0.3407,
	"step": 3750
	},
	{
	"epoch": 1.1539863325740318,
	"grad_norm": 9.254618644714355,
	"learning_rate": 8.084172014488564e-06,
	"loss": 0.3487,
	"step": 3800
	},
	{
	"epoch": 1.1691723614274867,
	"grad_norm": 3.8507754802703857,
	"learning_rate": 8.037022353378218e-06,
	"loss": 0.3374,
	"step": 3850
	},
	{
	"epoch": 1.1843583902809416,
	"grad_norm": 18.62590217590332,
	"learning_rate": 7.989440796297943e-06,
	"loss": 0.3269,
	"step": 3900
	},
	{
	"epoch": 1.1995444191343965,
	"grad_norm": 14.359010696411133,
	"learning_rate": 7.941434109836968e-06,
	"loss": 0.3219,
	"step": 3950
	},
	{
	"epoch": 1.2147304479878511,
	"grad_norm": 8.173829078674316,
	"learning_rate": 7.893009121042314e-06,
	"loss": 0.2944,
	"step": 4000
	},
	{
	"epoch": 1.229916476841306,
	"grad_norm": 6.0913591384887695,
	"learning_rate": 7.844172716447918e-06,
	"loss": 0.366,
	"step": 4050
	},
	{
	"epoch": 1.2451025056947609,
	"grad_norm": 8.989174842834473,
	"learning_rate": 7.794931841095297e-06,
	"loss": 0.3223,
	"step": 4100
	},
	{
	"epoch": 1.2602885345482155,
	"grad_norm": 4.618454456329346,
	"learning_rate": 7.745293497545892e-06,
	"loss": 0.3718,
	"step": 4150
	},
	{
	"epoch": 1.2754745634016704,
	"grad_norm": 6.966646194458008,
	"learning_rate": 7.695264744885225e-06,
	"loss": 0.34,
	"step": 4200
	},
	{
	"epoch": 1.2906605922551253,
	"grad_norm": 8.476325988769531,
	"learning_rate": 7.64485269771903e-06,
	"loss": 0.309,
	"step": 4250
	},
	{
	"epoch": 1.3058466211085802,
	"grad_norm": 3.3412492275238037,
	"learning_rate": 7.594064525161487e-06,
	"loss": 0.3491,
	"step": 4300
	},
	{
	"epoch": 1.321032649962035,
	"grad_norm": 9.971606254577637,
	"learning_rate": 7.54290744981569e-06,
	"loss": 0.3097,
	"step": 4350
	},
	{
	"epoch": 1.3362186788154897,
	"grad_norm": 7.083515167236328,
	"learning_rate": 7.491388746746522e-06,
	"loss": 0.3446,
	"step": 4400
	},
	{
	"epoch": 1.3514047076689446,
	"grad_norm": 5.6028361320495605,
	"learning_rate": 7.439515742446065e-06,
	"loss": 0.3229,
	"step": 4450
	},
	{
	"epoch": 1.3665907365223995,
	"grad_norm": 9.373847961425781,
	"learning_rate": 7.387295813791705e-06,
	"loss": 0.3022,
	"step": 4500
	},
	{
	"epoch": 1.3817767653758541,
	"grad_norm": 5.378981590270996,
	"learning_rate": 7.334736386997049e-06,
	"loss": 0.2955,
	"step": 4550
	},
	{
	"epoch": 1.396962794229309,
	"grad_norm": 9.248358726501465,
	"learning_rate": 7.281844936555853e-06,
	"loss": 0.3562,
	"step": 4600
	},
	{
	"epoch": 1.412148823082764,
	"grad_norm": 6.579871654510498,
	"learning_rate": 7.228628984179068e-06,
	"loss": 0.3436,
	"step": 4650
	},
	{
	"epoch": 1.4273348519362186,
	"grad_norm": 2.5316176414489746,
	"learning_rate": 7.175096097725169e-06,
	"loss": 0.3464,
	"step": 4700
	},
	{
	"epoch": 1.4425208807896734,
	"grad_norm": 12.828206062316895,
	"learning_rate": 7.121253890123941e-06,
	"loss": 0.3333,
	"step": 4750
	},
	{
	"epoch": 1.4577069096431283,
	"grad_norm": 8.807774543762207,
	"learning_rate": 7.067110018293828e-06,
	"loss": 0.2955,
	"step": 4800
	},
	{
	"epoch": 1.4728929384965832,
	"grad_norm": 10.35312557220459,
	"learning_rate": 7.012672182053043e-06,
	"loss": 0.3321,
	"step": 4850
	},
	{
	"epoch": 1.488078967350038,
	"grad_norm": 2.2814652919769287,
	"learning_rate": 6.9579481230245835e-06,
	"loss": 0.3466,
	"step": 4900
	},
	{
	"epoch": 1.5032649962034927,
	"grad_norm": 5.442550182342529,
	"learning_rate": 6.9029456235352795e-06,
	"loss": 0.3321,
	"step": 4950
	},
	{
	"epoch": 1.5184510250569476,
	"grad_norm": 12.557025909423828,
	"learning_rate": 6.847672505509079e-06,
	"loss": 0.3429,
	"step": 5000
	},
	{
	"epoch": 1.5336370539104025,
	"grad_norm": 4.002285480499268,
	"learning_rate": 6.792136629354677e-06,
	"loss": 0.3274,
	"step": 5050
	},
	{
	"epoch": 1.5488230827638572,
	"grad_norm": 17.179048538208008,
	"learning_rate": 6.736345892847691e-06,
	"loss": 0.3472,
	"step": 5100
	},
	{
	"epoch": 1.564009111617312,
	"grad_norm": 8.354110717773438,
	"learning_rate": 6.680308230007521e-06,
	"loss": 0.3282,
	"step": 5150
	},
	{
	"epoch": 1.579195140470767,
	"grad_norm": 5.1743035316467285,
	"learning_rate": 6.624031609969036e-06,
	"loss": 0.3443,
	"step": 5200
	},
	{
	"epoch": 1.5943811693242216,
	"grad_norm": 6.959432601928711,
	"learning_rate": 6.567524035849293e-06,
	"loss": 0.35,
	"step": 5250
	},
	{
	"epoch": 1.6095671981776767,
	"grad_norm": 20.55417823791504,
	"learning_rate": 6.5107935436094076e-06,
	"loss": 0.3158,
	"step": 5300
	},
	{
	"epoch": 1.6247532270311313,
	"grad_norm": 14.025495529174805,
	"learning_rate": 6.453848200911752e-06,
	"loss": 0.3287,
	"step": 5350
	},
	{
	"epoch": 1.6399392558845862,
	"grad_norm": 12.094548225402832,
	"learning_rate": 6.396696105972655e-06,
	"loss": 0.3448,
	"step": 5400
	},
	{
	"epoch": 1.655125284738041,
	"grad_norm": 3.596747398376465,
	"learning_rate": 6.339345386410756e-06,
	"loss": 0.3544,
	"step": 5450
	},
	{
	"epoch": 1.6703113135914958,
	"grad_norm": 4.897212505340576,
	"learning_rate": 6.2818041980911635e-06,
	"loss": 0.3363,
	"step": 5500
	},
	{
	"epoch": 1.6854973424449506,
	"grad_norm": 2.7992074489593506,
	"learning_rate": 6.224080723965616e-06,
	"loss": 0.3405,
	"step": 5550
	},
	{
	"epoch": 1.7006833712984055,
	"grad_norm": 8.647635459899902,
	"learning_rate": 6.1661831729087705e-06,
	"loss": 0.3218,
	"step": 5600
	},
	{
	"epoch": 1.7158694001518602,
	"grad_norm": 16.2703800201416,
	"learning_rate": 6.1081197785508335e-06,
	"loss": 0.3569,
	"step": 5650
	},
	{
	"epoch": 1.731055429005315,
	"grad_norm": 9.62259578704834,
	"learning_rate": 6.049898798106636e-06,
	"loss": 0.3181,
	"step": 5700
	},
	{
	"epoch": 1.74624145785877,
	"grad_norm": 10.183274269104004,
	"learning_rate": 5.991528511201382e-06,
	"loss": 0.3191,
	"step": 5750
	},
	{
	"epoch": 1.7614274867122246,
	"grad_norm": 20.28440284729004,
	"learning_rate": 5.933017218693193e-06,
	"loss": 0.3162,
	"step": 5800
	},
	{
	"epoch": 1.7766135155656797,
	"grad_norm": 18.231319427490234,
	"learning_rate": 5.874373241492651e-06,
	"loss": 0.3788,
	"step": 5850
	},
	{
	"epoch": 1.7917995444191344,
	"grad_norm": 14.682201385498047,
	"learning_rate": 5.815604919379472e-06,
	"loss": 0.3242,
	"step": 5900
	},
	{
	"epoch": 1.8069855732725892,
	"grad_norm": 6.563547611236572,
	"learning_rate": 5.7567206098164965e-06,
	"loss": 0.3377,
	"step": 5950
	},
	{
	"epoch": 1.8221716021260441,
	"grad_norm": 8.406890869140625,
	"learning_rate": 5.697728686761189e-06,
	"loss": 0.3222,
	"step": 6000
	},
	{
	"epoch": 1.8373576309794988,
	"grad_norm": 5.706462860107422,
	"learning_rate": 5.638637539474758e-06,
	"loss": 0.3169,
	"step": 6050
	},
	{
	"epoch": 1.8525436598329537,
	"grad_norm": 3.566732883453369,
	"learning_rate": 5.579455571329128e-06,
	"loss": 0.2993,
	"step": 6100
	},
	{
	"epoch": 1.8677296886864085,
	"grad_norm": 21.842191696166992,
	"learning_rate": 5.520191198611883e-06,
	"loss": 0.3411,
	"step": 6150
	},
	{
	"epoch": 1.8829157175398632,
	"grad_norm": 7.155375957489014,
	"learning_rate": 5.460852849329394e-06,
	"loss": 0.3168,
	"step": 6200
	},
	{
	"epoch": 1.8981017463933183,
	"grad_norm": 5.166109085083008,
	"learning_rate": 5.401448962008262e-06,
	"loss": 0.3526,
	"step": 6250
	},
	{
	"epoch": 1.913287775246773,
	"grad_norm": 10.691755294799805,
	"learning_rate": 5.341987984495275e-06,
	"loss": 0.334,
	"step": 6300
	},
	{
	"epoch": 1.9284738041002278,
	"grad_norm": 1.8157846927642822,
	"learning_rate": 5.282478372756036e-06,
	"loss": 0.2981,
	"step": 6350
	},
	{
	"epoch": 1.9436598329536827,
	"grad_norm": 6.267528057098389,
	"learning_rate": 5.222928589672436e-06,
	"loss": 0.3443,
	"step": 6400
	},
	{
	"epoch": 1.9588458618071374,
	"grad_norm": 8.20384407043457,
	"learning_rate": 5.163347103839149e-06,
	"loss": 0.3196,
	"step": 6450
	},
	{
	"epoch": 1.9740318906605923,
	"grad_norm": 6.2834882736206055,
	"learning_rate": 5.10374238835931e-06,
	"loss": 0.3176,
	"step": 6500
	},
	{
	"epoch": 1.9892179195140471,
	"grad_norm": 7.512860298156738,
	"learning_rate": 5.0441229196395416e-06,
	"loss": 0.3216,
	"step": 6550
	},
	{
	"epoch": 2.0,
	"eval_f1": 0.847490661036219,
	"eval_loss": 0.39481809735298157,
	"eval_runtime": 7.8513,
	"eval_samples_per_second": 745.486,
	"eval_steps_per_second": 23.308,
	"step": 6586
	}
	],
	"logging_steps": 50,
	"max_steps": 13172,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.771769723795456e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}