Refined (v5.3) update

3cf1937 12 months ago

22.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9999517413335477,
	"eval_steps": 500,
	"global_step": 62164,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016086222150727903,
	"grad_norm": 0.5078127384185791,
	"learning_rate": 4.959864230101023e-05,
	"loss": 2.1432,
	"step": 500
	},
	{
	"epoch": 0.032172444301455806,
	"grad_norm": 0.4508506655693054,
	"learning_rate": 4.9196480277974395e-05,
	"loss": 1.9093,
	"step": 1000
	},
	{
	"epoch": 0.048258666452183706,
	"grad_norm": 0.4430558979511261,
	"learning_rate": 4.879431825493855e-05,
	"loss": 1.8418,
	"step": 1500
	},
	{
	"epoch": 0.06434488860291161,
	"grad_norm": 0.4775325059890747,
	"learning_rate": 4.8392156231902713e-05,
	"loss": 1.7771,
	"step": 2000
	},
	{
	"epoch": 0.08043111075363951,
	"grad_norm": 0.49685001373291016,
	"learning_rate": 4.7989994208866876e-05,
	"loss": 1.7226,
	"step": 2500
	},
	{
	"epoch": 0.09651733290436741,
	"grad_norm": 0.5552434325218201,
	"learning_rate": 4.7587832185831025e-05,
	"loss": 1.6767,
	"step": 3000
	},
	{
	"epoch": 0.11260355505509531,
	"grad_norm": 0.6779139637947083,
	"learning_rate": 4.718567016279519e-05,
	"loss": 1.6588,
	"step": 3500
	},
	{
	"epoch": 0.12868977720582322,
	"grad_norm": 0.5552022457122803,
	"learning_rate": 4.6783508139759344e-05,
	"loss": 1.603,
	"step": 4000
	},
	{
	"epoch": 0.1447759993565511,
	"grad_norm": 0.5302042365074158,
	"learning_rate": 4.638134611672351e-05,
	"loss": 1.5776,
	"step": 4500
	},
	{
	"epoch": 0.16086222150727902,
	"grad_norm": 0.5810815691947937,
	"learning_rate": 4.597918409368766e-05,
	"loss": 1.5333,
	"step": 5000
	},
	{
	"epoch": 0.1769484436580069,
	"grad_norm": 0.5819700956344604,
	"learning_rate": 4.5577022070651826e-05,
	"loss": 1.5168,
	"step": 5500
	},
	{
	"epoch": 0.19303466580873482,
	"grad_norm": 0.6134072542190552,
	"learning_rate": 4.517486004761599e-05,
	"loss": 1.4748,
	"step": 6000
	},
	{
	"epoch": 0.2091208879594627,
	"grad_norm": 0.5746152400970459,
	"learning_rate": 4.4772698024580144e-05,
	"loss": 1.4622,
	"step": 6500
	},
	{
	"epoch": 0.22520711011019062,
	"grad_norm": 0.7663710713386536,
	"learning_rate": 4.437053600154431e-05,
	"loss": 1.4767,
	"step": 7000
	},
	{
	"epoch": 0.24129333226091854,
	"grad_norm": 0.7993176579475403,
	"learning_rate": 4.396837397850846e-05,
	"loss": 1.4527,
	"step": 7500
	},
	{
	"epoch": 0.25737955441164645,
	"grad_norm": 0.6892676949501038,
	"learning_rate": 4.3566211955472626e-05,
	"loss": 1.4325,
	"step": 8000
	},
	{
	"epoch": 0.2734657765623743,
	"grad_norm": 0.6928556561470032,
	"learning_rate": 4.316404993243678e-05,
	"loss": 1.4038,
	"step": 8500
	},
	{
	"epoch": 0.2895519987131022,
	"grad_norm": 0.7578593492507935,
	"learning_rate": 4.2761887909400944e-05,
	"loss": 1.3945,
	"step": 9000
	},
	{
	"epoch": 0.30563822086383013,
	"grad_norm": 0.7504703402519226,
	"learning_rate": 4.23597258863651e-05,
	"loss": 1.3644,
	"step": 9500
	},
	{
	"epoch": 0.32172444301455805,
	"grad_norm": 0.8370710611343384,
	"learning_rate": 4.1957563863329256e-05,
	"loss": 1.3619,
	"step": 10000
	},
	{
	"epoch": 0.3378106651652859,
	"grad_norm": 0.8501142263412476,
	"learning_rate": 4.155540184029342e-05,
	"loss": 1.3448,
	"step": 10500
	},
	{
	"epoch": 0.3538968873160138,
	"grad_norm": 0.9001900553703308,
	"learning_rate": 4.1153239817257575e-05,
	"loss": 1.3004,
	"step": 11000
	},
	{
	"epoch": 0.36998310946674173,
	"grad_norm": 1.0658681392669678,
	"learning_rate": 4.075107779422174e-05,
	"loss": 1.2789,
	"step": 11500
	},
	{
	"epoch": 0.38606933161746965,
	"grad_norm": 1.1038371324539185,
	"learning_rate": 4.0348915771185894e-05,
	"loss": 1.2651,
	"step": 12000
	},
	{
	"epoch": 0.40215555376819756,
	"grad_norm": 1.2004213333129883,
	"learning_rate": 3.994755807219613e-05,
	"loss": 1.2216,
	"step": 12500
	},
	{
	"epoch": 0.4182417759189254,
	"grad_norm": 1.235543966293335,
	"learning_rate": 3.9545396049160286e-05,
	"loss": 1.1955,
	"step": 13000
	},
	{
	"epoch": 0.43432799806965333,
	"grad_norm": 1.5088828802108765,
	"learning_rate": 3.914323402612445e-05,
	"loss": 1.1836,
	"step": 13500
	},
	{
	"epoch": 0.45041422022038125,
	"grad_norm": 1.264153242111206,
	"learning_rate": 3.8741072003088605e-05,
	"loss": 1.1658,
	"step": 14000
	},
	{
	"epoch": 0.46650044237110916,
	"grad_norm": 1.3023343086242676,
	"learning_rate": 3.833971430409884e-05,
	"loss": 1.1481,
	"step": 14500
	},
	{
	"epoch": 0.48258666452183707,
	"grad_norm": 1.3824670314788818,
	"learning_rate": 3.7938356605109064e-05,
	"loss": 1.1221,
	"step": 15000
	},
	{
	"epoch": 0.49867288667256493,
	"grad_norm": 1.4364969730377197,
	"learning_rate": 3.75369989061193e-05,
	"loss": 1.1057,
	"step": 15500
	},
	{
	"epoch": 0.5147591088232929,
	"grad_norm": 2.051701545715332,
	"learning_rate": 3.7134836883083456e-05,
	"loss": 1.0873,
	"step": 16000
	},
	{
	"epoch": 0.5308453309740208,
	"grad_norm": 1.4329720735549927,
	"learning_rate": 3.673267486004762e-05,
	"loss": 1.0607,
	"step": 16500
	},
	{
	"epoch": 0.5469315531247486,
	"grad_norm": 1.4981014728546143,
	"learning_rate": 3.6330512837011775e-05,
	"loss": 1.0516,
	"step": 17000
	},
	{
	"epoch": 0.5630177752754766,
	"grad_norm": 1.3012079000473022,
	"learning_rate": 3.592835081397594e-05,
	"loss": 1.0317,
	"step": 17500
	},
	{
	"epoch": 0.5791039974262044,
	"grad_norm": 1.401825189590454,
	"learning_rate": 3.552699311498617e-05,
	"loss": 1.0183,
	"step": 18000
	},
	{
	"epoch": 0.5951902195769324,
	"grad_norm": 2.0783369541168213,
	"learning_rate": 3.512483109195033e-05,
	"loss": 0.9985,
	"step": 18500
	},
	{
	"epoch": 0.6112764417276603,
	"grad_norm": 2.3940794467926025,
	"learning_rate": 3.4722669068914486e-05,
	"loss": 0.9698,
	"step": 19000
	},
	{
	"epoch": 0.6273626638783881,
	"grad_norm": 1.4747998714447021,
	"learning_rate": 3.432050704587865e-05,
	"loss": 0.9657,
	"step": 19500
	},
	{
	"epoch": 0.6434488860291161,
	"grad_norm": 3.0782012939453125,
	"learning_rate": 3.391914934688888e-05,
	"loss": 0.9379,
	"step": 20000
	},
	{
	"epoch": 0.659535108179844,
	"grad_norm": 2.4914307594299316,
	"learning_rate": 3.3516987323853034e-05,
	"loss": 0.915,
	"step": 20500
	},
	{
	"epoch": 0.6756213303305718,
	"grad_norm": 2.772120237350464,
	"learning_rate": 3.3115629624863264e-05,
	"loss": 0.9047,
	"step": 21000
	},
	{
	"epoch": 0.6917075524812998,
	"grad_norm": 2.519575595855713,
	"learning_rate": 3.271346760182743e-05,
	"loss": 0.8688,
	"step": 21500
	},
	{
	"epoch": 0.7077937746320276,
	"grad_norm": 4.085098743438721,
	"learning_rate": 3.231130557879158e-05,
	"loss": 0.8581,
	"step": 22000
	},
	{
	"epoch": 0.7238799967827556,
	"grad_norm": 1.4670002460479736,
	"learning_rate": 3.1909143555755745e-05,
	"loss": 0.8354,
	"step": 22500
	},
	{
	"epoch": 0.7399662189334835,
	"grad_norm": 2.4749488830566406,
	"learning_rate": 3.1507785856765975e-05,
	"loss": 0.8108,
	"step": 23000
	},
	{
	"epoch": 0.7560524410842113,
	"grad_norm": 1.8635029792785645,
	"learning_rate": 3.110562383373014e-05,
	"loss": 0.7773,
	"step": 23500
	},
	{
	"epoch": 0.7721386632349393,
	"grad_norm": 3.5713748931884766,
	"learning_rate": 3.0703461810694294e-05,
	"loss": 0.756,
	"step": 24000
	},
	{
	"epoch": 0.7882248853856672,
	"grad_norm": 1.8903526067733765,
	"learning_rate": 3.0301299787658456e-05,
	"loss": 0.7326,
	"step": 24500
	},
	{
	"epoch": 0.8043111075363951,
	"grad_norm": 8.286703109741211,
	"learning_rate": 2.9899942088668686e-05,
	"loss": 0.6948,
	"step": 25000
	},
	{
	"epoch": 0.820397329687123,
	"grad_norm": 2.2209272384643555,
	"learning_rate": 2.9497780065632845e-05,
	"loss": 0.6914,
	"step": 25500
	},
	{
	"epoch": 0.8364835518378508,
	"grad_norm": 2.2284536361694336,
	"learning_rate": 2.9095618042597e-05,
	"loss": 0.6585,
	"step": 26000
	},
	{
	"epoch": 0.8525697739885788,
	"grad_norm": 3.4615938663482666,
	"learning_rate": 2.869345601956116e-05,
	"loss": 0.633,
	"step": 26500
	},
	{
	"epoch": 0.8686559961393067,
	"grad_norm": 3.1158838272094727,
	"learning_rate": 2.829209832057139e-05,
	"loss": 0.6181,
	"step": 27000
	},
	{
	"epoch": 0.8847422182900346,
	"grad_norm": 2.3320417404174805,
	"learning_rate": 2.7889936297535553e-05,
	"loss": 0.5993,
	"step": 27500
	},
	{
	"epoch": 0.9008284404407625,
	"grad_norm": 1.8331427574157715,
	"learning_rate": 2.7487774274499712e-05,
	"loss": 0.5839,
	"step": 28000
	},
	{
	"epoch": 0.9169146625914903,
	"grad_norm": 3.2398369312286377,
	"learning_rate": 2.708561225146387e-05,
	"loss": 0.562,
	"step": 28500
	},
	{
	"epoch": 0.9330008847422183,
	"grad_norm": 1.6575061082839966,
	"learning_rate": 2.66842545524741e-05,
	"loss": 0.5313,
	"step": 29000
	},
	{
	"epoch": 0.9490871068929462,
	"grad_norm": 2.1604230403900146,
	"learning_rate": 2.6282092529438264e-05,
	"loss": 0.5203,
	"step": 29500
	},
	{
	"epoch": 0.9651733290436741,
	"grad_norm": 3.3743808269500732,
	"learning_rate": 2.5879930506402423e-05,
	"loss": 0.4938,
	"step": 30000
	},
	{
	"epoch": 0.981259551194402,
	"grad_norm": 3.766514301300049,
	"learning_rate": 2.5477768483366583e-05,
	"loss": 0.4724,
	"step": 30500
	},
	{
	"epoch": 0.9973457733451299,
	"grad_norm": 2.26712703704834,
	"learning_rate": 2.5075606460330742e-05,
	"loss": 0.4656,
	"step": 31000
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.26554691791534424,
	"eval_runtime": 1917.4803,
	"eval_samples_per_second": 345.81,
	"eval_steps_per_second": 43.227,
	"step": 31083
	},
	{
	"epoch": 1.0134159092737072,
	"grad_norm": 2.1041958332061768,
	"learning_rate": 2.467424876134097e-05,
	"loss": 0.4381,
	"step": 31500
	},
	{
	"epoch": 1.029502131424435,
	"grad_norm": 1.7629106044769287,
	"learning_rate": 2.427208673830513e-05,
	"loss": 0.4298,
	"step": 32000
	},
	{
	"epoch": 1.0455883535751629,
	"grad_norm": 2.5032904148101807,
	"learning_rate": 2.386992471526929e-05,
	"loss": 0.4188,
	"step": 32500
	},
	{
	"epoch": 1.0616745757258907,
	"grad_norm": 1.6467881202697754,
	"learning_rate": 2.3467762692233446e-05,
	"loss": 0.3986,
	"step": 33000
	},
	{
	"epoch": 1.0777607978766186,
	"grad_norm": 1.957220435142517,
	"learning_rate": 2.3065600669197606e-05,
	"loss": 0.382,
	"step": 33500
	},
	{
	"epoch": 1.0938470200273467,
	"grad_norm": 1.6566946506500244,
	"learning_rate": 2.2663438646161765e-05,
	"loss": 0.3689,
	"step": 34000
	},
	{
	"epoch": 1.1099332421780745,
	"grad_norm": 2.081613540649414,
	"learning_rate": 2.2261276623125928e-05,
	"loss": 0.3603,
	"step": 34500
	},
	{
	"epoch": 1.1260194643288024,
	"grad_norm": 2.155226945877075,
	"learning_rate": 2.1859918924136157e-05,
	"loss": 0.3478,
	"step": 35000
	},
	{
	"epoch": 1.1421056864795303,
	"grad_norm": 1.9459590911865234,
	"learning_rate": 2.1457756901100317e-05,
	"loss": 0.3315,
	"step": 35500
	},
	{
	"epoch": 1.1581919086302581,
	"grad_norm": 2.3381567001342773,
	"learning_rate": 2.1055594878064476e-05,
	"loss": 0.3259,
	"step": 36000
	},
	{
	"epoch": 1.1742781307809862,
	"grad_norm": 1.4302254915237427,
	"learning_rate": 2.0653432855028635e-05,
	"loss": 0.3168,
	"step": 36500
	},
	{
	"epoch": 1.190364352931714,
	"grad_norm": 1.1770597696304321,
	"learning_rate": 2.0251270831992795e-05,
	"loss": 0.3082,
	"step": 37000
	},
	{
	"epoch": 1.206450575082442,
	"grad_norm": 1.7475298643112183,
	"learning_rate": 1.9849913133003024e-05,
	"loss": 0.3014,
	"step": 37500
	},
	{
	"epoch": 1.2225367972331698,
	"grad_norm": 1.2397468090057373,
	"learning_rate": 1.9447751109967187e-05,
	"loss": 0.288,
	"step": 38000
	},
	{
	"epoch": 1.2386230193838976,
	"grad_norm": 1.6603740453720093,
	"learning_rate": 1.9045589086931343e-05,
	"loss": 0.2797,
	"step": 38500
	},
	{
	"epoch": 1.2547092415346257,
	"grad_norm": 1.7009538412094116,
	"learning_rate": 1.8643427063895502e-05,
	"loss": 0.275,
	"step": 39000
	},
	{
	"epoch": 1.2707954636853536,
	"grad_norm": 1.4941717386245728,
	"learning_rate": 1.8241265040859662e-05,
	"loss": 0.2623,
	"step": 39500
	},
	{
	"epoch": 1.2868816858360814,
	"grad_norm": 1.941115140914917,
	"learning_rate": 1.7839907341869895e-05,
	"loss": 0.2572,
	"step": 40000
	},
	{
	"epoch": 1.3029679079868093,
	"grad_norm": 1.487726092338562,
	"learning_rate": 1.7437745318834054e-05,
	"loss": 0.2502,
	"step": 40500
	},
	{
	"epoch": 1.3190541301375371,
	"grad_norm": 1.4628674983978271,
	"learning_rate": 1.7035583295798213e-05,
	"loss": 0.2437,
	"step": 41000
	},
	{
	"epoch": 1.3351403522882652,
	"grad_norm": 1.401607632637024,
	"learning_rate": 1.663342127276237e-05,
	"loss": 0.2421,
	"step": 41500
	},
	{
	"epoch": 1.351226574438993,
	"grad_norm": 1.1497563123703003,
	"learning_rate": 1.623125924972653e-05,
	"loss": 0.231,
	"step": 42000
	},
	{
	"epoch": 1.367312796589721,
	"grad_norm": 1.322836995124817,
	"learning_rate": 1.5829097226690688e-05,
	"loss": 0.2261,
	"step": 42500
	},
	{
	"epoch": 1.3833990187404488,
	"grad_norm": 1.5328525304794312,
	"learning_rate": 1.542773952770092e-05,
	"loss": 0.2177,
	"step": 43000
	},
	{
	"epoch": 1.3994852408911767,
	"grad_norm": 1.7748241424560547,
	"learning_rate": 1.502557750466508e-05,
	"loss": 0.2186,
	"step": 43500
	},
	{
	"epoch": 1.4155714630419047,
	"grad_norm": 1.6542141437530518,
	"learning_rate": 1.4623415481629241e-05,
	"loss": 0.2138,
	"step": 44000
	},
	{
	"epoch": 1.4316576851926326,
	"grad_norm": 1.3098843097686768,
	"learning_rate": 1.4221253458593397e-05,
	"loss": 0.211,
	"step": 44500
	},
	{
	"epoch": 1.4477439073433604,
	"grad_norm": 1.345651626586914,
	"learning_rate": 1.3819091435557557e-05,
	"loss": 0.2027,
	"step": 45000
	},
	{
	"epoch": 1.4638301294940883,
	"grad_norm": 1.4520297050476074,
	"learning_rate": 1.3416929412521718e-05,
	"loss": 0.2039,
	"step": 45500
	},
	{
	"epoch": 1.4799163516448162,
	"grad_norm": 1.5913499593734741,
	"learning_rate": 1.3014767389485877e-05,
	"loss": 0.1939,
	"step": 46000
	},
	{
	"epoch": 1.4960025737955442,
	"grad_norm": 1.1803226470947266,
	"learning_rate": 1.2612605366450037e-05,
	"loss": 0.1887,
	"step": 46500
	},
	{
	"epoch": 1.5120887959462719,
	"grad_norm": 1.1462236642837524,
	"learning_rate": 1.2210443343414194e-05,
	"loss": 0.1883,
	"step": 47000
	},
	{
	"epoch": 1.528175018097,
	"grad_norm": 0.8483968377113342,
	"learning_rate": 1.1808281320378355e-05,
	"loss": 0.1809,
	"step": 47500
	},
	{
	"epoch": 1.5442612402477278,
	"grad_norm": 1.1205823421478271,
	"learning_rate": 1.1406119297342515e-05,
	"loss": 0.1813,
	"step": 48000
	},
	{
	"epoch": 1.5603474623984557,
	"grad_norm": 1.417622447013855,
	"learning_rate": 1.1003957274306672e-05,
	"loss": 0.1788,
	"step": 48500
	},
	{
	"epoch": 1.5764336845491838,
	"grad_norm": 1.179103970527649,
	"learning_rate": 1.0602599575316904e-05,
	"loss": 0.1809,
	"step": 49000
	},
	{
	"epoch": 1.5925199066999114,
	"grad_norm": 1.1092889308929443,
	"learning_rate": 1.0200437552281065e-05,
	"loss": 0.1734,
	"step": 49500
	},
	{
	"epoch": 1.6086061288506395,
	"grad_norm": 1.0196574926376343,
	"learning_rate": 9.798275529245222e-06,
	"loss": 0.1688,
	"step": 50000
	},
	{
	"epoch": 1.6246923510013673,
	"grad_norm": 1.1376862525939941,
	"learning_rate": 9.396113506209382e-06,
	"loss": 0.1703,
	"step": 50500
	},
	{
	"epoch": 1.6407785731520952,
	"grad_norm": 0.8885149955749512,
	"learning_rate": 8.995560131265685e-06,
	"loss": 0.1691,
	"step": 51000
	},
	{
	"epoch": 1.6568647953028233,
	"grad_norm": 1.2574944496154785,
	"learning_rate": 8.593398108229844e-06,
	"loss": 0.1615,
	"step": 51500
	},
	{
	"epoch": 1.672951017453551,
	"grad_norm": 1.2620723247528076,
	"learning_rate": 8.191236085194004e-06,
	"loss": 0.1593,
	"step": 52000
	},
	{
	"epoch": 1.689037239604279,
	"grad_norm": 1.551480770111084,
	"learning_rate": 7.789074062158163e-06,
	"loss": 0.1639,
	"step": 52500
	},
	{
	"epoch": 1.7051234617550068,
	"grad_norm": 1.5938962697982788,
	"learning_rate": 7.386912039122322e-06,
	"loss": 0.1587,
	"step": 53000
	},
	{
	"epoch": 1.7212096839057347,
	"grad_norm": 1.0503953695297241,
	"learning_rate": 6.984750016086482e-06,
	"loss": 0.1599,
	"step": 53500
	},
	{
	"epoch": 1.7372959060564628,
	"grad_norm": 1.1205036640167236,
	"learning_rate": 6.583392317096712e-06,
	"loss": 0.1541,
	"step": 54000
	},
	{
	"epoch": 1.7533821282071904,
	"grad_norm": 0.7524433732032776,
	"learning_rate": 6.181230294060872e-06,
	"loss": 0.1521,
	"step": 54500
	},
	{
	"epoch": 1.7694683503579185,
	"grad_norm": 0.9619775414466858,
	"learning_rate": 5.779068271025031e-06,
	"loss": 0.1521,
	"step": 55000
	},
	{
	"epoch": 1.7855545725086464,
	"grad_norm": 0.9406844973564148,
	"learning_rate": 5.37690624798919e-06,
	"loss": 0.1509,
	"step": 55500
	},
	{
	"epoch": 1.8016407946593742,
	"grad_norm": 0.9363726377487183,
	"learning_rate": 4.975548548999421e-06,
	"loss": 0.1513,
	"step": 56000
	},
	{
	"epoch": 1.8177270168101023,
	"grad_norm": 0.9941402673721313,
	"learning_rate": 4.573386525963581e-06,
	"loss": 0.1484,
	"step": 56500
	},
	{
	"epoch": 1.83381323896083,
	"grad_norm": 1.3756345510482788,
	"learning_rate": 4.17122450292774e-06,
	"loss": 0.1509,
	"step": 57000
	},
	{
	"epoch": 1.849899461111558,
	"grad_norm": 1.0644595623016357,
	"learning_rate": 3.7690624798918986e-06,
	"loss": 0.1486,
	"step": 57500
	},
	{
	"epoch": 1.8659856832622859,
	"grad_norm": 1.070890188217163,
	"learning_rate": 3.3669004568560584e-06,
	"loss": 0.1462,
	"step": 58000
	},
	{
	"epoch": 1.8820719054130137,
	"grad_norm": 1.3034768104553223,
	"learning_rate": 2.9647384338202173e-06,
	"loss": 0.1481,
	"step": 58500
	},
	{
	"epoch": 1.8981581275637418,
	"grad_norm": 1.127517580986023,
	"learning_rate": 2.5625764107843767e-06,
	"loss": 0.1451,
	"step": 59000
	},
	{
	"epoch": 1.9142443497144694,
	"grad_norm": 0.9431403279304504,
	"learning_rate": 2.1604143877485364e-06,
	"loss": 0.1458,
	"step": 59500
	},
	{
	"epoch": 1.9303305718651975,
	"grad_norm": 1.271483302116394,
	"learning_rate": 1.7590566887587673e-06,
	"loss": 0.1463,
	"step": 60000
	},
	{
	"epoch": 1.9464167940159254,
	"grad_norm": 0.7327952980995178,
	"learning_rate": 1.3568946657229264e-06,
	"loss": 0.1434,
	"step": 60500
	},
	{
	"epoch": 1.9625030161666532,
	"grad_norm": 1.0670543909072876,
	"learning_rate": 9.547326426870858e-07,
	"loss": 0.1424,
	"step": 61000
	},
	{
	"epoch": 1.9785892383173813,
	"grad_norm": 1.2705425024032593,
	"learning_rate": 5.525706196512451e-07,
	"loss": 0.1431,
	"step": 61500
	},
	{
	"epoch": 1.994675460468109,
	"grad_norm": 0.9267213344573975,
	"learning_rate": 1.5040859661540443e-07,
	"loss": 0.1418,
	"step": 62000
	}
	],
	"logging_steps": 500,
	"max_steps": 62164,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3461207231391334e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}