DeB3RTa-small / trainer_state.json

Upload 12 files

0725def verified about 1 year ago

29.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 50.0,
	"eval_steps": 500,
	"global_step": 80650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.30998140111593303,
	"grad_norm": 0.3543250262737274,
	"learning_rate": 6.195786864931847e-05,
	"loss": 9.0345,
	"step": 500
	},
	{
	"epoch": 0.6199628022318661,
	"grad_norm": 0.5106557607650757,
	"learning_rate": 9.97582756158962e-05,
	"loss": 6.2184,
	"step": 1000
	},
	{
	"epoch": 0.9299442033477991,
	"grad_norm": 2.6617751121520996,
	"learning_rate": 9.913204664153402e-05,
	"loss": 5.4194,
	"step": 1500
	},
	{
	"epoch": 1.2399256044637321,
	"grad_norm": 1.8096632957458496,
	"learning_rate": 9.850581766717182e-05,
	"loss": 3.915,
	"step": 2000
	},
	{
	"epoch": 1.5499070055796653,
	"grad_norm": 1.2520173788070679,
	"learning_rate": 9.787958869280964e-05,
	"loss": 2.7963,
	"step": 2500
	},
	{
	"epoch": 1.8598884066955983,
	"grad_norm": 0.8099603056907654,
	"learning_rate": 9.725335971844745e-05,
	"loss": 2.2568,
	"step": 3000
	},
	{
	"epoch": 2.1698698078115313,
	"grad_norm": 0.7233591079711914,
	"learning_rate": 9.662713074408527e-05,
	"loss": 1.9847,
	"step": 3500
	},
	{
	"epoch": 2.4798512089274642,
	"grad_norm": 0.6427165865898132,
	"learning_rate": 9.600090176972308e-05,
	"loss": 1.8216,
	"step": 4000
	},
	{
	"epoch": 2.7898326100433977,
	"grad_norm": 0.6729193925857544,
	"learning_rate": 9.53746727953609e-05,
	"loss": 1.7067,
	"step": 4500
	},
	{
	"epoch": 3.0998140111593306,
	"grad_norm": 0.6484789848327637,
	"learning_rate": 9.47484438209987e-05,
	"loss": 1.6187,
	"step": 5000
	},
	{
	"epoch": 3.4097954122752636,
	"grad_norm": 0.5950448513031006,
	"learning_rate": 9.412221484663653e-05,
	"loss": 1.5479,
	"step": 5500
	},
	{
	"epoch": 3.7197768133911966,
	"grad_norm": 0.6102598309516907,
	"learning_rate": 9.349598587227433e-05,
	"loss": 1.4879,
	"step": 6000
	},
	{
	"epoch": 4.02975821450713,
	"grad_norm": 0.6204754710197449,
	"learning_rate": 9.286975689791215e-05,
	"loss": 1.4379,
	"step": 6500
	},
	{
	"epoch": 4.3397396156230625,
	"grad_norm": 0.590217649936676,
	"learning_rate": 9.224352792354997e-05,
	"loss": 1.3926,
	"step": 7000
	},
	{
	"epoch": 4.6497210167389955,
	"grad_norm": 0.6062743663787842,
	"learning_rate": 9.161729894918779e-05,
	"loss": 1.3553,
	"step": 7500
	},
	{
	"epoch": 4.9597024178549285,
	"grad_norm": 0.5663708448410034,
	"learning_rate": 9.09910699748256e-05,
	"loss": 1.3201,
	"step": 8000
	},
	{
	"epoch": 5.2696838189708615,
	"grad_norm": 0.5806947350502014,
	"learning_rate": 9.036484100046342e-05,
	"loss": 1.2904,
	"step": 8500
	},
	{
	"epoch": 5.579665220086794,
	"grad_norm": 0.6131803393363953,
	"learning_rate": 8.973861202610123e-05,
	"loss": 1.2623,
	"step": 9000
	},
	{
	"epoch": 5.889646621202727,
	"grad_norm": 0.5666236281394958,
	"learning_rate": 8.911238305173905e-05,
	"loss": 1.2368,
	"step": 9500
	},
	{
	"epoch": 6.199628022318661,
	"grad_norm": 0.6078547239303589,
	"learning_rate": 8.848615407737685e-05,
	"loss": 1.212,
	"step": 10000
	},
	{
	"epoch": 6.509609423434594,
	"grad_norm": 0.575513482093811,
	"learning_rate": 8.785992510301467e-05,
	"loss": 1.1914,
	"step": 10500
	},
	{
	"epoch": 6.819590824550527,
	"grad_norm": 0.5826976895332336,
	"learning_rate": 8.723369612865248e-05,
	"loss": 1.1718,
	"step": 11000
	},
	{
	"epoch": 7.12957222566646,
	"grad_norm": 0.544598400592804,
	"learning_rate": 8.66074671542903e-05,
	"loss": 1.1548,
	"step": 11500
	},
	{
	"epoch": 7.439553626782393,
	"grad_norm": 0.5824791193008423,
	"learning_rate": 8.598123817992811e-05,
	"loss": 1.1363,
	"step": 12000
	},
	{
	"epoch": 7.749535027898326,
	"grad_norm": 0.5747692584991455,
	"learning_rate": 8.535500920556593e-05,
	"loss": 1.1211,
	"step": 12500
	},
	{
	"epoch": 8.05951642901426,
	"grad_norm": 0.5473280549049377,
	"learning_rate": 8.472878023120375e-05,
	"loss": 1.1077,
	"step": 13000
	},
	{
	"epoch": 8.369497830130193,
	"grad_norm": 0.5574379563331604,
	"learning_rate": 8.410255125684155e-05,
	"loss": 1.0908,
	"step": 13500
	},
	{
	"epoch": 8.679479231246125,
	"grad_norm": 0.5424452424049377,
	"learning_rate": 8.347632228247937e-05,
	"loss": 1.0785,
	"step": 14000
	},
	{
	"epoch": 8.989460632362059,
	"grad_norm": 0.5508283376693726,
	"learning_rate": 8.285009330811718e-05,
	"loss": 1.0683,
	"step": 14500
	},
	{
	"epoch": 9.299442033477991,
	"grad_norm": 0.5519115924835205,
	"learning_rate": 8.2223864333755e-05,
	"loss": 1.0537,
	"step": 15000
	},
	{
	"epoch": 9.609423434593925,
	"grad_norm": 0.5510475039482117,
	"learning_rate": 8.159763535939281e-05,
	"loss": 1.0443,
	"step": 15500
	},
	{
	"epoch": 9.919404835709857,
	"grad_norm": 0.5631123185157776,
	"learning_rate": 8.097140638503063e-05,
	"loss": 1.0339,
	"step": 16000
	},
	{
	"epoch": 10.22938623682579,
	"grad_norm": 0.5705382823944092,
	"learning_rate": 8.034517741066844e-05,
	"loss": 1.0217,
	"step": 16500
	},
	{
	"epoch": 10.539367637941723,
	"grad_norm": 0.5316577553749084,
	"learning_rate": 7.971894843630626e-05,
	"loss": 1.0151,
	"step": 17000
	},
	{
	"epoch": 10.849349039057657,
	"grad_norm": 0.5557442307472229,
	"learning_rate": 7.909271946194406e-05,
	"loss": 1.0043,
	"step": 17500
	},
	{
	"epoch": 11.159330440173589,
	"grad_norm": 0.5498985648155212,
	"learning_rate": 7.846649048758188e-05,
	"loss": 0.9951,
	"step": 18000
	},
	{
	"epoch": 11.469311841289523,
	"grad_norm": 0.552780032157898,
	"learning_rate": 7.784026151321969e-05,
	"loss": 0.9855,
	"step": 18500
	},
	{
	"epoch": 11.779293242405455,
	"grad_norm": 0.5406888127326965,
	"learning_rate": 7.721403253885752e-05,
	"loss": 0.9795,
	"step": 19000
	},
	{
	"epoch": 12.089274643521389,
	"grad_norm": 0.537375271320343,
	"learning_rate": 7.658780356449533e-05,
	"loss": 0.971,
	"step": 19500
	},
	{
	"epoch": 12.399256044637323,
	"grad_norm": 0.5666614174842834,
	"learning_rate": 7.596157459013315e-05,
	"loss": 0.9643,
	"step": 20000
	},
	{
	"epoch": 12.709237445753255,
	"grad_norm": 0.5302731990814209,
	"learning_rate": 7.533659807371968e-05,
	"loss": 0.9582,
	"step": 20500
	},
	{
	"epoch": 13.019218846869189,
	"grad_norm": 0.5608243346214294,
	"learning_rate": 7.471036909935749e-05,
	"loss": 0.9512,
	"step": 21000
	},
	{
	"epoch": 13.32920024798512,
	"grad_norm": 0.5309119820594788,
	"learning_rate": 7.408414012499531e-05,
	"loss": 0.9424,
	"step": 21500
	},
	{
	"epoch": 13.639181649101054,
	"grad_norm": 0.5380939245223999,
	"learning_rate": 7.345791115063312e-05,
	"loss": 0.9383,
	"step": 22000
	},
	{
	"epoch": 13.949163050216987,
	"grad_norm": 0.5440984964370728,
	"learning_rate": 7.283168217627094e-05,
	"loss": 0.9298,
	"step": 22500
	},
	{
	"epoch": 14.25914445133292,
	"grad_norm": 0.5377441048622131,
	"learning_rate": 7.220545320190874e-05,
	"loss": 0.9245,
	"step": 23000
	},
	{
	"epoch": 14.569125852448852,
	"grad_norm": 0.5402495265007019,
	"learning_rate": 7.157922422754656e-05,
	"loss": 0.9196,
	"step": 23500
	},
	{
	"epoch": 14.879107253564786,
	"grad_norm": 0.5610705018043518,
	"learning_rate": 7.095299525318437e-05,
	"loss": 0.9146,
	"step": 24000
	},
	{
	"epoch": 15.189088654680718,
	"grad_norm": 0.5305636525154114,
	"learning_rate": 7.032676627882219e-05,
	"loss": 0.9071,
	"step": 24500
	},
	{
	"epoch": 15.499070055796652,
	"grad_norm": 0.5398979187011719,
	"learning_rate": 6.970053730446e-05,
	"loss": 0.9037,
	"step": 25000
	},
	{
	"epoch": 15.809051456912584,
	"grad_norm": 0.5490283370018005,
	"learning_rate": 6.907556078804655e-05,
	"loss": 0.8982,
	"step": 25500
	},
	{
	"epoch": 16.11903285802852,
	"grad_norm": 0.5505014061927795,
	"learning_rate": 6.844933181368435e-05,
	"loss": 0.8933,
	"step": 26000
	},
	{
	"epoch": 16.429014259144452,
	"grad_norm": 0.5260488390922546,
	"learning_rate": 6.782310283932217e-05,
	"loss": 0.8865,
	"step": 26500
	},
	{
	"epoch": 16.738995660260386,
	"grad_norm": 0.5459970235824585,
	"learning_rate": 6.719687386495999e-05,
	"loss": 0.8837,
	"step": 27000
	},
	{
	"epoch": 17.048977061376316,
	"grad_norm": 0.5260828733444214,
	"learning_rate": 6.657189734854653e-05,
	"loss": 0.8812,
	"step": 27500
	},
	{
	"epoch": 17.35895846249225,
	"grad_norm": 0.531878650188446,
	"learning_rate": 6.594566837418435e-05,
	"loss": 0.874,
	"step": 28000
	},
	{
	"epoch": 17.668939863608184,
	"grad_norm": 0.5373751521110535,
	"learning_rate": 6.531943939982215e-05,
	"loss": 0.8703,
	"step": 28500
	},
	{
	"epoch": 17.978921264724118,
	"grad_norm": 0.5685413479804993,
	"learning_rate": 6.469321042545997e-05,
	"loss": 0.8674,
	"step": 29000
	},
	{
	"epoch": 18.288902665840048,
	"grad_norm": 0.5405117273330688,
	"learning_rate": 6.406698145109778e-05,
	"loss": 0.8618,
	"step": 29500
	},
	{
	"epoch": 18.598884066955982,
	"grad_norm": 0.5303318500518799,
	"learning_rate": 6.344325739263305e-05,
	"loss": 0.8572,
	"step": 30000
	},
	{
	"epoch": 18.908865468071916,
	"grad_norm": 0.5173208117485046,
	"learning_rate": 6.281702841827086e-05,
	"loss": 0.8552,
	"step": 30500
	},
	{
	"epoch": 19.21884686918785,
	"grad_norm": 0.5334449410438538,
	"learning_rate": 6.219079944390868e-05,
	"loss": 0.8494,
	"step": 31000
	},
	{
	"epoch": 19.52882827030378,
	"grad_norm": 0.5522080659866333,
	"learning_rate": 6.156457046954649e-05,
	"loss": 0.8464,
	"step": 31500
	},
	{
	"epoch": 19.838809671419714,
	"grad_norm": 0.5295758247375488,
	"learning_rate": 6.09383414951843e-05,
	"loss": 0.845,
	"step": 32000
	},
	{
	"epoch": 20.148791072535648,
	"grad_norm": 0.5164583325386047,
	"learning_rate": 6.0312112520822115e-05,
	"loss": 0.8395,
	"step": 32500
	},
	{
	"epoch": 20.45877247365158,
	"grad_norm": 0.5620171427726746,
	"learning_rate": 5.968713600440865e-05,
	"loss": 0.8354,
	"step": 33000
	},
	{
	"epoch": 20.768753874767516,
	"grad_norm": 0.5254458785057068,
	"learning_rate": 5.906090703004646e-05,
	"loss": 0.8336,
	"step": 33500
	},
	{
	"epoch": 21.078735275883446,
	"grad_norm": 0.5437597632408142,
	"learning_rate": 5.8434678055684276e-05,
	"loss": 0.8304,
	"step": 34000
	},
	{
	"epoch": 21.38871667699938,
	"grad_norm": 0.5438856482505798,
	"learning_rate": 5.78084490813221e-05,
	"loss": 0.8263,
	"step": 34500
	},
	{
	"epoch": 21.698698078115314,
	"grad_norm": 0.5386750102043152,
	"learning_rate": 5.7182220106959916e-05,
	"loss": 0.8248,
	"step": 35000
	},
	{
	"epoch": 22.008679479231247,
	"grad_norm": 0.5307642817497253,
	"learning_rate": 5.655724359054645e-05,
	"loss": 0.8223,
	"step": 35500
	},
	{
	"epoch": 22.318660880347178,
	"grad_norm": 0.5404214859008789,
	"learning_rate": 5.5931014616184264e-05,
	"loss": 0.8176,
	"step": 36000
	},
	{
	"epoch": 22.62864228146311,
	"grad_norm": 0.555665910243988,
	"learning_rate": 5.530478564182208e-05,
	"loss": 0.8164,
	"step": 36500
	},
	{
	"epoch": 22.938623682579045,
	"grad_norm": 0.5331476330757141,
	"learning_rate": 5.467855666745989e-05,
	"loss": 0.8135,
	"step": 37000
	},
	{
	"epoch": 23.24860508369498,
	"grad_norm": 0.541491687297821,
	"learning_rate": 5.405358015104644e-05,
	"loss": 0.8097,
	"step": 37500
	},
	{
	"epoch": 23.55858648481091,
	"grad_norm": 0.5554507374763489,
	"learning_rate": 5.342735117668425e-05,
	"loss": 0.8074,
	"step": 38000
	},
	{
	"epoch": 23.868567885926844,
	"grad_norm": 0.5485785007476807,
	"learning_rate": 5.2801122202322065e-05,
	"loss": 0.8054,
	"step": 38500
	},
	{
	"epoch": 24.178549287042777,
	"grad_norm": 0.5320767164230347,
	"learning_rate": 5.217489322795988e-05,
	"loss": 0.8018,
	"step": 39000
	},
	{
	"epoch": 24.48853068815871,
	"grad_norm": 0.5248667001724243,
	"learning_rate": 5.154866425359769e-05,
	"loss": 0.8008,
	"step": 39500
	},
	{
	"epoch": 24.798512089274645,
	"grad_norm": 0.5368346571922302,
	"learning_rate": 5.0922435279235505e-05,
	"loss": 0.7975,
	"step": 40000
	},
	{
	"epoch": 25.108493490390575,
	"grad_norm": 0.53144371509552,
	"learning_rate": 5.029620630487332e-05,
	"loss": 0.7947,
	"step": 40500
	},
	{
	"epoch": 25.41847489150651,
	"grad_norm": 0.5482547879219055,
	"learning_rate": 4.966997733051113e-05,
	"loss": 0.793,
	"step": 41000
	},
	{
	"epoch": 25.728456292622443,
	"grad_norm": 0.5446964502334595,
	"learning_rate": 4.9043748356148946e-05,
	"loss": 0.7905,
	"step": 41500
	},
	{
	"epoch": 26.038437693738377,
	"grad_norm": 0.5257270932197571,
	"learning_rate": 4.841751938178676e-05,
	"loss": 0.7892,
	"step": 42000
	},
	{
	"epoch": 26.348419094854307,
	"grad_norm": 0.5478941202163696,
	"learning_rate": 4.779129040742457e-05,
	"loss": 0.7856,
	"step": 42500
	},
	{
	"epoch": 26.65840049597024,
	"grad_norm": 0.5381990671157837,
	"learning_rate": 4.7165061433062386e-05,
	"loss": 0.7863,
	"step": 43000
	},
	{
	"epoch": 26.968381897086175,
	"grad_norm": 0.546461820602417,
	"learning_rate": 4.65388324587002e-05,
	"loss": 0.7826,
	"step": 43500
	},
	{
	"epoch": 27.27836329820211,
	"grad_norm": 0.543404757976532,
	"learning_rate": 4.591260348433802e-05,
	"loss": 0.7796,
	"step": 44000
	},
	{
	"epoch": 27.58834469931804,
	"grad_norm": 0.5448907613754272,
	"learning_rate": 4.528637450997583e-05,
	"loss": 0.7796,
	"step": 44500
	},
	{
	"epoch": 27.898326100433973,
	"grad_norm": 0.5504478216171265,
	"learning_rate": 4.466014553561365e-05,
	"loss": 0.7761,
	"step": 45000
	},
	{
	"epoch": 28.208307501549907,
	"grad_norm": 0.544154703617096,
	"learning_rate": 4.403391656125146e-05,
	"loss": 0.7753,
	"step": 45500
	},
	{
	"epoch": 28.51828890266584,
	"grad_norm": 0.542306125164032,
	"learning_rate": 4.3407687586889274e-05,
	"loss": 0.7735,
	"step": 46000
	},
	{
	"epoch": 28.828270303781775,
	"grad_norm": 0.5549866557121277,
	"learning_rate": 4.278145861252709e-05,
	"loss": 0.7707,
	"step": 46500
	},
	{
	"epoch": 29.138251704897705,
	"grad_norm": 0.538090169429779,
	"learning_rate": 4.21552296381649e-05,
	"loss": 0.7697,
	"step": 47000
	},
	{
	"epoch": 29.44823310601364,
	"grad_norm": 0.5609955191612244,
	"learning_rate": 4.1529000663802714e-05,
	"loss": 0.7682,
	"step": 47500
	},
	{
	"epoch": 29.758214507129573,
	"grad_norm": 0.5595529675483704,
	"learning_rate": 4.090277168944053e-05,
	"loss": 0.7659,
	"step": 48000
	},
	{
	"epoch": 30.068195908245507,
	"grad_norm": 0.5461651086807251,
	"learning_rate": 4.027654271507834e-05,
	"loss": 0.7656,
	"step": 48500
	},
	{
	"epoch": 30.378177309361437,
	"grad_norm": 0.5438820719718933,
	"learning_rate": 3.9650313740716154e-05,
	"loss": 0.7625,
	"step": 49000
	},
	{
	"epoch": 30.68815871047737,
	"grad_norm": 0.5458811521530151,
	"learning_rate": 3.902408476635397e-05,
	"loss": 0.762,
	"step": 49500
	},
	{
	"epoch": 30.998140111593305,
	"grad_norm": 0.535521388053894,
	"learning_rate": 3.839785579199179e-05,
	"loss": 0.7589,
	"step": 50000
	},
	{
	"epoch": 31.30812151270924,
	"grad_norm": 0.5407618284225464,
	"learning_rate": 3.77716268176296e-05,
	"loss": 0.7576,
	"step": 50500
	},
	{
	"epoch": 31.61810291382517,
	"grad_norm": 0.5259741544723511,
	"learning_rate": 3.7145397843267415e-05,
	"loss": 0.7571,
	"step": 51000
	},
	{
	"epoch": 31.928084314941103,
	"grad_norm": 0.5338233709335327,
	"learning_rate": 3.651916886890523e-05,
	"loss": 0.7561,
	"step": 51500
	},
	{
	"epoch": 32.23806571605704,
	"grad_norm": 0.5369750261306763,
	"learning_rate": 3.589293989454304e-05,
	"loss": 0.7541,
	"step": 52000
	},
	{
	"epoch": 32.54804711717297,
	"grad_norm": 0.5418145656585693,
	"learning_rate": 3.5266710920180856e-05,
	"loss": 0.7521,
	"step": 52500
	},
	{
	"epoch": 32.858028518288904,
	"grad_norm": 0.533149242401123,
	"learning_rate": 3.464048194581867e-05,
	"loss": 0.7519,
	"step": 53000
	},
	{
	"epoch": 33.16800991940484,
	"grad_norm": 0.5384135246276855,
	"learning_rate": 3.401425297145648e-05,
	"loss": 0.7497,
	"step": 53500
	},
	{
	"epoch": 33.47799132052077,
	"grad_norm": 0.5323925018310547,
	"learning_rate": 3.3388023997094296e-05,
	"loss": 0.7485,
	"step": 54000
	},
	{
	"epoch": 33.7879727216367,
	"grad_norm": 0.535434901714325,
	"learning_rate": 3.276179502273211e-05,
	"loss": 0.7472,
	"step": 54500
	},
	{
	"epoch": 34.09795412275263,
	"grad_norm": 0.5496259331703186,
	"learning_rate": 3.213556604836992e-05,
	"loss": 0.7454,
	"step": 55000
	},
	{
	"epoch": 34.40793552386857,
	"grad_norm": 0.5429278016090393,
	"learning_rate": 3.150933707400774e-05,
	"loss": 0.7447,
	"step": 55500
	},
	{
	"epoch": 34.7179169249845,
	"grad_norm": 0.5489596724510193,
	"learning_rate": 3.088310809964556e-05,
	"loss": 0.7438,
	"step": 56000
	},
	{
	"epoch": 35.027898326100434,
	"grad_norm": 0.5510178208351135,
	"learning_rate": 3.025687912528337e-05,
	"loss": 0.7416,
	"step": 56500
	},
	{
	"epoch": 35.33787972721637,
	"grad_norm": 0.5540343523025513,
	"learning_rate": 2.9630650150921187e-05,
	"loss": 0.7401,
	"step": 57000
	},
	{
	"epoch": 35.6478611283323,
	"grad_norm": 0.551895260810852,
	"learning_rate": 2.9004421176559e-05,
	"loss": 0.7404,
	"step": 57500
	},
	{
	"epoch": 35.957842529448236,
	"grad_norm": 0.5412101149559021,
	"learning_rate": 2.8378192202196814e-05,
	"loss": 0.74,
	"step": 58000
	},
	{
	"epoch": 36.26782393056417,
	"grad_norm": 0.5450315475463867,
	"learning_rate": 2.7751963227834627e-05,
	"loss": 0.7386,
	"step": 58500
	},
	{
	"epoch": 36.577805331680096,
	"grad_norm": 0.5550098419189453,
	"learning_rate": 2.712573425347244e-05,
	"loss": 0.7382,
	"step": 59000
	},
	{
	"epoch": 36.88778673279603,
	"grad_norm": 0.5502198338508606,
	"learning_rate": 2.6499505279110254e-05,
	"loss": 0.7345,
	"step": 59500
	},
	{
	"epoch": 37.197768133911964,
	"grad_norm": 0.5401105880737305,
	"learning_rate": 2.587452876269679e-05,
	"loss": 0.7355,
	"step": 60000
	},
	{
	"epoch": 37.5077495350279,
	"grad_norm": 0.543369710445404,
	"learning_rate": 2.5248299788334605e-05,
	"loss": 0.7338,
	"step": 60500
	},
	{
	"epoch": 37.81773093614383,
	"grad_norm": 0.5440373420715332,
	"learning_rate": 2.4622070813972422e-05,
	"loss": 0.7326,
	"step": 61000
	},
	{
	"epoch": 38.127712337259766,
	"grad_norm": 0.5450806021690369,
	"learning_rate": 2.3995841839610235e-05,
	"loss": 0.7315,
	"step": 61500
	},
	{
	"epoch": 38.4376937383757,
	"grad_norm": 0.5412734746932983,
	"learning_rate": 2.336961286524805e-05,
	"loss": 0.7301,
	"step": 62000
	},
	{
	"epoch": 38.74767513949163,
	"grad_norm": 0.5553017854690552,
	"learning_rate": 2.274463634883459e-05,
	"loss": 0.732,
	"step": 62500
	},
	{
	"epoch": 39.05765654060756,
	"grad_norm": 0.5467730164527893,
	"learning_rate": 2.2118407374472403e-05,
	"loss": 0.7289,
	"step": 63000
	},
	{
	"epoch": 39.367637941723494,
	"grad_norm": 0.551267683506012,
	"learning_rate": 2.1492178400110216e-05,
	"loss": 0.728,
	"step": 63500
	},
	{
	"epoch": 39.67761934283943,
	"grad_norm": 0.5391538739204407,
	"learning_rate": 2.0865949425748033e-05,
	"loss": 0.7276,
	"step": 64000
	},
	{
	"epoch": 39.98760074395536,
	"grad_norm": 0.5523350238800049,
	"learning_rate": 2.0239720451385847e-05,
	"loss": 0.7272,
	"step": 64500
	},
	{
	"epoch": 40.297582145071296,
	"grad_norm": 0.5367141366004944,
	"learning_rate": 1.961349147702366e-05,
	"loss": 0.726,
	"step": 65000
	},
	{
	"epoch": 40.60756354618723,
	"grad_norm": 0.5538766980171204,
	"learning_rate": 1.8987262502661473e-05,
	"loss": 0.7238,
	"step": 65500
	},
	{
	"epoch": 40.91754494730316,
	"grad_norm": 0.5274632573127747,
	"learning_rate": 1.8361033528299287e-05,
	"loss": 0.725,
	"step": 66000
	},
	{
	"epoch": 41.2275263484191,
	"grad_norm": 0.521597146987915,
	"learning_rate": 1.7736057011885827e-05,
	"loss": 0.7233,
	"step": 66500
	},
	{
	"epoch": 41.53750774953503,
	"grad_norm": 0.5390001535415649,
	"learning_rate": 1.710982803752364e-05,
	"loss": 0.7225,
	"step": 67000
	},
	{
	"epoch": 41.84748915065096,
	"grad_norm": 0.5474331378936768,
	"learning_rate": 1.6483599063161458e-05,
	"loss": 0.7218,
	"step": 67500
	},
	{
	"epoch": 42.15747055176689,
	"grad_norm": 0.5352886915206909,
	"learning_rate": 1.5858622546747995e-05,
	"loss": 0.7213,
	"step": 68000
	},
	{
	"epoch": 42.467451952882826,
	"grad_norm": 0.540053129196167,
	"learning_rate": 1.5232393572385808e-05,
	"loss": 0.7204,
	"step": 68500
	},
	{
	"epoch": 42.77743335399876,
	"grad_norm": 0.5470998883247375,
	"learning_rate": 1.4606164598023622e-05,
	"loss": 0.721,
	"step": 69000
	},
	{
	"epoch": 43.08741475511469,
	"grad_norm": 0.5613588094711304,
	"learning_rate": 1.3979935623661435e-05,
	"loss": 0.7194,
	"step": 69500
	},
	{
	"epoch": 43.39739615623063,
	"grad_norm": 0.5471562743186951,
	"learning_rate": 1.3354959107247974e-05,
	"loss": 0.7178,
	"step": 70000
	},
	{
	"epoch": 43.70737755734656,
	"grad_norm": 0.5386627912521362,
	"learning_rate": 1.2728730132885787e-05,
	"loss": 0.7184,
	"step": 70500
	},
	{
	"epoch": 44.017358958462495,
	"grad_norm": 0.5391978621482849,
	"learning_rate": 1.2102501158523603e-05,
	"loss": 0.7186,
	"step": 71000
	},
	{
	"epoch": 44.32734035957843,
	"grad_norm": 0.5381629467010498,
	"learning_rate": 1.1476272184161418e-05,
	"loss": 0.7168,
	"step": 71500
	},
	{
	"epoch": 44.637321760694356,
	"grad_norm": 0.5467249155044556,
	"learning_rate": 1.0850043209799233e-05,
	"loss": 0.7162,
	"step": 72000
	},
	{
	"epoch": 44.94730316181029,
	"grad_norm": 0.5548228025436401,
	"learning_rate": 1.0223814235437046e-05,
	"loss": 0.7146,
	"step": 72500
	},
	{
	"epoch": 45.25728456292622,
	"grad_norm": 0.5488151907920837,
	"learning_rate": 9.59758526107486e-06,
	"loss": 0.7152,
	"step": 73000
	},
	{
	"epoch": 45.56726596404216,
	"grad_norm": 0.5473387241363525,
	"learning_rate": 8.971356286712675e-06,
	"loss": 0.7142,
	"step": 73500
	},
	{
	"epoch": 45.87724736515809,
	"grad_norm": 0.5331913828849792,
	"learning_rate": 8.345127312350489e-06,
	"loss": 0.7155,
	"step": 74000
	},
	{
	"epoch": 46.187228766274025,
	"grad_norm": 0.5443392395973206,
	"learning_rate": 7.718898337988302e-06,
	"loss": 0.7136,
	"step": 74500
	},
	{
	"epoch": 46.49721016738996,
	"grad_norm": 0.5461409091949463,
	"learning_rate": 7.092669363626117e-06,
	"loss": 0.7148,
	"step": 75000
	},
	{
	"epoch": 46.80719156850589,
	"grad_norm": 0.5504785180091858,
	"learning_rate": 6.466440389263931e-06,
	"loss": 0.7133,
	"step": 75500
	},
	{
	"epoch": 47.11717296962182,
	"grad_norm": 0.5478015542030334,
	"learning_rate": 5.840211414901745e-06,
	"loss": 0.7125,
	"step": 76000
	},
	{
	"epoch": 47.42715437073775,
	"grad_norm": 0.5464319586753845,
	"learning_rate": 5.2139824405395585e-06,
	"loss": 0.7125,
	"step": 76500
	},
	{
	"epoch": 47.73713577185369,
	"grad_norm": 0.5370163321495056,
	"learning_rate": 4.587753466177374e-06,
	"loss": 0.7117,
	"step": 77000
	},
	{
	"epoch": 48.04711717296962,
	"grad_norm": 0.5529221892356873,
	"learning_rate": 3.961524491815188e-06,
	"loss": 0.711,
	"step": 77500
	},
	{
	"epoch": 48.357098574085555,
	"grad_norm": 0.549679160118103,
	"learning_rate": 3.3352955174530015e-06,
	"loss": 0.7112,
	"step": 78000
	},
	{
	"epoch": 48.66707997520149,
	"grad_norm": 0.5416662096977234,
	"learning_rate": 2.709066543090816e-06,
	"loss": 0.7112,
	"step": 78500
	},
	{
	"epoch": 48.97706137631742,
	"grad_norm": 0.5428098440170288,
	"learning_rate": 2.08283756872863e-06,
	"loss": 0.7109,
	"step": 79000
	},
	{
	"epoch": 49.287042777433356,
	"grad_norm": 0.5247154235839844,
	"learning_rate": 1.4566085943664442e-06,
	"loss": 0.7106,
	"step": 79500
	},
	{
	"epoch": 49.59702417854929,
	"grad_norm": 0.5486724376678467,
	"learning_rate": 8.303796200042584e-07,
	"loss": 0.7097,
	"step": 80000
	},
	{
	"epoch": 49.90700557966522,
	"grad_norm": 0.5495786070823669,
	"learning_rate": 2.0415064564207257e-07,
	"loss": 0.7106,
	"step": 80500
	},
	{
	"epoch": 50.0,
	"step": 80650,
	"total_flos": 2.052104150815488e+18,
	"train_loss": 0.04098836247254364,
	"train_runtime": 10357.3823,
	"train_samples_per_second": 11959.61,
	"train_steps_per_second": 7.787
	}
	],
	"logging_steps": 500,
	"max_steps": 80650,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.052104150815488e+18,
	"train_batch_size": 192,
	"trial_name": null,
	"trial_params": null
	}