Llama-3.3-70b-Instruct / trainer_state.json

Upload LoRA checkpoint-14319

3b1442b verified 10 months ago

19.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 54000,
	"global_step": 14319,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.028284098051539912,
	"grad_norm": 0.04601588801994645,
	"learning_rate": 9.42737430167598e-06,
	"loss": 0.1706,
	"step": 135
	},
	{
	"epoch": 0.056568196103079824,
	"grad_norm": 0.08599903987598387,
	"learning_rate": 1.885474860335196e-05,
	"loss": 0.1407,
	"step": 270
	},
	{
	"epoch": 0.08485229415461974,
	"grad_norm": 0.07811249522270598,
	"learning_rate": 2.8282122905027936e-05,
	"loss": 0.133,
	"step": 405
	},
	{
	"epoch": 0.11313639220615965,
	"grad_norm": 0.08106903455078629,
	"learning_rate": 3.770949720670392e-05,
	"loss": 0.1302,
	"step": 540
	},
	{
	"epoch": 0.14142049025769957,
	"grad_norm": 0.07762084811197388,
	"learning_rate": 4.713687150837989e-05,
	"loss": 0.128,
	"step": 675
	},
	{
	"epoch": 0.16970458830923948,
	"grad_norm": 0.06702784826347409,
	"learning_rate": 5.656424581005587e-05,
	"loss": 0.1269,
	"step": 810
	},
	{
	"epoch": 0.19798868636077938,
	"grad_norm": 0.06832201155426712,
	"learning_rate": 6.599162011173185e-05,
	"loss": 0.1258,
	"step": 945
	},
	{
	"epoch": 0.2262727844123193,
	"grad_norm": 0.07124429027326014,
	"learning_rate": 7.541899441340783e-05,
	"loss": 0.1251,
	"step": 1080
	},
	{
	"epoch": 0.2545568824638592,
	"grad_norm": 0.059836090071897996,
	"learning_rate": 8.48463687150838e-05,
	"loss": 0.125,
	"step": 1215
	},
	{
	"epoch": 0.28284098051539913,
	"grad_norm": 0.06065917805260472,
	"learning_rate": 9.427374301675978e-05,
	"loss": 0.1244,
	"step": 1350
	},
	{
	"epoch": 0.31112507856693905,
	"grad_norm": 0.05448515282733843,
	"learning_rate": 9.999582667896216e-05,
	"loss": 0.1241,
	"step": 1485
	},
	{
	"epoch": 0.33940917661847897,
	"grad_norm": 0.05195941534715265,
	"learning_rate": 9.994749800860066e-05,
	"loss": 0.1236,
	"step": 1620
	},
	{
	"epoch": 0.36769327467001883,
	"grad_norm": 0.0533796560627076,
	"learning_rate": 9.984507669983246e-05,
	"loss": 0.123,
	"step": 1755
	},
	{
	"epoch": 0.39597737272155875,
	"grad_norm": 0.05673889785368016,
	"learning_rate": 9.968867367390571e-05,
	"loss": 0.1222,
	"step": 1890
	},
	{
	"epoch": 0.42426147077309867,
	"grad_norm": 0.052072201102599504,
	"learning_rate": 9.947845831372577e-05,
	"loss": 0.1217,
	"step": 2025
	},
	{
	"epoch": 0.4525455688246386,
	"grad_norm": 0.054891014733737455,
	"learning_rate": 9.921465828041518e-05,
	"loss": 0.1218,
	"step": 2160
	},
	{
	"epoch": 0.4808296668761785,
	"grad_norm": 0.05168215652940432,
	"learning_rate": 9.889755926675904e-05,
	"loss": 0.121,
	"step": 2295
	},
	{
	"epoch": 0.5091137649277184,
	"grad_norm": 0.051281710130397264,
	"learning_rate": 9.85275046878025e-05,
	"loss": 0.121,
	"step": 2430
	},
	{
	"epoch": 0.5373978629792583,
	"grad_norm": 0.05193059833614012,
	"learning_rate": 9.810489530893578e-05,
	"loss": 0.1205,
	"step": 2565
	},
	{
	"epoch": 0.5656819610307983,
	"grad_norm": 0.052032831215777654,
	"learning_rate": 9.763018881186927e-05,
	"loss": 0.1195,
	"step": 2700
	},
	{
	"epoch": 0.5939660590823381,
	"grad_norm": 0.055670900157506434,
	"learning_rate": 9.710389929896887e-05,
	"loss": 0.1197,
	"step": 2835
	},
	{
	"epoch": 0.6222501571338781,
	"grad_norm": 0.05191679567872077,
	"learning_rate": 9.652659673648816e-05,
	"loss": 0.1191,
	"step": 2970
	},
	{
	"epoch": 0.650534255185418,
	"grad_norm": 0.053751440231836235,
	"learning_rate": 9.589890633730087e-05,
	"loss": 0.1185,
	"step": 3105
	},
	{
	"epoch": 0.6788183532369579,
	"grad_norm": 0.05742218717400969,
	"learning_rate": 9.522150788380149e-05,
	"loss": 0.1181,
	"step": 3240
	},
	{
	"epoch": 0.7071024512884978,
	"grad_norm": 0.05641344503893988,
	"learning_rate": 9.449513499170775e-05,
	"loss": 0.118,
	"step": 3375
	},
	{
	"epoch": 0.7353865493400377,
	"grad_norm": 0.05184155469686776,
	"learning_rate": 9.372057431556227e-05,
	"loss": 0.1177,
	"step": 3510
	},
	{
	"epoch": 0.7636706473915776,
	"grad_norm": 0.04878199937516276,
	"learning_rate": 9.289866469679355e-05,
	"loss": 0.1175,
	"step": 3645
	},
	{
	"epoch": 0.7919547454431175,
	"grad_norm": 0.05310159239349626,
	"learning_rate": 9.203029625525912e-05,
	"loss": 0.1169,
	"step": 3780
	},
	{
	"epoch": 0.8202388434946575,
	"grad_norm": 0.0534469001920457,
	"learning_rate": 9.111640942525466e-05,
	"loss": 0.1175,
	"step": 3915
	},
	{
	"epoch": 0.8485229415461973,
	"grad_norm": 0.05052535987329732,
	"learning_rate": 9.015799393703315e-05,
	"loss": 0.1169,
	"step": 4050
	},
	{
	"epoch": 0.8768070395977373,
	"grad_norm": 0.05309924206712465,
	"learning_rate": 8.915608774493695e-05,
	"loss": 0.1166,
	"step": 4185
	},
	{
	"epoch": 0.9050911376492772,
	"grad_norm": 0.05471927034944372,
	"learning_rate": 8.811177590330367e-05,
	"loss": 0.1158,
	"step": 4320
	},
	{
	"epoch": 0.933375235700817,
	"grad_norm": 0.051718680639674705,
	"learning_rate": 8.702618939136322e-05,
	"loss": 0.1156,
	"step": 4455
	},
	{
	"epoch": 0.961659333752357,
	"grad_norm": 0.055160448975554825,
	"learning_rate": 8.590050388839863e-05,
	"loss": 0.1155,
	"step": 4590
	},
	{
	"epoch": 0.9899434318038969,
	"grad_norm": 0.05086520628842916,
	"learning_rate": 8.473593850049731e-05,
	"loss": 0.1155,
	"step": 4725
	},
	{
	"epoch": 1.0182275298554369,
	"grad_norm": 0.05154998381506173,
	"learning_rate": 8.353375444027128e-05,
	"loss": 0.1066,
	"step": 4860
	},
	{
	"epoch": 1.0465116279069768,
	"grad_norm": 0.05189766725554911,
	"learning_rate": 8.22952536609767e-05,
	"loss": 0.1021,
	"step": 4995
	},
	{
	"epoch": 1.0747957259585166,
	"grad_norm": 0.052617917188326715,
	"learning_rate": 8.102177744651149e-05,
	"loss": 0.1024,
	"step": 5130
	},
	{
	"epoch": 1.1030798240100566,
	"grad_norm": 0.05214363158387452,
	"learning_rate": 7.971470495881836e-05,
	"loss": 0.1025,
	"step": 5265
	},
	{
	"epoch": 1.1313639220615965,
	"grad_norm": 0.054295844912421495,
	"learning_rate": 7.837545174426639e-05,
	"loss": 0.1023,
	"step": 5400
	},
	{
	"epoch": 1.1596480201131363,
	"grad_norm": 0.05197457231465077,
	"learning_rate": 7.700546820062839e-05,
	"loss": 0.1025,
	"step": 5535
	},
	{
	"epoch": 1.1879321181646763,
	"grad_norm": 0.056484265602417545,
	"learning_rate": 7.560623800631472e-05,
	"loss": 0.1023,
	"step": 5670
	},
	{
	"epoch": 1.2162162162162162,
	"grad_norm": 0.052111946846749885,
	"learning_rate": 7.417927651356462e-05,
	"loss": 0.1024,
	"step": 5805
	},
	{
	"epoch": 1.2445003142677562,
	"grad_norm": 0.05566575920944282,
	"learning_rate": 7.272612910733475e-05,
	"loss": 0.1017,
	"step": 5940
	},
	{
	"epoch": 1.2727844123192962,
	"grad_norm": 0.05811617199922452,
	"learning_rate": 7.124836953166298e-05,
	"loss": 0.1019,
	"step": 6075
	},
	{
	"epoch": 1.301068510370836,
	"grad_norm": 0.061671271903986996,
	"learning_rate": 6.974759818531935e-05,
	"loss": 0.1019,
	"step": 6210
	},
	{
	"epoch": 1.329352608422376,
	"grad_norm": 0.05466121007796382,
	"learning_rate": 6.822544038859025e-05,
	"loss": 0.1016,
	"step": 6345
	},
	{
	"epoch": 1.3576367064739157,
	"grad_norm": 0.05425557430418602,
	"learning_rate": 6.668354462307296e-05,
	"loss": 0.1011,
	"step": 6480
	},
	{
	"epoch": 1.3859208045254556,
	"grad_norm": 0.05874672603708157,
	"learning_rate": 6.512358074638657e-05,
	"loss": 0.1012,
	"step": 6615
	},
	{
	"epoch": 1.4142049025769956,
	"grad_norm": 0.05823531384414933,
	"learning_rate": 6.354723818373301e-05,
	"loss": 0.1008,
	"step": 6750
	},
	{
	"epoch": 1.4424890006285356,
	"grad_norm": 0.05608262826782312,
	"learning_rate": 6.195622409826653e-05,
	"loss": 0.1007,
	"step": 6885
	},
	{
	"epoch": 1.4707730986800756,
	"grad_norm": 0.05408687704162592,
	"learning_rate": 6.035226154225313e-05,
	"loss": 0.1002,
	"step": 7020
	},
	{
	"epoch": 1.4990571967316153,
	"grad_norm": 0.054980789427209784,
	"learning_rate": 5.8737087591022275e-05,
	"loss": 0.1004,
	"step": 7155
	},
	{
	"epoch": 1.5273412947831553,
	"grad_norm": 0.05745041355343903,
	"learning_rate": 5.7112451461731854e-05,
	"loss": 0.0999,
	"step": 7290
	},
	{
	"epoch": 1.555625392834695,
	"grad_norm": 0.05803905423764401,
	"learning_rate": 5.5480112618983404e-05,
	"loss": 0.0995,
	"step": 7425
	},
	{
	"epoch": 1.583909490886235,
	"grad_norm": 0.056971104280436516,
	"learning_rate": 5.384183886933983e-05,
	"loss": 0.0997,
	"step": 7560
	},
	{
	"epoch": 1.612193588937775,
	"grad_norm": 0.056543402577003486,
	"learning_rate": 5.2199404446808475e-05,
	"loss": 0.0988,
	"step": 7695
	},
	{
	"epoch": 1.640477686989315,
	"grad_norm": 0.05414144319537392,
	"learning_rate": 5.0554588091363683e-05,
	"loss": 0.0988,
	"step": 7830
	},
	{
	"epoch": 1.668761785040855,
	"grad_norm": 0.05756652870031753,
	"learning_rate": 4.890917112258916e-05,
	"loss": 0.0988,
	"step": 7965
	},
	{
	"epoch": 1.6970458830923947,
	"grad_norm": 0.054317396460825465,
	"learning_rate": 4.726493551052682e-05,
	"loss": 0.0985,
	"step": 8100
	},
	{
	"epoch": 1.7253299811439347,
	"grad_norm": 0.05780938044176143,
	"learning_rate": 4.562366194582113e-05,
	"loss": 0.0979,
	"step": 8235
	},
	{
	"epoch": 1.7536140791954744,
	"grad_norm": 0.05615442700243257,
	"learning_rate": 4.398712791124905e-05,
	"loss": 0.0976,
	"step": 8370
	},
	{
	"epoch": 1.7818981772470144,
	"grad_norm": 0.0550653325962579,
	"learning_rate": 4.235710575672401e-05,
	"loss": 0.0975,
	"step": 8505
	},
	{
	"epoch": 1.8101822752985544,
	"grad_norm": 0.055514099512198385,
	"learning_rate": 4.073536077985884e-05,
	"loss": 0.0974,
	"step": 8640
	},
	{
	"epoch": 1.8384663733500943,
	"grad_norm": 0.05542114420833896,
	"learning_rate": 3.9123649314166065e-05,
	"loss": 0.0968,
	"step": 8775
	},
	{
	"epoch": 1.8667504714016343,
	"grad_norm": 0.05466973411282308,
	"learning_rate": 3.752371682696652e-05,
	"loss": 0.0966,
	"step": 8910
	},
	{
	"epoch": 1.895034569453174,
	"grad_norm": 0.05615670182195563,
	"learning_rate": 3.5937296029065625e-05,
	"loss": 0.0967,
	"step": 9045
	},
	{
	"epoch": 1.923318667504714,
	"grad_norm": 0.05525832187066413,
	"learning_rate": 3.4366104998245154e-05,
	"loss": 0.096,
	"step": 9180
	},
	{
	"epoch": 1.9516027655562538,
	"grad_norm": 0.05493108241819906,
	"learning_rate": 3.28118453186021e-05,
	"loss": 0.0957,
	"step": 9315
	},
	{
	"epoch": 1.9798868636077938,
	"grad_norm": 0.05505518318771863,
	"learning_rate": 3.1276200237750355e-05,
	"loss": 0.0955,
	"step": 9450
	},
	{
	"epoch": 2.0081709616593337,
	"grad_norm": 0.05306378687028771,
	"learning_rate": 2.976083284388031e-05,
	"loss": 0.0906,
	"step": 9585
	},
	{
	"epoch": 2.0364550597108737,
	"grad_norm": 0.05130179788880526,
	"learning_rate": 2.8267384264651188e-05,
	"loss": 0.0784,
	"step": 9720
	},
	{
	"epoch": 2.0647391577624137,
	"grad_norm": 0.05335109388781897,
	"learning_rate": 2.679747188986622e-05,
	"loss": 0.0782,
	"step": 9855
	},
	{
	"epoch": 2.0930232558139537,
	"grad_norm": 0.0513888628362633,
	"learning_rate": 2.53526876198557e-05,
	"loss": 0.0778,
	"step": 9990
	},
	{
	"epoch": 2.121307353865493,
	"grad_norm": 0.055136967997034346,
	"learning_rate": 2.3934596141465028e-05,
	"loss": 0.0778,
	"step": 10125
	},
	{
	"epoch": 2.149591451917033,
	"grad_norm": 0.05620080185680983,
	"learning_rate": 2.254473323351446e-05,
	"loss": 0.0777,
	"step": 10260
	},
	{
	"epoch": 2.177875549968573,
	"grad_norm": 0.05464669812207657,
	"learning_rate": 2.1184604103566198e-05,
	"loss": 0.0774,
	"step": 10395
	},
	{
	"epoch": 2.206159648020113,
	"grad_norm": 0.05398354993752342,
	"learning_rate": 1.9855681757799664e-05,
	"loss": 0.0774,
	"step": 10530
	},
	{
	"epoch": 2.234443746071653,
	"grad_norm": 0.055897809997969714,
	"learning_rate": 1.8559405405760584e-05,
	"loss": 0.0772,
	"step": 10665
	},
	{
	"epoch": 2.262727844123193,
	"grad_norm": 0.05732086913703312,
	"learning_rate": 1.729717890171157e-05,
	"loss": 0.0767,
	"step": 10800
	},
	{
	"epoch": 2.291011942174733,
	"grad_norm": 0.0565406180756469,
	"learning_rate": 1.607036922427203e-05,
	"loss": 0.0765,
	"step": 10935
	},
	{
	"epoch": 2.3192960402262726,
	"grad_norm": 0.057074660751889154,
	"learning_rate": 1.4880304995994099e-05,
	"loss": 0.0765,
	"step": 11070
	},
	{
	"epoch": 2.3475801382778125,
	"grad_norm": 0.05609805473293312,
	"learning_rate": 1.3728275044477673e-05,
	"loss": 0.0762,
	"step": 11205
	},
	{
	"epoch": 2.3758642363293525,
	"grad_norm": 0.05516011004588835,
	"learning_rate": 1.2615527006583178e-05,
	"loss": 0.0763,
	"step": 11340
	},
	{
	"epoch": 2.4041483343808925,
	"grad_norm": 0.05722853773387842,
	"learning_rate": 1.1543265977253332e-05,
	"loss": 0.0762,
	"step": 11475
	},
	{
	"epoch": 2.4324324324324325,
	"grad_norm": 0.0587961606821977,
	"learning_rate": 1.0512653204407463e-05,
	"loss": 0.0757,
	"step": 11610
	},
	{
	"epoch": 2.4607165304839724,
	"grad_norm": 0.0569771841520313,
	"learning_rate": 9.524804831321604e-06,
	"loss": 0.0759,
	"step": 11745
	},
	{
	"epoch": 2.4890006285355124,
	"grad_norm": 0.059353282770618576,
	"learning_rate": 8.580790687856661e-06,
	"loss": 0.0756,
	"step": 11880
	},
	{
	"epoch": 2.517284726587052,
	"grad_norm": 0.05454050877182314,
	"learning_rate": 7.68163313184333e-06,
	"loss": 0.0754,
	"step": 12015
	},
	{
	"epoch": 2.5455688246385924,
	"grad_norm": 0.05815652945221045,
	"learning_rate": 6.828305941878904e-06,
	"loss": 0.0752,
	"step": 12150
	},
	{
	"epoch": 2.573852922690132,
	"grad_norm": 0.057648681945551325,
	"learning_rate": 6.021733262734758e-06,
	"loss": 0.075,
	"step": 12285
	},
	{
	"epoch": 2.602137020741672,
	"grad_norm": 0.05540948539481964,
	"learning_rate": 5.262788604516944e-06,
	"loss": 0.075,
	"step": 12420
	},
	{
	"epoch": 2.630421118793212,
	"grad_norm": 0.06718456332465579,
	"learning_rate": 4.552293896663451e-06,
	"loss": 0.075,
	"step": 12555
	},
	{
	"epoch": 2.658705216844752,
	"grad_norm": 0.07105890518243332,
	"learning_rate": 3.8910185978029314e-06,
	"loss": 0.0748,
	"step": 12690
	},
	{
	"epoch": 2.686989314896292,
	"grad_norm": 0.05567353880578137,
	"learning_rate": 3.2796788624387066e-06,
	"loss": 0.0748,
	"step": 12825
	},
	{
	"epoch": 2.7152734129478313,
	"grad_norm": 0.05612203710501599,
	"learning_rate": 2.71893676536063e-06,
	"loss": 0.0749,
	"step": 12960
	},
	{
	"epoch": 2.7435575109993717,
	"grad_norm": 0.05673870284934767,
	"learning_rate": 2.209399584624794e-06,
	"loss": 0.0748,
	"step": 13095
	},
	{
	"epoch": 2.7718416090509113,
	"grad_norm": 0.05761628274356501,
	"learning_rate": 1.7516191438774588e-06,
	"loss": 0.0747,
	"step": 13230
	},
	{
	"epoch": 2.8001257071024512,
	"grad_norm": 0.054886010400605305,
	"learning_rate": 1.3460912147355787e-06,
	"loss": 0.0746,
	"step": 13365
	},
	{
	"epoch": 2.828409805153991,
	"grad_norm": 0.05340561070795086,
	"learning_rate": 9.932549798711443e-07,
	"loss": 0.0746,
	"step": 13500
	},
	{
	"epoch": 2.856693903205531,
	"grad_norm": 0.059674346591722494,
	"learning_rate": 6.934925573807704e-07,
	"loss": 0.0747,
	"step": 13635
	},
	{
	"epoch": 2.884978001257071,
	"grad_norm": 0.058825608417044505,
	"learning_rate": 4.4712858695560856e-07,
	"loss": 0.0742,
	"step": 13770
	},
	{
	"epoch": 2.9132620993086107,
	"grad_norm": 0.05775417712295375,
	"learning_rate": 2.5442987829985556e-07,
	"loss": 0.0745,
	"step": 13905
	},
	{
	"epoch": 2.941546197360151,
	"grad_norm": 0.056228990397294835,
	"learning_rate": 1.1560512217849707e-07,
	"loss": 0.0747,
	"step": 14040
	},
	{
	"epoch": 2.9698302954116906,
	"grad_norm": 0.056212393072501816,
	"learning_rate": 3.080466440732455e-08,
	"loss": 0.0743,
	"step": 14175
	},
	{
	"epoch": 2.9981143934632306,
	"grad_norm": 0.056538060201727615,
	"learning_rate": 1.2034302991903445e-10,
	"loss": 0.0745,
	"step": 14310
	}
	],
	"logging_steps": 135,
	"max_steps": 14319,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 54000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.413317465141412e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}