chenggong

Model save

193f56e verified 12 months ago

20.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.9893390191897655,
	"eval_steps": 60,
	"global_step": 232,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio": 0.0,
	"completion_length": 664.3515930175781,
	"epoch": 0.017057569296375266,
	"grad_norm": 0.11565207690000534,
	"kl": 0.0,
	"learning_rate": 5e-07,
	"loss": 0.1249,
	"reward": 0.8191964775323868,
	"reward_std": 0.1755836745724082,
	"rewards/accuracy_reward": 0.8191964775323868,
	"step": 1
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 661.427487373352,
	"epoch": 0.08528784648187633,
	"grad_norm": 0.1410389542579651,
	"kl": 0.00010322034358978271,
	"learning_rate": 5e-07,
	"loss": 0.0815,
	"reward": 0.7940848618745804,
	"reward_std": 0.16921476647257805,
	"rewards/accuracy_reward": 0.7940848618745804,
	"step": 5
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 648.45962600708,
	"epoch": 0.17057569296375266,
	"grad_norm": 0.09059495478868484,
	"kl": 0.00012706518173217775,
	"learning_rate": 5e-07,
	"loss": 0.092,
	"reward": 0.8165178954601288,
	"reward_std": 0.1695016896352172,
	"rewards/accuracy_reward": 0.8165178954601288,
	"step": 10
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 635.6861877441406,
	"epoch": 0.255863539445629,
	"grad_norm": 0.23655401170253754,
	"kl": 0.0001537799835205078,
	"learning_rate": 5e-07,
	"loss": 0.1002,
	"reward": 0.8232143238186836,
	"reward_std": 0.17031898349523544,
	"rewards/accuracy_reward": 0.8232143238186836,
	"step": 15
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 636.7087341308594,
	"epoch": 0.3411513859275053,
	"grad_norm": 0.15169048309326172,
	"kl": 0.0003520965576171875,
	"learning_rate": 5e-07,
	"loss": 0.0965,
	"reward": 0.8183036118745803,
	"reward_std": 0.16691437950357796,
	"rewards/accuracy_reward": 0.8183036118745803,
	"step": 20
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 660.6172164916992,
	"epoch": 0.42643923240938164,
	"grad_norm": 0.10549971461296082,
	"kl": 0.00020837783813476562,
	"learning_rate": 5e-07,
	"loss": 0.0838,
	"reward": 0.813392898440361,
	"reward_std": 0.17468413366004826,
	"rewards/accuracy_reward": 0.813392898440361,
	"step": 25
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 659.3672187805175,
	"epoch": 0.511727078891258,
	"grad_norm": 0.13681049644947052,
	"kl": 0.00038820505142211914,
	"learning_rate": 5e-07,
	"loss": 0.0786,
	"reward": 0.80357146859169,
	"reward_std": 0.17490468453615904,
	"rewards/accuracy_reward": 0.80357146859169,
	"step": 30
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 660.5917663574219,
	"epoch": 0.5970149253731343,
	"grad_norm": 0.09065572917461395,
	"kl": 0.0004504680633544922,
	"learning_rate": 5e-07,
	"loss": 0.0824,
	"reward": 0.8071428924798966,
	"reward_std": 0.1621523329988122,
	"rewards/accuracy_reward": 0.8071428924798966,
	"step": 35
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 638.1212364196778,
	"epoch": 0.6823027718550106,
	"grad_norm": 0.09261901676654816,
	"kl": 0.0005172014236450196,
	"learning_rate": 5e-07,
	"loss": 0.0585,
	"reward": 0.8138393208384513,
	"reward_std": 0.1534264313057065,
	"rewards/accuracy_reward": 0.8138393208384513,
	"step": 40
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 664.7774856567382,
	"epoch": 0.767590618336887,
	"grad_norm": 0.09141222387552261,
	"kl": 0.00053253173828125,
	"learning_rate": 5e-07,
	"loss": 0.0687,
	"reward": 0.8071428909897804,
	"reward_std": 0.16072208830155432,
	"rewards/accuracy_reward": 0.8071428909897804,
	"step": 45
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 662.5498062133789,
	"epoch": 0.8528784648187633,
	"grad_norm": 0.24577292799949646,
	"kl": 0.0011467933654785156,
	"learning_rate": 5e-07,
	"loss": 0.0649,
	"reward": 0.8042411059141159,
	"reward_std": 0.16364638023078443,
	"rewards/accuracy_reward": 0.8042411059141159,
	"step": 50
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 643.9475730895996,
	"epoch": 0.9381663113006397,
	"grad_norm": 0.10820304602384567,
	"kl": 0.000740814208984375,
	"learning_rate": 5e-07,
	"loss": 0.0622,
	"reward": 0.8261161133646965,
	"reward_std": 0.15972621561959385,
	"rewards/accuracy_reward": 0.8261161133646965,
	"step": 55
	},
	{
	"epoch": 1.0341151385927505,
	"grad_norm": 0.1097937524318695,
	"learning_rate": 5e-07,
	"loss": 0.0662,
	"step": 60
	},
	{
	"epoch": 1.0341151385927505,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 638.2177686691284,
	"eval_kl": 0.0012085437774658203,
	"eval_loss": 0.027663394808769226,
	"eval_reward": 0.7151227928698063,
	"eval_reward_std": 0.2182473847642541,
	"eval_rewards/accuracy_reward": 0.7151227928698063,
	"eval_runtime": 835.396,
	"eval_samples_per_second": 0.599,
	"eval_steps_per_second": 0.006,
	"step": 60
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 630.2452568054199,
	"epoch": 1.1194029850746268,
	"grad_norm": 0.08139240741729736,
	"kl": 0.0015056610107421875,
	"learning_rate": 5e-07,
	"loss": 0.0579,
	"reward": 0.8170759312808513,
	"reward_std": 0.16009651254862547,
	"rewards/accuracy_reward": 0.8170759312808513,
	"step": 65
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 620.5440017700196,
	"epoch": 1.2046908315565032,
	"grad_norm": 0.10313019156455994,
	"kl": 0.0016027450561523437,
	"learning_rate": 5e-07,
	"loss": 0.0586,
	"reward": 0.8310268223285675,
	"reward_std": 0.1424413041677326,
	"rewards/accuracy_reward": 0.8310268223285675,
	"step": 70
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 649.887752532959,
	"epoch": 1.2899786780383795,
	"grad_norm": 0.09998168796300888,
	"kl": 0.00717315673828125,
	"learning_rate": 5e-07,
	"loss": 0.0564,
	"reward": 0.8100446775555611,
	"reward_std": 0.1757219755090773,
	"rewards/accuracy_reward": 0.8100446775555611,
	"step": 75
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 614.6263717651367,
	"epoch": 1.375266524520256,
	"grad_norm": 0.08961261808872223,
	"kl": 0.0022918701171875,
	"learning_rate": 5e-07,
	"loss": 0.0376,
	"reward": 0.8328125387430191,
	"reward_std": 0.13861298179253936,
	"rewards/accuracy_reward": 0.8328125387430191,
	"step": 80
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 631.008511352539,
	"epoch": 1.4605543710021323,
	"grad_norm": 0.1273442804813385,
	"kl": 0.002947235107421875,
	"learning_rate": 5e-07,
	"loss": 0.0541,
	"reward": 0.8229911118745804,
	"reward_std": 0.14886255729943515,
	"rewards/accuracy_reward": 0.8229911118745804,
	"step": 85
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 646.872346496582,
	"epoch": 1.5458422174840085,
	"grad_norm": 0.15443700551986694,
	"kl": 0.0033596038818359377,
	"learning_rate": 5e-07,
	"loss": 0.0595,
	"reward": 0.809821467101574,
	"reward_std": 0.15138995712623,
	"rewards/accuracy_reward": 0.809821467101574,
	"step": 90
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 631.2808311462402,
	"epoch": 1.6311300639658848,
	"grad_norm": 0.09066915512084961,
	"kl": 0.004022216796875,
	"learning_rate": 5e-07,
	"loss": 0.0418,
	"reward": 0.8258928924798965,
	"reward_std": 0.1533732468262315,
	"rewards/accuracy_reward": 0.8258928924798965,
	"step": 95
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 627.2167701721191,
	"epoch": 1.716417910447761,
	"grad_norm": 0.10236337780952454,
	"kl": 0.011969375610351562,
	"learning_rate": 5e-07,
	"loss": 0.0372,
	"reward": 0.8267857551574707,
	"reward_std": 0.13705341126769782,
	"rewards/accuracy_reward": 0.8267857551574707,
	"step": 100
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 643.0727920532227,
	"epoch": 1.8017057569296375,
	"grad_norm": 0.09229780733585358,
	"kl": 0.00559539794921875,
	"learning_rate": 5e-07,
	"loss": 0.0289,
	"reward": 0.8116071805357933,
	"reward_std": 0.147033178107813,
	"rewards/accuracy_reward": 0.8116071805357933,
	"step": 105
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 634.0770401000976,
	"epoch": 1.886993603411514,
	"grad_norm": 0.1279992163181305,
	"kl": 0.006862640380859375,
	"learning_rate": 5e-07,
	"loss": 0.0364,
	"reward": 0.8312500357627869,
	"reward_std": 0.14459644490852952,
	"rewards/accuracy_reward": 0.8312500357627869,
	"step": 110
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 643.7125259399414,
	"epoch": 1.9722814498933903,
	"grad_norm": 0.12527693808078766,
	"kl": 0.00738983154296875,
	"learning_rate": 5e-07,
	"loss": 0.0394,
	"reward": 0.8138393253087998,
	"reward_std": 0.15650860401801764,
	"rewards/accuracy_reward": 0.8138393253087998,
	"step": 115
	},
	{
	"epoch": 2.068230277185501,
	"grad_norm": 0.13853299617767334,
	"learning_rate": 5e-07,
	"loss": 0.0354,
	"step": 120
	},
	{
	"epoch": 2.068230277185501,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 627.0459775924683,
	"eval_kl": 0.009876251220703125,
	"eval_loss": 0.023924430832266808,
	"eval_reward": 0.7343750353902578,
	"eval_reward_std": 0.19236661097966135,
	"eval_rewards/accuracy_reward": 0.7343750353902578,
	"eval_runtime": 697.2301,
	"eval_samples_per_second": 0.717,
	"eval_steps_per_second": 0.007,
	"step": 120
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 621.6253170013428,
	"epoch": 2.1535181236673773,
	"grad_norm": 0.11815498024225235,
	"kl": 0.01000518798828125,
	"learning_rate": 5e-07,
	"loss": 0.0358,
	"reward": 0.8255580753087998,
	"reward_std": 0.14198732506483794,
	"rewards/accuracy_reward": 0.8255580753087998,
	"step": 125
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 621.314752960205,
	"epoch": 2.2388059701492535,
	"grad_norm": 0.113522969186306,
	"kl": 0.0125152587890625,
	"learning_rate": 5e-07,
	"loss": 0.0269,
	"reward": 0.8386161178350449,
	"reward_std": 0.14197837365791202,
	"rewards/accuracy_reward": 0.8386161178350449,
	"step": 130
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 642.9511466979981,
	"epoch": 2.3240938166311302,
	"grad_norm": 0.14222967624664307,
	"kl": 0.01525726318359375,
	"learning_rate": 5e-07,
	"loss": 0.0476,
	"reward": 0.7872768193483353,
	"reward_std": 0.14514056108891965,
	"rewards/accuracy_reward": 0.7872768193483353,
	"step": 135
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 628.785961151123,
	"epoch": 2.4093816631130065,
	"grad_norm": 0.13704024255275726,
	"kl": 0.01926116943359375,
	"learning_rate": 5e-07,
	"loss": 0.0403,
	"reward": 0.8256696745753288,
	"reward_std": 0.14226720854640007,
	"rewards/accuracy_reward": 0.8256696745753288,
	"step": 140
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 614.7006958007812,
	"epoch": 2.4946695095948828,
	"grad_norm": 0.19874536991119385,
	"kl": 0.0266326904296875,
	"learning_rate": 5e-07,
	"loss": 0.0278,
	"reward": 0.8165178939700126,
	"reward_std": 0.16517118187621235,
	"rewards/accuracy_reward": 0.8165178939700126,
	"step": 145
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 649.61431350708,
	"epoch": 2.579957356076759,
	"grad_norm": 0.40368160605430603,
	"kl": 0.0365936279296875,
	"learning_rate": 5e-07,
	"loss": 0.0341,
	"reward": 0.7767857447266578,
	"reward_std": 0.1682931227609515,
	"rewards/accuracy_reward": 0.7767857447266578,
	"step": 150
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 620.872575378418,
	"epoch": 2.6652452025586353,
	"grad_norm": 0.37761253118515015,
	"kl": 0.049951171875,
	"learning_rate": 5e-07,
	"loss": 0.0415,
	"reward": 0.7785714641213417,
	"reward_std": 0.19512954521924258,
	"rewards/accuracy_reward": 0.7785714641213417,
	"step": 155
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 617.9544944763184,
	"epoch": 2.750533049040512,
	"grad_norm": 0.44903331995010376,
	"kl": 0.0691650390625,
	"learning_rate": 5e-07,
	"loss": 0.0422,
	"reward": 0.7671875387430191,
	"reward_std": 0.19579849690198897,
	"rewards/accuracy_reward": 0.7671875387430191,
	"step": 160
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 616.282169342041,
	"epoch": 2.835820895522388,
	"grad_norm": 0.7222861647605896,
	"kl": 0.10626220703125,
	"learning_rate": 5e-07,
	"loss": 0.0487,
	"reward": 0.7156250298023223,
	"reward_std": 0.2289330180734396,
	"rewards/accuracy_reward": 0.7156250298023223,
	"step": 165
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 649.1158721923828,
	"epoch": 2.9211087420042645,
	"grad_norm": 1.717586636543274,
	"kl": 0.194580078125,
	"learning_rate": 5e-07,
	"loss": 0.0679,
	"reward": 0.614955385774374,
	"reward_std": 0.2752906741574407,
	"rewards/accuracy_reward": 0.614955385774374,
	"step": 170
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 786.9139389038086,
	"epoch": 3.0170575692963753,
	"grad_norm": 1.529920220375061,
	"kl": 0.439892578125,
	"learning_rate": 5e-07,
	"loss": 0.1198,
	"reward": 0.368080372735858,
	"reward_std": 0.29059169851243494,
	"rewards/accuracy_reward": 0.368080372735858,
	"step": 175
	},
	{
	"epoch": 3.1023454157782515,
	"grad_norm": 1.5960689783096313,
	"learning_rate": 5e-07,
	"loss": 0.0887,
	"step": 180
	},
	{
	"epoch": 3.1023454157782515,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 791.9263305664062,
	"eval_kl": 2.4365234375,
	"eval_loss": 0.06115880608558655,
	"eval_reward": 0.08565848605940118,
	"eval_reward_std": 0.13261561130639166,
	"eval_rewards/accuracy_reward": 0.08565848605940118,
	"eval_runtime": 821.1595,
	"eval_samples_per_second": 0.609,
	"eval_steps_per_second": 0.006,
	"step": 180
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 818.8542762756348,
	"epoch": 3.1876332622601278,
	"grad_norm": 11.959312438964844,
	"kl": 2.426806640625,
	"learning_rate": 5e-07,
	"loss": 0.0522,
	"reward": 0.10647321877768263,
	"reward_std": 0.14978813820052891,
	"rewards/accuracy_reward": 0.10647321877768263,
	"step": 185
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 679.0966827392579,
	"epoch": 3.272921108742004,
	"grad_norm": 19.53175163269043,
	"kl": 3.7345703125,
	"learning_rate": 5e-07,
	"loss": 0.0359,
	"reward": 0.039732144516892734,
	"reward_std": 0.07693687449209392,
	"rewards/accuracy_reward": 0.039732144516892734,
	"step": 190
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 561.9143058776856,
	"epoch": 3.3582089552238807,
	"grad_norm": 8.676216125488281,
	"kl": 5.15078125,
	"learning_rate": 5e-07,
	"loss": 0.0272,
	"reward": 0.026116072735749184,
	"reward_std": 0.05382296503521502,
	"rewards/accuracy_reward": 0.026116072735749184,
	"step": 195
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 466.9301559448242,
	"epoch": 3.443496801705757,
	"grad_norm": 16.412755966186523,
	"kl": 7.519140625,
	"learning_rate": 5e-07,
	"loss": 0.0222,
	"reward": 0.02700892973225564,
	"reward_std": 0.058131046639755365,
	"rewards/accuracy_reward": 0.02700892973225564,
	"step": 200
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 409.43640365600584,
	"epoch": 3.5287846481876333,
	"grad_norm": 10.202103614807129,
	"kl": 4.88203125,
	"learning_rate": 5e-07,
	"loss": 0.0116,
	"reward": 0.02410714393481612,
	"reward_std": 0.051837433129549026,
	"rewards/accuracy_reward": 0.02410714393481612,
	"step": 205
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 366.6959976196289,
	"epoch": 3.6140724946695095,
	"grad_norm": 33.47189712524414,
	"kl": 6.95859375,
	"learning_rate": 5e-07,
	"loss": 0.0144,
	"reward": 0.026116072852164506,
	"reward_std": 0.04902788205072284,
	"rewards/accuracy_reward": 0.026116072852164506,
	"step": 210
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 356.4863983154297,
	"epoch": 3.699360341151386,
	"grad_norm": 7.119285583496094,
	"kl": 3.1953125,
	"learning_rate": 5e-07,
	"loss": 0.0123,
	"reward": 0.0292410729220137,
	"reward_std": 0.05716597293503582,
	"rewards/accuracy_reward": 0.0292410729220137,
	"step": 215
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 343.4513526916504,
	"epoch": 3.7846481876332625,
	"grad_norm": 15.441688537597656,
	"kl": 4.012109375,
	"learning_rate": 5e-07,
	"loss": 0.0177,
	"reward": 0.028571429941803218,
	"reward_std": 0.058770314510911706,
	"rewards/accuracy_reward": 0.028571429941803218,
	"step": 220
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 310.74108505249023,
	"epoch": 3.8699360341151388,
	"grad_norm": 7.061368942260742,
	"kl": 5.580859375,
	"learning_rate": 5e-07,
	"loss": 0.0081,
	"reward": 0.02857143001165241,
	"reward_std": 0.06492680269293487,
	"rewards/accuracy_reward": 0.02857143001165241,
	"step": 225
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 314.79555015563966,
	"epoch": 3.955223880597015,
	"grad_norm": 22.824426651000977,
	"kl": 8.496484375,
	"learning_rate": 5e-07,
	"loss": 0.0108,
	"reward": 0.033258930104784666,
	"reward_std": 0.06678469418548047,
	"rewards/accuracy_reward": 0.033258930104784666,
	"step": 230
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 311.46373558044434,
	"epoch": 3.9893390191897655,
	"kl": 4.9599609375,
	"reward": 0.042968751688022166,
	"reward_std": 0.08240398659836501,
	"rewards/accuracy_reward": 0.042968751688022166,
	"step": 232,
	"total_flos": 0.0,
	"train_loss": 0.0500773029434013,
	"train_runtime": 52194.0457,
	"train_samples_per_second": 0.575,
	"train_steps_per_second": 0.004
	}
	],
	"logging_steps": 5,
	"max_steps": 232,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}