GRPO_adapters / trainer_state.json

Upload 11 files

54d9cc1 verified 11 months ago

11 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.927536231884058,
	"eval_steps": 500,
	"global_step": 100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 131.3125,
	"epoch": 0.0966183574879227,
	"grad_norm": 1.5448709726333618,
	"kl": 0.00043543790525291115,
	"learning_rate": 4e-07,
	"loss": 0.0,
	"reward": 0.6250000067055226,
	"reward_std": 0.29020712375640867,
	"rewards/cbt_technique_reward_func": 0.1375000011175871,
	"rewards/mmkay_speech_pattern_reward_func": 0.10625000018626451,
	"rewards/question_asking_reward_func": 0.38124999925494196,
	"step": 5
	},
	{
	"completion_length": 116.3875,
	"epoch": 0.1932367149758454,
	"grad_norm": 1.3723770380020142,
	"kl": 0.0007617953233420849,
	"learning_rate": 9e-07,
	"loss": 0.0,
	"reward": 0.7187500111758709,
	"reward_std": 0.3299859084188938,
	"rewards/cbt_technique_reward_func": 0.1400000021792948,
	"rewards/mmkay_speech_pattern_reward_func": 0.18000000081956385,
	"rewards/question_asking_reward_func": 0.39874999821186063,
	"step": 10
	},
	{
	"completion_length": 127.5,
	"epoch": 0.2898550724637681,
	"grad_norm": 1.2058902978897095,
	"kl": 0.0008091913536190986,
	"learning_rate": 9.555555555555556e-07,
	"loss": 0.0,
	"reward": 0.7375000104308128,
	"reward_std": 0.29069150872528554,
	"rewards/cbt_technique_reward_func": 0.14625000171363353,
	"rewards/mmkay_speech_pattern_reward_func": 0.20250000078231095,
	"rewards/question_asking_reward_func": 0.3887499958276749,
	"step": 15
	},
	{
	"completion_length": 118.6875,
	"epoch": 0.3864734299516908,
	"grad_norm": 1.1809375286102295,
	"kl": 0.000778093043481931,
	"learning_rate": 9e-07,
	"loss": 0.0,
	"reward": 0.8087500005960464,
	"reward_std": 0.2881319634616375,
	"rewards/cbt_technique_reward_func": 0.15375000424683094,
	"rewards/mmkay_speech_pattern_reward_func": 0.21750000212341547,
	"rewards/question_asking_reward_func": 0.4374999970197678,
	"step": 20
	},
	{
	"completion_length": 130.5375,
	"epoch": 0.4830917874396135,
	"grad_norm": 0.8987158536911011,
	"kl": 0.0007172481535235419,
	"learning_rate": 8.444444444444444e-07,
	"loss": 0.0,
	"reward": 0.690000006556511,
	"reward_std": 0.22531789541244507,
	"rewards/cbt_technique_reward_func": 0.13875000309199095,
	"rewards/mmkay_speech_pattern_reward_func": 0.15124999973922967,
	"rewards/question_asking_reward_func": 0.39999999701976774,
	"step": 25
	},
	{
	"completion_length": 135.575,
	"epoch": 0.5797101449275363,
	"grad_norm": 1.636861801147461,
	"kl": 0.0007032989873550832,
	"learning_rate": 7.888888888888889e-07,
	"loss": 0.0,
	"reward": 0.657500009611249,
	"reward_std": 0.24160839468240738,
	"rewards/cbt_technique_reward_func": 0.1337500031106174,
	"rewards/mmkay_speech_pattern_reward_func": 0.11499999947845936,
	"rewards/question_asking_reward_func": 0.40874999612569807,
	"step": 30
	},
	{
	"completion_length": 130.85,
	"epoch": 0.6763285024154589,
	"grad_norm": 1.004942536354065,
	"kl": 0.0006958791636861861,
	"learning_rate": 7.333333333333332e-07,
	"loss": 0.0,
	"reward": 0.6937500074505806,
	"reward_std": 0.25641300678253176,
	"rewards/cbt_technique_reward_func": 0.12000000299885868,
	"rewards/mmkay_speech_pattern_reward_func": 0.17000000029802323,
	"rewards/question_asking_reward_func": 0.4037499949336052,
	"step": 35
	},
	{
	"completion_length": 109.175,
	"epoch": 0.7729468599033816,
	"grad_norm": 1.200303077697754,
	"kl": 0.0006988899374846369,
	"learning_rate": 6.777777777777778e-07,
	"loss": 0.0,
	"reward": 0.5937500014901161,
	"reward_std": 0.2189602989703417,
	"rewards/cbt_technique_reward_func": 0.11375000216066837,
	"rewards/mmkay_speech_pattern_reward_func": 0.10499999951571226,
	"rewards/question_asking_reward_func": 0.37499999776482584,
	"step": 40
	},
	{
	"completion_length": 130.275,
	"epoch": 0.8695652173913043,
	"grad_norm": 1.5182042121887207,
	"kl": 0.000668867253989447,
	"learning_rate": 6.222222222222223e-07,
	"loss": 0.0,
	"reward": 0.6749999985098839,
	"reward_std": 0.256393301486969,
	"rewards/cbt_technique_reward_func": 0.14625000339001418,
	"rewards/mmkay_speech_pattern_reward_func": 0.12875000070780515,
	"rewards/question_asking_reward_func": 0.3999999985098839,
	"step": 45
	},
	{
	"completion_length": 116.8,
	"epoch": 0.966183574879227,
	"grad_norm": 1.9656929969787598,
	"kl": 0.0007837369499611669,
	"learning_rate": 5.666666666666666e-07,
	"loss": 0.0,
	"reward": 0.687499999254942,
	"reward_std": 0.2334746764972806,
	"rewards/cbt_technique_reward_func": 0.11000000266358256,
	"rewards/mmkay_speech_pattern_reward_func": 0.19375000055879354,
	"rewards/question_asking_reward_func": 0.38374999538064003,
	"step": 50
	},
	{
	"completion_length": 130.02631578947367,
	"epoch": 1.0579710144927537,
	"grad_norm": 1.276727557182312,
	"kl": 0.0007787851224604406,
	"learning_rate": 5.111111111111111e-07,
	"loss": 0.0,
	"reward": 0.7000000014116889,
	"reward_std": 0.27186120026989985,
	"rewards/cbt_technique_reward_func": 0.15789473929295414,
	"rewards/mmkay_speech_pattern_reward_func": 0.1684210531805691,
	"rewards/question_asking_reward_func": 0.37368421099687876,
	"step": 55
	},
	{
	"completion_length": 124.0375,
	"epoch": 1.1545893719806763,
	"grad_norm": 1.4976823329925537,
	"kl": 0.0006855996092781424,
	"learning_rate": 4.555555555555555e-07,
	"loss": 0.0,
	"reward": 0.731249999627471,
	"reward_std": 0.2586277686059475,
	"rewards/cbt_technique_reward_func": 0.1425000037997961,
	"rewards/mmkay_speech_pattern_reward_func": 0.19749999791383743,
	"rewards/question_asking_reward_func": 0.39124999567866325,
	"step": 60
	},
	{
	"completion_length": 136.325,
	"epoch": 1.251207729468599,
	"grad_norm": 2.217841863632202,
	"kl": 0.0007303371050511487,
	"learning_rate": 4e-07,
	"loss": 0.0,
	"reward": 0.7212500154972077,
	"reward_std": 0.23724802657961847,
	"rewards/cbt_technique_reward_func": 0.11375000402331352,
	"rewards/mmkay_speech_pattern_reward_func": 0.17875000182539225,
	"rewards/question_asking_reward_func": 0.4287499986588955,
	"step": 65
	},
	{
	"completion_length": 127.1,
	"epoch": 1.3478260869565217,
	"grad_norm": 1.2720558643341064,
	"kl": 0.0008214380504796281,
	"learning_rate": 3.4444444444444444e-07,
	"loss": 0.0,
	"reward": 0.6512500032782554,
	"reward_std": 0.24096153806895018,
	"rewards/cbt_technique_reward_func": 0.12250000247731804,
	"rewards/mmkay_speech_pattern_reward_func": 0.13250000029802322,
	"rewards/question_asking_reward_func": 0.39624999538064004,
	"step": 70
	},
	{
	"completion_length": 123.4,
	"epoch": 1.4444444444444444,
	"grad_norm": 1.5885432958602905,
	"kl": 0.0008428851724602282,
	"learning_rate": 2.8888888888888885e-07,
	"loss": 0.0,
	"reward": 0.6575000032782554,
	"reward_std": 0.3075646057724953,
	"rewards/cbt_technique_reward_func": 0.14500000271946192,
	"rewards/mmkay_speech_pattern_reward_func": 0.14625000059604645,
	"rewards/question_asking_reward_func": 0.3662499986588955,
	"step": 75
	},
	{
	"completion_length": 122.525,
	"epoch": 1.541062801932367,
	"grad_norm": 1.6414885520935059,
	"kl": 0.0007202147302450612,
	"learning_rate": 2.3333333333333333e-07,
	"loss": 0.0,
	"reward": 0.6725000083446503,
	"reward_std": 0.2713221043348312,
	"rewards/cbt_technique_reward_func": 0.1287500030361116,
	"rewards/mmkay_speech_pattern_reward_func": 0.13625000175088645,
	"rewards/question_asking_reward_func": 0.40749999806284903,
	"step": 80
	},
	{
	"completion_length": 113.65,
	"epoch": 1.6376811594202898,
	"grad_norm": 1.197077751159668,
	"kl": 0.0007829821581253782,
	"learning_rate": 1.7777777777777776e-07,
	"loss": 0.0,
	"reward": 0.6862500173039734,
	"reward_std": 0.227858448587358,
	"rewards/cbt_technique_reward_func": 0.12375000417232514,
	"rewards/mmkay_speech_pattern_reward_func": 0.1512499988079071,
	"rewards/question_asking_reward_func": 0.4112499952316284,
	"step": 85
	},
	{
	"completion_length": 121.9,
	"epoch": 1.7342995169082127,
	"grad_norm": 0.9502215385437012,
	"kl": 0.000955963070737198,
	"learning_rate": 1.2222222222222222e-07,
	"loss": 0.0,
	"reward": 0.6025000005960465,
	"reward_std": 0.22266108132898807,
	"rewards/cbt_technique_reward_func": 0.11750000119209289,
	"rewards/mmkay_speech_pattern_reward_func": 0.09875000026077033,
	"rewards/question_asking_reward_func": 0.3862499982118607,
	"step": 90
	},
	{
	"completion_length": 123.5125,
	"epoch": 1.8309178743961354,
	"grad_norm": 1.4943199157714844,
	"kl": 0.0007219786857604049,
	"learning_rate": 6.666666666666667e-08,
	"loss": 0.0,
	"reward": 0.6962499976158142,
	"reward_std": 0.23088937066495419,
	"rewards/cbt_technique_reward_func": 0.1312500026077032,
	"rewards/mmkay_speech_pattern_reward_func": 0.14625000022351742,
	"rewards/question_asking_reward_func": 0.41874999478459357,
	"step": 95
	},
	{
	"completion_length": 125.6,
	"epoch": 1.927536231884058,
	"grad_norm": 1.0279828310012817,
	"kl": 0.000812371401116252,
	"learning_rate": 1.111111111111111e-08,
	"loss": 0.0,
	"reward": 0.7137500122189522,
	"reward_std": 0.27089230343699455,
	"rewards/cbt_technique_reward_func": 0.12625000337138773,
	"rewards/mmkay_speech_pattern_reward_func": 0.2049999987706542,
	"rewards/question_asking_reward_func": 0.38249999582767485,
	"step": 100
	}
	],
	"logging_steps": 5,
	"max_steps": 100,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}