End of training

b8db756 verified about 1 year ago

11 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9998045729919874,
	"eval_steps": 500,
	"global_step": 1279,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.050029314051201874,
	"grad_norm": 6.638810634613037,
	"learning_rate": 5e-07,
	"logits/chosen": -0.5138859748840332,
	"logits/rejected": -0.4518983066082001,
	"logps/chosen": -77.28889465332031,
	"logps/rejected": -14.844705581665039,
	"loss": 0.6924,
	"rewards/accuracies": 0.50390625,
	"rewards/chosen": 0.0017984423320740461,
	"rewards/margins": 0.0019690156914293766,
	"rewards/rejected": -0.00017057315562851727,
	"step": 64
	},
	{
	"epoch": 0.10005862810240375,
	"grad_norm": 3.6703028678894043,
	"learning_rate": 1e-06,
	"logits/chosen": -0.5301803350448608,
	"logits/rejected": -0.46129050850868225,
	"logps/chosen": -77.88700866699219,
	"logps/rejected": -13.736372947692871,
	"loss": 0.6787,
	"rewards/accuracies": 0.693359375,
	"rewards/chosen": 0.026838650926947594,
	"rewards/margins": 0.02976146526634693,
	"rewards/rejected": -0.002922814106568694,
	"step": 128
	},
	{
	"epoch": 0.15008794215360563,
	"grad_norm": 4.980158805847168,
	"learning_rate": 9.44396177237185e-07,
	"logits/chosen": -0.5469677448272705,
	"logits/rejected": -0.48332178592681885,
	"logps/chosen": -77.87326049804688,
	"logps/rejected": -14.177068710327148,
	"loss": 0.6161,
	"rewards/accuracies": 0.82421875,
	"rewards/chosen": 0.15434227883815765,
	"rewards/margins": 0.17204590141773224,
	"rewards/rejected": -0.017703618854284286,
	"step": 192
	},
	{
	"epoch": 0.2001172562048075,
	"grad_norm": 2.8744795322418213,
	"learning_rate": 8.887923544743701e-07,
	"logits/chosen": -0.5636645555496216,
	"logits/rejected": -0.5051460266113281,
	"logps/chosen": -63.355735778808594,
	"logps/rejected": -12.730010032653809,
	"loss": 0.5124,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": 0.3969045877456665,
	"rewards/margins": 0.5048438310623169,
	"rewards/rejected": -0.10793925076723099,
	"step": 256
	},
	{
	"epoch": 0.2501465702560094,
	"grad_norm": 2.2977707386016846,
	"learning_rate": 8.331885317115551e-07,
	"logits/chosen": -0.5301216840744019,
	"logits/rejected": -0.47033828496932983,
	"logps/chosen": -65.85761260986328,
	"logps/rejected": -15.843816757202148,
	"loss": 0.3878,
	"rewards/accuracies": 0.888671875,
	"rewards/chosen": 0.79034823179245,
	"rewards/margins": 1.061028003692627,
	"rewards/rejected": -0.2706798315048218,
	"step": 320
	},
	{
	"epoch": 0.30017588430721126,
	"grad_norm": 8.175545692443848,
	"learning_rate": 7.775847089487402e-07,
	"logits/chosen": -0.5346195697784424,
	"logits/rejected": -0.4867401123046875,
	"logps/chosen": -57.788429260253906,
	"logps/rejected": -16.67302894592285,
	"loss": 0.3424,
	"rewards/accuracies": 0.904296875,
	"rewards/chosen": 0.9831899404525757,
	"rewards/margins": 1.4113095998764038,
	"rewards/rejected": -0.42811962962150574,
	"step": 384
	},
	{
	"epoch": 0.35020519835841313,
	"grad_norm": 5.475202560424805,
	"learning_rate": 7.219808861859253e-07,
	"logits/chosen": -0.5421884059906006,
	"logits/rejected": -0.4896155595779419,
	"logps/chosen": -59.334922790527344,
	"logps/rejected": -18.624767303466797,
	"loss": 0.265,
	"rewards/accuracies": 0.970703125,
	"rewards/chosen": 1.2069406509399414,
	"rewards/margins": 1.8477783203125,
	"rewards/rejected": -0.640837550163269,
	"step": 448
	},
	{
	"epoch": 0.400234512409615,
	"grad_norm": 3.7930808067321777,
	"learning_rate": 6.663770634231103e-07,
	"logits/chosen": -0.5423855185508728,
	"logits/rejected": -0.5051375031471252,
	"logps/chosen": -58.52878952026367,
	"logps/rejected": -23.4506893157959,
	"loss": 0.182,
	"rewards/accuracies": 0.986328125,
	"rewards/chosen": 1.3336964845657349,
	"rewards/margins": 2.311509132385254,
	"rewards/rejected": -0.977812647819519,
	"step": 512
	},
	{
	"epoch": 0.45026382646081686,
	"grad_norm": 7.777218818664551,
	"learning_rate": 6.107732406602954e-07,
	"logits/chosen": -0.5627282857894897,
	"logits/rejected": -0.5052539110183716,
	"logps/chosen": -60.55673599243164,
	"logps/rejected": -26.99791717529297,
	"loss": 0.1096,
	"rewards/accuracies": 0.982421875,
	"rewards/chosen": 1.3532178401947021,
	"rewards/margins": 2.905151605606079,
	"rewards/rejected": -1.5519336462020874,
	"step": 576
	},
	{
	"epoch": 0.5002931405120188,
	"grad_norm": 0.5906669497489929,
	"learning_rate": 5.551694178974804e-07,
	"logits/chosen": -0.5611196160316467,
	"logits/rejected": -0.5089166164398193,
	"logps/chosen": -59.12473678588867,
	"logps/rejected": -32.835243225097656,
	"loss": 0.0648,
	"rewards/accuracies": 0.9921875,
	"rewards/chosen": 1.443546175956726,
	"rewards/margins": 3.489488124847412,
	"rewards/rejected": -2.0459418296813965,
	"step": 640
	},
	{
	"epoch": 0.5503224545632206,
	"grad_norm": 0.7606092095375061,
	"learning_rate": 4.995655951346655e-07,
	"logits/chosen": -0.5526726245880127,
	"logits/rejected": -0.49657124280929565,
	"logps/chosen": -57.72775650024414,
	"logps/rejected": -36.90594482421875,
	"loss": 0.0546,
	"rewards/accuracies": 0.990234375,
	"rewards/chosen": 1.4812407493591309,
	"rewards/margins": 3.8918285369873047,
	"rewards/rejected": -2.410587787628174,
	"step": 704
	},
	{
	"epoch": 0.6003517686144225,
	"grad_norm": 0.8932979702949524,
	"learning_rate": 4.4396177237185057e-07,
	"logits/chosen": -0.5280415415763855,
	"logits/rejected": -0.4753148555755615,
	"logps/chosen": -58.317237854003906,
	"logps/rejected": -40.71867370605469,
	"loss": 0.0436,
	"rewards/accuracies": 0.990234375,
	"rewards/chosen": 1.4664157629013062,
	"rewards/margins": 4.119485855102539,
	"rewards/rejected": -2.6530702114105225,
	"step": 768
	},
	{
	"epoch": 0.6503810826656244,
	"grad_norm": 1.0950371026992798,
	"learning_rate": 3.8835794960903563e-07,
	"logits/chosen": -0.523577094078064,
	"logits/rejected": -0.464932382106781,
	"logps/chosen": -58.45826721191406,
	"logps/rejected": -40.988529205322266,
	"loss": 0.0442,
	"rewards/accuracies": 0.990234375,
	"rewards/chosen": 1.5603256225585938,
	"rewards/margins": 4.361178398132324,
	"rewards/rejected": -2.8008527755737305,
	"step": 832
	},
	{
	"epoch": 0.7004103967168263,
	"grad_norm": 0.8026629686355591,
	"learning_rate": 3.327541268462207e-07,
	"logits/chosen": -0.5141459703445435,
	"logits/rejected": -0.44692087173461914,
	"logps/chosen": -59.13020324707031,
	"logps/rejected": -41.566627502441406,
	"loss": 0.038,
	"rewards/accuracies": 0.994140625,
	"rewards/chosen": 1.5455219745635986,
	"rewards/margins": 4.467495918273926,
	"rewards/rejected": -2.9219741821289062,
	"step": 896
	},
	{
	"epoch": 0.7504397107680282,
	"grad_norm": 0.05718870088458061,
	"learning_rate": 2.7715030408340575e-07,
	"logits/chosen": -0.5028055906295776,
	"logits/rejected": -0.43091291189193726,
	"logps/chosen": -56.72560501098633,
	"logps/rejected": -42.42565155029297,
	"loss": 0.0423,
	"rewards/accuracies": 0.986328125,
	"rewards/chosen": 1.564468264579773,
	"rewards/margins": 4.592702865600586,
	"rewards/rejected": -3.0282342433929443,
	"step": 960
	},
	{
	"epoch": 0.80046902481923,
	"grad_norm": 0.14965815842151642,
	"learning_rate": 2.215464813205908e-07,
	"logits/chosen": -0.510848343372345,
	"logits/rejected": -0.4440664052963257,
	"logps/chosen": -56.914100646972656,
	"logps/rejected": -42.933258056640625,
	"loss": 0.0307,
	"rewards/accuracies": 0.9921875,
	"rewards/chosen": 1.552268147468567,
	"rewards/margins": 4.621021270751953,
	"rewards/rejected": -3.068753242492676,
	"step": 1024
	},
	{
	"epoch": 0.8504983388704319,
	"grad_norm": 0.4853415787220001,
	"learning_rate": 1.6594265855777585e-07,
	"logits/chosen": -0.5129883289337158,
	"logits/rejected": -0.4405321180820465,
	"logps/chosen": -56.04991912841797,
	"logps/rejected": -43.990997314453125,
	"loss": 0.0213,
	"rewards/accuracies": 0.994140625,
	"rewards/chosen": 1.5749919414520264,
	"rewards/margins": 4.778657913208008,
	"rewards/rejected": -3.2036657333374023,
	"step": 1088
	},
	{
	"epoch": 0.9005276529216337,
	"grad_norm": 0.44261807203292847,
	"learning_rate": 1.103388357949609e-07,
	"logits/chosen": -0.5202418565750122,
	"logits/rejected": -0.4409845471382141,
	"logps/chosen": -58.534915924072266,
	"logps/rejected": -44.22764205932617,
	"loss": 0.0335,
	"rewards/accuracies": 0.98828125,
	"rewards/chosen": 1.6060659885406494,
	"rewards/margins": 4.796003341674805,
	"rewards/rejected": -3.189937114715576,
	"step": 1152
	},
	{
	"epoch": 0.9505569669728356,
	"grad_norm": 0.2634647786617279,
	"learning_rate": 5.4735013032145953e-08,
	"logits/chosen": -0.48342519998550415,
	"logits/rejected": -0.4142173230648041,
	"logps/chosen": -57.232521057128906,
	"logps/rejected": -44.50954818725586,
	"loss": 0.0315,
	"rewards/accuracies": 0.990234375,
	"rewards/chosen": 1.5877962112426758,
	"rewards/margins": 4.721351623535156,
	"rewards/rejected": -3.1335554122924805,
	"step": 1216
	},
	{
	"epoch": 0.9998045729919874,
	"step": 1279,
	"total_flos": 7.724459437129728e+17,
	"train_loss": 0.21135991807092067,
	"train_runtime": 19931.1539,
	"train_samples_per_second": 0.513,
	"train_steps_per_second": 0.064
	}
	],
	"logging_steps": 64,
	"max_steps": 1279,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.724459437129728e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}