Agentic-V4 / trainer_state.json

Upload Agentic-V4

b8fafec verified over 1 year ago

15.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.060836501901140684,
	"eval_steps": 50,
	"global_step": 20,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003041825095057034,
	"grad_norm": 0.2263541966676712,
	"learning_rate": 9.090909090909091e-06,
	"log_odds_chosen": 0.0022868067026138306,
	"log_odds_ratio": -0.6926867961883545,
	"logits/chosen": -2.233539581298828,
	"logits/rejected": -2.2098608016967773,
	"logps/chosen": -0.7675836682319641,
	"logps/rejected": -0.7697547078132629,
	"loss": 0.85230005,
	"memory(GiB)": 243.33,
	"nll_loss": 0.7675836682319641,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.07675836980342865,
	"rewards/margins": 0.00021709827706217766,
	"rewards/rejected": -0.07697547227144241,
	"step": 1,
	"train_speed(iter/s)": 0.010532
	},
	{
	"epoch": 0.006083650190114068,
	"grad_norm": 0.21064028143882751,
	"learning_rate": 1.8181818181818182e-05,
	"log_odds_chosen": 0.411478191614151,
	"log_odds_ratio": -0.5463609099388123,
	"logits/chosen": -2.2685160636901855,
	"logits/rejected": -2.260843515396118,
	"logps/chosen": -0.9355340003967285,
	"logps/rejected": -1.236234188079834,
	"loss": 0.87318134,
	"memory(GiB)": 243.33,
	"nll_loss": 0.9355340003967285,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.09355340152978897,
	"rewards/margins": 0.030070019885897636,
	"rewards/rejected": -0.12362341582775116,
	"step": 2,
	"train_speed(iter/s)": 0.009734
	},
	{
	"epoch": 0.009125475285171103,
	"grad_norm": 0.19250068068504333,
	"learning_rate": 2.727272727272727e-05,
	"log_odds_chosen": 0.3938485383987427,
	"log_odds_ratio": -0.5777455568313599,
	"logits/chosen": -1.993510365486145,
	"logits/rejected": -1.9485821723937988,
	"logps/chosen": -0.6979267001152039,
	"logps/rejected": -0.9728450775146484,
	"loss": 0.75437951,
	"memory(GiB)": 243.33,
	"nll_loss": 0.6979267597198486,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.06979266554117203,
	"rewards/margins": 0.027491841465234756,
	"rewards/rejected": -0.09728450328111649,
	"step": 3,
	"train_speed(iter/s)": 0.01152
	},
	{
	"epoch": 0.012167300380228136,
	"grad_norm": 0.20081621408462524,
	"learning_rate": 3.6363636363636364e-05,
	"log_odds_chosen": 0.0849333107471466,
	"log_odds_ratio": -0.6586424112319946,
	"logits/chosen": -2.3017446994781494,
	"logits/rejected": -2.300307512283325,
	"logps/chosen": -0.7535954713821411,
	"logps/rejected": -0.8145345449447632,
	"loss": 0.85012603,
	"memory(GiB)": 315.51,
	"nll_loss": 0.7535954713821411,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.0753595381975174,
	"rewards/margins": 0.006093906704336405,
	"rewards/rejected": -0.08145345002412796,
	"step": 4,
	"train_speed(iter/s)": 0.011285
	},
	{
	"epoch": 0.015209125475285171,
	"grad_norm": 0.20968054234981537,
	"learning_rate": 4.545454545454545e-05,
	"log_odds_chosen": 0.2265796959400177,
	"log_odds_ratio": -0.605457067489624,
	"logits/chosen": -2.132286548614502,
	"logits/rejected": -2.0954604148864746,
	"logps/chosen": -0.7475967407226562,
	"logps/rejected": -0.9037913680076599,
	"loss": 0.83076566,
	"memory(GiB)": 349.51,
	"nll_loss": 0.747596800327301,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.07475967705249786,
	"rewards/margins": 0.015619462355971336,
	"rewards/rejected": -0.09037913382053375,
	"step": 5,
	"train_speed(iter/s)": 0.01019
	},
	{
	"epoch": 0.018250950570342206,
	"grad_norm": 0.28389012813568115,
	"learning_rate": 5.454545454545454e-05,
	"log_odds_chosen": 0.07245179265737534,
	"log_odds_ratio": -0.6642654538154602,
	"logits/chosen": -2.207275867462158,
	"logits/rejected": -2.194154977798462,
	"logps/chosen": -0.7644542455673218,
	"logps/rejected": -0.811606228351593,
	"loss": 0.80996728,
	"memory(GiB)": 304.24,
	"nll_loss": 0.7644542455673218,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.07644543051719666,
	"rewards/margins": 0.004715194460004568,
	"rewards/rejected": -0.08116061985492706,
	"step": 6,
	"train_speed(iter/s)": 0.010519
	},
	{
	"epoch": 0.02129277566539924,
	"grad_norm": 0.2204827517271042,
	"learning_rate": 6.363636363636363e-05,
	"log_odds_chosen": 0.0014549940824508667,
	"log_odds_ratio": -0.6934571266174316,
	"logits/chosen": -2.2422585487365723,
	"logits/rejected": -2.2558586597442627,
	"logps/chosen": -0.7055240869522095,
	"logps/rejected": -0.7079155445098877,
	"loss": 0.80136919,
	"memory(GiB)": 376.14,
	"nll_loss": 0.7055240869522095,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.07055240869522095,
	"rewards/margins": 0.0002391412854194641,
	"rewards/rejected": -0.07079154998064041,
	"step": 7,
	"train_speed(iter/s)": 0.010453
	},
	{
	"epoch": 0.024334600760456272,
	"grad_norm": 0.18603529036045074,
	"learning_rate": 7.272727272727273e-05,
	"log_odds_chosen": 0.2205890268087387,
	"log_odds_ratio": -0.6130101084709167,
	"logits/chosen": -2.1775014400482178,
	"logits/rejected": -2.1533212661743164,
	"logps/chosen": -0.6938110589981079,
	"logps/rejected": -0.8382289409637451,
	"loss": 0.73867655,
	"memory(GiB)": 337.96,
	"nll_loss": 0.6938109993934631,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.06938110291957855,
	"rewards/margins": 0.01444179005920887,
	"rewards/rejected": -0.08382289111614227,
	"step": 8,
	"train_speed(iter/s)": 0.010026
	},
	{
	"epoch": 0.02737642585551331,
	"grad_norm": 0.2093774527311325,
	"learning_rate": 8.18181818181818e-05,
	"log_odds_chosen": 0.28880590200424194,
	"log_odds_ratio": -0.5970734357833862,
	"logits/chosen": -2.231719970703125,
	"logits/rejected": -2.1949002742767334,
	"logps/chosen": -0.6275652647018433,
	"logps/rejected": -0.8133708834648132,
	"loss": 0.73195064,
	"memory(GiB)": 337.96,
	"nll_loss": 0.627565324306488,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.06275652348995209,
	"rewards/margins": 0.018580568954348564,
	"rewards/rejected": -0.0813370943069458,
	"step": 9,
	"train_speed(iter/s)": 0.010471
	},
	{
	"epoch": 0.030418250950570342,
	"grad_norm": 0.17292404174804688,
	"learning_rate": 9.09090909090909e-05,
	"log_odds_chosen": 0.1367553025484085,
	"log_odds_ratio": -0.6314333081245422,
	"logits/chosen": -2.193378448486328,
	"logits/rejected": -2.2005226612091064,
	"logps/chosen": -0.712138831615448,
	"logps/rejected": -0.7979795932769775,
	"loss": 0.72619164,
	"memory(GiB)": 337.96,
	"nll_loss": 0.7121387720108032,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.07121387869119644,
	"rewards/margins": 0.00858408585190773,
	"rewards/rejected": -0.07979796826839447,
	"step": 10,
	"train_speed(iter/s)": 0.010603
	},
	{
	"epoch": 0.033460076045627375,
	"grad_norm": 0.18145819008350372,
	"learning_rate": 9.999999999999999e-05,
	"log_odds_chosen": 0.39647987484931946,
	"log_odds_ratio": -0.5509629249572754,
	"logits/chosen": -1.9035614728927612,
	"logits/rejected": -1.8070275783538818,
	"logps/chosen": -0.6602268218994141,
	"logps/rejected": -0.9264889359474182,
	"loss": 0.63924813,
	"memory(GiB)": 337.96,
	"nll_loss": 0.6602268218994141,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.06602267920970917,
	"rewards/margins": 0.026626210659742355,
	"rewards/rejected": -0.09264889359474182,
	"step": 11,
	"train_speed(iter/s)": 0.011075
	},
	{
	"epoch": 0.03650190114068441,
	"grad_norm": 0.1996176391839981,
	"learning_rate": 0.00010909090909090908,
	"log_odds_chosen": -0.008832626044750214,
	"log_odds_ratio": -0.6989511251449585,
	"logits/chosen": -2.1484761238098145,
	"logits/rejected": -2.1583542823791504,
	"logps/chosen": -0.5783950686454773,
	"logps/rejected": -0.5806748867034912,
	"loss": 0.66453189,
	"memory(GiB)": 337.96,
	"nll_loss": 0.5783950686454773,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.05783950537443161,
	"rewards/margins": 0.0002279849722981453,
	"rewards/rejected": -0.05806749314069748,
	"step": 12,
	"train_speed(iter/s)": 0.011198
	},
	{
	"epoch": 0.03954372623574144,
	"grad_norm": 0.18517741560935974,
	"learning_rate": 0.00011818181818181817,
	"log_odds_chosen": 0.1502607762813568,
	"log_odds_ratio": -0.6237398386001587,
	"logits/chosen": -2.078707695007324,
	"logits/rejected": -2.0867443084716797,
	"logps/chosen": -0.6652951240539551,
	"logps/rejected": -0.7532068490982056,
	"loss": 0.71045852,
	"memory(GiB)": 337.96,
	"nll_loss": 0.6652951240539551,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.0665295198559761,
	"rewards/margins": 0.008791167289018631,
	"rewards/rejected": -0.07532068341970444,
	"step": 13,
	"train_speed(iter/s)": 0.011144
	},
	{
	"epoch": 0.04258555133079848,
	"grad_norm": 0.460842102766037,
	"learning_rate": 0.00012727272727272725,
	"log_odds_chosen": 0.08848065137863159,
	"log_odds_ratio": -0.6523964405059814,
	"logits/chosen": -2.0903429985046387,
	"logits/rejected": -2.071244716644287,
	"logps/chosen": -0.5602254867553711,
	"logps/rejected": -0.6098269820213318,
	"loss": 0.62673962,
	"memory(GiB)": 337.96,
	"nll_loss": 0.5602255463600159,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.05602255091071129,
	"rewards/margins": 0.004960143007338047,
	"rewards/rejected": -0.06098269298672676,
	"step": 14,
	"train_speed(iter/s)": 0.011223
	},
	{
	"epoch": 0.045627376425855515,
	"grad_norm": 0.201682448387146,
	"learning_rate": 0.00013636363636363634,
	"log_odds_chosen": 0.0586659274995327,
	"log_odds_ratio": -0.6654743552207947,
	"logits/chosen": -2.460188388824463,
	"logits/rejected": -2.4563236236572266,
	"logps/chosen": -0.3543914556503296,
	"logps/rejected": -0.3674345910549164,
	"loss": 0.49967062,
	"memory(GiB)": 337.96,
	"nll_loss": 0.3543914258480072,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.0354391448199749,
	"rewards/margins": 0.0013043158687651157,
	"rewards/rejected": -0.03674346208572388,
	"step": 15,
	"train_speed(iter/s)": 0.011535
	},
	{
	"epoch": 0.048669201520912544,
	"grad_norm": 0.20425710082054138,
	"learning_rate": 0.00014545454545454546,
	"log_odds_chosen": 0.06445352733135223,
	"log_odds_ratio": -0.6619336009025574,
	"logits/chosen": -1.9317834377288818,
	"logits/rejected": -1.9417508840560913,
	"logps/chosen": -0.5264174938201904,
	"logps/rejected": -0.5525864958763123,
	"loss": 0.62982225,
	"memory(GiB)": 337.96,
	"nll_loss": 0.5264174938201904,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.05264175310730934,
	"rewards/margins": 0.0026168967597186565,
	"rewards/rejected": -0.055258650332689285,
	"step": 16,
	"train_speed(iter/s)": 0.011487
	},
	{
	"epoch": 0.05171102661596958,
	"grad_norm": 0.19479066133499146,
	"learning_rate": 0.00015454545454545452,
	"log_odds_chosen": 0.05428645759820938,
	"log_odds_ratio": -0.6680891513824463,
	"logits/chosen": -2.0513648986816406,
	"logits/rejected": -2.0547256469726562,
	"logps/chosen": -0.5574195384979248,
	"logps/rejected": -0.5769228935241699,
	"loss": 0.65339994,
	"memory(GiB)": 337.96,
	"nll_loss": 0.5574195384979248,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.05574195832014084,
	"rewards/margins": 0.001950339414179325,
	"rewards/rejected": -0.05769229307770729,
	"step": 17,
	"train_speed(iter/s)": 0.011193
	},
	{
	"epoch": 0.05475285171102662,
	"grad_norm": 0.20096692442893982,
	"learning_rate": 0.0001636363636363636,
	"log_odds_chosen": 0.11649945378303528,
	"log_odds_ratio": -0.6375795006752014,
	"logits/chosen": -1.979109764099121,
	"logits/rejected": -1.9783812761306763,
	"logps/chosen": -0.6062220335006714,
	"logps/rejected": -0.6605215072631836,
	"loss": 0.61762023,
	"memory(GiB)": 337.96,
	"nll_loss": 0.6062220931053162,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.0606222040951252,
	"rewards/margins": 0.005429944489151239,
	"rewards/rejected": -0.06605214625597,
	"step": 18,
	"train_speed(iter/s)": 0.010973
	},
	{
	"epoch": 0.05779467680608365,
	"grad_norm": 0.22299402952194214,
	"learning_rate": 0.00017272727272727272,
	"log_odds_chosen": 0.275879442691803,
	"log_odds_ratio": -0.5872041583061218,
	"logits/chosen": -1.7563273906707764,
	"logits/rejected": -1.7962664365768433,
	"logps/chosen": -0.5380970239639282,
	"logps/rejected": -0.7168144583702087,
	"loss": 0.62556648,
	"memory(GiB)": 337.96,
	"nll_loss": 0.5380970239639282,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.05380970239639282,
	"rewards/margins": 0.017871743068099022,
	"rewards/rejected": -0.071681447327137,
	"step": 19,
	"train_speed(iter/s)": 0.010995
	},
	{
	"epoch": 0.060836501901140684,
	"grad_norm": 0.19399508833885193,
	"learning_rate": 0.0001818181818181818,
	"log_odds_chosen": -0.016166899353265762,
	"log_odds_ratio": -0.702415943145752,
	"logits/chosen": -2.1521270275115967,
	"logits/rejected": -2.151902914047241,
	"logps/chosen": -0.41145703196525574,
	"logps/rejected": -0.4066007733345032,
	"loss": 0.49458012,
	"memory(GiB)": 337.96,
	"nll_loss": 0.41145703196525574,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.041145700961351395,
	"rewards/margins": -0.000485624885186553,
	"rewards/rejected": -0.040660079568624496,
	"step": 20,
	"train_speed(iter/s)": 0.011065
	}
	],
	"logging_steps": 1,
	"max_steps": 328,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 9.570806552906957e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}