Qwen2-VL-7B-ChartQAtesting / trainer_state.json

Upload trainer_state.json with huggingface_hub

fe6bff0 verified 17 days ago

11.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 10,
	"global_step": 178,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 2.375955265760422,
	"epoch": 0.11299435028248588,
	"grad_norm": 3.953125,
	"learning_rate": 0.00019651162790697676,
	"loss": 16.610369873046874,
	"mean_token_accuracy": 0.10732572241686285,
	"num_tokens": 168709.0,
	"step": 10
	},
	{
	"epoch": 0.11299435028248588,
	"eval_entropy": 2.850843206048012,
	"eval_loss": 16.137414932250977,
	"eval_mean_token_accuracy": 0.0946836918592453,
	"eval_num_tokens": 168709.0,
	"eval_runtime": 43.886,
	"eval_samples_per_second": 4.375,
	"eval_steps_per_second": 1.094,
	"step": 10
	},
	{
	"entropy": 4.185183194279671,
	"epoch": 0.22598870056497175,
	"grad_norm": 14.125,
	"learning_rate": 0.00018488372093023256,
	"loss": 13.943736267089843,
	"mean_token_accuracy": 0.115196983050555,
	"num_tokens": 336118.0,
	"step": 20
	},
	{
	"epoch": 0.22598870056497175,
	"eval_entropy": 6.767949452002843,
	"eval_loss": 11.27951717376709,
	"eval_mean_token_accuracy": 0.09991752542555332,
	"eval_num_tokens": 336118.0,
	"eval_runtime": 43.8324,
	"eval_samples_per_second": 4.38,
	"eval_steps_per_second": 1.095,
	"step": 20
	},
	{
	"entropy": 7.635345196723938,
	"epoch": 0.3389830508474576,
	"grad_norm": 8.9375,
	"learning_rate": 0.00017325581395348838,
	"loss": 9.085212707519531,
	"mean_token_accuracy": 0.11288385493680834,
	"num_tokens": 505921.0,
	"step": 30
	},
	{
	"epoch": 0.3389830508474576,
	"eval_entropy": 7.880531340837479,
	"eval_loss": 7.876997470855713,
	"eval_mean_token_accuracy": 0.09879284957423806,
	"eval_num_tokens": 505921.0,
	"eval_runtime": 43.9757,
	"eval_samples_per_second": 4.366,
	"eval_steps_per_second": 1.092,
	"step": 30
	},
	{
	"entropy": 7.543534195423126,
	"epoch": 0.4519774011299435,
	"grad_norm": 1.40625,
	"learning_rate": 0.00016162790697674419,
	"loss": 7.40704116821289,
	"mean_token_accuracy": 0.11707657705992461,
	"num_tokens": 677163.0,
	"step": 40
	},
	{
	"epoch": 0.4519774011299435,
	"eval_entropy": 7.573027561108272,
	"eval_loss": 7.244246006011963,
	"eval_mean_token_accuracy": 0.10892315845315655,
	"eval_num_tokens": 677163.0,
	"eval_runtime": 44.408,
	"eval_samples_per_second": 4.324,
	"eval_steps_per_second": 1.081,
	"step": 40
	},
	{
	"entropy": 7.289045333862305,
	"epoch": 0.5649717514124294,
	"grad_norm": 1.796875,
	"learning_rate": 0.00015000000000000001,
	"loss": 7.031863403320313,
	"mean_token_accuracy": 0.1295573660172522,
	"num_tokens": 848791.0,
	"step": 50
	},
	{
	"epoch": 0.5649717514124294,
	"eval_entropy": 7.325021078189214,
	"eval_loss": 6.95927095413208,
	"eval_mean_token_accuracy": 0.13235394159952799,
	"eval_num_tokens": 848791.0,
	"eval_runtime": 43.8325,
	"eval_samples_per_second": 4.38,
	"eval_steps_per_second": 1.095,
	"step": 50
	},
	{
	"entropy": 6.9638889849185945,
	"epoch": 0.6779661016949152,
	"grad_norm": 1.2578125,
	"learning_rate": 0.00013837209302325582,
	"loss": 6.742725372314453,
	"mean_token_accuracy": 0.1696016845293343,
	"num_tokens": 1018925.0,
	"step": 60
	},
	{
	"epoch": 0.6779661016949152,
	"eval_entropy": 7.055461843808492,
	"eval_loss": 6.720689296722412,
	"eval_mean_token_accuracy": 0.16983537826066217,
	"eval_num_tokens": 1018925.0,
	"eval_runtime": 43.7205,
	"eval_samples_per_second": 4.392,
	"eval_steps_per_second": 1.098,
	"step": 60
	},
	{
	"entropy": 6.680863696336746,
	"epoch": 0.7909604519774012,
	"grad_norm": 1.34375,
	"learning_rate": 0.00012674418604651164,
	"loss": 6.45898666381836,
	"mean_token_accuracy": 0.21339080817997455,
	"num_tokens": 1181787.0,
	"step": 70
	},
	{
	"epoch": 0.7909604519774012,
	"eval_entropy": 6.870167553424835,
	"eval_loss": 6.5776286125183105,
	"eval_mean_token_accuracy": 0.19155203737318516,
	"eval_num_tokens": 1181787.0,
	"eval_runtime": 43.9254,
	"eval_samples_per_second": 4.371,
	"eval_steps_per_second": 1.093,
	"step": 70
	},
	{
	"entropy": 6.659492689371109,
	"epoch": 0.903954802259887,
	"grad_norm": 0.82421875,
	"learning_rate": 0.00011511627906976746,
	"loss": 6.499990081787109,
	"mean_token_accuracy": 0.21302505303174257,
	"num_tokens": 1360714.0,
	"step": 80
	},
	{
	"epoch": 0.903954802259887,
	"eval_entropy": 6.760685175657272,
	"eval_loss": 6.4918060302734375,
	"eval_mean_token_accuracy": 0.20070527338733277,
	"eval_num_tokens": 1360714.0,
	"eval_runtime": 44.0105,
	"eval_samples_per_second": 4.363,
	"eval_steps_per_second": 1.091,
	"step": 80
	},
	{
	"entropy": 6.3696688413619995,
	"epoch": 1.0112994350282485,
	"grad_norm": 0.64453125,
	"learning_rate": 0.00010348837209302327,
	"loss": 6.255178451538086,
	"mean_token_accuracy": 0.24344109077202647,
	"num_tokens": 1511764.0,
	"step": 90
	},
	{
	"epoch": 1.0112994350282485,
	"eval_entropy": 6.723124821980794,
	"eval_loss": 6.457315921783447,
	"eval_mean_token_accuracy": 0.20087979889164367,
	"eval_num_tokens": 1511764.0,
	"eval_runtime": 43.8306,
	"eval_samples_per_second": 4.381,
	"eval_steps_per_second": 1.095,
	"step": 90
	},
	{
	"entropy": 6.43809232711792,
	"epoch": 1.1242937853107344,
	"grad_norm": 0.55859375,
	"learning_rate": 9.186046511627907e-05,
	"loss": 6.314236068725586,
	"mean_token_accuracy": 0.23132331417873503,
	"num_tokens": 1682798.0,
	"step": 100
	},
	{
	"epoch": 1.1242937853107344,
	"eval_entropy": 6.687405467033386,
	"eval_loss": 6.43255090713501,
	"eval_mean_token_accuracy": 0.20094856123129526,
	"eval_num_tokens": 1682798.0,
	"eval_runtime": 44.0723,
	"eval_samples_per_second": 4.356,
	"eval_steps_per_second": 1.089,
	"step": 100
	},
	{
	"entropy": 6.333824092149735,
	"epoch": 1.2372881355932204,
	"grad_norm": 0.79296875,
	"learning_rate": 8.023255813953489e-05,
	"loss": 6.235330963134766,
	"mean_token_accuracy": 0.2396117802709341,
	"num_tokens": 1846342.0,
	"step": 110
	},
	{
	"epoch": 1.2372881355932204,
	"eval_entropy": 6.654318938652675,
	"eval_loss": 6.4151153564453125,
	"eval_mean_token_accuracy": 0.20105128269642591,
	"eval_num_tokens": 1846342.0,
	"eval_runtime": 44.0421,
	"eval_samples_per_second": 4.359,
	"eval_steps_per_second": 1.09,
	"step": 110
	},
	{
	"entropy": 6.359769129753113,
	"epoch": 1.3502824858757063,
	"grad_norm": 0.79296875,
	"learning_rate": 6.86046511627907e-05,
	"loss": 6.299611282348633,
	"mean_token_accuracy": 0.23366298619657755,
	"num_tokens": 2018599.0,
	"step": 120
	},
	{
	"epoch": 1.3502824858757063,
	"eval_entropy": 6.63616219162941,
	"eval_loss": 6.399180889129639,
	"eval_mean_token_accuracy": 0.20099820289760828,
	"eval_num_tokens": 2018599.0,
	"eval_runtime": 44.0128,
	"eval_samples_per_second": 4.362,
	"eval_steps_per_second": 1.091,
	"step": 120
	},
	{
	"entropy": 6.290887945890427,
	"epoch": 1.463276836158192,
	"grad_norm": 0.7265625,
	"learning_rate": 5.697674418604652e-05,
	"loss": 6.218046951293945,
	"mean_token_accuracy": 0.24080509012565016,
	"num_tokens": 2183142.0,
	"step": 130
	},
	{
	"epoch": 1.463276836158192,
	"eval_entropy": 6.626457552115123,
	"eval_loss": 6.388693332672119,
	"eval_mean_token_accuracy": 0.20111992427458367,
	"eval_num_tokens": 2183142.0,
	"eval_runtime": 43.8362,
	"eval_samples_per_second": 4.38,
	"eval_steps_per_second": 1.095,
	"step": 130
	},
	{
	"entropy": 6.49563906788826,
	"epoch": 1.576271186440678,
	"grad_norm": 0.6015625,
	"learning_rate": 4.5348837209302326e-05,
	"loss": 6.376762771606446,
	"mean_token_accuracy": 0.21492539951577783,
	"num_tokens": 2364034.0,
	"step": 140
	},
	{
	"epoch": 1.576271186440678,
	"eval_entropy": 6.611844847599666,
	"eval_loss": 6.380344390869141,
	"eval_mean_token_accuracy": 0.20116183906793594,
	"eval_num_tokens": 2364034.0,
	"eval_runtime": 44.3142,
	"eval_samples_per_second": 4.333,
	"eval_steps_per_second": 1.083,
	"step": 140
	},
	{
	"entropy": 6.287807840108871,
	"epoch": 1.689265536723164,
	"grad_norm": 0.26171875,
	"learning_rate": 3.372093023255814e-05,
	"loss": 6.183982086181641,
	"mean_token_accuracy": 0.2382544383406639,
	"num_tokens": 2527248.0,
	"step": 150
	},
	{
	"epoch": 1.689265536723164,
	"eval_entropy": 6.602698942025502,
	"eval_loss": 6.374426364898682,
	"eval_mean_token_accuracy": 0.20121282618492842,
	"eval_num_tokens": 2527248.0,
	"eval_runtime": 43.9903,
	"eval_samples_per_second": 4.365,
	"eval_steps_per_second": 1.091,
	"step": 150
	},
	{
	"entropy": 6.482830649614334,
	"epoch": 1.8022598870056497,
	"grad_norm": 0.37890625,
	"learning_rate": 2.2093023255813955e-05,
	"loss": 6.326276779174805,
	"mean_token_accuracy": 0.2152696281671524,
	"num_tokens": 2704860.0,
	"step": 160
	},
	{
	"epoch": 1.8022598870056497,
	"eval_entropy": 6.604644636313121,
	"eval_loss": 6.371755123138428,
	"eval_mean_token_accuracy": 0.20118677647163472,
	"eval_num_tokens": 2704860.0,
	"eval_runtime": 44.2676,
	"eval_samples_per_second": 4.337,
	"eval_steps_per_second": 1.084,
	"step": 160
	},
	{
	"entropy": 6.240383183956146,
	"epoch": 1.9152542372881356,
	"grad_norm": 0.34765625,
	"learning_rate": 1.0465116279069768e-05,
	"loss": 6.1943107604980465,
	"mean_token_accuracy": 0.2432584844529629,
	"num_tokens": 2869517.0,
	"step": 170
	},
	{
	"epoch": 1.9152542372881356,
	"eval_entropy": 6.599712918202083,
	"eval_loss": 6.369909763336182,
	"eval_mean_token_accuracy": 0.20116472554703554,
	"eval_num_tokens": 2869517.0,
	"eval_runtime": 43.9021,
	"eval_samples_per_second": 4.373,
	"eval_steps_per_second": 1.093,
	"step": 170
	}
	],
	"logging_steps": 10,
	"max_steps": 178,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 20,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.1389497039169126e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}