ideo-b / trainer_state.json

Upload folder using huggingface_hub

92d2dcb verified almost 2 years ago

13.3 kB

	{
	"best_metric": 0.9818782216494845,
	"best_model_checkpoint": "../models/PoliticES/ideology_binary/BETO/450_SEED_11/run-1/checkpoint-3180",
	"epoch": 14.99647473560517,
	"global_step": 3180,
	"is_hyper_param_search": true,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.94,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.4738,
	"step": 200
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7511111111111111,
	"eval_jaccard": 0.5818173817381738,
	"eval_loss": 0.56746506690979,
	"eval_macro_f1": 0.716113914924297,
	"eval_macro_precision": 0.8270380109968922,
	"eval_macro_recall": 0.7193362193362193,
	"eval_micro_f1": 0.7511111111111111,
	"eval_micro_precision": 0.7511111111111111,
	"eval_micro_recall": 0.7511111111111111,
	"eval_runtime": 3.8883,
	"eval_samples_per_second": 387.83,
	"eval_steps_per_second": 12.345,
	"eval_weighted_f1": 0.7280749819754866,
	"eval_weighted_precision": 0.8113889552952426,
	"eval_weighted_recall": 0.7511111111111111,
	"step": 212
	},
	{
	"epoch": 1.88,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.3003,
	"step": 400
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9422222222222222,
	"eval_jaccard": 0.8905400934915497,
	"eval_loss": 0.2769545614719391,
	"eval_macro_f1": 0.9410294147295417,
	"eval_macro_precision": 0.9443722592171513,
	"eval_macro_recall": 0.9386724386724387,
	"eval_micro_f1": 0.9422222222222222,
	"eval_micro_precision": 0.9422222222222222,
	"eval_micro_recall": 0.9422222222222222,
	"eval_runtime": 3.8935,
	"eval_samples_per_second": 387.316,
	"eval_steps_per_second": 12.328,
	"eval_weighted_f1": 0.9420358460514909,
	"eval_weighted_precision": 0.9428033133019327,
	"eval_weighted_recall": 0.9422222222222222,
	"step": 424
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.1564,
	"step": 600
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9333333333333333,
	"eval_jaccard": 0.8754464285714286,
	"eval_loss": 0.3916676938533783,
	"eval_macro_f1": 0.9329945005856777,
	"eval_macro_precision": 0.9322134387351779,
	"eval_macro_recall": 0.9383116883116883,
	"eval_micro_f1": 0.9333333333333333,
	"eval_micro_precision": 0.9333333333333333,
	"eval_micro_recall": 0.9333333333333333,
	"eval_runtime": 3.9044,
	"eval_samples_per_second": 386.23,
	"eval_steps_per_second": 12.294,
	"eval_weighted_f1": 0.9335662808473466,
	"eval_weighted_precision": 0.9382608695652174,
	"eval_weighted_recall": 0.9333333333333333,
	"step": 636
	},
	{
	"epoch": 3.77,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0897,
	"step": 800
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9422222222222222,
	"eval_jaccard": 0.8902276505022765,
	"eval_loss": 0.4636266231536865,
	"eval_macro_f1": 0.9407042510490785,
	"eval_macro_precision": 0.9481481481481482,
	"eval_macro_recall": 0.9365079365079365,
	"eval_micro_f1": 0.9422222222222222,
	"eval_micro_precision": 0.9422222222222222,
	"eval_micro_recall": 0.9422222222222222,
	"eval_runtime": 3.8881,
	"eval_samples_per_second": 387.847,
	"eval_steps_per_second": 12.345,
	"eval_weighted_f1": 0.9418427294289362,
	"eval_weighted_precision": 0.9445925925925925,
	"eval_weighted_recall": 0.9422222222222222,
	"step": 848
	},
	{
	"epoch": 4.71,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0562,
	"step": 1000
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9422222222222222,
	"eval_jaccard": 0.8902276505022765,
	"eval_loss": 0.5073122978210449,
	"eval_macro_f1": 0.9407042510490785,
	"eval_macro_precision": 0.9481481481481482,
	"eval_macro_recall": 0.9365079365079365,
	"eval_micro_f1": 0.9422222222222222,
	"eval_micro_precision": 0.9422222222222222,
	"eval_micro_recall": 0.9422222222222222,
	"eval_runtime": 3.9083,
	"eval_samples_per_second": 385.848,
	"eval_steps_per_second": 12.282,
	"eval_weighted_f1": 0.9418427294289362,
	"eval_weighted_precision": 0.9445925925925925,
	"eval_weighted_recall": 0.9422222222222222,
	"step": 1060
	},
	{
	"epoch": 5.66,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0804,
	"step": 1200
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.96,
	"eval_jaccard": 0.9233056148355289,
	"eval_loss": 0.6428035497665405,
	"eval_macro_f1": 0.9596814335490294,
	"eval_macro_precision": 0.9580624702711273,
	"eval_macro_recall": 0.9632034632034632,
	"eval_micro_f1": 0.96,
	"eval_micro_precision": 0.96,
	"eval_micro_recall": 0.96,
	"eval_runtime": 3.9157,
	"eval_samples_per_second": 385.112,
	"eval_steps_per_second": 12.258,
	"eval_weighted_f1": 0.9601114982578397,
	"eval_weighted_precision": 0.9620865704772475,
	"eval_weighted_recall": 0.96,
	"step": 1272
	},
	{
	"epoch": 6.6,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0179,
	"step": 1400
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9555555555555556,
	"eval_jaccard": 0.9148573109738158,
	"eval_loss": 0.630973756313324,
	"eval_macro_f1": 0.9548047565482886,
	"eval_macro_precision": 0.9559439432989691,
	"eval_macro_recall": 0.9538239538239539,
	"eval_micro_f1": 0.9555555555555556,
	"eval_micro_precision": 0.9555555555555556,
	"eval_micro_recall": 0.9555555555555556,
	"eval_runtime": 3.9129,
	"eval_samples_per_second": 385.393,
	"eval_steps_per_second": 12.267,
	"eval_weighted_f1": 0.9555037763136751,
	"eval_weighted_precision": 0.9556056701030928,
	"eval_weighted_recall": 0.9555555555555556,
	"step": 1484
	},
	{
	"epoch": 7.55,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0454,
	"step": 1600
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9644444444444444,
	"eval_jaccard": 0.9312917227959886,
	"eval_loss": 0.5245578289031982,
	"eval_macro_f1": 0.9638438052386309,
	"eval_macro_precision": 0.9650048324742269,
	"eval_macro_recall": 0.9628427128427128,
	"eval_micro_f1": 0.9644444444444444,
	"eval_micro_precision": 0.9644444444444444,
	"eval_micro_recall": 0.9644444444444444,
	"eval_runtime": 3.9143,
	"eval_samples_per_second": 385.257,
	"eval_steps_per_second": 12.263,
	"eval_weighted_f1": 0.9644030210509401,
	"eval_weighted_precision": 0.9645167525773195,
	"eval_weighted_recall": 0.9644444444444444,
	"step": 1696
	},
	{
	"epoch": 8.49,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0276,
	"step": 1800
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9511111111111111,
	"eval_jaccard": 0.9064495782911624,
	"eval_loss": 0.645963728427887,
	"eval_macro_f1": 0.9499686672461541,
	"eval_macro_precision": 0.9552958483164433,
	"eval_macro_recall": 0.9466089466089466,
	"eval_micro_f1": 0.9511111111111111,
	"eval_micro_precision": 0.9511111111111111,
	"eval_micro_recall": 0.9511111111111111,
	"eval_runtime": 3.8963,
	"eval_samples_per_second": 387.03,
	"eval_steps_per_second": 12.319,
	"eval_weighted_f1": 0.9508759020800905,
	"eval_weighted_precision": 0.9525400457665903,
	"eval_weighted_recall": 0.9511111111111111,
	"step": 1908
	},
	{
	"epoch": 9.43,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0244,
	"step": 2000
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9688888888888889,
	"eval_jaccard": 0.9395812863729122,
	"eval_loss": 0.5576620697975159,
	"eval_macro_f1": 0.9683257918552036,
	"eval_macro_precision": 0.970203488372093,
	"eval_macro_recall": 0.9668109668109668,
	"eval_micro_f1": 0.9688888888888889,
	"eval_micro_precision": 0.9688888888888889,
	"eval_micro_recall": 0.9688888888888889,
	"eval_runtime": 3.8888,
	"eval_samples_per_second": 387.781,
	"eval_steps_per_second": 12.343,
	"eval_weighted_f1": 0.9688325791855203,
	"eval_weighted_precision": 0.9691279069767442,
	"eval_weighted_recall": 0.9688888888888889,
	"step": 2120
	},
	{
	"epoch": 10.38,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0144,
	"step": 2200
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9688888888888889,
	"eval_jaccard": 0.9397094904794161,
	"eval_loss": 0.6369400024414062,
	"eval_macro_f1": 0.9684678371939377,
	"eval_macro_precision": 0.968,
	"eval_macro_recall": 0.968975468975469,
	"eval_micro_f1": 0.9688888888888889,
	"eval_micro_precision": 0.9688888888888889,
	"eval_micro_recall": 0.9688888888888889,
	"eval_runtime": 3.8878,
	"eval_samples_per_second": 387.876,
	"eval_steps_per_second": 12.346,
	"eval_weighted_f1": 0.9689050831848484,
	"eval_weighted_precision": 0.9689599999999999,
	"eval_weighted_recall": 0.9688888888888889,
	"step": 2332
	},
	{
	"epoch": 11.32,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0113,
	"step": 2400
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.9688888888888889,
	"eval_jaccard": 0.9395812863729122,
	"eval_loss": 0.6348240971565247,
	"eval_macro_f1": 0.9683257918552036,
	"eval_macro_precision": 0.970203488372093,
	"eval_macro_recall": 0.9668109668109668,
	"eval_micro_f1": 0.9688888888888889,
	"eval_micro_precision": 0.9688888888888889,
	"eval_micro_recall": 0.9688888888888889,
	"eval_runtime": 3.8915,
	"eval_samples_per_second": 387.511,
	"eval_steps_per_second": 12.335,
	"eval_weighted_f1": 0.9688325791855203,
	"eval_weighted_precision": 0.9691279069767442,
	"eval_weighted_recall": 0.9688888888888889,
	"step": 2544
	},
	{
	"epoch": 12.26,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.017,
	"step": 2600
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9333333333333333,
	"eval_jaccard": 0.8737588652482269,
	"eval_loss": 0.6715770363807678,
	"eval_macro_f1": 0.9309265058021734,
	"eval_macro_precision": 0.9468085106382979,
	"eval_macro_recall": 0.9242424242424243,
	"eval_micro_f1": 0.9333333333333333,
	"eval_micro_precision": 0.9333333333333333,
	"eval_micro_recall": 0.9333333333333333,
	"eval_runtime": 3.8914,
	"eval_samples_per_second": 387.517,
	"eval_steps_per_second": 12.335,
	"eval_weighted_f1": 0.9324737520722048,
	"eval_weighted_precision": 0.9404255319148935,
	"eval_weighted_recall": 0.9333333333333333,
	"step": 2756
	},
	{
	"epoch": 13.21,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0162,
	"step": 2800
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9555555555555556,
	"eval_jaccard": 0.9146445987882369,
	"eval_loss": 0.6302870512008667,
	"eval_macro_f1": 0.954578488372093,
	"eval_macro_precision": 0.9589442815249267,
	"eval_macro_recall": 0.9516594516594516,
	"eval_micro_f1": 0.9555555555555556,
	"eval_micro_precision": 0.9555555555555556,
	"eval_micro_recall": 0.9555555555555556,
	"eval_runtime": 3.8937,
	"eval_samples_per_second": 387.288,
	"eval_steps_per_second": 12.327,
	"eval_weighted_f1": 0.9553779069767442,
	"eval_weighted_precision": 0.9565982404692083,
	"eval_weighted_recall": 0.9555555555555556,
	"step": 2968
	},
	{
	"epoch": 14.15,
	"learning_rate": 2.7172184226965135e-05,
	"loss": 0.0134,
	"step": 3000
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9822222222222222,
	"eval_jaccard": 0.964991452991453,
	"eval_loss": 0.6276100277900696,
	"eval_macro_f1": 0.9818782216494845,
	"eval_macro_precision": 0.9846153846153847,
	"eval_macro_recall": 0.9797979797979798,
	"eval_micro_f1": 0.9822222222222222,
	"eval_micro_precision": 0.9822222222222222,
	"eval_micro_recall": 0.9822222222222222,
	"eval_runtime": 3.8919,
	"eval_samples_per_second": 387.474,
	"eval_steps_per_second": 12.333,
	"eval_weighted_f1": 0.9821778350515463,
	"eval_weighted_precision": 0.9827692307692307,
	"eval_weighted_recall": 0.9822222222222222,
	"step": 3180
	}
	],
	"max_steps": 4240,
	"num_train_epochs": 20,
	"total_flos": 4.724653668328427e+16,
	"trial_name": null,
	"trial_params": {
	"attention_probs_dropout_prob": 0.12254664017551167,
	"gradient_accumulation_steps": 4,
	"hidden_dropout_prob": 0.09767216663102402,
	"learning_rate": 2.7172184226965135e-05,
	"lr_scheduler_type": "constant",
	"num_train_epochs": 20,
	"per_device_train_batch_size": 16,
	"weight_decay": 0.004770259527907836
	}
	}