MFT-mBERT / trainer_state.json

Upload 10 files

711f7fa verified 5 months ago

18.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 30.0,
	"eval_steps": 500,
	"global_step": 8520,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 0.5455477237701416,
	"learning_rate": 4.8333333333333334e-05,
	"loss": 0.4048,
	"step": 284
	},
	{
	"epoch": 1.0,
	"eval_srl_loss": 0.21862658858299255,
	"eval_srl_runtime": 17.5334,
	"eval_srl_samples_per_second": 129.467,
	"eval_srl_steps_per_second": 16.198,
	"step": 284
	},
	{
	"epoch": 1.0,
	"eval_ner_loss": 0.12236960977315903,
	"eval_ner_runtime": 17.5432,
	"eval_ner_samples_per_second": 129.395,
	"eval_ner_steps_per_second": 16.189,
	"step": 284
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.0813124179840088,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.1086,
	"step": 568
	},
	{
	"epoch": 2.0,
	"eval_srl_loss": 0.15843605995178223,
	"eval_srl_runtime": 17.5383,
	"eval_srl_samples_per_second": 129.431,
	"eval_srl_steps_per_second": 16.193,
	"step": 568
	},
	{
	"epoch": 2.0,
	"eval_ner_loss": 0.020286982879042625,
	"eval_ner_runtime": 17.5444,
	"eval_ner_samples_per_second": 129.386,
	"eval_ner_steps_per_second": 16.188,
	"step": 568
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.0206300020217896,
	"learning_rate": 4.5e-05,
	"loss": 0.0721,
	"step": 852
	},
	{
	"epoch": 3.0,
	"eval_srl_loss": 0.115463025867939,
	"eval_srl_runtime": 17.55,
	"eval_srl_samples_per_second": 129.345,
	"eval_srl_steps_per_second": 16.182,
	"step": 852
	},
	{
	"epoch": 3.0,
	"eval_ner_loss": 0.012386705726385117,
	"eval_ner_runtime": 17.5609,
	"eval_ner_samples_per_second": 129.264,
	"eval_ner_steps_per_second": 16.172,
	"step": 852
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.18648108839988708,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.0537,
	"step": 1136
	},
	{
	"epoch": 4.0,
	"eval_srl_loss": 0.08971945941448212,
	"eval_srl_runtime": 17.5456,
	"eval_srl_samples_per_second": 129.377,
	"eval_srl_steps_per_second": 16.186,
	"step": 1136
	},
	{
	"epoch": 4.0,
	"eval_ner_loss": 0.005814700853079557,
	"eval_ner_runtime": 17.5524,
	"eval_ner_samples_per_second": 129.327,
	"eval_ner_steps_per_second": 16.18,
	"step": 1136
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.4305367469787598,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.0426,
	"step": 1420
	},
	{
	"epoch": 5.0,
	"eval_srl_loss": 0.06870203465223312,
	"eval_srl_runtime": 17.536,
	"eval_srl_samples_per_second": 129.448,
	"eval_srl_steps_per_second": 16.195,
	"step": 1420
	},
	{
	"epoch": 5.0,
	"eval_ner_loss": 0.004500186070799828,
	"eval_ner_runtime": 17.5488,
	"eval_ner_samples_per_second": 129.353,
	"eval_ner_steps_per_second": 16.183,
	"step": 1420
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.16283409297466278,
	"learning_rate": 4e-05,
	"loss": 0.0339,
	"step": 1704
	},
	{
	"epoch": 6.0,
	"eval_srl_loss": 0.052619677037000656,
	"eval_srl_runtime": 17.5537,
	"eval_srl_samples_per_second": 129.317,
	"eval_srl_steps_per_second": 16.179,
	"step": 1704
	},
	{
	"epoch": 6.0,
	"eval_ner_loss": 0.0033325471449643373,
	"eval_ner_runtime": 17.574,
	"eval_ner_samples_per_second": 129.168,
	"eval_ner_steps_per_second": 16.16,
	"step": 1704
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.07186176627874374,
	"learning_rate": 3.8333333333333334e-05,
	"loss": 0.0275,
	"step": 1988
	},
	{
	"epoch": 7.0,
	"eval_srl_loss": 0.0378902293741703,
	"eval_srl_runtime": 17.5438,
	"eval_srl_samples_per_second": 129.391,
	"eval_srl_steps_per_second": 16.188,
	"step": 1988
	},
	{
	"epoch": 7.0,
	"eval_ner_loss": 0.0033688645344227552,
	"eval_ner_runtime": 17.5486,
	"eval_ner_samples_per_second": 129.355,
	"eval_ner_steps_per_second": 16.184,
	"step": 1988
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.3217866122722626,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.0227,
	"step": 2272
	},
	{
	"epoch": 8.0,
	"eval_srl_loss": 0.03359847143292427,
	"eval_srl_runtime": 17.5486,
	"eval_srl_samples_per_second": 129.355,
	"eval_srl_steps_per_second": 16.184,
	"step": 2272
	},
	{
	"epoch": 8.0,
	"eval_ner_loss": 0.003445760579779744,
	"eval_ner_runtime": 17.5536,
	"eval_ner_samples_per_second": 129.318,
	"eval_ner_steps_per_second": 16.179,
	"step": 2272
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.697796642780304,
	"learning_rate": 3.5e-05,
	"loss": 0.0192,
	"step": 2556
	},
	{
	"epoch": 9.0,
	"eval_srl_loss": 0.02817477658390999,
	"eval_srl_runtime": 17.5377,
	"eval_srl_samples_per_second": 129.435,
	"eval_srl_steps_per_second": 16.194,
	"step": 2556
	},
	{
	"epoch": 9.0,
	"eval_ner_loss": 0.0022896770387887955,
	"eval_ner_runtime": 17.5429,
	"eval_ner_samples_per_second": 129.397,
	"eval_ner_steps_per_second": 16.189,
	"step": 2556
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.3553692698478699,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.0158,
	"step": 2840
	},
	{
	"epoch": 10.0,
	"eval_srl_loss": 0.02144758589565754,
	"eval_srl_runtime": 17.5443,
	"eval_srl_samples_per_second": 129.387,
	"eval_srl_steps_per_second": 16.188,
	"step": 2840
	},
	{
	"epoch": 10.0,
	"eval_ner_loss": 0.0018517740536481142,
	"eval_ner_runtime": 17.554,
	"eval_ner_samples_per_second": 129.316,
	"eval_ner_steps_per_second": 16.179,
	"step": 2840
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.35990962386131287,
	"learning_rate": 3.1666666666666666e-05,
	"loss": 0.013,
	"step": 3124
	},
	{
	"epoch": 11.0,
	"eval_srl_loss": 0.018339334055781364,
	"eval_srl_runtime": 17.5523,
	"eval_srl_samples_per_second": 129.327,
	"eval_srl_steps_per_second": 16.18,
	"step": 3124
	},
	{
	"epoch": 11.0,
	"eval_ner_loss": 0.001874973881058395,
	"eval_ner_runtime": 17.5544,
	"eval_ner_samples_per_second": 129.313,
	"eval_ner_steps_per_second": 16.178,
	"step": 3124
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.5990183353424072,
	"learning_rate": 3e-05,
	"loss": 0.0105,
	"step": 3408
	},
	{
	"epoch": 12.0,
	"eval_srl_loss": 0.013035450130701065,
	"eval_srl_runtime": 17.5468,
	"eval_srl_samples_per_second": 129.368,
	"eval_srl_steps_per_second": 16.185,
	"step": 3408
	},
	{
	"epoch": 12.0,
	"eval_ner_loss": 0.0015207786345854402,
	"eval_ner_runtime": 17.562,
	"eval_ner_samples_per_second": 129.257,
	"eval_ner_steps_per_second": 16.171,
	"step": 3408
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.9393383264541626,
	"learning_rate": 2.8333333333333335e-05,
	"loss": 0.0093,
	"step": 3692
	},
	{
	"epoch": 13.0,
	"eval_srl_loss": 0.010261264629662037,
	"eval_srl_runtime": 17.5461,
	"eval_srl_samples_per_second": 129.373,
	"eval_srl_steps_per_second": 16.186,
	"step": 3692
	},
	{
	"epoch": 13.0,
	"eval_ner_loss": 0.0013053927104920149,
	"eval_ner_runtime": 17.5578,
	"eval_ner_samples_per_second": 129.287,
	"eval_ner_steps_per_second": 16.175,
	"step": 3692
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.442676305770874,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.0079,
	"step": 3976
	},
	{
	"epoch": 14.0,
	"eval_srl_loss": 0.009250137023627758,
	"eval_srl_runtime": 17.548,
	"eval_srl_samples_per_second": 129.359,
	"eval_srl_steps_per_second": 16.184,
	"step": 3976
	},
	{
	"epoch": 14.0,
	"eval_ner_loss": 0.0014766417443752289,
	"eval_ner_runtime": 17.5576,
	"eval_ner_samples_per_second": 129.288,
	"eval_ner_steps_per_second": 16.175,
	"step": 3976
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.3012068569660187,
	"learning_rate": 2.5e-05,
	"loss": 0.0066,
	"step": 4260
	},
	{
	"epoch": 15.0,
	"eval_srl_loss": 0.008085786364972591,
	"eval_srl_runtime": 17.5552,
	"eval_srl_samples_per_second": 129.306,
	"eval_srl_steps_per_second": 16.178,
	"step": 4260
	},
	{
	"epoch": 15.0,
	"eval_ner_loss": 0.0010674420045688748,
	"eval_ner_runtime": 17.5619,
	"eval_ner_samples_per_second": 129.257,
	"eval_ner_steps_per_second": 16.171,
	"step": 4260
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.19097836315631866,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.0056,
	"step": 4544
	},
	{
	"epoch": 16.0,
	"eval_srl_loss": 0.006198651157319546,
	"eval_srl_runtime": 17.5404,
	"eval_srl_samples_per_second": 129.416,
	"eval_srl_steps_per_second": 16.191,
	"step": 4544
	},
	{
	"epoch": 16.0,
	"eval_ner_loss": 0.0009344189311377704,
	"eval_ner_runtime": 17.5502,
	"eval_ner_samples_per_second": 129.343,
	"eval_ner_steps_per_second": 16.182,
	"step": 4544
	},
	{
	"epoch": 17.0,
	"grad_norm": 0.15881049633026123,
	"learning_rate": 2.1666666666666667e-05,
	"loss": 0.0052,
	"step": 4828
	},
	{
	"epoch": 17.0,
	"eval_srl_loss": 0.00588291697204113,
	"eval_srl_runtime": 17.5504,
	"eval_srl_samples_per_second": 129.342,
	"eval_srl_steps_per_second": 16.182,
	"step": 4828
	},
	{
	"epoch": 17.0,
	"eval_ner_loss": 0.0009248966816812754,
	"eval_ner_runtime": 17.555,
	"eval_ner_samples_per_second": 129.308,
	"eval_ner_steps_per_second": 16.178,
	"step": 4828
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.054942790418863297,
	"learning_rate": 2e-05,
	"loss": 0.0045,
	"step": 5112
	},
	{
	"epoch": 18.0,
	"eval_srl_loss": 0.005140448454767466,
	"eval_srl_runtime": 17.5307,
	"eval_srl_samples_per_second": 129.487,
	"eval_srl_steps_per_second": 16.2,
	"step": 5112
	},
	{
	"epoch": 18.0,
	"eval_ner_loss": 0.0009396191453561187,
	"eval_ner_runtime": 17.532,
	"eval_ner_samples_per_second": 129.477,
	"eval_ner_steps_per_second": 16.199,
	"step": 5112
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.02979622595012188,
	"learning_rate": 1.8333333333333333e-05,
	"loss": 0.0038,
	"step": 5396
	},
	{
	"epoch": 19.0,
	"eval_srl_loss": 0.005267995875328779,
	"eval_srl_runtime": 17.5559,
	"eval_srl_samples_per_second": 129.301,
	"eval_srl_steps_per_second": 16.177,
	"step": 5396
	},
	{
	"epoch": 19.0,
	"eval_ner_loss": 0.0010794103145599365,
	"eval_ner_runtime": 17.5581,
	"eval_ner_samples_per_second": 129.285,
	"eval_ner_steps_per_second": 16.175,
	"step": 5396
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.34328535199165344,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.0036,
	"step": 5680
	},
	{
	"epoch": 20.0,
	"eval_srl_loss": 0.005443137139081955,
	"eval_srl_runtime": 17.5496,
	"eval_srl_samples_per_second": 129.348,
	"eval_srl_steps_per_second": 16.183,
	"step": 5680
	},
	{
	"epoch": 20.0,
	"eval_ner_loss": 0.0007795258425176144,
	"eval_ner_runtime": 17.557,
	"eval_ner_samples_per_second": 129.293,
	"eval_ner_steps_per_second": 16.176,
	"step": 5680
	},
	{
	"epoch": 21.0,
	"grad_norm": 0.2540510594844818,
	"learning_rate": 1.5e-05,
	"loss": 0.0032,
	"step": 5964
	},
	{
	"epoch": 21.0,
	"eval_srl_loss": 0.00396768469363451,
	"eval_srl_runtime": 17.5412,
	"eval_srl_samples_per_second": 129.41,
	"eval_srl_steps_per_second": 16.19,
	"step": 5964
	},
	{
	"epoch": 21.0,
	"eval_ner_loss": 0.0007386294892057776,
	"eval_ner_runtime": 17.5472,
	"eval_ner_samples_per_second": 129.365,
	"eval_ner_steps_per_second": 16.185,
	"step": 5964
	},
	{
	"epoch": 22.0,
	"grad_norm": 0.1889248788356781,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.0029,
	"step": 6248
	},
	{
	"epoch": 22.0,
	"eval_srl_loss": 0.004316597245633602,
	"eval_srl_runtime": 17.5421,
	"eval_srl_samples_per_second": 129.403,
	"eval_srl_steps_per_second": 16.19,
	"step": 6248
	},
	{
	"epoch": 22.0,
	"eval_ner_loss": 0.0006567554082721472,
	"eval_ner_runtime": 17.5545,
	"eval_ner_samples_per_second": 129.311,
	"eval_ner_steps_per_second": 16.178,
	"step": 6248
	},
	{
	"epoch": 23.0,
	"grad_norm": 0.13729548454284668,
	"learning_rate": 1.1666666666666668e-05,
	"loss": 0.0028,
	"step": 6532
	},
	{
	"epoch": 23.0,
	"eval_srl_loss": 0.0036644088104367256,
	"eval_srl_runtime": 17.5517,
	"eval_srl_samples_per_second": 129.332,
	"eval_srl_steps_per_second": 16.181,
	"step": 6532
	},
	{
	"epoch": 23.0,
	"eval_ner_loss": 0.0006873765378259122,
	"eval_ner_runtime": 17.5531,
	"eval_ner_samples_per_second": 129.322,
	"eval_ner_steps_per_second": 16.179,
	"step": 6532
	},
	{
	"epoch": 24.0,
	"grad_norm": 0.21299496293067932,
	"learning_rate": 1e-05,
	"loss": 0.0023,
	"step": 6816
	},
	{
	"epoch": 24.0,
	"eval_srl_loss": 0.0038258766289800406,
	"eval_srl_runtime": 17.5464,
	"eval_srl_samples_per_second": 129.371,
	"eval_srl_steps_per_second": 16.186,
	"step": 6816
	},
	{
	"epoch": 24.0,
	"eval_ner_loss": 0.0005753676523454487,
	"eval_ner_runtime": 17.5627,
	"eval_ner_samples_per_second": 129.251,
	"eval_ner_steps_per_second": 16.171,
	"step": 6816
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.4840211272239685,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.0022,
	"step": 7100
	},
	{
	"epoch": 25.0,
	"eval_srl_loss": 0.0032577498350292444,
	"eval_srl_runtime": 17.5469,
	"eval_srl_samples_per_second": 129.368,
	"eval_srl_steps_per_second": 16.185,
	"step": 7100
	},
	{
	"epoch": 25.0,
	"eval_ner_loss": 0.0005282628699205816,
	"eval_ner_runtime": 17.5557,
	"eval_ner_samples_per_second": 129.303,
	"eval_ner_steps_per_second": 16.177,
	"step": 7100
	},
	{
	"epoch": 26.0,
	"grad_norm": 0.1340308040380478,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.002,
	"step": 7384
	},
	{
	"epoch": 26.0,
	"eval_srl_loss": 0.0033599596936255693,
	"eval_srl_runtime": 17.5361,
	"eval_srl_samples_per_second": 129.447,
	"eval_srl_steps_per_second": 16.195,
	"step": 7384
	},
	{
	"epoch": 26.0,
	"eval_ner_loss": 0.0004921465297229588,
	"eval_ner_runtime": 17.5484,
	"eval_ner_samples_per_second": 129.356,
	"eval_ner_steps_per_second": 16.184,
	"step": 7384
	},
	{
	"epoch": 27.0,
	"grad_norm": 0.1986730843782425,
	"learning_rate": 5e-06,
	"loss": 0.0019,
	"step": 7668
	},
	{
	"epoch": 27.0,
	"eval_srl_loss": 0.003047993639484048,
	"eval_srl_runtime": 17.5511,
	"eval_srl_samples_per_second": 129.337,
	"eval_srl_steps_per_second": 16.181,
	"step": 7668
	},
	{
	"epoch": 27.0,
	"eval_ner_loss": 0.0004909657291136682,
	"eval_ner_runtime": 17.5556,
	"eval_ner_samples_per_second": 129.303,
	"eval_ner_steps_per_second": 16.177,
	"step": 7668
	},
	{
	"epoch": 28.0,
	"grad_norm": 0.27138885855674744,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.0018,
	"step": 7952
	},
	{
	"epoch": 28.0,
	"eval_srl_loss": 0.002978708129376173,
	"eval_srl_runtime": 17.5413,
	"eval_srl_samples_per_second": 129.409,
	"eval_srl_steps_per_second": 16.19,
	"step": 7952
	},
	{
	"epoch": 28.0,
	"eval_ner_loss": 0.00047884471132420003,
	"eval_ner_runtime": 17.5561,
	"eval_ner_samples_per_second": 129.3,
	"eval_ner_steps_per_second": 16.177,
	"step": 7952
	},
	{
	"epoch": 29.0,
	"grad_norm": 0.20234395563602448,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.0017,
	"step": 8236
	},
	{
	"epoch": 29.0,
	"eval_srl_loss": 0.0029575293883681297,
	"eval_srl_runtime": 17.5499,
	"eval_srl_samples_per_second": 129.346,
	"eval_srl_steps_per_second": 16.182,
	"step": 8236
	},
	{
	"epoch": 29.0,
	"eval_ner_loss": 0.00046766019659116864,
	"eval_ner_runtime": 17.5592,
	"eval_ner_samples_per_second": 129.277,
	"eval_ner_steps_per_second": 16.174,
	"step": 8236
	},
	{
	"epoch": 30.0,
	"grad_norm": 0.014138607308268547,
	"learning_rate": 0.0,
	"loss": 0.0016,
	"step": 8520
	},
	{
	"epoch": 30.0,
	"eval_srl_loss": 0.0029636274557560682,
	"eval_srl_runtime": 17.5359,
	"eval_srl_samples_per_second": 129.448,
	"eval_srl_steps_per_second": 16.195,
	"step": 8520
	},
	{
	"epoch": 30.0,
	"eval_ner_loss": 0.0004607184964697808,
	"eval_ner_runtime": 17.5477,
	"eval_ner_samples_per_second": 129.362,
	"eval_ner_steps_per_second": 16.184,
	"step": 8520
	}
	],
	"logging_steps": 500,
	"max_steps": 8520,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 30,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.58531004841984e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}