Abstractive-Style-Summarizer / trainer_state.json

Upload 11 files

0be4fba verified 25 days ago

13.5 kB

	{
	"best_global_step": 6000,
	"best_metric": 0.7824317216873169,
	"best_model_checkpoint": "results\\checkpoint-6000",
	"epoch": 5.0,
	"eval_steps": 1000,
	"global_step": 6000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 1.8858007192611694,
	"learning_rate": 0.000165,
	"loss": 23.215,
	"step": 100
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.17990389466285706,
	"learning_rate": 0.0003316666666666667,
	"loss": 2.1264,
	"step": 200
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.162213996052742,
	"learning_rate": 0.0004983333333333334,
	"loss": 0.9398,
	"step": 300
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.15034538507461548,
	"learning_rate": 0.0004913157894736842,
	"loss": 0.9165,
	"step": 400
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.1454722136259079,
	"learning_rate": 0.0004825438596491228,
	"loss": 0.8424,
	"step": 500
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.12470711767673492,
	"learning_rate": 0.0004737719298245614,
	"loss": 0.8874,
	"step": 600
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.09494169801473618,
	"learning_rate": 0.000465,
	"loss": 0.8784,
	"step": 700
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.1456226408481598,
	"learning_rate": 0.0004562280701754386,
	"loss": 0.8622,
	"step": 800
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1623910665512085,
	"learning_rate": 0.00044745614035087723,
	"loss": 0.9006,
	"step": 900
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.13629059493541718,
	"learning_rate": 0.0004386842105263158,
	"loss": 0.8702,
	"step": 1000
	},
	{
	"epoch": 0.8333333333333334,
	"eval_loss": 0.7877687811851501,
	"eval_rouge1": 0.382,
	"eval_rouge2": 0.1541,
	"eval_rougeL": 0.2714,
	"eval_rougeLsum": 0.2715,
	"eval_runtime": 1349.6776,
	"eval_samples_per_second": 0.889,
	"eval_steps_per_second": 0.222,
	"step": 1000
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.14377427101135254,
	"learning_rate": 0.00042991228070175444,
	"loss": 0.9231,
	"step": 1100
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.1454974114894867,
	"learning_rate": 0.000421140350877193,
	"loss": 0.8752,
	"step": 1200
	},
	{
	"epoch": 1.0833333333333333,
	"grad_norm": 0.14425410330295563,
	"learning_rate": 0.0004123684210526316,
	"loss": 0.8895,
	"step": 1300
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.09587734937667847,
	"learning_rate": 0.0004035964912280702,
	"loss": 0.837,
	"step": 1400
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.13110461831092834,
	"learning_rate": 0.00039482456140350875,
	"loss": 0.8488,
	"step": 1500
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.1459980010986328,
	"learning_rate": 0.00038605263157894735,
	"loss": 0.8795,
	"step": 1600
	},
	{
	"epoch": 1.4166666666666667,
	"grad_norm": 0.09983498603105545,
	"learning_rate": 0.00037728070175438596,
	"loss": 0.8449,
	"step": 1700
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.13172173500061035,
	"learning_rate": 0.00036850877192982456,
	"loss": 0.8977,
	"step": 1800
	},
	{
	"epoch": 1.5833333333333335,
	"grad_norm": 0.10697636008262634,
	"learning_rate": 0.00035973684210526317,
	"loss": 0.9018,
	"step": 1900
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.15373478829860687,
	"learning_rate": 0.00035096491228070177,
	"loss": 0.8847,
	"step": 2000
	},
	{
	"epoch": 1.6666666666666665,
	"eval_loss": 0.7850176095962524,
	"eval_rouge1": 0.3881,
	"eval_rouge2": 0.1563,
	"eval_rougeL": 0.2745,
	"eval_rougeLsum": 0.2746,
	"eval_runtime": 1411.9277,
	"eval_samples_per_second": 0.85,
	"eval_steps_per_second": 0.212,
	"step": 2000
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.14189960062503815,
	"learning_rate": 0.0003421929824561403,
	"loss": 0.8162,
	"step": 2100
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.11188172549009323,
	"learning_rate": 0.000333421052631579,
	"loss": 0.8098,
	"step": 2200
	},
	{
	"epoch": 1.9166666666666665,
	"grad_norm": 0.12888970971107483,
	"learning_rate": 0.0003246491228070175,
	"loss": 0.914,
	"step": 2300
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.15828001499176025,
	"learning_rate": 0.00031587719298245613,
	"loss": 0.8815,
	"step": 2400
	},
	{
	"epoch": 2.0833333333333335,
	"grad_norm": 0.12439479678869247,
	"learning_rate": 0.00030710526315789473,
	"loss": 0.8685,
	"step": 2500
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.12364527583122253,
	"learning_rate": 0.00029833333333333334,
	"loss": 0.8185,
	"step": 2600
	},
	{
	"epoch": 2.25,
	"grad_norm": 7.694972038269043,
	"learning_rate": 0.0002895614035087719,
	"loss": 0.8721,
	"step": 2700
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.17389440536499023,
	"learning_rate": 0.00028078947368421055,
	"loss": 0.9235,
	"step": 2800
	},
	{
	"epoch": 2.4166666666666665,
	"grad_norm": 0.13395565748214722,
	"learning_rate": 0.0002720175438596491,
	"loss": 0.8668,
	"step": 2900
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.11639299243688583,
	"learning_rate": 0.00026324561403508775,
	"loss": 0.8637,
	"step": 3000
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.7873790860176086,
	"eval_rouge1": 0.3909,
	"eval_rouge2": 0.1587,
	"eval_rougeL": 0.2753,
	"eval_rougeLsum": 0.2752,
	"eval_runtime": 1346.5604,
	"eval_samples_per_second": 0.891,
	"eval_steps_per_second": 0.223,
	"step": 3000
	},
	{
	"epoch": 2.5833333333333335,
	"grad_norm": 0.2207750380039215,
	"learning_rate": 0.0002544736842105263,
	"loss": 0.8495,
	"step": 3100
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.14125679433345795,
	"learning_rate": 0.0002457017543859649,
	"loss": 0.8236,
	"step": 3200
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.16702750325202942,
	"learning_rate": 0.0002369298245614035,
	"loss": 0.8369,
	"step": 3300
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.17848503589630127,
	"learning_rate": 0.00022815789473684212,
	"loss": 0.8555,
	"step": 3400
	},
	{
	"epoch": 2.9166666666666665,
	"grad_norm": 0.17648929357528687,
	"learning_rate": 0.00021938596491228072,
	"loss": 0.8519,
	"step": 3500
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.1409672498703003,
	"learning_rate": 0.00021061403508771932,
	"loss": 0.9162,
	"step": 3600
	},
	{
	"epoch": 3.0833333333333335,
	"grad_norm": 0.18376924097537994,
	"learning_rate": 0.0002018421052631579,
	"loss": 0.8468,
	"step": 3700
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 0.20083250105381012,
	"learning_rate": 0.0001930701754385965,
	"loss": 0.8802,
	"step": 3800
	},
	{
	"epoch": 3.25,
	"grad_norm": 0.18047745525836945,
	"learning_rate": 0.0001842982456140351,
	"loss": 0.8162,
	"step": 3900
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 0.16132934391498566,
	"learning_rate": 0.0001755263157894737,
	"loss": 0.8417,
	"step": 4000
	},
	{
	"epoch": 3.3333333333333335,
	"eval_loss": 0.7860187888145447,
	"eval_rouge1": 0.392,
	"eval_rouge2": 0.1608,
	"eval_rougeL": 0.2756,
	"eval_rougeLsum": 0.2756,
	"eval_runtime": 1399.5278,
	"eval_samples_per_second": 0.857,
	"eval_steps_per_second": 0.214,
	"step": 4000
	},
	{
	"epoch": 3.4166666666666665,
	"grad_norm": 0.2105809897184372,
	"learning_rate": 0.0001667543859649123,
	"loss": 0.8855,
	"step": 4100
	},
	{
	"epoch": 3.5,
	"grad_norm": 0.18433880805969238,
	"learning_rate": 0.0001579824561403509,
	"loss": 0.8405,
	"step": 4200
	},
	{
	"epoch": 3.5833333333333335,
	"grad_norm": 0.13414153456687927,
	"learning_rate": 0.00014921052631578947,
	"loss": 0.8356,
	"step": 4300
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 0.12219959497451782,
	"learning_rate": 0.00014043859649122805,
	"loss": 0.8142,
	"step": 4400
	},
	{
	"epoch": 3.75,
	"grad_norm": 0.15552708506584167,
	"learning_rate": 0.00013166666666666665,
	"loss": 0.8198,
	"step": 4500
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 0.15773844718933105,
	"learning_rate": 0.00012289473684210525,
	"loss": 0.8432,
	"step": 4600
	},
	{
	"epoch": 3.9166666666666665,
	"grad_norm": 0.19309180974960327,
	"learning_rate": 0.00011412280701754386,
	"loss": 0.8577,
	"step": 4700
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.14865143597126007,
	"learning_rate": 0.00010535087719298246,
	"loss": 0.8575,
	"step": 4800
	},
	{
	"epoch": 4.083333333333333,
	"grad_norm": 0.15284916758537292,
	"learning_rate": 9.657894736842105e-05,
	"loss": 0.8227,
	"step": 4900
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 0.22305266559123993,
	"learning_rate": 8.780701754385966e-05,
	"loss": 0.833,
	"step": 5000
	},
	{
	"epoch": 4.166666666666667,
	"eval_loss": 0.7827907204627991,
	"eval_rouge1": 0.391,
	"eval_rouge2": 0.1599,
	"eval_rougeL": 0.2764,
	"eval_rougeLsum": 0.2764,
	"eval_runtime": 1349.7759,
	"eval_samples_per_second": 0.889,
	"eval_steps_per_second": 0.222,
	"step": 5000
	},
	{
	"epoch": 4.25,
	"grad_norm": 0.21298357844352722,
	"learning_rate": 7.903508771929825e-05,
	"loss": 0.8483,
	"step": 5100
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 0.19737210869789124,
	"learning_rate": 7.026315789473685e-05,
	"loss": 0.7888,
	"step": 5200
	},
	{
	"epoch": 4.416666666666667,
	"grad_norm": 0.21889951825141907,
	"learning_rate": 6.149122807017544e-05,
	"loss": 0.8418,
	"step": 5300
	},
	{
	"epoch": 4.5,
	"grad_norm": 0.13705947995185852,
	"learning_rate": 5.271929824561403e-05,
	"loss": 0.8639,
	"step": 5400
	},
	{
	"epoch": 4.583333333333333,
	"grad_norm": 0.17922119796276093,
	"learning_rate": 4.394736842105263e-05,
	"loss": 0.8368,
	"step": 5500
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.21064095199108124,
	"learning_rate": 3.5175438596491226e-05,
	"loss": 0.8273,
	"step": 5600
	},
	{
	"epoch": 4.75,
	"grad_norm": 0.17207187414169312,
	"learning_rate": 2.6403508771929826e-05,
	"loss": 0.921,
	"step": 5700
	},
	{
	"epoch": 4.833333333333333,
	"grad_norm": 0.19569571316242218,
	"learning_rate": 1.7631578947368424e-05,
	"loss": 0.7884,
	"step": 5800
	},
	{
	"epoch": 4.916666666666667,
	"grad_norm": 0.17810054123401642,
	"learning_rate": 8.859649122807017e-06,
	"loss": 0.8292,
	"step": 5900
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.19543497264385223,
	"learning_rate": 8.771929824561403e-08,
	"loss": 0.8396,
	"step": 6000
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.7824317216873169,
	"eval_rouge1": 0.3925,
	"eval_rouge2": 0.1608,
	"eval_rougeL": 0.2776,
	"eval_rougeLsum": 0.2776,
	"eval_runtime": 1367.3028,
	"eval_samples_per_second": 0.878,
	"eval_steps_per_second": 0.219,
	"step": 6000
	}
	],
	"logging_steps": 100,
	"max_steps": 6000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.3912029970432e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}