apwic
/

summarization-pt-2

Generated from Trainer

Model card Files Files and versions

summarization-pt-2 / trainer_state.json

apwic's picture

End of training

c7a61aa verified over 1 year ago

history blame contribute delete

3.15 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 4470,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 1.76835036277771,
	"learning_rate": 0.0008,
	"loss": 3.0441,
	"step": 894
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 1.0,
	"eval_loss": 1.9890629053115845,
	"eval_rouge1": 0.6966,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.698,
	"eval_rougeLsum": 0.6962,
	"eval_runtime": 53.7394,
	"eval_samples_per_second": 13.9,
	"eval_steps_per_second": 0.447,
	"step": 894
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.6674537658691406,
	"learning_rate": 0.0006,
	"loss": 2.4037,
	"step": 1788
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 1.0,
	"eval_loss": 1.6701865196228027,
	"eval_rouge1": 0.7078,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.7135,
	"eval_rougeLsum": 0.7146,
	"eval_runtime": 50.3382,
	"eval_samples_per_second": 14.84,
	"eval_steps_per_second": 0.477,
	"step": 1788
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.4838422536849976,
	"learning_rate": 0.0004,
	"loss": 2.1345,
	"step": 2682
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 1.0,
	"eval_loss": 1.4640010595321655,
	"eval_rouge1": 0.6592,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.66,
	"eval_rougeLsum": 0.6572,
	"eval_runtime": 51.6537,
	"eval_samples_per_second": 14.462,
	"eval_steps_per_second": 0.465,
	"step": 2682
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.5656119585037231,
	"learning_rate": 0.0002,
	"loss": 1.9436,
	"step": 3576
	},
	{
	"epoch": 4.0,
	"eval_gen_len": 1.0,
	"eval_loss": 1.3520551919937134,
	"eval_rouge1": 0.6535,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.6545,
	"eval_rougeLsum": 0.6547,
	"eval_runtime": 54.7923,
	"eval_samples_per_second": 13.633,
	"eval_steps_per_second": 0.438,
	"step": 3576
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.9242256879806519,
	"learning_rate": 0.0,
	"loss": 1.7989,
	"step": 4470
	},
	{
	"epoch": 5.0,
	"eval_gen_len": 1.0,
	"eval_loss": 1.268640398979187,
	"eval_rouge1": 0.6818,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.6864,
	"eval_rougeLsum": 0.6834,
	"eval_runtime": 51.2431,
	"eval_samples_per_second": 14.578,
	"eval_steps_per_second": 0.468,
	"step": 4470
	},
	{
	"epoch": 5.0,
	"step": 4470,
	"total_flos": 5.54115403874304e+16,
	"train_loss": 2.264926113324944,
	"train_runtime": 5745.1129,
	"train_samples_per_second": 12.437,
	"train_steps_per_second": 0.778
	}
	],
	"logging_steps": 500,
	"max_steps": 4470,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 5.54115403874304e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}