lauraha
/

esm_mhc

Model card Files Files and versions

esm_mhc / trainer_state.json

lauraha's picture

Upload 10 files

7ede829 verified over 1 year ago

history blame contribute delete

2.37 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.979856759176365,
	"eval_steps": 500,
	"global_step": 44500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.9998880931065354,
	"grad_norm": 1.9907540082931519,
	"learning_rate": 1.6001342882721576e-05,
	"loss": 0.5252,
	"step": 8935
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.3881196975708008,
	"eval_runtime": 304.5007,
	"eval_samples_per_second": 58.693,
	"eval_steps_per_second": 7.337,
	"step": 8936
	},
	{
	"epoch": 1.9997761862130707,
	"grad_norm": 1.3169994354248047,
	"learning_rate": 1.2004028648164728e-05,
	"loss": 0.3435,
	"step": 17870
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.32426688075065613,
	"eval_runtime": 734.2495,
	"eval_samples_per_second": 24.341,
	"eval_steps_per_second": 3.043,
	"step": 17872
	},
	{
	"epoch": 2.999664279319606,
	"grad_norm": 1.234189748764038,
	"learning_rate": 8.005819158460162e-06,
	"loss": 0.2993,
	"step": 26805
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.2952452301979065,
	"eval_runtime": 310.5637,
	"eval_samples_per_second": 57.547,
	"eval_steps_per_second": 7.193,
	"step": 26808
	},
	{
	"epoch": 3.9995523724261415,
	"grad_norm": 1.4175560474395752,
	"learning_rate": 4.007609668755595e-06,
	"loss": 0.2709,
	"step": 35740
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.2747509181499481,
	"eval_runtime": 785.3908,
	"eval_samples_per_second": 22.756,
	"eval_steps_per_second": 2.844,
	"step": 35744
	}
	],
	"logging_steps": 8935,
	"max_steps": 44680,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.619840752181084e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}