multilingual-e5-small-pii-detector / trainer_state.json

Upload 11 files

08a1d7d verified 2 months ago

4.31 kB

	{
	"best_global_step": 2964,
	"best_metric": 0.21923576295375824,
	"best_model_checkpoint": "multilingual-e5-small-pii-detector/checkpoint-2964",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 4446,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.33738191632928477,
	"grad_norm": 5.012300491333008,
	"learning_rate": 4.438821412505623e-05,
	"loss": 0.3135,
	"num_input_tokens_seen": 512000,
	"step": 500,
	"train_runtime": 14.3457,
	"train_tokens_per_second": 35690.033
	},
	{
	"epoch": 0.6747638326585695,
	"grad_norm": 0.07379312068223953,
	"learning_rate": 3.876518218623482e-05,
	"loss": 0.2333,
	"num_input_tokens_seen": 1024000,
	"step": 1000,
	"train_runtime": 28.4978,
	"train_tokens_per_second": 35932.607
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9038785834738617,
	"eval_loss": 0.25766971707344055,
	"eval_runtime": 1.7391,
	"eval_samples_per_second": 1704.926,
	"eval_steps_per_second": 213.331,
	"num_input_tokens_seen": 1517568,
	"step": 1482
	},
	{
	"epoch": 1.0121457489878543,
	"grad_norm": 1.9765552282333374,
	"learning_rate": 3.3142150247413403e-05,
	"loss": 0.2038,
	"num_input_tokens_seen": 1536000,
	"step": 1500,
	"train_runtime": 45.5628,
	"train_tokens_per_second": 33711.681
	},
	{
	"epoch": 1.349527665317139,
	"grad_norm": 0.05636508762836456,
	"learning_rate": 2.7519118308591997e-05,
	"loss": 0.1658,
	"num_input_tokens_seen": 2048000,
	"step": 2000,
	"train_runtime": 59.6595,
	"train_tokens_per_second": 34328.161
	},
	{
	"epoch": 1.686909581646424,
	"grad_norm": 1.788957118988037,
	"learning_rate": 2.1896086369770583e-05,
	"loss": 0.1719,
	"num_input_tokens_seen": 2560000,
	"step": 2500,
	"train_runtime": 73.8011,
	"train_tokens_per_second": 34687.829
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.92141652613828,
	"eval_loss": 0.21923576295375824,
	"eval_runtime": 1.7041,
	"eval_samples_per_second": 1739.889,
	"eval_steps_per_second": 217.706,
	"num_input_tokens_seen": 3035136,
	"step": 2964
	},
	{
	"epoch": 2.0242914979757085,
	"grad_norm": 0.0168524831533432,
	"learning_rate": 1.627305443094917e-05,
	"loss": 0.1458,
	"num_input_tokens_seen": 3072000,
	"step": 3000,
	"train_runtime": 90.7129,
	"train_tokens_per_second": 33865.09
	},
	{
	"epoch": 2.361673414304993,
	"grad_norm": 0.3309631049633026,
	"learning_rate": 1.0650022492127757e-05,
	"loss": 0.1314,
	"num_input_tokens_seen": 3584000,
	"step": 3500,
	"train_runtime": 104.7568,
	"train_tokens_per_second": 34212.57
	},
	{
	"epoch": 2.699055330634278,
	"grad_norm": 3.9781689643859863,
	"learning_rate": 5.026990553306343e-06,
	"loss": 0.1224,
	"num_input_tokens_seen": 4096000,
	"step": 4000,
	"train_runtime": 118.8877,
	"train_tokens_per_second": 34452.667
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9133220910623946,
	"eval_loss": 0.27373236417770386,
	"eval_runtime": 1.7591,
	"eval_samples_per_second": 1685.527,
	"eval_steps_per_second": 210.904,
	"num_input_tokens_seen": 4552704,
	"step": 4446
	},
	{
	"epoch": 3.0,
	"num_input_tokens_seen": 4552704,
	"step": 4446,
	"total_flos": 585740316155904.0,
	"train_loss": 0.17994267544765705,
	"train_runtime": 134.4715,
	"train_samples_per_second": 264.502,
	"train_steps_per_second": 33.063
	}
	],
	"logging_steps": 500,
	"max_steps": 4446,
	"num_input_tokens_seen": 4552704,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 585740316155904.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}