roberta-base-mean-softmax-150 / trainer_state.json

Upload folder using huggingface_hub

9bbeb41 verified 11 months ago

7.39 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.020380434782608696,
	"eval_steps": 5,
	"global_step": 150,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006793478260869565,
	"eval_loss": 4.499350547790527,
	"eval_runtime": 20.1523,
	"eval_samples_per_second": 975.424,
	"eval_steps_per_second": 7.642,
	"step": 5
	},
	{
	"epoch": 0.001358695652173913,
	"eval_loss": 4.498117923736572,
	"eval_runtime": 20.4966,
	"eval_samples_per_second": 959.037,
	"eval_steps_per_second": 7.513,
	"step": 10
	},
	{
	"epoch": 0.0020380434782608695,
	"eval_loss": 4.495996475219727,
	"eval_runtime": 21.0485,
	"eval_samples_per_second": 933.891,
	"eval_steps_per_second": 7.316,
	"step": 15
	},
	{
	"epoch": 0.002717391304347826,
	"eval_loss": 4.492975234985352,
	"eval_runtime": 21.3506,
	"eval_samples_per_second": 920.677,
	"eval_steps_per_second": 7.213,
	"step": 20
	},
	{
	"epoch": 0.0033967391304347825,
	"eval_loss": 4.489028453826904,
	"eval_runtime": 21.5145,
	"eval_samples_per_second": 913.661,
	"eval_steps_per_second": 7.158,
	"step": 25
	},
	{
	"epoch": 0.004076086956521739,
	"eval_loss": 4.484206199645996,
	"eval_runtime": 21.5836,
	"eval_samples_per_second": 910.738,
	"eval_steps_per_second": 7.135,
	"step": 30
	},
	{
	"epoch": 0.004755434782608696,
	"eval_loss": 4.478429317474365,
	"eval_runtime": 21.7892,
	"eval_samples_per_second": 902.143,
	"eval_steps_per_second": 7.068,
	"step": 35
	},
	{
	"epoch": 0.005434782608695652,
	"eval_loss": 4.471565246582031,
	"eval_runtime": 21.9727,
	"eval_samples_per_second": 894.608,
	"eval_steps_per_second": 7.009,
	"step": 40
	},
	{
	"epoch": 0.006114130434782609,
	"eval_loss": 4.463589668273926,
	"eval_runtime": 21.6519,
	"eval_samples_per_second": 907.863,
	"eval_steps_per_second": 7.113,
	"step": 45
	},
	{
	"epoch": 0.006793478260869565,
	"eval_loss": 4.454347610473633,
	"eval_runtime": 21.7784,
	"eval_samples_per_second": 902.593,
	"eval_steps_per_second": 7.071,
	"step": 50
	},
	{
	"epoch": 0.007472826086956522,
	"eval_loss": 4.443789958953857,
	"eval_runtime": 21.9874,
	"eval_samples_per_second": 894.012,
	"eval_steps_per_second": 7.004,
	"step": 55
	},
	{
	"epoch": 0.008152173913043478,
	"eval_loss": 4.432095527648926,
	"eval_runtime": 21.6944,
	"eval_samples_per_second": 906.087,
	"eval_steps_per_second": 7.099,
	"step": 60
	},
	{
	"epoch": 0.008831521739130434,
	"eval_loss": 4.419074535369873,
	"eval_runtime": 21.7766,
	"eval_samples_per_second": 902.668,
	"eval_steps_per_second": 7.072,
	"step": 65
	},
	{
	"epoch": 0.009510869565217392,
	"eval_loss": 4.404222011566162,
	"eval_runtime": 21.9472,
	"eval_samples_per_second": 895.649,
	"eval_steps_per_second": 7.017,
	"step": 70
	},
	{
	"epoch": 0.010190217391304348,
	"eval_loss": 4.387468338012695,
	"eval_runtime": 22.1085,
	"eval_samples_per_second": 889.115,
	"eval_steps_per_second": 6.966,
	"step": 75
	},
	{
	"epoch": 0.010869565217391304,
	"eval_loss": 4.368589878082275,
	"eval_runtime": 21.8154,
	"eval_samples_per_second": 901.063,
	"eval_steps_per_second": 7.059,
	"step": 80
	},
	{
	"epoch": 0.01154891304347826,
	"eval_loss": 4.347426891326904,
	"eval_runtime": 21.8937,
	"eval_samples_per_second": 897.84,
	"eval_steps_per_second": 7.034,
	"step": 85
	},
	{
	"epoch": 0.012228260869565218,
	"eval_loss": 4.32356595993042,
	"eval_runtime": 21.9031,
	"eval_samples_per_second": 897.453,
	"eval_steps_per_second": 7.031,
	"step": 90
	},
	{
	"epoch": 0.012907608695652174,
	"eval_loss": 4.296773433685303,
	"eval_runtime": 22.045,
	"eval_samples_per_second": 891.674,
	"eval_steps_per_second": 6.986,
	"step": 95
	},
	{
	"epoch": 0.01358695652173913,
	"grad_norm": 11.771966934204102,
	"learning_rate": 4.528985507246377e-07,
	"loss": 4.4995,
	"step": 100
	},
	{
	"epoch": 0.01358695652173913,
	"eval_loss": 4.266582489013672,
	"eval_runtime": 21.7748,
	"eval_samples_per_second": 902.742,
	"eval_steps_per_second": 7.072,
	"step": 100
	},
	{
	"epoch": 0.014266304347826086,
	"eval_loss": 4.232626914978027,
	"eval_runtime": 21.7463,
	"eval_samples_per_second": 903.924,
	"eval_steps_per_second": 7.082,
	"step": 105
	},
	{
	"epoch": 0.014945652173913044,
	"eval_loss": 4.194711208343506,
	"eval_runtime": 22.0767,
	"eval_samples_per_second": 890.396,
	"eval_steps_per_second": 6.976,
	"step": 110
	},
	{
	"epoch": 0.015625,
	"eval_loss": 4.151618957519531,
	"eval_runtime": 21.7284,
	"eval_samples_per_second": 904.667,
	"eval_steps_per_second": 7.087,
	"step": 115
	},
	{
	"epoch": 0.016304347826086956,
	"eval_loss": 4.102933883666992,
	"eval_runtime": 21.8375,
	"eval_samples_per_second": 900.149,
	"eval_steps_per_second": 7.052,
	"step": 120
	},
	{
	"epoch": 0.016983695652173912,
	"eval_loss": 4.047597408294678,
	"eval_runtime": 21.8792,
	"eval_samples_per_second": 898.434,
	"eval_steps_per_second": 7.039,
	"step": 125
	},
	{
	"epoch": 0.017663043478260868,
	"eval_loss": 3.9850316047668457,
	"eval_runtime": 22.0074,
	"eval_samples_per_second": 893.2,
	"eval_steps_per_second": 6.998,
	"step": 130
	},
	{
	"epoch": 0.018342391304347828,
	"eval_loss": 3.9161784648895264,
	"eval_runtime": 21.9382,
	"eval_samples_per_second": 896.016,
	"eval_steps_per_second": 7.02,
	"step": 135
	},
	{
	"epoch": 0.019021739130434784,
	"eval_loss": 3.839725971221924,
	"eval_runtime": 21.8144,
	"eval_samples_per_second": 901.1,
	"eval_steps_per_second": 7.06,
	"step": 140
	},
	{
	"epoch": 0.01970108695652174,
	"eval_loss": 3.7521822452545166,
	"eval_runtime": 21.6841,
	"eval_samples_per_second": 906.516,
	"eval_steps_per_second": 7.102,
	"step": 145
	},
	{
	"epoch": 0.020380434782608696,
	"eval_loss": 3.652061700820923,
	"eval_runtime": 21.8254,
	"eval_samples_per_second": 900.648,
	"eval_steps_per_second": 7.056,
	"step": 150
	}
	],
	"logging_steps": 100,
	"max_steps": 22080,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}