End of training

e819850 over 3 years ago

15.2 kB

	{
	"best_metric": 0.5201743841171265,
	"best_model_checkpoint": "deberta-classifier-feedback-1024-pseudo-final/checkpoint-170",
	"epoch": 1.9491525423728815,
	"global_step": 460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04,
	"learning_rate": 1.9576271186440678e-05,
	"loss": 0.5814,
	"step": 10
	},
	{
	"epoch": 0.04,
	"eval_loss": 0.5888153910636902,
	"eval_runtime": 18.2433,
	"eval_samples_per_second": 23.022,
	"eval_steps_per_second": 2.905,
	"step": 10
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.9152542372881357e-05,
	"loss": 0.5521,
	"step": 20
	},
	{
	"epoch": 0.08,
	"eval_loss": 0.5736112594604492,
	"eval_runtime": 18.7271,
	"eval_samples_per_second": 22.427,
	"eval_steps_per_second": 2.83,
	"step": 20
	},
	{
	"epoch": 0.13,
	"learning_rate": 1.8728813559322033e-05,
	"loss": 0.5685,
	"step": 30
	},
	{
	"epoch": 0.13,
	"eval_loss": 0.5809019804000854,
	"eval_runtime": 17.2407,
	"eval_samples_per_second": 24.361,
	"eval_steps_per_second": 3.074,
	"step": 30
	},
	{
	"epoch": 0.17,
	"learning_rate": 1.8305084745762713e-05,
	"loss": 0.6052,
	"step": 40
	},
	{
	"epoch": 0.17,
	"eval_loss": 0.5701586008071899,
	"eval_runtime": 18.6909,
	"eval_samples_per_second": 22.471,
	"eval_steps_per_second": 2.836,
	"step": 40
	},
	{
	"epoch": 0.21,
	"learning_rate": 1.788135593220339e-05,
	"loss": 0.5532,
	"step": 50
	},
	{
	"epoch": 0.21,
	"eval_loss": 0.5571172833442688,
	"eval_runtime": 18.369,
	"eval_samples_per_second": 22.865,
	"eval_steps_per_second": 2.885,
	"step": 50
	},
	{
	"epoch": 0.25,
	"learning_rate": 1.745762711864407e-05,
	"loss": 0.6177,
	"step": 60
	},
	{
	"epoch": 0.25,
	"eval_loss": 0.5848062634468079,
	"eval_runtime": 18.5061,
	"eval_samples_per_second": 22.695,
	"eval_steps_per_second": 2.864,
	"step": 60
	},
	{
	"epoch": 0.3,
	"learning_rate": 1.7033898305084745e-05,
	"loss": 0.6196,
	"step": 70
	},
	{
	"epoch": 0.3,
	"eval_loss": 0.5464363098144531,
	"eval_runtime": 18.5102,
	"eval_samples_per_second": 22.69,
	"eval_steps_per_second": 2.863,
	"step": 70
	},
	{
	"epoch": 0.34,
	"learning_rate": 1.6610169491525424e-05,
	"loss": 0.5772,
	"step": 80
	},
	{
	"epoch": 0.34,
	"eval_loss": 0.5307226777076721,
	"eval_runtime": 18.3662,
	"eval_samples_per_second": 22.868,
	"eval_steps_per_second": 2.886,
	"step": 80
	},
	{
	"epoch": 0.38,
	"learning_rate": 1.6186440677966104e-05,
	"loss": 0.5805,
	"step": 90
	},
	{
	"epoch": 0.38,
	"eval_loss": 0.554991602897644,
	"eval_runtime": 17.9687,
	"eval_samples_per_second": 23.374,
	"eval_steps_per_second": 2.95,
	"step": 90
	},
	{
	"epoch": 0.42,
	"learning_rate": 1.576271186440678e-05,
	"loss": 0.6453,
	"step": 100
	},
	{
	"epoch": 0.42,
	"eval_loss": 0.5466664433479309,
	"eval_runtime": 18.0919,
	"eval_samples_per_second": 23.215,
	"eval_steps_per_second": 2.929,
	"step": 100
	},
	{
	"epoch": 0.47,
	"learning_rate": 1.533898305084746e-05,
	"loss": 0.5756,
	"step": 110
	},
	{
	"epoch": 0.47,
	"eval_loss": 0.5586597919464111,
	"eval_runtime": 18.6353,
	"eval_samples_per_second": 22.538,
	"eval_steps_per_second": 2.844,
	"step": 110
	},
	{
	"epoch": 0.51,
	"learning_rate": 1.4915254237288137e-05,
	"loss": 0.5901,
	"step": 120
	},
	{
	"epoch": 0.51,
	"eval_loss": 0.5481747388839722,
	"eval_runtime": 18.326,
	"eval_samples_per_second": 22.918,
	"eval_steps_per_second": 2.892,
	"step": 120
	},
	{
	"epoch": 0.55,
	"learning_rate": 1.4491525423728813e-05,
	"loss": 0.568,
	"step": 130
	},
	{
	"epoch": 0.55,
	"eval_loss": 0.5262647867202759,
	"eval_runtime": 18.2108,
	"eval_samples_per_second": 23.063,
	"eval_steps_per_second": 2.91,
	"step": 130
	},
	{
	"epoch": 0.59,
	"learning_rate": 1.4067796610169493e-05,
	"loss": 0.5452,
	"step": 140
	},
	{
	"epoch": 0.59,
	"eval_loss": 0.5698090195655823,
	"eval_runtime": 18.2551,
	"eval_samples_per_second": 23.007,
	"eval_steps_per_second": 2.903,
	"step": 140
	},
	{
	"epoch": 0.64,
	"learning_rate": 1.364406779661017e-05,
	"loss": 0.5949,
	"step": 150
	},
	{
	"epoch": 0.64,
	"eval_loss": 0.5483840107917786,
	"eval_runtime": 18.0824,
	"eval_samples_per_second": 23.227,
	"eval_steps_per_second": 2.931,
	"step": 150
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.3220338983050848e-05,
	"loss": 0.5537,
	"step": 160
	},
	{
	"epoch": 0.68,
	"eval_loss": 0.578332781791687,
	"eval_runtime": 18.2057,
	"eval_samples_per_second": 23.07,
	"eval_steps_per_second": 2.911,
	"step": 160
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.2796610169491526e-05,
	"loss": 0.5327,
	"step": 170
	},
	{
	"epoch": 0.72,
	"eval_loss": 0.5201743841171265,
	"eval_runtime": 18.1319,
	"eval_samples_per_second": 23.164,
	"eval_steps_per_second": 2.923,
	"step": 170
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.2372881355932205e-05,
	"loss": 0.5449,
	"step": 180
	},
	{
	"epoch": 0.76,
	"eval_loss": 0.5272189378738403,
	"eval_runtime": 18.125,
	"eval_samples_per_second": 23.172,
	"eval_steps_per_second": 2.924,
	"step": 180
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.1949152542372882e-05,
	"loss": 0.5345,
	"step": 190
	},
	{
	"epoch": 0.81,
	"eval_loss": 0.5621271133422852,
	"eval_runtime": 18.0129,
	"eval_samples_per_second": 23.317,
	"eval_steps_per_second": 2.942,
	"step": 190
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.1525423728813561e-05,
	"loss": 0.5837,
	"step": 200
	},
	{
	"epoch": 0.85,
	"eval_loss": 0.55014967918396,
	"eval_runtime": 18.0302,
	"eval_samples_per_second": 23.294,
	"eval_steps_per_second": 2.94,
	"step": 200
	},
	{
	"epoch": 0.89,
	"learning_rate": 1.1101694915254237e-05,
	"loss": 0.5969,
	"step": 210
	},
	{
	"epoch": 0.89,
	"eval_loss": 0.5470077395439148,
	"eval_runtime": 17.9721,
	"eval_samples_per_second": 23.37,
	"eval_steps_per_second": 2.949,
	"step": 210
	},
	{
	"epoch": 0.93,
	"learning_rate": 1.0677966101694917e-05,
	"loss": 0.5905,
	"step": 220
	},
	{
	"epoch": 0.93,
	"eval_loss": 0.5924287438392639,
	"eval_runtime": 18.0444,
	"eval_samples_per_second": 23.276,
	"eval_steps_per_second": 2.937,
	"step": 220
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0254237288135593e-05,
	"loss": 0.5481,
	"step": 230
	},
	{
	"epoch": 0.97,
	"eval_loss": 0.5415045022964478,
	"eval_runtime": 17.9371,
	"eval_samples_per_second": 23.415,
	"eval_steps_per_second": 2.955,
	"step": 230
	},
	{
	"epoch": 1.02,
	"learning_rate": 9.830508474576272e-06,
	"loss": 0.5035,
	"step": 240
	},
	{
	"epoch": 1.02,
	"eval_loss": 0.5320823788642883,
	"eval_runtime": 17.9879,
	"eval_samples_per_second": 23.349,
	"eval_steps_per_second": 2.946,
	"step": 240
	},
	{
	"epoch": 1.06,
	"learning_rate": 9.40677966101695e-06,
	"loss": 0.4508,
	"step": 250
	},
	{
	"epoch": 1.06,
	"eval_loss": 0.5371343493461609,
	"eval_runtime": 17.4824,
	"eval_samples_per_second": 24.024,
	"eval_steps_per_second": 3.032,
	"step": 250
	},
	{
	"epoch": 1.1,
	"learning_rate": 8.983050847457628e-06,
	"loss": 0.4227,
	"step": 260
	},
	{
	"epoch": 1.1,
	"eval_loss": 0.5276100635528564,
	"eval_runtime": 18.1362,
	"eval_samples_per_second": 23.158,
	"eval_steps_per_second": 2.922,
	"step": 260
	},
	{
	"epoch": 1.14,
	"learning_rate": 8.559322033898306e-06,
	"loss": 0.4423,
	"step": 270
	},
	{
	"epoch": 1.14,
	"eval_loss": 0.532426118850708,
	"eval_runtime": 17.9907,
	"eval_samples_per_second": 23.345,
	"eval_steps_per_second": 2.946,
	"step": 270
	},
	{
	"epoch": 1.19,
	"learning_rate": 8.135593220338983e-06,
	"loss": 0.432,
	"step": 280
	},
	{
	"epoch": 1.19,
	"eval_loss": 0.5377896428108215,
	"eval_runtime": 17.4953,
	"eval_samples_per_second": 24.006,
	"eval_steps_per_second": 3.029,
	"step": 280
	},
	{
	"epoch": 1.23,
	"learning_rate": 7.711864406779663e-06,
	"loss": 0.4317,
	"step": 290
	},
	{
	"epoch": 1.23,
	"eval_loss": 0.5301514863967896,
	"eval_runtime": 18.2183,
	"eval_samples_per_second": 23.054,
	"eval_steps_per_second": 2.909,
	"step": 290
	},
	{
	"epoch": 1.27,
	"learning_rate": 7.288135593220339e-06,
	"loss": 0.46,
	"step": 300
	},
	{
	"epoch": 1.27,
	"eval_loss": 0.5301567316055298,
	"eval_runtime": 18.4315,
	"eval_samples_per_second": 22.787,
	"eval_steps_per_second": 2.876,
	"step": 300
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.864406779661017e-06,
	"loss": 0.435,
	"step": 310
	},
	{
	"epoch": 1.31,
	"eval_loss": 0.5325623750686646,
	"eval_runtime": 17.6821,
	"eval_samples_per_second": 23.753,
	"eval_steps_per_second": 2.997,
	"step": 310
	},
	{
	"epoch": 1.36,
	"learning_rate": 6.440677966101695e-06,
	"loss": 0.3813,
	"step": 320
	},
	{
	"epoch": 1.36,
	"eval_loss": 0.5431253910064697,
	"eval_runtime": 18.5006,
	"eval_samples_per_second": 22.702,
	"eval_steps_per_second": 2.865,
	"step": 320
	},
	{
	"epoch": 1.4,
	"learning_rate": 6.0169491525423725e-06,
	"loss": 0.4422,
	"step": 330
	},
	{
	"epoch": 1.4,
	"eval_loss": 0.5322949290275574,
	"eval_runtime": 18.4759,
	"eval_samples_per_second": 22.732,
	"eval_steps_per_second": 2.869,
	"step": 330
	},
	{
	"epoch": 1.44,
	"learning_rate": 5.593220338983051e-06,
	"loss": 0.4298,
	"step": 340
	},
	{
	"epoch": 1.44,
	"eval_loss": 0.5574814677238464,
	"eval_runtime": 17.6896,
	"eval_samples_per_second": 23.743,
	"eval_steps_per_second": 2.996,
	"step": 340
	},
	{
	"epoch": 1.48,
	"learning_rate": 5.169491525423729e-06,
	"loss": 0.5068,
	"step": 350
	},
	{
	"epoch": 1.48,
	"eval_loss": 0.5528993606567383,
	"eval_runtime": 18.3232,
	"eval_samples_per_second": 22.922,
	"eval_steps_per_second": 2.893,
	"step": 350
	},
	{
	"epoch": 1.53,
	"learning_rate": 4.745762711864408e-06,
	"loss": 0.4619,
	"step": 360
	},
	{
	"epoch": 1.53,
	"eval_loss": 0.5589260458946228,
	"eval_runtime": 18.3038,
	"eval_samples_per_second": 22.946,
	"eval_steps_per_second": 2.896,
	"step": 360
	},
	{
	"epoch": 1.57,
	"learning_rate": 4.322033898305085e-06,
	"loss": 0.4852,
	"step": 370
	},
	{
	"epoch": 1.57,
	"eval_loss": 0.5255549550056458,
	"eval_runtime": 18.4908,
	"eval_samples_per_second": 22.714,
	"eval_steps_per_second": 2.866,
	"step": 370
	},
	{
	"epoch": 1.61,
	"learning_rate": 3.898305084745763e-06,
	"loss": 0.3888,
	"step": 380
	},
	{
	"epoch": 1.61,
	"eval_loss": 0.5730893611907959,
	"eval_runtime": 18.3761,
	"eval_samples_per_second": 22.856,
	"eval_steps_per_second": 2.884,
	"step": 380
	},
	{
	"epoch": 1.65,
	"learning_rate": 3.474576271186441e-06,
	"loss": 0.4319,
	"step": 390
	},
	{
	"epoch": 1.65,
	"eval_loss": 0.5334990620613098,
	"eval_runtime": 18.4738,
	"eval_samples_per_second": 22.735,
	"eval_steps_per_second": 2.869,
	"step": 390
	},
	{
	"epoch": 1.69,
	"learning_rate": 3.0508474576271192e-06,
	"loss": 0.4422,
	"step": 400
	},
	{
	"epoch": 1.69,
	"eval_loss": 0.5419171452522278,
	"eval_runtime": 18.5281,
	"eval_samples_per_second": 22.668,
	"eval_steps_per_second": 2.861,
	"step": 400
	},
	{
	"epoch": 1.74,
	"learning_rate": 2.627118644067797e-06,
	"loss": 0.4522,
	"step": 410
	},
	{
	"epoch": 1.74,
	"eval_loss": 0.5547201037406921,
	"eval_runtime": 18.4837,
	"eval_samples_per_second": 22.723,
	"eval_steps_per_second": 2.867,
	"step": 410
	},
	{
	"epoch": 1.78,
	"learning_rate": 2.203389830508475e-06,
	"loss": 0.4276,
	"step": 420
	},
	{
	"epoch": 1.78,
	"eval_loss": 0.5263144373893738,
	"eval_runtime": 18.6045,
	"eval_samples_per_second": 22.575,
	"eval_steps_per_second": 2.849,
	"step": 420
	},
	{
	"epoch": 1.82,
	"learning_rate": 1.7796610169491526e-06,
	"loss": 0.3988,
	"step": 430
	},
	{
	"epoch": 1.82,
	"eval_loss": 0.5480612516403198,
	"eval_runtime": 18.5789,
	"eval_samples_per_second": 22.606,
	"eval_steps_per_second": 2.853,
	"step": 430
	},
	{
	"epoch": 1.86,
	"learning_rate": 1.3559322033898307e-06,
	"loss": 0.4063,
	"step": 440
	},
	{
	"epoch": 1.86,
	"eval_loss": 0.5404064655303955,
	"eval_runtime": 18.6623,
	"eval_samples_per_second": 22.505,
	"eval_steps_per_second": 2.84,
	"step": 440
	},
	{
	"epoch": 1.91,
	"learning_rate": 9.322033898305086e-07,
	"loss": 0.4141,
	"step": 450
	},
	{
	"epoch": 1.91,
	"eval_loss": 0.5292345881462097,
	"eval_runtime": 18.5061,
	"eval_samples_per_second": 22.695,
	"eval_steps_per_second": 2.864,
	"step": 450
	},
	{
	"epoch": 1.95,
	"learning_rate": 5.084745762711865e-07,
	"loss": 0.4149,
	"step": 460
	},
	{
	"epoch": 1.95,
	"eval_loss": 0.5240865349769592,
	"eval_runtime": 18.7251,
	"eval_samples_per_second": 22.43,
	"eval_steps_per_second": 2.83,
	"step": 460
	}
	],
	"max_steps": 472,
	"num_train_epochs": 2,
	"total_flos": 1.3624153973519232e+16,
	"trial_name": null,
	"trial_params": null
	}