Mixtral-echo / trainer_state.json

Upload 8 files

fe0869e about 2 years ago

6.35 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.47619047619047616,
	"eval_steps": 20,
	"global_step": 400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"eval_loss": 1.0689338445663452,
	"eval_runtime": 9.952,
	"eval_samples_per_second": 3.818,
	"eval_steps_per_second": 0.502,
	"step": 20
	},
	{
	"epoch": 0.03,
	"learning_rate": 2.3734177215189873e-05,
	"loss": 1.5255,
	"step": 25
	},
	{
	"epoch": 0.05,
	"eval_loss": 0.8571718335151672,
	"eval_runtime": 9.9124,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.504,
	"step": 40
	},
	{
	"epoch": 0.06,
	"learning_rate": 2.2151898734177217e-05,
	"loss": 0.9309,
	"step": 50
	},
	{
	"epoch": 0.07,
	"eval_loss": 0.7807316780090332,
	"eval_runtime": 9.9144,
	"eval_samples_per_second": 3.833,
	"eval_steps_per_second": 0.504,
	"step": 60
	},
	{
	"epoch": 0.09,
	"learning_rate": 2.056962025316456e-05,
	"loss": 0.7794,
	"step": 75
	},
	{
	"epoch": 0.1,
	"eval_loss": 0.7378336191177368,
	"eval_runtime": 9.9203,
	"eval_samples_per_second": 3.831,
	"eval_steps_per_second": 0.504,
	"step": 80
	},
	{
	"epoch": 0.12,
	"learning_rate": 1.89873417721519e-05,
	"loss": 0.7628,
	"step": 100
	},
	{
	"epoch": 0.12,
	"eval_loss": 0.7243497371673584,
	"eval_runtime": 9.9102,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.505,
	"step": 100
	},
	{
	"epoch": 0.14,
	"eval_loss": 0.7043508291244507,
	"eval_runtime": 9.9123,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.504,
	"step": 120
	},
	{
	"epoch": 0.15,
	"learning_rate": 1.7405063291139243e-05,
	"loss": 0.7323,
	"step": 125
	},
	{
	"epoch": 0.17,
	"eval_loss": 0.6957876086235046,
	"eval_runtime": 9.9105,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.505,
	"step": 140
	},
	{
	"epoch": 0.18,
	"learning_rate": 1.5822784810126583e-05,
	"loss": 0.706,
	"step": 150
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.6854685544967651,
	"eval_runtime": 9.9176,
	"eval_samples_per_second": 3.832,
	"eval_steps_per_second": 0.504,
	"step": 160
	},
	{
	"epoch": 0.21,
	"learning_rate": 1.4240506329113925e-05,
	"loss": 0.6974,
	"step": 175
	},
	{
	"epoch": 0.21,
	"eval_loss": 0.6812862753868103,
	"eval_runtime": 9.918,
	"eval_samples_per_second": 3.831,
	"eval_steps_per_second": 0.504,
	"step": 180
	},
	{
	"epoch": 0.24,
	"learning_rate": 1.2658227848101267e-05,
	"loss": 0.6823,
	"step": 200
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.6784127950668335,
	"eval_runtime": 9.9087,
	"eval_samples_per_second": 3.835,
	"eval_steps_per_second": 0.505,
	"step": 200
	},
	{
	"epoch": 0.26,
	"eval_loss": 0.6723252534866333,
	"eval_runtime": 9.9104,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.505,
	"step": 220
	},
	{
	"epoch": 0.27,
	"learning_rate": 1.1075949367088608e-05,
	"loss": 0.6856,
	"step": 225
	},
	{
	"epoch": 0.29,
	"eval_loss": 0.669580340385437,
	"eval_runtime": 9.9088,
	"eval_samples_per_second": 3.835,
	"eval_steps_per_second": 0.505,
	"step": 240
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.49367088607595e-06,
	"loss": 0.6857,
	"step": 250
	},
	{
	"epoch": 0.31,
	"eval_loss": 0.6672892570495605,
	"eval_runtime": 9.8865,
	"eval_samples_per_second": 3.844,
	"eval_steps_per_second": 0.506,
	"step": 260
	},
	{
	"epoch": 0.33,
	"learning_rate": 7.911392405063292e-06,
	"loss": 0.6915,
	"step": 275
	},
	{
	"epoch": 0.33,
	"eval_loss": 0.6666972637176514,
	"eval_runtime": 9.9103,
	"eval_samples_per_second": 3.834,
	"eval_steps_per_second": 0.505,
	"step": 280
	},
	{
	"epoch": 0.36,
	"learning_rate": 6.329113924050633e-06,
	"loss": 0.6685,
	"step": 300
	},
	{
	"epoch": 0.36,
	"eval_loss": 0.6638540029525757,
	"eval_runtime": 9.9153,
	"eval_samples_per_second": 3.832,
	"eval_steps_per_second": 0.504,
	"step": 300
	},
	{
	"epoch": 0.38,
	"eval_loss": 0.6611661911010742,
	"eval_runtime": 9.9319,
	"eval_samples_per_second": 3.826,
	"eval_steps_per_second": 0.503,
	"step": 320
	},
	{
	"epoch": 0.39,
	"learning_rate": 4.746835443037975e-06,
	"loss": 0.6759,
	"step": 325
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.658918559551239,
	"eval_runtime": 9.9278,
	"eval_samples_per_second": 3.828,
	"eval_steps_per_second": 0.504,
	"step": 340
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.1645569620253167e-06,
	"loss": 0.6682,
	"step": 350
	},
	{
	"epoch": 0.43,
	"eval_loss": 0.6601454615592957,
	"eval_runtime": 9.9146,
	"eval_samples_per_second": 3.833,
	"eval_steps_per_second": 0.504,
	"step": 360
	},
	{
	"epoch": 0.45,
	"learning_rate": 1.5822784810126583e-06,
	"loss": 0.6876,
	"step": 375
	},
	{
	"epoch": 0.45,
	"eval_loss": 0.6586702466011047,
	"eval_runtime": 9.9,
	"eval_samples_per_second": 3.838,
	"eval_steps_per_second": 0.505,
	"step": 380
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0,
	"loss": 0.6721,
	"step": 400
	},
	{
	"epoch": 0.48,
	"eval_loss": 0.6582174897193909,
	"eval_runtime": 9.916,
	"eval_samples_per_second": 3.832,
	"eval_steps_per_second": 0.504,
	"step": 400
	}
	],
	"logging_steps": 25,
	"max_steps": 400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 20,
	"total_flos": 2.51016575975424e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}