End of training

248a73e verified about 1 year ago

8.91 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984810126582279,
	"eval_steps": 500,
	"global_step": 493,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.020253164556962026,
	"grad_norm": 2.882945391057014,
	"learning_rate": 5e-06,
	"loss": 0.7569,
	"step": 10
	},
	{
	"epoch": 0.04050632911392405,
	"grad_norm": 2.215930707747834,
	"learning_rate": 5e-06,
	"loss": 0.6506,
	"step": 20
	},
	{
	"epoch": 0.060759493670886074,
	"grad_norm": 1.894429021053666,
	"learning_rate": 5e-06,
	"loss": 0.6288,
	"step": 30
	},
	{
	"epoch": 0.0810126582278481,
	"grad_norm": 1.4315710417507135,
	"learning_rate": 5e-06,
	"loss": 0.6136,
	"step": 40
	},
	{
	"epoch": 0.10126582278481013,
	"grad_norm": 1.7157625882254233,
	"learning_rate": 5e-06,
	"loss": 0.6033,
	"step": 50
	},
	{
	"epoch": 0.12151898734177215,
	"grad_norm": 1.4217599360047826,
	"learning_rate": 5e-06,
	"loss": 0.5971,
	"step": 60
	},
	{
	"epoch": 0.14177215189873418,
	"grad_norm": 1.4919608736087413,
	"learning_rate": 5e-06,
	"loss": 0.5928,
	"step": 70
	},
	{
	"epoch": 0.1620253164556962,
	"grad_norm": 1.3847069011356332,
	"learning_rate": 5e-06,
	"loss": 0.5879,
	"step": 80
	},
	{
	"epoch": 0.18227848101265823,
	"grad_norm": 1.8689825245661746,
	"learning_rate": 5e-06,
	"loss": 0.5865,
	"step": 90
	},
	{
	"epoch": 0.20253164556962025,
	"grad_norm": 1.6007319042790646,
	"learning_rate": 5e-06,
	"loss": 0.5891,
	"step": 100
	},
	{
	"epoch": 0.22278481012658227,
	"grad_norm": 1.6661187893059985,
	"learning_rate": 5e-06,
	"loss": 0.5817,
	"step": 110
	},
	{
	"epoch": 0.2430379746835443,
	"grad_norm": 1.5088824762043296,
	"learning_rate": 5e-06,
	"loss": 0.579,
	"step": 120
	},
	{
	"epoch": 0.26329113924050634,
	"grad_norm": 2.4968134853778117,
	"learning_rate": 5e-06,
	"loss": 0.578,
	"step": 130
	},
	{
	"epoch": 0.28354430379746837,
	"grad_norm": 1.7148820016172805,
	"learning_rate": 5e-06,
	"loss": 0.5678,
	"step": 140
	},
	{
	"epoch": 0.3037974683544304,
	"grad_norm": 3.7110251410070583,
	"learning_rate": 5e-06,
	"loss": 0.5781,
	"step": 150
	},
	{
	"epoch": 0.3240506329113924,
	"grad_norm": 2.7150715560626195,
	"learning_rate": 5e-06,
	"loss": 0.5763,
	"step": 160
	},
	{
	"epoch": 0.34430379746835443,
	"grad_norm": 1.2312010583367314,
	"learning_rate": 5e-06,
	"loss": 0.5751,
	"step": 170
	},
	{
	"epoch": 0.36455696202531646,
	"grad_norm": 1.9963116161483436,
	"learning_rate": 5e-06,
	"loss": 0.5706,
	"step": 180
	},
	{
	"epoch": 0.3848101265822785,
	"grad_norm": 1.3042779714841761,
	"learning_rate": 5e-06,
	"loss": 0.5716,
	"step": 190
	},
	{
	"epoch": 0.4050632911392405,
	"grad_norm": 1.4634415468631845,
	"learning_rate": 5e-06,
	"loss": 0.5675,
	"step": 200
	},
	{
	"epoch": 0.4253164556962025,
	"grad_norm": 1.4367866258568494,
	"learning_rate": 5e-06,
	"loss": 0.5632,
	"step": 210
	},
	{
	"epoch": 0.44556962025316454,
	"grad_norm": 1.9787155615814422,
	"learning_rate": 5e-06,
	"loss": 0.5686,
	"step": 220
	},
	{
	"epoch": 0.46582278481012657,
	"grad_norm": 1.554761610864969,
	"learning_rate": 5e-06,
	"loss": 0.5679,
	"step": 230
	},
	{
	"epoch": 0.4860759493670886,
	"grad_norm": 1.4050684281133805,
	"learning_rate": 5e-06,
	"loss": 0.5634,
	"step": 240
	},
	{
	"epoch": 0.5063291139240507,
	"grad_norm": 2.389886434286958,
	"learning_rate": 5e-06,
	"loss": 0.5679,
	"step": 250
	},
	{
	"epoch": 0.5265822784810127,
	"grad_norm": 1.9930786400945644,
	"learning_rate": 5e-06,
	"loss": 0.5549,
	"step": 260
	},
	{
	"epoch": 0.5468354430379747,
	"grad_norm": 2.241950368987,
	"learning_rate": 5e-06,
	"loss": 0.5627,
	"step": 270
	},
	{
	"epoch": 0.5670886075949367,
	"grad_norm": 1.2762960468034965,
	"learning_rate": 5e-06,
	"loss": 0.557,
	"step": 280
	},
	{
	"epoch": 0.5873417721518988,
	"grad_norm": 1.9147658341187483,
	"learning_rate": 5e-06,
	"loss": 0.558,
	"step": 290
	},
	{
	"epoch": 0.6075949367088608,
	"grad_norm": 1.8505958524714776,
	"learning_rate": 5e-06,
	"loss": 0.5571,
	"step": 300
	},
	{
	"epoch": 0.6278481012658228,
	"grad_norm": 1.9130752385076857,
	"learning_rate": 5e-06,
	"loss": 0.5619,
	"step": 310
	},
	{
	"epoch": 0.6481012658227848,
	"grad_norm": 1.3375681147091247,
	"learning_rate": 5e-06,
	"loss": 0.5589,
	"step": 320
	},
	{
	"epoch": 0.6683544303797468,
	"grad_norm": 1.7350301588890396,
	"learning_rate": 5e-06,
	"loss": 0.559,
	"step": 330
	},
	{
	"epoch": 0.6886075949367089,
	"grad_norm": 1.3739045710832587,
	"learning_rate": 5e-06,
	"loss": 0.5577,
	"step": 340
	},
	{
	"epoch": 0.7088607594936709,
	"grad_norm": 1.2476279822426537,
	"learning_rate": 5e-06,
	"loss": 0.5592,
	"step": 350
	},
	{
	"epoch": 0.7291139240506329,
	"grad_norm": 1.5513351657124166,
	"learning_rate": 5e-06,
	"loss": 0.5624,
	"step": 360
	},
	{
	"epoch": 0.7493670886075949,
	"grad_norm": 1.4242614435377774,
	"learning_rate": 5e-06,
	"loss": 0.5553,
	"step": 370
	},
	{
	"epoch": 0.769620253164557,
	"grad_norm": 1.154791151204361,
	"learning_rate": 5e-06,
	"loss": 0.5523,
	"step": 380
	},
	{
	"epoch": 0.789873417721519,
	"grad_norm": 1.2406846291234284,
	"learning_rate": 5e-06,
	"loss": 0.5564,
	"step": 390
	},
	{
	"epoch": 0.810126582278481,
	"grad_norm": 1.3155697193277984,
	"learning_rate": 5e-06,
	"loss": 0.5572,
	"step": 400
	},
	{
	"epoch": 0.830379746835443,
	"grad_norm": 1.290691328404162,
	"learning_rate": 5e-06,
	"loss": 0.5516,
	"step": 410
	},
	{
	"epoch": 0.850632911392405,
	"grad_norm": 1.2175694217624276,
	"learning_rate": 5e-06,
	"loss": 0.5592,
	"step": 420
	},
	{
	"epoch": 0.8708860759493671,
	"grad_norm": 1.201899124438492,
	"learning_rate": 5e-06,
	"loss": 0.5526,
	"step": 430
	},
	{
	"epoch": 0.8911392405063291,
	"grad_norm": 1.182820314526854,
	"learning_rate": 5e-06,
	"loss": 0.5577,
	"step": 440
	},
	{
	"epoch": 0.9113924050632911,
	"grad_norm": 1.4381251643237962,
	"learning_rate": 5e-06,
	"loss": 0.5494,
	"step": 450
	},
	{
	"epoch": 0.9316455696202531,
	"grad_norm": 1.0475436039121593,
	"learning_rate": 5e-06,
	"loss": 0.5539,
	"step": 460
	},
	{
	"epoch": 0.9518987341772152,
	"grad_norm": 1.3740300354445663,
	"learning_rate": 5e-06,
	"loss": 0.5549,
	"step": 470
	},
	{
	"epoch": 0.9721518987341772,
	"grad_norm": 1.0792354520292615,
	"learning_rate": 5e-06,
	"loss": 0.5522,
	"step": 480
	},
	{
	"epoch": 0.9924050632911392,
	"grad_norm": 1.1522113303559152,
	"learning_rate": 5e-06,
	"loss": 0.549,
	"step": 490
	},
	{
	"epoch": 0.9984810126582279,
	"eval_loss": 0.0689920112490654,
	"eval_runtime": 505.0744,
	"eval_samples_per_second": 26.341,
	"eval_steps_per_second": 0.412,
	"step": 493
	},
	{
	"epoch": 0.9984810126582279,
	"step": 493,
	"total_flos": 825583982346240.0,
	"train_loss": 0.5740175109364198,
	"train_runtime": 27939.3141,
	"train_samples_per_second": 9.047,
	"train_steps_per_second": 0.018
	}
	],
	"logging_steps": 10,
	"max_steps": 493,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 825583982346240.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}