Upload folder using huggingface_hub

11f3e2d verified 11 months ago

9.86 kB

	{
	"best_global_step": 27,
	"best_metric": 0.5779597759246826,
	"best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-27",
	"epoch": 18.0,
	"eval_steps": 500,
	"global_step": 162,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.5882352941176471,
	"grad_norm": 0.2979797124862671,
	"learning_rate": 0.00015,
	"loss": 0.7889,
	"step": 5
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.6737979650497437,
	"eval_runtime": 3.3675,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 9
	},
	{
	"epoch": 1.1176470588235294,
	"grad_norm": 0.20464661717414856,
	"learning_rate": 0.0003,
	"loss": 0.6771,
	"step": 10
	},
	{
	"epoch": 1.7058823529411766,
	"grad_norm": 0.1992536187171936,
	"learning_rate": 0.00029948767395100045,
	"loss": 0.6255,
	"step": 15
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6006895303726196,
	"eval_runtime": 3.3642,
	"eval_samples_per_second": 4.459,
	"eval_steps_per_second": 0.594,
	"step": 18
	},
	{
	"epoch": 2.235294117647059,
	"grad_norm": 0.19050121307373047,
	"learning_rate": 0.00029795419551040833,
	"loss": 0.5302,
	"step": 20
	},
	{
	"epoch": 2.8235294117647056,
	"grad_norm": 0.17813433706760406,
	"learning_rate": 0.0002954100398908995,
	"loss": 0.4439,
	"step": 25
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.5779597759246826,
	"eval_runtime": 3.3656,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 27
	},
	{
	"epoch": 3.3529411764705883,
	"grad_norm": 0.23658457398414612,
	"learning_rate": 0.00029187258625509513,
	"loss": 0.4257,
	"step": 30
	},
	{
	"epoch": 3.9411764705882355,
	"grad_norm": 0.27489331364631653,
	"learning_rate": 0.00028736599899825856,
	"loss": 0.3254,
	"step": 35
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.5997567772865295,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 36
	},
	{
	"epoch": 4.470588235294118,
	"grad_norm": 0.3510420620441437,
	"learning_rate": 0.00028192106268097334,
	"loss": 0.2985,
	"step": 40
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.4653756320476532,
	"learning_rate": 0.00027557497173937923,
	"loss": 0.2828,
	"step": 45
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.6584295034408569,
	"eval_runtime": 3.3668,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 45
	},
	{
	"epoch": 5.588235294117647,
	"grad_norm": 0.3469710052013397,
	"learning_rate": 0.00026837107640945905,
	"loss": 0.2038,
	"step": 50
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.751620888710022,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 54
	},
	{
	"epoch": 6.117647058823529,
	"grad_norm": 0.3903103470802307,
	"learning_rate": 0.0002603585866009697,
	"loss": 0.1656,
	"step": 55
	},
	{
	"epoch": 6.705882352941177,
	"grad_norm": 0.38518330454826355,
	"learning_rate": 0.00025159223574386114,
	"loss": 0.1296,
	"step": 60
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.8753386735916138,
	"eval_runtime": 3.3654,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 63
	},
	{
	"epoch": 7.235294117647059,
	"grad_norm": 0.24312527477741241,
	"learning_rate": 0.00024213190690345018,
	"loss": 0.085,
	"step": 65
	},
	{
	"epoch": 7.823529411764706,
	"grad_norm": 0.3267911970615387,
	"learning_rate": 0.00023204222371836405,
	"loss": 0.0751,
	"step": 70
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.8750011920928955,
	"eval_runtime": 3.3678,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 72
	},
	{
	"epoch": 8.352941176470589,
	"grad_norm": 0.24549448490142822,
	"learning_rate": 0.00022139210895556104,
	"loss": 0.0576,
	"step": 75
	},
	{
	"epoch": 8.941176470588236,
	"grad_norm": 0.3071894347667694,
	"learning_rate": 0.0002102543136979454,
	"loss": 0.0475,
	"step": 80
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.9990332126617432,
	"eval_runtime": 3.3671,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 81
	},
	{
	"epoch": 9.470588235294118,
	"grad_norm": 0.17012739181518555,
	"learning_rate": 0.00019870492038070252,
	"loss": 0.0282,
	"step": 85
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.2809393107891083,
	"learning_rate": 0.00018682282307111987,
	"loss": 0.0249,
	"step": 90
	},
	{
	"epoch": 10.0,
	"eval_loss": 1.022998571395874,
	"eval_runtime": 3.3665,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 90
	},
	{
	"epoch": 10.588235294117647,
	"grad_norm": 0.16731834411621094,
	"learning_rate": 0.00017468918854211007,
	"loss": 0.0151,
	"step": 95
	},
	{
	"epoch": 11.0,
	"eval_loss": 1.0694772005081177,
	"eval_runtime": 3.3662,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 99
	},
	{
	"epoch": 11.117647058823529,
	"grad_norm": 0.149811789393425,
	"learning_rate": 0.00016238690182084986,
	"loss": 0.0166,
	"step": 100
	},
	{
	"epoch": 11.705882352941176,
	"grad_norm": 0.13291925191879272,
	"learning_rate": 0.00015,
	"loss": 0.0095,
	"step": 105
	},
	{
	"epoch": 12.0,
	"eval_loss": 1.0867458581924438,
	"eval_runtime": 3.3664,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 108
	},
	{
	"epoch": 12.235294117647058,
	"grad_norm": 0.08576802164316177,
	"learning_rate": 0.00013761309817915014,
	"loss": 0.009,
	"step": 110
	},
	{
	"epoch": 12.823529411764707,
	"grad_norm": 0.07071960717439651,
	"learning_rate": 0.00012531081145788987,
	"loss": 0.0075,
	"step": 115
	},
	{
	"epoch": 13.0,
	"eval_loss": 1.1065537929534912,
	"eval_runtime": 3.3672,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 117
	},
	{
	"epoch": 13.352941176470589,
	"grad_norm": 0.1268472969532013,
	"learning_rate": 0.00011317717692888012,
	"loss": 0.0125,
	"step": 120
	},
	{
	"epoch": 13.941176470588236,
	"grad_norm": 0.08666448295116425,
	"learning_rate": 0.00010129507961929748,
	"loss": 0.0058,
	"step": 125
	},
	{
	"epoch": 14.0,
	"eval_loss": 1.0826694965362549,
	"eval_runtime": 3.3663,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 126
	},
	{
	"epoch": 14.470588235294118,
	"grad_norm": 0.20298424363136292,
	"learning_rate": 8.97456863020546e-05,
	"loss": 0.0063,
	"step": 130
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.07050978392362595,
	"learning_rate": 7.860789104443896e-05,
	"loss": 0.0059,
	"step": 135
	},
	{
	"epoch": 15.0,
	"eval_loss": 1.107211947441101,
	"eval_runtime": 3.3663,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 135
	},
	{
	"epoch": 15.588235294117647,
	"grad_norm": 0.042294692248106,
	"learning_rate": 6.795777628163599e-05,
	"loss": 0.0045,
	"step": 140
	},
	{
	"epoch": 16.0,
	"eval_loss": 1.1277925968170166,
	"eval_runtime": 3.3661,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 144
	},
	{
	"epoch": 16.11764705882353,
	"grad_norm": 0.03719251602888107,
	"learning_rate": 5.786809309654982e-05,
	"loss": 0.007,
	"step": 145
	},
	{
	"epoch": 16.705882352941178,
	"grad_norm": 0.03469066694378853,
	"learning_rate": 4.840776425613886e-05,
	"loss": 0.0051,
	"step": 150
	},
	{
	"epoch": 17.0,
	"eval_loss": 1.1320844888687134,
	"eval_runtime": 3.3665,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 153
	},
	{
	"epoch": 17.235294117647058,
	"grad_norm": 0.04715495929121971,
	"learning_rate": 3.964141339903026e-05,
	"loss": 0.0039,
	"step": 155
	},
	{
	"epoch": 17.823529411764707,
	"grad_norm": 0.10318444669246674,
	"learning_rate": 3.162892359054098e-05,
	"loss": 0.0031,
	"step": 160
	},
	{
	"epoch": 18.0,
	"eval_loss": 1.1403193473815918,
	"eval_runtime": 3.3665,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 162
	}
	],
	"logging_steps": 5,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 25,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.395354535852851e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}