Upload folder using huggingface_hub

11f3e2d verified 11 months ago

6.23 kB

	{
	"best_global_step": 27,
	"best_metric": 0.5779597759246826,
	"best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-27",
	"epoch": 11.0,
	"eval_steps": 500,
	"global_step": 99,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.5882352941176471,
	"grad_norm": 0.2979797124862671,
	"learning_rate": 0.00015,
	"loss": 0.7889,
	"step": 5
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.6737979650497437,
	"eval_runtime": 3.3675,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 9
	},
	{
	"epoch": 1.1176470588235294,
	"grad_norm": 0.20464661717414856,
	"learning_rate": 0.0003,
	"loss": 0.6771,
	"step": 10
	},
	{
	"epoch": 1.7058823529411766,
	"grad_norm": 0.1992536187171936,
	"learning_rate": 0.00029948767395100045,
	"loss": 0.6255,
	"step": 15
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6006895303726196,
	"eval_runtime": 3.3642,
	"eval_samples_per_second": 4.459,
	"eval_steps_per_second": 0.594,
	"step": 18
	},
	{
	"epoch": 2.235294117647059,
	"grad_norm": 0.19050121307373047,
	"learning_rate": 0.00029795419551040833,
	"loss": 0.5302,
	"step": 20
	},
	{
	"epoch": 2.8235294117647056,
	"grad_norm": 0.17813433706760406,
	"learning_rate": 0.0002954100398908995,
	"loss": 0.4439,
	"step": 25
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.5779597759246826,
	"eval_runtime": 3.3656,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 27
	},
	{
	"epoch": 3.3529411764705883,
	"grad_norm": 0.23658457398414612,
	"learning_rate": 0.00029187258625509513,
	"loss": 0.4257,
	"step": 30
	},
	{
	"epoch": 3.9411764705882355,
	"grad_norm": 0.27489331364631653,
	"learning_rate": 0.00028736599899825856,
	"loss": 0.3254,
	"step": 35
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.5997567772865295,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 36
	},
	{
	"epoch": 4.470588235294118,
	"grad_norm": 0.3510420620441437,
	"learning_rate": 0.00028192106268097334,
	"loss": 0.2985,
	"step": 40
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.4653756320476532,
	"learning_rate": 0.00027557497173937923,
	"loss": 0.2828,
	"step": 45
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.6584295034408569,
	"eval_runtime": 3.3668,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 45
	},
	{
	"epoch": 5.588235294117647,
	"grad_norm": 0.3469710052013397,
	"learning_rate": 0.00026837107640945905,
	"loss": 0.2038,
	"step": 50
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.751620888710022,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 54
	},
	{
	"epoch": 6.117647058823529,
	"grad_norm": 0.3903103470802307,
	"learning_rate": 0.0002603585866009697,
	"loss": 0.1656,
	"step": 55
	},
	{
	"epoch": 6.705882352941177,
	"grad_norm": 0.38518330454826355,
	"learning_rate": 0.00025159223574386114,
	"loss": 0.1296,
	"step": 60
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.8753386735916138,
	"eval_runtime": 3.3654,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 63
	},
	{
	"epoch": 7.235294117647059,
	"grad_norm": 0.24312527477741241,
	"learning_rate": 0.00024213190690345018,
	"loss": 0.085,
	"step": 65
	},
	{
	"epoch": 7.823529411764706,
	"grad_norm": 0.3267911970615387,
	"learning_rate": 0.00023204222371836405,
	"loss": 0.0751,
	"step": 70
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.8750011920928955,
	"eval_runtime": 3.3678,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 72
	},
	{
	"epoch": 8.352941176470589,
	"grad_norm": 0.24549448490142822,
	"learning_rate": 0.00022139210895556104,
	"loss": 0.0576,
	"step": 75
	},
	{
	"epoch": 8.941176470588236,
	"grad_norm": 0.3071894347667694,
	"learning_rate": 0.0002102543136979454,
	"loss": 0.0475,
	"step": 80
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.9990332126617432,
	"eval_runtime": 3.3671,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 81
	},
	{
	"epoch": 9.470588235294118,
	"grad_norm": 0.17012739181518555,
	"learning_rate": 0.00019870492038070252,
	"loss": 0.0282,
	"step": 85
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.2809393107891083,
	"learning_rate": 0.00018682282307111987,
	"loss": 0.0249,
	"step": 90
	},
	{
	"epoch": 10.0,
	"eval_loss": 1.022998571395874,
	"eval_runtime": 3.3665,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 90
	},
	{
	"epoch": 10.588235294117647,
	"grad_norm": 0.16731834411621094,
	"learning_rate": 0.00017468918854211007,
	"loss": 0.0151,
	"step": 95
	},
	{
	"epoch": 11.0,
	"eval_loss": 1.0694772005081177,
	"eval_runtime": 3.3662,
	"eval_samples_per_second": 4.456,
	"eval_steps_per_second": 0.594,
	"step": 99
	}
	],
	"logging_steps": 5,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 25,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.146100297640346e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}