Upload folder using huggingface_hub

11f3e2d verified 11 months ago

4.79 kB

	{
	"best_global_step": 27,
	"best_metric": 0.5779597759246826,
	"best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-27",
	"epoch": 8.0,
	"eval_steps": 500,
	"global_step": 72,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.5882352941176471,
	"grad_norm": 0.2979797124862671,
	"learning_rate": 0.00015,
	"loss": 0.7889,
	"step": 5
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.6737979650497437,
	"eval_runtime": 3.3675,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 9
	},
	{
	"epoch": 1.1176470588235294,
	"grad_norm": 0.20464661717414856,
	"learning_rate": 0.0003,
	"loss": 0.6771,
	"step": 10
	},
	{
	"epoch": 1.7058823529411766,
	"grad_norm": 0.1992536187171936,
	"learning_rate": 0.00029948767395100045,
	"loss": 0.6255,
	"step": 15
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6006895303726196,
	"eval_runtime": 3.3642,
	"eval_samples_per_second": 4.459,
	"eval_steps_per_second": 0.594,
	"step": 18
	},
	{
	"epoch": 2.235294117647059,
	"grad_norm": 0.19050121307373047,
	"learning_rate": 0.00029795419551040833,
	"loss": 0.5302,
	"step": 20
	},
	{
	"epoch": 2.8235294117647056,
	"grad_norm": 0.17813433706760406,
	"learning_rate": 0.0002954100398908995,
	"loss": 0.4439,
	"step": 25
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.5779597759246826,
	"eval_runtime": 3.3656,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 27
	},
	{
	"epoch": 3.3529411764705883,
	"grad_norm": 0.23658457398414612,
	"learning_rate": 0.00029187258625509513,
	"loss": 0.4257,
	"step": 30
	},
	{
	"epoch": 3.9411764705882355,
	"grad_norm": 0.27489331364631653,
	"learning_rate": 0.00028736599899825856,
	"loss": 0.3254,
	"step": 35
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.5997567772865295,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 36
	},
	{
	"epoch": 4.470588235294118,
	"grad_norm": 0.3510420620441437,
	"learning_rate": 0.00028192106268097334,
	"loss": 0.2985,
	"step": 40
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.4653756320476532,
	"learning_rate": 0.00027557497173937923,
	"loss": 0.2828,
	"step": 45
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.6584295034408569,
	"eval_runtime": 3.3668,
	"eval_samples_per_second": 4.455,
	"eval_steps_per_second": 0.594,
	"step": 45
	},
	{
	"epoch": 5.588235294117647,
	"grad_norm": 0.3469710052013397,
	"learning_rate": 0.00026837107640945905,
	"loss": 0.2038,
	"step": 50
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.751620888710022,
	"eval_runtime": 3.3651,
	"eval_samples_per_second": 4.458,
	"eval_steps_per_second": 0.594,
	"step": 54
	},
	{
	"epoch": 6.117647058823529,
	"grad_norm": 0.3903103470802307,
	"learning_rate": 0.0002603585866009697,
	"loss": 0.1656,
	"step": 55
	},
	{
	"epoch": 6.705882352941177,
	"grad_norm": 0.38518330454826355,
	"learning_rate": 0.00025159223574386114,
	"loss": 0.1296,
	"step": 60
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.8753386735916138,
	"eval_runtime": 3.3654,
	"eval_samples_per_second": 4.457,
	"eval_steps_per_second": 0.594,
	"step": 63
	},
	{
	"epoch": 7.235294117647059,
	"grad_norm": 0.24312527477741241,
	"learning_rate": 0.00024213190690345018,
	"loss": 0.085,
	"step": 65
	},
	{
	"epoch": 7.823529411764706,
	"grad_norm": 0.3267911970615387,
	"learning_rate": 0.00023204222371836405,
	"loss": 0.0751,
	"step": 70
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.8750011920928955,
	"eval_runtime": 3.3678,
	"eval_samples_per_second": 4.454,
	"eval_steps_per_second": 0.594,
	"step": 72
	}
	],
	"logging_steps": 5,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 25,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.746749366989619e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}