| { | |
| "best_metric": 0.0629316121339798, | |
| "best_model_checkpoint": "./Swin-GPT2_Mimic/checkpoint-37500", | |
| "epoch": 5.0, | |
| "eval_steps": 500, | |
| "global_step": 37500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.07, | |
| "learning_rate": 4.9833333333333336e-05, | |
| "loss": 0.1362, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.13, | |
| "learning_rate": 4.966666666666667e-05, | |
| "loss": 0.089, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "learning_rate": 4.9500000000000004e-05, | |
| "loss": 0.0805, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.27, | |
| "learning_rate": 4.933333333333334e-05, | |
| "loss": 0.0779, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.33, | |
| "learning_rate": 4.9166666666666665e-05, | |
| "loss": 0.0775, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "learning_rate": 4.9e-05, | |
| "loss": 0.0763, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.47, | |
| "learning_rate": 4.883333333333334e-05, | |
| "loss": 0.0749, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.53, | |
| "learning_rate": 4.866666666666667e-05, | |
| "loss": 0.0702, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "learning_rate": 4.85e-05, | |
| "loss": 0.0701, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.67, | |
| "learning_rate": 4.8333333333333334e-05, | |
| "loss": 0.0715, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.73, | |
| "learning_rate": 4.8166666666666674e-05, | |
| "loss": 0.0725, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "learning_rate": 4.8e-05, | |
| "loss": 0.0677, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.87, | |
| "learning_rate": 4.7833333333333335e-05, | |
| "loss": 0.0696, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.93, | |
| "learning_rate": 4.766666666666667e-05, | |
| "loss": 0.065, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "learning_rate": 4.75e-05, | |
| "loss": 0.0646, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_gen_len": 8.897, | |
| "eval_loss": 0.06988305598497391, | |
| "eval_rouge1": 34.7412, | |
| "eval_rouge2": 25.6954, | |
| "eval_rougeL": 34.4803, | |
| "eval_rougeLsum": 34.7871, | |
| "eval_runtime": 103.0848, | |
| "eval_samples_per_second": 9.701, | |
| "eval_steps_per_second": 1.213, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 1.07, | |
| "learning_rate": 4.7333333333333336e-05, | |
| "loss": 0.0651, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 1.13, | |
| "learning_rate": 4.716666666666667e-05, | |
| "loss": 0.0647, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "learning_rate": 4.7e-05, | |
| "loss": 0.0644, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 1.27, | |
| "learning_rate": 4.683333333333334e-05, | |
| "loss": 0.0613, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 1.33, | |
| "learning_rate": 4.666666666666667e-05, | |
| "loss": 0.0664, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "learning_rate": 4.6500000000000005e-05, | |
| "loss": 0.0631, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 1.47, | |
| "learning_rate": 4.633333333333333e-05, | |
| "loss": 0.0623, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 1.53, | |
| "learning_rate": 4.6166666666666666e-05, | |
| "loss": 0.0612, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "learning_rate": 4.600000000000001e-05, | |
| "loss": 0.062, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 1.67, | |
| "learning_rate": 4.5833333333333334e-05, | |
| "loss": 0.0605, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.73, | |
| "learning_rate": 4.566666666666667e-05, | |
| "loss": 0.0619, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "learning_rate": 4.55e-05, | |
| "loss": 0.062, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 1.87, | |
| "learning_rate": 4.5333333333333335e-05, | |
| "loss": 0.0622, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.93, | |
| "learning_rate": 4.516666666666667e-05, | |
| "loss": 0.06, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "learning_rate": 4.5e-05, | |
| "loss": 0.0597, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_gen_len": 14.724, | |
| "eval_loss": 0.06516863405704498, | |
| "eval_rouge1": 38.0809, | |
| "eval_rouge2": 26.9533, | |
| "eval_rougeL": 37.259, | |
| "eval_rougeLsum": 37.8078, | |
| "eval_runtime": 113.6453, | |
| "eval_samples_per_second": 8.799, | |
| "eval_steps_per_second": 1.1, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 2.07, | |
| "learning_rate": 4.483333333333333e-05, | |
| "loss": 0.0559, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 2.13, | |
| "learning_rate": 4.466666666666667e-05, | |
| "loss": 0.0595, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "learning_rate": 4.4500000000000004e-05, | |
| "loss": 0.0569, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 2.27, | |
| "learning_rate": 4.433333333333334e-05, | |
| "loss": 0.0558, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 2.33, | |
| "learning_rate": 4.4166666666666665e-05, | |
| "loss": 0.0578, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "learning_rate": 4.4000000000000006e-05, | |
| "loss": 0.0571, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 2.47, | |
| "learning_rate": 4.383333333333334e-05, | |
| "loss": 0.0586, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 2.53, | |
| "learning_rate": 4.3666666666666666e-05, | |
| "loss": 0.0577, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "learning_rate": 4.35e-05, | |
| "loss": 0.0583, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 2.67, | |
| "learning_rate": 4.3333333333333334e-05, | |
| "loss": 0.0574, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 2.73, | |
| "learning_rate": 4.316666666666667e-05, | |
| "loss": 0.0563, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "learning_rate": 4.3e-05, | |
| "loss": 0.057, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 2.87, | |
| "learning_rate": 4.2833333333333335e-05, | |
| "loss": 0.0559, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 2.93, | |
| "learning_rate": 4.266666666666667e-05, | |
| "loss": 0.0565, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "learning_rate": 4.25e-05, | |
| "loss": 0.0577, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_gen_len": 13.501, | |
| "eval_loss": 0.06393314898014069, | |
| "eval_rouge1": 37.8142, | |
| "eval_rouge2": 26.9542, | |
| "eval_rougeL": 37.076, | |
| "eval_rougeLsum": 37.5874, | |
| "eval_runtime": 112.3223, | |
| "eval_samples_per_second": 8.903, | |
| "eval_steps_per_second": 1.113, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 3.07, | |
| "learning_rate": 4.233333333333334e-05, | |
| "loss": 0.0511, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 3.13, | |
| "learning_rate": 4.216666666666667e-05, | |
| "loss": 0.0526, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "learning_rate": 4.2e-05, | |
| "loss": 0.0514, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 3.27, | |
| "learning_rate": 4.183333333333334e-05, | |
| "loss": 0.053, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 3.33, | |
| "learning_rate": 4.166666666666667e-05, | |
| "loss": 0.0526, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 3.4, | |
| "learning_rate": 4.15e-05, | |
| "loss": 0.0542, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 3.47, | |
| "learning_rate": 4.133333333333333e-05, | |
| "loss": 0.0533, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 3.53, | |
| "learning_rate": 4.116666666666667e-05, | |
| "loss": 0.0537, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 3.6, | |
| "learning_rate": 4.1e-05, | |
| "loss": 0.0519, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 3.67, | |
| "learning_rate": 4.0833333333333334e-05, | |
| "loss": 0.0532, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 3.73, | |
| "learning_rate": 4.066666666666667e-05, | |
| "loss": 0.0538, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 3.8, | |
| "learning_rate": 4.05e-05, | |
| "loss": 0.0533, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 3.87, | |
| "learning_rate": 4.0333333333333336e-05, | |
| "loss": 0.0544, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 3.93, | |
| "learning_rate": 4.016666666666667e-05, | |
| "loss": 0.0536, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "learning_rate": 4e-05, | |
| "loss": 0.0528, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "eval_gen_len": 11.784, | |
| "eval_loss": 0.06298327445983887, | |
| "eval_rouge1": 37.8876, | |
| "eval_rouge2": 26.9586, | |
| "eval_rougeL": 37.2585, | |
| "eval_rougeLsum": 37.7378, | |
| "eval_runtime": 109.3283, | |
| "eval_samples_per_second": 9.147, | |
| "eval_steps_per_second": 1.143, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 4.07, | |
| "learning_rate": 3.983333333333333e-05, | |
| "loss": 0.0488, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 4.13, | |
| "learning_rate": 3.966666666666667e-05, | |
| "loss": 0.0475, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 4.2, | |
| "learning_rate": 3.9500000000000005e-05, | |
| "loss": 0.0487, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 4.27, | |
| "learning_rate": 3.933333333333333e-05, | |
| "loss": 0.0493, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 4.33, | |
| "learning_rate": 3.9166666666666665e-05, | |
| "loss": 0.0482, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 4.4, | |
| "learning_rate": 3.9000000000000006e-05, | |
| "loss": 0.0504, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 4.47, | |
| "learning_rate": 3.883333333333333e-05, | |
| "loss": 0.0495, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 4.53, | |
| "learning_rate": 3.866666666666667e-05, | |
| "loss": 0.0477, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 4.6, | |
| "learning_rate": 3.85e-05, | |
| "loss": 0.049, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 4.67, | |
| "learning_rate": 3.8333333333333334e-05, | |
| "loss": 0.0483, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 4.73, | |
| "learning_rate": 3.816666666666667e-05, | |
| "loss": 0.0509, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 4.8, | |
| "learning_rate": 3.8e-05, | |
| "loss": 0.0505, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 4.87, | |
| "learning_rate": 3.7833333333333336e-05, | |
| "loss": 0.0506, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 4.93, | |
| "learning_rate": 3.766666666666667e-05, | |
| "loss": 0.049, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "learning_rate": 3.7500000000000003e-05, | |
| "loss": 0.0485, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "eval_gen_len": 14.157, | |
| "eval_loss": 0.0629316121339798, | |
| "eval_rouge1": 39.0822, | |
| "eval_rouge2": 27.4073, | |
| "eval_rougeL": 38.1885, | |
| "eval_rougeLsum": 38.8776, | |
| "eval_runtime": 112.3853, | |
| "eval_samples_per_second": 8.898, | |
| "eval_steps_per_second": 1.112, | |
| "step": 37500 | |
| } | |
| ], | |
| "logging_steps": 500, | |
| "max_steps": 150000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 20, | |
| "save_steps": 500, | |
| "total_flos": 1.601193167290368e+20, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |