| { | |
| "best_metric": 24.366, | |
| "best_model_checkpoint": "/home/hpcpudu1/rds/hpc-work/data/pretrain-mds/led_pretrain/ver2/gen_model/Centrum_base_multinews_23-7-22.2/checkpoint-23000", | |
| "epoch": 8.896557858222895, | |
| "global_step": 25000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0, | |
| "learning_rate": 1.2000000000000002e-08, | |
| "loss": 3.7881, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "learning_rate": 1.2000000000000002e-06, | |
| "loss": 3.5568, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "learning_rate": 2.4000000000000003e-06, | |
| "loss": 3.5213, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.11, | |
| "learning_rate": 3.6e-06, | |
| "loss": 3.49, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "learning_rate": 4.800000000000001e-06, | |
| "loss": 3.4612, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "learning_rate": 6e-06, | |
| "loss": 3.4476, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.21, | |
| "learning_rate": 7.2e-06, | |
| "loss": 3.4241, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "learning_rate": 8.400000000000001e-06, | |
| "loss": 3.4164, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "learning_rate": 9.600000000000001e-06, | |
| "loss": 3.4208, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "learning_rate": 1.08e-05, | |
| "loss": 3.4008, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "learning_rate": 1.2e-05, | |
| "loss": 3.4391, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.39, | |
| "learning_rate": 1.32e-05, | |
| "loss": 3.3908, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.43, | |
| "learning_rate": 1.44e-05, | |
| "loss": 3.3961, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "learning_rate": 1.56e-05, | |
| "loss": 3.4042, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "learning_rate": 1.6800000000000002e-05, | |
| "loss": 3.3847, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.53, | |
| "learning_rate": 1.8e-05, | |
| "loss": 3.3763, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.57, | |
| "learning_rate": 1.9200000000000003e-05, | |
| "loss": 3.3873, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "learning_rate": 2.04e-05, | |
| "loss": 3.3817, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "learning_rate": 2.16e-05, | |
| "loss": 3.363, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "learning_rate": 2.2800000000000002e-05, | |
| "loss": 3.3631, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.71, | |
| "learning_rate": 2.4e-05, | |
| "loss": 3.3734, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "learning_rate": 2.52e-05, | |
| "loss": 3.3414, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.78, | |
| "learning_rate": 2.64e-05, | |
| "loss": 3.384, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.82, | |
| "learning_rate": 2.7600000000000003e-05, | |
| "loss": 3.3718, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "learning_rate": 2.88e-05, | |
| "loss": 3.3669, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.89, | |
| "learning_rate": 3e-05, | |
| "loss": 3.3649, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.93, | |
| "learning_rate": 2.9866666666666666e-05, | |
| "loss": 3.3537, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "learning_rate": 2.9733333333333336e-05, | |
| "loss": 3.393, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "learning_rate": 2.96e-05, | |
| "loss": 3.3729, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 1.03, | |
| "learning_rate": 2.9466666666666667e-05, | |
| "loss": 3.3593, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 1.07, | |
| "learning_rate": 2.9333333333333333e-05, | |
| "loss": 3.3256, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "learning_rate": 2.92e-05, | |
| "loss": 3.2975, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 1.14, | |
| "learning_rate": 2.9066666666666667e-05, | |
| "loss": 3.3259, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 1.17, | |
| "learning_rate": 2.8933333333333333e-05, | |
| "loss": 3.3079, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 1.21, | |
| "learning_rate": 2.88e-05, | |
| "loss": 3.302, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "learning_rate": 2.8666666666666668e-05, | |
| "loss": 3.2971, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "learning_rate": 2.8533333333333333e-05, | |
| "loss": 3.3297, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "learning_rate": 2.84e-05, | |
| "loss": 3.3068, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 1.35, | |
| "learning_rate": 2.8268e-05, | |
| "loss": 3.31, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 1.39, | |
| "learning_rate": 2.8134666666666667e-05, | |
| "loss": 3.2908, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 1.42, | |
| "learning_rate": 2.8001333333333332e-05, | |
| "loss": 3.2954, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "learning_rate": 2.7868e-05, | |
| "loss": 3.3029, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 1.49, | |
| "learning_rate": 2.7734666666666667e-05, | |
| "loss": 3.3064, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 1.53, | |
| "learning_rate": 2.7601333333333333e-05, | |
| "loss": 3.2857, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 1.57, | |
| "learning_rate": 2.7468e-05, | |
| "loss": 3.2781, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "learning_rate": 2.7334666666666668e-05, | |
| "loss": 3.3019, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 1.64, | |
| "learning_rate": 2.7201333333333333e-05, | |
| "loss": 3.2978, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 1.67, | |
| "learning_rate": 2.7068e-05, | |
| "loss": 3.3186, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 1.71, | |
| "learning_rate": 2.6934666666666665e-05, | |
| "loss": 3.2843, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "learning_rate": 2.6801333333333334e-05, | |
| "loss": 3.2863, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "learning_rate": 2.6668000000000003e-05, | |
| "loss": 3.2702, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "eval_gen_len": 277.1855, | |
| "eval_loss": 3.2853293418884277, | |
| "eval_rouge1": 44.0203, | |
| "eval_rouge2": 16.6061, | |
| "eval_rougeL": 23.3846, | |
| "eval_rougeLsum": 40.3853, | |
| "eval_runtime": 1402.4156, | |
| "eval_samples_per_second": 4.009, | |
| "eval_steps_per_second": 0.251, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.81, | |
| "learning_rate": 2.653466666666667e-05, | |
| "loss": 3.3022, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 1.85, | |
| "learning_rate": 2.6401333333333334e-05, | |
| "loss": 3.29, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 1.89, | |
| "learning_rate": 2.6268000000000003e-05, | |
| "loss": 3.2893, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "learning_rate": 2.613466666666667e-05, | |
| "loss": 3.2849, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "learning_rate": 2.6001333333333335e-05, | |
| "loss": 3.2762, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "eval_gen_len": 288.4173, | |
| "eval_loss": 3.2852535247802734, | |
| "eval_rouge1": 44.725, | |
| "eval_rouge2": 16.9262, | |
| "eval_rougeL": 23.475, | |
| "eval_rougeLsum": 41.0003, | |
| "eval_runtime": 1344.5644, | |
| "eval_samples_per_second": 4.181, | |
| "eval_steps_per_second": 0.262, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 1.99, | |
| "learning_rate": 2.5868e-05, | |
| "loss": 3.2937, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 2.03, | |
| "learning_rate": 2.573466666666667e-05, | |
| "loss": 3.2614, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "learning_rate": 2.5601333333333335e-05, | |
| "loss": 3.1995, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "learning_rate": 2.5468e-05, | |
| "loss": 3.2162, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 2.14, | |
| "learning_rate": 2.5334666666666666e-05, | |
| "loss": 3.2114, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 2.14, | |
| "eval_gen_len": 257.2761, | |
| "eval_loss": 3.2857086658477783, | |
| "eval_rouge1": 44.6456, | |
| "eval_rouge2": 17.0245, | |
| "eval_rougeL": 23.7328, | |
| "eval_rougeLsum": 40.9131, | |
| "eval_runtime": 1239.4823, | |
| "eval_samples_per_second": 4.536, | |
| "eval_steps_per_second": 0.284, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 2.17, | |
| "learning_rate": 2.5201333333333336e-05, | |
| "loss": 3.202, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 2.21, | |
| "learning_rate": 2.5068e-05, | |
| "loss": 3.2089, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "learning_rate": 2.4934666666666667e-05, | |
| "loss": 3.2109, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 2.28, | |
| "learning_rate": 2.4801333333333333e-05, | |
| "loss": 3.2073, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 2.31, | |
| "learning_rate": 2.4668e-05, | |
| "loss": 3.1981, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 2.31, | |
| "eval_gen_len": 254.8618, | |
| "eval_loss": 3.2817349433898926, | |
| "eval_rouge1": 44.7869, | |
| "eval_rouge2": 17.0849, | |
| "eval_rougeL": 23.8372, | |
| "eval_rougeLsum": 41.0669, | |
| "eval_runtime": 1197.7293, | |
| "eval_samples_per_second": 4.694, | |
| "eval_steps_per_second": 0.294, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 2.35, | |
| "learning_rate": 2.4534666666666667e-05, | |
| "loss": 3.2258, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 2.38, | |
| "learning_rate": 2.4401333333333333e-05, | |
| "loss": 3.2252, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 2.42, | |
| "learning_rate": 2.4268e-05, | |
| "loss": 3.2252, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 2.46, | |
| "learning_rate": 2.4134666666666668e-05, | |
| "loss": 3.2218, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 2.49, | |
| "learning_rate": 2.4001333333333333e-05, | |
| "loss": 3.2298, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 2.49, | |
| "eval_gen_len": 263.0854, | |
| "eval_loss": 3.2801525592803955, | |
| "eval_rouge1": 45.2657, | |
| "eval_rouge2": 17.2618, | |
| "eval_rougeL": 23.8204, | |
| "eval_rougeLsum": 41.5807, | |
| "eval_runtime": 1199.3644, | |
| "eval_samples_per_second": 4.687, | |
| "eval_steps_per_second": 0.293, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 2.53, | |
| "learning_rate": 2.3868e-05, | |
| "loss": 3.206, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "learning_rate": 2.3734666666666665e-05, | |
| "loss": 3.2062, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "learning_rate": 2.3601333333333334e-05, | |
| "loss": 3.2241, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 2.63, | |
| "learning_rate": 2.3468e-05, | |
| "loss": 3.2116, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 2.67, | |
| "learning_rate": 2.3334666666666665e-05, | |
| "loss": 3.2167, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 2.67, | |
| "eval_gen_len": 244.6939, | |
| "eval_loss": 3.2773149013519287, | |
| "eval_rouge1": 44.9516, | |
| "eval_rouge2": 17.0538, | |
| "eval_rougeL": 23.7894, | |
| "eval_rougeLsum": 41.1673, | |
| "eval_runtime": 1137.295, | |
| "eval_samples_per_second": 4.943, | |
| "eval_steps_per_second": 0.31, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "learning_rate": 2.3201333333333334e-05, | |
| "loss": 3.219, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 2.74, | |
| "learning_rate": 2.3068e-05, | |
| "loss": 3.2057, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 2.78, | |
| "learning_rate": 2.2936e-05, | |
| "loss": 3.2029, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 2.81, | |
| "learning_rate": 2.2802666666666668e-05, | |
| "loss": 3.2395, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 2.85, | |
| "learning_rate": 2.2669333333333333e-05, | |
| "loss": 3.2069, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 2.85, | |
| "eval_gen_len": 245.4036, | |
| "eval_loss": 3.2712182998657227, | |
| "eval_rouge1": 45.2153, | |
| "eval_rouge2": 17.2766, | |
| "eval_rougeL": 23.9883, | |
| "eval_rougeLsum": 41.4558, | |
| "eval_runtime": 1117.2186, | |
| "eval_samples_per_second": 5.032, | |
| "eval_steps_per_second": 0.315, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "learning_rate": 2.2536e-05, | |
| "loss": 3.2034, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 2.92, | |
| "learning_rate": 2.2402666666666665e-05, | |
| "loss": 3.2163, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 2.95, | |
| "learning_rate": 2.2269333333333334e-05, | |
| "loss": 3.2158, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 2.99, | |
| "learning_rate": 2.2136e-05, | |
| "loss": 3.2205, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 3.02, | |
| "learning_rate": 2.2002666666666665e-05, | |
| "loss": 3.1822, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 3.02, | |
| "eval_gen_len": 254.6624, | |
| "eval_loss": 3.2785804271698, | |
| "eval_rouge1": 45.4747, | |
| "eval_rouge2": 17.6754, | |
| "eval_rougeL": 24.1878, | |
| "eval_rougeLsum": 41.7304, | |
| "eval_runtime": 1171.0921, | |
| "eval_samples_per_second": 4.801, | |
| "eval_steps_per_second": 0.301, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 3.06, | |
| "learning_rate": 2.186933333333333e-05, | |
| "loss": 3.1397, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 3.1, | |
| "learning_rate": 2.1736e-05, | |
| "loss": 3.1659, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 3.13, | |
| "learning_rate": 2.1602666666666666e-05, | |
| "loss": 3.1318, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 3.17, | |
| "learning_rate": 2.1469333333333335e-05, | |
| "loss": 3.162, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "learning_rate": 2.1336000000000004e-05, | |
| "loss": 3.1529, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "eval_gen_len": 246.0157, | |
| "eval_loss": 3.2740354537963867, | |
| "eval_rouge1": 44.9033, | |
| "eval_rouge2": 17.1386, | |
| "eval_rougeL": 23.8511, | |
| "eval_rougeLsum": 41.177, | |
| "eval_runtime": 1185.3803, | |
| "eval_samples_per_second": 4.743, | |
| "eval_steps_per_second": 0.297, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 3.24, | |
| "learning_rate": 2.120266666666667e-05, | |
| "loss": 3.1241, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 3.27, | |
| "learning_rate": 2.1069333333333335e-05, | |
| "loss": 3.1537, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 3.31, | |
| "learning_rate": 2.0936e-05, | |
| "loss": 3.1589, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 3.35, | |
| "learning_rate": 2.080266666666667e-05, | |
| "loss": 3.1415, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 3.38, | |
| "learning_rate": 2.0669333333333336e-05, | |
| "loss": 3.1407, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 3.38, | |
| "eval_gen_len": 243.4922, | |
| "eval_loss": 3.270354986190796, | |
| "eval_rouge1": 45.1045, | |
| "eval_rouge2": 17.2335, | |
| "eval_rougeL": 23.9124, | |
| "eval_rougeLsum": 41.3243, | |
| "eval_runtime": 1159.3428, | |
| "eval_samples_per_second": 4.849, | |
| "eval_steps_per_second": 0.304, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 3.42, | |
| "learning_rate": 2.0536e-05, | |
| "loss": 3.149, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 3.45, | |
| "learning_rate": 2.0402666666666667e-05, | |
| "loss": 3.1539, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 3.49, | |
| "learning_rate": 2.027066666666667e-05, | |
| "loss": 3.1539, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 3.52, | |
| "learning_rate": 2.0137333333333335e-05, | |
| "loss": 3.158, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 3.56, | |
| "learning_rate": 2.0004e-05, | |
| "loss": 3.1376, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 3.56, | |
| "eval_gen_len": 243.8396, | |
| "eval_loss": 3.272122621536255, | |
| "eval_rouge1": 45.2694, | |
| "eval_rouge2": 17.4797, | |
| "eval_rougeL": 24.1072, | |
| "eval_rougeLsum": 41.5441, | |
| "eval_runtime": 1143.3015, | |
| "eval_samples_per_second": 4.917, | |
| "eval_steps_per_second": 0.308, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 3.59, | |
| "learning_rate": 1.987066666666667e-05, | |
| "loss": 3.1475, | |
| "step": 10100 | |
| }, | |
| { | |
| "epoch": 3.63, | |
| "learning_rate": 1.9737333333333335e-05, | |
| "loss": 3.1553, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 3.67, | |
| "learning_rate": 1.9604e-05, | |
| "loss": 3.1589, | |
| "step": 10300 | |
| }, | |
| { | |
| "epoch": 3.7, | |
| "learning_rate": 1.9470666666666666e-05, | |
| "loss": 3.1712, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 3.74, | |
| "learning_rate": 1.9337333333333335e-05, | |
| "loss": 3.1545, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 3.74, | |
| "eval_gen_len": 231.1805, | |
| "eval_loss": 3.271965503692627, | |
| "eval_rouge1": 45.3105, | |
| "eval_rouge2": 17.6338, | |
| "eval_rougeL": 24.1547, | |
| "eval_rougeLsum": 41.5731, | |
| "eval_runtime": 1051.5864, | |
| "eval_samples_per_second": 5.346, | |
| "eval_steps_per_second": 0.335, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 3.77, | |
| "learning_rate": 1.9204e-05, | |
| "loss": 3.1598, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 3.81, | |
| "learning_rate": 1.9070666666666667e-05, | |
| "loss": 3.1684, | |
| "step": 10700 | |
| }, | |
| { | |
| "epoch": 3.84, | |
| "learning_rate": 1.8937333333333336e-05, | |
| "loss": 3.1703, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 3.88, | |
| "learning_rate": 1.8804e-05, | |
| "loss": 3.1506, | |
| "step": 10900 | |
| }, | |
| { | |
| "epoch": 3.91, | |
| "learning_rate": 1.8670666666666667e-05, | |
| "loss": 3.1307, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 3.91, | |
| "eval_gen_len": 250.1039, | |
| "eval_loss": 3.268434524536133, | |
| "eval_rouge1": 45.4309, | |
| "eval_rouge2": 17.2665, | |
| "eval_rougeL": 23.8954, | |
| "eval_rougeLsum": 41.6518, | |
| "eval_runtime": 1131.5203, | |
| "eval_samples_per_second": 4.969, | |
| "eval_steps_per_second": 0.311, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 3.95, | |
| "learning_rate": 1.8537333333333333e-05, | |
| "loss": 3.1651, | |
| "step": 11100 | |
| }, | |
| { | |
| "epoch": 3.99, | |
| "learning_rate": 1.8404000000000002e-05, | |
| "loss": 3.1617, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 4.02, | |
| "learning_rate": 1.8270666666666668e-05, | |
| "loss": 3.1417, | |
| "step": 11300 | |
| }, | |
| { | |
| "epoch": 4.06, | |
| "learning_rate": 1.8137333333333333e-05, | |
| "loss": 3.0753, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 4.09, | |
| "learning_rate": 1.8004e-05, | |
| "loss": 3.1022, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 4.09, | |
| "eval_gen_len": 242.5923, | |
| "eval_loss": 3.271904468536377, | |
| "eval_rouge1": 45.1959, | |
| "eval_rouge2": 17.4017, | |
| "eval_rougeL": 24.056, | |
| "eval_rougeLsum": 41.5363, | |
| "eval_runtime": 1125.9262, | |
| "eval_samples_per_second": 4.993, | |
| "eval_steps_per_second": 0.313, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 4.13, | |
| "learning_rate": 1.7870666666666668e-05, | |
| "loss": 3.0868, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 4.16, | |
| "learning_rate": 1.7737333333333334e-05, | |
| "loss": 3.1109, | |
| "step": 11700 | |
| }, | |
| { | |
| "epoch": 4.2, | |
| "learning_rate": 1.7605333333333332e-05, | |
| "loss": 3.0823, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 4.23, | |
| "learning_rate": 1.7472e-05, | |
| "loss": 3.0932, | |
| "step": 11900 | |
| }, | |
| { | |
| "epoch": 4.27, | |
| "learning_rate": 1.7338666666666667e-05, | |
| "loss": 3.1139, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 4.27, | |
| "eval_gen_len": 240.5701, | |
| "eval_loss": 3.27105712890625, | |
| "eval_rouge1": 45.3864, | |
| "eval_rouge2": 17.4653, | |
| "eval_rougeL": 24.028, | |
| "eval_rougeLsum": 41.6797, | |
| "eval_runtime": 1097.9204, | |
| "eval_samples_per_second": 5.121, | |
| "eval_steps_per_second": 0.321, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 4.31, | |
| "learning_rate": 1.7205333333333333e-05, | |
| "loss": 3.1077, | |
| "step": 12100 | |
| }, | |
| { | |
| "epoch": 4.34, | |
| "learning_rate": 1.7072000000000002e-05, | |
| "loss": 3.1018, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 4.38, | |
| "learning_rate": 1.6938666666666668e-05, | |
| "loss": 3.1089, | |
| "step": 12300 | |
| }, | |
| { | |
| "epoch": 4.41, | |
| "learning_rate": 1.6805333333333333e-05, | |
| "loss": 3.0964, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 4.45, | |
| "learning_rate": 1.6672e-05, | |
| "loss": 3.0978, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 4.45, | |
| "eval_gen_len": 232.1149, | |
| "eval_loss": 3.2721784114837646, | |
| "eval_rouge1": 45.5694, | |
| "eval_rouge2": 17.501, | |
| "eval_rougeL": 24.1452, | |
| "eval_rougeLsum": 41.7894, | |
| "eval_runtime": 1018.4617, | |
| "eval_samples_per_second": 5.52, | |
| "eval_steps_per_second": 0.346, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 4.48, | |
| "learning_rate": 1.6538666666666668e-05, | |
| "loss": 3.0998, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 4.52, | |
| "learning_rate": 1.6405333333333334e-05, | |
| "loss": 3.1115, | |
| "step": 12700 | |
| }, | |
| { | |
| "epoch": 4.56, | |
| "learning_rate": 1.6272e-05, | |
| "loss": 3.1083, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 4.59, | |
| "learning_rate": 1.6138666666666665e-05, | |
| "loss": 3.1112, | |
| "step": 12900 | |
| }, | |
| { | |
| "epoch": 4.63, | |
| "learning_rate": 1.6005333333333334e-05, | |
| "loss": 3.1082, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 4.63, | |
| "eval_gen_len": 245.1845, | |
| "eval_loss": 3.2687015533447266, | |
| "eval_rouge1": 45.504, | |
| "eval_rouge2": 17.5137, | |
| "eval_rougeL": 24.1067, | |
| "eval_rougeLsum": 41.7686, | |
| "eval_runtime": 1129.9664, | |
| "eval_samples_per_second": 4.975, | |
| "eval_steps_per_second": 0.312, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 4.66, | |
| "learning_rate": 1.5872e-05, | |
| "loss": 3.0868, | |
| "step": 13100 | |
| }, | |
| { | |
| "epoch": 4.7, | |
| "learning_rate": 1.5738666666666666e-05, | |
| "loss": 3.1087, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 4.73, | |
| "learning_rate": 1.5606666666666667e-05, | |
| "loss": 3.1035, | |
| "step": 13300 | |
| }, | |
| { | |
| "epoch": 4.77, | |
| "learning_rate": 1.5473333333333333e-05, | |
| "loss": 3.1254, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 4.8, | |
| "learning_rate": 1.534e-05, | |
| "loss": 3.1059, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 4.8, | |
| "eval_gen_len": 248.6327, | |
| "eval_loss": 3.268646717071533, | |
| "eval_rouge1": 45.3603, | |
| "eval_rouge2": 17.1619, | |
| "eval_rougeL": 23.8655, | |
| "eval_rougeLsum": 41.5953, | |
| "eval_runtime": 1136.3791, | |
| "eval_samples_per_second": 4.947, | |
| "eval_steps_per_second": 0.31, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 4.84, | |
| "learning_rate": 1.5206666666666668e-05, | |
| "loss": 3.1107, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 4.88, | |
| "learning_rate": 1.5073333333333335e-05, | |
| "loss": 3.1008, | |
| "step": 13700 | |
| }, | |
| { | |
| "epoch": 4.91, | |
| "learning_rate": 1.4940000000000001e-05, | |
| "loss": 3.1116, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 4.95, | |
| "learning_rate": 1.4806666666666668e-05, | |
| "loss": 3.1173, | |
| "step": 13900 | |
| }, | |
| { | |
| "epoch": 4.98, | |
| "learning_rate": 1.4673333333333334e-05, | |
| "loss": 3.1141, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 4.98, | |
| "eval_gen_len": 234.0194, | |
| "eval_loss": 3.265822410583496, | |
| "eval_rouge1": 45.2741, | |
| "eval_rouge2": 17.3814, | |
| "eval_rougeL": 24.0377, | |
| "eval_rougeLsum": 41.5263, | |
| "eval_runtime": 1076.885, | |
| "eval_samples_per_second": 5.221, | |
| "eval_steps_per_second": 0.327, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 5.02, | |
| "learning_rate": 1.4540000000000001e-05, | |
| "loss": 3.0773, | |
| "step": 14100 | |
| }, | |
| { | |
| "epoch": 5.05, | |
| "learning_rate": 1.4406666666666667e-05, | |
| "loss": 3.0749, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 5.09, | |
| "learning_rate": 1.4273333333333334e-05, | |
| "loss": 3.0473, | |
| "step": 14300 | |
| }, | |
| { | |
| "epoch": 5.12, | |
| "learning_rate": 1.414e-05, | |
| "loss": 3.0415, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 5.16, | |
| "learning_rate": 1.4006666666666668e-05, | |
| "loss": 3.0294, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 5.16, | |
| "eval_gen_len": 244.4207, | |
| "eval_loss": 3.2715883255004883, | |
| "eval_rouge1": 45.7203, | |
| "eval_rouge2": 17.5962, | |
| "eval_rougeL": 24.1367, | |
| "eval_rougeLsum": 41.9119, | |
| "eval_runtime": 1108.4185, | |
| "eval_samples_per_second": 5.072, | |
| "eval_steps_per_second": 0.318, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 5.2, | |
| "learning_rate": 1.3873333333333333e-05, | |
| "loss": 3.068, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 5.23, | |
| "learning_rate": 1.374e-05, | |
| "loss": 3.0561, | |
| "step": 14700 | |
| }, | |
| { | |
| "epoch": 5.27, | |
| "learning_rate": 1.3606666666666666e-05, | |
| "loss": 3.0738, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 5.3, | |
| "learning_rate": 1.3473333333333334e-05, | |
| "loss": 3.0854, | |
| "step": 14900 | |
| }, | |
| { | |
| "epoch": 5.34, | |
| "learning_rate": 1.334e-05, | |
| "loss": 3.0613, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 5.34, | |
| "eval_gen_len": 242.0381, | |
| "eval_loss": 3.26971435546875, | |
| "eval_rouge1": 45.775, | |
| "eval_rouge2": 17.6959, | |
| "eval_rougeL": 24.1867, | |
| "eval_rougeLsum": 42.0018, | |
| "eval_runtime": 1110.4898, | |
| "eval_samples_per_second": 5.063, | |
| "eval_steps_per_second": 0.317, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 5.37, | |
| "learning_rate": 1.3206666666666667e-05, | |
| "loss": 3.0704, | |
| "step": 15100 | |
| }, | |
| { | |
| "epoch": 5.41, | |
| "learning_rate": 1.3073333333333334e-05, | |
| "loss": 3.0419, | |
| "step": 15200 | |
| }, | |
| { | |
| "epoch": 5.44, | |
| "learning_rate": 1.2940000000000001e-05, | |
| "loss": 3.0748, | |
| "step": 15300 | |
| }, | |
| { | |
| "epoch": 5.48, | |
| "learning_rate": 1.2806666666666667e-05, | |
| "loss": 3.0509, | |
| "step": 15400 | |
| }, | |
| { | |
| "epoch": 5.52, | |
| "learning_rate": 1.2673333333333335e-05, | |
| "loss": 3.0549, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 5.52, | |
| "eval_gen_len": 242.5493, | |
| "eval_loss": 3.2702813148498535, | |
| "eval_rouge1": 45.8193, | |
| "eval_rouge2": 17.686, | |
| "eval_rougeL": 24.1997, | |
| "eval_rougeLsum": 42.0109, | |
| "eval_runtime": 1089.9866, | |
| "eval_samples_per_second": 5.158, | |
| "eval_steps_per_second": 0.323, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 5.55, | |
| "learning_rate": 1.254e-05, | |
| "loss": 3.0902, | |
| "step": 15600 | |
| }, | |
| { | |
| "epoch": 5.59, | |
| "learning_rate": 1.2406666666666668e-05, | |
| "loss": 3.0697, | |
| "step": 15700 | |
| }, | |
| { | |
| "epoch": 5.62, | |
| "learning_rate": 1.2273333333333333e-05, | |
| "loss": 3.0793, | |
| "step": 15800 | |
| }, | |
| { | |
| "epoch": 5.66, | |
| "learning_rate": 1.214e-05, | |
| "loss": 3.076, | |
| "step": 15900 | |
| }, | |
| { | |
| "epoch": 5.69, | |
| "learning_rate": 1.2006666666666666e-05, | |
| "loss": 3.0725, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 5.69, | |
| "eval_gen_len": 240.2812, | |
| "eval_loss": 3.2654964923858643, | |
| "eval_rouge1": 45.3515, | |
| "eval_rouge2": 17.3438, | |
| "eval_rougeL": 24.0586, | |
| "eval_rougeLsum": 41.6126, | |
| "eval_runtime": 1107.0741, | |
| "eval_samples_per_second": 5.078, | |
| "eval_steps_per_second": 0.318, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 5.73, | |
| "learning_rate": 1.1873333333333334e-05, | |
| "loss": 3.0904, | |
| "step": 16100 | |
| }, | |
| { | |
| "epoch": 5.76, | |
| "learning_rate": 1.174e-05, | |
| "loss": 3.082, | |
| "step": 16200 | |
| }, | |
| { | |
| "epoch": 5.8, | |
| "learning_rate": 1.1608000000000001e-05, | |
| "loss": 3.0543, | |
| "step": 16300 | |
| }, | |
| { | |
| "epoch": 5.84, | |
| "learning_rate": 1.1474666666666667e-05, | |
| "loss": 3.0445, | |
| "step": 16400 | |
| }, | |
| { | |
| "epoch": 5.87, | |
| "learning_rate": 1.1341333333333334e-05, | |
| "loss": 3.0728, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 5.87, | |
| "eval_gen_len": 250.455, | |
| "eval_loss": 3.2671351432800293, | |
| "eval_rouge1": 45.6791, | |
| "eval_rouge2": 17.5028, | |
| "eval_rougeL": 24.0691, | |
| "eval_rougeLsum": 41.9219, | |
| "eval_runtime": 1163.6259, | |
| "eval_samples_per_second": 4.831, | |
| "eval_steps_per_second": 0.303, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 5.91, | |
| "learning_rate": 1.1208e-05, | |
| "loss": 3.0764, | |
| "step": 16600 | |
| }, | |
| { | |
| "epoch": 5.94, | |
| "learning_rate": 1.1074666666666667e-05, | |
| "loss": 3.0822, | |
| "step": 16700 | |
| }, | |
| { | |
| "epoch": 5.98, | |
| "learning_rate": 1.0941333333333333e-05, | |
| "loss": 3.0452, | |
| "step": 16800 | |
| }, | |
| { | |
| "epoch": 6.01, | |
| "learning_rate": 1.0808e-05, | |
| "loss": 3.0631, | |
| "step": 16900 | |
| }, | |
| { | |
| "epoch": 6.05, | |
| "learning_rate": 1.0674666666666666e-05, | |
| "loss": 3.0142, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 6.05, | |
| "eval_gen_len": 245.6204, | |
| "eval_loss": 3.270817279815674, | |
| "eval_rouge1": 46.0287, | |
| "eval_rouge2": 17.8079, | |
| "eval_rougeL": 24.2916, | |
| "eval_rougeLsum": 42.2369, | |
| "eval_runtime": 1077.587, | |
| "eval_samples_per_second": 5.217, | |
| "eval_steps_per_second": 0.327, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 6.09, | |
| "learning_rate": 1.0541333333333334e-05, | |
| "loss": 3.0106, | |
| "step": 17100 | |
| }, | |
| { | |
| "epoch": 6.12, | |
| "learning_rate": 1.0408e-05, | |
| "loss": 3.0208, | |
| "step": 17200 | |
| }, | |
| { | |
| "epoch": 6.16, | |
| "learning_rate": 1.0274666666666667e-05, | |
| "loss": 3.0455, | |
| "step": 17300 | |
| }, | |
| { | |
| "epoch": 6.19, | |
| "learning_rate": 1.0141333333333332e-05, | |
| "loss": 3.0404, | |
| "step": 17400 | |
| }, | |
| { | |
| "epoch": 6.23, | |
| "learning_rate": 1.0008e-05, | |
| "loss": 3.0312, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 6.23, | |
| "eval_gen_len": 236.2234, | |
| "eval_loss": 3.270146608352661, | |
| "eval_rouge1": 45.5731, | |
| "eval_rouge2": 17.5404, | |
| "eval_rougeL": 24.0925, | |
| "eval_rougeLsum": 41.7584, | |
| "eval_runtime": 1079.8219, | |
| "eval_samples_per_second": 5.206, | |
| "eval_steps_per_second": 0.326, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 6.26, | |
| "learning_rate": 9.874666666666667e-06, | |
| "loss": 3.033, | |
| "step": 17600 | |
| }, | |
| { | |
| "epoch": 6.3, | |
| "learning_rate": 9.741333333333334e-06, | |
| "loss": 3.045, | |
| "step": 17700 | |
| }, | |
| { | |
| "epoch": 6.33, | |
| "learning_rate": 9.608e-06, | |
| "loss": 3.0339, | |
| "step": 17800 | |
| }, | |
| { | |
| "epoch": 6.37, | |
| "learning_rate": 9.474666666666668e-06, | |
| "loss": 3.034, | |
| "step": 17900 | |
| }, | |
| { | |
| "epoch": 6.41, | |
| "learning_rate": 9.341333333333333e-06, | |
| "loss": 3.0231, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 6.41, | |
| "eval_gen_len": 260.1686, | |
| "eval_loss": 3.271860361099243, | |
| "eval_rouge1": 46.1094, | |
| "eval_rouge2": 17.7117, | |
| "eval_rougeL": 24.1117, | |
| "eval_rougeLsum": 42.2882, | |
| "eval_runtime": 1163.8918, | |
| "eval_samples_per_second": 4.83, | |
| "eval_steps_per_second": 0.302, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 6.44, | |
| "learning_rate": 9.208e-06, | |
| "loss": 3.0454, | |
| "step": 18100 | |
| }, | |
| { | |
| "epoch": 6.48, | |
| "learning_rate": 9.074666666666666e-06, | |
| "loss": 3.0343, | |
| "step": 18200 | |
| }, | |
| { | |
| "epoch": 6.51, | |
| "learning_rate": 8.941333333333334e-06, | |
| "loss": 3.0386, | |
| "step": 18300 | |
| }, | |
| { | |
| "epoch": 6.55, | |
| "learning_rate": 8.808000000000001e-06, | |
| "loss": 3.0429, | |
| "step": 18400 | |
| }, | |
| { | |
| "epoch": 6.58, | |
| "learning_rate": 8.674666666666667e-06, | |
| "loss": 3.0414, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 6.58, | |
| "eval_gen_len": 245.0961, | |
| "eval_loss": 3.2702643871307373, | |
| "eval_rouge1": 45.9178, | |
| "eval_rouge2": 17.6987, | |
| "eval_rougeL": 24.1882, | |
| "eval_rougeLsum": 42.1382, | |
| "eval_runtime": 1111.098, | |
| "eval_samples_per_second": 5.06, | |
| "eval_steps_per_second": 0.317, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 6.62, | |
| "learning_rate": 8.541333333333334e-06, | |
| "loss": 3.0242, | |
| "step": 18600 | |
| }, | |
| { | |
| "epoch": 6.65, | |
| "learning_rate": 8.408e-06, | |
| "loss": 3.0449, | |
| "step": 18700 | |
| }, | |
| { | |
| "epoch": 6.69, | |
| "learning_rate": 8.274666666666667e-06, | |
| "loss": 3.0392, | |
| "step": 18800 | |
| }, | |
| { | |
| "epoch": 6.73, | |
| "learning_rate": 8.141333333333333e-06, | |
| "loss": 3.0336, | |
| "step": 18900 | |
| }, | |
| { | |
| "epoch": 6.76, | |
| "learning_rate": 8.008e-06, | |
| "loss": 3.0434, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 6.76, | |
| "eval_gen_len": 247.8225, | |
| "eval_loss": 3.2714767456054688, | |
| "eval_rouge1": 46.0129, | |
| "eval_rouge2": 17.7545, | |
| "eval_rougeL": 24.2235, | |
| "eval_rougeLsum": 42.245, | |
| "eval_runtime": 1091.4396, | |
| "eval_samples_per_second": 5.151, | |
| "eval_steps_per_second": 0.323, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 6.8, | |
| "learning_rate": 7.874666666666666e-06, | |
| "loss": 3.0021, | |
| "step": 19100 | |
| }, | |
| { | |
| "epoch": 6.83, | |
| "learning_rate": 7.741333333333335e-06, | |
| "loss": 3.0498, | |
| "step": 19200 | |
| }, | |
| { | |
| "epoch": 6.87, | |
| "learning_rate": 7.608e-06, | |
| "loss": 3.0314, | |
| "step": 19300 | |
| }, | |
| { | |
| "epoch": 6.9, | |
| "learning_rate": 7.476e-06, | |
| "loss": 3.0437, | |
| "step": 19400 | |
| }, | |
| { | |
| "epoch": 6.94, | |
| "learning_rate": 7.342666666666667e-06, | |
| "loss": 3.0456, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 6.94, | |
| "eval_gen_len": 256.9835, | |
| "eval_loss": 3.2681996822357178, | |
| "eval_rouge1": 45.8634, | |
| "eval_rouge2": 17.6462, | |
| "eval_rougeL": 24.1366, | |
| "eval_rougeLsum": 42.1194, | |
| "eval_runtime": 1174.1005, | |
| "eval_samples_per_second": 4.788, | |
| "eval_steps_per_second": 0.3, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 6.97, | |
| "learning_rate": 7.209333333333334e-06, | |
| "loss": 3.0172, | |
| "step": 19600 | |
| }, | |
| { | |
| "epoch": 7.01, | |
| "learning_rate": 7.077333333333333e-06, | |
| "loss": 3.0364, | |
| "step": 19700 | |
| }, | |
| { | |
| "epoch": 7.05, | |
| "learning_rate": 6.944e-06, | |
| "loss": 3.0109, | |
| "step": 19800 | |
| }, | |
| { | |
| "epoch": 7.08, | |
| "learning_rate": 6.8106666666666665e-06, | |
| "loss": 2.998, | |
| "step": 19900 | |
| }, | |
| { | |
| "epoch": 7.12, | |
| "learning_rate": 6.677333333333334e-06, | |
| "loss": 3.0188, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 7.12, | |
| "eval_gen_len": 240.1866, | |
| "eval_loss": 3.2752106189727783, | |
| "eval_rouge1": 45.8366, | |
| "eval_rouge2": 17.6771, | |
| "eval_rougeL": 24.165, | |
| "eval_rougeLsum": 42.0438, | |
| "eval_runtime": 1085.4389, | |
| "eval_samples_per_second": 5.179, | |
| "eval_steps_per_second": 0.324, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 7.15, | |
| "learning_rate": 6.544e-06, | |
| "loss": 3.0119, | |
| "step": 20100 | |
| }, | |
| { | |
| "epoch": 7.19, | |
| "learning_rate": 6.410666666666667e-06, | |
| "loss": 3.0091, | |
| "step": 20200 | |
| }, | |
| { | |
| "epoch": 7.22, | |
| "learning_rate": 6.2773333333333334e-06, | |
| "loss": 3.0077, | |
| "step": 20300 | |
| }, | |
| { | |
| "epoch": 7.26, | |
| "learning_rate": 6.144000000000001e-06, | |
| "loss": 2.9942, | |
| "step": 20400 | |
| }, | |
| { | |
| "epoch": 7.3, | |
| "learning_rate": 6.010666666666667e-06, | |
| "loss": 3.0227, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 7.3, | |
| "eval_gen_len": 245.8337, | |
| "eval_loss": 3.2722229957580566, | |
| "eval_rouge1": 46.0509, | |
| "eval_rouge2": 17.8248, | |
| "eval_rougeL": 24.2389, | |
| "eval_rougeLsum": 42.2681, | |
| "eval_runtime": 1093.3258, | |
| "eval_samples_per_second": 5.142, | |
| "eval_steps_per_second": 0.322, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 7.33, | |
| "learning_rate": 5.877333333333334e-06, | |
| "loss": 2.9996, | |
| "step": 20600 | |
| }, | |
| { | |
| "epoch": 7.37, | |
| "learning_rate": 5.744e-06, | |
| "loss": 3.0046, | |
| "step": 20700 | |
| }, | |
| { | |
| "epoch": 7.4, | |
| "learning_rate": 5.610666666666667e-06, | |
| "loss": 3.0018, | |
| "step": 20800 | |
| }, | |
| { | |
| "epoch": 7.44, | |
| "learning_rate": 5.4773333333333335e-06, | |
| "loss": 3.0096, | |
| "step": 20900 | |
| }, | |
| { | |
| "epoch": 7.47, | |
| "learning_rate": 5.344e-06, | |
| "loss": 2.9895, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 7.47, | |
| "eval_gen_len": 243.867, | |
| "eval_loss": 3.2725987434387207, | |
| "eval_rouge1": 45.7896, | |
| "eval_rouge2": 17.5833, | |
| "eval_rougeL": 24.1226, | |
| "eval_rougeLsum": 42.016, | |
| "eval_runtime": 1110.8794, | |
| "eval_samples_per_second": 5.061, | |
| "eval_steps_per_second": 0.317, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 7.51, | |
| "learning_rate": 5.2106666666666665e-06, | |
| "loss": 3.0186, | |
| "step": 21100 | |
| }, | |
| { | |
| "epoch": 7.54, | |
| "learning_rate": 5.077333333333334e-06, | |
| "loss": 3.0337, | |
| "step": 21200 | |
| }, | |
| { | |
| "epoch": 7.58, | |
| "learning_rate": 4.9440000000000004e-06, | |
| "loss": 3.0136, | |
| "step": 21300 | |
| }, | |
| { | |
| "epoch": 7.62, | |
| "learning_rate": 4.810666666666667e-06, | |
| "loss": 3.0109, | |
| "step": 21400 | |
| }, | |
| { | |
| "epoch": 7.65, | |
| "learning_rate": 4.6773333333333335e-06, | |
| "loss": 3.0146, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 7.65, | |
| "eval_gen_len": 244.0598, | |
| "eval_loss": 3.269317865371704, | |
| "eval_rouge1": 46.0179, | |
| "eval_rouge2": 17.6952, | |
| "eval_rougeL": 24.2204, | |
| "eval_rougeLsum": 42.2436, | |
| "eval_runtime": 1075.6479, | |
| "eval_samples_per_second": 5.227, | |
| "eval_steps_per_second": 0.327, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 7.69, | |
| "learning_rate": 4.544e-06, | |
| "loss": 3.0195, | |
| "step": 21600 | |
| }, | |
| { | |
| "epoch": 7.72, | |
| "learning_rate": 4.4106666666666666e-06, | |
| "loss": 3.0103, | |
| "step": 21700 | |
| }, | |
| { | |
| "epoch": 7.76, | |
| "learning_rate": 4.277333333333333e-06, | |
| "loss": 3.0117, | |
| "step": 21800 | |
| }, | |
| { | |
| "epoch": 7.79, | |
| "learning_rate": 4.144e-06, | |
| "loss": 3.0012, | |
| "step": 21900 | |
| }, | |
| { | |
| "epoch": 7.83, | |
| "learning_rate": 4.010666666666667e-06, | |
| "loss": 3.014, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 7.83, | |
| "eval_gen_len": 240.4804, | |
| "eval_loss": 3.2708346843719482, | |
| "eval_rouge1": 46.0704, | |
| "eval_rouge2": 17.75, | |
| "eval_rougeL": 24.2308, | |
| "eval_rougeLsum": 42.2591, | |
| "eval_runtime": 1055.0456, | |
| "eval_samples_per_second": 5.329, | |
| "eval_steps_per_second": 0.334, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 7.86, | |
| "learning_rate": 3.8773333333333335e-06, | |
| "loss": 3.001, | |
| "step": 22100 | |
| }, | |
| { | |
| "epoch": 7.9, | |
| "learning_rate": 3.744e-06, | |
| "loss": 3.0133, | |
| "step": 22200 | |
| }, | |
| { | |
| "epoch": 7.94, | |
| "learning_rate": 3.6106666666666666e-06, | |
| "loss": 3.0007, | |
| "step": 22300 | |
| }, | |
| { | |
| "epoch": 7.97, | |
| "learning_rate": 3.4773333333333336e-06, | |
| "loss": 3.0189, | |
| "step": 22400 | |
| }, | |
| { | |
| "epoch": 8.01, | |
| "learning_rate": 3.344e-06, | |
| "loss": 3.0427, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 8.01, | |
| "eval_gen_len": 242.4203, | |
| "eval_loss": 3.27339243888855, | |
| "eval_rouge1": 46.0662, | |
| "eval_rouge2": 17.7231, | |
| "eval_rougeL": 24.1915, | |
| "eval_rougeLsum": 42.2227, | |
| "eval_runtime": 1083.3051, | |
| "eval_samples_per_second": 5.19, | |
| "eval_steps_per_second": 0.325, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 8.04, | |
| "learning_rate": 3.210666666666667e-06, | |
| "loss": 2.995, | |
| "step": 22600 | |
| }, | |
| { | |
| "epoch": 8.08, | |
| "learning_rate": 3.0773333333333336e-06, | |
| "loss": 2.9946, | |
| "step": 22700 | |
| }, | |
| { | |
| "epoch": 8.11, | |
| "learning_rate": 2.944e-06, | |
| "loss": 3.0003, | |
| "step": 22800 | |
| }, | |
| { | |
| "epoch": 8.15, | |
| "learning_rate": 2.8106666666666666e-06, | |
| "loss": 2.9959, | |
| "step": 22900 | |
| }, | |
| { | |
| "epoch": 8.19, | |
| "learning_rate": 2.6773333333333336e-06, | |
| "loss": 2.9835, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 8.19, | |
| "eval_gen_len": 236.6266, | |
| "eval_loss": 3.273963212966919, | |
| "eval_rouge1": 46.165, | |
| "eval_rouge2": 17.8947, | |
| "eval_rougeL": 24.366, | |
| "eval_rougeLsum": 42.3521, | |
| "eval_runtime": 1047.6593, | |
| "eval_samples_per_second": 5.366, | |
| "eval_steps_per_second": 0.336, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 8.22, | |
| "learning_rate": 2.544e-06, | |
| "loss": 2.9922, | |
| "step": 23100 | |
| }, | |
| { | |
| "epoch": 8.26, | |
| "learning_rate": 2.4106666666666667e-06, | |
| "loss": 2.9937, | |
| "step": 23200 | |
| }, | |
| { | |
| "epoch": 8.29, | |
| "learning_rate": 2.277333333333333e-06, | |
| "loss": 2.9933, | |
| "step": 23300 | |
| }, | |
| { | |
| "epoch": 8.33, | |
| "learning_rate": 2.144e-06, | |
| "loss": 2.9921, | |
| "step": 23400 | |
| }, | |
| { | |
| "epoch": 8.36, | |
| "learning_rate": 2.0106666666666667e-06, | |
| "loss": 2.987, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 8.36, | |
| "eval_gen_len": 238.479, | |
| "eval_loss": 3.2719457149505615, | |
| "eval_rouge1": 45.9025, | |
| "eval_rouge2": 17.7625, | |
| "eval_rougeL": 24.2432, | |
| "eval_rougeLsum": 42.1257, | |
| "eval_runtime": 1104.1087, | |
| "eval_samples_per_second": 5.092, | |
| "eval_steps_per_second": 0.319, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 8.4, | |
| "learning_rate": 1.8773333333333332e-06, | |
| "loss": 2.9925, | |
| "step": 23600 | |
| }, | |
| { | |
| "epoch": 8.43, | |
| "learning_rate": 1.7440000000000002e-06, | |
| "loss": 2.9924, | |
| "step": 23700 | |
| }, | |
| { | |
| "epoch": 8.47, | |
| "learning_rate": 1.6106666666666667e-06, | |
| "loss": 3.0224, | |
| "step": 23800 | |
| }, | |
| { | |
| "epoch": 8.51, | |
| "learning_rate": 1.4773333333333334e-06, | |
| "loss": 3.0137, | |
| "step": 23900 | |
| }, | |
| { | |
| "epoch": 8.54, | |
| "learning_rate": 1.344e-06, | |
| "loss": 2.9922, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 8.54, | |
| "eval_gen_len": 245.2081, | |
| "eval_loss": 3.2731070518493652, | |
| "eval_rouge1": 46.1971, | |
| "eval_rouge2": 17.7962, | |
| "eval_rougeL": 24.2279, | |
| "eval_rougeLsum": 42.3853, | |
| "eval_runtime": 1087.3894, | |
| "eval_samples_per_second": 5.17, | |
| "eval_steps_per_second": 0.324, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 8.58, | |
| "learning_rate": 1.2106666666666667e-06, | |
| "loss": 2.9974, | |
| "step": 24100 | |
| }, | |
| { | |
| "epoch": 8.61, | |
| "learning_rate": 1.0773333333333332e-06, | |
| "loss": 2.9955, | |
| "step": 24200 | |
| }, | |
| { | |
| "epoch": 8.65, | |
| "learning_rate": 9.44e-07, | |
| "loss": 2.9914, | |
| "step": 24300 | |
| }, | |
| { | |
| "epoch": 8.68, | |
| "learning_rate": 8.106666666666667e-07, | |
| "loss": 2.9803, | |
| "step": 24400 | |
| }, | |
| { | |
| "epoch": 8.72, | |
| "learning_rate": 6.773333333333334e-07, | |
| "loss": 2.9788, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 8.72, | |
| "eval_gen_len": 240.1747, | |
| "eval_loss": 3.2718217372894287, | |
| "eval_rouge1": 46.0806, | |
| "eval_rouge2": 17.8417, | |
| "eval_rougeL": 24.3261, | |
| "eval_rougeLsum": 42.264, | |
| "eval_runtime": 1088.0734, | |
| "eval_samples_per_second": 5.167, | |
| "eval_steps_per_second": 0.324, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 8.75, | |
| "learning_rate": 5.44e-07, | |
| "loss": 3.001, | |
| "step": 24600 | |
| }, | |
| { | |
| "epoch": 8.79, | |
| "learning_rate": 4.106666666666667e-07, | |
| "loss": 2.9962, | |
| "step": 24700 | |
| }, | |
| { | |
| "epoch": 8.83, | |
| "learning_rate": 2.7733333333333333e-07, | |
| "loss": 2.9987, | |
| "step": 24800 | |
| }, | |
| { | |
| "epoch": 8.86, | |
| "learning_rate": 1.44e-07, | |
| "loss": 2.9703, | |
| "step": 24900 | |
| }, | |
| { | |
| "epoch": 8.9, | |
| "learning_rate": 1.0666666666666668e-08, | |
| "loss": 2.9878, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 8.9, | |
| "eval_gen_len": 242.5598, | |
| "eval_loss": 3.2715346813201904, | |
| "eval_rouge1": 46.0618, | |
| "eval_rouge2": 17.7725, | |
| "eval_rougeL": 24.2234, | |
| "eval_rougeLsum": 42.2574, | |
| "eval_runtime": 1097.8453, | |
| "eval_samples_per_second": 5.121, | |
| "eval_steps_per_second": 0.321, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 8.9, | |
| "step": 25000, | |
| "total_flos": 5.0265269514797056e+17, | |
| "train_loss": 3.1441598370170594, | |
| "train_runtime": 61182.0827, | |
| "train_samples_per_second": 6.538, | |
| "train_steps_per_second": 0.409 | |
| } | |
| ], | |
| "max_steps": 25000, | |
| "num_train_epochs": 9, | |
| "total_flos": 5.0265269514797056e+17, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |