| { | |
| "best_metric": 0.1539839506149292, | |
| "best_model_checkpoint": "/kaggle/working/bart-la-size-s/checkpoint-5000", | |
| "epoch": 0.09333333333333334, | |
| "eval_steps": 2500, | |
| "global_step": 7000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0013333333333333333, | |
| "grad_norm": 1731138.75, | |
| "learning_rate": 1e-05, | |
| "loss": 10.7708, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.0026666666666666666, | |
| "grad_norm": 1756484.75, | |
| "learning_rate": 2e-05, | |
| "loss": 9.1863, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 1777691.625, | |
| "learning_rate": 3e-05, | |
| "loss": 6.1644, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.005333333333333333, | |
| "grad_norm": 420227.5, | |
| "learning_rate": 4e-05, | |
| "loss": 2.0913, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 3494.83251953125, | |
| "learning_rate": 5e-05, | |
| "loss": 0.2315, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 5325.4130859375, | |
| "learning_rate": 6e-05, | |
| "loss": 0.1778, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.009333333333333334, | |
| "grad_norm": 3234.634765625, | |
| "learning_rate": 7e-05, | |
| "loss": 0.1923, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 3789.213134765625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.1892, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 4346.5576171875, | |
| "learning_rate": 9e-05, | |
| "loss": 0.1866, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 3495.9501953125, | |
| "learning_rate": 0.0001, | |
| "loss": 0.1757, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.014666666666666666, | |
| "grad_norm": 4082.4345703125, | |
| "learning_rate": 9.833333333333333e-05, | |
| "loss": 0.1707, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 4393.69384765625, | |
| "learning_rate": 9.666666666666667e-05, | |
| "loss": 0.1655, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.017333333333333333, | |
| "grad_norm": 5255.02099609375, | |
| "learning_rate": 9.5e-05, | |
| "loss": 0.1697, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.018666666666666668, | |
| "grad_norm": 3129.46044921875, | |
| "learning_rate": 9.333333333333334e-05, | |
| "loss": 0.1842, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 4048.822509765625, | |
| "learning_rate": 9.166666666666667e-05, | |
| "loss": 0.178, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 3680.73046875, | |
| "learning_rate": 9e-05, | |
| "loss": 0.1687, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.02266666666666667, | |
| "grad_norm": 7584.31005859375, | |
| "learning_rate": 8.833333333333333e-05, | |
| "loss": 0.1493, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.024, | |
| "grad_norm": 6930.2001953125, | |
| "learning_rate": 8.666666666666667e-05, | |
| "loss": 0.1635, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.025333333333333333, | |
| "grad_norm": 3993.606689453125, | |
| "learning_rate": 8.5e-05, | |
| "loss": 0.1825, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 4367.501953125, | |
| "learning_rate": 8.333333333333334e-05, | |
| "loss": 0.1641, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.028, | |
| "grad_norm": 3890.798095703125, | |
| "learning_rate": 8.166666666666667e-05, | |
| "loss": 0.1389, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.029333333333333333, | |
| "grad_norm": 4143.93505859375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.1523, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.030666666666666665, | |
| "grad_norm": 3799.543212890625, | |
| "learning_rate": 7.833333333333333e-05, | |
| "loss": 0.1456, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 4041.04638671875, | |
| "learning_rate": 7.666666666666667e-05, | |
| "loss": 0.1213, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 4422.04248046875, | |
| "learning_rate": 7.500000000000001e-05, | |
| "loss": 0.1501, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "eval_loss": 0.20066243410110474, | |
| "eval_runtime": 12367.8365, | |
| "eval_samples_per_second": 14.89, | |
| "eval_steps_per_second": 0.931, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.034666666666666665, | |
| "grad_norm": 9264.0322265625, | |
| "learning_rate": 7.333333333333333e-05, | |
| "loss": 0.1659, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.036, | |
| "grad_norm": 4891.16015625, | |
| "learning_rate": 7.166666666666667e-05, | |
| "loss": 0.1513, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.037333333333333336, | |
| "grad_norm": 4946.96240234375, | |
| "learning_rate": 7e-05, | |
| "loss": 0.1402, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.03866666666666667, | |
| "grad_norm": 6305.4404296875, | |
| "learning_rate": 6.833333333333333e-05, | |
| "loss": 0.1437, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 5814.00244140625, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 0.162, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.04133333333333333, | |
| "grad_norm": 4542.61767578125, | |
| "learning_rate": 6.500000000000001e-05, | |
| "loss": 0.1302, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 5265.51806640625, | |
| "learning_rate": 6.333333333333333e-05, | |
| "loss": 0.1355, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.044, | |
| "grad_norm": 7862.482421875, | |
| "learning_rate": 6.166666666666667e-05, | |
| "loss": 0.13, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.04533333333333334, | |
| "grad_norm": 6594.36669921875, | |
| "learning_rate": 6e-05, | |
| "loss": 0.1447, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 6135.97509765625, | |
| "learning_rate": 5.833333333333334e-05, | |
| "loss": 0.1446, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 7121.572265625, | |
| "learning_rate": 5.666666666666667e-05, | |
| "loss": 0.1395, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.04933333333333333, | |
| "grad_norm": 8947.796875, | |
| "learning_rate": 5.500000000000001e-05, | |
| "loss": 0.1343, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.050666666666666665, | |
| "grad_norm": 8219.5732421875, | |
| "learning_rate": 5.333333333333333e-05, | |
| "loss": 0.1186, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.052, | |
| "grad_norm": 7754.8759765625, | |
| "learning_rate": 5.166666666666667e-05, | |
| "loss": 0.1219, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 7000.673828125, | |
| "learning_rate": 5e-05, | |
| "loss": 0.1309, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.05466666666666667, | |
| "grad_norm": 5756.7763671875, | |
| "learning_rate": 4.8333333333333334e-05, | |
| "loss": 0.1192, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.056, | |
| "grad_norm": 9121.4453125, | |
| "learning_rate": 4.666666666666667e-05, | |
| "loss": 0.1194, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.05733333333333333, | |
| "grad_norm": 12909.078125, | |
| "learning_rate": 4.5e-05, | |
| "loss": 0.1366, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.058666666666666666, | |
| "grad_norm": 10152.21875, | |
| "learning_rate": 4.3333333333333334e-05, | |
| "loss": 0.1196, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 14436.8466796875, | |
| "learning_rate": 4.166666666666667e-05, | |
| "loss": 0.1228, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.06133333333333333, | |
| "grad_norm": 8110.03125, | |
| "learning_rate": 4e-05, | |
| "loss": 0.1151, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.06266666666666666, | |
| "grad_norm": 9303.314453125, | |
| "learning_rate": 3.8333333333333334e-05, | |
| "loss": 0.1104, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 9055.736328125, | |
| "learning_rate": 3.6666666666666666e-05, | |
| "loss": 0.1023, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.06533333333333333, | |
| "grad_norm": 5660.32958984375, | |
| "learning_rate": 3.5e-05, | |
| "loss": 0.0936, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 7201.54931640625, | |
| "learning_rate": 3.3333333333333335e-05, | |
| "loss": 0.1103, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "eval_loss": 0.1539839506149292, | |
| "eval_runtime": 12373.139, | |
| "eval_samples_per_second": 14.883, | |
| "eval_steps_per_second": 0.93, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.068, | |
| "grad_norm": 11332.046875, | |
| "learning_rate": 3.1666666666666666e-05, | |
| "loss": 0.0977, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.06933333333333333, | |
| "grad_norm": 13064.806640625, | |
| "learning_rate": 3e-05, | |
| "loss": 0.1043, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.07066666666666667, | |
| "grad_norm": 9356.373046875, | |
| "learning_rate": 2.8333333333333335e-05, | |
| "loss": 0.0983, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.072, | |
| "grad_norm": 9500.935546875, | |
| "learning_rate": 2.6666666666666667e-05, | |
| "loss": 0.102, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 9010.0517578125, | |
| "learning_rate": 2.5e-05, | |
| "loss": 0.0874, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.07466666666666667, | |
| "grad_norm": 9204.0703125, | |
| "learning_rate": 2.3333333333333336e-05, | |
| "loss": 0.0939, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.076, | |
| "grad_norm": 8989.322265625, | |
| "learning_rate": 2.1666666666666667e-05, | |
| "loss": 0.0852, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.07733333333333334, | |
| "grad_norm": 3400.31591796875, | |
| "learning_rate": 2e-05, | |
| "loss": 0.0952, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.07866666666666666, | |
| "grad_norm": 16400.48828125, | |
| "learning_rate": 1.8333333333333333e-05, | |
| "loss": 0.0792, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 3612.99365234375, | |
| "learning_rate": 1.6666666666666667e-05, | |
| "loss": 0.0735, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.08133333333333333, | |
| "grad_norm": 9866.6279296875, | |
| "learning_rate": 1.5e-05, | |
| "loss": 0.0931, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.08266666666666667, | |
| "grad_norm": 13096.994140625, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 0.0955, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.084, | |
| "grad_norm": 6636.74365234375, | |
| "learning_rate": 1.1666666666666668e-05, | |
| "loss": 0.0862, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 7214.32958984375, | |
| "learning_rate": 1e-05, | |
| "loss": 0.0966, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 13823.109375, | |
| "learning_rate": 8.333333333333334e-06, | |
| "loss": 0.0853, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.088, | |
| "grad_norm": 17792.580078125, | |
| "learning_rate": 6.666666666666667e-06, | |
| "loss": 0.0902, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.08933333333333333, | |
| "grad_norm": 8880.7822265625, | |
| "learning_rate": 5e-06, | |
| "loss": 0.0815, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.09066666666666667, | |
| "grad_norm": 11938.576171875, | |
| "learning_rate": 3.3333333333333333e-06, | |
| "loss": 0.0862, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.092, | |
| "grad_norm": 22440.61328125, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 0.0848, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 10622.8349609375, | |
| "learning_rate": 0.0, | |
| "loss": 0.1029, | |
| "step": 7000 | |
| } | |
| ], | |
| "logging_steps": 100, | |
| "max_steps": 7000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 1, | |
| "save_steps": 2500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.415499744477184e+16, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |