| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 1.0, | |
| "global_step": 240, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.02, | |
| "learning_rate": 0.00013434166666666667, | |
| "loss": 3.8299, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "learning_rate": 0.00013148333333333335, | |
| "loss": 3.3964, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "learning_rate": 0.000128625, | |
| "loss": 2.9108, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "learning_rate": 0.00012576666666666667, | |
| "loss": 2.3073, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "learning_rate": 0.00012290833333333334, | |
| "loss": 2.3026, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "learning_rate": 0.00012005, | |
| "loss": 2.1369, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "learning_rate": 0.00011719166666666666, | |
| "loss": 1.8713, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.17, | |
| "learning_rate": 0.00011433333333333334, | |
| "loss": 1.5702, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "learning_rate": 0.000111475, | |
| "loss": 1.5028, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.21, | |
| "learning_rate": 0.00010861666666666666, | |
| "loss": 1.3045, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.23, | |
| "learning_rate": 0.00010575833333333333, | |
| "loss": 1.1356, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "learning_rate": 0.00010290000000000001, | |
| "loss": 0.9824, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.27, | |
| "learning_rate": 0.00010004166666666667, | |
| "loss": 0.9064, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.29, | |
| "learning_rate": 9.718333333333334e-05, | |
| "loss": 0.8186, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.31, | |
| "learning_rate": 9.4325e-05, | |
| "loss": 0.7284, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.33, | |
| "learning_rate": 9.146666666666666e-05, | |
| "loss": 0.7031, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "learning_rate": 8.860833333333334e-05, | |
| "loss": 0.6942, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "learning_rate": 8.575e-05, | |
| "loss": 0.6281, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "learning_rate": 8.289166666666666e-05, | |
| "loss": 0.5273, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "learning_rate": 8.003333333333335e-05, | |
| "loss": 0.4803, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "learning_rate": 7.7175e-05, | |
| "loss": 0.5407, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "learning_rate": 7.431666666666667e-05, | |
| "loss": 0.4905, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "learning_rate": 7.145833333333334e-05, | |
| "loss": 0.5207, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "learning_rate": 6.86e-05, | |
| "loss": 0.4414, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "learning_rate": 6.574166666666667e-05, | |
| "loss": 0.4308, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "learning_rate": 6.288333333333333e-05, | |
| "loss": 0.4324, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "learning_rate": 6.0025e-05, | |
| "loss": 0.4319, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "learning_rate": 5.716666666666667e-05, | |
| "loss": 0.4125, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "learning_rate": 5.430833333333333e-05, | |
| "loss": 0.4012, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "learning_rate": 5.1450000000000004e-05, | |
| "loss": 0.4053, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "learning_rate": 4.859166666666667e-05, | |
| "loss": 0.375, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 0.67, | |
| "learning_rate": 4.573333333333333e-05, | |
| "loss": 0.3578, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.69, | |
| "learning_rate": 4.2875e-05, | |
| "loss": 0.3695, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 0.71, | |
| "learning_rate": 4.001666666666667e-05, | |
| "loss": 0.3518, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.73, | |
| "learning_rate": 3.715833333333333e-05, | |
| "loss": 0.3547, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "learning_rate": 3.43e-05, | |
| "loss": 0.3138, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.77, | |
| "learning_rate": 3.144166666666667e-05, | |
| "loss": 0.3334, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 0.79, | |
| "learning_rate": 2.8583333333333335e-05, | |
| "loss": 0.3525, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.81, | |
| "learning_rate": 2.5725000000000002e-05, | |
| "loss": 0.3137, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 0.83, | |
| "learning_rate": 2.2866666666666666e-05, | |
| "loss": 0.3308, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "learning_rate": 2.0008333333333336e-05, | |
| "loss": 0.3226, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "learning_rate": 1.715e-05, | |
| "loss": 0.3334, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "learning_rate": 1.4291666666666667e-05, | |
| "loss": 0.3231, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "learning_rate": 1.1433333333333333e-05, | |
| "loss": 0.318, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "learning_rate": 8.575e-06, | |
| "loss": 0.3237, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "learning_rate": 5.7166666666666664e-06, | |
| "loss": 0.2905, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.98, | |
| "learning_rate": 2.8583333333333332e-06, | |
| "loss": 0.3026, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "learning_rate": 0.0, | |
| "loss": 0.3067, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "step": 240, | |
| "total_flos": 125420175360000.0, | |
| "train_loss": 0.8587130382657051, | |
| "train_runtime": 63.93, | |
| "train_samples_per_second": 3.754, | |
| "train_steps_per_second": 3.754 | |
| } | |
| ], | |
| "max_steps": 240, | |
| "num_train_epochs": 1, | |
| "total_flos": 125420175360000.0, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |