| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 42.10526315789474, | |
| "eval_steps": 500, | |
| "global_step": 200, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.63, | |
| "learning_rate": 0.0003, | |
| "loss": 1.3677, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 1.26, | |
| "learning_rate": 0.0006, | |
| "loss": 1.0177, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 1.89, | |
| "learning_rate": 0.0008, | |
| "loss": 0.8893, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 2.53, | |
| "learning_rate": 0.001, | |
| "loss": 1.0625, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 3.16, | |
| "learning_rate": 0.0013000000000000002, | |
| "loss": 0.7547, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 3.79, | |
| "learning_rate": 0.0016, | |
| "loss": 0.4742, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 4.42, | |
| "learning_rate": 0.0019, | |
| "loss": 0.3748, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 5.05, | |
| "learning_rate": 0.001977777777777778, | |
| "loss": 0.4516, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 5.68, | |
| "learning_rate": 0.0019555555555555554, | |
| "loss": 0.3278, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 6.32, | |
| "learning_rate": 0.0019222222222222223, | |
| "loss": 0.421, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 6.95, | |
| "learning_rate": 0.001888888888888889, | |
| "loss": 0.2738, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 7.58, | |
| "learning_rate": 0.0018555555555555556, | |
| "loss": 0.2307, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 8.21, | |
| "learning_rate": 0.0018222222222222223, | |
| "loss": 0.2955, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 8.84, | |
| "learning_rate": 0.0018000000000000002, | |
| "loss": 0.399, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 9.47, | |
| "learning_rate": 0.001788888888888889, | |
| "loss": 0.6656, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 10.11, | |
| "learning_rate": 0.0017666666666666666, | |
| "loss": 0.7389, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 10.74, | |
| "learning_rate": 0.0017333333333333335, | |
| "loss": 0.1417, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 11.37, | |
| "learning_rate": 0.0017, | |
| "loss": 0.2441, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "learning_rate": 0.0016666666666666668, | |
| "loss": 0.1786, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 12.63, | |
| "learning_rate": 0.0016333333333333334, | |
| "loss": 0.0805, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 13.26, | |
| "learning_rate": 0.0016, | |
| "loss": 0.1806, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 13.89, | |
| "learning_rate": 0.0015666666666666667, | |
| "loss": 0.1011, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 14.53, | |
| "learning_rate": 0.0015333333333333334, | |
| "loss": 0.08, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 15.16, | |
| "learning_rate": 0.0015, | |
| "loss": 0.0982, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 15.79, | |
| "learning_rate": 0.0014666666666666667, | |
| "loss": 0.1105, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 16.42, | |
| "learning_rate": 0.0014333333333333333, | |
| "loss": 0.1103, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 17.05, | |
| "learning_rate": 0.0014, | |
| "loss": 0.086, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 17.68, | |
| "learning_rate": 0.0013666666666666666, | |
| "loss": 0.0764, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 18.32, | |
| "learning_rate": 0.0013333333333333333, | |
| "loss": 0.0748, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 18.95, | |
| "learning_rate": 0.0013000000000000002, | |
| "loss": 0.1183, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 19.58, | |
| "learning_rate": 0.0012666666666666666, | |
| "loss": 0.059, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 20.21, | |
| "learning_rate": 0.0012333333333333335, | |
| "loss": 0.0706, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 20.84, | |
| "learning_rate": 0.0012, | |
| "loss": 0.0499, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 21.47, | |
| "learning_rate": 0.0011666666666666668, | |
| "loss": 0.0406, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 22.11, | |
| "learning_rate": 0.0011333333333333334, | |
| "loss": 0.0569, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 22.74, | |
| "learning_rate": 0.0011, | |
| "loss": 0.0354, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 23.37, | |
| "learning_rate": 0.0010666666666666667, | |
| "loss": 0.0362, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 24.0, | |
| "learning_rate": 0.0010333333333333334, | |
| "loss": 0.0752, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 24.63, | |
| "learning_rate": 0.001, | |
| "loss": 0.026, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 25.26, | |
| "learning_rate": 0.0009666666666666667, | |
| "loss": 0.0418, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 25.89, | |
| "learning_rate": 0.0009333333333333333, | |
| "loss": 0.0332, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 26.53, | |
| "learning_rate": 0.0009000000000000001, | |
| "loss": 0.0245, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 27.16, | |
| "learning_rate": 0.0008666666666666667, | |
| "loss": 0.036, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 27.79, | |
| "learning_rate": 0.0008333333333333334, | |
| "loss": 0.0233, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 28.42, | |
| "learning_rate": 0.0008, | |
| "loss": 0.0246, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 29.05, | |
| "learning_rate": 0.0007666666666666667, | |
| "loss": 0.0249, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 29.68, | |
| "learning_rate": 0.0007333333333333333, | |
| "loss": 0.0217, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 30.32, | |
| "learning_rate": 0.0007, | |
| "loss": 0.0157, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 30.95, | |
| "learning_rate": 0.0006666666666666666, | |
| "loss": 0.0185, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 31.58, | |
| "learning_rate": 0.0006333333333333333, | |
| "loss": 0.0122, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 32.21, | |
| "learning_rate": 0.0006, | |
| "loss": 0.0106, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 32.84, | |
| "learning_rate": 0.0005666666666666667, | |
| "loss": 0.0143, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 33.47, | |
| "learning_rate": 0.0005333333333333334, | |
| "loss": 0.0085, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 34.11, | |
| "learning_rate": 0.0005, | |
| "loss": 0.011, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 34.74, | |
| "learning_rate": 0.00046666666666666666, | |
| "loss": 0.0077, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 35.37, | |
| "learning_rate": 0.00043333333333333337, | |
| "loss": 0.0075, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 36.0, | |
| "learning_rate": 0.0004, | |
| "loss": 0.0062, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 36.63, | |
| "learning_rate": 0.00036666666666666667, | |
| "loss": 0.0049, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 37.26, | |
| "learning_rate": 0.0003333333333333333, | |
| "loss": 0.0057, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 37.89, | |
| "learning_rate": 0.0003, | |
| "loss": 0.0068, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 38.53, | |
| "learning_rate": 0.0002666666666666667, | |
| "loss": 0.0055, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 39.16, | |
| "learning_rate": 0.00023333333333333333, | |
| "loss": 0.0046, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 39.79, | |
| "learning_rate": 0.0002, | |
| "loss": 0.0053, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 40.42, | |
| "learning_rate": 0.00016666666666666666, | |
| "loss": 0.004, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 41.05, | |
| "learning_rate": 0.00013333333333333334, | |
| "loss": 0.005, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 41.68, | |
| "learning_rate": 0.0001, | |
| "loss": 0.004, | |
| "step": 198 | |
| } | |
| ], | |
| "logging_steps": 3, | |
| "max_steps": 200, | |
| "num_train_epochs": 50, | |
| "save_steps": 500, | |
| "total_flos": 3.4983817248768e+16, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |