{ "best_global_step": 300, "best_metric": 6.477707862854004, "best_model_checkpoint": "./llama2-step4/checkpoint-300", "epoch": 50.0, "eval_steps": 10, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.8333333333333334, "grad_norm": NaN, "learning_rate": 4.000000000000001e-06, "loss": 8.655, "step": 5 }, { "epoch": 1.6666666666666665, "grad_norm": 5.807435035705566, "learning_rate": 9e-06, "loss": 8.6675, "step": 10 }, { "epoch": 1.6666666666666665, "eval_loss": 8.762306213378906, "eval_runtime": 1.1641, "eval_samples_per_second": 8.591, "eval_steps_per_second": 2.577, "step": 10 }, { "epoch": 2.5, "grad_norm": 4.866168022155762, "learning_rate": 9.862068965517241e-06, "loss": 8.5013, "step": 15 }, { "epoch": 3.3333333333333335, "grad_norm": 4.68835973739624, "learning_rate": 9.689655172413794e-06, "loss": 8.3972, "step": 20 }, { "epoch": 3.3333333333333335, "eval_loss": 8.49362850189209, "eval_runtime": 1.1628, "eval_samples_per_second": 8.6, "eval_steps_per_second": 2.58, "step": 20 }, { "epoch": 4.166666666666667, "grad_norm": 7.694056510925293, "learning_rate": 9.517241379310346e-06, "loss": 8.2902, "step": 25 }, { "epoch": 5.0, "grad_norm": 6.873053550720215, "learning_rate": 9.344827586206898e-06, "loss": 8.1007, "step": 30 }, { "epoch": 5.0, "eval_loss": 8.257888793945312, "eval_runtime": 1.1642, "eval_samples_per_second": 8.59, "eval_steps_per_second": 2.577, "step": 30 }, { "epoch": 5.833333333333333, "grad_norm": 6.409057140350342, "learning_rate": 9.172413793103448e-06, "loss": 8.0427, "step": 35 }, { "epoch": 6.666666666666667, "grad_norm": 5.669801235198975, "learning_rate": 9e-06, "loss": 7.9235, "step": 40 }, { "epoch": 6.666666666666667, "eval_loss": 8.044379234313965, "eval_runtime": 1.1677, "eval_samples_per_second": 8.564, "eval_steps_per_second": 2.569, "step": 40 }, { "epoch": 7.5, "grad_norm": 4.534883499145508, "learning_rate": 8.827586206896552e-06, "loss": 7.708, "step": 45 }, { "epoch": 8.333333333333334, "grad_norm": 4.812073707580566, "learning_rate": 8.655172413793104e-06, "loss": 7.6847, "step": 50 }, { "epoch": 8.333333333333334, "eval_loss": 7.831937313079834, "eval_runtime": 1.1678, "eval_samples_per_second": 8.563, "eval_steps_per_second": 2.569, "step": 50 }, { "epoch": 9.166666666666666, "grad_norm": 4.398963928222656, "learning_rate": 8.482758620689656e-06, "loss": 7.5551, "step": 55 }, { "epoch": 10.0, "grad_norm": 6.508076190948486, "learning_rate": 8.310344827586207e-06, "loss": 7.4255, "step": 60 }, { "epoch": 10.0, "eval_loss": 7.6158857345581055, "eval_runtime": 1.1694, "eval_samples_per_second": 8.552, "eval_steps_per_second": 2.566, "step": 60 }, { "epoch": 10.833333333333334, "grad_norm": 7.493861198425293, "learning_rate": 8.137931034482759e-06, "loss": 7.3105, "step": 65 }, { "epoch": 11.666666666666666, "grad_norm": 5.808365821838379, "learning_rate": 7.965517241379311e-06, "loss": 7.3573, "step": 70 }, { "epoch": 11.666666666666666, "eval_loss": 7.405577659606934, "eval_runtime": 1.17, "eval_samples_per_second": 8.547, "eval_steps_per_second": 2.564, "step": 70 }, { "epoch": 12.5, "grad_norm": 5.766481399536133, "learning_rate": 7.793103448275863e-06, "loss": 7.0032, "step": 75 }, { "epoch": 13.333333333333334, "grad_norm": 5.715093612670898, "learning_rate": 7.655172413793104e-06, "loss": 6.9862, "step": 80 }, { "epoch": 13.333333333333334, "eval_loss": 7.243984222412109, "eval_runtime": 1.1687, "eval_samples_per_second": 8.556, "eval_steps_per_second": 2.567, "step": 80 }, { "epoch": 14.166666666666666, "grad_norm": 6.890617370605469, "learning_rate": 7.482758620689656e-06, "loss": 6.908, "step": 85 }, { "epoch": 15.0, "grad_norm": 6.349765300750732, "learning_rate": 7.310344827586208e-06, "loss": 6.8809, "step": 90 }, { "epoch": 15.0, "eval_loss": 7.085419654846191, "eval_runtime": 1.1695, "eval_samples_per_second": 8.55, "eval_steps_per_second": 2.565, "step": 90 }, { "epoch": 15.833333333333334, "grad_norm": 5.365812301635742, "learning_rate": 7.137931034482759e-06, "loss": 6.7798, "step": 95 }, { "epoch": 16.666666666666668, "grad_norm": 7.526610374450684, "learning_rate": 6.9655172413793105e-06, "loss": 6.606, "step": 100 }, { "epoch": 16.666666666666668, "eval_loss": 6.946846961975098, "eval_runtime": 1.1712, "eval_samples_per_second": 8.538, "eval_steps_per_second": 2.561, "step": 100 }, { "epoch": 17.5, "grad_norm": 5.357245922088623, "learning_rate": 6.7931034482758626e-06, "loss": 6.7679, "step": 105 }, { "epoch": 18.333333333333332, "grad_norm": 7.445984363555908, "learning_rate": 6.620689655172415e-06, "loss": 6.4131, "step": 110 }, { "epoch": 18.333333333333332, "eval_loss": 6.84014892578125, "eval_runtime": 1.1688, "eval_samples_per_second": 8.556, "eval_steps_per_second": 2.567, "step": 110 }, { "epoch": 19.166666666666668, "grad_norm": 5.064093589782715, "learning_rate": 6.448275862068966e-06, "loss": 6.4387, "step": 115 }, { "epoch": 20.0, "grad_norm": 6.121270179748535, "learning_rate": 6.275862068965518e-06, "loss": 6.5389, "step": 120 }, { "epoch": 20.0, "eval_loss": 6.772418975830078, "eval_runtime": 1.1693, "eval_samples_per_second": 8.552, "eval_steps_per_second": 2.566, "step": 120 }, { "epoch": 20.833333333333332, "grad_norm": 4.504457473754883, "learning_rate": 6.103448275862069e-06, "loss": 6.3358, "step": 125 }, { "epoch": 21.666666666666668, "grad_norm": 2.5440237522125244, "learning_rate": 5.9310344827586205e-06, "loss": 6.4499, "step": 130 }, { "epoch": 21.666666666666668, "eval_loss": 6.720807075500488, "eval_runtime": 1.169, "eval_samples_per_second": 8.554, "eval_steps_per_second": 2.566, "step": 130 }, { "epoch": 22.5, "grad_norm": 3.769169807434082, "learning_rate": 5.758620689655173e-06, "loss": 6.3462, "step": 135 }, { "epoch": 23.333333333333332, "grad_norm": 3.5738062858581543, "learning_rate": 5.586206896551725e-06, "loss": 6.3467, "step": 140 }, { "epoch": 23.333333333333332, "eval_loss": 6.676053047180176, "eval_runtime": 1.1692, "eval_samples_per_second": 8.553, "eval_steps_per_second": 2.566, "step": 140 }, { "epoch": 24.166666666666668, "grad_norm": 2.525397539138794, "learning_rate": 5.413793103448276e-06, "loss": 6.4262, "step": 145 }, { "epoch": 25.0, "grad_norm": 7.168394565582275, "learning_rate": 5.241379310344829e-06, "loss": 6.2056, "step": 150 }, { "epoch": 25.0, "eval_loss": 6.641719818115234, "eval_runtime": 1.1685, "eval_samples_per_second": 8.558, "eval_steps_per_second": 2.567, "step": 150 }, { "epoch": 25.833333333333332, "grad_norm": 3.0939154624938965, "learning_rate": 5.06896551724138e-06, "loss": 6.1915, "step": 155 }, { "epoch": 26.666666666666668, "grad_norm": 3.166870355606079, "learning_rate": 4.896551724137931e-06, "loss": 6.3653, "step": 160 }, { "epoch": 26.666666666666668, "eval_loss": 6.614515781402588, "eval_runtime": 1.1686, "eval_samples_per_second": 8.557, "eval_steps_per_second": 2.567, "step": 160 }, { "epoch": 27.5, "grad_norm": 4.855230331420898, "learning_rate": 4.724137931034483e-06, "loss": 6.0945, "step": 165 }, { "epoch": 28.333333333333332, "grad_norm": 4.497844219207764, "learning_rate": 4.551724137931035e-06, "loss": 6.4573, "step": 170 }, { "epoch": 28.333333333333332, "eval_loss": 6.58881139755249, "eval_runtime": 1.1689, "eval_samples_per_second": 8.555, "eval_steps_per_second": 2.566, "step": 170 }, { "epoch": 29.166666666666668, "grad_norm": 5.766814231872559, "learning_rate": 4.379310344827587e-06, "loss": 6.25, "step": 175 }, { "epoch": 30.0, "grad_norm": 2.9528305530548096, "learning_rate": 4.206896551724138e-06, "loss": 6.1068, "step": 180 }, { "epoch": 30.0, "eval_loss": 6.571514129638672, "eval_runtime": 1.1695, "eval_samples_per_second": 8.551, "eval_steps_per_second": 2.565, "step": 180 }, { "epoch": 30.833333333333332, "grad_norm": 4.210498809814453, "learning_rate": 4.03448275862069e-06, "loss": 6.4773, "step": 185 }, { "epoch": 31.666666666666668, "grad_norm": 3.7556307315826416, "learning_rate": 3.862068965517241e-06, "loss": 6.1074, "step": 190 }, { "epoch": 31.666666666666668, "eval_loss": 6.5557684898376465, "eval_runtime": 1.1685, "eval_samples_per_second": 8.558, "eval_steps_per_second": 2.567, "step": 190 }, { "epoch": 32.5, "grad_norm": 2.2701170444488525, "learning_rate": 3.6896551724137934e-06, "loss": 6.0287, "step": 195 }, { "epoch": 33.333333333333336, "grad_norm": 3.6891818046569824, "learning_rate": 3.517241379310345e-06, "loss": 6.0739, "step": 200 }, { "epoch": 33.333333333333336, "eval_loss": 6.541436195373535, "eval_runtime": 1.1714, "eval_samples_per_second": 8.537, "eval_steps_per_second": 2.561, "step": 200 }, { "epoch": 34.166666666666664, "grad_norm": 3.8515024185180664, "learning_rate": 3.3448275862068967e-06, "loss": 6.2661, "step": 205 }, { "epoch": 35.0, "grad_norm": 2.5693061351776123, "learning_rate": 3.172413793103449e-06, "loss": 6.1364, "step": 210 }, { "epoch": 35.0, "eval_loss": 6.5295000076293945, "eval_runtime": 1.1683, "eval_samples_per_second": 8.559, "eval_steps_per_second": 2.568, "step": 210 }, { "epoch": 35.833333333333336, "grad_norm": 3.240337610244751, "learning_rate": 3e-06, "loss": 6.4022, "step": 215 }, { "epoch": 36.666666666666664, "grad_norm": 3.298610210418701, "learning_rate": 2.827586206896552e-06, "loss": 6.0031, "step": 220 }, { "epoch": 36.666666666666664, "eval_loss": 6.518210411071777, "eval_runtime": 1.1686, "eval_samples_per_second": 8.557, "eval_steps_per_second": 2.567, "step": 220 }, { "epoch": 37.5, "grad_norm": 2.766157865524292, "learning_rate": 2.6551724137931034e-06, "loss": 5.9806, "step": 225 }, { "epoch": 38.333333333333336, "grad_norm": 13.019350051879883, "learning_rate": 2.4827586206896555e-06, "loss": 6.1952, "step": 230 }, { "epoch": 38.333333333333336, "eval_loss": 6.507277011871338, "eval_runtime": 1.168, "eval_samples_per_second": 8.562, "eval_steps_per_second": 2.568, "step": 230 }, { "epoch": 39.166666666666664, "grad_norm": 7.104252815246582, "learning_rate": 2.310344827586207e-06, "loss": 5.9675, "step": 235 }, { "epoch": 40.0, "grad_norm": 2.4420504570007324, "learning_rate": 2.137931034482759e-06, "loss": 6.2932, "step": 240 }, { "epoch": 40.0, "eval_loss": 6.499304294586182, "eval_runtime": 1.1692, "eval_samples_per_second": 8.553, "eval_steps_per_second": 2.566, "step": 240 }, { "epoch": 40.833333333333336, "grad_norm": 4.704829692840576, "learning_rate": 1.9655172413793105e-06, "loss": 6.086, "step": 245 }, { "epoch": 41.666666666666664, "grad_norm": 8.435072898864746, "learning_rate": 1.7931034482758622e-06, "loss": 5.9113, "step": 250 }, { "epoch": 41.666666666666664, "eval_loss": 6.4918694496154785, "eval_runtime": 1.1699, "eval_samples_per_second": 8.548, "eval_steps_per_second": 2.564, "step": 250 }, { "epoch": 42.5, "grad_norm": 8.287426948547363, "learning_rate": 1.6206896551724138e-06, "loss": 6.4342, "step": 255 }, { "epoch": 43.333333333333336, "grad_norm": 2.980454921722412, "learning_rate": 1.4482758620689657e-06, "loss": 5.8916, "step": 260 }, { "epoch": 43.333333333333336, "eval_loss": 6.487914085388184, "eval_runtime": 1.1689, "eval_samples_per_second": 8.555, "eval_steps_per_second": 2.567, "step": 260 }, { "epoch": 44.166666666666664, "grad_norm": 3.5956976413726807, "learning_rate": 1.2758620689655174e-06, "loss": 6.2072, "step": 265 }, { "epoch": 45.0, "grad_norm": 3.0276715755462646, "learning_rate": 1.103448275862069e-06, "loss": 6.1625, "step": 270 }, { "epoch": 45.0, "eval_loss": 6.483713626861572, "eval_runtime": 1.169, "eval_samples_per_second": 8.554, "eval_steps_per_second": 2.566, "step": 270 }, { "epoch": 45.833333333333336, "grad_norm": 8.784070014953613, "learning_rate": 9.310344827586208e-07, "loss": 5.9684, "step": 275 }, { "epoch": 46.666666666666664, "grad_norm": 2.9220991134643555, "learning_rate": 7.586206896551725e-07, "loss": 6.2368, "step": 280 }, { "epoch": 46.666666666666664, "eval_loss": 6.479860782623291, "eval_runtime": 1.1685, "eval_samples_per_second": 8.558, "eval_steps_per_second": 2.567, "step": 280 }, { "epoch": 47.5, "grad_norm": 1.8880271911621094, "learning_rate": 5.862068965517241e-07, "loss": 6.2116, "step": 285 }, { "epoch": 48.333333333333336, "grad_norm": 1.3617124557495117, "learning_rate": 4.137931034482759e-07, "loss": 6.0661, "step": 290 }, { "epoch": 48.333333333333336, "eval_loss": 6.4777703285217285, "eval_runtime": 1.1695, "eval_samples_per_second": 8.551, "eval_steps_per_second": 2.565, "step": 290 }, { "epoch": 49.166666666666664, "grad_norm": 3.9891092777252197, "learning_rate": 2.413793103448276e-07, "loss": 6.1543, "step": 295 }, { "epoch": 50.0, "grad_norm": 3.708580493927002, "learning_rate": 6.896551724137931e-08, "loss": 5.9788, "step": 300 }, { "epoch": 50.0, "eval_loss": 6.477707862854004, "eval_runtime": 1.1698, "eval_samples_per_second": 8.548, "eval_steps_per_second": 2.565, "step": 300 } ], "logging_steps": 5, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 50, "save_steps": 10, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 9.7491093553152e+16, "train_batch_size": 4, "trial_name": null, "trial_params": null }