| { | |
| "best_global_step": 300, | |
| "best_metric": 6.477707862854004, | |
| "best_model_checkpoint": "./llama2-step4/checkpoint-300", | |
| "epoch": 50.0, | |
| "eval_steps": 10, | |
| "global_step": 300, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": NaN, | |
| "learning_rate": 4.000000000000001e-06, | |
| "loss": 8.655, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 5.807435035705566, | |
| "learning_rate": 9e-06, | |
| "loss": 8.6675, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "eval_loss": 8.762306213378906, | |
| "eval_runtime": 1.1641, | |
| "eval_samples_per_second": 8.591, | |
| "eval_steps_per_second": 2.577, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 4.866168022155762, | |
| "learning_rate": 9.862068965517241e-06, | |
| "loss": 8.5013, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 4.68835973739624, | |
| "learning_rate": 9.689655172413794e-06, | |
| "loss": 8.3972, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "eval_loss": 8.49362850189209, | |
| "eval_runtime": 1.1628, | |
| "eval_samples_per_second": 8.6, | |
| "eval_steps_per_second": 2.58, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 7.694056510925293, | |
| "learning_rate": 9.517241379310346e-06, | |
| "loss": 8.2902, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 6.873053550720215, | |
| "learning_rate": 9.344827586206898e-06, | |
| "loss": 8.1007, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "eval_loss": 8.257888793945312, | |
| "eval_runtime": 1.1642, | |
| "eval_samples_per_second": 8.59, | |
| "eval_steps_per_second": 2.577, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 6.409057140350342, | |
| "learning_rate": 9.172413793103448e-06, | |
| "loss": 8.0427, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 5.669801235198975, | |
| "learning_rate": 9e-06, | |
| "loss": 7.9235, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "eval_loss": 8.044379234313965, | |
| "eval_runtime": 1.1677, | |
| "eval_samples_per_second": 8.564, | |
| "eval_steps_per_second": 2.569, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 4.534883499145508, | |
| "learning_rate": 8.827586206896552e-06, | |
| "loss": 7.708, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 4.812073707580566, | |
| "learning_rate": 8.655172413793104e-06, | |
| "loss": 7.6847, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "eval_loss": 7.831937313079834, | |
| "eval_runtime": 1.1678, | |
| "eval_samples_per_second": 8.563, | |
| "eval_steps_per_second": 2.569, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 4.398963928222656, | |
| "learning_rate": 8.482758620689656e-06, | |
| "loss": 7.5551, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 6.508076190948486, | |
| "learning_rate": 8.310344827586207e-06, | |
| "loss": 7.4255, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "eval_loss": 7.6158857345581055, | |
| "eval_runtime": 1.1694, | |
| "eval_samples_per_second": 8.552, | |
| "eval_steps_per_second": 2.566, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 10.833333333333334, | |
| "grad_norm": 7.493861198425293, | |
| "learning_rate": 8.137931034482759e-06, | |
| "loss": 7.3105, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 11.666666666666666, | |
| "grad_norm": 5.808365821838379, | |
| "learning_rate": 7.965517241379311e-06, | |
| "loss": 7.3573, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 11.666666666666666, | |
| "eval_loss": 7.405577659606934, | |
| "eval_runtime": 1.17, | |
| "eval_samples_per_second": 8.547, | |
| "eval_steps_per_second": 2.564, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 12.5, | |
| "grad_norm": 5.766481399536133, | |
| "learning_rate": 7.793103448275863e-06, | |
| "loss": 7.0032, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 13.333333333333334, | |
| "grad_norm": 5.715093612670898, | |
| "learning_rate": 7.655172413793104e-06, | |
| "loss": 6.9862, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 13.333333333333334, | |
| "eval_loss": 7.243984222412109, | |
| "eval_runtime": 1.1687, | |
| "eval_samples_per_second": 8.556, | |
| "eval_steps_per_second": 2.567, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 14.166666666666666, | |
| "grad_norm": 6.890617370605469, | |
| "learning_rate": 7.482758620689656e-06, | |
| "loss": 6.908, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "grad_norm": 6.349765300750732, | |
| "learning_rate": 7.310344827586208e-06, | |
| "loss": 6.8809, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "eval_loss": 7.085419654846191, | |
| "eval_runtime": 1.1695, | |
| "eval_samples_per_second": 8.55, | |
| "eval_steps_per_second": 2.565, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 15.833333333333334, | |
| "grad_norm": 5.365812301635742, | |
| "learning_rate": 7.137931034482759e-06, | |
| "loss": 6.7798, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 16.666666666666668, | |
| "grad_norm": 7.526610374450684, | |
| "learning_rate": 6.9655172413793105e-06, | |
| "loss": 6.606, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 16.666666666666668, | |
| "eval_loss": 6.946846961975098, | |
| "eval_runtime": 1.1712, | |
| "eval_samples_per_second": 8.538, | |
| "eval_steps_per_second": 2.561, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 17.5, | |
| "grad_norm": 5.357245922088623, | |
| "learning_rate": 6.7931034482758626e-06, | |
| "loss": 6.7679, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 18.333333333333332, | |
| "grad_norm": 7.445984363555908, | |
| "learning_rate": 6.620689655172415e-06, | |
| "loss": 6.4131, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 18.333333333333332, | |
| "eval_loss": 6.84014892578125, | |
| "eval_runtime": 1.1688, | |
| "eval_samples_per_second": 8.556, | |
| "eval_steps_per_second": 2.567, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 19.166666666666668, | |
| "grad_norm": 5.064093589782715, | |
| "learning_rate": 6.448275862068966e-06, | |
| "loss": 6.4387, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "grad_norm": 6.121270179748535, | |
| "learning_rate": 6.275862068965518e-06, | |
| "loss": 6.5389, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "eval_loss": 6.772418975830078, | |
| "eval_runtime": 1.1693, | |
| "eval_samples_per_second": 8.552, | |
| "eval_steps_per_second": 2.566, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 20.833333333333332, | |
| "grad_norm": 4.504457473754883, | |
| "learning_rate": 6.103448275862069e-06, | |
| "loss": 6.3358, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 21.666666666666668, | |
| "grad_norm": 2.5440237522125244, | |
| "learning_rate": 5.9310344827586205e-06, | |
| "loss": 6.4499, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 21.666666666666668, | |
| "eval_loss": 6.720807075500488, | |
| "eval_runtime": 1.169, | |
| "eval_samples_per_second": 8.554, | |
| "eval_steps_per_second": 2.566, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 22.5, | |
| "grad_norm": 3.769169807434082, | |
| "learning_rate": 5.758620689655173e-06, | |
| "loss": 6.3462, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 23.333333333333332, | |
| "grad_norm": 3.5738062858581543, | |
| "learning_rate": 5.586206896551725e-06, | |
| "loss": 6.3467, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 23.333333333333332, | |
| "eval_loss": 6.676053047180176, | |
| "eval_runtime": 1.1692, | |
| "eval_samples_per_second": 8.553, | |
| "eval_steps_per_second": 2.566, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 24.166666666666668, | |
| "grad_norm": 2.525397539138794, | |
| "learning_rate": 5.413793103448276e-06, | |
| "loss": 6.4262, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 25.0, | |
| "grad_norm": 7.168394565582275, | |
| "learning_rate": 5.241379310344829e-06, | |
| "loss": 6.2056, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 25.0, | |
| "eval_loss": 6.641719818115234, | |
| "eval_runtime": 1.1685, | |
| "eval_samples_per_second": 8.558, | |
| "eval_steps_per_second": 2.567, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 25.833333333333332, | |
| "grad_norm": 3.0939154624938965, | |
| "learning_rate": 5.06896551724138e-06, | |
| "loss": 6.1915, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 26.666666666666668, | |
| "grad_norm": 3.166870355606079, | |
| "learning_rate": 4.896551724137931e-06, | |
| "loss": 6.3653, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 26.666666666666668, | |
| "eval_loss": 6.614515781402588, | |
| "eval_runtime": 1.1686, | |
| "eval_samples_per_second": 8.557, | |
| "eval_steps_per_second": 2.567, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 27.5, | |
| "grad_norm": 4.855230331420898, | |
| "learning_rate": 4.724137931034483e-06, | |
| "loss": 6.0945, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 28.333333333333332, | |
| "grad_norm": 4.497844219207764, | |
| "learning_rate": 4.551724137931035e-06, | |
| "loss": 6.4573, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 28.333333333333332, | |
| "eval_loss": 6.58881139755249, | |
| "eval_runtime": 1.1689, | |
| "eval_samples_per_second": 8.555, | |
| "eval_steps_per_second": 2.566, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 29.166666666666668, | |
| "grad_norm": 5.766814231872559, | |
| "learning_rate": 4.379310344827587e-06, | |
| "loss": 6.25, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 30.0, | |
| "grad_norm": 2.9528305530548096, | |
| "learning_rate": 4.206896551724138e-06, | |
| "loss": 6.1068, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 30.0, | |
| "eval_loss": 6.571514129638672, | |
| "eval_runtime": 1.1695, | |
| "eval_samples_per_second": 8.551, | |
| "eval_steps_per_second": 2.565, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 30.833333333333332, | |
| "grad_norm": 4.210498809814453, | |
| "learning_rate": 4.03448275862069e-06, | |
| "loss": 6.4773, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 31.666666666666668, | |
| "grad_norm": 3.7556307315826416, | |
| "learning_rate": 3.862068965517241e-06, | |
| "loss": 6.1074, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 31.666666666666668, | |
| "eval_loss": 6.5557684898376465, | |
| "eval_runtime": 1.1685, | |
| "eval_samples_per_second": 8.558, | |
| "eval_steps_per_second": 2.567, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 32.5, | |
| "grad_norm": 2.2701170444488525, | |
| "learning_rate": 3.6896551724137934e-06, | |
| "loss": 6.0287, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 33.333333333333336, | |
| "grad_norm": 3.6891818046569824, | |
| "learning_rate": 3.517241379310345e-06, | |
| "loss": 6.0739, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 33.333333333333336, | |
| "eval_loss": 6.541436195373535, | |
| "eval_runtime": 1.1714, | |
| "eval_samples_per_second": 8.537, | |
| "eval_steps_per_second": 2.561, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 34.166666666666664, | |
| "grad_norm": 3.8515024185180664, | |
| "learning_rate": 3.3448275862068967e-06, | |
| "loss": 6.2661, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 35.0, | |
| "grad_norm": 2.5693061351776123, | |
| "learning_rate": 3.172413793103449e-06, | |
| "loss": 6.1364, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 35.0, | |
| "eval_loss": 6.5295000076293945, | |
| "eval_runtime": 1.1683, | |
| "eval_samples_per_second": 8.559, | |
| "eval_steps_per_second": 2.568, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 35.833333333333336, | |
| "grad_norm": 3.240337610244751, | |
| "learning_rate": 3e-06, | |
| "loss": 6.4022, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 36.666666666666664, | |
| "grad_norm": 3.298610210418701, | |
| "learning_rate": 2.827586206896552e-06, | |
| "loss": 6.0031, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 36.666666666666664, | |
| "eval_loss": 6.518210411071777, | |
| "eval_runtime": 1.1686, | |
| "eval_samples_per_second": 8.557, | |
| "eval_steps_per_second": 2.567, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 37.5, | |
| "grad_norm": 2.766157865524292, | |
| "learning_rate": 2.6551724137931034e-06, | |
| "loss": 5.9806, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 38.333333333333336, | |
| "grad_norm": 13.019350051879883, | |
| "learning_rate": 2.4827586206896555e-06, | |
| "loss": 6.1952, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 38.333333333333336, | |
| "eval_loss": 6.507277011871338, | |
| "eval_runtime": 1.168, | |
| "eval_samples_per_second": 8.562, | |
| "eval_steps_per_second": 2.568, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 39.166666666666664, | |
| "grad_norm": 7.104252815246582, | |
| "learning_rate": 2.310344827586207e-06, | |
| "loss": 5.9675, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 40.0, | |
| "grad_norm": 2.4420504570007324, | |
| "learning_rate": 2.137931034482759e-06, | |
| "loss": 6.2932, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 40.0, | |
| "eval_loss": 6.499304294586182, | |
| "eval_runtime": 1.1692, | |
| "eval_samples_per_second": 8.553, | |
| "eval_steps_per_second": 2.566, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 40.833333333333336, | |
| "grad_norm": 4.704829692840576, | |
| "learning_rate": 1.9655172413793105e-06, | |
| "loss": 6.086, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 41.666666666666664, | |
| "grad_norm": 8.435072898864746, | |
| "learning_rate": 1.7931034482758622e-06, | |
| "loss": 5.9113, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 41.666666666666664, | |
| "eval_loss": 6.4918694496154785, | |
| "eval_runtime": 1.1699, | |
| "eval_samples_per_second": 8.548, | |
| "eval_steps_per_second": 2.564, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 42.5, | |
| "grad_norm": 8.287426948547363, | |
| "learning_rate": 1.6206896551724138e-06, | |
| "loss": 6.4342, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 43.333333333333336, | |
| "grad_norm": 2.980454921722412, | |
| "learning_rate": 1.4482758620689657e-06, | |
| "loss": 5.8916, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 43.333333333333336, | |
| "eval_loss": 6.487914085388184, | |
| "eval_runtime": 1.1689, | |
| "eval_samples_per_second": 8.555, | |
| "eval_steps_per_second": 2.567, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 44.166666666666664, | |
| "grad_norm": 3.5956976413726807, | |
| "learning_rate": 1.2758620689655174e-06, | |
| "loss": 6.2072, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 45.0, | |
| "grad_norm": 3.0276715755462646, | |
| "learning_rate": 1.103448275862069e-06, | |
| "loss": 6.1625, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 45.0, | |
| "eval_loss": 6.483713626861572, | |
| "eval_runtime": 1.169, | |
| "eval_samples_per_second": 8.554, | |
| "eval_steps_per_second": 2.566, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 45.833333333333336, | |
| "grad_norm": 8.784070014953613, | |
| "learning_rate": 9.310344827586208e-07, | |
| "loss": 5.9684, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 46.666666666666664, | |
| "grad_norm": 2.9220991134643555, | |
| "learning_rate": 7.586206896551725e-07, | |
| "loss": 6.2368, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 46.666666666666664, | |
| "eval_loss": 6.479860782623291, | |
| "eval_runtime": 1.1685, | |
| "eval_samples_per_second": 8.558, | |
| "eval_steps_per_second": 2.567, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 47.5, | |
| "grad_norm": 1.8880271911621094, | |
| "learning_rate": 5.862068965517241e-07, | |
| "loss": 6.2116, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 48.333333333333336, | |
| "grad_norm": 1.3617124557495117, | |
| "learning_rate": 4.137931034482759e-07, | |
| "loss": 6.0661, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 48.333333333333336, | |
| "eval_loss": 6.4777703285217285, | |
| "eval_runtime": 1.1695, | |
| "eval_samples_per_second": 8.551, | |
| "eval_steps_per_second": 2.565, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 49.166666666666664, | |
| "grad_norm": 3.9891092777252197, | |
| "learning_rate": 2.413793103448276e-07, | |
| "loss": 6.1543, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 50.0, | |
| "grad_norm": 3.708580493927002, | |
| "learning_rate": 6.896551724137931e-08, | |
| "loss": 5.9788, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 50.0, | |
| "eval_loss": 6.477707862854004, | |
| "eval_runtime": 1.1698, | |
| "eval_samples_per_second": 8.548, | |
| "eval_steps_per_second": 2.565, | |
| "step": 300 | |
| } | |
| ], | |
| "logging_steps": 5, | |
| "max_steps": 300, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 50, | |
| "save_steps": 10, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 9.7491093553152e+16, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |