| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 2.0, |
| "eval_steps": 30, |
| "global_step": 480, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0, |
| "eval_loss": 2.642014741897583, |
| "eval_runtime": 20.9906, |
| "eval_samples_per_second": 117.672, |
| "eval_steps_per_second": 29.442, |
| "step": 0 |
| }, |
| { |
| "epoch": 0.004166666666666667, |
| "grad_norm": 7.6875, |
| "learning_rate": 0.0, |
| "loss": 2.2679, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.008333333333333333, |
| "grad_norm": 7.3125, |
| "learning_rate": 4.1666666666666667e-07, |
| "loss": 2.0764, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.0125, |
| "grad_norm": 7.9375, |
| "learning_rate": 8.333333333333333e-07, |
| "loss": 2.2987, |
| "step": 3 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 7.5, |
| "learning_rate": 1.25e-06, |
| "loss": 2.1665, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.020833333333333332, |
| "grad_norm": 7.90625, |
| "learning_rate": 1.6666666666666667e-06, |
| "loss": 2.2858, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.025, |
| "grad_norm": 7.5625, |
| "learning_rate": 2.0833333333333334e-06, |
| "loss": 2.1824, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.029166666666666667, |
| "grad_norm": 7.71875, |
| "learning_rate": 2.5e-06, |
| "loss": 2.1229, |
| "step": 7 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 7.3125, |
| "learning_rate": 2.916666666666667e-06, |
| "loss": 2.1932, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.0375, |
| "grad_norm": 6.59375, |
| "learning_rate": 3.3333333333333333e-06, |
| "loss": 2.0353, |
| "step": 9 |
| }, |
| { |
| "epoch": 0.041666666666666664, |
| "grad_norm": 6.65625, |
| "learning_rate": 3.7500000000000005e-06, |
| "loss": 2.0662, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.04583333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 4.166666666666667e-06, |
| "loss": 2.0314, |
| "step": 11 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 5.71875, |
| "learning_rate": 4.583333333333333e-06, |
| "loss": 1.9706, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.05416666666666667, |
| "grad_norm": 5.3125, |
| "learning_rate": 5e-06, |
| "loss": 2.1048, |
| "step": 13 |
| }, |
| { |
| "epoch": 0.058333333333333334, |
| "grad_norm": 5.0, |
| "learning_rate": 5.416666666666667e-06, |
| "loss": 2.0047, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.0625, |
| "grad_norm": 4.1875, |
| "learning_rate": 5.833333333333334e-06, |
| "loss": 2.2391, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 3.59375, |
| "learning_rate": 6.25e-06, |
| "loss": 1.8211, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.07083333333333333, |
| "grad_norm": 3.0, |
| "learning_rate": 6.666666666666667e-06, |
| "loss": 1.9592, |
| "step": 17 |
| }, |
| { |
| "epoch": 0.075, |
| "grad_norm": 2.421875, |
| "learning_rate": 7.083333333333335e-06, |
| "loss": 2.0998, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.07916666666666666, |
| "grad_norm": 2.046875, |
| "learning_rate": 7.500000000000001e-06, |
| "loss": 2.0714, |
| "step": 19 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 1.4609375, |
| "learning_rate": 7.916666666666667e-06, |
| "loss": 1.8589, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.0875, |
| "grad_norm": 1.5234375, |
| "learning_rate": 8.333333333333334e-06, |
| "loss": 1.8568, |
| "step": 21 |
| }, |
| { |
| "epoch": 0.09166666666666666, |
| "grad_norm": 1.46875, |
| "learning_rate": 8.750000000000001e-06, |
| "loss": 1.9781, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.09583333333333334, |
| "grad_norm": 1.4375, |
| "learning_rate": 9.166666666666666e-06, |
| "loss": 1.9, |
| "step": 23 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 1.3671875, |
| "learning_rate": 9.583333333333335e-06, |
| "loss": 2.0628, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.10416666666666667, |
| "grad_norm": 1.484375, |
| "learning_rate": 1e-05, |
| "loss": 1.7862, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.10833333333333334, |
| "grad_norm": 1.3046875, |
| "learning_rate": 9.999881338905204e-06, |
| "loss": 1.8664, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.1125, |
| "grad_norm": 1.125, |
| "learning_rate": 9.999525361252996e-06, |
| "loss": 2.1209, |
| "step": 27 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 1.1484375, |
| "learning_rate": 9.998932083939657e-06, |
| "loss": 1.8622, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.12083333333333333, |
| "grad_norm": 0.9765625, |
| "learning_rate": 9.998101535124758e-06, |
| "loss": 1.9644, |
| "step": 29 |
| }, |
| { |
| "epoch": 0.125, |
| "grad_norm": 0.89453125, |
| "learning_rate": 9.997033754229835e-06, |
| "loss": 2.0119, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.125, |
| "eval_loss": 2.210519313812256, |
| "eval_runtime": 18.6736, |
| "eval_samples_per_second": 132.272, |
| "eval_steps_per_second": 33.095, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.12916666666666668, |
| "grad_norm": 1.015625, |
| "learning_rate": 9.995728791936505e-06, |
| "loss": 1.837, |
| "step": 31 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.859375, |
| "learning_rate": 9.994186710184073e-06, |
| "loss": 1.8761, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.1375, |
| "grad_norm": 0.9375, |
| "learning_rate": 9.992407582166582e-06, |
| "loss": 1.9664, |
| "step": 33 |
| }, |
| { |
| "epoch": 0.14166666666666666, |
| "grad_norm": 0.93359375, |
| "learning_rate": 9.990391492329341e-06, |
| "loss": 1.9572, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.14583333333333334, |
| "grad_norm": 0.8828125, |
| "learning_rate": 9.988138536364922e-06, |
| "loss": 1.8877, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 0.7265625, |
| "learning_rate": 9.985648821208616e-06, |
| "loss": 1.7866, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.15416666666666667, |
| "grad_norm": 0.86328125, |
| "learning_rate": 9.98292246503335e-06, |
| "loss": 1.9915, |
| "step": 37 |
| }, |
| { |
| "epoch": 0.15833333333333333, |
| "grad_norm": 0.69921875, |
| "learning_rate": 9.979959597244089e-06, |
| "loss": 1.8569, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.1625, |
| "grad_norm": 0.71484375, |
| "learning_rate": 9.976760358471687e-06, |
| "loss": 1.8634, |
| "step": 39 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.80859375, |
| "learning_rate": 9.973324900566214e-06, |
| "loss": 1.7219, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.17083333333333334, |
| "grad_norm": 0.78515625, |
| "learning_rate": 9.969653386589749e-06, |
| "loss": 1.8311, |
| "step": 41 |
| }, |
| { |
| "epoch": 0.175, |
| "grad_norm": 0.71875, |
| "learning_rate": 9.965745990808638e-06, |
| "loss": 1.8661, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.17916666666666667, |
| "grad_norm": 0.734375, |
| "learning_rate": 9.961602898685225e-06, |
| "loss": 1.7509, |
| "step": 43 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 0.73046875, |
| "learning_rate": 9.957224306869053e-06, |
| "loss": 1.8696, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.1875, |
| "grad_norm": 0.671875, |
| "learning_rate": 9.952610423187516e-06, |
| "loss": 1.9372, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.19166666666666668, |
| "grad_norm": 0.640625, |
| "learning_rate": 9.947761466636014e-06, |
| "loss": 1.8945, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.19583333333333333, |
| "grad_norm": 0.66015625, |
| "learning_rate": 9.942677667367541e-06, |
| "loss": 1.8202, |
| "step": 47 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 0.73046875, |
| "learning_rate": 9.937359266681774e-06, |
| "loss": 1.9365, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.20416666666666666, |
| "grad_norm": 0.64453125, |
| "learning_rate": 9.931806517013612e-06, |
| "loss": 1.8413, |
| "step": 49 |
| }, |
| { |
| "epoch": 0.20833333333333334, |
| "grad_norm": 0.640625, |
| "learning_rate": 9.926019681921196e-06, |
| "loss": 1.7936, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.2125, |
| "grad_norm": 0.65625, |
| "learning_rate": 9.9199990360734e-06, |
| "loss": 1.9076, |
| "step": 51 |
| }, |
| { |
| "epoch": 0.21666666666666667, |
| "grad_norm": 0.66796875, |
| "learning_rate": 9.913744865236798e-06, |
| "loss": 1.8004, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.22083333333333333, |
| "grad_norm": 0.67578125, |
| "learning_rate": 9.90725746626209e-06, |
| "loss": 1.9583, |
| "step": 53 |
| }, |
| { |
| "epoch": 0.225, |
| "grad_norm": 0.66796875, |
| "learning_rate": 9.900537147070025e-06, |
| "loss": 2.0294, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.22916666666666666, |
| "grad_norm": 0.66796875, |
| "learning_rate": 9.893584226636773e-06, |
| "loss": 1.8147, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.886399034978798e-06, |
| "loss": 1.8956, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.2375, |
| "grad_norm": 0.69140625, |
| "learning_rate": 9.878981913137178e-06, |
| "loss": 1.87, |
| "step": 57 |
| }, |
| { |
| "epoch": 0.24166666666666667, |
| "grad_norm": 0.62109375, |
| "learning_rate": 9.871333213161438e-06, |
| "loss": 1.8292, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.24583333333333332, |
| "grad_norm": 0.609375, |
| "learning_rate": 9.86345329809282e-06, |
| "loss": 1.7773, |
| "step": 59 |
| }, |
| { |
| "epoch": 0.25, |
| "grad_norm": 0.62890625, |
| "learning_rate": 9.855342541947065e-06, |
| "loss": 1.8963, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.25, |
| "eval_loss": 2.1865341663360596, |
| "eval_runtime": 18.0999, |
| "eval_samples_per_second": 136.465, |
| "eval_steps_per_second": 34.144, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.25416666666666665, |
| "grad_norm": 0.58984375, |
| "learning_rate": 9.847001329696653e-06, |
| "loss": 1.8404, |
| "step": 61 |
| }, |
| { |
| "epoch": 0.25833333333333336, |
| "grad_norm": 0.6953125, |
| "learning_rate": 9.838430057252537e-06, |
| "loss": 1.9001, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.2625, |
| "grad_norm": 0.57421875, |
| "learning_rate": 9.829629131445342e-06, |
| "loss": 1.799, |
| "step": 63 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.6796875, |
| "learning_rate": 9.820598970006068e-06, |
| "loss": 1.7145, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.2708333333333333, |
| "grad_norm": 0.62109375, |
| "learning_rate": 9.811340001546252e-06, |
| "loss": 1.886, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.275, |
| "grad_norm": 0.6953125, |
| "learning_rate": 9.801852665537628e-06, |
| "loss": 1.9257, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.2791666666666667, |
| "grad_norm": 0.62109375, |
| "learning_rate": 9.792137412291265e-06, |
| "loss": 1.8697, |
| "step": 67 |
| }, |
| { |
| "epoch": 0.2833333333333333, |
| "grad_norm": 0.64453125, |
| "learning_rate": 9.782194702936198e-06, |
| "loss": 1.8609, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.2875, |
| "grad_norm": 0.63671875, |
| "learning_rate": 9.772025009397538e-06, |
| "loss": 1.7834, |
| "step": 69 |
| }, |
| { |
| "epoch": 0.2916666666666667, |
| "grad_norm": 0.625, |
| "learning_rate": 9.761628814374074e-06, |
| "loss": 1.9522, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.29583333333333334, |
| "grad_norm": 0.61328125, |
| "learning_rate": 9.751006611315357e-06, |
| "loss": 1.8662, |
| "step": 71 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 0.6015625, |
| "learning_rate": 9.740158904398286e-06, |
| "loss": 1.9992, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.30416666666666664, |
| "grad_norm": 0.625, |
| "learning_rate": 9.729086208503174e-06, |
| "loss": 1.9478, |
| "step": 73 |
| }, |
| { |
| "epoch": 0.30833333333333335, |
| "grad_norm": 0.59765625, |
| "learning_rate": 9.717789049189306e-06, |
| "loss": 1.8988, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.3125, |
| "grad_norm": 0.625, |
| "learning_rate": 9.706267962669999e-06, |
| "loss": 1.885, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.31666666666666665, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.694523495787149e-06, |
| "loss": 1.8579, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.32083333333333336, |
| "grad_norm": 0.60546875, |
| "learning_rate": 9.682556205985274e-06, |
| "loss": 1.9366, |
| "step": 77 |
| }, |
| { |
| "epoch": 0.325, |
| "grad_norm": 0.6484375, |
| "learning_rate": 9.670366661285061e-06, |
| "loss": 1.795, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.32916666666666666, |
| "grad_norm": 0.5859375, |
| "learning_rate": 9.657955440256396e-06, |
| "loss": 1.8783, |
| "step": 79 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.6953125, |
| "learning_rate": 9.645323131990908e-06, |
| "loss": 1.7912, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.3375, |
| "grad_norm": 0.66015625, |
| "learning_rate": 9.632470336074009e-06, |
| "loss": 1.8866, |
| "step": 81 |
| }, |
| { |
| "epoch": 0.3416666666666667, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.619397662556434e-06, |
| "loss": 1.636, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.3458333333333333, |
| "grad_norm": 0.609375, |
| "learning_rate": 9.606105731925284e-06, |
| "loss": 1.8458, |
| "step": 83 |
| }, |
| { |
| "epoch": 0.35, |
| "grad_norm": 0.7109375, |
| "learning_rate": 9.592595175074573e-06, |
| "loss": 1.7535, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.3541666666666667, |
| "grad_norm": 0.63671875, |
| "learning_rate": 9.578866633275289e-06, |
| "loss": 2.0323, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.35833333333333334, |
| "grad_norm": 0.6484375, |
| "learning_rate": 9.564920758144951e-06, |
| "loss": 1.9079, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.3625, |
| "grad_norm": 0.59765625, |
| "learning_rate": 9.550758211616684e-06, |
| "loss": 1.8647, |
| "step": 87 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 0.5703125, |
| "learning_rate": 9.536379665907801e-06, |
| "loss": 1.9201, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.37083333333333335, |
| "grad_norm": 0.609375, |
| "learning_rate": 9.521785803487888e-06, |
| "loss": 1.815, |
| "step": 89 |
| }, |
| { |
| "epoch": 0.375, |
| "grad_norm": 0.5859375, |
| "learning_rate": 9.506977317046424e-06, |
| "loss": 1.8623, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.375, |
| "eval_loss": 2.178661823272705, |
| "eval_runtime": 18.5546, |
| "eval_samples_per_second": 133.121, |
| "eval_steps_per_second": 33.307, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.37916666666666665, |
| "grad_norm": 0.65625, |
| "learning_rate": 9.491954909459895e-06, |
| "loss": 1.8012, |
| "step": 91 |
| }, |
| { |
| "epoch": 0.38333333333333336, |
| "grad_norm": 0.66796875, |
| "learning_rate": 9.476719293758431e-06, |
| "loss": 2.0764, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.3875, |
| "grad_norm": 0.640625, |
| "learning_rate": 9.461271193091971e-06, |
| "loss": 1.8221, |
| "step": 93 |
| }, |
| { |
| "epoch": 0.39166666666666666, |
| "grad_norm": 0.578125, |
| "learning_rate": 9.445611340695926e-06, |
| "loss": 1.799, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.3958333333333333, |
| "grad_norm": 0.60546875, |
| "learning_rate": 9.42974047985639e-06, |
| "loss": 1.8854, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.413659363874855e-06, |
| "loss": 1.7773, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.4041666666666667, |
| "grad_norm": 0.64453125, |
| "learning_rate": 9.397368756032445e-06, |
| "loss": 1.9003, |
| "step": 97 |
| }, |
| { |
| "epoch": 0.4083333333333333, |
| "grad_norm": 0.58984375, |
| "learning_rate": 9.380869429553712e-06, |
| "loss": 1.7719, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.4125, |
| "grad_norm": 0.5625, |
| "learning_rate": 9.364162167569907e-06, |
| "loss": 1.8732, |
| "step": 99 |
| }, |
| { |
| "epoch": 0.4166666666666667, |
| "grad_norm": 0.640625, |
| "learning_rate": 9.347247763081834e-06, |
| "loss": 1.8782, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.42083333333333334, |
| "grad_norm": 0.59375, |
| "learning_rate": 9.330127018922195e-06, |
| "loss": 1.8727, |
| "step": 101 |
| }, |
| { |
| "epoch": 0.425, |
| "grad_norm": 0.5859375, |
| "learning_rate": 9.312800747717484e-06, |
| "loss": 1.9571, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.42916666666666664, |
| "grad_norm": 0.6015625, |
| "learning_rate": 9.295269771849426e-06, |
| "loss": 1.7569, |
| "step": 103 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 0.55859375, |
| "learning_rate": 9.277534923415941e-06, |
| "loss": 1.9862, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.4375, |
| "grad_norm": 0.60546875, |
| "learning_rate": 9.259597044191635e-06, |
| "loss": 1.7464, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.44166666666666665, |
| "grad_norm": 0.66796875, |
| "learning_rate": 9.241456985587868e-06, |
| "loss": 1.771, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.44583333333333336, |
| "grad_norm": 0.60546875, |
| "learning_rate": 9.223115608612325e-06, |
| "loss": 1.8531, |
| "step": 107 |
| }, |
| { |
| "epoch": 0.45, |
| "grad_norm": 0.59765625, |
| "learning_rate": 9.204573783828153e-06, |
| "loss": 1.7752, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.45416666666666666, |
| "grad_norm": 0.671875, |
| "learning_rate": 9.185832391312644e-06, |
| "loss": 1.8505, |
| "step": 109 |
| }, |
| { |
| "epoch": 0.4583333333333333, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.166892320615459e-06, |
| "loss": 1.8294, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.4625, |
| "grad_norm": 0.625, |
| "learning_rate": 9.147754470716407e-06, |
| "loss": 1.8943, |
| "step": 111 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 0.57421875, |
| "learning_rate": 9.12841974998278e-06, |
| "loss": 2.0161, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.4708333333333333, |
| "grad_norm": 0.55859375, |
| "learning_rate": 9.108889076126226e-06, |
| "loss": 1.827, |
| "step": 113 |
| }, |
| { |
| "epoch": 0.475, |
| "grad_norm": 0.5625, |
| "learning_rate": 9.089163376159205e-06, |
| "loss": 1.8712, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.4791666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 9.069243586350976e-06, |
| "loss": 1.8358, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.48333333333333334, |
| "grad_norm": 0.6171875, |
| "learning_rate": 9.049130652183167e-06, |
| "loss": 1.8587, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.4875, |
| "grad_norm": 0.60546875, |
| "learning_rate": 9.028825528304892e-06, |
| "loss": 1.8179, |
| "step": 117 |
| }, |
| { |
| "epoch": 0.49166666666666664, |
| "grad_norm": 0.58984375, |
| "learning_rate": 9.008329178487442e-06, |
| "loss": 1.6971, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.49583333333333335, |
| "grad_norm": 0.609375, |
| "learning_rate": 8.987642575578546e-06, |
| "loss": 1.91, |
| "step": 119 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.609375, |
| "learning_rate": 8.966766701456177e-06, |
| "loss": 1.8528, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.5, |
| "eval_loss": 2.1745619773864746, |
| "eval_runtime": 18.083, |
| "eval_samples_per_second": 136.593, |
| "eval_steps_per_second": 34.176, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.5041666666666667, |
| "grad_norm": 0.59765625, |
| "learning_rate": 8.94570254698197e-06, |
| "loss": 1.9986, |
| "step": 121 |
| }, |
| { |
| "epoch": 0.5083333333333333, |
| "grad_norm": 0.61328125, |
| "learning_rate": 8.924451111954173e-06, |
| "loss": 2.055, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.5125, |
| "grad_norm": 0.57421875, |
| "learning_rate": 8.903013405060212e-06, |
| "loss": 1.9035, |
| "step": 123 |
| }, |
| { |
| "epoch": 0.5166666666666667, |
| "grad_norm": 0.61328125, |
| "learning_rate": 8.881390443828788e-06, |
| "loss": 1.9556, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.5208333333333334, |
| "grad_norm": 0.58203125, |
| "learning_rate": 8.859583254581604e-06, |
| "loss": 1.8308, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.525, |
| "grad_norm": 0.578125, |
| "learning_rate": 8.837592872384643e-06, |
| "loss": 1.8267, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.5291666666666667, |
| "grad_norm": 0.640625, |
| "learning_rate": 8.815420340999034e-06, |
| "loss": 1.9509, |
| "step": 127 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.640625, |
| "learning_rate": 8.793066712831515e-06, |
| "loss": 2.0599, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.5375, |
| "grad_norm": 0.5625, |
| "learning_rate": 8.770533048884483e-06, |
| "loss": 1.9489, |
| "step": 129 |
| }, |
| { |
| "epoch": 0.5416666666666666, |
| "grad_norm": 0.58984375, |
| "learning_rate": 8.747820418705632e-06, |
| "loss": 1.7887, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.5458333333333333, |
| "grad_norm": 0.5625, |
| "learning_rate": 8.724929900337186e-06, |
| "loss": 1.886, |
| "step": 131 |
| }, |
| { |
| "epoch": 0.55, |
| "grad_norm": 0.640625, |
| "learning_rate": 8.701862580264735e-06, |
| "loss": 1.6192, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.5541666666666667, |
| "grad_norm": 0.5703125, |
| "learning_rate": 8.67861955336566e-06, |
| "loss": 1.848, |
| "step": 133 |
| }, |
| { |
| "epoch": 0.5583333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 8.655201922857166e-06, |
| "loss": 1.8832, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.5625, |
| "grad_norm": 0.55859375, |
| "learning_rate": 8.631610800243926e-06, |
| "loss": 1.7343, |
| "step": 135 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 8.607847305265312e-06, |
| "loss": 1.8137, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.5708333333333333, |
| "grad_norm": 0.5703125, |
| "learning_rate": 8.583912565842258e-06, |
| "loss": 1.8875, |
| "step": 137 |
| }, |
| { |
| "epoch": 0.575, |
| "grad_norm": 0.6015625, |
| "learning_rate": 8.559807718023715e-06, |
| "loss": 1.8311, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.5791666666666667, |
| "grad_norm": 0.54296875, |
| "learning_rate": 8.535533905932739e-06, |
| "loss": 1.7797, |
| "step": 139 |
| }, |
| { |
| "epoch": 0.5833333333333334, |
| "grad_norm": 0.59375, |
| "learning_rate": 8.511092281712174e-06, |
| "loss": 1.8119, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.5875, |
| "grad_norm": 0.59375, |
| "learning_rate": 8.486484005469977e-06, |
| "loss": 1.8417, |
| "step": 141 |
| }, |
| { |
| "epoch": 0.5916666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 8.461710245224149e-06, |
| "loss": 1.7081, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.5958333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 8.436772176847295e-06, |
| "loss": 1.9393, |
| "step": 143 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 0.62109375, |
| "learning_rate": 8.41167098401081e-06, |
| "loss": 1.775, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.6041666666666666, |
| "grad_norm": 0.58984375, |
| "learning_rate": 8.386407858128707e-06, |
| "loss": 1.8468, |
| "step": 145 |
| }, |
| { |
| "epoch": 0.6083333333333333, |
| "grad_norm": 0.56640625, |
| "learning_rate": 8.360983998301053e-06, |
| "loss": 1.9168, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.6125, |
| "grad_norm": 0.6640625, |
| "learning_rate": 8.335400611257067e-06, |
| "loss": 1.8175, |
| "step": 147 |
| }, |
| { |
| "epoch": 0.6166666666666667, |
| "grad_norm": 0.6171875, |
| "learning_rate": 8.309658911297833e-06, |
| "loss": 1.7795, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.6208333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 8.283760120238672e-06, |
| "loss": 1.9254, |
| "step": 149 |
| }, |
| { |
| "epoch": 0.625, |
| "grad_norm": 0.62109375, |
| "learning_rate": 8.257705467351144e-06, |
| "loss": 1.8784, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.625, |
| "eval_loss": 2.170564889907837, |
| "eval_runtime": 18.0804, |
| "eval_samples_per_second": 136.612, |
| "eval_steps_per_second": 34.181, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.6291666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 8.231496189304704e-06, |
| "loss": 1.9573, |
| "step": 151 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 8.205133530108003e-06, |
| "loss": 1.9005, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.6375, |
| "grad_norm": 0.578125, |
| "learning_rate": 8.178618741049841e-06, |
| "loss": 1.858, |
| "step": 153 |
| }, |
| { |
| "epoch": 0.6416666666666667, |
| "grad_norm": 0.54296875, |
| "learning_rate": 8.151953080639777e-06, |
| "loss": 1.8415, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.6458333333333334, |
| "grad_norm": 0.62109375, |
| "learning_rate": 8.125137814548394e-06, |
| "loss": 1.8377, |
| "step": 155 |
| }, |
| { |
| "epoch": 0.65, |
| "grad_norm": 0.62890625, |
| "learning_rate": 8.098174215547224e-06, |
| "loss": 1.8115, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.6541666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 8.071063563448341e-06, |
| "loss": 1.7547, |
| "step": 157 |
| }, |
| { |
| "epoch": 0.6583333333333333, |
| "grad_norm": 0.6015625, |
| "learning_rate": 8.043807145043604e-06, |
| "loss": 1.7335, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.6625, |
| "grad_norm": 0.5546875, |
| "learning_rate": 8.016406254043595e-06, |
| "loss": 1.7631, |
| "step": 159 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.56640625, |
| "learning_rate": 7.988862191016204e-06, |
| "loss": 1.8128, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.6708333333333333, |
| "grad_norm": 0.58984375, |
| "learning_rate": 7.961176263324902e-06, |
| "loss": 1.8938, |
| "step": 161 |
| }, |
| { |
| "epoch": 0.675, |
| "grad_norm": 0.56640625, |
| "learning_rate": 7.93334978506668e-06, |
| "loss": 1.6676, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.6791666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 7.905384077009693e-06, |
| "loss": 1.7388, |
| "step": 163 |
| }, |
| { |
| "epoch": 0.6833333333333333, |
| "grad_norm": 0.625, |
| "learning_rate": 7.877280466530552e-06, |
| "loss": 1.8675, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.6875, |
| "grad_norm": 0.578125, |
| "learning_rate": 7.849040287551331e-06, |
| "loss": 1.9701, |
| "step": 165 |
| }, |
| { |
| "epoch": 0.6916666666666667, |
| "grad_norm": 0.62890625, |
| "learning_rate": 7.820664880476257e-06, |
| "loss": 1.9176, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.6958333333333333, |
| "grad_norm": 0.59765625, |
| "learning_rate": 7.792155592128072e-06, |
| "loss": 1.8905, |
| "step": 167 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 0.57421875, |
| "learning_rate": 7.763513775684125e-06, |
| "loss": 1.9383, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.7041666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 7.734740790612137e-06, |
| "loss": 1.8599, |
| "step": 169 |
| }, |
| { |
| "epoch": 0.7083333333333334, |
| "grad_norm": 0.58203125, |
| "learning_rate": 7.705838002605665e-06, |
| "loss": 1.7492, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.7125, |
| "grad_norm": 0.58984375, |
| "learning_rate": 7.676806783519304e-06, |
| "loss": 1.874, |
| "step": 171 |
| }, |
| { |
| "epoch": 0.7166666666666667, |
| "grad_norm": 0.56640625, |
| "learning_rate": 7.647648511303545e-06, |
| "loss": 1.8562, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.7208333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 7.61836456993939e-06, |
| "loss": 1.9492, |
| "step": 173 |
| }, |
| { |
| "epoch": 0.725, |
| "grad_norm": 0.6171875, |
| "learning_rate": 7.588956349372657e-06, |
| "loss": 1.6813, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.7291666666666666, |
| "grad_norm": 0.57421875, |
| "learning_rate": 7.559425245448006e-06, |
| "loss": 1.7416, |
| "step": 175 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 7.529772659842685e-06, |
| "loss": 1.8194, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.7375, |
| "grad_norm": 0.58984375, |
| "learning_rate": 7.500000000000001e-06, |
| "loss": 1.8523, |
| "step": 177 |
| }, |
| { |
| "epoch": 0.7416666666666667, |
| "grad_norm": 0.59375, |
| "learning_rate": 7.470108679062521e-06, |
| "loss": 1.7934, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.7458333333333333, |
| "grad_norm": 0.59375, |
| "learning_rate": 7.440100115804991e-06, |
| "loss": 2.101, |
| "step": 179 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 0.6328125, |
| "learning_rate": 7.409975734566998e-06, |
| "loss": 1.9961, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.75, |
| "eval_loss": 2.168635845184326, |
| "eval_runtime": 18.1066, |
| "eval_samples_per_second": 136.414, |
| "eval_steps_per_second": 34.131, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.7541666666666667, |
| "grad_norm": 0.55859375, |
| "learning_rate": 7.379736965185369e-06, |
| "loss": 1.7288, |
| "step": 181 |
| }, |
| { |
| "epoch": 0.7583333333333333, |
| "grad_norm": 0.6328125, |
| "learning_rate": 7.349385242926291e-06, |
| "loss": 1.8504, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.7625, |
| "grad_norm": 0.6328125, |
| "learning_rate": 7.318922008417203e-06, |
| "loss": 1.9159, |
| "step": 183 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 7.288348707578409e-06, |
| "loss": 1.787, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.7708333333333334, |
| "grad_norm": 0.5546875, |
| "learning_rate": 7.257666791554448e-06, |
| "loss": 1.8314, |
| "step": 185 |
| }, |
| { |
| "epoch": 0.775, |
| "grad_norm": 0.61328125, |
| "learning_rate": 7.2268777166452175e-06, |
| "loss": 1.915, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.7791666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 7.195982944236853e-06, |
| "loss": 1.9086, |
| "step": 187 |
| }, |
| { |
| "epoch": 0.7833333333333333, |
| "grad_norm": 0.64453125, |
| "learning_rate": 7.1649839407323606e-06, |
| "loss": 1.7966, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.7875, |
| "grad_norm": 0.58203125, |
| "learning_rate": 7.133882177482019e-06, |
| "loss": 1.7277, |
| "step": 189 |
| }, |
| { |
| "epoch": 0.7916666666666666, |
| "grad_norm": 0.5390625, |
| "learning_rate": 7.102679130713538e-06, |
| "loss": 1.6565, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.7958333333333333, |
| "grad_norm": 0.59375, |
| "learning_rate": 7.071376281461994e-06, |
| "loss": 1.8509, |
| "step": 191 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.57421875, |
| "learning_rate": 7.039975115499534e-06, |
| "loss": 1.9617, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.8041666666666667, |
| "grad_norm": 0.59765625, |
| "learning_rate": 7.008477123264849e-06, |
| "loss": 1.8768, |
| "step": 193 |
| }, |
| { |
| "epoch": 0.8083333333333333, |
| "grad_norm": 0.62890625, |
| "learning_rate": 6.976883799792434e-06, |
| "loss": 1.8889, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.8125, |
| "grad_norm": 0.59765625, |
| "learning_rate": 6.945196644641631e-06, |
| "loss": 1.8929, |
| "step": 195 |
| }, |
| { |
| "epoch": 0.8166666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.913417161825449e-06, |
| "loss": 1.8091, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.8208333333333333, |
| "grad_norm": 0.59375, |
| "learning_rate": 6.8815468597391785e-06, |
| "loss": 1.9076, |
| "step": 197 |
| }, |
| { |
| "epoch": 0.825, |
| "grad_norm": 0.62890625, |
| "learning_rate": 6.84958725108879e-06, |
| "loss": 1.9901, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.8291666666666667, |
| "grad_norm": 0.63671875, |
| "learning_rate": 6.817539852819149e-06, |
| "loss": 1.8836, |
| "step": 199 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.55859375, |
| "learning_rate": 6.785406186042e-06, |
| "loss": 1.9231, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.8375, |
| "grad_norm": 0.609375, |
| "learning_rate": 6.753187775963773e-06, |
| "loss": 1.7803, |
| "step": 201 |
| }, |
| { |
| "epoch": 0.8416666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 6.720886151813194e-06, |
| "loss": 1.8339, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.8458333333333333, |
| "grad_norm": 0.62890625, |
| "learning_rate": 6.688502846768697e-06, |
| "loss": 1.9179, |
| "step": 203 |
| }, |
| { |
| "epoch": 0.85, |
| "grad_norm": 0.5625, |
| "learning_rate": 6.656039397885653e-06, |
| "loss": 1.8147, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.8541666666666666, |
| "grad_norm": 0.61328125, |
| "learning_rate": 6.6234973460234184e-06, |
| "loss": 1.7996, |
| "step": 205 |
| }, |
| { |
| "epoch": 0.8583333333333333, |
| "grad_norm": 0.71484375, |
| "learning_rate": 6.5908782357721914e-06, |
| "loss": 1.9165, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.8625, |
| "grad_norm": 0.5703125, |
| "learning_rate": 6.558183615379708e-06, |
| "loss": 1.8397, |
| "step": 207 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 0.56640625, |
| "learning_rate": 6.525415036677745e-06, |
| "loss": 1.8636, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.8708333333333333, |
| "grad_norm": 0.63671875, |
| "learning_rate": 6.492574055008474e-06, |
| "loss": 2.0345, |
| "step": 209 |
| }, |
| { |
| "epoch": 0.875, |
| "grad_norm": 0.6171875, |
| "learning_rate": 6.45966222915063e-06, |
| "loss": 1.8748, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.875, |
| "eval_loss": 2.167238712310791, |
| "eval_runtime": 18.0652, |
| "eval_samples_per_second": 136.727, |
| "eval_steps_per_second": 34.209, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.8791666666666667, |
| "grad_norm": 0.57421875, |
| "learning_rate": 6.426681121245527e-06, |
| "loss": 1.774, |
| "step": 211 |
| }, |
| { |
| "epoch": 0.8833333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.393632296722916e-06, |
| "loss": 1.8357, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.8875, |
| "grad_norm": 0.55078125, |
| "learning_rate": 6.360517324226676e-06, |
| "loss": 1.6954, |
| "step": 213 |
| }, |
| { |
| "epoch": 0.8916666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 6.327337775540362e-06, |
| "loss": 1.8854, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.8958333333333334, |
| "grad_norm": 0.59765625, |
| "learning_rate": 6.294095225512604e-06, |
| "loss": 1.9444, |
| "step": 215 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 0.6328125, |
| "learning_rate": 6.260791251982354e-06, |
| "loss": 1.9477, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.9041666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.227427435703997e-06, |
| "loss": 1.8354, |
| "step": 217 |
| }, |
| { |
| "epoch": 0.9083333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 6.194005360272317e-06, |
| "loss": 1.9716, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.9125, |
| "grad_norm": 0.59375, |
| "learning_rate": 6.160526612047339e-06, |
| "loss": 1.9245, |
| "step": 219 |
| }, |
| { |
| "epoch": 0.9166666666666666, |
| "grad_norm": 0.5625, |
| "learning_rate": 6.126992780079032e-06, |
| "loss": 1.814, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.9208333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.09340545603188e-06, |
| "loss": 1.8559, |
| "step": 221 |
| }, |
| { |
| "epoch": 0.925, |
| "grad_norm": 0.5859375, |
| "learning_rate": 6.0597662341093385e-06, |
| "loss": 1.7238, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.9291666666666667, |
| "grad_norm": 0.609375, |
| "learning_rate": 6.026076710978172e-06, |
| "loss": 1.9524, |
| "step": 223 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 5.992338485692657e-06, |
| "loss": 1.8717, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.9375, |
| "grad_norm": 0.5546875, |
| "learning_rate": 5.958553159618693e-06, |
| "loss": 1.7134, |
| "step": 225 |
| }, |
| { |
| "epoch": 0.9416666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 5.924722336357793e-06, |
| "loss": 1.8745, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.9458333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 5.890847621670966e-06, |
| "loss": 1.8144, |
| "step": 227 |
| }, |
| { |
| "epoch": 0.95, |
| "grad_norm": 0.61328125, |
| "learning_rate": 5.856930623402506e-06, |
| "loss": 1.9048, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.9541666666666667, |
| "grad_norm": 0.61328125, |
| "learning_rate": 5.82297295140367e-06, |
| "loss": 1.8585, |
| "step": 229 |
| }, |
| { |
| "epoch": 0.9583333333333334, |
| "grad_norm": 0.5859375, |
| "learning_rate": 5.788976217456275e-06, |
| "loss": 1.9537, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.9625, |
| "grad_norm": 0.5703125, |
| "learning_rate": 5.7549420351961845e-06, |
| "loss": 1.8574, |
| "step": 231 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 5.720872020036734e-06, |
| "loss": 1.871, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.9708333333333333, |
| "grad_norm": 0.53125, |
| "learning_rate": 5.686767789092041e-06, |
| "loss": 1.77, |
| "step": 233 |
| }, |
| { |
| "epoch": 0.975, |
| "grad_norm": 0.58984375, |
| "learning_rate": 5.65263096110026e-06, |
| "loss": 1.8735, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.9791666666666666, |
| "grad_norm": 0.609375, |
| "learning_rate": 5.61846315634674e-06, |
| "loss": 1.7025, |
| "step": 235 |
| }, |
| { |
| "epoch": 0.9833333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 5.584265996587129e-06, |
| "loss": 1.7811, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.9875, |
| "grad_norm": 0.58203125, |
| "learning_rate": 5.550041104970398e-06, |
| "loss": 1.9347, |
| "step": 237 |
| }, |
| { |
| "epoch": 0.9916666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 5.515790105961785e-06, |
| "loss": 1.7745, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.9958333333333333, |
| "grad_norm": 0.60546875, |
| "learning_rate": 5.481514625265709e-06, |
| "loss": 1.9443, |
| "step": 239 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.58203125, |
| "learning_rate": 5.447216289748596e-06, |
| "loss": 2.0385, |
| "step": 240 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_loss": 2.1657376289367676, |
| "eval_runtime": 18.1098, |
| "eval_samples_per_second": 136.391, |
| "eval_steps_per_second": 34.125, |
| "step": 240 |
| }, |
| { |
| "epoch": 1.0041666666666667, |
| "grad_norm": 0.62109375, |
| "learning_rate": 5.412896727361663e-06, |
| "loss": 1.9712, |
| "step": 241 |
| }, |
| { |
| "epoch": 1.0083333333333333, |
| "grad_norm": 0.6171875, |
| "learning_rate": 5.378557567063646e-06, |
| "loss": 1.7675, |
| "step": 242 |
| }, |
| { |
| "epoch": 1.0125, |
| "grad_norm": 0.59375, |
| "learning_rate": 5.344200438743489e-06, |
| "loss": 1.9863, |
| "step": 243 |
| }, |
| { |
| "epoch": 1.0166666666666666, |
| "grad_norm": 0.6015625, |
| "learning_rate": 5.309826973142974e-06, |
| "loss": 1.8513, |
| "step": 244 |
| }, |
| { |
| "epoch": 1.0208333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 5.275438801779328e-06, |
| "loss": 1.9539, |
| "step": 245 |
| }, |
| { |
| "epoch": 1.025, |
| "grad_norm": 0.55859375, |
| "learning_rate": 5.241037556867775e-06, |
| "loss": 1.8889, |
| "step": 246 |
| }, |
| { |
| "epoch": 1.0291666666666666, |
| "grad_norm": 0.625, |
| "learning_rate": 5.206624871244066e-06, |
| "loss": 1.8184, |
| "step": 247 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 0.5625, |
| "learning_rate": 5.172202378286986e-06, |
| "loss": 1.904, |
| "step": 248 |
| }, |
| { |
| "epoch": 1.0375, |
| "grad_norm": 0.53515625, |
| "learning_rate": 5.137771711840811e-06, |
| "loss": 1.7663, |
| "step": 249 |
| }, |
| { |
| "epoch": 1.0416666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 5.103334506137773e-06, |
| "loss": 1.8074, |
| "step": 250 |
| }, |
| { |
| "epoch": 1.0458333333333334, |
| "grad_norm": 0.5546875, |
| "learning_rate": 5.068892395720482e-06, |
| "loss": 1.794, |
| "step": 251 |
| }, |
| { |
| "epoch": 1.05, |
| "grad_norm": 0.578125, |
| "learning_rate": 5.0344470153643525e-06, |
| "loss": 1.7377, |
| "step": 252 |
| }, |
| { |
| "epoch": 1.0541666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 5e-06, |
| "loss": 1.9, |
| "step": 253 |
| }, |
| { |
| "epoch": 1.0583333333333333, |
| "grad_norm": 0.60546875, |
| "learning_rate": 4.965552984635649e-06, |
| "loss": 1.8172, |
| "step": 254 |
| }, |
| { |
| "epoch": 1.0625, |
| "grad_norm": 0.6015625, |
| "learning_rate": 4.9311076042795185e-06, |
| "loss": 2.0686, |
| "step": 255 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 0.546875, |
| "learning_rate": 4.89666549386223e-06, |
| "loss": 1.6615, |
| "step": 256 |
| }, |
| { |
| "epoch": 1.0708333333333333, |
| "grad_norm": 0.56640625, |
| "learning_rate": 4.862228288159191e-06, |
| "loss": 1.8065, |
| "step": 257 |
| }, |
| { |
| "epoch": 1.075, |
| "grad_norm": 0.6015625, |
| "learning_rate": 4.827797621713017e-06, |
| "loss": 1.9736, |
| "step": 258 |
| }, |
| { |
| "epoch": 1.0791666666666666, |
| "grad_norm": 0.6328125, |
| "learning_rate": 4.793375128755934e-06, |
| "loss": 1.9502, |
| "step": 259 |
| }, |
| { |
| "epoch": 1.0833333333333333, |
| "grad_norm": 0.62109375, |
| "learning_rate": 4.758962443132227e-06, |
| "loss": 1.7474, |
| "step": 260 |
| }, |
| { |
| "epoch": 1.0875, |
| "grad_norm": 0.62109375, |
| "learning_rate": 4.724561198220672e-06, |
| "loss": 1.7294, |
| "step": 261 |
| }, |
| { |
| "epoch": 1.0916666666666666, |
| "grad_norm": 0.5625, |
| "learning_rate": 4.690173026857028e-06, |
| "loss": 1.8679, |
| "step": 262 |
| }, |
| { |
| "epoch": 1.0958333333333334, |
| "grad_norm": 0.671875, |
| "learning_rate": 4.6557995612565146e-06, |
| "loss": 1.785, |
| "step": 263 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 0.58984375, |
| "learning_rate": 4.621442432936355e-06, |
| "loss": 1.9543, |
| "step": 264 |
| }, |
| { |
| "epoch": 1.1041666666666667, |
| "grad_norm": 0.54296875, |
| "learning_rate": 4.587103272638339e-06, |
| "loss": 1.6861, |
| "step": 265 |
| }, |
| { |
| "epoch": 1.1083333333333334, |
| "grad_norm": 0.5625, |
| "learning_rate": 4.552783710251404e-06, |
| "loss": 1.7687, |
| "step": 266 |
| }, |
| { |
| "epoch": 1.1125, |
| "grad_norm": 0.57421875, |
| "learning_rate": 4.5184853747342926e-06, |
| "loss": 2.0234, |
| "step": 267 |
| }, |
| { |
| "epoch": 1.1166666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 4.4842098940382155e-06, |
| "loss": 1.7764, |
| "step": 268 |
| }, |
| { |
| "epoch": 1.1208333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 4.449958895029604e-06, |
| "loss": 1.8805, |
| "step": 269 |
| }, |
| { |
| "epoch": 1.125, |
| "grad_norm": 0.5859375, |
| "learning_rate": 4.415734003412873e-06, |
| "loss": 1.9327, |
| "step": 270 |
| }, |
| { |
| "epoch": 1.125, |
| "eval_loss": 2.164560079574585, |
| "eval_runtime": 18.6596, |
| "eval_samples_per_second": 132.371, |
| "eval_steps_per_second": 33.12, |
| "step": 270 |
| }, |
| { |
| "epoch": 1.1291666666666667, |
| "grad_norm": 0.5703125, |
| "learning_rate": 4.381536843653262e-06, |
| "loss": 1.7554, |
| "step": 271 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 0.640625, |
| "learning_rate": 4.347369038899744e-06, |
| "loss": 1.7947, |
| "step": 272 |
| }, |
| { |
| "epoch": 1.1375, |
| "grad_norm": 0.58203125, |
| "learning_rate": 4.313232210907959e-06, |
| "loss": 1.8943, |
| "step": 273 |
| }, |
| { |
| "epoch": 1.1416666666666666, |
| "grad_norm": 0.58984375, |
| "learning_rate": 4.279127979963266e-06, |
| "loss": 1.883, |
| "step": 274 |
| }, |
| { |
| "epoch": 1.1458333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 4.245057964803815e-06, |
| "loss": 1.8058, |
| "step": 275 |
| }, |
| { |
| "epoch": 1.15, |
| "grad_norm": 0.5703125, |
| "learning_rate": 4.2110237825437275e-06, |
| "loss": 1.7255, |
| "step": 276 |
| }, |
| { |
| "epoch": 1.1541666666666668, |
| "grad_norm": 0.6953125, |
| "learning_rate": 4.17702704859633e-06, |
| "loss": 1.9189, |
| "step": 277 |
| }, |
| { |
| "epoch": 1.1583333333333332, |
| "grad_norm": 0.5859375, |
| "learning_rate": 4.143069376597496e-06, |
| "loss": 1.7928, |
| "step": 278 |
| }, |
| { |
| "epoch": 1.1625, |
| "grad_norm": 0.6015625, |
| "learning_rate": 4.109152378329036e-06, |
| "loss": 1.8013, |
| "step": 279 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 0.59375, |
| "learning_rate": 4.075277663642208e-06, |
| "loss": 1.6585, |
| "step": 280 |
| }, |
| { |
| "epoch": 1.1708333333333334, |
| "grad_norm": 0.625, |
| "learning_rate": 4.041446840381309e-06, |
| "loss": 1.7681, |
| "step": 281 |
| }, |
| { |
| "epoch": 1.175, |
| "grad_norm": 0.62109375, |
| "learning_rate": 4.007661514307344e-06, |
| "loss": 1.8034, |
| "step": 282 |
| }, |
| { |
| "epoch": 1.1791666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 3.973923289021829e-06, |
| "loss": 1.6936, |
| "step": 283 |
| }, |
| { |
| "epoch": 1.1833333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 3.9402337658906615e-06, |
| "loss": 1.8129, |
| "step": 284 |
| }, |
| { |
| "epoch": 1.1875, |
| "grad_norm": 0.58203125, |
| "learning_rate": 3.906594543968122e-06, |
| "loss": 1.8816, |
| "step": 285 |
| }, |
| { |
| "epoch": 1.1916666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 3.8730072199209705e-06, |
| "loss": 1.8431, |
| "step": 286 |
| }, |
| { |
| "epoch": 1.1958333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 3.839473387952662e-06, |
| "loss": 1.7668, |
| "step": 287 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 0.57421875, |
| "learning_rate": 3.8059946397276854e-06, |
| "loss": 1.8834, |
| "step": 288 |
| }, |
| { |
| "epoch": 1.2041666666666666, |
| "grad_norm": 0.55078125, |
| "learning_rate": 3.7725725642960047e-06, |
| "loss": 1.7894, |
| "step": 289 |
| }, |
| { |
| "epoch": 1.2083333333333333, |
| "grad_norm": 0.5703125, |
| "learning_rate": 3.739208748017647e-06, |
| "loss": 1.7415, |
| "step": 290 |
| }, |
| { |
| "epoch": 1.2125, |
| "grad_norm": 0.578125, |
| "learning_rate": 3.705904774487396e-06, |
| "loss": 1.8548, |
| "step": 291 |
| }, |
| { |
| "epoch": 1.2166666666666668, |
| "grad_norm": 0.58203125, |
| "learning_rate": 3.67266222445964e-06, |
| "loss": 1.7485, |
| "step": 292 |
| }, |
| { |
| "epoch": 1.2208333333333332, |
| "grad_norm": 0.58203125, |
| "learning_rate": 3.639482675773324e-06, |
| "loss": 1.9114, |
| "step": 293 |
| }, |
| { |
| "epoch": 1.225, |
| "grad_norm": 0.58984375, |
| "learning_rate": 3.606367703277085e-06, |
| "loss": 1.9863, |
| "step": 294 |
| }, |
| { |
| "epoch": 1.2291666666666667, |
| "grad_norm": 0.58203125, |
| "learning_rate": 3.573318878754475e-06, |
| "loss": 1.7639, |
| "step": 295 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 0.5625, |
| "learning_rate": 3.5403377708493714e-06, |
| "loss": 1.8462, |
| "step": 296 |
| }, |
| { |
| "epoch": 1.2375, |
| "grad_norm": 0.62109375, |
| "learning_rate": 3.507425944991529e-06, |
| "loss": 1.8267, |
| "step": 297 |
| }, |
| { |
| "epoch": 1.2416666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 3.4745849633222566e-06, |
| "loss": 1.7817, |
| "step": 298 |
| }, |
| { |
| "epoch": 1.2458333333333333, |
| "grad_norm": 0.5703125, |
| "learning_rate": 3.4418163846202945e-06, |
| "loss": 1.7313, |
| "step": 299 |
| }, |
| { |
| "epoch": 1.25, |
| "grad_norm": 0.6015625, |
| "learning_rate": 3.409121764227809e-06, |
| "loss": 1.8509, |
| "step": 300 |
| }, |
| { |
| "epoch": 1.25, |
| "eval_loss": 2.1645467281341553, |
| "eval_runtime": 18.1241, |
| "eval_samples_per_second": 136.282, |
| "eval_steps_per_second": 34.098, |
| "step": 300 |
| }, |
| { |
| "epoch": 1.2541666666666667, |
| "grad_norm": 0.5546875, |
| "learning_rate": 3.3765026539765832e-06, |
| "loss": 1.7989, |
| "step": 301 |
| }, |
| { |
| "epoch": 1.2583333333333333, |
| "grad_norm": 0.6484375, |
| "learning_rate": 3.343960602114349e-06, |
| "loss": 1.8561, |
| "step": 302 |
| }, |
| { |
| "epoch": 1.2625, |
| "grad_norm": 0.54296875, |
| "learning_rate": 3.3114971532313058e-06, |
| "loss": 1.7549, |
| "step": 303 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 0.61328125, |
| "learning_rate": 3.2791138481868084e-06, |
| "loss": 1.6677, |
| "step": 304 |
| }, |
| { |
| "epoch": 1.2708333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 3.2468122240362287e-06, |
| "loss": 1.8485, |
| "step": 305 |
| }, |
| { |
| "epoch": 1.275, |
| "grad_norm": 0.65625, |
| "learning_rate": 3.2145938139580015e-06, |
| "loss": 1.8814, |
| "step": 306 |
| }, |
| { |
| "epoch": 1.2791666666666668, |
| "grad_norm": 0.6015625, |
| "learning_rate": 3.1824601471808504e-06, |
| "loss": 1.8293, |
| "step": 307 |
| }, |
| { |
| "epoch": 1.2833333333333332, |
| "grad_norm": 0.59765625, |
| "learning_rate": 3.1504127489112105e-06, |
| "loss": 1.8222, |
| "step": 308 |
| }, |
| { |
| "epoch": 1.2875, |
| "grad_norm": 0.609375, |
| "learning_rate": 3.118453140260823e-06, |
| "loss": 1.7468, |
| "step": 309 |
| }, |
| { |
| "epoch": 1.2916666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 3.0865828381745515e-06, |
| "loss": 1.9122, |
| "step": 310 |
| }, |
| { |
| "epoch": 1.2958333333333334, |
| "grad_norm": 0.546875, |
| "learning_rate": 3.0548033553583707e-06, |
| "loss": 1.8286, |
| "step": 311 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 0.57421875, |
| "learning_rate": 3.0231162002075678e-06, |
| "loss": 1.9661, |
| "step": 312 |
| }, |
| { |
| "epoch": 1.3041666666666667, |
| "grad_norm": 0.58203125, |
| "learning_rate": 2.991522876735154e-06, |
| "loss": 1.9081, |
| "step": 313 |
| }, |
| { |
| "epoch": 1.3083333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 2.960024884500467e-06, |
| "loss": 1.8635, |
| "step": 314 |
| }, |
| { |
| "epoch": 1.3125, |
| "grad_norm": 0.5859375, |
| "learning_rate": 2.928623718538006e-06, |
| "loss": 1.8482, |
| "step": 315 |
| }, |
| { |
| "epoch": 1.3166666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 2.8973208692864623e-06, |
| "loss": 1.8193, |
| "step": 316 |
| }, |
| { |
| "epoch": 1.3208333333333333, |
| "grad_norm": 0.5703125, |
| "learning_rate": 2.866117822517982e-06, |
| "loss": 1.9024, |
| "step": 317 |
| }, |
| { |
| "epoch": 1.325, |
| "grad_norm": 0.61328125, |
| "learning_rate": 2.8350160592676407e-06, |
| "loss": 1.7604, |
| "step": 318 |
| }, |
| { |
| "epoch": 1.3291666666666666, |
| "grad_norm": 0.55859375, |
| "learning_rate": 2.804017055763149e-06, |
| "loss": 1.8478, |
| "step": 319 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.59765625, |
| "learning_rate": 2.7731222833547842e-06, |
| "loss": 1.7589, |
| "step": 320 |
| }, |
| { |
| "epoch": 1.3375, |
| "grad_norm": 0.60546875, |
| "learning_rate": 2.7423332084455543e-06, |
| "loss": 1.8474, |
| "step": 321 |
| }, |
| { |
| "epoch": 1.3416666666666668, |
| "grad_norm": 0.59375, |
| "learning_rate": 2.711651292421593e-06, |
| "loss": 1.6013, |
| "step": 322 |
| }, |
| { |
| "epoch": 1.3458333333333332, |
| "grad_norm": 0.58984375, |
| "learning_rate": 2.681077991582797e-06, |
| "loss": 1.8103, |
| "step": 323 |
| }, |
| { |
| "epoch": 1.35, |
| "grad_norm": 0.60546875, |
| "learning_rate": 2.6506147570737094e-06, |
| "loss": 1.7213, |
| "step": 324 |
| }, |
| { |
| "epoch": 1.3541666666666667, |
| "grad_norm": 0.6328125, |
| "learning_rate": 2.6202630348146323e-06, |
| "loss": 1.9982, |
| "step": 325 |
| }, |
| { |
| "epoch": 1.3583333333333334, |
| "grad_norm": 0.6171875, |
| "learning_rate": 2.590024265433002e-06, |
| "loss": 1.8726, |
| "step": 326 |
| }, |
| { |
| "epoch": 1.3625, |
| "grad_norm": 0.578125, |
| "learning_rate": 2.5598998841950105e-06, |
| "loss": 1.8326, |
| "step": 327 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 2.529891320937481e-06, |
| "loss": 1.8889, |
| "step": 328 |
| }, |
| { |
| "epoch": 1.3708333333333333, |
| "grad_norm": 0.59375, |
| "learning_rate": 2.5000000000000015e-06, |
| "loss": 1.7805, |
| "step": 329 |
| }, |
| { |
| "epoch": 1.375, |
| "grad_norm": 0.5546875, |
| "learning_rate": 2.470227340157316e-06, |
| "loss": 1.8279, |
| "step": 330 |
| }, |
| { |
| "epoch": 1.375, |
| "eval_loss": 2.1639864444732666, |
| "eval_runtime": 18.0542, |
| "eval_samples_per_second": 136.81, |
| "eval_steps_per_second": 34.23, |
| "step": 330 |
| }, |
| { |
| "epoch": 1.3791666666666667, |
| "grad_norm": 0.62890625, |
| "learning_rate": 2.4405747545519966e-06, |
| "loss": 1.7644, |
| "step": 331 |
| }, |
| { |
| "epoch": 1.3833333333333333, |
| "grad_norm": 0.62109375, |
| "learning_rate": 2.411043650627343e-06, |
| "loss": 2.0436, |
| "step": 332 |
| }, |
| { |
| "epoch": 1.3875, |
| "grad_norm": 0.60546875, |
| "learning_rate": 2.381635430060611e-06, |
| "loss": 1.788, |
| "step": 333 |
| }, |
| { |
| "epoch": 1.3916666666666666, |
| "grad_norm": 0.55859375, |
| "learning_rate": 2.352351488696457e-06, |
| "loss": 1.7686, |
| "step": 334 |
| }, |
| { |
| "epoch": 1.3958333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 2.323193216480698e-06, |
| "loss": 1.8554, |
| "step": 335 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 0.57421875, |
| "learning_rate": 2.2941619973943363e-06, |
| "loss": 1.7455, |
| "step": 336 |
| }, |
| { |
| "epoch": 1.4041666666666668, |
| "grad_norm": 0.61328125, |
| "learning_rate": 2.265259209387867e-06, |
| "loss": 1.8707, |
| "step": 337 |
| }, |
| { |
| "epoch": 1.4083333333333332, |
| "grad_norm": 0.56640625, |
| "learning_rate": 2.236486224315877e-06, |
| "loss": 1.7417, |
| "step": 338 |
| }, |
| { |
| "epoch": 1.4125, |
| "grad_norm": 0.5546875, |
| "learning_rate": 2.207844407871929e-06, |
| "loss": 1.8442, |
| "step": 339 |
| }, |
| { |
| "epoch": 1.4166666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 2.179335119523745e-06, |
| "loss": 1.85, |
| "step": 340 |
| }, |
| { |
| "epoch": 1.4208333333333334, |
| "grad_norm": 0.578125, |
| "learning_rate": 2.1509597124486693e-06, |
| "loss": 1.8422, |
| "step": 341 |
| }, |
| { |
| "epoch": 1.425, |
| "grad_norm": 0.5546875, |
| "learning_rate": 2.12271953346945e-06, |
| "loss": 1.9288, |
| "step": 342 |
| }, |
| { |
| "epoch": 1.4291666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 2.094615922990309e-06, |
| "loss": 1.7285, |
| "step": 343 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 0.5390625, |
| "learning_rate": 2.0666502149333215e-06, |
| "loss": 1.9623, |
| "step": 344 |
| }, |
| { |
| "epoch": 1.4375, |
| "grad_norm": 0.578125, |
| "learning_rate": 2.0388237366751005e-06, |
| "loss": 1.7166, |
| "step": 345 |
| }, |
| { |
| "epoch": 1.4416666666666667, |
| "grad_norm": 0.59375, |
| "learning_rate": 2.0111378089837958e-06, |
| "loss": 1.7423, |
| "step": 346 |
| }, |
| { |
| "epoch": 1.4458333333333333, |
| "grad_norm": 0.58984375, |
| "learning_rate": 1.9835937459564065e-06, |
| "loss": 1.8273, |
| "step": 347 |
| }, |
| { |
| "epoch": 1.45, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.956192854956397e-06, |
| "loss": 1.7475, |
| "step": 348 |
| }, |
| { |
| "epoch": 1.4541666666666666, |
| "grad_norm": 0.61328125, |
| "learning_rate": 1.928936436551661e-06, |
| "loss": 1.8202, |
| "step": 349 |
| }, |
| { |
| "epoch": 1.4583333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 1.901825784452777e-06, |
| "loss": 1.8016, |
| "step": 350 |
| }, |
| { |
| "epoch": 1.4625, |
| "grad_norm": 0.58203125, |
| "learning_rate": 1.874862185451608e-06, |
| "loss": 1.8716, |
| "step": 351 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 0.55859375, |
| "learning_rate": 1.848046919360225e-06, |
| "loss": 1.993, |
| "step": 352 |
| }, |
| { |
| "epoch": 1.4708333333333332, |
| "grad_norm": 0.54296875, |
| "learning_rate": 1.8213812589501611e-06, |
| "loss": 1.8034, |
| "step": 353 |
| }, |
| { |
| "epoch": 1.475, |
| "grad_norm": 0.546875, |
| "learning_rate": 1.7948664698919987e-06, |
| "loss": 1.8488, |
| "step": 354 |
| }, |
| { |
| "epoch": 1.4791666666666667, |
| "grad_norm": 0.57421875, |
| "learning_rate": 1.7685038106952952e-06, |
| "loss": 1.8102, |
| "step": 355 |
| }, |
| { |
| "epoch": 1.4833333333333334, |
| "grad_norm": 0.609375, |
| "learning_rate": 1.7422945326488555e-06, |
| "loss": 1.8314, |
| "step": 356 |
| }, |
| { |
| "epoch": 1.4875, |
| "grad_norm": 0.5859375, |
| "learning_rate": 1.7162398797613284e-06, |
| "loss": 1.7928, |
| "step": 357 |
| }, |
| { |
| "epoch": 1.4916666666666667, |
| "grad_norm": 0.58203125, |
| "learning_rate": 1.6903410887021676e-06, |
| "loss": 1.6721, |
| "step": 358 |
| }, |
| { |
| "epoch": 1.4958333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 1.6645993887429345e-06, |
| "loss": 1.8866, |
| "step": 359 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.58984375, |
| "learning_rate": 1.6390160016989487e-06, |
| "loss": 1.8271, |
| "step": 360 |
| }, |
| { |
| "epoch": 1.5, |
| "eval_loss": 2.1637861728668213, |
| "eval_runtime": 18.1479, |
| "eval_samples_per_second": 136.104, |
| "eval_steps_per_second": 34.054, |
| "step": 360 |
| }, |
| { |
| "epoch": 1.5041666666666667, |
| "grad_norm": 0.5859375, |
| "learning_rate": 1.6135921418712959e-06, |
| "loss": 1.9767, |
| "step": 361 |
| }, |
| { |
| "epoch": 1.5083333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 1.5883290159891907e-06, |
| "loss": 2.0329, |
| "step": 362 |
| }, |
| { |
| "epoch": 1.5125, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.5632278231527081e-06, |
| "loss": 1.8797, |
| "step": 363 |
| }, |
| { |
| "epoch": 1.5166666666666666, |
| "grad_norm": 0.59375, |
| "learning_rate": 1.5382897547758513e-06, |
| "loss": 1.9346, |
| "step": 364 |
| }, |
| { |
| "epoch": 1.5208333333333335, |
| "grad_norm": 0.57421875, |
| "learning_rate": 1.5135159945300232e-06, |
| "loss": 1.8074, |
| "step": 365 |
| }, |
| { |
| "epoch": 1.525, |
| "grad_norm": 0.56640625, |
| "learning_rate": 1.488907718287827e-06, |
| "loss": 1.803, |
| "step": 366 |
| }, |
| { |
| "epoch": 1.5291666666666668, |
| "grad_norm": 0.6328125, |
| "learning_rate": 1.4644660940672628e-06, |
| "loss": 1.9276, |
| "step": 367 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 0.6328125, |
| "learning_rate": 1.4401922819762864e-06, |
| "loss": 2.0393, |
| "step": 368 |
| }, |
| { |
| "epoch": 1.5375, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.4160874341577447e-06, |
| "loss": 1.9262, |
| "step": 369 |
| }, |
| { |
| "epoch": 1.5416666666666665, |
| "grad_norm": 0.57421875, |
| "learning_rate": 1.3921526947346902e-06, |
| "loss": 1.7655, |
| "step": 370 |
| }, |
| { |
| "epoch": 1.5458333333333334, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.368389199756075e-06, |
| "loss": 1.8659, |
| "step": 371 |
| }, |
| { |
| "epoch": 1.55, |
| "grad_norm": 0.58984375, |
| "learning_rate": 1.344798077142836e-06, |
| "loss": 1.5983, |
| "step": 372 |
| }, |
| { |
| "epoch": 1.5541666666666667, |
| "grad_norm": 0.57421875, |
| "learning_rate": 1.321380446634342e-06, |
| "loss": 1.8249, |
| "step": 373 |
| }, |
| { |
| "epoch": 1.5583333333333333, |
| "grad_norm": 0.5546875, |
| "learning_rate": 1.2981374197352663e-06, |
| "loss": 1.8636, |
| "step": 374 |
| }, |
| { |
| "epoch": 1.5625, |
| "grad_norm": 0.54296875, |
| "learning_rate": 1.275070099662815e-06, |
| "loss": 1.715, |
| "step": 375 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 0.5546875, |
| "learning_rate": 1.2521795812943704e-06, |
| "loss": 1.7953, |
| "step": 376 |
| }, |
| { |
| "epoch": 1.5708333333333333, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.2294669511155193e-06, |
| "loss": 1.8684, |
| "step": 377 |
| }, |
| { |
| "epoch": 1.575, |
| "grad_norm": 0.58984375, |
| "learning_rate": 1.2069332871684875e-06, |
| "loss": 1.8129, |
| "step": 378 |
| }, |
| { |
| "epoch": 1.5791666666666666, |
| "grad_norm": 0.53515625, |
| "learning_rate": 1.1845796590009684e-06, |
| "loss": 1.7611, |
| "step": 379 |
| }, |
| { |
| "epoch": 1.5833333333333335, |
| "grad_norm": 0.578125, |
| "learning_rate": 1.162407127615357e-06, |
| "loss": 1.7914, |
| "step": 380 |
| }, |
| { |
| "epoch": 1.5875, |
| "grad_norm": 0.578125, |
| "learning_rate": 1.1404167454183957e-06, |
| "loss": 1.8212, |
| "step": 381 |
| }, |
| { |
| "epoch": 1.5916666666666668, |
| "grad_norm": 0.5859375, |
| "learning_rate": 1.118609556171213e-06, |
| "loss": 1.6886, |
| "step": 382 |
| }, |
| { |
| "epoch": 1.5958333333333332, |
| "grad_norm": 0.58984375, |
| "learning_rate": 1.0969865949397902e-06, |
| "loss": 1.9198, |
| "step": 383 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 0.59765625, |
| "learning_rate": 1.075548888045827e-06, |
| "loss": 1.7551, |
| "step": 384 |
| }, |
| { |
| "epoch": 1.6041666666666665, |
| "grad_norm": 0.58203125, |
| "learning_rate": 1.0542974530180327e-06, |
| "loss": 1.8298, |
| "step": 385 |
| }, |
| { |
| "epoch": 1.6083333333333334, |
| "grad_norm": 0.55859375, |
| "learning_rate": 1.0332332985438248e-06, |
| "loss": 1.8998, |
| "step": 386 |
| }, |
| { |
| "epoch": 1.6125, |
| "grad_norm": 0.63671875, |
| "learning_rate": 1.0123574244214552e-06, |
| "loss": 1.7982, |
| "step": 387 |
| }, |
| { |
| "epoch": 1.6166666666666667, |
| "grad_norm": 0.5703125, |
| "learning_rate": 9.916708215125586e-07, |
| "loss": 1.76, |
| "step": 388 |
| }, |
| { |
| "epoch": 1.6208333333333333, |
| "grad_norm": 0.56640625, |
| "learning_rate": 9.711744716951093e-07, |
| "loss": 1.9085, |
| "step": 389 |
| }, |
| { |
| "epoch": 1.625, |
| "grad_norm": 0.6015625, |
| "learning_rate": 9.508693478168346e-07, |
| "loss": 1.8589, |
| "step": 390 |
| }, |
| { |
| "epoch": 1.625, |
| "eval_loss": 2.163708448410034, |
| "eval_runtime": 19.4818, |
| "eval_samples_per_second": 126.785, |
| "eval_steps_per_second": 31.722, |
| "step": 390 |
| }, |
| { |
| "epoch": 1.6291666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 9.307564136490255e-07, |
| "loss": 1.9411, |
| "step": 391 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 0.56640625, |
| "learning_rate": 9.108366238407968e-07, |
| "loss": 1.8833, |
| "step": 392 |
| }, |
| { |
| "epoch": 1.6375, |
| "grad_norm": 0.578125, |
| "learning_rate": 8.911109238737748e-07, |
| "loss": 1.8408, |
| "step": 393 |
| }, |
| { |
| "epoch": 1.6416666666666666, |
| "grad_norm": 0.5390625, |
| "learning_rate": 8.715802500172215e-07, |
| "loss": 1.824, |
| "step": 394 |
| }, |
| { |
| "epoch": 1.6458333333333335, |
| "grad_norm": 0.60546875, |
| "learning_rate": 8.522455292835935e-07, |
| "loss": 1.8194, |
| "step": 395 |
| }, |
| { |
| "epoch": 1.65, |
| "grad_norm": 0.6171875, |
| "learning_rate": 8.331076793845422e-07, |
| "loss": 1.7927, |
| "step": 396 |
| }, |
| { |
| "epoch": 1.6541666666666668, |
| "grad_norm": 0.54296875, |
| "learning_rate": 8.141676086873574e-07, |
| "loss": 1.7387, |
| "step": 397 |
| }, |
| { |
| "epoch": 1.6583333333333332, |
| "grad_norm": 0.58984375, |
| "learning_rate": 7.954262161718479e-07, |
| "loss": 1.7165, |
| "step": 398 |
| }, |
| { |
| "epoch": 1.6625, |
| "grad_norm": 0.54296875, |
| "learning_rate": 7.768843913876756e-07, |
| "loss": 1.7462, |
| "step": 399 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 0.55078125, |
| "learning_rate": 7.585430144121319e-07, |
| "loss": 1.797, |
| "step": 400 |
| }, |
| { |
| "epoch": 1.6708333333333334, |
| "grad_norm": 0.58984375, |
| "learning_rate": 7.404029558083653e-07, |
| "loss": 1.8779, |
| "step": 401 |
| }, |
| { |
| "epoch": 1.675, |
| "grad_norm": 0.5546875, |
| "learning_rate": 7.224650765840613e-07, |
| "loss": 1.6523, |
| "step": 402 |
| }, |
| { |
| "epoch": 1.6791666666666667, |
| "grad_norm": 0.5390625, |
| "learning_rate": 7.047302281505735e-07, |
| "loss": 1.7236, |
| "step": 403 |
| }, |
| { |
| "epoch": 1.6833333333333333, |
| "grad_norm": 0.58984375, |
| "learning_rate": 6.871992522825183e-07, |
| "loss": 1.852, |
| "step": 404 |
| }, |
| { |
| "epoch": 1.6875, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.698729810778065e-07, |
| "loss": 1.9569, |
| "step": 405 |
| }, |
| { |
| "epoch": 1.6916666666666667, |
| "grad_norm": 0.56640625, |
| "learning_rate": 6.527522369181655e-07, |
| "loss": 1.9017, |
| "step": 406 |
| }, |
| { |
| "epoch": 1.6958333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 6.358378324300929e-07, |
| "loss": 1.8755, |
| "step": 407 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 0.5703125, |
| "learning_rate": 6.191305704462897e-07, |
| "loss": 1.9226, |
| "step": 408 |
| }, |
| { |
| "epoch": 1.7041666666666666, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.026312439675553e-07, |
| "loss": 1.8452, |
| "step": 409 |
| }, |
| { |
| "epoch": 1.7083333333333335, |
| "grad_norm": 0.578125, |
| "learning_rate": 5.863406361251472e-07, |
| "loss": 1.7341, |
| "step": 410 |
| }, |
| { |
| "epoch": 1.7125, |
| "grad_norm": 0.57421875, |
| "learning_rate": 5.702595201436101e-07, |
| "loss": 1.8604, |
| "step": 411 |
| }, |
| { |
| "epoch": 1.7166666666666668, |
| "grad_norm": 0.5625, |
| "learning_rate": 5.543886593040737e-07, |
| "loss": 1.8427, |
| "step": 412 |
| }, |
| { |
| "epoch": 1.7208333333333332, |
| "grad_norm": 0.57421875, |
| "learning_rate": 5.387288069080298e-07, |
| "loss": 1.9351, |
| "step": 413 |
| }, |
| { |
| "epoch": 1.725, |
| "grad_norm": 0.59765625, |
| "learning_rate": 5.232807062415691e-07, |
| "loss": 1.6671, |
| "step": 414 |
| }, |
| { |
| "epoch": 1.7291666666666665, |
| "grad_norm": 0.57421875, |
| "learning_rate": 5.080450905401057e-07, |
| "loss": 1.7277, |
| "step": 415 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 0.57421875, |
| "learning_rate": 4.930226829535767e-07, |
| "loss": 1.8047, |
| "step": 416 |
| }, |
| { |
| "epoch": 1.7375, |
| "grad_norm": 0.578125, |
| "learning_rate": 4.782141965121129e-07, |
| "loss": 1.8396, |
| "step": 417 |
| }, |
| { |
| "epoch": 1.7416666666666667, |
| "grad_norm": 0.58203125, |
| "learning_rate": 4.6362033409220077e-07, |
| "loss": 1.7794, |
| "step": 418 |
| }, |
| { |
| "epoch": 1.7458333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 4.4924178838331554e-07, |
| "loss": 2.088, |
| "step": 419 |
| }, |
| { |
| "epoch": 1.75, |
| "grad_norm": 0.6328125, |
| "learning_rate": 4.350792418550509e-07, |
| "loss": 1.9824, |
| "step": 420 |
| }, |
| { |
| "epoch": 1.75, |
| "eval_loss": 2.1637122631073, |
| "eval_runtime": 18.0757, |
| "eval_samples_per_second": 136.648, |
| "eval_steps_per_second": 34.19, |
| "step": 420 |
| }, |
| { |
| "epoch": 1.7541666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 4.211333667247125e-07, |
| "loss": 1.7158, |
| "step": 421 |
| }, |
| { |
| "epoch": 1.7583333333333333, |
| "grad_norm": 0.625, |
| "learning_rate": 4.0740482492542864e-07, |
| "loss": 1.8371, |
| "step": 422 |
| }, |
| { |
| "epoch": 1.7625, |
| "grad_norm": 0.61328125, |
| "learning_rate": 3.9389426807471764e-07, |
| "loss": 1.9022, |
| "step": 423 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 0.5625, |
| "learning_rate": 3.8060233744356634e-07, |
| "loss": 1.7749, |
| "step": 424 |
| }, |
| { |
| "epoch": 1.7708333333333335, |
| "grad_norm": 0.55859375, |
| "learning_rate": 3.675296639259912e-07, |
| "loss": 1.8189, |
| "step": 425 |
| }, |
| { |
| "epoch": 1.775, |
| "grad_norm": 0.59765625, |
| "learning_rate": 3.546768680090934e-07, |
| "loss": 1.9032, |
| "step": 426 |
| }, |
| { |
| "epoch": 1.7791666666666668, |
| "grad_norm": 0.5546875, |
| "learning_rate": 3.420445597436056e-07, |
| "loss": 1.8965, |
| "step": 427 |
| }, |
| { |
| "epoch": 1.7833333333333332, |
| "grad_norm": 0.62109375, |
| "learning_rate": 3.2963333871493917e-07, |
| "loss": 1.7836, |
| "step": 428 |
| }, |
| { |
| "epoch": 1.7875, |
| "grad_norm": 0.55859375, |
| "learning_rate": 3.174437940147268e-07, |
| "loss": 1.7164, |
| "step": 429 |
| }, |
| { |
| "epoch": 1.7916666666666665, |
| "grad_norm": 0.53515625, |
| "learning_rate": 3.0547650421285216e-07, |
| "loss": 1.6448, |
| "step": 430 |
| }, |
| { |
| "epoch": 1.7958333333333334, |
| "grad_norm": 0.5859375, |
| "learning_rate": 2.9373203733000234e-07, |
| "loss": 1.8398, |
| "step": 431 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 0.5703125, |
| "learning_rate": 2.8221095081069517e-07, |
| "loss": 1.9501, |
| "step": 432 |
| }, |
| { |
| "epoch": 1.8041666666666667, |
| "grad_norm": 0.58984375, |
| "learning_rate": 2.7091379149682683e-07, |
| "loss": 1.8656, |
| "step": 433 |
| }, |
| { |
| "epoch": 1.8083333333333333, |
| "grad_norm": 0.625, |
| "learning_rate": 2.5984109560171387e-07, |
| "loss": 1.8771, |
| "step": 434 |
| }, |
| { |
| "epoch": 1.8125, |
| "grad_norm": 0.59375, |
| "learning_rate": 2.4899338868464404e-07, |
| "loss": 1.8811, |
| "step": 435 |
| }, |
| { |
| "epoch": 1.8166666666666667, |
| "grad_norm": 0.578125, |
| "learning_rate": 2.3837118562592799e-07, |
| "loss": 1.7978, |
| "step": 436 |
| }, |
| { |
| "epoch": 1.8208333333333333, |
| "grad_norm": 0.5859375, |
| "learning_rate": 2.2797499060246253e-07, |
| "loss": 1.8968, |
| "step": 437 |
| }, |
| { |
| "epoch": 1.825, |
| "grad_norm": 0.62109375, |
| "learning_rate": 2.1780529706380337e-07, |
| "loss": 1.9792, |
| "step": 438 |
| }, |
| { |
| "epoch": 1.8291666666666666, |
| "grad_norm": 0.609375, |
| "learning_rate": 2.0786258770873647e-07, |
| "loss": 1.8722, |
| "step": 439 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 0.55859375, |
| "learning_rate": 1.9814733446237356e-07, |
| "loss": 1.913, |
| "step": 440 |
| }, |
| { |
| "epoch": 1.8375, |
| "grad_norm": 0.6015625, |
| "learning_rate": 1.8865999845374794e-07, |
| "loss": 1.7703, |
| "step": 441 |
| }, |
| { |
| "epoch": 1.8416666666666668, |
| "grad_norm": 0.546875, |
| "learning_rate": 1.7940102999393194e-07, |
| "loss": 1.8243, |
| "step": 442 |
| }, |
| { |
| "epoch": 1.8458333333333332, |
| "grad_norm": 0.59765625, |
| "learning_rate": 1.7037086855465902e-07, |
| "loss": 1.9066, |
| "step": 443 |
| }, |
| { |
| "epoch": 1.85, |
| "grad_norm": 0.55859375, |
| "learning_rate": 1.6156994274746484e-07, |
| "loss": 1.8047, |
| "step": 444 |
| }, |
| { |
| "epoch": 1.8541666666666665, |
| "grad_norm": 0.60546875, |
| "learning_rate": 1.5299867030334815e-07, |
| "loss": 1.7898, |
| "step": 445 |
| }, |
| { |
| "epoch": 1.8583333333333334, |
| "grad_norm": 0.61328125, |
| "learning_rate": 1.4465745805293584e-07, |
| "loss": 1.9064, |
| "step": 446 |
| }, |
| { |
| "epoch": 1.8625, |
| "grad_norm": 0.5703125, |
| "learning_rate": 1.3654670190718035e-07, |
| "loss": 1.8308, |
| "step": 447 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.5703125, |
| "learning_rate": 1.286667868385627e-07, |
| "loss": 1.8555, |
| "step": 448 |
| }, |
| { |
| "epoch": 1.8708333333333333, |
| "grad_norm": 0.625, |
| "learning_rate": 1.210180868628219e-07, |
| "loss": 2.025, |
| "step": 449 |
| }, |
| { |
| "epoch": 1.875, |
| "grad_norm": 0.63671875, |
| "learning_rate": 1.1360096502120387e-07, |
| "loss": 1.8668, |
| "step": 450 |
| }, |
| { |
| "epoch": 1.875, |
| "eval_loss": 2.1636900901794434, |
| "eval_runtime": 18.0442, |
| "eval_samples_per_second": 136.886, |
| "eval_steps_per_second": 34.249, |
| "step": 450 |
| }, |
| { |
| "epoch": 1.8791666666666667, |
| "grad_norm": 0.5703125, |
| "learning_rate": 1.0641577336322761e-07, |
| "loss": 1.7653, |
| "step": 451 |
| }, |
| { |
| "epoch": 1.8833333333333333, |
| "grad_norm": 0.5703125, |
| "learning_rate": 9.946285292997681e-08, |
| "loss": 1.8271, |
| "step": 452 |
| }, |
| { |
| "epoch": 1.8875, |
| "grad_norm": 0.55078125, |
| "learning_rate": 9.274253373791064e-08, |
| "loss": 1.6874, |
| "step": 453 |
| }, |
| { |
| "epoch": 1.8916666666666666, |
| "grad_norm": 0.58203125, |
| "learning_rate": 8.625513476320291e-08, |
| "loss": 1.8769, |
| "step": 454 |
| }, |
| { |
| "epoch": 1.8958333333333335, |
| "grad_norm": 0.59765625, |
| "learning_rate": 8.000096392660029e-08, |
| "loss": 1.9365, |
| "step": 455 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 0.57421875, |
| "learning_rate": 7.398031807880456e-08, |
| "loss": 1.9398, |
| "step": 456 |
| }, |
| { |
| "epoch": 1.9041666666666668, |
| "grad_norm": 0.57421875, |
| "learning_rate": 6.819348298638839e-08, |
| "loss": 1.8274, |
| "step": 457 |
| }, |
| { |
| "epoch": 1.9083333333333332, |
| "grad_norm": 0.57421875, |
| "learning_rate": 6.264073331822551e-08, |
| "loss": 1.9641, |
| "step": 458 |
| }, |
| { |
| "epoch": 1.9125, |
| "grad_norm": 0.58203125, |
| "learning_rate": 5.7322332632458454e-08, |
| "loss": 1.9163, |
| "step": 459 |
| }, |
| { |
| "epoch": 1.9166666666666665, |
| "grad_norm": 0.55859375, |
| "learning_rate": 5.223853336398632e-08, |
| "loss": 1.8069, |
| "step": 460 |
| }, |
| { |
| "epoch": 1.9208333333333334, |
| "grad_norm": 0.58203125, |
| "learning_rate": 4.73895768124838e-08, |
| "loss": 1.8481, |
| "step": 461 |
| }, |
| { |
| "epoch": 1.925, |
| "grad_norm": 0.578125, |
| "learning_rate": 4.2775693130948094e-08, |
| "loss": 1.7157, |
| "step": 462 |
| }, |
| { |
| "epoch": 1.9291666666666667, |
| "grad_norm": 0.60546875, |
| "learning_rate": 3.839710131477492e-08, |
| "loss": 1.9448, |
| "step": 463 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 0.57421875, |
| "learning_rate": 3.425400919136346e-08, |
| "loss": 1.8642, |
| "step": 464 |
| }, |
| { |
| "epoch": 1.9375, |
| "grad_norm": 0.546875, |
| "learning_rate": 3.034661341025258e-08, |
| "loss": 1.7063, |
| "step": 465 |
| }, |
| { |
| "epoch": 1.9416666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 2.6675099433787212e-08, |
| "loss": 1.8679, |
| "step": 466 |
| }, |
| { |
| "epoch": 1.9458333333333333, |
| "grad_norm": 0.58984375, |
| "learning_rate": 2.323964152831426e-08, |
| "loss": 1.8071, |
| "step": 467 |
| }, |
| { |
| "epoch": 1.95, |
| "grad_norm": 0.61328125, |
| "learning_rate": 2.0040402755912013e-08, |
| "loss": 1.8973, |
| "step": 468 |
| }, |
| { |
| "epoch": 1.9541666666666666, |
| "grad_norm": 0.61328125, |
| "learning_rate": 1.7077534966650767e-08, |
| "loss": 1.8514, |
| "step": 469 |
| }, |
| { |
| "epoch": 1.9583333333333335, |
| "grad_norm": 0.58203125, |
| "learning_rate": 1.4351178791384702e-08, |
| "loss": 1.9469, |
| "step": 470 |
| }, |
| { |
| "epoch": 1.9625, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.1861463635077785e-08, |
| "loss": 1.8502, |
| "step": 471 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 0.56640625, |
| "learning_rate": 9.608507670659239e-09, |
| "loss": 1.8646, |
| "step": 472 |
| }, |
| { |
| "epoch": 1.9708333333333332, |
| "grad_norm": 0.53515625, |
| "learning_rate": 7.59241783341913e-09, |
| "loss": 1.7634, |
| "step": 473 |
| }, |
| { |
| "epoch": 1.975, |
| "grad_norm": 0.578125, |
| "learning_rate": 5.8132898159268815e-09, |
| "loss": 1.8671, |
| "step": 474 |
| }, |
| { |
| "epoch": 1.9791666666666665, |
| "grad_norm": 0.58984375, |
| "learning_rate": 4.2712080634949024e-09, |
| "loss": 1.6967, |
| "step": 475 |
| }, |
| { |
| "epoch": 1.9833333333333334, |
| "grad_norm": 0.578125, |
| "learning_rate": 2.9662457701662428e-09, |
| "loss": 1.7744, |
| "step": 476 |
| }, |
| { |
| "epoch": 1.9875, |
| "grad_norm": 0.58203125, |
| "learning_rate": 1.8984648752429222e-09, |
| "loss": 1.9288, |
| "step": 477 |
| }, |
| { |
| "epoch": 1.9916666666666667, |
| "grad_norm": 0.5625, |
| "learning_rate": 1.0679160603449533e-09, |
| "loss": 1.768, |
| "step": 478 |
| }, |
| { |
| "epoch": 1.9958333333333333, |
| "grad_norm": 0.59765625, |
| "learning_rate": 4.746387470044855e-10, |
| "loss": 1.9382, |
| "step": 479 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.578125, |
| "learning_rate": 1.1866109479674593e-10, |
| "loss": 2.0332, |
| "step": 480 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_loss": 2.1636929512023926, |
| "eval_runtime": 18.1368, |
| "eval_samples_per_second": 136.187, |
| "eval_steps_per_second": 34.074, |
| "step": 480 |
| } |
| ], |
| "logging_steps": 1, |
| "max_steps": 480, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 2, |
| "save_steps": 240, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 3.0147732660289536e+18, |
| "train_batch_size": 2, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|