| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 4.0, | |
| "eval_steps": 30, | |
| "global_step": 480, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 0.9462232657835241, | |
| "learning_rate": 8.142857142857143e-07, | |
| "loss": 2.5443, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "eval_loss": 2.5896365642547607, | |
| "eval_runtime": 96.0059, | |
| "eval_samples_per_second": 4.271, | |
| "eval_steps_per_second": 0.271, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.9597143397960513, | |
| "learning_rate": 1.6285714285714286e-06, | |
| "loss": 2.5524, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 0.9246258453027174, | |
| "learning_rate": 2.442857142857143e-06, | |
| "loss": 2.5411, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.9822285829186661, | |
| "learning_rate": 3.2571428571428572e-06, | |
| "loss": 2.5518, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.9044329068814566, | |
| "learning_rate": 4.071428571428572e-06, | |
| "loss": 2.4922, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.9131300887744053, | |
| "learning_rate": 4.885714285714286e-06, | |
| "loss": 2.5713, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 0.8336298309675122, | |
| "learning_rate": 5.7000000000000005e-06, | |
| "loss": 2.4959, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.810775409605909, | |
| "learning_rate": 6.5142857142857145e-06, | |
| "loss": 2.4943, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 0.6993505055921954, | |
| "learning_rate": 7.3285714285714285e-06, | |
| "loss": 2.5022, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.5909140859664664, | |
| "learning_rate": 8.142857142857143e-06, | |
| "loss": 2.468, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 0.5464791893738283, | |
| "learning_rate": 8.957142857142857e-06, | |
| "loss": 2.5203, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.41153668995149084, | |
| "learning_rate": 9.771428571428571e-06, | |
| "loss": 2.4912, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.10833333333333334, | |
| "grad_norm": 0.35433353277028035, | |
| "learning_rate": 1.0585714285714287e-05, | |
| "loss": 2.4467, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 0.27579908222756766, | |
| "learning_rate": 1.1400000000000001e-05, | |
| "loss": 2.4599, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.125, | |
| "grad_norm": 0.22636758420678307, | |
| "learning_rate": 1.2214285714285715e-05, | |
| "loss": 2.4357, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.22309908436920517, | |
| "learning_rate": 1.3028571428571429e-05, | |
| "loss": 2.368, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.14166666666666666, | |
| "grad_norm": 0.2384290311446137, | |
| "learning_rate": 1.3842857142857143e-05, | |
| "loss": 2.4054, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 0.2279055472006466, | |
| "learning_rate": 1.4657142857142857e-05, | |
| "loss": 2.4162, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.15833333333333333, | |
| "grad_norm": 0.24659885813398136, | |
| "learning_rate": 1.547142857142857e-05, | |
| "loss": 2.4109, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.21920560481126147, | |
| "learning_rate": 1.6285714285714287e-05, | |
| "loss": 2.4344, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.175, | |
| "grad_norm": 0.21340860355678012, | |
| "learning_rate": 1.71e-05, | |
| "loss": 2.4532, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 0.1775246176788835, | |
| "learning_rate": 1.7914285714285715e-05, | |
| "loss": 2.4398, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.19166666666666668, | |
| "grad_norm": 0.15469100364725502, | |
| "learning_rate": 1.872857142857143e-05, | |
| "loss": 2.4275, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.1261136620302219, | |
| "learning_rate": 1.9542857142857143e-05, | |
| "loss": 2.3855, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 0.1251566381945981, | |
| "learning_rate": 2.0357142857142858e-05, | |
| "loss": 2.4008, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 0.12280228065778742, | |
| "learning_rate": 2.1171428571428574e-05, | |
| "loss": 2.4086, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.225, | |
| "grad_norm": 0.1362748806421765, | |
| "learning_rate": 2.1985714285714286e-05, | |
| "loss": 2.3642, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 0.12370426656542512, | |
| "learning_rate": 2.2800000000000002e-05, | |
| "loss": 2.4168, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.24166666666666667, | |
| "grad_norm": 0.12077140199925576, | |
| "learning_rate": 2.3614285714285718e-05, | |
| "loss": 2.3502, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.10854652278245232, | |
| "learning_rate": 2.442857142857143e-05, | |
| "loss": 2.323, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "eval_loss": 2.4455511569976807, | |
| "eval_runtime": 82.5732, | |
| "eval_samples_per_second": 4.965, | |
| "eval_steps_per_second": 0.315, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.25833333333333336, | |
| "grad_norm": 0.10286886191993252, | |
| "learning_rate": 2.5242857142857142e-05, | |
| "loss": 2.4007, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.09687340891245565, | |
| "learning_rate": 2.6057142857142858e-05, | |
| "loss": 2.4088, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.275, | |
| "grad_norm": 0.09653492248714694, | |
| "learning_rate": 2.6871428571428574e-05, | |
| "loss": 2.3906, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 0.09022900019263645, | |
| "learning_rate": 2.7685714285714286e-05, | |
| "loss": 2.4065, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.2916666666666667, | |
| "grad_norm": 0.0912409242342349, | |
| "learning_rate": 2.85e-05, | |
| "loss": 2.3699, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.09592020125185927, | |
| "learning_rate": 2.8499644890093217e-05, | |
| "loss": 2.3587, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.30833333333333335, | |
| "grad_norm": 0.0907084429462166, | |
| "learning_rate": 2.8498579578071537e-05, | |
| "loss": 2.4259, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 0.09390099422567517, | |
| "learning_rate": 2.8496804117030106e-05, | |
| "loss": 2.3232, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.325, | |
| "grad_norm": 0.08704027284958313, | |
| "learning_rate": 2.849431859545787e-05, | |
| "loss": 2.4027, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.08787482564111378, | |
| "learning_rate": 2.849112313723319e-05, | |
| "loss": 2.3827, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.3416666666666667, | |
| "grad_norm": 0.08422520058818864, | |
| "learning_rate": 2.8487217901617672e-05, | |
| "loss": 2.353, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 0.07979320980153469, | |
| "learning_rate": 2.84826030832482e-05, | |
| "loss": 2.3519, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.35833333333333334, | |
| "grad_norm": 0.07814774416810645, | |
| "learning_rate": 2.8477278912127266e-05, | |
| "loss": 2.3708, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 0.07237049854036091, | |
| "learning_rate": 2.847124565361149e-05, | |
| "loss": 2.388, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.375, | |
| "grad_norm": 0.07354258492789081, | |
| "learning_rate": 2.8464503608398385e-05, | |
| "loss": 2.3586, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 0.0771281784161838, | |
| "learning_rate": 2.845705311251141e-05, | |
| "loss": 2.3993, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.39166666666666666, | |
| "grad_norm": 0.0763264062020341, | |
| "learning_rate": 2.844889453728318e-05, | |
| "loss": 2.3838, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.07082143620733677, | |
| "learning_rate": 2.8440028289336977e-05, | |
| "loss": 2.3628, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.4083333333333333, | |
| "grad_norm": 0.0715578975320661, | |
| "learning_rate": 2.8430454810566477e-05, | |
| "loss": 2.361, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.06881630985450242, | |
| "learning_rate": 2.8420174578113747e-05, | |
| "loss": 2.4392, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.425, | |
| "grad_norm": 0.0689279893077156, | |
| "learning_rate": 2.8409188104345426e-05, | |
| "loss": 2.3519, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 0.07069081407018309, | |
| "learning_rate": 2.8397495936827232e-05, | |
| "loss": 2.3981, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.44166666666666665, | |
| "grad_norm": 0.07092917277421104, | |
| "learning_rate": 2.8385098658296637e-05, | |
| "loss": 2.355, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 0.0703607034709259, | |
| "learning_rate": 2.8371996886633843e-05, | |
| "loss": 2.3793, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.4583333333333333, | |
| "grad_norm": 0.07124199690967324, | |
| "learning_rate": 2.8358191274830974e-05, | |
| "loss": 2.4275, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 0.07099804346309355, | |
| "learning_rate": 2.8343682510959552e-05, | |
| "loss": 2.3323, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.475, | |
| "grad_norm": 0.06967632308939245, | |
| "learning_rate": 2.8328471318136165e-05, | |
| "loss": 2.3883, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 0.07156300179553134, | |
| "learning_rate": 2.831255845448647e-05, | |
| "loss": 2.3298, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.49166666666666664, | |
| "grad_norm": 0.0704201532980033, | |
| "learning_rate": 2.8295944713107387e-05, | |
| "loss": 2.331, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.06794782460291071, | |
| "learning_rate": 2.8278630922027563e-05, | |
| "loss": 2.3776, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "eval_loss": 2.4216628074645996, | |
| "eval_runtime": 82.3879, | |
| "eval_samples_per_second": 4.976, | |
| "eval_steps_per_second": 0.316, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.5083333333333333, | |
| "grad_norm": 0.07045949082426937, | |
| "learning_rate": 2.8260617944166123e-05, | |
| "loss": 2.3319, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 0.0702234192794877, | |
| "learning_rate": 2.824190667728965e-05, | |
| "loss": 2.3647, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 0.525, | |
| "grad_norm": 0.06946814214632402, | |
| "learning_rate": 2.8222498053967434e-05, | |
| "loss": 2.3967, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.06563265580127577, | |
| "learning_rate": 2.8202393041525005e-05, | |
| "loss": 2.3863, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.5416666666666666, | |
| "grad_norm": 0.0723770670150652, | |
| "learning_rate": 2.8181592641995933e-05, | |
| "loss": 2.3823, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 0.06870429029917037, | |
| "learning_rate": 2.8160097892071847e-05, | |
| "loss": 2.3241, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 0.5583333333333333, | |
| "grad_norm": 0.08615444480664787, | |
| "learning_rate": 2.8137909863050806e-05, | |
| "loss": 2.3504, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 0.06980417460436542, | |
| "learning_rate": 2.8115029660783887e-05, | |
| "loss": 2.3762, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 0.575, | |
| "grad_norm": 0.0691283200064781, | |
| "learning_rate": 2.809145842562007e-05, | |
| "loss": 2.3202, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 0.06434433998677834, | |
| "learning_rate": 2.8067197332349406e-05, | |
| "loss": 2.4117, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.5916666666666667, | |
| "grad_norm": 0.06712521054811822, | |
| "learning_rate": 2.8042247590144472e-05, | |
| "loss": 2.4234, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.07781170630767965, | |
| "learning_rate": 2.8016610442500087e-05, | |
| "loss": 2.3614, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.6083333333333333, | |
| "grad_norm": 0.07179449259884696, | |
| "learning_rate": 2.7990287167171357e-05, | |
| "loss": 2.327, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 0.0666012429917219, | |
| "learning_rate": 2.7963279076109976e-05, | |
| "loss": 2.3606, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 0.07042352420672252, | |
| "learning_rate": 2.7935587515398855e-05, | |
| "loss": 2.387, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 0.07141219809062525, | |
| "learning_rate": 2.7907213865185014e-05, | |
| "loss": 2.3975, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 0.6416666666666667, | |
| "grad_norm": 0.07530038535140655, | |
| "learning_rate": 2.787815953961081e-05, | |
| "loss": 2.3975, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "grad_norm": 0.06873021297298251, | |
| "learning_rate": 2.784842598674345e-05, | |
| "loss": 2.3724, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 0.6583333333333333, | |
| "grad_norm": 0.06853494667979494, | |
| "learning_rate": 2.781801468850282e-05, | |
| "loss": 2.3994, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.07164446612343163, | |
| "learning_rate": 2.778692716058762e-05, | |
| "loss": 2.3448, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.675, | |
| "grad_norm": 0.07112624750325054, | |
| "learning_rate": 2.7755164952399844e-05, | |
| "loss": 2.2984, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 0.6833333333333333, | |
| "grad_norm": 0.07679055297227524, | |
| "learning_rate": 2.7722729646967527e-05, | |
| "loss": 2.3699, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 0.6916666666666667, | |
| "grad_norm": 0.07270378630883641, | |
| "learning_rate": 2.768962286086587e-05, | |
| "loss": 2.3436, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.06869524209312625, | |
| "learning_rate": 2.7655846244136654e-05, | |
| "loss": 2.3856, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 0.7083333333333334, | |
| "grad_norm": 0.07006104211903366, | |
| "learning_rate": 2.762140148020602e-05, | |
| "loss": 2.3852, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.7166666666666667, | |
| "grad_norm": 0.07264285304887648, | |
| "learning_rate": 2.758629028580055e-05, | |
| "loss": 2.3834, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 0.725, | |
| "grad_norm": 0.07253530482477301, | |
| "learning_rate": 2.7550514410861718e-05, | |
| "loss": 2.3573, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 0.07265955522289944, | |
| "learning_rate": 2.751407563845866e-05, | |
| "loss": 2.3163, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.7416666666666667, | |
| "grad_norm": 0.07374626234739601, | |
| "learning_rate": 2.747697578469931e-05, | |
| "loss": 2.3851, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 0.07255481420091238, | |
| "learning_rate": 2.7439216698639904e-05, | |
| "loss": 2.3345, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "eval_loss": 2.4115521907806396, | |
| "eval_runtime": 82.0248, | |
| "eval_samples_per_second": 4.998, | |
| "eval_steps_per_second": 0.317, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.7583333333333333, | |
| "grad_norm": 0.06817548300510701, | |
| "learning_rate": 2.7400800262192788e-05, | |
| "loss": 2.3449, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 0.07336990573663302, | |
| "learning_rate": 2.7361728390032657e-05, | |
| "loss": 2.3448, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 0.775, | |
| "grad_norm": 0.07822885886131264, | |
| "learning_rate": 2.732200302950111e-05, | |
| "loss": 2.3217, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 0.7833333333333333, | |
| "grad_norm": 0.07296512071361201, | |
| "learning_rate": 2.728162616050959e-05, | |
| "loss": 2.3329, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 0.7916666666666666, | |
| "grad_norm": 0.07367928865175823, | |
| "learning_rate": 2.724059979544072e-05, | |
| "loss": 2.3208, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.07504139519989858, | |
| "learning_rate": 2.719892597904801e-05, | |
| "loss": 2.3483, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.8083333333333333, | |
| "grad_norm": 0.06790757702451031, | |
| "learning_rate": 2.7156606788353906e-05, | |
| "loss": 2.4128, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 0.8166666666666667, | |
| "grad_norm": 0.07011160737870108, | |
| "learning_rate": 2.7113644332546336e-05, | |
| "loss": 2.3832, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 0.825, | |
| "grad_norm": 0.08077329808935288, | |
| "learning_rate": 2.707004075287352e-05, | |
| "loss": 2.3308, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 0.0719496280235162, | |
| "learning_rate": 2.7025798222537306e-05, | |
| "loss": 2.3254, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.8416666666666667, | |
| "grad_norm": 0.07275409855582728, | |
| "learning_rate": 2.698091894658483e-05, | |
| "loss": 2.3967, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "grad_norm": 0.07201531734077336, | |
| "learning_rate": 2.693540516179861e-05, | |
| "loss": 2.3346, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 0.8583333333333333, | |
| "grad_norm": 0.0765467775604243, | |
| "learning_rate": 2.6889259136585094e-05, | |
| "loss": 2.3336, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 0.077223728318478, | |
| "learning_rate": 2.6842483170861568e-05, | |
| "loss": 2.3313, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.875, | |
| "grad_norm": 0.07639332869289207, | |
| "learning_rate": 2.6795079595941553e-05, | |
| "loss": 2.4008, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.8833333333333333, | |
| "grad_norm": 0.07440505813328589, | |
| "learning_rate": 2.6747050774418605e-05, | |
| "loss": 2.3425, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 0.8916666666666667, | |
| "grad_norm": 0.06937810484842656, | |
| "learning_rate": 2.6698399100048556e-05, | |
| "loss": 2.3349, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.07336400555418392, | |
| "learning_rate": 2.6649126997630225e-05, | |
| "loss": 2.3792, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 0.9083333333333333, | |
| "grad_norm": 0.07442564570941794, | |
| "learning_rate": 2.6599236922884547e-05, | |
| "loss": 2.3683, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 0.07470689463768693, | |
| "learning_rate": 2.65487313623322e-05, | |
| "loss": 2.3036, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.925, | |
| "grad_norm": 0.07096997017300663, | |
| "learning_rate": 2.649761283316966e-05, | |
| "loss": 2.3682, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.07511821034386772, | |
| "learning_rate": 2.6445883883143744e-05, | |
| "loss": 2.3346, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.9416666666666667, | |
| "grad_norm": 0.07057540374817312, | |
| "learning_rate": 2.639354709042466e-05, | |
| "loss": 2.3502, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 0.95, | |
| "grad_norm": 0.07300364605060353, | |
| "learning_rate": 2.6340605063477456e-05, | |
| "loss": 2.3711, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 0.9583333333333334, | |
| "grad_norm": 0.06925480258849577, | |
| "learning_rate": 2.628706044093207e-05, | |
| "loss": 2.3816, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 0.0705107307569524, | |
| "learning_rate": 2.623291589145179e-05, | |
| "loss": 2.2958, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 0.975, | |
| "grad_norm": 0.07331112076487026, | |
| "learning_rate": 2.6178174113600252e-05, | |
| "loss": 2.3279, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 0.9833333333333333, | |
| "grad_norm": 0.06780655482074792, | |
| "learning_rate": 2.612283783570695e-05, | |
| "loss": 2.4117, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 0.9916666666666667, | |
| "grad_norm": 0.07485055181125701, | |
| "learning_rate": 2.606690981573125e-05, | |
| "loss": 2.303, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.07276467760742707, | |
| "learning_rate": 2.6010392841124932e-05, | |
| "loss": 2.3608, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_loss": 2.4049572944641113, | |
| "eval_runtime": 82.3343, | |
| "eval_samples_per_second": 4.98, | |
| "eval_steps_per_second": 0.316, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 1.0083333333333333, | |
| "grad_norm": 0.07548790321925977, | |
| "learning_rate": 2.5953289728693274e-05, | |
| "loss": 2.3185, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 1.0166666666666666, | |
| "grad_norm": 0.0730570698984131, | |
| "learning_rate": 2.5895603324454647e-05, | |
| "loss": 2.2877, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 1.025, | |
| "grad_norm": 0.07345139782586493, | |
| "learning_rate": 2.5837336503498694e-05, | |
| "loss": 2.2836, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 0.07299378924326991, | |
| "learning_rate": 2.5778492169843003e-05, | |
| "loss": 2.3436, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "grad_norm": 0.07154250149880004, | |
| "learning_rate": 2.5719073256288394e-05, | |
| "loss": 2.3822, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 1.05, | |
| "grad_norm": 0.0720748804004234, | |
| "learning_rate": 2.565908272427274e-05, | |
| "loss": 2.2708, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 1.0583333333333333, | |
| "grad_norm": 0.07269892036621302, | |
| "learning_rate": 2.5598523563723373e-05, | |
| "loss": 2.3377, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 0.0756770863265576, | |
| "learning_rate": 2.5537398792908062e-05, | |
| "loss": 2.352, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 1.075, | |
| "grad_norm": 0.07397323539112335, | |
| "learning_rate": 2.547571145828459e-05, | |
| "loss": 2.3643, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 0.07438211371538549, | |
| "learning_rate": 2.54134646343489e-05, | |
| "loss": 2.3387, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 1.0916666666666666, | |
| "grad_norm": 0.07094248712059498, | |
| "learning_rate": 2.5350661423481885e-05, | |
| "loss": 2.3221, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.0771622686218861, | |
| "learning_rate": 2.5287304955794754e-05, | |
| "loss": 2.3183, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 1.1083333333333334, | |
| "grad_norm": 0.07495056480159959, | |
| "learning_rate": 2.5223398388973028e-05, | |
| "loss": 2.3697, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 1.1166666666666667, | |
| "grad_norm": 0.07629199954207538, | |
| "learning_rate": 2.515894490811916e-05, | |
| "loss": 2.3529, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 1.125, | |
| "grad_norm": 0.0762534542729489, | |
| "learning_rate": 2.5093947725593792e-05, | |
| "loss": 2.3208, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 0.07587427933984144, | |
| "learning_rate": 2.502841008085565e-05, | |
| "loss": 2.3448, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 1.1416666666666666, | |
| "grad_norm": 0.07490456619530689, | |
| "learning_rate": 2.49623352403001e-05, | |
| "loss": 2.3435, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 1.15, | |
| "grad_norm": 0.0744781797534131, | |
| "learning_rate": 2.4895726497096315e-05, | |
| "loss": 2.4, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 1.1583333333333332, | |
| "grad_norm": 0.07464944817741491, | |
| "learning_rate": 2.482858717102319e-05, | |
| "loss": 2.318, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.07309033869975678, | |
| "learning_rate": 2.4760920608303867e-05, | |
| "loss": 2.2891, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 1.175, | |
| "grad_norm": 0.07284517336177344, | |
| "learning_rate": 2.469273018143894e-05, | |
| "loss": 2.3051, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 1.1833333333333333, | |
| "grad_norm": 0.07652064520411771, | |
| "learning_rate": 2.462401928903839e-05, | |
| "loss": 2.3555, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 1.1916666666666667, | |
| "grad_norm": 0.07701974074136966, | |
| "learning_rate": 2.45547913556522e-05, | |
| "loss": 2.3015, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.08108352272511765, | |
| "learning_rate": 2.448504983159966e-05, | |
| "loss": 2.3221, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 1.2083333333333333, | |
| "grad_norm": 0.07752288456105606, | |
| "learning_rate": 2.441479819279742e-05, | |
| "loss": 2.3684, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 1.2166666666666668, | |
| "grad_norm": 0.07881711814524053, | |
| "learning_rate": 2.4344039940586235e-05, | |
| "loss": 2.3011, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 1.225, | |
| "grad_norm": 0.07757542042787384, | |
| "learning_rate": 2.4272778601556472e-05, | |
| "loss": 2.3509, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 0.07228965364348439, | |
| "learning_rate": 2.4201017727372336e-05, | |
| "loss": 2.3801, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 1.2416666666666667, | |
| "grad_norm": 0.07389812003829682, | |
| "learning_rate": 2.4128760894594853e-05, | |
| "loss": 2.3359, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 0.08146218033856112, | |
| "learning_rate": 2.4056011704503633e-05, | |
| "loss": 2.3096, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "eval_loss": 2.400259494781494, | |
| "eval_runtime": 81.604, | |
| "eval_samples_per_second": 5.024, | |
| "eval_steps_per_second": 0.319, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.2583333333333333, | |
| "grad_norm": 0.07407260421175128, | |
| "learning_rate": 2.3982773782917347e-05, | |
| "loss": 2.3418, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 0.07827237096687646, | |
| "learning_rate": 2.390905078001306e-05, | |
| "loss": 2.2778, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 1.275, | |
| "grad_norm": 0.07699758244967876, | |
| "learning_rate": 2.383484637014426e-05, | |
| "loss": 2.3245, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 1.2833333333333332, | |
| "grad_norm": 0.07805943021524937, | |
| "learning_rate": 2.3760164251657773e-05, | |
| "loss": 2.3782, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 1.2916666666666667, | |
| "grad_norm": 0.0741687347632035, | |
| "learning_rate": 2.368500814670941e-05, | |
| "loss": 2.3765, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.07696079818166807, | |
| "learning_rate": 2.3609381801078448e-05, | |
| "loss": 2.3958, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 1.3083333333333333, | |
| "grad_norm": 0.08864860865623735, | |
| "learning_rate": 2.3533288983980964e-05, | |
| "loss": 2.3482, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 1.3166666666666667, | |
| "grad_norm": 0.07676755572584443, | |
| "learning_rate": 2.3456733487881978e-05, | |
| "loss": 2.3511, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 1.325, | |
| "grad_norm": 0.07754541163995884, | |
| "learning_rate": 2.337971912830641e-05, | |
| "loss": 2.3754, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.08430746433268149, | |
| "learning_rate": 2.3302249743648926e-05, | |
| "loss": 2.4063, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 1.3416666666666668, | |
| "grad_norm": 0.08113759941899056, | |
| "learning_rate": 2.322432919498265e-05, | |
| "loss": 2.3352, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 1.35, | |
| "grad_norm": 0.08147516272984133, | |
| "learning_rate": 2.3145961365866708e-05, | |
| "loss": 2.3119, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 1.3583333333333334, | |
| "grad_norm": 0.07749688842544009, | |
| "learning_rate": 2.3067150162152675e-05, | |
| "loss": 2.3547, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 0.08640326754187048, | |
| "learning_rate": 2.298789951178992e-05, | |
| "loss": 2.3389, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 1.375, | |
| "grad_norm": 0.0795137333109577, | |
| "learning_rate": 2.2908213364629812e-05, | |
| "loss": 2.3778, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 1.3833333333333333, | |
| "grad_norm": 0.07739334763959965, | |
| "learning_rate": 2.2828095692228886e-05, | |
| "loss": 2.3658, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 1.3916666666666666, | |
| "grad_norm": 0.07783031237693959, | |
| "learning_rate": 2.2747550487650887e-05, | |
| "loss": 2.3575, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.07682655233706284, | |
| "learning_rate": 2.2666581765267758e-05, | |
| "loss": 2.2825, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 1.4083333333333332, | |
| "grad_norm": 0.08359081032268273, | |
| "learning_rate": 2.2585193560559563e-05, | |
| "loss": 2.261, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 0.0826940676306091, | |
| "learning_rate": 2.250338992991335e-05, | |
| "loss": 2.3069, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 1.425, | |
| "grad_norm": 0.08462619097403327, | |
| "learning_rate": 2.2421174950421017e-05, | |
| "loss": 2.2864, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 0.07990029642375193, | |
| "learning_rate": 2.233855271967606e-05, | |
| "loss": 2.3033, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 1.4416666666666667, | |
| "grad_norm": 0.08051779058857793, | |
| "learning_rate": 2.2255527355569372e-05, | |
| "loss": 2.3166, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 1.45, | |
| "grad_norm": 0.08604667339713809, | |
| "learning_rate": 2.217210299608402e-05, | |
| "loss": 2.387, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 1.4583333333333333, | |
| "grad_norm": 0.07829742536277012, | |
| "learning_rate": 2.208828379908899e-05, | |
| "loss": 2.311, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 0.07850219342360719, | |
| "learning_rate": 2.200407394213196e-05, | |
| "loss": 2.3384, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 1.475, | |
| "grad_norm": 0.08531707041033702, | |
| "learning_rate": 2.19194776222311e-05, | |
| "loss": 2.3107, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 1.4833333333333334, | |
| "grad_norm": 0.07652853009760147, | |
| "learning_rate": 2.183449905566589e-05, | |
| "loss": 2.3494, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 1.4916666666666667, | |
| "grad_norm": 0.0797336095546633, | |
| "learning_rate": 2.1749142477766972e-05, | |
| "loss": 2.3291, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.08700079540422817, | |
| "learning_rate": 2.166341214270507e-05, | |
| "loss": 2.3132, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "eval_loss": 2.3966128826141357, | |
| "eval_runtime": 83.184, | |
| "eval_samples_per_second": 4.929, | |
| "eval_steps_per_second": 0.313, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.5083333333333333, | |
| "grad_norm": 0.07925581040107615, | |
| "learning_rate": 2.157731232327897e-05, | |
| "loss": 2.3578, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 1.5166666666666666, | |
| "grad_norm": 0.07873086864048841, | |
| "learning_rate": 2.1490847310702544e-05, | |
| "loss": 2.3229, | |
| "step": 182 | |
| }, | |
| { | |
| "epoch": 1.525, | |
| "grad_norm": 0.07775316849537767, | |
| "learning_rate": 2.1404021414390874e-05, | |
| "loss": 2.3756, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 0.07949428482523528, | |
| "learning_rate": 2.1316838961745518e-05, | |
| "loss": 2.3535, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 1.5416666666666665, | |
| "grad_norm": 0.08423278187074197, | |
| "learning_rate": 2.1229304297938755e-05, | |
| "loss": 2.3517, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 1.55, | |
| "grad_norm": 0.07930583119038707, | |
| "learning_rate": 2.1141421785697097e-05, | |
| "loss": 2.3929, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 1.5583333333333333, | |
| "grad_norm": 0.07736840323261199, | |
| "learning_rate": 2.1053195805083803e-05, | |
| "loss": 2.3194, | |
| "step": 187 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 0.08306421066524537, | |
| "learning_rate": 2.0964630753280584e-05, | |
| "loss": 2.3131, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 1.575, | |
| "grad_norm": 0.0805185815818936, | |
| "learning_rate": 2.0875731044368472e-05, | |
| "loss": 2.3238, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 0.07729948838070921, | |
| "learning_rate": 2.078650110910779e-05, | |
| "loss": 2.3279, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 1.5916666666666668, | |
| "grad_norm": 0.08053951644296133, | |
| "learning_rate": 2.0696945394717355e-05, | |
| "loss": 2.3343, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.08184664333069269, | |
| "learning_rate": 2.0607068364652783e-05, | |
| "loss": 2.3441, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 1.6083333333333334, | |
| "grad_norm": 0.07894699650259683, | |
| "learning_rate": 2.051687449838409e-05, | |
| "loss": 2.3384, | |
| "step": 193 | |
| }, | |
| { | |
| "epoch": 1.6166666666666667, | |
| "grad_norm": 0.08288692832517489, | |
| "learning_rate": 2.042636829117239e-05, | |
| "loss": 2.3219, | |
| "step": 194 | |
| }, | |
| { | |
| "epoch": 1.625, | |
| "grad_norm": 0.09061769591669266, | |
| "learning_rate": 2.033555425384586e-05, | |
| "loss": 2.3168, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 0.07607427061534017, | |
| "learning_rate": 2.0244436912574938e-05, | |
| "loss": 2.3592, | |
| "step": 196 | |
| }, | |
| { | |
| "epoch": 1.6416666666666666, | |
| "grad_norm": 0.08827457673533141, | |
| "learning_rate": 2.0153020808646715e-05, | |
| "loss": 2.3177, | |
| "step": 197 | |
| }, | |
| { | |
| "epoch": 1.65, | |
| "grad_norm": 0.0757688204165182, | |
| "learning_rate": 2.0061310498238618e-05, | |
| "loss": 2.2366, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 1.6583333333333332, | |
| "grad_norm": 0.07815852114026649, | |
| "learning_rate": 1.996931055219132e-05, | |
| "loss": 2.3161, | |
| "step": 199 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.08058901889279678, | |
| "learning_rate": 1.9877025555780927e-05, | |
| "loss": 2.3749, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 1.675, | |
| "grad_norm": 0.07708027281441528, | |
| "learning_rate": 1.978446010849045e-05, | |
| "loss": 2.2854, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 1.6833333333333333, | |
| "grad_norm": 0.08312283019758401, | |
| "learning_rate": 1.969161882378058e-05, | |
| "loss": 2.3524, | |
| "step": 202 | |
| }, | |
| { | |
| "epoch": 1.6916666666666667, | |
| "grad_norm": 0.07784046601849169, | |
| "learning_rate": 1.9598506328859717e-05, | |
| "loss": 2.3418, | |
| "step": 203 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.07906237498578873, | |
| "learning_rate": 1.95051272644534e-05, | |
| "loss": 2.3514, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 1.7083333333333335, | |
| "grad_norm": 0.08323464269988524, | |
| "learning_rate": 1.9411486284572977e-05, | |
| "loss": 2.3133, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 1.7166666666666668, | |
| "grad_norm": 0.08153670371604982, | |
| "learning_rate": 1.931758805628366e-05, | |
| "loss": 2.3388, | |
| "step": 206 | |
| }, | |
| { | |
| "epoch": 1.725, | |
| "grad_norm": 0.08152589045596419, | |
| "learning_rate": 1.9223437259471912e-05, | |
| "loss": 2.3309, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 0.08382345786042532, | |
| "learning_rate": 1.9129038586612224e-05, | |
| "loss": 2.3282, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 1.7416666666666667, | |
| "grad_norm": 0.0835609429134592, | |
| "learning_rate": 1.903439674253321e-05, | |
| "loss": 2.3567, | |
| "step": 209 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 0.08252984125014622, | |
| "learning_rate": 1.8939516444183143e-05, | |
| "loss": 2.3352, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "eval_loss": 2.3933684825897217, | |
| "eval_runtime": 83.3063, | |
| "eval_samples_per_second": 4.922, | |
| "eval_steps_per_second": 0.312, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 1.7583333333333333, | |
| "grad_norm": 0.0815481053340795, | |
| "learning_rate": 1.884440242039485e-05, | |
| "loss": 2.3262, | |
| "step": 211 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 0.08258761118218041, | |
| "learning_rate": 1.8749059411650034e-05, | |
| "loss": 2.3396, | |
| "step": 212 | |
| }, | |
| { | |
| "epoch": 1.775, | |
| "grad_norm": 0.0884999967331726, | |
| "learning_rate": 1.8653492169843003e-05, | |
| "loss": 2.3176, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 1.7833333333333332, | |
| "grad_norm": 0.0824785010834098, | |
| "learning_rate": 1.8557705458043838e-05, | |
| "loss": 2.3272, | |
| "step": 214 | |
| }, | |
| { | |
| "epoch": 1.7916666666666665, | |
| "grad_norm": 0.08727167025374602, | |
| "learning_rate": 1.8461704050261e-05, | |
| "loss": 2.2298, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.0768016904891171, | |
| "learning_rate": 1.8365492731203398e-05, | |
| "loss": 2.3554, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 1.8083333333333333, | |
| "grad_norm": 0.07709533586121158, | |
| "learning_rate": 1.8269076296041917e-05, | |
| "loss": 2.3702, | |
| "step": 217 | |
| }, | |
| { | |
| "epoch": 1.8166666666666667, | |
| "grad_norm": 0.0806446736093232, | |
| "learning_rate": 1.8172459550170424e-05, | |
| "loss": 2.3585, | |
| "step": 218 | |
| }, | |
| { | |
| "epoch": 1.825, | |
| "grad_norm": 0.07523532523458193, | |
| "learning_rate": 1.8075647308966268e-05, | |
| "loss": 2.3609, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 0.07497201271988578, | |
| "learning_rate": 1.797864439755028e-05, | |
| "loss": 2.3755, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 1.8416666666666668, | |
| "grad_norm": 0.08249074177996166, | |
| "learning_rate": 1.7881455650546303e-05, | |
| "loss": 2.372, | |
| "step": 221 | |
| }, | |
| { | |
| "epoch": 1.85, | |
| "grad_norm": 0.0780160636961897, | |
| "learning_rate": 1.7784085911840214e-05, | |
| "loss": 2.3823, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 1.8583333333333334, | |
| "grad_norm": 0.08148680526536918, | |
| "learning_rate": 1.7686540034338513e-05, | |
| "loss": 2.3314, | |
| "step": 223 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 0.0795864595636552, | |
| "learning_rate": 1.758882287972646e-05, | |
| "loss": 2.2853, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 1.875, | |
| "grad_norm": 0.08198344669246531, | |
| "learning_rate": 1.749093931822577e-05, | |
| "loss": 2.3605, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 1.8833333333333333, | |
| "grad_norm": 0.08138145213474299, | |
| "learning_rate": 1.739289422835185e-05, | |
| "loss": 2.2721, | |
| "step": 226 | |
| }, | |
| { | |
| "epoch": 1.8916666666666666, | |
| "grad_norm": 0.08306015511124677, | |
| "learning_rate": 1.7294692496670715e-05, | |
| "loss": 2.2889, | |
| "step": 227 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.07478727556401082, | |
| "learning_rate": 1.7196339017555378e-05, | |
| "loss": 2.3416, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 1.9083333333333332, | |
| "grad_norm": 0.08858459574829487, | |
| "learning_rate": 1.709783869294196e-05, | |
| "loss": 2.3081, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 1.9166666666666665, | |
| "grad_norm": 0.08175368181940743, | |
| "learning_rate": 1.699919643208533e-05, | |
| "loss": 2.3304, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 1.925, | |
| "grad_norm": 0.07630479738636474, | |
| "learning_rate": 1.6900417151314503e-05, | |
| "loss": 2.3454, | |
| "step": 231 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 0.07687273996639293, | |
| "learning_rate": 1.6801505773787527e-05, | |
| "loss": 2.3901, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 1.9416666666666667, | |
| "grad_norm": 0.08600269874202937, | |
| "learning_rate": 1.670246722924616e-05, | |
| "loss": 2.3081, | |
| "step": 233 | |
| }, | |
| { | |
| "epoch": 1.95, | |
| "grad_norm": 0.07737694968965858, | |
| "learning_rate": 1.660330645377018e-05, | |
| "loss": 2.3643, | |
| "step": 234 | |
| }, | |
| { | |
| "epoch": 1.9583333333333335, | |
| "grad_norm": 0.08165758061569027, | |
| "learning_rate": 1.6504028389531333e-05, | |
| "loss": 2.355, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 1.9666666666666668, | |
| "grad_norm": 0.08264378429137093, | |
| "learning_rate": 1.640463798454704e-05, | |
| "loss": 2.3219, | |
| "step": 236 | |
| }, | |
| { | |
| "epoch": 1.975, | |
| "grad_norm": 0.0858368818345628, | |
| "learning_rate": 1.6305140192433787e-05, | |
| "loss": 2.3329, | |
| "step": 237 | |
| }, | |
| { | |
| "epoch": 1.9833333333333334, | |
| "grad_norm": 0.07616999163161729, | |
| "learning_rate": 1.620553997216023e-05, | |
| "loss": 2.3523, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 1.9916666666666667, | |
| "grad_norm": 0.08241527325980988, | |
| "learning_rate": 1.6105842287800046e-05, | |
| "loss": 2.2982, | |
| "step": 239 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.08007891750583127, | |
| "learning_rate": 1.600605210828451e-05, | |
| "loss": 2.2785, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_loss": 2.3910558223724365, | |
| "eval_runtime": 83.4904, | |
| "eval_samples_per_second": 4.911, | |
| "eval_steps_per_second": 0.311, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 2.0083333333333333, | |
| "grad_norm": 0.08108687194604622, | |
| "learning_rate": 1.5906174407154883e-05, | |
| "loss": 2.3367, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 2.0166666666666666, | |
| "grad_norm": 0.0806511417182259, | |
| "learning_rate": 1.5806214162314463e-05, | |
| "loss": 2.3011, | |
| "step": 242 | |
| }, | |
| { | |
| "epoch": 2.025, | |
| "grad_norm": 0.08264392219751603, | |
| "learning_rate": 1.5706176355780556e-05, | |
| "loss": 2.3036, | |
| "step": 243 | |
| }, | |
| { | |
| "epoch": 2.033333333333333, | |
| "grad_norm": 0.07958409681135217, | |
| "learning_rate": 1.5606065973436132e-05, | |
| "loss": 2.3056, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 2.0416666666666665, | |
| "grad_norm": 0.07856642651007223, | |
| "learning_rate": 1.550588800478133e-05, | |
| "loss": 2.3692, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 2.05, | |
| "grad_norm": 0.08350216798892127, | |
| "learning_rate": 1.5405647442684794e-05, | |
| "loss": 2.2697, | |
| "step": 246 | |
| }, | |
| { | |
| "epoch": 2.058333333333333, | |
| "grad_norm": 0.08390645284684875, | |
| "learning_rate": 1.530534928313484e-05, | |
| "loss": 2.2425, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 2.066666666666667, | |
| "grad_norm": 0.07883358190907572, | |
| "learning_rate": 1.5204998524990423e-05, | |
| "loss": 2.3281, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 2.075, | |
| "grad_norm": 0.07994560560782488, | |
| "learning_rate": 1.5104600169732015e-05, | |
| "loss": 2.3285, | |
| "step": 249 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 0.08345016891314849, | |
| "learning_rate": 1.5004159221212325e-05, | |
| "loss": 2.3252, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 2.091666666666667, | |
| "grad_norm": 0.0767244585605165, | |
| "learning_rate": 1.490368068540692e-05, | |
| "loss": 2.3176, | |
| "step": 251 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 0.07853322933102938, | |
| "learning_rate": 1.4803169570164703e-05, | |
| "loss": 2.286, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 2.1083333333333334, | |
| "grad_norm": 0.07885223855237164, | |
| "learning_rate": 1.4702630884958345e-05, | |
| "loss": 2.3293, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 2.1166666666666667, | |
| "grad_norm": 0.07786083611140765, | |
| "learning_rate": 1.4602069640634605e-05, | |
| "loss": 2.3241, | |
| "step": 254 | |
| }, | |
| { | |
| "epoch": 2.125, | |
| "grad_norm": 0.07961379829842732, | |
| "learning_rate": 1.4501490849164585e-05, | |
| "loss": 2.3218, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 2.1333333333333333, | |
| "grad_norm": 0.0812119479291348, | |
| "learning_rate": 1.4400899523393928e-05, | |
| "loss": 2.3101, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 2.1416666666666666, | |
| "grad_norm": 0.07820228956836967, | |
| "learning_rate": 1.4300300676793e-05, | |
| "loss": 2.3105, | |
| "step": 257 | |
| }, | |
| { | |
| "epoch": 2.15, | |
| "grad_norm": 0.0787354321940814, | |
| "learning_rate": 1.4199699323207e-05, | |
| "loss": 2.2921, | |
| "step": 258 | |
| }, | |
| { | |
| "epoch": 2.158333333333333, | |
| "grad_norm": 0.0821168083039209, | |
| "learning_rate": 1.4099100476606071e-05, | |
| "loss": 2.3449, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 0.08227570212622978, | |
| "learning_rate": 1.3998509150835417e-05, | |
| "loss": 2.2804, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 2.175, | |
| "grad_norm": 0.07956552166316343, | |
| "learning_rate": 1.3897930359365397e-05, | |
| "loss": 2.2798, | |
| "step": 261 | |
| }, | |
| { | |
| "epoch": 2.183333333333333, | |
| "grad_norm": 0.08355971196343313, | |
| "learning_rate": 1.3797369115041656e-05, | |
| "loss": 2.3121, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 2.191666666666667, | |
| "grad_norm": 0.07664615523847712, | |
| "learning_rate": 1.3696830429835303e-05, | |
| "loss": 2.3511, | |
| "step": 263 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 0.07875754809310784, | |
| "learning_rate": 1.3596319314593088e-05, | |
| "loss": 2.276, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 2.2083333333333335, | |
| "grad_norm": 0.07805417721469433, | |
| "learning_rate": 1.3495840778787675e-05, | |
| "loss": 2.3156, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 2.216666666666667, | |
| "grad_norm": 0.08500867883177173, | |
| "learning_rate": 1.339539983026799e-05, | |
| "loss": 2.3304, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 2.225, | |
| "grad_norm": 0.08575986404103182, | |
| "learning_rate": 1.3295001475009578e-05, | |
| "loss": 2.3171, | |
| "step": 267 | |
| }, | |
| { | |
| "epoch": 2.2333333333333334, | |
| "grad_norm": 0.0796424885760881, | |
| "learning_rate": 1.3194650716865163e-05, | |
| "loss": 2.3488, | |
| "step": 268 | |
| }, | |
| { | |
| "epoch": 2.2416666666666667, | |
| "grad_norm": 0.07791982790558008, | |
| "learning_rate": 1.3094352557315207e-05, | |
| "loss": 2.3806, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 0.0840055290628465, | |
| "learning_rate": 1.299411199521868e-05, | |
| "loss": 2.3277, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "eval_loss": 2.3895957469940186, | |
| "eval_runtime": 83.1157, | |
| "eval_samples_per_second": 4.933, | |
| "eval_steps_per_second": 0.313, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 2.2583333333333333, | |
| "grad_norm": 0.07770712903979533, | |
| "learning_rate": 1.2893934026563873e-05, | |
| "loss": 2.2666, | |
| "step": 271 | |
| }, | |
| { | |
| "epoch": 2.2666666666666666, | |
| "grad_norm": 0.07846164594226922, | |
| "learning_rate": 1.2793823644219445e-05, | |
| "loss": 2.2855, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 2.275, | |
| "grad_norm": 0.08498339693180243, | |
| "learning_rate": 1.269378583768554e-05, | |
| "loss": 2.2733, | |
| "step": 273 | |
| }, | |
| { | |
| "epoch": 2.283333333333333, | |
| "grad_norm": 0.07834222258922019, | |
| "learning_rate": 1.2593825592845122e-05, | |
| "loss": 2.3193, | |
| "step": 274 | |
| }, | |
| { | |
| "epoch": 2.2916666666666665, | |
| "grad_norm": 0.08132580954052983, | |
| "learning_rate": 1.2493947891715491e-05, | |
| "loss": 2.3085, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.07883697009265064, | |
| "learning_rate": 1.239415771219996e-05, | |
| "loss": 2.3545, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 2.3083333333333336, | |
| "grad_norm": 0.08023901828387182, | |
| "learning_rate": 1.2294460027839779e-05, | |
| "loss": 2.3489, | |
| "step": 277 | |
| }, | |
| { | |
| "epoch": 2.3166666666666664, | |
| "grad_norm": 0.08930364086676225, | |
| "learning_rate": 1.2194859807566216e-05, | |
| "loss": 2.2591, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 2.325, | |
| "grad_norm": 0.08343332964333285, | |
| "learning_rate": 1.2095362015452961e-05, | |
| "loss": 2.3404, | |
| "step": 279 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 0.08292455976075656, | |
| "learning_rate": 1.199597161046867e-05, | |
| "loss": 2.3028, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 2.341666666666667, | |
| "grad_norm": 0.08627078651851632, | |
| "learning_rate": 1.189669354622982e-05, | |
| "loss": 2.343, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 2.35, | |
| "grad_norm": 0.08202097516344958, | |
| "learning_rate": 1.1797532770753842e-05, | |
| "loss": 2.326, | |
| "step": 282 | |
| }, | |
| { | |
| "epoch": 2.3583333333333334, | |
| "grad_norm": 0.08362611496815728, | |
| "learning_rate": 1.169849422621248e-05, | |
| "loss": 2.3035, | |
| "step": 283 | |
| }, | |
| { | |
| "epoch": 2.3666666666666667, | |
| "grad_norm": 0.08888611458113292, | |
| "learning_rate": 1.1599582848685506e-05, | |
| "loss": 2.2812, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 2.375, | |
| "grad_norm": 0.08217261091117088, | |
| "learning_rate": 1.1500803567914671e-05, | |
| "loss": 2.3378, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 2.3833333333333333, | |
| "grad_norm": 0.07985728135451624, | |
| "learning_rate": 1.1402161307058047e-05, | |
| "loss": 2.3522, | |
| "step": 286 | |
| }, | |
| { | |
| "epoch": 2.3916666666666666, | |
| "grad_norm": 0.08014525439116486, | |
| "learning_rate": 1.1303660982444624e-05, | |
| "loss": 2.2256, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 0.08787593050595495, | |
| "learning_rate": 1.1205307503329286e-05, | |
| "loss": 2.2974, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 2.408333333333333, | |
| "grad_norm": 0.08195162040998395, | |
| "learning_rate": 1.1107105771648151e-05, | |
| "loss": 2.353, | |
| "step": 289 | |
| }, | |
| { | |
| "epoch": 2.4166666666666665, | |
| "grad_norm": 0.08267743479386988, | |
| "learning_rate": 1.1009060681774236e-05, | |
| "loss": 2.3274, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 2.425, | |
| "grad_norm": 0.08798947281948663, | |
| "learning_rate": 1.0911177120273537e-05, | |
| "loss": 2.3404, | |
| "step": 291 | |
| }, | |
| { | |
| "epoch": 2.4333333333333336, | |
| "grad_norm": 0.08828111892887862, | |
| "learning_rate": 1.0813459965661489e-05, | |
| "loss": 2.3348, | |
| "step": 292 | |
| }, | |
| { | |
| "epoch": 2.4416666666666664, | |
| "grad_norm": 0.08102528742267785, | |
| "learning_rate": 1.0715914088159789e-05, | |
| "loss": 2.2863, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 2.45, | |
| "grad_norm": 0.0866645702075036, | |
| "learning_rate": 1.06185443494537e-05, | |
| "loss": 2.3357, | |
| "step": 294 | |
| }, | |
| { | |
| "epoch": 2.4583333333333335, | |
| "grad_norm": 0.08290121294865929, | |
| "learning_rate": 1.0521355602449723e-05, | |
| "loss": 2.3537, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 2.466666666666667, | |
| "grad_norm": 0.08332374744178081, | |
| "learning_rate": 1.042435269103374e-05, | |
| "loss": 2.3554, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 2.475, | |
| "grad_norm": 0.08367195510948358, | |
| "learning_rate": 1.0327540449829583e-05, | |
| "loss": 2.3384, | |
| "step": 297 | |
| }, | |
| { | |
| "epoch": 2.4833333333333334, | |
| "grad_norm": 0.08673119537467149, | |
| "learning_rate": 1.0230923703958083e-05, | |
| "loss": 2.2725, | |
| "step": 298 | |
| }, | |
| { | |
| "epoch": 2.4916666666666667, | |
| "grad_norm": 0.08235186060858125, | |
| "learning_rate": 1.0134507268796605e-05, | |
| "loss": 2.328, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.08408079009588813, | |
| "learning_rate": 1.0038295949739004e-05, | |
| "loss": 2.3403, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "eval_loss": 2.3881967067718506, | |
| "eval_runtime": 82.1489, | |
| "eval_samples_per_second": 4.991, | |
| "eval_steps_per_second": 0.316, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 2.5083333333333333, | |
| "grad_norm": 0.07909547450093556, | |
| "learning_rate": 9.942294541956169e-06, | |
| "loss": 2.3357, | |
| "step": 301 | |
| }, | |
| { | |
| "epoch": 2.5166666666666666, | |
| "grad_norm": 0.08766753125589274, | |
| "learning_rate": 9.846507830157e-06, | |
| "loss": 2.2503, | |
| "step": 302 | |
| }, | |
| { | |
| "epoch": 2.525, | |
| "grad_norm": 0.07987208695801865, | |
| "learning_rate": 9.75094058834997e-06, | |
| "loss": 2.3168, | |
| "step": 303 | |
| }, | |
| { | |
| "epoch": 2.533333333333333, | |
| "grad_norm": 0.08537107163629042, | |
| "learning_rate": 9.655597579605152e-06, | |
| "loss": 2.3036, | |
| "step": 304 | |
| }, | |
| { | |
| "epoch": 2.5416666666666665, | |
| "grad_norm": 0.08251527677113132, | |
| "learning_rate": 9.560483555816858e-06, | |
| "loss": 2.3419, | |
| "step": 305 | |
| }, | |
| { | |
| "epoch": 2.55, | |
| "grad_norm": 0.08523777732696665, | |
| "learning_rate": 9.465603257466792e-06, | |
| "loss": 2.3449, | |
| "step": 306 | |
| }, | |
| { | |
| "epoch": 2.5583333333333336, | |
| "grad_norm": 0.0848931418707024, | |
| "learning_rate": 9.370961413387778e-06, | |
| "loss": 2.2844, | |
| "step": 307 | |
| }, | |
| { | |
| "epoch": 2.5666666666666664, | |
| "grad_norm": 0.08156484852737556, | |
| "learning_rate": 9.27656274052809e-06, | |
| "loss": 2.3485, | |
| "step": 308 | |
| }, | |
| { | |
| "epoch": 2.575, | |
| "grad_norm": 0.08185057405642468, | |
| "learning_rate": 9.182411943716344e-06, | |
| "loss": 2.3748, | |
| "step": 309 | |
| }, | |
| { | |
| "epoch": 2.5833333333333335, | |
| "grad_norm": 0.08210521440208327, | |
| "learning_rate": 9.088513715427028e-06, | |
| "loss": 2.376, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 2.591666666666667, | |
| "grad_norm": 0.08030540134328207, | |
| "learning_rate": 8.9948727355466e-06, | |
| "loss": 2.3196, | |
| "step": 311 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "grad_norm": 0.08216024303479584, | |
| "learning_rate": 8.901493671140283e-06, | |
| "loss": 2.3534, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 2.6083333333333334, | |
| "grad_norm": 0.08105902557687622, | |
| "learning_rate": 8.808381176219426e-06, | |
| "loss": 2.2729, | |
| "step": 313 | |
| }, | |
| { | |
| "epoch": 2.6166666666666667, | |
| "grad_norm": 0.08410998796525411, | |
| "learning_rate": 8.71553989150955e-06, | |
| "loss": 2.3596, | |
| "step": 314 | |
| }, | |
| { | |
| "epoch": 2.625, | |
| "grad_norm": 0.08582437979635364, | |
| "learning_rate": 8.622974444219076e-06, | |
| "loss": 2.3063, | |
| "step": 315 | |
| }, | |
| { | |
| "epoch": 2.6333333333333333, | |
| "grad_norm": 0.08419960708603666, | |
| "learning_rate": 8.530689447808683e-06, | |
| "loss": 2.3468, | |
| "step": 316 | |
| }, | |
| { | |
| "epoch": 2.6416666666666666, | |
| "grad_norm": 0.08532017727647645, | |
| "learning_rate": 8.438689501761387e-06, | |
| "loss": 2.3378, | |
| "step": 317 | |
| }, | |
| { | |
| "epoch": 2.65, | |
| "grad_norm": 0.08544492639100988, | |
| "learning_rate": 8.346979191353288e-06, | |
| "loss": 2.2872, | |
| "step": 318 | |
| }, | |
| { | |
| "epoch": 2.658333333333333, | |
| "grad_norm": 0.0825611786693761, | |
| "learning_rate": 8.255563087425069e-06, | |
| "loss": 2.3037, | |
| "step": 319 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 0.07923900030264817, | |
| "learning_rate": 8.164445746154141e-06, | |
| "loss": 2.2746, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 2.675, | |
| "grad_norm": 0.0805988851220756, | |
| "learning_rate": 8.073631708827614e-06, | |
| "loss": 2.3116, | |
| "step": 321 | |
| }, | |
| { | |
| "epoch": 2.6833333333333336, | |
| "grad_norm": 0.07902450485255898, | |
| "learning_rate": 7.983125501615913e-06, | |
| "loss": 2.3253, | |
| "step": 322 | |
| }, | |
| { | |
| "epoch": 2.6916666666666664, | |
| "grad_norm": 0.08586994856844313, | |
| "learning_rate": 7.892931635347223e-06, | |
| "loss": 2.3636, | |
| "step": 323 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "grad_norm": 0.08029033935205021, | |
| "learning_rate": 7.803054605282652e-06, | |
| "loss": 2.3023, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 2.7083333333333335, | |
| "grad_norm": 0.08041087816983067, | |
| "learning_rate": 7.713498890892208e-06, | |
| "loss": 2.3629, | |
| "step": 325 | |
| }, | |
| { | |
| "epoch": 2.716666666666667, | |
| "grad_norm": 0.08451031313730265, | |
| "learning_rate": 7.624268955631531e-06, | |
| "loss": 2.2625, | |
| "step": 326 | |
| }, | |
| { | |
| "epoch": 2.725, | |
| "grad_norm": 0.07898217475608488, | |
| "learning_rate": 7.53536924671942e-06, | |
| "loss": 2.3106, | |
| "step": 327 | |
| }, | |
| { | |
| "epoch": 2.7333333333333334, | |
| "grad_norm": 0.08283676255780481, | |
| "learning_rate": 7.446804194916206e-06, | |
| "loss": 2.3576, | |
| "step": 328 | |
| }, | |
| { | |
| "epoch": 2.7416666666666667, | |
| "grad_norm": 0.08212231805524588, | |
| "learning_rate": 7.358578214302908e-06, | |
| "loss": 2.2791, | |
| "step": 329 | |
| }, | |
| { | |
| "epoch": 2.75, | |
| "grad_norm": 0.08251122557980495, | |
| "learning_rate": 7.270695702061248e-06, | |
| "loss": 2.3553, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 2.75, | |
| "eval_loss": 2.387129783630371, | |
| "eval_runtime": 81.7826, | |
| "eval_samples_per_second": 5.013, | |
| "eval_steps_per_second": 0.318, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 2.7583333333333333, | |
| "grad_norm": 0.08008513950564178, | |
| "learning_rate": 7.1831610382544856e-06, | |
| "loss": 2.2737, | |
| "step": 331 | |
| }, | |
| { | |
| "epoch": 2.7666666666666666, | |
| "grad_norm": 0.08378397772580942, | |
| "learning_rate": 7.095978585609125e-06, | |
| "loss": 2.362, | |
| "step": 332 | |
| }, | |
| { | |
| "epoch": 2.775, | |
| "grad_norm": 0.08519607549475229, | |
| "learning_rate": 7.009152689297463e-06, | |
| "loss": 2.2601, | |
| "step": 333 | |
| }, | |
| { | |
| "epoch": 2.783333333333333, | |
| "grad_norm": 0.08038464346170233, | |
| "learning_rate": 6.9226876767210355e-06, | |
| "loss": 2.3434, | |
| "step": 334 | |
| }, | |
| { | |
| "epoch": 2.7916666666666665, | |
| "grad_norm": 0.08107258257971683, | |
| "learning_rate": 6.83658785729493e-06, | |
| "loss": 2.2608, | |
| "step": 335 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 0.0801095446046233, | |
| "learning_rate": 6.750857522233032e-06, | |
| "loss": 2.3562, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 2.8083333333333336, | |
| "grad_norm": 0.08032953635285699, | |
| "learning_rate": 6.665500944334116e-06, | |
| "loss": 2.3473, | |
| "step": 337 | |
| }, | |
| { | |
| "epoch": 2.8166666666666664, | |
| "grad_norm": 0.08165787890975398, | |
| "learning_rate": 6.580522377768902e-06, | |
| "loss": 2.3662, | |
| "step": 338 | |
| }, | |
| { | |
| "epoch": 2.825, | |
| "grad_norm": 0.08186138228862638, | |
| "learning_rate": 6.495926057868045e-06, | |
| "loss": 2.3611, | |
| "step": 339 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 0.08409693406516083, | |
| "learning_rate": 6.4117162009110105e-06, | |
| "loss": 2.3014, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 2.841666666666667, | |
| "grad_norm": 0.08426043237254878, | |
| "learning_rate": 6.327897003915982e-06, | |
| "loss": 2.3556, | |
| "step": 341 | |
| }, | |
| { | |
| "epoch": 2.85, | |
| "grad_norm": 0.07860767709618154, | |
| "learning_rate": 6.244472644430632e-06, | |
| "loss": 2.3986, | |
| "step": 342 | |
| }, | |
| { | |
| "epoch": 2.8583333333333334, | |
| "grad_norm": 0.07913910815896576, | |
| "learning_rate": 6.161447280323948e-06, | |
| "loss": 2.3041, | |
| "step": 343 | |
| }, | |
| { | |
| "epoch": 2.8666666666666667, | |
| "grad_norm": 0.0834686817566552, | |
| "learning_rate": 6.078825049578985e-06, | |
| "loss": 2.2694, | |
| "step": 344 | |
| }, | |
| { | |
| "epoch": 2.875, | |
| "grad_norm": 0.09464173421182612, | |
| "learning_rate": 5.996610070086646e-06, | |
| "loss": 2.3291, | |
| "step": 345 | |
| }, | |
| { | |
| "epoch": 2.8833333333333333, | |
| "grad_norm": 0.08924525286993587, | |
| "learning_rate": 5.914806439440443e-06, | |
| "loss": 2.2425, | |
| "step": 346 | |
| }, | |
| { | |
| "epoch": 2.8916666666666666, | |
| "grad_norm": 0.07984144031222275, | |
| "learning_rate": 5.833418234732248e-06, | |
| "loss": 2.3212, | |
| "step": 347 | |
| }, | |
| { | |
| "epoch": 2.9, | |
| "grad_norm": 0.08119999485058818, | |
| "learning_rate": 5.752449512349119e-06, | |
| "loss": 2.3043, | |
| "step": 348 | |
| }, | |
| { | |
| "epoch": 2.908333333333333, | |
| "grad_norm": 0.08130268904604636, | |
| "learning_rate": 5.671904307771115e-06, | |
| "loss": 2.3431, | |
| "step": 349 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "grad_norm": 0.0886368269447557, | |
| "learning_rate": 5.591786635370193e-06, | |
| "loss": 2.2584, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 2.925, | |
| "grad_norm": 0.08449560278602129, | |
| "learning_rate": 5.5121004882100805e-06, | |
| "loss": 2.2614, | |
| "step": 351 | |
| }, | |
| { | |
| "epoch": 2.9333333333333336, | |
| "grad_norm": 0.0877133422168611, | |
| "learning_rate": 5.4328498378473245e-06, | |
| "loss": 2.3467, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 2.9416666666666664, | |
| "grad_norm": 0.0829503072213313, | |
| "learning_rate": 5.354038634133295e-06, | |
| "loss": 2.2975, | |
| "step": 353 | |
| }, | |
| { | |
| "epoch": 2.95, | |
| "grad_norm": 0.08436627929472401, | |
| "learning_rate": 5.27567080501735e-06, | |
| "loss": 2.3115, | |
| "step": 354 | |
| }, | |
| { | |
| "epoch": 2.9583333333333335, | |
| "grad_norm": 0.08048623155801396, | |
| "learning_rate": 5.197750256351076e-06, | |
| "loss": 2.2584, | |
| "step": 355 | |
| }, | |
| { | |
| "epoch": 2.966666666666667, | |
| "grad_norm": 0.08109596859654204, | |
| "learning_rate": 5.120280871693596e-06, | |
| "loss": 2.3677, | |
| "step": 356 | |
| }, | |
| { | |
| "epoch": 2.975, | |
| "grad_norm": 0.081013576151029, | |
| "learning_rate": 5.0432665121180266e-06, | |
| "loss": 2.3585, | |
| "step": 357 | |
| }, | |
| { | |
| "epoch": 2.9833333333333334, | |
| "grad_norm": 0.08546479543984016, | |
| "learning_rate": 4.966711016019037e-06, | |
| "loss": 2.303, | |
| "step": 358 | |
| }, | |
| { | |
| "epoch": 2.9916666666666667, | |
| "grad_norm": 0.08245660024002954, | |
| "learning_rate": 4.890618198921555e-06, | |
| "loss": 2.3149, | |
| "step": 359 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.08512068224524219, | |
| "learning_rate": 4.814991853290595e-06, | |
| "loss": 2.2894, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_loss": 2.386331081390381, | |
| "eval_runtime": 82.119, | |
| "eval_samples_per_second": 4.993, | |
| "eval_steps_per_second": 0.317, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 3.0083333333333333, | |
| "grad_norm": 0.08558372235748295, | |
| "learning_rate": 4.739835748342228e-06, | |
| "loss": 2.2984, | |
| "step": 361 | |
| }, | |
| { | |
| "epoch": 3.0166666666666666, | |
| "grad_norm": 0.08035880067291258, | |
| "learning_rate": 4.665153629855744e-06, | |
| "loss": 2.3033, | |
| "step": 362 | |
| }, | |
| { | |
| "epoch": 3.025, | |
| "grad_norm": 0.07959465533779843, | |
| "learning_rate": 4.5909492199869445e-06, | |
| "loss": 2.3507, | |
| "step": 363 | |
| }, | |
| { | |
| "epoch": 3.033333333333333, | |
| "grad_norm": 0.08267174156962717, | |
| "learning_rate": 4.517226217082652e-06, | |
| "loss": 2.3425, | |
| "step": 364 | |
| }, | |
| { | |
| "epoch": 3.0416666666666665, | |
| "grad_norm": 0.07991572961673732, | |
| "learning_rate": 4.44398829549637e-06, | |
| "loss": 2.3261, | |
| "step": 365 | |
| }, | |
| { | |
| "epoch": 3.05, | |
| "grad_norm": 0.07847568885444599, | |
| "learning_rate": 4.371239105405148e-06, | |
| "loss": 2.3477, | |
| "step": 366 | |
| }, | |
| { | |
| "epoch": 3.058333333333333, | |
| "grad_norm": 0.08038194746327948, | |
| "learning_rate": 4.29898227262767e-06, | |
| "loss": 2.2698, | |
| "step": 367 | |
| }, | |
| { | |
| "epoch": 3.066666666666667, | |
| "grad_norm": 0.08253718833393997, | |
| "learning_rate": 4.22722139844353e-06, | |
| "loss": 2.3652, | |
| "step": 368 | |
| }, | |
| { | |
| "epoch": 3.075, | |
| "grad_norm": 0.08516413003066334, | |
| "learning_rate": 4.1559600594137686e-06, | |
| "loss": 2.3331, | |
| "step": 369 | |
| }, | |
| { | |
| "epoch": 3.0833333333333335, | |
| "grad_norm": 0.07953660852824361, | |
| "learning_rate": 4.085201807202586e-06, | |
| "loss": 2.3689, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 3.091666666666667, | |
| "grad_norm": 0.08238213712670353, | |
| "learning_rate": 4.014950168400341e-06, | |
| "loss": 2.308, | |
| "step": 371 | |
| }, | |
| { | |
| "epoch": 3.1, | |
| "grad_norm": 0.08283454952311556, | |
| "learning_rate": 3.945208644347803e-06, | |
| "loss": 2.2875, | |
| "step": 372 | |
| }, | |
| { | |
| "epoch": 3.1083333333333334, | |
| "grad_norm": 0.08123988730396041, | |
| "learning_rate": 3.875980710961609e-06, | |
| "loss": 2.2607, | |
| "step": 373 | |
| }, | |
| { | |
| "epoch": 3.1166666666666667, | |
| "grad_norm": 0.08112099690166064, | |
| "learning_rate": 3.8072698185610614e-06, | |
| "loss": 2.3591, | |
| "step": 374 | |
| }, | |
| { | |
| "epoch": 3.125, | |
| "grad_norm": 0.0792957148134827, | |
| "learning_rate": 3.7390793916961342e-06, | |
| "loss": 2.3218, | |
| "step": 375 | |
| }, | |
| { | |
| "epoch": 3.1333333333333333, | |
| "grad_norm": 0.08349920233794074, | |
| "learning_rate": 3.671412828976812e-06, | |
| "loss": 2.298, | |
| "step": 376 | |
| }, | |
| { | |
| "epoch": 3.1416666666666666, | |
| "grad_norm": 0.07899532707809945, | |
| "learning_rate": 3.604273502903688e-06, | |
| "loss": 2.3226, | |
| "step": 377 | |
| }, | |
| { | |
| "epoch": 3.15, | |
| "grad_norm": 0.08573888823467567, | |
| "learning_rate": 3.537664759699903e-06, | |
| "loss": 2.316, | |
| "step": 378 | |
| }, | |
| { | |
| "epoch": 3.158333333333333, | |
| "grad_norm": 0.08115043743007767, | |
| "learning_rate": 3.4715899191443483e-06, | |
| "loss": 2.2912, | |
| "step": 379 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 0.08268384127740624, | |
| "learning_rate": 3.40605227440621e-06, | |
| "loss": 2.2777, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 3.175, | |
| "grad_norm": 0.08106251418915893, | |
| "learning_rate": 3.3410550918808443e-06, | |
| "loss": 2.3159, | |
| "step": 381 | |
| }, | |
| { | |
| "epoch": 3.183333333333333, | |
| "grad_norm": 0.08286464503073644, | |
| "learning_rate": 3.276601611026974e-06, | |
| "loss": 2.3071, | |
| "step": 382 | |
| }, | |
| { | |
| "epoch": 3.191666666666667, | |
| "grad_norm": 0.08199773880110967, | |
| "learning_rate": 3.2126950442052483e-06, | |
| "loss": 2.3043, | |
| "step": 383 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "grad_norm": 0.08187041229316819, | |
| "learning_rate": 3.149338576518116e-06, | |
| "loss": 2.2955, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 3.2083333333333335, | |
| "grad_norm": 0.08220875126507468, | |
| "learning_rate": 3.0865353656511014e-06, | |
| "loss": 2.3141, | |
| "step": 385 | |
| }, | |
| { | |
| "epoch": 3.216666666666667, | |
| "grad_norm": 0.08353220855881248, | |
| "learning_rate": 3.024288541715413e-06, | |
| "loss": 2.3677, | |
| "step": 386 | |
| }, | |
| { | |
| "epoch": 3.225, | |
| "grad_norm": 0.07903966810055228, | |
| "learning_rate": 2.9626012070919357e-06, | |
| "loss": 2.3359, | |
| "step": 387 | |
| }, | |
| { | |
| "epoch": 3.2333333333333334, | |
| "grad_norm": 0.08190032494339015, | |
| "learning_rate": 2.901476436276628e-06, | |
| "loss": 2.2796, | |
| "step": 388 | |
| }, | |
| { | |
| "epoch": 3.2416666666666667, | |
| "grad_norm": 0.08161746077320213, | |
| "learning_rate": 2.840917275727264e-06, | |
| "loss": 2.3368, | |
| "step": 389 | |
| }, | |
| { | |
| "epoch": 3.25, | |
| "grad_norm": 0.0815574105377222, | |
| "learning_rate": 2.780926743711611e-06, | |
| "loss": 2.2746, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 3.25, | |
| "eval_loss": 2.385850667953491, | |
| "eval_runtime": 83.443, | |
| "eval_samples_per_second": 4.914, | |
| "eval_steps_per_second": 0.312, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 3.2583333333333333, | |
| "grad_norm": 0.07940368361833833, | |
| "learning_rate": 2.7215078301570005e-06, | |
| "loss": 2.3239, | |
| "step": 391 | |
| }, | |
| { | |
| "epoch": 3.2666666666666666, | |
| "grad_norm": 0.0789092720450855, | |
| "learning_rate": 2.6626634965013064e-06, | |
| "loss": 2.3485, | |
| "step": 392 | |
| }, | |
| { | |
| "epoch": 3.275, | |
| "grad_norm": 0.07860086067453795, | |
| "learning_rate": 2.604396675545354e-06, | |
| "loss": 2.3022, | |
| "step": 393 | |
| }, | |
| { | |
| "epoch": 3.283333333333333, | |
| "grad_norm": 0.0827013915236191, | |
| "learning_rate": 2.546710271306732e-06, | |
| "loss": 2.3382, | |
| "step": 394 | |
| }, | |
| { | |
| "epoch": 3.2916666666666665, | |
| "grad_norm": 0.08392337720938575, | |
| "learning_rate": 2.4896071588750746e-06, | |
| "loss": 2.2495, | |
| "step": 395 | |
| }, | |
| { | |
| "epoch": 3.3, | |
| "grad_norm": 0.07896168168173961, | |
| "learning_rate": 2.433090184268755e-06, | |
| "loss": 2.3413, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 3.3083333333333336, | |
| "grad_norm": 0.08513092869669563, | |
| "learning_rate": 2.3771621642930495e-06, | |
| "loss": 2.32, | |
| "step": 397 | |
| }, | |
| { | |
| "epoch": 3.3166666666666664, | |
| "grad_norm": 0.08158164066376497, | |
| "learning_rate": 2.3218258863997483e-06, | |
| "loss": 2.3159, | |
| "step": 398 | |
| }, | |
| { | |
| "epoch": 3.325, | |
| "grad_norm": 0.07850245543386242, | |
| "learning_rate": 2.2670841085482114e-06, | |
| "loss": 2.2892, | |
| "step": 399 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 0.07948289924872026, | |
| "learning_rate": 2.2129395590679325e-06, | |
| "loss": 2.3183, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 3.341666666666667, | |
| "grad_norm": 0.08268427645613528, | |
| "learning_rate": 2.1593949365225455e-06, | |
| "loss": 2.3455, | |
| "step": 401 | |
| }, | |
| { | |
| "epoch": 3.35, | |
| "grad_norm": 0.0805567434916959, | |
| "learning_rate": 2.1064529095753457e-06, | |
| "loss": 2.323, | |
| "step": 402 | |
| }, | |
| { | |
| "epoch": 3.3583333333333334, | |
| "grad_norm": 0.08055664155765571, | |
| "learning_rate": 2.054116116856257e-06, | |
| "loss": 2.3334, | |
| "step": 403 | |
| }, | |
| { | |
| "epoch": 3.3666666666666667, | |
| "grad_norm": 0.082279494119965, | |
| "learning_rate": 2.0023871668303433e-06, | |
| "loss": 2.2938, | |
| "step": 404 | |
| }, | |
| { | |
| "epoch": 3.375, | |
| "grad_norm": 0.08252463940578399, | |
| "learning_rate": 1.9512686376678015e-06, | |
| "loss": 2.2965, | |
| "step": 405 | |
| }, | |
| { | |
| "epoch": 3.3833333333333333, | |
| "grad_norm": 0.08541294452389535, | |
| "learning_rate": 1.9007630771154532e-06, | |
| "loss": 2.2363, | |
| "step": 406 | |
| }, | |
| { | |
| "epoch": 3.3916666666666666, | |
| "grad_norm": 0.08261328178534114, | |
| "learning_rate": 1.850873002369778e-06, | |
| "loss": 2.3175, | |
| "step": 407 | |
| }, | |
| { | |
| "epoch": 3.4, | |
| "grad_norm": 0.0830385045862884, | |
| "learning_rate": 1.8016008999514467e-06, | |
| "loss": 2.2871, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 3.408333333333333, | |
| "grad_norm": 0.08146738848250283, | |
| "learning_rate": 1.7529492255814008e-06, | |
| "loss": 2.3198, | |
| "step": 409 | |
| }, | |
| { | |
| "epoch": 3.4166666666666665, | |
| "grad_norm": 0.0827275148559704, | |
| "learning_rate": 1.704920404058452e-06, | |
| "loss": 2.2888, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 3.425, | |
| "grad_norm": 0.0803715450561763, | |
| "learning_rate": 1.6575168291384352e-06, | |
| "loss": 2.3405, | |
| "step": 411 | |
| }, | |
| { | |
| "epoch": 3.4333333333333336, | |
| "grad_norm": 0.07862601957152224, | |
| "learning_rate": 1.6107408634149068e-06, | |
| "loss": 2.2978, | |
| "step": 412 | |
| }, | |
| { | |
| "epoch": 3.4416666666666664, | |
| "grad_norm": 0.0797822244213719, | |
| "learning_rate": 1.5645948382013898e-06, | |
| "loss": 2.3701, | |
| "step": 413 | |
| }, | |
| { | |
| "epoch": 3.45, | |
| "grad_norm": 0.07749237550393802, | |
| "learning_rate": 1.5190810534151723e-06, | |
| "loss": 2.3616, | |
| "step": 414 | |
| }, | |
| { | |
| "epoch": 3.4583333333333335, | |
| "grad_norm": 0.07924907970443268, | |
| "learning_rate": 1.474201777462696e-06, | |
| "loss": 2.2771, | |
| "step": 415 | |
| }, | |
| { | |
| "epoch": 3.466666666666667, | |
| "grad_norm": 0.07962985015963248, | |
| "learning_rate": 1.4299592471264814e-06, | |
| "loss": 2.3482, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 3.475, | |
| "grad_norm": 0.08046145953371857, | |
| "learning_rate": 1.3863556674536668e-06, | |
| "loss": 2.2809, | |
| "step": 417 | |
| }, | |
| { | |
| "epoch": 3.4833333333333334, | |
| "grad_norm": 0.08300783210234308, | |
| "learning_rate": 1.3433932116460928e-06, | |
| "loss": 2.257, | |
| "step": 418 | |
| }, | |
| { | |
| "epoch": 3.4916666666666667, | |
| "grad_norm": 0.07975202760505942, | |
| "learning_rate": 1.3010740209519938e-06, | |
| "loss": 2.2887, | |
| "step": 419 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 0.08236525138293024, | |
| "learning_rate": 1.2594002045592805e-06, | |
| "loss": 2.3372, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "eval_loss": 2.385662794113159, | |
| "eval_runtime": 83.0808, | |
| "eval_samples_per_second": 4.935, | |
| "eval_steps_per_second": 0.313, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 3.5083333333333333, | |
| "grad_norm": 0.0770785839751936, | |
| "learning_rate": 1.2183738394904125e-06, | |
| "loss": 2.316, | |
| "step": 421 | |
| }, | |
| { | |
| "epoch": 3.5166666666666666, | |
| "grad_norm": 0.08097460244560037, | |
| "learning_rate": 1.1779969704988948e-06, | |
| "loss": 2.2975, | |
| "step": 422 | |
| }, | |
| { | |
| "epoch": 3.525, | |
| "grad_norm": 0.07940694057270696, | |
| "learning_rate": 1.1382716099673468e-06, | |
| "loss": 2.2899, | |
| "step": 423 | |
| }, | |
| { | |
| "epoch": 3.533333333333333, | |
| "grad_norm": 0.07624395089449575, | |
| "learning_rate": 1.099199737807215e-06, | |
| "loss": 2.269, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 3.5416666666666665, | |
| "grad_norm": 0.08303520654580664, | |
| "learning_rate": 1.0607833013601008e-06, | |
| "loss": 2.2388, | |
| "step": 425 | |
| }, | |
| { | |
| "epoch": 3.55, | |
| "grad_norm": 0.08044700838476601, | |
| "learning_rate": 1.0230242153006902e-06, | |
| "loss": 2.2696, | |
| "step": 426 | |
| }, | |
| { | |
| "epoch": 3.5583333333333336, | |
| "grad_norm": 0.08344501586117684, | |
| "learning_rate": 9.85924361541343e-07, | |
| "loss": 2.3153, | |
| "step": 427 | |
| }, | |
| { | |
| "epoch": 3.5666666666666664, | |
| "grad_norm": 0.08179619120507588, | |
| "learning_rate": 9.494855891382835e-07, | |
| "loss": 2.3233, | |
| "step": 428 | |
| }, | |
| { | |
| "epoch": 3.575, | |
| "grad_norm": 0.07850084483291209, | |
| "learning_rate": 9.137097141994495e-07, | |
| "loss": 2.3087, | |
| "step": 429 | |
| }, | |
| { | |
| "epoch": 3.5833333333333335, | |
| "grad_norm": 0.08111699262929621, | |
| "learning_rate": 8.785985197939802e-07, | |
| "loss": 2.3543, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 3.591666666666667, | |
| "grad_norm": 0.07923257497320196, | |
| "learning_rate": 8.441537558633456e-07, | |
| "loss": 2.2727, | |
| "step": 431 | |
| }, | |
| { | |
| "epoch": 3.6, | |
| "grad_norm": 0.08295454182298913, | |
| "learning_rate": 8.103771391341333e-07, | |
| "loss": 2.2947, | |
| "step": 432 | |
| }, | |
| { | |
| "epoch": 3.6083333333333334, | |
| "grad_norm": 0.08330165750451879, | |
| "learning_rate": 7.772703530324758e-07, | |
| "loss": 2.2726, | |
| "step": 433 | |
| }, | |
| { | |
| "epoch": 3.6166666666666667, | |
| "grad_norm": 0.08825135153749371, | |
| "learning_rate": 7.448350476001587e-07, | |
| "loss": 2.3293, | |
| "step": 434 | |
| }, | |
| { | |
| "epoch": 3.625, | |
| "grad_norm": 0.07936800616322473, | |
| "learning_rate": 7.130728394123811e-07, | |
| "loss": 2.3361, | |
| "step": 435 | |
| }, | |
| { | |
| "epoch": 3.6333333333333333, | |
| "grad_norm": 0.08092774191682904, | |
| "learning_rate": 6.819853114971846e-07, | |
| "loss": 2.2896, | |
| "step": 436 | |
| }, | |
| { | |
| "epoch": 3.6416666666666666, | |
| "grad_norm": 0.0847047278961897, | |
| "learning_rate": 6.515740132565501e-07, | |
| "loss": 2.3467, | |
| "step": 437 | |
| }, | |
| { | |
| "epoch": 3.65, | |
| "grad_norm": 0.08396765360593379, | |
| "learning_rate": 6.218404603891905e-07, | |
| "loss": 2.3158, | |
| "step": 438 | |
| }, | |
| { | |
| "epoch": 3.658333333333333, | |
| "grad_norm": 0.08429525429703029, | |
| "learning_rate": 5.927861348149875e-07, | |
| "loss": 2.3163, | |
| "step": 439 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 0.08234598100556376, | |
| "learning_rate": 5.644124846011458e-07, | |
| "loss": 2.267, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 3.675, | |
| "grad_norm": 0.08146900548133754, | |
| "learning_rate": 5.367209238900246e-07, | |
| "loss": 2.2648, | |
| "step": 441 | |
| }, | |
| { | |
| "epoch": 3.6833333333333336, | |
| "grad_norm": 0.08208680327943706, | |
| "learning_rate": 5.097128328286468e-07, | |
| "loss": 2.3259, | |
| "step": 442 | |
| }, | |
| { | |
| "epoch": 3.6916666666666664, | |
| "grad_norm": 0.0797527104636109, | |
| "learning_rate": 4.833895574999158e-07, | |
| "loss": 2.3253, | |
| "step": 443 | |
| }, | |
| { | |
| "epoch": 3.7, | |
| "grad_norm": 0.08665834276318864, | |
| "learning_rate": 4.577524098555302e-07, | |
| "loss": 2.2622, | |
| "step": 444 | |
| }, | |
| { | |
| "epoch": 3.7083333333333335, | |
| "grad_norm": 0.07997688422980546, | |
| "learning_rate": 4.328026676505935e-07, | |
| "loss": 2.3534, | |
| "step": 445 | |
| }, | |
| { | |
| "epoch": 3.716666666666667, | |
| "grad_norm": 0.07828547467180325, | |
| "learning_rate": 4.085415743799311e-07, | |
| "loss": 2.3496, | |
| "step": 446 | |
| }, | |
| { | |
| "epoch": 3.725, | |
| "grad_norm": 0.08026091990691622, | |
| "learning_rate": 3.849703392161145e-07, | |
| "loss": 2.268, | |
| "step": 447 | |
| }, | |
| { | |
| "epoch": 3.7333333333333334, | |
| "grad_norm": 0.07786907236541515, | |
| "learning_rate": 3.620901369491971e-07, | |
| "loss": 2.287, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 3.7416666666666667, | |
| "grad_norm": 0.08181636690118672, | |
| "learning_rate": 3.3990210792815556e-07, | |
| "loss": 2.3515, | |
| "step": 449 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "grad_norm": 0.07917094030405644, | |
| "learning_rate": 3.184073580040699e-07, | |
| "loss": 2.3202, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "eval_loss": 2.3855926990509033, | |
| "eval_runtime": 83.2872, | |
| "eval_samples_per_second": 4.923, | |
| "eval_steps_per_second": 0.312, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 3.7583333333333333, | |
| "grad_norm": 0.07910995296958116, | |
| "learning_rate": 2.976069584749945e-07, | |
| "loss": 2.3408, | |
| "step": 451 | |
| }, | |
| { | |
| "epoch": 3.7666666666666666, | |
| "grad_norm": 0.08190829338924943, | |
| "learning_rate": 2.775019460325717e-07, | |
| "loss": 2.342, | |
| "step": 452 | |
| }, | |
| { | |
| "epoch": 3.775, | |
| "grad_norm": 0.07897395505824549, | |
| "learning_rate": 2.580933227103546e-07, | |
| "loss": 2.3585, | |
| "step": 453 | |
| }, | |
| { | |
| "epoch": 3.783333333333333, | |
| "grad_norm": 0.07574550298881826, | |
| "learning_rate": 2.3938205583387747e-07, | |
| "loss": 2.3582, | |
| "step": 454 | |
| }, | |
| { | |
| "epoch": 3.7916666666666665, | |
| "grad_norm": 0.07850140630528783, | |
| "learning_rate": 2.2136907797243712e-07, | |
| "loss": 2.3041, | |
| "step": 455 | |
| }, | |
| { | |
| "epoch": 3.8, | |
| "grad_norm": 0.07649287404720032, | |
| "learning_rate": 2.0405528689261514e-07, | |
| "loss": 2.2674, | |
| "step": 456 | |
| }, | |
| { | |
| "epoch": 3.8083333333333336, | |
| "grad_norm": 0.08096951270830731, | |
| "learning_rate": 1.874415455135306e-07, | |
| "loss": 2.2864, | |
| "step": 457 | |
| }, | |
| { | |
| "epoch": 3.8166666666666664, | |
| "grad_norm": 0.0793447282503826, | |
| "learning_rate": 1.715286818638379e-07, | |
| "loss": 2.2997, | |
| "step": 458 | |
| }, | |
| { | |
| "epoch": 3.825, | |
| "grad_norm": 0.08240373350552549, | |
| "learning_rate": 1.563174890404522e-07, | |
| "loss": 2.2679, | |
| "step": 459 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 0.08609998518111264, | |
| "learning_rate": 1.4180872516902617e-07, | |
| "loss": 2.2403, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 3.841666666666667, | |
| "grad_norm": 0.08167728612673658, | |
| "learning_rate": 1.280031133661591e-07, | |
| "loss": 2.3446, | |
| "step": 461 | |
| }, | |
| { | |
| "epoch": 3.85, | |
| "grad_norm": 0.0805979419664327, | |
| "learning_rate": 1.149013417033655e-07, | |
| "loss": 2.3297, | |
| "step": 462 | |
| }, | |
| { | |
| "epoch": 3.8583333333333334, | |
| "grad_norm": 0.08611631443079958, | |
| "learning_rate": 1.0250406317276928e-07, | |
| "loss": 2.3336, | |
| "step": 463 | |
| }, | |
| { | |
| "epoch": 3.8666666666666667, | |
| "grad_norm": 0.08143966447727025, | |
| "learning_rate": 9.081189565457504e-08, | |
| "loss": 2.2744, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 3.875, | |
| "grad_norm": 0.08488722225095564, | |
| "learning_rate": 7.982542188625722e-08, | |
| "loss": 2.3295, | |
| "step": 465 | |
| }, | |
| { | |
| "epoch": 3.8833333333333333, | |
| "grad_norm": 0.07853979984810681, | |
| "learning_rate": 6.954518943352283e-08, | |
| "loss": 2.344, | |
| "step": 466 | |
| }, | |
| { | |
| "epoch": 3.8916666666666666, | |
| "grad_norm": 0.07862078924318884, | |
| "learning_rate": 5.99717106630256e-08, | |
| "loss": 2.3355, | |
| "step": 467 | |
| }, | |
| { | |
| "epoch": 3.9, | |
| "grad_norm": 0.08377975012300021, | |
| "learning_rate": 5.110546271682018e-08, | |
| "loss": 2.3136, | |
| "step": 468 | |
| }, | |
| { | |
| "epoch": 3.908333333333333, | |
| "grad_norm": 0.07944977947348907, | |
| "learning_rate": 4.294688748859016e-08, | |
| "loss": 2.2962, | |
| "step": 469 | |
| }, | |
| { | |
| "epoch": 3.9166666666666665, | |
| "grad_norm": 0.0833522759120961, | |
| "learning_rate": 3.549639160161608e-08, | |
| "loss": 2.308, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 3.925, | |
| "grad_norm": 0.08140602305245098, | |
| "learning_rate": 2.8754346388515512e-08, | |
| "loss": 2.2746, | |
| "step": 471 | |
| }, | |
| { | |
| "epoch": 3.9333333333333336, | |
| "grad_norm": 0.07858129028297453, | |
| "learning_rate": 2.2721087872736023e-08, | |
| "loss": 2.3202, | |
| "step": 472 | |
| }, | |
| { | |
| "epoch": 3.9416666666666664, | |
| "grad_norm": 0.08607576848964471, | |
| "learning_rate": 1.739691675180108e-08, | |
| "loss": 2.2951, | |
| "step": 473 | |
| }, | |
| { | |
| "epoch": 3.95, | |
| "grad_norm": 0.08333546885762359, | |
| "learning_rate": 1.2782098382329438e-08, | |
| "loss": 2.3083, | |
| "step": 474 | |
| }, | |
| { | |
| "epoch": 3.9583333333333335, | |
| "grad_norm": 0.07846414060719181, | |
| "learning_rate": 8.876862766810657e-09, | |
| "loss": 2.3477, | |
| "step": 475 | |
| }, | |
| { | |
| "epoch": 3.966666666666667, | |
| "grad_norm": 0.0843173916539748, | |
| "learning_rate": 5.681404542133506e-09, | |
| "loss": 2.3153, | |
| "step": 476 | |
| }, | |
| { | |
| "epoch": 3.975, | |
| "grad_norm": 0.08182426750859544, | |
| "learning_rate": 3.195882969897396e-09, | |
| "loss": 2.3014, | |
| "step": 477 | |
| }, | |
| { | |
| "epoch": 3.9833333333333334, | |
| "grad_norm": 0.08152323272955077, | |
| "learning_rate": 1.4204219284608965e-09, | |
| "loss": 2.2305, | |
| "step": 478 | |
| }, | |
| { | |
| "epoch": 3.9916666666666667, | |
| "grad_norm": 0.08125023609849888, | |
| "learning_rate": 3.5510990678433443e-10, | |
| "loss": 2.3295, | |
| "step": 479 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 0.08005084236686048, | |
| "learning_rate": 0.0, | |
| "loss": 2.3509, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "eval_loss": 2.3855347633361816, | |
| "eval_runtime": 81.8722, | |
| "eval_samples_per_second": 5.008, | |
| "eval_steps_per_second": 0.318, | |
| "step": 480 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 480, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 4, | |
| "save_steps": 60, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 5.955261368264294e+17, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |