{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 30, "global_step": 360, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008333333333333333, "grad_norm": 0.9462232657835241, "learning_rate": 8.142857142857143e-07, "loss": 2.5443, "step": 1 }, { "epoch": 0.008333333333333333, "eval_loss": 2.5896365642547607, "eval_runtime": 96.0059, "eval_samples_per_second": 4.271, "eval_steps_per_second": 0.271, "step": 1 }, { "epoch": 0.016666666666666666, "grad_norm": 0.9597143397960513, "learning_rate": 1.6285714285714286e-06, "loss": 2.5524, "step": 2 }, { "epoch": 0.025, "grad_norm": 0.9246258453027174, "learning_rate": 2.442857142857143e-06, "loss": 2.5411, "step": 3 }, { "epoch": 0.03333333333333333, "grad_norm": 0.9822285829186661, "learning_rate": 3.2571428571428572e-06, "loss": 2.5518, "step": 4 }, { "epoch": 0.041666666666666664, "grad_norm": 0.9044329068814566, "learning_rate": 4.071428571428572e-06, "loss": 2.4922, "step": 5 }, { "epoch": 0.05, "grad_norm": 0.9131300887744053, "learning_rate": 4.885714285714286e-06, "loss": 2.5713, "step": 6 }, { "epoch": 0.058333333333333334, "grad_norm": 0.8336298309675122, "learning_rate": 5.7000000000000005e-06, "loss": 2.4959, "step": 7 }, { "epoch": 0.06666666666666667, "grad_norm": 0.810775409605909, "learning_rate": 6.5142857142857145e-06, "loss": 2.4943, "step": 8 }, { "epoch": 0.075, "grad_norm": 0.6993505055921954, "learning_rate": 7.3285714285714285e-06, "loss": 2.5022, "step": 9 }, { "epoch": 0.08333333333333333, "grad_norm": 0.5909140859664664, "learning_rate": 8.142857142857143e-06, "loss": 2.468, "step": 10 }, { "epoch": 0.09166666666666666, "grad_norm": 0.5464791893738283, "learning_rate": 8.957142857142857e-06, "loss": 2.5203, "step": 11 }, { "epoch": 0.1, "grad_norm": 0.41153668995149084, "learning_rate": 9.771428571428571e-06, "loss": 2.4912, "step": 12 }, { "epoch": 0.10833333333333334, "grad_norm": 0.35433353277028035, "learning_rate": 1.0585714285714287e-05, "loss": 2.4467, "step": 13 }, { "epoch": 0.11666666666666667, "grad_norm": 0.27579908222756766, "learning_rate": 1.1400000000000001e-05, "loss": 2.4599, "step": 14 }, { "epoch": 0.125, "grad_norm": 0.22636758420678307, "learning_rate": 1.2214285714285715e-05, "loss": 2.4357, "step": 15 }, { "epoch": 0.13333333333333333, "grad_norm": 0.22309908436920517, "learning_rate": 1.3028571428571429e-05, "loss": 2.368, "step": 16 }, { "epoch": 0.14166666666666666, "grad_norm": 0.2384290311446137, "learning_rate": 1.3842857142857143e-05, "loss": 2.4054, "step": 17 }, { "epoch": 0.15, "grad_norm": 0.2279055472006466, "learning_rate": 1.4657142857142857e-05, "loss": 2.4162, "step": 18 }, { "epoch": 0.15833333333333333, "grad_norm": 0.24659885813398136, "learning_rate": 1.547142857142857e-05, "loss": 2.4109, "step": 19 }, { "epoch": 0.16666666666666666, "grad_norm": 0.21920560481126147, "learning_rate": 1.6285714285714287e-05, "loss": 2.4344, "step": 20 }, { "epoch": 0.175, "grad_norm": 0.21340860355678012, "learning_rate": 1.71e-05, "loss": 2.4532, "step": 21 }, { "epoch": 0.18333333333333332, "grad_norm": 0.1775246176788835, "learning_rate": 1.7914285714285715e-05, "loss": 2.4398, "step": 22 }, { "epoch": 0.19166666666666668, "grad_norm": 0.15469100364725502, "learning_rate": 1.872857142857143e-05, "loss": 2.4275, "step": 23 }, { "epoch": 0.2, "grad_norm": 0.1261136620302219, "learning_rate": 1.9542857142857143e-05, "loss": 2.3855, "step": 24 }, { "epoch": 0.20833333333333334, "grad_norm": 0.1251566381945981, "learning_rate": 2.0357142857142858e-05, "loss": 2.4008, "step": 25 }, { "epoch": 0.21666666666666667, "grad_norm": 0.12280228065778742, "learning_rate": 2.1171428571428574e-05, "loss": 2.4086, "step": 26 }, { "epoch": 0.225, "grad_norm": 0.1362748806421765, "learning_rate": 2.1985714285714286e-05, "loss": 2.3642, "step": 27 }, { "epoch": 0.23333333333333334, "grad_norm": 0.12370426656542512, "learning_rate": 2.2800000000000002e-05, "loss": 2.4168, "step": 28 }, { "epoch": 0.24166666666666667, "grad_norm": 0.12077140199925576, "learning_rate": 2.3614285714285718e-05, "loss": 2.3502, "step": 29 }, { "epoch": 0.25, "grad_norm": 0.10854652278245232, "learning_rate": 2.442857142857143e-05, "loss": 2.323, "step": 30 }, { "epoch": 0.25, "eval_loss": 2.4455511569976807, "eval_runtime": 82.5732, "eval_samples_per_second": 4.965, "eval_steps_per_second": 0.315, "step": 30 }, { "epoch": 0.25833333333333336, "grad_norm": 0.10286886191993252, "learning_rate": 2.5242857142857142e-05, "loss": 2.4007, "step": 31 }, { "epoch": 0.26666666666666666, "grad_norm": 0.09687340891245565, "learning_rate": 2.6057142857142858e-05, "loss": 2.4088, "step": 32 }, { "epoch": 0.275, "grad_norm": 0.09653492248714694, "learning_rate": 2.6871428571428574e-05, "loss": 2.3906, "step": 33 }, { "epoch": 0.2833333333333333, "grad_norm": 0.09022900019263645, "learning_rate": 2.7685714285714286e-05, "loss": 2.4065, "step": 34 }, { "epoch": 0.2916666666666667, "grad_norm": 0.0912409242342349, "learning_rate": 2.85e-05, "loss": 2.3699, "step": 35 }, { "epoch": 0.3, "grad_norm": 0.09592020125185927, "learning_rate": 2.8499644890093217e-05, "loss": 2.3587, "step": 36 }, { "epoch": 0.30833333333333335, "grad_norm": 0.0907084429462166, "learning_rate": 2.8498579578071537e-05, "loss": 2.4259, "step": 37 }, { "epoch": 0.31666666666666665, "grad_norm": 0.09390099422567517, "learning_rate": 2.8496804117030106e-05, "loss": 2.3232, "step": 38 }, { "epoch": 0.325, "grad_norm": 0.08704027284958313, "learning_rate": 2.849431859545787e-05, "loss": 2.4027, "step": 39 }, { "epoch": 0.3333333333333333, "grad_norm": 0.08787482564111378, "learning_rate": 2.849112313723319e-05, "loss": 2.3827, "step": 40 }, { "epoch": 0.3416666666666667, "grad_norm": 0.08422520058818864, "learning_rate": 2.8487217901617672e-05, "loss": 2.353, "step": 41 }, { "epoch": 0.35, "grad_norm": 0.07979320980153469, "learning_rate": 2.84826030832482e-05, "loss": 2.3519, "step": 42 }, { "epoch": 0.35833333333333334, "grad_norm": 0.07814774416810645, "learning_rate": 2.8477278912127266e-05, "loss": 2.3708, "step": 43 }, { "epoch": 0.36666666666666664, "grad_norm": 0.07237049854036091, "learning_rate": 2.847124565361149e-05, "loss": 2.388, "step": 44 }, { "epoch": 0.375, "grad_norm": 0.07354258492789081, "learning_rate": 2.8464503608398385e-05, "loss": 2.3586, "step": 45 }, { "epoch": 0.38333333333333336, "grad_norm": 0.0771281784161838, "learning_rate": 2.845705311251141e-05, "loss": 2.3993, "step": 46 }, { "epoch": 0.39166666666666666, "grad_norm": 0.0763264062020341, "learning_rate": 2.844889453728318e-05, "loss": 2.3838, "step": 47 }, { "epoch": 0.4, "grad_norm": 0.07082143620733677, "learning_rate": 2.8440028289336977e-05, "loss": 2.3628, "step": 48 }, { "epoch": 0.4083333333333333, "grad_norm": 0.0715578975320661, "learning_rate": 2.8430454810566477e-05, "loss": 2.361, "step": 49 }, { "epoch": 0.4166666666666667, "grad_norm": 0.06881630985450242, "learning_rate": 2.8420174578113747e-05, "loss": 2.4392, "step": 50 }, { "epoch": 0.425, "grad_norm": 0.0689279893077156, "learning_rate": 2.8409188104345426e-05, "loss": 2.3519, "step": 51 }, { "epoch": 0.43333333333333335, "grad_norm": 0.07069081407018309, "learning_rate": 2.8397495936827232e-05, "loss": 2.3981, "step": 52 }, { "epoch": 0.44166666666666665, "grad_norm": 0.07092917277421104, "learning_rate": 2.8385098658296637e-05, "loss": 2.355, "step": 53 }, { "epoch": 0.45, "grad_norm": 0.0703607034709259, "learning_rate": 2.8371996886633843e-05, "loss": 2.3793, "step": 54 }, { "epoch": 0.4583333333333333, "grad_norm": 0.07124199690967324, "learning_rate": 2.8358191274830974e-05, "loss": 2.4275, "step": 55 }, { "epoch": 0.4666666666666667, "grad_norm": 0.07099804346309355, "learning_rate": 2.8343682510959552e-05, "loss": 2.3323, "step": 56 }, { "epoch": 0.475, "grad_norm": 0.06967632308939245, "learning_rate": 2.8328471318136165e-05, "loss": 2.3883, "step": 57 }, { "epoch": 0.48333333333333334, "grad_norm": 0.07156300179553134, "learning_rate": 2.831255845448647e-05, "loss": 2.3298, "step": 58 }, { "epoch": 0.49166666666666664, "grad_norm": 0.0704201532980033, "learning_rate": 2.8295944713107387e-05, "loss": 2.331, "step": 59 }, { "epoch": 0.5, "grad_norm": 0.06794782460291071, "learning_rate": 2.8278630922027563e-05, "loss": 2.3776, "step": 60 }, { "epoch": 0.5, "eval_loss": 2.4216628074645996, "eval_runtime": 82.3879, "eval_samples_per_second": 4.976, "eval_steps_per_second": 0.316, "step": 60 }, { "epoch": 0.5083333333333333, "grad_norm": 0.07045949082426937, "learning_rate": 2.8260617944166123e-05, "loss": 2.3319, "step": 61 }, { "epoch": 0.5166666666666667, "grad_norm": 0.0702234192794877, "learning_rate": 2.824190667728965e-05, "loss": 2.3647, "step": 62 }, { "epoch": 0.525, "grad_norm": 0.06946814214632402, "learning_rate": 2.8222498053967434e-05, "loss": 2.3967, "step": 63 }, { "epoch": 0.5333333333333333, "grad_norm": 0.06563265580127577, "learning_rate": 2.8202393041525005e-05, "loss": 2.3863, "step": 64 }, { "epoch": 0.5416666666666666, "grad_norm": 0.0723770670150652, "learning_rate": 2.8181592641995933e-05, "loss": 2.3823, "step": 65 }, { "epoch": 0.55, "grad_norm": 0.06870429029917037, "learning_rate": 2.8160097892071847e-05, "loss": 2.3241, "step": 66 }, { "epoch": 0.5583333333333333, "grad_norm": 0.08615444480664787, "learning_rate": 2.8137909863050806e-05, "loss": 2.3504, "step": 67 }, { "epoch": 0.5666666666666667, "grad_norm": 0.06980417460436542, "learning_rate": 2.8115029660783887e-05, "loss": 2.3762, "step": 68 }, { "epoch": 0.575, "grad_norm": 0.0691283200064781, "learning_rate": 2.809145842562007e-05, "loss": 2.3202, "step": 69 }, { "epoch": 0.5833333333333334, "grad_norm": 0.06434433998677834, "learning_rate": 2.8067197332349406e-05, "loss": 2.4117, "step": 70 }, { "epoch": 0.5916666666666667, "grad_norm": 0.06712521054811822, "learning_rate": 2.8042247590144472e-05, "loss": 2.4234, "step": 71 }, { "epoch": 0.6, "grad_norm": 0.07781170630767965, "learning_rate": 2.8016610442500087e-05, "loss": 2.3614, "step": 72 }, { "epoch": 0.6083333333333333, "grad_norm": 0.07179449259884696, "learning_rate": 2.7990287167171357e-05, "loss": 2.327, "step": 73 }, { "epoch": 0.6166666666666667, "grad_norm": 0.0666012429917219, "learning_rate": 2.7963279076109976e-05, "loss": 2.3606, "step": 74 }, { "epoch": 0.625, "grad_norm": 0.07042352420672252, "learning_rate": 2.7935587515398855e-05, "loss": 2.387, "step": 75 }, { "epoch": 0.6333333333333333, "grad_norm": 0.07141219809062525, "learning_rate": 2.7907213865185014e-05, "loss": 2.3975, "step": 76 }, { "epoch": 0.6416666666666667, "grad_norm": 0.07530038535140655, "learning_rate": 2.787815953961081e-05, "loss": 2.3975, "step": 77 }, { "epoch": 0.65, "grad_norm": 0.06873021297298251, "learning_rate": 2.784842598674345e-05, "loss": 2.3724, "step": 78 }, { "epoch": 0.6583333333333333, "grad_norm": 0.06853494667979494, "learning_rate": 2.781801468850282e-05, "loss": 2.3994, "step": 79 }, { "epoch": 0.6666666666666666, "grad_norm": 0.07164446612343163, "learning_rate": 2.778692716058762e-05, "loss": 2.3448, "step": 80 }, { "epoch": 0.675, "grad_norm": 0.07112624750325054, "learning_rate": 2.7755164952399844e-05, "loss": 2.2984, "step": 81 }, { "epoch": 0.6833333333333333, "grad_norm": 0.07679055297227524, "learning_rate": 2.7722729646967527e-05, "loss": 2.3699, "step": 82 }, { "epoch": 0.6916666666666667, "grad_norm": 0.07270378630883641, "learning_rate": 2.768962286086587e-05, "loss": 2.3436, "step": 83 }, { "epoch": 0.7, "grad_norm": 0.06869524209312625, "learning_rate": 2.7655846244136654e-05, "loss": 2.3856, "step": 84 }, { "epoch": 0.7083333333333334, "grad_norm": 0.07006104211903366, "learning_rate": 2.762140148020602e-05, "loss": 2.3852, "step": 85 }, { "epoch": 0.7166666666666667, "grad_norm": 0.07264285304887648, "learning_rate": 2.758629028580055e-05, "loss": 2.3834, "step": 86 }, { "epoch": 0.725, "grad_norm": 0.07253530482477301, "learning_rate": 2.7550514410861718e-05, "loss": 2.3573, "step": 87 }, { "epoch": 0.7333333333333333, "grad_norm": 0.07265955522289944, "learning_rate": 2.751407563845866e-05, "loss": 2.3163, "step": 88 }, { "epoch": 0.7416666666666667, "grad_norm": 0.07374626234739601, "learning_rate": 2.747697578469931e-05, "loss": 2.3851, "step": 89 }, { "epoch": 0.75, "grad_norm": 0.07255481420091238, "learning_rate": 2.7439216698639904e-05, "loss": 2.3345, "step": 90 }, { "epoch": 0.75, "eval_loss": 2.4115521907806396, "eval_runtime": 82.0248, "eval_samples_per_second": 4.998, "eval_steps_per_second": 0.317, "step": 90 }, { "epoch": 0.7583333333333333, "grad_norm": 0.06817548300510701, "learning_rate": 2.7400800262192788e-05, "loss": 2.3449, "step": 91 }, { "epoch": 0.7666666666666667, "grad_norm": 0.07336990573663302, "learning_rate": 2.7361728390032657e-05, "loss": 2.3448, "step": 92 }, { "epoch": 0.775, "grad_norm": 0.07822885886131264, "learning_rate": 2.732200302950111e-05, "loss": 2.3217, "step": 93 }, { "epoch": 0.7833333333333333, "grad_norm": 0.07296512071361201, "learning_rate": 2.728162616050959e-05, "loss": 2.3329, "step": 94 }, { "epoch": 0.7916666666666666, "grad_norm": 0.07367928865175823, "learning_rate": 2.724059979544072e-05, "loss": 2.3208, "step": 95 }, { "epoch": 0.8, "grad_norm": 0.07504139519989858, "learning_rate": 2.719892597904801e-05, "loss": 2.3483, "step": 96 }, { "epoch": 0.8083333333333333, "grad_norm": 0.06790757702451031, "learning_rate": 2.7156606788353906e-05, "loss": 2.4128, "step": 97 }, { "epoch": 0.8166666666666667, "grad_norm": 0.07011160737870108, "learning_rate": 2.7113644332546336e-05, "loss": 2.3832, "step": 98 }, { "epoch": 0.825, "grad_norm": 0.08077329808935288, "learning_rate": 2.707004075287352e-05, "loss": 2.3308, "step": 99 }, { "epoch": 0.8333333333333334, "grad_norm": 0.0719496280235162, "learning_rate": 2.7025798222537306e-05, "loss": 2.3254, "step": 100 }, { "epoch": 0.8416666666666667, "grad_norm": 0.07275409855582728, "learning_rate": 2.698091894658483e-05, "loss": 2.3967, "step": 101 }, { "epoch": 0.85, "grad_norm": 0.07201531734077336, "learning_rate": 2.693540516179861e-05, "loss": 2.3346, "step": 102 }, { "epoch": 0.8583333333333333, "grad_norm": 0.0765467775604243, "learning_rate": 2.6889259136585094e-05, "loss": 2.3336, "step": 103 }, { "epoch": 0.8666666666666667, "grad_norm": 0.077223728318478, "learning_rate": 2.6842483170861568e-05, "loss": 2.3313, "step": 104 }, { "epoch": 0.875, "grad_norm": 0.07639332869289207, "learning_rate": 2.6795079595941553e-05, "loss": 2.4008, "step": 105 }, { "epoch": 0.8833333333333333, "grad_norm": 0.07440505813328589, "learning_rate": 2.6747050774418605e-05, "loss": 2.3425, "step": 106 }, { "epoch": 0.8916666666666667, "grad_norm": 0.06937810484842656, "learning_rate": 2.6698399100048556e-05, "loss": 2.3349, "step": 107 }, { "epoch": 0.9, "grad_norm": 0.07336400555418392, "learning_rate": 2.6649126997630225e-05, "loss": 2.3792, "step": 108 }, { "epoch": 0.9083333333333333, "grad_norm": 0.07442564570941794, "learning_rate": 2.6599236922884547e-05, "loss": 2.3683, "step": 109 }, { "epoch": 0.9166666666666666, "grad_norm": 0.07470689463768693, "learning_rate": 2.65487313623322e-05, "loss": 2.3036, "step": 110 }, { "epoch": 0.925, "grad_norm": 0.07096997017300663, "learning_rate": 2.649761283316966e-05, "loss": 2.3682, "step": 111 }, { "epoch": 0.9333333333333333, "grad_norm": 0.07511821034386772, "learning_rate": 2.6445883883143744e-05, "loss": 2.3346, "step": 112 }, { "epoch": 0.9416666666666667, "grad_norm": 0.07057540374817312, "learning_rate": 2.639354709042466e-05, "loss": 2.3502, "step": 113 }, { "epoch": 0.95, "grad_norm": 0.07300364605060353, "learning_rate": 2.6340605063477456e-05, "loss": 2.3711, "step": 114 }, { "epoch": 0.9583333333333334, "grad_norm": 0.06925480258849577, "learning_rate": 2.628706044093207e-05, "loss": 2.3816, "step": 115 }, { "epoch": 0.9666666666666667, "grad_norm": 0.0705107307569524, "learning_rate": 2.623291589145179e-05, "loss": 2.2958, "step": 116 }, { "epoch": 0.975, "grad_norm": 0.07331112076487026, "learning_rate": 2.6178174113600252e-05, "loss": 2.3279, "step": 117 }, { "epoch": 0.9833333333333333, "grad_norm": 0.06780655482074792, "learning_rate": 2.612283783570695e-05, "loss": 2.4117, "step": 118 }, { "epoch": 0.9916666666666667, "grad_norm": 0.07485055181125701, "learning_rate": 2.606690981573125e-05, "loss": 2.303, "step": 119 }, { "epoch": 1.0, "grad_norm": 0.07276467760742707, "learning_rate": 2.6010392841124932e-05, "loss": 2.3608, "step": 120 }, { "epoch": 1.0, "eval_loss": 2.4049572944641113, "eval_runtime": 82.3343, "eval_samples_per_second": 4.98, "eval_steps_per_second": 0.316, "step": 120 }, { "epoch": 1.0083333333333333, "grad_norm": 0.07548790321925977, "learning_rate": 2.5953289728693274e-05, "loss": 2.3185, "step": 121 }, { "epoch": 1.0166666666666666, "grad_norm": 0.0730570698984131, "learning_rate": 2.5895603324454647e-05, "loss": 2.2877, "step": 122 }, { "epoch": 1.025, "grad_norm": 0.07345139782586493, "learning_rate": 2.5837336503498694e-05, "loss": 2.2836, "step": 123 }, { "epoch": 1.0333333333333334, "grad_norm": 0.07299378924326991, "learning_rate": 2.5778492169843003e-05, "loss": 2.3436, "step": 124 }, { "epoch": 1.0416666666666667, "grad_norm": 0.07154250149880004, "learning_rate": 2.5719073256288394e-05, "loss": 2.3822, "step": 125 }, { "epoch": 1.05, "grad_norm": 0.0720748804004234, "learning_rate": 2.565908272427274e-05, "loss": 2.2708, "step": 126 }, { "epoch": 1.0583333333333333, "grad_norm": 0.07269892036621302, "learning_rate": 2.5598523563723373e-05, "loss": 2.3377, "step": 127 }, { "epoch": 1.0666666666666667, "grad_norm": 0.0756770863265576, "learning_rate": 2.5537398792908062e-05, "loss": 2.352, "step": 128 }, { "epoch": 1.075, "grad_norm": 0.07397323539112335, "learning_rate": 2.547571145828459e-05, "loss": 2.3643, "step": 129 }, { "epoch": 1.0833333333333333, "grad_norm": 0.07438211371538549, "learning_rate": 2.54134646343489e-05, "loss": 2.3387, "step": 130 }, { "epoch": 1.0916666666666666, "grad_norm": 0.07094248712059498, "learning_rate": 2.5350661423481885e-05, "loss": 2.3221, "step": 131 }, { "epoch": 1.1, "grad_norm": 0.0771622686218861, "learning_rate": 2.5287304955794754e-05, "loss": 2.3183, "step": 132 }, { "epoch": 1.1083333333333334, "grad_norm": 0.07495056480159959, "learning_rate": 2.5223398388973028e-05, "loss": 2.3697, "step": 133 }, { "epoch": 1.1166666666666667, "grad_norm": 0.07629199954207538, "learning_rate": 2.515894490811916e-05, "loss": 2.3529, "step": 134 }, { "epoch": 1.125, "grad_norm": 0.0762534542729489, "learning_rate": 2.5093947725593792e-05, "loss": 2.3208, "step": 135 }, { "epoch": 1.1333333333333333, "grad_norm": 0.07587427933984144, "learning_rate": 2.502841008085565e-05, "loss": 2.3448, "step": 136 }, { "epoch": 1.1416666666666666, "grad_norm": 0.07490456619530689, "learning_rate": 2.49623352403001e-05, "loss": 2.3435, "step": 137 }, { "epoch": 1.15, "grad_norm": 0.0744781797534131, "learning_rate": 2.4895726497096315e-05, "loss": 2.4, "step": 138 }, { "epoch": 1.1583333333333332, "grad_norm": 0.07464944817741491, "learning_rate": 2.482858717102319e-05, "loss": 2.318, "step": 139 }, { "epoch": 1.1666666666666667, "grad_norm": 0.07309033869975678, "learning_rate": 2.4760920608303867e-05, "loss": 2.2891, "step": 140 }, { "epoch": 1.175, "grad_norm": 0.07284517336177344, "learning_rate": 2.469273018143894e-05, "loss": 2.3051, "step": 141 }, { "epoch": 1.1833333333333333, "grad_norm": 0.07652064520411771, "learning_rate": 2.462401928903839e-05, "loss": 2.3555, "step": 142 }, { "epoch": 1.1916666666666667, "grad_norm": 0.07701974074136966, "learning_rate": 2.45547913556522e-05, "loss": 2.3015, "step": 143 }, { "epoch": 1.2, "grad_norm": 0.08108352272511765, "learning_rate": 2.448504983159966e-05, "loss": 2.3221, "step": 144 }, { "epoch": 1.2083333333333333, "grad_norm": 0.07752288456105606, "learning_rate": 2.441479819279742e-05, "loss": 2.3684, "step": 145 }, { "epoch": 1.2166666666666668, "grad_norm": 0.07881711814524053, "learning_rate": 2.4344039940586235e-05, "loss": 2.3011, "step": 146 }, { "epoch": 1.225, "grad_norm": 0.07757542042787384, "learning_rate": 2.4272778601556472e-05, "loss": 2.3509, "step": 147 }, { "epoch": 1.2333333333333334, "grad_norm": 0.07228965364348439, "learning_rate": 2.4201017727372336e-05, "loss": 2.3801, "step": 148 }, { "epoch": 1.2416666666666667, "grad_norm": 0.07389812003829682, "learning_rate": 2.4128760894594853e-05, "loss": 2.3359, "step": 149 }, { "epoch": 1.25, "grad_norm": 0.08146218033856112, "learning_rate": 2.4056011704503633e-05, "loss": 2.3096, "step": 150 }, { "epoch": 1.25, "eval_loss": 2.400259494781494, "eval_runtime": 81.604, "eval_samples_per_second": 5.024, "eval_steps_per_second": 0.319, "step": 150 }, { "epoch": 1.2583333333333333, "grad_norm": 0.07407260421175128, "learning_rate": 2.3982773782917347e-05, "loss": 2.3418, "step": 151 }, { "epoch": 1.2666666666666666, "grad_norm": 0.07827237096687646, "learning_rate": 2.390905078001306e-05, "loss": 2.2778, "step": 152 }, { "epoch": 1.275, "grad_norm": 0.07699758244967876, "learning_rate": 2.383484637014426e-05, "loss": 2.3245, "step": 153 }, { "epoch": 1.2833333333333332, "grad_norm": 0.07805943021524937, "learning_rate": 2.3760164251657773e-05, "loss": 2.3782, "step": 154 }, { "epoch": 1.2916666666666667, "grad_norm": 0.0741687347632035, "learning_rate": 2.368500814670941e-05, "loss": 2.3765, "step": 155 }, { "epoch": 1.3, "grad_norm": 0.07696079818166807, "learning_rate": 2.3609381801078448e-05, "loss": 2.3958, "step": 156 }, { "epoch": 1.3083333333333333, "grad_norm": 0.08864860865623735, "learning_rate": 2.3533288983980964e-05, "loss": 2.3482, "step": 157 }, { "epoch": 1.3166666666666667, "grad_norm": 0.07676755572584443, "learning_rate": 2.3456733487881978e-05, "loss": 2.3511, "step": 158 }, { "epoch": 1.325, "grad_norm": 0.07754541163995884, "learning_rate": 2.337971912830641e-05, "loss": 2.3754, "step": 159 }, { "epoch": 1.3333333333333333, "grad_norm": 0.08430746433268149, "learning_rate": 2.3302249743648926e-05, "loss": 2.4063, "step": 160 }, { "epoch": 1.3416666666666668, "grad_norm": 0.08113759941899056, "learning_rate": 2.322432919498265e-05, "loss": 2.3352, "step": 161 }, { "epoch": 1.35, "grad_norm": 0.08147516272984133, "learning_rate": 2.3145961365866708e-05, "loss": 2.3119, "step": 162 }, { "epoch": 1.3583333333333334, "grad_norm": 0.07749688842544009, "learning_rate": 2.3067150162152675e-05, "loss": 2.3547, "step": 163 }, { "epoch": 1.3666666666666667, "grad_norm": 0.08640326754187048, "learning_rate": 2.298789951178992e-05, "loss": 2.3389, "step": 164 }, { "epoch": 1.375, "grad_norm": 0.0795137333109577, "learning_rate": 2.2908213364629812e-05, "loss": 2.3778, "step": 165 }, { "epoch": 1.3833333333333333, "grad_norm": 0.07739334763959965, "learning_rate": 2.2828095692228886e-05, "loss": 2.3658, "step": 166 }, { "epoch": 1.3916666666666666, "grad_norm": 0.07783031237693959, "learning_rate": 2.2747550487650887e-05, "loss": 2.3575, "step": 167 }, { "epoch": 1.4, "grad_norm": 0.07682655233706284, "learning_rate": 2.2666581765267758e-05, "loss": 2.2825, "step": 168 }, { "epoch": 1.4083333333333332, "grad_norm": 0.08359081032268273, "learning_rate": 2.2585193560559563e-05, "loss": 2.261, "step": 169 }, { "epoch": 1.4166666666666667, "grad_norm": 0.0826940676306091, "learning_rate": 2.250338992991335e-05, "loss": 2.3069, "step": 170 }, { "epoch": 1.425, "grad_norm": 0.08462619097403327, "learning_rate": 2.2421174950421017e-05, "loss": 2.2864, "step": 171 }, { "epoch": 1.4333333333333333, "grad_norm": 0.07990029642375193, "learning_rate": 2.233855271967606e-05, "loss": 2.3033, "step": 172 }, { "epoch": 1.4416666666666667, "grad_norm": 0.08051779058857793, "learning_rate": 2.2255527355569372e-05, "loss": 2.3166, "step": 173 }, { "epoch": 1.45, "grad_norm": 0.08604667339713809, "learning_rate": 2.217210299608402e-05, "loss": 2.387, "step": 174 }, { "epoch": 1.4583333333333333, "grad_norm": 0.07829742536277012, "learning_rate": 2.208828379908899e-05, "loss": 2.311, "step": 175 }, { "epoch": 1.4666666666666668, "grad_norm": 0.07850219342360719, "learning_rate": 2.200407394213196e-05, "loss": 2.3384, "step": 176 }, { "epoch": 1.475, "grad_norm": 0.08531707041033702, "learning_rate": 2.19194776222311e-05, "loss": 2.3107, "step": 177 }, { "epoch": 1.4833333333333334, "grad_norm": 0.07652853009760147, "learning_rate": 2.183449905566589e-05, "loss": 2.3494, "step": 178 }, { "epoch": 1.4916666666666667, "grad_norm": 0.0797336095546633, "learning_rate": 2.1749142477766972e-05, "loss": 2.3291, "step": 179 }, { "epoch": 1.5, "grad_norm": 0.08700079540422817, "learning_rate": 2.166341214270507e-05, "loss": 2.3132, "step": 180 }, { "epoch": 1.5, "eval_loss": 2.3966128826141357, "eval_runtime": 83.184, "eval_samples_per_second": 4.929, "eval_steps_per_second": 0.313, "step": 180 }, { "epoch": 1.5083333333333333, "grad_norm": 0.07925581040107615, "learning_rate": 2.157731232327897e-05, "loss": 2.3578, "step": 181 }, { "epoch": 1.5166666666666666, "grad_norm": 0.07873086864048841, "learning_rate": 2.1490847310702544e-05, "loss": 2.3229, "step": 182 }, { "epoch": 1.525, "grad_norm": 0.07775316849537767, "learning_rate": 2.1404021414390874e-05, "loss": 2.3756, "step": 183 }, { "epoch": 1.5333333333333332, "grad_norm": 0.07949428482523528, "learning_rate": 2.1316838961745518e-05, "loss": 2.3535, "step": 184 }, { "epoch": 1.5416666666666665, "grad_norm": 0.08423278187074197, "learning_rate": 2.1229304297938755e-05, "loss": 2.3517, "step": 185 }, { "epoch": 1.55, "grad_norm": 0.07930583119038707, "learning_rate": 2.1141421785697097e-05, "loss": 2.3929, "step": 186 }, { "epoch": 1.5583333333333333, "grad_norm": 0.07736840323261199, "learning_rate": 2.1053195805083803e-05, "loss": 2.3194, "step": 187 }, { "epoch": 1.5666666666666667, "grad_norm": 0.08306421066524537, "learning_rate": 2.0964630753280584e-05, "loss": 2.3131, "step": 188 }, { "epoch": 1.575, "grad_norm": 0.0805185815818936, "learning_rate": 2.0875731044368472e-05, "loss": 2.3238, "step": 189 }, { "epoch": 1.5833333333333335, "grad_norm": 0.07729948838070921, "learning_rate": 2.078650110910779e-05, "loss": 2.3279, "step": 190 }, { "epoch": 1.5916666666666668, "grad_norm": 0.08053951644296133, "learning_rate": 2.0696945394717355e-05, "loss": 2.3343, "step": 191 }, { "epoch": 1.6, "grad_norm": 0.08184664333069269, "learning_rate": 2.0607068364652783e-05, "loss": 2.3441, "step": 192 }, { "epoch": 1.6083333333333334, "grad_norm": 0.07894699650259683, "learning_rate": 2.051687449838409e-05, "loss": 2.3384, "step": 193 }, { "epoch": 1.6166666666666667, "grad_norm": 0.08288692832517489, "learning_rate": 2.042636829117239e-05, "loss": 2.3219, "step": 194 }, { "epoch": 1.625, "grad_norm": 0.09061769591669266, "learning_rate": 2.033555425384586e-05, "loss": 2.3168, "step": 195 }, { "epoch": 1.6333333333333333, "grad_norm": 0.07607427061534017, "learning_rate": 2.0244436912574938e-05, "loss": 2.3592, "step": 196 }, { "epoch": 1.6416666666666666, "grad_norm": 0.08827457673533141, "learning_rate": 2.0153020808646715e-05, "loss": 2.3177, "step": 197 }, { "epoch": 1.65, "grad_norm": 0.0757688204165182, "learning_rate": 2.0061310498238618e-05, "loss": 2.2366, "step": 198 }, { "epoch": 1.6583333333333332, "grad_norm": 0.07815852114026649, "learning_rate": 1.996931055219132e-05, "loss": 2.3161, "step": 199 }, { "epoch": 1.6666666666666665, "grad_norm": 0.08058901889279678, "learning_rate": 1.9877025555780927e-05, "loss": 2.3749, "step": 200 }, { "epoch": 1.675, "grad_norm": 0.07708027281441528, "learning_rate": 1.978446010849045e-05, "loss": 2.2854, "step": 201 }, { "epoch": 1.6833333333333333, "grad_norm": 0.08312283019758401, "learning_rate": 1.969161882378058e-05, "loss": 2.3524, "step": 202 }, { "epoch": 1.6916666666666667, "grad_norm": 0.07784046601849169, "learning_rate": 1.9598506328859717e-05, "loss": 2.3418, "step": 203 }, { "epoch": 1.7, "grad_norm": 0.07906237498578873, "learning_rate": 1.95051272644534e-05, "loss": 2.3514, "step": 204 }, { "epoch": 1.7083333333333335, "grad_norm": 0.08323464269988524, "learning_rate": 1.9411486284572977e-05, "loss": 2.3133, "step": 205 }, { "epoch": 1.7166666666666668, "grad_norm": 0.08153670371604982, "learning_rate": 1.931758805628366e-05, "loss": 2.3388, "step": 206 }, { "epoch": 1.725, "grad_norm": 0.08152589045596419, "learning_rate": 1.9223437259471912e-05, "loss": 2.3309, "step": 207 }, { "epoch": 1.7333333333333334, "grad_norm": 0.08382345786042532, "learning_rate": 1.9129038586612224e-05, "loss": 2.3282, "step": 208 }, { "epoch": 1.7416666666666667, "grad_norm": 0.0835609429134592, "learning_rate": 1.903439674253321e-05, "loss": 2.3567, "step": 209 }, { "epoch": 1.75, "grad_norm": 0.08252984125014622, "learning_rate": 1.8939516444183143e-05, "loss": 2.3352, "step": 210 }, { "epoch": 1.75, "eval_loss": 2.3933684825897217, "eval_runtime": 83.3063, "eval_samples_per_second": 4.922, "eval_steps_per_second": 0.312, "step": 210 }, { "epoch": 1.7583333333333333, "grad_norm": 0.0815481053340795, "learning_rate": 1.884440242039485e-05, "loss": 2.3262, "step": 211 }, { "epoch": 1.7666666666666666, "grad_norm": 0.08258761118218041, "learning_rate": 1.8749059411650034e-05, "loss": 2.3396, "step": 212 }, { "epoch": 1.775, "grad_norm": 0.0884999967331726, "learning_rate": 1.8653492169843003e-05, "loss": 2.3176, "step": 213 }, { "epoch": 1.7833333333333332, "grad_norm": 0.0824785010834098, "learning_rate": 1.8557705458043838e-05, "loss": 2.3272, "step": 214 }, { "epoch": 1.7916666666666665, "grad_norm": 0.08727167025374602, "learning_rate": 1.8461704050261e-05, "loss": 2.2298, "step": 215 }, { "epoch": 1.8, "grad_norm": 0.0768016904891171, "learning_rate": 1.8365492731203398e-05, "loss": 2.3554, "step": 216 }, { "epoch": 1.8083333333333333, "grad_norm": 0.07709533586121158, "learning_rate": 1.8269076296041917e-05, "loss": 2.3702, "step": 217 }, { "epoch": 1.8166666666666667, "grad_norm": 0.0806446736093232, "learning_rate": 1.8172459550170424e-05, "loss": 2.3585, "step": 218 }, { "epoch": 1.825, "grad_norm": 0.07523532523458193, "learning_rate": 1.8075647308966268e-05, "loss": 2.3609, "step": 219 }, { "epoch": 1.8333333333333335, "grad_norm": 0.07497201271988578, "learning_rate": 1.797864439755028e-05, "loss": 2.3755, "step": 220 }, { "epoch": 1.8416666666666668, "grad_norm": 0.08249074177996166, "learning_rate": 1.7881455650546303e-05, "loss": 2.372, "step": 221 }, { "epoch": 1.85, "grad_norm": 0.0780160636961897, "learning_rate": 1.7784085911840214e-05, "loss": 2.3823, "step": 222 }, { "epoch": 1.8583333333333334, "grad_norm": 0.08148680526536918, "learning_rate": 1.7686540034338513e-05, "loss": 2.3314, "step": 223 }, { "epoch": 1.8666666666666667, "grad_norm": 0.0795864595636552, "learning_rate": 1.758882287972646e-05, "loss": 2.2853, "step": 224 }, { "epoch": 1.875, "grad_norm": 0.08198344669246531, "learning_rate": 1.749093931822577e-05, "loss": 2.3605, "step": 225 }, { "epoch": 1.8833333333333333, "grad_norm": 0.08138145213474299, "learning_rate": 1.739289422835185e-05, "loss": 2.2721, "step": 226 }, { "epoch": 1.8916666666666666, "grad_norm": 0.08306015511124677, "learning_rate": 1.7294692496670715e-05, "loss": 2.2889, "step": 227 }, { "epoch": 1.9, "grad_norm": 0.07478727556401082, "learning_rate": 1.7196339017555378e-05, "loss": 2.3416, "step": 228 }, { "epoch": 1.9083333333333332, "grad_norm": 0.08858459574829487, "learning_rate": 1.709783869294196e-05, "loss": 2.3081, "step": 229 }, { "epoch": 1.9166666666666665, "grad_norm": 0.08175368181940743, "learning_rate": 1.699919643208533e-05, "loss": 2.3304, "step": 230 }, { "epoch": 1.925, "grad_norm": 0.07630479738636474, "learning_rate": 1.6900417151314503e-05, "loss": 2.3454, "step": 231 }, { "epoch": 1.9333333333333333, "grad_norm": 0.07687273996639293, "learning_rate": 1.6801505773787527e-05, "loss": 2.3901, "step": 232 }, { "epoch": 1.9416666666666667, "grad_norm": 0.08600269874202937, "learning_rate": 1.670246722924616e-05, "loss": 2.3081, "step": 233 }, { "epoch": 1.95, "grad_norm": 0.07737694968965858, "learning_rate": 1.660330645377018e-05, "loss": 2.3643, "step": 234 }, { "epoch": 1.9583333333333335, "grad_norm": 0.08165758061569027, "learning_rate": 1.6504028389531333e-05, "loss": 2.355, "step": 235 }, { "epoch": 1.9666666666666668, "grad_norm": 0.08264378429137093, "learning_rate": 1.640463798454704e-05, "loss": 2.3219, "step": 236 }, { "epoch": 1.975, "grad_norm": 0.0858368818345628, "learning_rate": 1.6305140192433787e-05, "loss": 2.3329, "step": 237 }, { "epoch": 1.9833333333333334, "grad_norm": 0.07616999163161729, "learning_rate": 1.620553997216023e-05, "loss": 2.3523, "step": 238 }, { "epoch": 1.9916666666666667, "grad_norm": 0.08241527325980988, "learning_rate": 1.6105842287800046e-05, "loss": 2.2982, "step": 239 }, { "epoch": 2.0, "grad_norm": 0.08007891750583127, "learning_rate": 1.600605210828451e-05, "loss": 2.2785, "step": 240 }, { "epoch": 2.0, "eval_loss": 2.3910558223724365, "eval_runtime": 83.4904, "eval_samples_per_second": 4.911, "eval_steps_per_second": 0.311, "step": 240 }, { "epoch": 2.0083333333333333, "grad_norm": 0.08108687194604622, "learning_rate": 1.5906174407154883e-05, "loss": 2.3367, "step": 241 }, { "epoch": 2.0166666666666666, "grad_norm": 0.0806511417182259, "learning_rate": 1.5806214162314463e-05, "loss": 2.3011, "step": 242 }, { "epoch": 2.025, "grad_norm": 0.08264392219751603, "learning_rate": 1.5706176355780556e-05, "loss": 2.3036, "step": 243 }, { "epoch": 2.033333333333333, "grad_norm": 0.07958409681135217, "learning_rate": 1.5606065973436132e-05, "loss": 2.3056, "step": 244 }, { "epoch": 2.0416666666666665, "grad_norm": 0.07856642651007223, "learning_rate": 1.550588800478133e-05, "loss": 2.3692, "step": 245 }, { "epoch": 2.05, "grad_norm": 0.08350216798892127, "learning_rate": 1.5405647442684794e-05, "loss": 2.2697, "step": 246 }, { "epoch": 2.058333333333333, "grad_norm": 0.08390645284684875, "learning_rate": 1.530534928313484e-05, "loss": 2.2425, "step": 247 }, { "epoch": 2.066666666666667, "grad_norm": 0.07883358190907572, "learning_rate": 1.5204998524990423e-05, "loss": 2.3281, "step": 248 }, { "epoch": 2.075, "grad_norm": 0.07994560560782488, "learning_rate": 1.5104600169732015e-05, "loss": 2.3285, "step": 249 }, { "epoch": 2.0833333333333335, "grad_norm": 0.08345016891314849, "learning_rate": 1.5004159221212325e-05, "loss": 2.3252, "step": 250 }, { "epoch": 2.091666666666667, "grad_norm": 0.0767244585605165, "learning_rate": 1.490368068540692e-05, "loss": 2.3176, "step": 251 }, { "epoch": 2.1, "grad_norm": 0.07853322933102938, "learning_rate": 1.4803169570164703e-05, "loss": 2.286, "step": 252 }, { "epoch": 2.1083333333333334, "grad_norm": 0.07885223855237164, "learning_rate": 1.4702630884958345e-05, "loss": 2.3293, "step": 253 }, { "epoch": 2.1166666666666667, "grad_norm": 0.07786083611140765, "learning_rate": 1.4602069640634605e-05, "loss": 2.3241, "step": 254 }, { "epoch": 2.125, "grad_norm": 0.07961379829842732, "learning_rate": 1.4501490849164585e-05, "loss": 2.3218, "step": 255 }, { "epoch": 2.1333333333333333, "grad_norm": 0.0812119479291348, "learning_rate": 1.4400899523393928e-05, "loss": 2.3101, "step": 256 }, { "epoch": 2.1416666666666666, "grad_norm": 0.07820228956836967, "learning_rate": 1.4300300676793e-05, "loss": 2.3105, "step": 257 }, { "epoch": 2.15, "grad_norm": 0.0787354321940814, "learning_rate": 1.4199699323207e-05, "loss": 2.2921, "step": 258 }, { "epoch": 2.158333333333333, "grad_norm": 0.0821168083039209, "learning_rate": 1.4099100476606071e-05, "loss": 2.3449, "step": 259 }, { "epoch": 2.1666666666666665, "grad_norm": 0.08227570212622978, "learning_rate": 1.3998509150835417e-05, "loss": 2.2804, "step": 260 }, { "epoch": 2.175, "grad_norm": 0.07956552166316343, "learning_rate": 1.3897930359365397e-05, "loss": 2.2798, "step": 261 }, { "epoch": 2.183333333333333, "grad_norm": 0.08355971196343313, "learning_rate": 1.3797369115041656e-05, "loss": 2.3121, "step": 262 }, { "epoch": 2.191666666666667, "grad_norm": 0.07664615523847712, "learning_rate": 1.3696830429835303e-05, "loss": 2.3511, "step": 263 }, { "epoch": 2.2, "grad_norm": 0.07875754809310784, "learning_rate": 1.3596319314593088e-05, "loss": 2.276, "step": 264 }, { "epoch": 2.2083333333333335, "grad_norm": 0.07805417721469433, "learning_rate": 1.3495840778787675e-05, "loss": 2.3156, "step": 265 }, { "epoch": 2.216666666666667, "grad_norm": 0.08500867883177173, "learning_rate": 1.339539983026799e-05, "loss": 2.3304, "step": 266 }, { "epoch": 2.225, "grad_norm": 0.08575986404103182, "learning_rate": 1.3295001475009578e-05, "loss": 2.3171, "step": 267 }, { "epoch": 2.2333333333333334, "grad_norm": 0.0796424885760881, "learning_rate": 1.3194650716865163e-05, "loss": 2.3488, "step": 268 }, { "epoch": 2.2416666666666667, "grad_norm": 0.07791982790558008, "learning_rate": 1.3094352557315207e-05, "loss": 2.3806, "step": 269 }, { "epoch": 2.25, "grad_norm": 0.0840055290628465, "learning_rate": 1.299411199521868e-05, "loss": 2.3277, "step": 270 }, { "epoch": 2.25, "eval_loss": 2.3895957469940186, "eval_runtime": 83.1157, "eval_samples_per_second": 4.933, "eval_steps_per_second": 0.313, "step": 270 }, { "epoch": 2.2583333333333333, "grad_norm": 0.07770712903979533, "learning_rate": 1.2893934026563873e-05, "loss": 2.2666, "step": 271 }, { "epoch": 2.2666666666666666, "grad_norm": 0.07846164594226922, "learning_rate": 1.2793823644219445e-05, "loss": 2.2855, "step": 272 }, { "epoch": 2.275, "grad_norm": 0.08498339693180243, "learning_rate": 1.269378583768554e-05, "loss": 2.2733, "step": 273 }, { "epoch": 2.283333333333333, "grad_norm": 0.07834222258922019, "learning_rate": 1.2593825592845122e-05, "loss": 2.3193, "step": 274 }, { "epoch": 2.2916666666666665, "grad_norm": 0.08132580954052983, "learning_rate": 1.2493947891715491e-05, "loss": 2.3085, "step": 275 }, { "epoch": 2.3, "grad_norm": 0.07883697009265064, "learning_rate": 1.239415771219996e-05, "loss": 2.3545, "step": 276 }, { "epoch": 2.3083333333333336, "grad_norm": 0.08023901828387182, "learning_rate": 1.2294460027839779e-05, "loss": 2.3489, "step": 277 }, { "epoch": 2.3166666666666664, "grad_norm": 0.08930364086676225, "learning_rate": 1.2194859807566216e-05, "loss": 2.2591, "step": 278 }, { "epoch": 2.325, "grad_norm": 0.08343332964333285, "learning_rate": 1.2095362015452961e-05, "loss": 2.3404, "step": 279 }, { "epoch": 2.3333333333333335, "grad_norm": 0.08292455976075656, "learning_rate": 1.199597161046867e-05, "loss": 2.3028, "step": 280 }, { "epoch": 2.341666666666667, "grad_norm": 0.08627078651851632, "learning_rate": 1.189669354622982e-05, "loss": 2.343, "step": 281 }, { "epoch": 2.35, "grad_norm": 0.08202097516344958, "learning_rate": 1.1797532770753842e-05, "loss": 2.326, "step": 282 }, { "epoch": 2.3583333333333334, "grad_norm": 0.08362611496815728, "learning_rate": 1.169849422621248e-05, "loss": 2.3035, "step": 283 }, { "epoch": 2.3666666666666667, "grad_norm": 0.08888611458113292, "learning_rate": 1.1599582848685506e-05, "loss": 2.2812, "step": 284 }, { "epoch": 2.375, "grad_norm": 0.08217261091117088, "learning_rate": 1.1500803567914671e-05, "loss": 2.3378, "step": 285 }, { "epoch": 2.3833333333333333, "grad_norm": 0.07985728135451624, "learning_rate": 1.1402161307058047e-05, "loss": 2.3522, "step": 286 }, { "epoch": 2.3916666666666666, "grad_norm": 0.08014525439116486, "learning_rate": 1.1303660982444624e-05, "loss": 2.2256, "step": 287 }, { "epoch": 2.4, "grad_norm": 0.08787593050595495, "learning_rate": 1.1205307503329286e-05, "loss": 2.2974, "step": 288 }, { "epoch": 2.408333333333333, "grad_norm": 0.08195162040998395, "learning_rate": 1.1107105771648151e-05, "loss": 2.353, "step": 289 }, { "epoch": 2.4166666666666665, "grad_norm": 0.08267743479386988, "learning_rate": 1.1009060681774236e-05, "loss": 2.3274, "step": 290 }, { "epoch": 2.425, "grad_norm": 0.08798947281948663, "learning_rate": 1.0911177120273537e-05, "loss": 2.3404, "step": 291 }, { "epoch": 2.4333333333333336, "grad_norm": 0.08828111892887862, "learning_rate": 1.0813459965661489e-05, "loss": 2.3348, "step": 292 }, { "epoch": 2.4416666666666664, "grad_norm": 0.08102528742267785, "learning_rate": 1.0715914088159789e-05, "loss": 2.2863, "step": 293 }, { "epoch": 2.45, "grad_norm": 0.0866645702075036, "learning_rate": 1.06185443494537e-05, "loss": 2.3357, "step": 294 }, { "epoch": 2.4583333333333335, "grad_norm": 0.08290121294865929, "learning_rate": 1.0521355602449723e-05, "loss": 2.3537, "step": 295 }, { "epoch": 2.466666666666667, "grad_norm": 0.08332374744178081, "learning_rate": 1.042435269103374e-05, "loss": 2.3554, "step": 296 }, { "epoch": 2.475, "grad_norm": 0.08367195510948358, "learning_rate": 1.0327540449829583e-05, "loss": 2.3384, "step": 297 }, { "epoch": 2.4833333333333334, "grad_norm": 0.08673119537467149, "learning_rate": 1.0230923703958083e-05, "loss": 2.2725, "step": 298 }, { "epoch": 2.4916666666666667, "grad_norm": 0.08235186060858125, "learning_rate": 1.0134507268796605e-05, "loss": 2.328, "step": 299 }, { "epoch": 2.5, "grad_norm": 0.08408079009588813, "learning_rate": 1.0038295949739004e-05, "loss": 2.3403, "step": 300 }, { "epoch": 2.5, "eval_loss": 2.3881967067718506, "eval_runtime": 82.1489, "eval_samples_per_second": 4.991, "eval_steps_per_second": 0.316, "step": 300 }, { "epoch": 2.5083333333333333, "grad_norm": 0.07909547450093556, "learning_rate": 9.942294541956169e-06, "loss": 2.3357, "step": 301 }, { "epoch": 2.5166666666666666, "grad_norm": 0.08766753125589274, "learning_rate": 9.846507830157e-06, "loss": 2.2503, "step": 302 }, { "epoch": 2.525, "grad_norm": 0.07987208695801865, "learning_rate": 9.75094058834997e-06, "loss": 2.3168, "step": 303 }, { "epoch": 2.533333333333333, "grad_norm": 0.08537107163629042, "learning_rate": 9.655597579605152e-06, "loss": 2.3036, "step": 304 }, { "epoch": 2.5416666666666665, "grad_norm": 0.08251527677113132, "learning_rate": 9.560483555816858e-06, "loss": 2.3419, "step": 305 }, { "epoch": 2.55, "grad_norm": 0.08523777732696665, "learning_rate": 9.465603257466792e-06, "loss": 2.3449, "step": 306 }, { "epoch": 2.5583333333333336, "grad_norm": 0.0848931418707024, "learning_rate": 9.370961413387778e-06, "loss": 2.2844, "step": 307 }, { "epoch": 2.5666666666666664, "grad_norm": 0.08156484852737556, "learning_rate": 9.27656274052809e-06, "loss": 2.3485, "step": 308 }, { "epoch": 2.575, "grad_norm": 0.08185057405642468, "learning_rate": 9.182411943716344e-06, "loss": 2.3748, "step": 309 }, { "epoch": 2.5833333333333335, "grad_norm": 0.08210521440208327, "learning_rate": 9.088513715427028e-06, "loss": 2.376, "step": 310 }, { "epoch": 2.591666666666667, "grad_norm": 0.08030540134328207, "learning_rate": 8.9948727355466e-06, "loss": 2.3196, "step": 311 }, { "epoch": 2.6, "grad_norm": 0.08216024303479584, "learning_rate": 8.901493671140283e-06, "loss": 2.3534, "step": 312 }, { "epoch": 2.6083333333333334, "grad_norm": 0.08105902557687622, "learning_rate": 8.808381176219426e-06, "loss": 2.2729, "step": 313 }, { "epoch": 2.6166666666666667, "grad_norm": 0.08410998796525411, "learning_rate": 8.71553989150955e-06, "loss": 2.3596, "step": 314 }, { "epoch": 2.625, "grad_norm": 0.08582437979635364, "learning_rate": 8.622974444219076e-06, "loss": 2.3063, "step": 315 }, { "epoch": 2.6333333333333333, "grad_norm": 0.08419960708603666, "learning_rate": 8.530689447808683e-06, "loss": 2.3468, "step": 316 }, { "epoch": 2.6416666666666666, "grad_norm": 0.08532017727647645, "learning_rate": 8.438689501761387e-06, "loss": 2.3378, "step": 317 }, { "epoch": 2.65, "grad_norm": 0.08544492639100988, "learning_rate": 8.346979191353288e-06, "loss": 2.2872, "step": 318 }, { "epoch": 2.658333333333333, "grad_norm": 0.0825611786693761, "learning_rate": 8.255563087425069e-06, "loss": 2.3037, "step": 319 }, { "epoch": 2.6666666666666665, "grad_norm": 0.07923900030264817, "learning_rate": 8.164445746154141e-06, "loss": 2.2746, "step": 320 }, { "epoch": 2.675, "grad_norm": 0.0805988851220756, "learning_rate": 8.073631708827614e-06, "loss": 2.3116, "step": 321 }, { "epoch": 2.6833333333333336, "grad_norm": 0.07902450485255898, "learning_rate": 7.983125501615913e-06, "loss": 2.3253, "step": 322 }, { "epoch": 2.6916666666666664, "grad_norm": 0.08586994856844313, "learning_rate": 7.892931635347223e-06, "loss": 2.3636, "step": 323 }, { "epoch": 2.7, "grad_norm": 0.08029033935205021, "learning_rate": 7.803054605282652e-06, "loss": 2.3023, "step": 324 }, { "epoch": 2.7083333333333335, "grad_norm": 0.08041087816983067, "learning_rate": 7.713498890892208e-06, "loss": 2.3629, "step": 325 }, { "epoch": 2.716666666666667, "grad_norm": 0.08451031313730265, "learning_rate": 7.624268955631531e-06, "loss": 2.2625, "step": 326 }, { "epoch": 2.725, "grad_norm": 0.07898217475608488, "learning_rate": 7.53536924671942e-06, "loss": 2.3106, "step": 327 }, { "epoch": 2.7333333333333334, "grad_norm": 0.08283676255780481, "learning_rate": 7.446804194916206e-06, "loss": 2.3576, "step": 328 }, { "epoch": 2.7416666666666667, "grad_norm": 0.08212231805524588, "learning_rate": 7.358578214302908e-06, "loss": 2.2791, "step": 329 }, { "epoch": 2.75, "grad_norm": 0.08251122557980495, "learning_rate": 7.270695702061248e-06, "loss": 2.3553, "step": 330 }, { "epoch": 2.75, "eval_loss": 2.387129783630371, "eval_runtime": 81.7826, "eval_samples_per_second": 5.013, "eval_steps_per_second": 0.318, "step": 330 }, { "epoch": 2.7583333333333333, "grad_norm": 0.08008513950564178, "learning_rate": 7.1831610382544856e-06, "loss": 2.2737, "step": 331 }, { "epoch": 2.7666666666666666, "grad_norm": 0.08378397772580942, "learning_rate": 7.095978585609125e-06, "loss": 2.362, "step": 332 }, { "epoch": 2.775, "grad_norm": 0.08519607549475229, "learning_rate": 7.009152689297463e-06, "loss": 2.2601, "step": 333 }, { "epoch": 2.783333333333333, "grad_norm": 0.08038464346170233, "learning_rate": 6.9226876767210355e-06, "loss": 2.3434, "step": 334 }, { "epoch": 2.7916666666666665, "grad_norm": 0.08107258257971683, "learning_rate": 6.83658785729493e-06, "loss": 2.2608, "step": 335 }, { "epoch": 2.8, "grad_norm": 0.0801095446046233, "learning_rate": 6.750857522233032e-06, "loss": 2.3562, "step": 336 }, { "epoch": 2.8083333333333336, "grad_norm": 0.08032953635285699, "learning_rate": 6.665500944334116e-06, "loss": 2.3473, "step": 337 }, { "epoch": 2.8166666666666664, "grad_norm": 0.08165787890975398, "learning_rate": 6.580522377768902e-06, "loss": 2.3662, "step": 338 }, { "epoch": 2.825, "grad_norm": 0.08186138228862638, "learning_rate": 6.495926057868045e-06, "loss": 2.3611, "step": 339 }, { "epoch": 2.8333333333333335, "grad_norm": 0.08409693406516083, "learning_rate": 6.4117162009110105e-06, "loss": 2.3014, "step": 340 }, { "epoch": 2.841666666666667, "grad_norm": 0.08426043237254878, "learning_rate": 6.327897003915982e-06, "loss": 2.3556, "step": 341 }, { "epoch": 2.85, "grad_norm": 0.07860767709618154, "learning_rate": 6.244472644430632e-06, "loss": 2.3986, "step": 342 }, { "epoch": 2.8583333333333334, "grad_norm": 0.07913910815896576, "learning_rate": 6.161447280323948e-06, "loss": 2.3041, "step": 343 }, { "epoch": 2.8666666666666667, "grad_norm": 0.0834686817566552, "learning_rate": 6.078825049578985e-06, "loss": 2.2694, "step": 344 }, { "epoch": 2.875, "grad_norm": 0.09464173421182612, "learning_rate": 5.996610070086646e-06, "loss": 2.3291, "step": 345 }, { "epoch": 2.8833333333333333, "grad_norm": 0.08924525286993587, "learning_rate": 5.914806439440443e-06, "loss": 2.2425, "step": 346 }, { "epoch": 2.8916666666666666, "grad_norm": 0.07984144031222275, "learning_rate": 5.833418234732248e-06, "loss": 2.3212, "step": 347 }, { "epoch": 2.9, "grad_norm": 0.08119999485058818, "learning_rate": 5.752449512349119e-06, "loss": 2.3043, "step": 348 }, { "epoch": 2.908333333333333, "grad_norm": 0.08130268904604636, "learning_rate": 5.671904307771115e-06, "loss": 2.3431, "step": 349 }, { "epoch": 2.9166666666666665, "grad_norm": 0.0886368269447557, "learning_rate": 5.591786635370193e-06, "loss": 2.2584, "step": 350 }, { "epoch": 2.925, "grad_norm": 0.08449560278602129, "learning_rate": 5.5121004882100805e-06, "loss": 2.2614, "step": 351 }, { "epoch": 2.9333333333333336, "grad_norm": 0.0877133422168611, "learning_rate": 5.4328498378473245e-06, "loss": 2.3467, "step": 352 }, { "epoch": 2.9416666666666664, "grad_norm": 0.0829503072213313, "learning_rate": 5.354038634133295e-06, "loss": 2.2975, "step": 353 }, { "epoch": 2.95, "grad_norm": 0.08436627929472401, "learning_rate": 5.27567080501735e-06, "loss": 2.3115, "step": 354 }, { "epoch": 2.9583333333333335, "grad_norm": 0.08048623155801396, "learning_rate": 5.197750256351076e-06, "loss": 2.2584, "step": 355 }, { "epoch": 2.966666666666667, "grad_norm": 0.08109596859654204, "learning_rate": 5.120280871693596e-06, "loss": 2.3677, "step": 356 }, { "epoch": 2.975, "grad_norm": 0.081013576151029, "learning_rate": 5.0432665121180266e-06, "loss": 2.3585, "step": 357 }, { "epoch": 2.9833333333333334, "grad_norm": 0.08546479543984016, "learning_rate": 4.966711016019037e-06, "loss": 2.303, "step": 358 }, { "epoch": 2.9916666666666667, "grad_norm": 0.08245660024002954, "learning_rate": 4.890618198921555e-06, "loss": 2.3149, "step": 359 }, { "epoch": 3.0, "grad_norm": 0.08512068224524219, "learning_rate": 4.814991853290595e-06, "loss": 2.2894, "step": 360 }, { "epoch": 3.0, "eval_loss": 2.386331081390381, "eval_runtime": 82.119, "eval_samples_per_second": 4.993, "eval_steps_per_second": 0.317, "step": 360 } ], "logging_steps": 1, "max_steps": 480, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 60, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.466444455850803e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }