{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 705, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004266666666666667, "grad_norm": 4.362146377563477, "learning_rate": 0.0, "loss": 0.9789, "step": 1 }, { "epoch": 0.008533333333333334, "grad_norm": 4.282586574554443, "learning_rate": 1.3888888888888888e-07, "loss": 0.9679, "step": 2 }, { "epoch": 0.0128, "grad_norm": 4.4176812171936035, "learning_rate": 2.7777777777777776e-07, "loss": 0.9775, "step": 3 }, { "epoch": 0.017066666666666667, "grad_norm": 4.650586128234863, "learning_rate": 4.1666666666666667e-07, "loss": 0.9649, "step": 4 }, { "epoch": 0.021333333333333333, "grad_norm": 4.638489723205566, "learning_rate": 5.555555555555555e-07, "loss": 1.014, "step": 5 }, { "epoch": 0.0256, "grad_norm": 4.192325592041016, "learning_rate": 6.944444444444446e-07, "loss": 0.956, "step": 6 }, { "epoch": 0.029866666666666666, "grad_norm": 4.542601585388184, "learning_rate": 8.333333333333333e-07, "loss": 0.9553, "step": 7 }, { "epoch": 0.034133333333333335, "grad_norm": 4.178647518157959, "learning_rate": 9.722222222222224e-07, "loss": 0.942, "step": 8 }, { "epoch": 0.0384, "grad_norm": 3.826584815979004, "learning_rate": 1.111111111111111e-06, "loss": 0.9361, "step": 9 }, { "epoch": 0.042666666666666665, "grad_norm": 3.841879367828369, "learning_rate": 1.25e-06, "loss": 0.956, "step": 10 }, { "epoch": 0.046933333333333334, "grad_norm": 3.7646379470825195, "learning_rate": 1.3888888888888892e-06, "loss": 0.9161, "step": 11 }, { "epoch": 0.0512, "grad_norm": 3.145012855529785, "learning_rate": 1.527777777777778e-06, "loss": 0.9237, "step": 12 }, { "epoch": 0.055466666666666664, "grad_norm": 2.0433948040008545, "learning_rate": 1.6666666666666667e-06, "loss": 0.9213, "step": 13 }, { "epoch": 0.05973333333333333, "grad_norm": 1.9841437339782715, "learning_rate": 1.8055555555555557e-06, "loss": 0.8836, "step": 14 }, { "epoch": 0.064, "grad_norm": 1.850753903388977, "learning_rate": 1.944444444444445e-06, "loss": 0.927, "step": 15 }, { "epoch": 0.06826666666666667, "grad_norm": 1.7173751592636108, "learning_rate": 2.0833333333333334e-06, "loss": 0.8718, "step": 16 }, { "epoch": 0.07253333333333334, "grad_norm": 2.0940911769866943, "learning_rate": 2.222222222222222e-06, "loss": 0.9329, "step": 17 }, { "epoch": 0.0768, "grad_norm": 2.0196115970611572, "learning_rate": 2.361111111111111e-06, "loss": 0.8768, "step": 18 }, { "epoch": 0.08106666666666666, "grad_norm": 2.069068431854248, "learning_rate": 2.5e-06, "loss": 0.8899, "step": 19 }, { "epoch": 0.08533333333333333, "grad_norm": 1.9134008884429932, "learning_rate": 2.6388888888888893e-06, "loss": 0.906, "step": 20 }, { "epoch": 0.0896, "grad_norm": 1.7790288925170898, "learning_rate": 2.7777777777777783e-06, "loss": 0.8698, "step": 21 }, { "epoch": 0.09386666666666667, "grad_norm": 1.5685698986053467, "learning_rate": 2.916666666666667e-06, "loss": 0.8693, "step": 22 }, { "epoch": 0.09813333333333334, "grad_norm": 1.2142629623413086, "learning_rate": 3.055555555555556e-06, "loss": 0.85, "step": 23 }, { "epoch": 0.1024, "grad_norm": 1.2168952226638794, "learning_rate": 3.1944444444444443e-06, "loss": 0.8585, "step": 24 }, { "epoch": 0.10666666666666667, "grad_norm": 1.0702353715896606, "learning_rate": 3.3333333333333333e-06, "loss": 0.849, "step": 25 }, { "epoch": 0.11093333333333333, "grad_norm": 1.049211025238037, "learning_rate": 3.4722222222222224e-06, "loss": 0.8689, "step": 26 }, { "epoch": 0.1152, "grad_norm": 0.8866307139396667, "learning_rate": 3.6111111111111115e-06, "loss": 0.818, "step": 27 }, { "epoch": 0.11946666666666667, "grad_norm": 0.7809798717498779, "learning_rate": 3.7500000000000005e-06, "loss": 0.8354, "step": 28 }, { "epoch": 0.12373333333333333, "grad_norm": 0.6708624958992004, "learning_rate": 3.88888888888889e-06, "loss": 0.7881, "step": 29 }, { "epoch": 0.128, "grad_norm": 0.6296146512031555, "learning_rate": 4.027777777777779e-06, "loss": 0.8044, "step": 30 }, { "epoch": 0.13226666666666667, "grad_norm": 0.6943596601486206, "learning_rate": 4.166666666666667e-06, "loss": 0.7343, "step": 31 }, { "epoch": 0.13653333333333334, "grad_norm": 0.7787662744522095, "learning_rate": 4.305555555555556e-06, "loss": 0.8084, "step": 32 }, { "epoch": 0.1408, "grad_norm": 0.7602130174636841, "learning_rate": 4.444444444444444e-06, "loss": 0.8048, "step": 33 }, { "epoch": 0.14506666666666668, "grad_norm": 0.6979145407676697, "learning_rate": 4.583333333333333e-06, "loss": 0.7773, "step": 34 }, { "epoch": 0.14933333333333335, "grad_norm": 0.6033741235733032, "learning_rate": 4.722222222222222e-06, "loss": 0.7654, "step": 35 }, { "epoch": 0.1536, "grad_norm": 0.5684896111488342, "learning_rate": 4.861111111111111e-06, "loss": 0.769, "step": 36 }, { "epoch": 0.15786666666666666, "grad_norm": 0.5608508586883545, "learning_rate": 5e-06, "loss": 0.7525, "step": 37 }, { "epoch": 0.16213333333333332, "grad_norm": 0.567663848400116, "learning_rate": 4.999972435080738e-06, "loss": 0.7425, "step": 38 }, { "epoch": 0.1664, "grad_norm": 0.627487063407898, "learning_rate": 4.99988974093081e-06, "loss": 0.7469, "step": 39 }, { "epoch": 0.17066666666666666, "grad_norm": 0.5669575929641724, "learning_rate": 4.999751919373782e-06, "loss": 0.7667, "step": 40 }, { "epoch": 0.17493333333333333, "grad_norm": 0.5957594513893127, "learning_rate": 4.999558973448887e-06, "loss": 0.7762, "step": 41 }, { "epoch": 0.1792, "grad_norm": 0.4995954632759094, "learning_rate": 4.999310907410957e-06, "loss": 0.7593, "step": 42 }, { "epoch": 0.18346666666666667, "grad_norm": 0.47803279757499695, "learning_rate": 4.9990077267303256e-06, "loss": 0.6961, "step": 43 }, { "epoch": 0.18773333333333334, "grad_norm": 0.43306031823158264, "learning_rate": 4.998649438092715e-06, "loss": 0.703, "step": 44 }, { "epoch": 0.192, "grad_norm": 0.46962299942970276, "learning_rate": 4.998236049399084e-06, "loss": 0.7681, "step": 45 }, { "epoch": 0.19626666666666667, "grad_norm": 0.47601673007011414, "learning_rate": 4.997767569765452e-06, "loss": 0.7059, "step": 46 }, { "epoch": 0.20053333333333334, "grad_norm": 0.508930504322052, "learning_rate": 4.997244009522702e-06, "loss": 0.7048, "step": 47 }, { "epoch": 0.2048, "grad_norm": 0.4726659059524536, "learning_rate": 4.996665380216351e-06, "loss": 0.7263, "step": 48 }, { "epoch": 0.20906666666666668, "grad_norm": 0.4572336971759796, "learning_rate": 4.996031694606294e-06, "loss": 0.7386, "step": 49 }, { "epoch": 0.21333333333333335, "grad_norm": 0.4237333834171295, "learning_rate": 4.995342966666527e-06, "loss": 0.7183, "step": 50 }, { "epoch": 0.2176, "grad_norm": 0.388201504945755, "learning_rate": 4.994599211584833e-06, "loss": 0.7179, "step": 51 }, { "epoch": 0.22186666666666666, "grad_norm": 0.39760446548461914, "learning_rate": 4.993800445762451e-06, "loss": 0.7079, "step": 52 }, { "epoch": 0.22613333333333333, "grad_norm": 0.4210253953933716, "learning_rate": 4.9929466868137135e-06, "loss": 0.7296, "step": 53 }, { "epoch": 0.2304, "grad_norm": 0.40208855271339417, "learning_rate": 4.992037953565657e-06, "loss": 0.7173, "step": 54 }, { "epoch": 0.23466666666666666, "grad_norm": 0.38060909509658813, "learning_rate": 4.991074266057609e-06, "loss": 0.7283, "step": 55 }, { "epoch": 0.23893333333333333, "grad_norm": 0.43215471506118774, "learning_rate": 4.990055645540745e-06, "loss": 0.7748, "step": 56 }, { "epoch": 0.2432, "grad_norm": 0.38835158944129944, "learning_rate": 4.988982114477617e-06, "loss": 0.7106, "step": 57 }, { "epoch": 0.24746666666666667, "grad_norm": 0.3765578866004944, "learning_rate": 4.987853696541664e-06, "loss": 0.7278, "step": 58 }, { "epoch": 0.2517333333333333, "grad_norm": 0.42565688490867615, "learning_rate": 4.986670416616684e-06, "loss": 0.7233, "step": 59 }, { "epoch": 0.256, "grad_norm": 0.4181171655654907, "learning_rate": 4.985432300796292e-06, "loss": 0.7318, "step": 60 }, { "epoch": 0.26026666666666665, "grad_norm": 0.3972390294075012, "learning_rate": 4.984139376383337e-06, "loss": 0.7145, "step": 61 }, { "epoch": 0.26453333333333334, "grad_norm": 0.3961975872516632, "learning_rate": 4.982791671889302e-06, "loss": 0.7363, "step": 62 }, { "epoch": 0.2688, "grad_norm": 0.3924165666103363, "learning_rate": 4.981389217033684e-06, "loss": 0.7304, "step": 63 }, { "epoch": 0.2730666666666667, "grad_norm": 0.38246816396713257, "learning_rate": 4.979932042743324e-06, "loss": 0.6888, "step": 64 }, { "epoch": 0.2773333333333333, "grad_norm": 0.3791496753692627, "learning_rate": 4.9784201811517365e-06, "loss": 0.6999, "step": 65 }, { "epoch": 0.2816, "grad_norm": 0.3851902484893799, "learning_rate": 4.976853665598394e-06, "loss": 0.7891, "step": 66 }, { "epoch": 0.28586666666666666, "grad_norm": 0.35090020298957825, "learning_rate": 4.975232530627998e-06, "loss": 0.6972, "step": 67 }, { "epoch": 0.29013333333333335, "grad_norm": 0.44051802158355713, "learning_rate": 4.973556811989712e-06, "loss": 0.6897, "step": 68 }, { "epoch": 0.2944, "grad_norm": 0.35761162638664246, "learning_rate": 4.971826546636374e-06, "loss": 0.6779, "step": 69 }, { "epoch": 0.2986666666666667, "grad_norm": 0.3964172601699829, "learning_rate": 4.970041772723685e-06, "loss": 0.7144, "step": 70 }, { "epoch": 0.30293333333333333, "grad_norm": 0.38685816526412964, "learning_rate": 4.968202529609364e-06, "loss": 0.7446, "step": 71 }, { "epoch": 0.3072, "grad_norm": 0.41402679681777954, "learning_rate": 4.966308857852281e-06, "loss": 0.6844, "step": 72 }, { "epoch": 0.31146666666666667, "grad_norm": 0.39126983284950256, "learning_rate": 4.964360799211563e-06, "loss": 0.7103, "step": 73 }, { "epoch": 0.3157333333333333, "grad_norm": 0.3830004632472992, "learning_rate": 4.962358396645673e-06, "loss": 0.7091, "step": 74 }, { "epoch": 0.32, "grad_norm": 0.37684130668640137, "learning_rate": 4.960301694311464e-06, "loss": 0.6844, "step": 75 }, { "epoch": 0.32426666666666665, "grad_norm": 0.3762841820716858, "learning_rate": 4.958190737563203e-06, "loss": 0.6978, "step": 76 }, { "epoch": 0.32853333333333334, "grad_norm": 0.3554311990737915, "learning_rate": 4.9560255729515726e-06, "loss": 0.6813, "step": 77 }, { "epoch": 0.3328, "grad_norm": 0.3811330497264862, "learning_rate": 4.95380624822264e-06, "loss": 0.6942, "step": 78 }, { "epoch": 0.3370666666666667, "grad_norm": 0.3794249892234802, "learning_rate": 4.951532812316814e-06, "loss": 0.6822, "step": 79 }, { "epoch": 0.3413333333333333, "grad_norm": 0.3942255675792694, "learning_rate": 4.9492053153677545e-06, "loss": 0.6943, "step": 80 }, { "epoch": 0.3456, "grad_norm": 0.36585119366645813, "learning_rate": 4.9468238087012744e-06, "loss": 0.7032, "step": 81 }, { "epoch": 0.34986666666666666, "grad_norm": 0.3868674635887146, "learning_rate": 4.944388344834205e-06, "loss": 0.7056, "step": 82 }, { "epoch": 0.35413333333333336, "grad_norm": 0.3917011618614197, "learning_rate": 4.941898977473238e-06, "loss": 0.6837, "step": 83 }, { "epoch": 0.3584, "grad_norm": 0.38477852940559387, "learning_rate": 4.939355761513742e-06, "loss": 0.6794, "step": 84 }, { "epoch": 0.3626666666666667, "grad_norm": 0.3847743272781372, "learning_rate": 4.936758753038551e-06, "loss": 0.7318, "step": 85 }, { "epoch": 0.36693333333333333, "grad_norm": 0.37328410148620605, "learning_rate": 4.934108009316728e-06, "loss": 0.6933, "step": 86 }, { "epoch": 0.3712, "grad_norm": 0.40673941373825073, "learning_rate": 4.931403588802302e-06, "loss": 0.7338, "step": 87 }, { "epoch": 0.37546666666666667, "grad_norm": 0.3592469394207001, "learning_rate": 4.92864555113298e-06, "loss": 0.6865, "step": 88 }, { "epoch": 0.3797333333333333, "grad_norm": 0.36004796624183655, "learning_rate": 4.925833957128831e-06, "loss": 0.6748, "step": 89 }, { "epoch": 0.384, "grad_norm": 0.37560826539993286, "learning_rate": 4.922968868790943e-06, "loss": 0.6512, "step": 90 }, { "epoch": 0.38826666666666665, "grad_norm": 0.37589576840400696, "learning_rate": 4.92005034930006e-06, "loss": 0.686, "step": 91 }, { "epoch": 0.39253333333333335, "grad_norm": 0.39273473620414734, "learning_rate": 4.917078463015184e-06, "loss": 0.6901, "step": 92 }, { "epoch": 0.3968, "grad_norm": 0.3746315836906433, "learning_rate": 4.914053275472162e-06, "loss": 0.7052, "step": 93 }, { "epoch": 0.4010666666666667, "grad_norm": 0.34910982847213745, "learning_rate": 4.9109748533822315e-06, "loss": 0.6893, "step": 94 }, { "epoch": 0.4053333333333333, "grad_norm": 0.3954693078994751, "learning_rate": 4.907843264630559e-06, "loss": 0.7373, "step": 95 }, { "epoch": 0.4096, "grad_norm": 0.3721007704734802, "learning_rate": 4.904658578274738e-06, "loss": 0.6679, "step": 96 }, { "epoch": 0.41386666666666666, "grad_norm": 0.3675512373447418, "learning_rate": 4.901420864543265e-06, "loss": 0.6379, "step": 97 }, { "epoch": 0.41813333333333336, "grad_norm": 0.3632946014404297, "learning_rate": 4.898130194833995e-06, "loss": 0.6712, "step": 98 }, { "epoch": 0.4224, "grad_norm": 0.3786664307117462, "learning_rate": 4.894786641712563e-06, "loss": 0.6835, "step": 99 }, { "epoch": 0.4266666666666667, "grad_norm": 0.3775879740715027, "learning_rate": 4.891390278910788e-06, "loss": 0.6935, "step": 100 }, { "epoch": 0.43093333333333333, "grad_norm": 0.38075289130210876, "learning_rate": 4.887941181325042e-06, "loss": 0.7171, "step": 101 }, { "epoch": 0.4352, "grad_norm": 0.34902146458625793, "learning_rate": 4.884439425014601e-06, "loss": 0.6797, "step": 102 }, { "epoch": 0.43946666666666667, "grad_norm": 0.3705016076564789, "learning_rate": 4.880885087199972e-06, "loss": 0.6755, "step": 103 }, { "epoch": 0.4437333333333333, "grad_norm": 0.40034019947052, "learning_rate": 4.877278246261179e-06, "loss": 0.665, "step": 104 }, { "epoch": 0.448, "grad_norm": 0.3905963599681854, "learning_rate": 4.873618981736049e-06, "loss": 0.6693, "step": 105 }, { "epoch": 0.45226666666666665, "grad_norm": 0.342978298664093, "learning_rate": 4.869907374318446e-06, "loss": 0.6694, "step": 106 }, { "epoch": 0.45653333333333335, "grad_norm": 0.3976461887359619, "learning_rate": 4.866143505856496e-06, "loss": 0.6652, "step": 107 }, { "epoch": 0.4608, "grad_norm": 0.40244609117507935, "learning_rate": 4.862327459350784e-06, "loss": 0.7008, "step": 108 }, { "epoch": 0.4650666666666667, "grad_norm": 0.36506327986717224, "learning_rate": 4.858459318952521e-06, "loss": 0.7103, "step": 109 }, { "epoch": 0.4693333333333333, "grad_norm": 0.3845788836479187, "learning_rate": 4.854539169961688e-06, "loss": 0.6873, "step": 110 }, { "epoch": 0.4736, "grad_norm": 0.3704811632633209, "learning_rate": 4.85056709882516e-06, "loss": 0.7118, "step": 111 }, { "epoch": 0.47786666666666666, "grad_norm": 0.3637083172798157, "learning_rate": 4.8465431931347904e-06, "loss": 0.6857, "step": 112 }, { "epoch": 0.48213333333333336, "grad_norm": 0.4030190706253052, "learning_rate": 4.8424675416254895e-06, "loss": 0.6575, "step": 113 }, { "epoch": 0.4864, "grad_norm": 0.39205852150917053, "learning_rate": 4.8383402341732605e-06, "loss": 0.6864, "step": 114 }, { "epoch": 0.49066666666666664, "grad_norm": 0.3978751003742218, "learning_rate": 4.83416136179322e-06, "loss": 0.6958, "step": 115 }, { "epoch": 0.49493333333333334, "grad_norm": 0.35517552495002747, "learning_rate": 4.829931016637594e-06, "loss": 0.6565, "step": 116 }, { "epoch": 0.4992, "grad_norm": 0.3978227972984314, "learning_rate": 4.825649291993677e-06, "loss": 0.6888, "step": 117 }, { "epoch": 0.5034666666666666, "grad_norm": 0.3767167329788208, "learning_rate": 4.821316282281788e-06, "loss": 0.6617, "step": 118 }, { "epoch": 0.5077333333333334, "grad_norm": 0.3927992582321167, "learning_rate": 4.816932083053175e-06, "loss": 0.6328, "step": 119 }, { "epoch": 0.512, "grad_norm": 0.38048994541168213, "learning_rate": 4.812496790987917e-06, "loss": 0.6838, "step": 120 }, { "epoch": 0.5162666666666667, "grad_norm": 0.3565223515033722, "learning_rate": 4.808010503892788e-06, "loss": 0.6674, "step": 121 }, { "epoch": 0.5205333333333333, "grad_norm": 0.37428316473960876, "learning_rate": 4.803473320699102e-06, "loss": 0.665, "step": 122 }, { "epoch": 0.5248, "grad_norm": 0.39371275901794434, "learning_rate": 4.7988853414605276e-06, "loss": 0.7722, "step": 123 }, { "epoch": 0.5290666666666667, "grad_norm": 0.37246188521385193, "learning_rate": 4.794246667350889e-06, "loss": 0.666, "step": 124 }, { "epoch": 0.5333333333333333, "grad_norm": 0.36160096526145935, "learning_rate": 4.789557400661927e-06, "loss": 0.6518, "step": 125 }, { "epoch": 0.5376, "grad_norm": 0.3860783576965332, "learning_rate": 4.784817644801049e-06, "loss": 0.6837, "step": 126 }, { "epoch": 0.5418666666666667, "grad_norm": 0.37812525033950806, "learning_rate": 4.780027504289043e-06, "loss": 0.6526, "step": 127 }, { "epoch": 0.5461333333333334, "grad_norm": 0.3702966570854187, "learning_rate": 4.775187084757778e-06, "loss": 0.6913, "step": 128 }, { "epoch": 0.5504, "grad_norm": 0.39008045196533203, "learning_rate": 4.770296492947876e-06, "loss": 0.6669, "step": 129 }, { "epoch": 0.5546666666666666, "grad_norm": 0.3917200565338135, "learning_rate": 4.765355836706349e-06, "loss": 0.6431, "step": 130 }, { "epoch": 0.5589333333333333, "grad_norm": 0.3988916873931885, "learning_rate": 4.7603652249842305e-06, "loss": 0.6682, "step": 131 }, { "epoch": 0.5632, "grad_norm": 0.3633989095687866, "learning_rate": 4.755324767834166e-06, "loss": 0.6717, "step": 132 }, { "epoch": 0.5674666666666667, "grad_norm": 0.3956949710845947, "learning_rate": 4.750234576407994e-06, "loss": 0.6764, "step": 133 }, { "epoch": 0.5717333333333333, "grad_norm": 0.3971360921859741, "learning_rate": 4.745094762954285e-06, "loss": 0.6843, "step": 134 }, { "epoch": 0.576, "grad_norm": 0.3699060082435608, "learning_rate": 4.7399054408158735e-06, "loss": 0.6826, "step": 135 }, { "epoch": 0.5802666666666667, "grad_norm": 0.3734731674194336, "learning_rate": 4.734666724427357e-06, "loss": 0.636, "step": 136 }, { "epoch": 0.5845333333333333, "grad_norm": 0.37412676215171814, "learning_rate": 4.729378729312569e-06, "loss": 0.6573, "step": 137 }, { "epoch": 0.5888, "grad_norm": 0.43301528692245483, "learning_rate": 4.724041572082039e-06, "loss": 0.696, "step": 138 }, { "epoch": 0.5930666666666666, "grad_norm": 0.38765257596969604, "learning_rate": 4.718655370430411e-06, "loss": 0.6704, "step": 139 }, { "epoch": 0.5973333333333334, "grad_norm": 0.3996504843235016, "learning_rate": 4.713220243133858e-06, "loss": 0.6618, "step": 140 }, { "epoch": 0.6016, "grad_norm": 0.37452489137649536, "learning_rate": 4.707736310047455e-06, "loss": 0.689, "step": 141 }, { "epoch": 0.6058666666666667, "grad_norm": 0.34926989674568176, "learning_rate": 4.702203692102539e-06, "loss": 0.6527, "step": 142 }, { "epoch": 0.6101333333333333, "grad_norm": 0.3961327373981476, "learning_rate": 4.696622511304046e-06, "loss": 0.6381, "step": 143 }, { "epoch": 0.6144, "grad_norm": 0.3921031951904297, "learning_rate": 4.690992890727813e-06, "loss": 0.6767, "step": 144 }, { "epoch": 0.6186666666666667, "grad_norm": 0.4456472098827362, "learning_rate": 4.68531495451787e-06, "loss": 0.6715, "step": 145 }, { "epoch": 0.6229333333333333, "grad_norm": 0.38145363330841064, "learning_rate": 4.679588827883699e-06, "loss": 0.6509, "step": 146 }, { "epoch": 0.6272, "grad_norm": 0.3857404887676239, "learning_rate": 4.6738146370974745e-06, "loss": 0.6786, "step": 147 }, { "epoch": 0.6314666666666666, "grad_norm": 0.36696499586105347, "learning_rate": 4.66799250949128e-06, "loss": 0.6503, "step": 148 }, { "epoch": 0.6357333333333334, "grad_norm": 0.36986419558525085, "learning_rate": 4.662122573454296e-06, "loss": 0.6577, "step": 149 }, { "epoch": 0.64, "grad_norm": 0.39298486709594727, "learning_rate": 4.656204958429974e-06, "loss": 0.6491, "step": 150 }, { "epoch": 0.6442666666666667, "grad_norm": 0.43070754408836365, "learning_rate": 4.650239794913177e-06, "loss": 0.687, "step": 151 }, { "epoch": 0.6485333333333333, "grad_norm": 0.3805888295173645, "learning_rate": 4.644227214447308e-06, "loss": 0.6269, "step": 152 }, { "epoch": 0.6528, "grad_norm": 0.39261743426322937, "learning_rate": 4.638167349621399e-06, "loss": 0.6504, "step": 153 }, { "epoch": 0.6570666666666667, "grad_norm": 0.378801167011261, "learning_rate": 4.632060334067202e-06, "loss": 0.676, "step": 154 }, { "epoch": 0.6613333333333333, "grad_norm": 0.41917920112609863, "learning_rate": 4.625906302456227e-06, "loss": 0.688, "step": 155 }, { "epoch": 0.6656, "grad_norm": 0.41115954518318176, "learning_rate": 4.6197053904967826e-06, "loss": 0.6729, "step": 156 }, { "epoch": 0.6698666666666667, "grad_norm": 0.3718389570713043, "learning_rate": 4.613457734930978e-06, "loss": 0.6531, "step": 157 }, { "epoch": 0.6741333333333334, "grad_norm": 0.3660692274570465, "learning_rate": 4.607163473531712e-06, "loss": 0.6544, "step": 158 }, { "epoch": 0.6784, "grad_norm": 0.3884277045726776, "learning_rate": 4.600822745099628e-06, "loss": 0.6614, "step": 159 }, { "epoch": 0.6826666666666666, "grad_norm": 0.37769001722335815, "learning_rate": 4.5944356894600615e-06, "loss": 0.6787, "step": 160 }, { "epoch": 0.6869333333333333, "grad_norm": 0.3687920570373535, "learning_rate": 4.58800244745995e-06, "loss": 0.6471, "step": 161 }, { "epoch": 0.6912, "grad_norm": 0.3945862650871277, "learning_rate": 4.581523160964731e-06, "loss": 0.681, "step": 162 }, { "epoch": 0.6954666666666667, "grad_norm": 0.355354905128479, "learning_rate": 4.574997972855212e-06, "loss": 0.6548, "step": 163 }, { "epoch": 0.6997333333333333, "grad_norm": 0.3718619644641876, "learning_rate": 4.568427027024419e-06, "loss": 0.6948, "step": 164 }, { "epoch": 0.704, "grad_norm": 0.37492382526397705, "learning_rate": 4.561810468374427e-06, "loss": 0.6459, "step": 165 }, { "epoch": 0.7082666666666667, "grad_norm": 0.3851492404937744, "learning_rate": 4.5551484428131575e-06, "loss": 0.662, "step": 166 }, { "epoch": 0.7125333333333334, "grad_norm": 0.3845251202583313, "learning_rate": 4.548441097251168e-06, "loss": 0.6353, "step": 167 }, { "epoch": 0.7168, "grad_norm": 0.34392473101615906, "learning_rate": 4.541688579598412e-06, "loss": 0.6474, "step": 168 }, { "epoch": 0.7210666666666666, "grad_norm": 0.3728064000606537, "learning_rate": 4.534891038760971e-06, "loss": 0.6745, "step": 169 }, { "epoch": 0.7253333333333334, "grad_norm": 0.39107459783554077, "learning_rate": 4.528048624637777e-06, "loss": 0.6655, "step": 170 }, { "epoch": 0.7296, "grad_norm": 0.3549425005912781, "learning_rate": 4.521161488117303e-06, "loss": 0.658, "step": 171 }, { "epoch": 0.7338666666666667, "grad_norm": 0.3642064929008484, "learning_rate": 4.514229781074239e-06, "loss": 0.6767, "step": 172 }, { "epoch": 0.7381333333333333, "grad_norm": 0.40543392300605774, "learning_rate": 4.507253656366143e-06, "loss": 0.67, "step": 173 }, { "epoch": 0.7424, "grad_norm": 0.36321622133255005, "learning_rate": 4.5002332678300645e-06, "loss": 0.6385, "step": 174 }, { "epoch": 0.7466666666666667, "grad_norm": 0.34730178117752075, "learning_rate": 4.49316877027916e-06, "loss": 0.6533, "step": 175 }, { "epoch": 0.7509333333333333, "grad_norm": 0.3694966733455658, "learning_rate": 4.48606031949927e-06, "loss": 0.6599, "step": 176 }, { "epoch": 0.7552, "grad_norm": 0.3944104313850403, "learning_rate": 4.478908072245495e-06, "loss": 0.6508, "step": 177 }, { "epoch": 0.7594666666666666, "grad_norm": 0.3709719479084015, "learning_rate": 4.471712186238728e-06, "loss": 0.6851, "step": 178 }, { "epoch": 0.7637333333333334, "grad_norm": 0.3659399151802063, "learning_rate": 4.4644728201621825e-06, "loss": 0.7066, "step": 179 }, { "epoch": 0.768, "grad_norm": 0.3750763535499573, "learning_rate": 4.457190133657891e-06, "loss": 0.6541, "step": 180 }, { "epoch": 0.7722666666666667, "grad_norm": 0.39184752106666565, "learning_rate": 4.449864287323188e-06, "loss": 0.6534, "step": 181 }, { "epoch": 0.7765333333333333, "grad_norm": 0.3683447539806366, "learning_rate": 4.442495442707163e-06, "loss": 0.652, "step": 182 }, { "epoch": 0.7808, "grad_norm": 0.3437025547027588, "learning_rate": 4.4350837623071006e-06, "loss": 0.643, "step": 183 }, { "epoch": 0.7850666666666667, "grad_norm": 0.37833109498023987, "learning_rate": 4.427629409564898e-06, "loss": 0.6409, "step": 184 }, { "epoch": 0.7893333333333333, "grad_norm": 0.36276975274086, "learning_rate": 4.420132548863461e-06, "loss": 0.6427, "step": 185 }, { "epoch": 0.7936, "grad_norm": 0.37990450859069824, "learning_rate": 4.412593345523078e-06, "loss": 0.6786, "step": 186 }, { "epoch": 0.7978666666666666, "grad_norm": 0.3818235695362091, "learning_rate": 4.405011965797775e-06, "loss": 0.712, "step": 187 }, { "epoch": 0.8021333333333334, "grad_norm": 0.3498851954936981, "learning_rate": 4.397388576871645e-06, "loss": 0.6168, "step": 188 }, { "epoch": 0.8064, "grad_norm": 0.3553500473499298, "learning_rate": 4.389723346855171e-06, "loss": 0.6641, "step": 189 }, { "epoch": 0.8106666666666666, "grad_norm": 0.37713390588760376, "learning_rate": 4.382016444781509e-06, "loss": 0.6767, "step": 190 }, { "epoch": 0.8149333333333333, "grad_norm": 0.3694016933441162, "learning_rate": 4.3742680406027655e-06, "loss": 0.6749, "step": 191 }, { "epoch": 0.8192, "grad_norm": 0.3673281967639923, "learning_rate": 4.36647830518625e-06, "loss": 0.6099, "step": 192 }, { "epoch": 0.8234666666666667, "grad_norm": 0.3572637736797333, "learning_rate": 4.3586474103107034e-06, "loss": 0.6097, "step": 193 }, { "epoch": 0.8277333333333333, "grad_norm": 0.3356681168079376, "learning_rate": 4.350775528662515e-06, "loss": 0.6665, "step": 194 }, { "epoch": 0.832, "grad_norm": 0.3750758171081543, "learning_rate": 4.34286283383191e-06, "loss": 0.6755, "step": 195 }, { "epoch": 0.8362666666666667, "grad_norm": 0.38012009859085083, "learning_rate": 4.334909500309124e-06, "loss": 0.618, "step": 196 }, { "epoch": 0.8405333333333334, "grad_norm": 0.3598080277442932, "learning_rate": 4.326915703480552e-06, "loss": 0.6504, "step": 197 }, { "epoch": 0.8448, "grad_norm": 0.36224260926246643, "learning_rate": 4.318881619624889e-06, "loss": 0.6395, "step": 198 }, { "epoch": 0.8490666666666666, "grad_norm": 0.3769308626651764, "learning_rate": 4.310807425909231e-06, "loss": 0.6375, "step": 199 }, { "epoch": 0.8533333333333334, "grad_norm": 0.37255364656448364, "learning_rate": 4.3026933003851765e-06, "loss": 0.6274, "step": 200 }, { "epoch": 0.8576, "grad_norm": 0.3720489740371704, "learning_rate": 4.294539421984898e-06, "loss": 0.6391, "step": 201 }, { "epoch": 0.8618666666666667, "grad_norm": 0.36343514919281006, "learning_rate": 4.286345970517195e-06, "loss": 0.6234, "step": 202 }, { "epoch": 0.8661333333333333, "grad_norm": 0.373117059469223, "learning_rate": 4.278113126663529e-06, "loss": 0.6824, "step": 203 }, { "epoch": 0.8704, "grad_norm": 0.3645020127296448, "learning_rate": 4.269841071974044e-06, "loss": 0.6088, "step": 204 }, { "epoch": 0.8746666666666667, "grad_norm": 0.3923603892326355, "learning_rate": 4.261529988863552e-06, "loss": 0.6868, "step": 205 }, { "epoch": 0.8789333333333333, "grad_norm": 0.36643365025520325, "learning_rate": 4.253180060607523e-06, "loss": 0.6371, "step": 206 }, { "epoch": 0.8832, "grad_norm": 0.388554185628891, "learning_rate": 4.244791471338035e-06, "loss": 0.6544, "step": 207 }, { "epoch": 0.8874666666666666, "grad_norm": 0.39180922508239746, "learning_rate": 4.236364406039718e-06, "loss": 0.7012, "step": 208 }, { "epoch": 0.8917333333333334, "grad_norm": 0.3649655878543854, "learning_rate": 4.22789905054567e-06, "loss": 0.6327, "step": 209 }, { "epoch": 0.896, "grad_norm": 0.3761747479438782, "learning_rate": 4.219395591533364e-06, "loss": 0.6746, "step": 210 }, { "epoch": 0.9002666666666667, "grad_norm": 0.3713630437850952, "learning_rate": 4.210854216520529e-06, "loss": 0.642, "step": 211 }, { "epoch": 0.9045333333333333, "grad_norm": 0.3751310408115387, "learning_rate": 4.202275113861015e-06, "loss": 0.6649, "step": 212 }, { "epoch": 0.9088, "grad_norm": 0.35876309871673584, "learning_rate": 4.193658472740641e-06, "loss": 0.6464, "step": 213 }, { "epoch": 0.9130666666666667, "grad_norm": 0.3813459873199463, "learning_rate": 4.185004483173018e-06, "loss": 0.6887, "step": 214 }, { "epoch": 0.9173333333333333, "grad_norm": 0.40369632840156555, "learning_rate": 4.176313335995368e-06, "loss": 0.6606, "step": 215 }, { "epoch": 0.9216, "grad_norm": 0.41807031631469727, "learning_rate": 4.1675852228643045e-06, "loss": 0.6546, "step": 216 }, { "epoch": 0.9258666666666666, "grad_norm": 0.3831678628921509, "learning_rate": 4.158820336251615e-06, "loss": 0.6822, "step": 217 }, { "epoch": 0.9301333333333334, "grad_norm": 0.38871535658836365, "learning_rate": 4.150018869440015e-06, "loss": 0.6188, "step": 218 }, { "epoch": 0.9344, "grad_norm": 0.39522799849510193, "learning_rate": 4.14118101651888e-06, "loss": 0.6384, "step": 219 }, { "epoch": 0.9386666666666666, "grad_norm": 0.38515716791152954, "learning_rate": 4.132306972379971e-06, "loss": 0.6556, "step": 220 }, { "epoch": 0.9429333333333333, "grad_norm": 0.4171655476093292, "learning_rate": 4.1233969327131396e-06, "loss": 0.6408, "step": 221 }, { "epoch": 0.9472, "grad_norm": 0.3901931941509247, "learning_rate": 4.114451094002002e-06, "loss": 0.667, "step": 222 }, { "epoch": 0.9514666666666667, "grad_norm": 0.39424633979797363, "learning_rate": 4.105469653519617e-06, "loss": 0.6607, "step": 223 }, { "epoch": 0.9557333333333333, "grad_norm": 0.37425708770751953, "learning_rate": 4.09645280932413e-06, "loss": 0.639, "step": 224 }, { "epoch": 0.96, "grad_norm": 0.3967532813549042, "learning_rate": 4.087400760254407e-06, "loss": 0.6662, "step": 225 }, { "epoch": 0.9642666666666667, "grad_norm": 0.3847205340862274, "learning_rate": 4.078313705925647e-06, "loss": 0.6457, "step": 226 }, { "epoch": 0.9685333333333334, "grad_norm": 0.3996621370315552, "learning_rate": 4.069191846724989e-06, "loss": 0.6503, "step": 227 }, { "epoch": 0.9728, "grad_norm": 0.36623647809028625, "learning_rate": 4.06003538380708e-06, "loss": 0.6525, "step": 228 }, { "epoch": 0.9770666666666666, "grad_norm": 0.38129106163978577, "learning_rate": 4.0508445190896505e-06, "loss": 0.6671, "step": 229 }, { "epoch": 0.9813333333333333, "grad_norm": 0.4016317129135132, "learning_rate": 4.041619455249054e-06, "loss": 0.676, "step": 230 }, { "epoch": 0.9856, "grad_norm": 0.3796759247779846, "learning_rate": 4.032360395715804e-06, "loss": 0.6497, "step": 231 }, { "epoch": 0.9898666666666667, "grad_norm": 0.37460625171661377, "learning_rate": 4.023067544670082e-06, "loss": 0.6318, "step": 232 }, { "epoch": 0.9941333333333333, "grad_norm": 0.36790499091148376, "learning_rate": 4.013741107037241e-06, "loss": 0.6176, "step": 233 }, { "epoch": 0.9984, "grad_norm": 0.3725135326385498, "learning_rate": 4.004381288483279e-06, "loss": 0.6173, "step": 234 }, { "epoch": 1.0, "grad_norm": 0.5435260534286499, "learning_rate": 3.9949882954103115e-06, "loss": 0.6306, "step": 235 }, { "epoch": 1.0042666666666666, "grad_norm": 0.36948561668395996, "learning_rate": 3.985562334952015e-06, "loss": 0.6645, "step": 236 }, { "epoch": 1.0085333333333333, "grad_norm": 0.410770446062088, "learning_rate": 3.97610361496906e-06, "loss": 0.6288, "step": 237 }, { "epoch": 1.0128, "grad_norm": 0.3914359211921692, "learning_rate": 3.9666123440445295e-06, "loss": 0.6418, "step": 238 }, { "epoch": 1.0170666666666666, "grad_norm": 0.3786895275115967, "learning_rate": 3.957088731479316e-06, "loss": 0.6244, "step": 239 }, { "epoch": 1.0213333333333334, "grad_norm": 0.3769228458404541, "learning_rate": 3.947532987287509e-06, "loss": 0.6288, "step": 240 }, { "epoch": 1.0256, "grad_norm": 0.4023935794830322, "learning_rate": 3.937945322191763e-06, "loss": 0.6277, "step": 241 }, { "epoch": 1.0298666666666667, "grad_norm": 0.38678252696990967, "learning_rate": 3.928325947618649e-06, "loss": 0.6202, "step": 242 }, { "epoch": 1.0341333333333333, "grad_norm": 0.38373494148254395, "learning_rate": 3.9186750756939925e-06, "loss": 0.6458, "step": 243 }, { "epoch": 1.0384, "grad_norm": 0.411771684885025, "learning_rate": 3.9089929192382e-06, "loss": 0.6443, "step": 244 }, { "epoch": 1.0426666666666666, "grad_norm": 0.3979637920856476, "learning_rate": 3.899279691761558e-06, "loss": 0.6271, "step": 245 }, { "epoch": 1.0469333333333333, "grad_norm": 0.37983348965644836, "learning_rate": 3.889535607459534e-06, "loss": 0.6626, "step": 246 }, { "epoch": 1.0512, "grad_norm": 0.4087248742580414, "learning_rate": 3.879760881208043e-06, "loss": 0.6602, "step": 247 }, { "epoch": 1.0554666666666668, "grad_norm": 0.3652113378047943, "learning_rate": 3.869955728558719e-06, "loss": 0.6425, "step": 248 }, { "epoch": 1.0597333333333334, "grad_norm": 0.3603936433792114, "learning_rate": 3.860120365734154e-06, "loss": 0.6331, "step": 249 }, { "epoch": 1.064, "grad_norm": 0.4053269624710083, "learning_rate": 3.8502550096231325e-06, "loss": 0.6956, "step": 250 }, { "epoch": 1.0682666666666667, "grad_norm": 0.4000628888607025, "learning_rate": 3.840359877775853e-06, "loss": 0.6321, "step": 251 }, { "epoch": 1.0725333333333333, "grad_norm": 0.3704379200935364, "learning_rate": 3.830435188399123e-06, "loss": 0.6227, "step": 252 }, { "epoch": 1.0768, "grad_norm": 0.3613002300262451, "learning_rate": 3.82048116035155e-06, "loss": 0.6464, "step": 253 }, { "epoch": 1.0810666666666666, "grad_norm": 0.37688636779785156, "learning_rate": 3.810498013138719e-06, "loss": 0.6121, "step": 254 }, { "epoch": 1.0853333333333333, "grad_norm": 0.41339555382728577, "learning_rate": 3.8004859669083475e-06, "loss": 0.6386, "step": 255 }, { "epoch": 1.0896, "grad_norm": 0.3702141344547272, "learning_rate": 3.790445242445432e-06, "loss": 0.6094, "step": 256 }, { "epoch": 1.0938666666666668, "grad_norm": 0.37923765182495117, "learning_rate": 3.780376061167379e-06, "loss": 0.6252, "step": 257 }, { "epoch": 1.0981333333333334, "grad_norm": 0.38305890560150146, "learning_rate": 3.7702786451191255e-06, "loss": 0.6404, "step": 258 }, { "epoch": 1.1024, "grad_norm": 0.3678419589996338, "learning_rate": 3.7601532169682363e-06, "loss": 0.6251, "step": 259 }, { "epoch": 1.1066666666666667, "grad_norm": 0.38134104013442993, "learning_rate": 3.7500000000000005e-06, "loss": 0.6412, "step": 260 }, { "epoch": 1.1109333333333333, "grad_norm": 0.37436601519584656, "learning_rate": 3.7398192181125014e-06, "loss": 0.6244, "step": 261 }, { "epoch": 1.1152, "grad_norm": 0.3732365667819977, "learning_rate": 3.7296110958116845e-06, "loss": 0.5944, "step": 262 }, { "epoch": 1.1194666666666666, "grad_norm": 0.38658225536346436, "learning_rate": 3.719375858206403e-06, "loss": 0.6135, "step": 263 }, { "epoch": 1.1237333333333333, "grad_norm": 0.38506805896759033, "learning_rate": 3.7091137310034565e-06, "loss": 0.6318, "step": 264 }, { "epoch": 1.1280000000000001, "grad_norm": 0.36155635118484497, "learning_rate": 3.69882494050261e-06, "loss": 0.6097, "step": 265 }, { "epoch": 1.1322666666666668, "grad_norm": 0.366577684879303, "learning_rate": 3.6885097135916067e-06, "loss": 0.6103, "step": 266 }, { "epoch": 1.1365333333333334, "grad_norm": 0.37110307812690735, "learning_rate": 3.6781682777411663e-06, "loss": 0.6421, "step": 267 }, { "epoch": 1.1408, "grad_norm": 0.38045334815979004, "learning_rate": 3.6678008609999618e-06, "loss": 0.6392, "step": 268 }, { "epoch": 1.1450666666666667, "grad_norm": 0.38193008303642273, "learning_rate": 3.657407691989599e-06, "loss": 0.636, "step": 269 }, { "epoch": 1.1493333333333333, "grad_norm": 0.3796103000640869, "learning_rate": 3.64698899989957e-06, "loss": 0.6597, "step": 270 }, { "epoch": 1.1536, "grad_norm": 0.38126182556152344, "learning_rate": 3.636545014482198e-06, "loss": 0.6194, "step": 271 }, { "epoch": 1.1578666666666666, "grad_norm": 0.37700942158699036, "learning_rate": 3.6260759660475767e-06, "loss": 0.6472, "step": 272 }, { "epoch": 1.1621333333333332, "grad_norm": 0.3943956196308136, "learning_rate": 3.615582085458485e-06, "loss": 0.6142, "step": 273 }, { "epoch": 1.1663999999999999, "grad_norm": 0.37596529722213745, "learning_rate": 3.6050636041252996e-06, "loss": 0.6617, "step": 274 }, { "epoch": 1.1706666666666667, "grad_norm": 0.38903918862342834, "learning_rate": 3.594520754000893e-06, "loss": 0.6215, "step": 275 }, { "epoch": 1.1749333333333334, "grad_norm": 0.3797720670700073, "learning_rate": 3.5839537675755136e-06, "loss": 0.6393, "step": 276 }, { "epoch": 1.1792, "grad_norm": 0.33679234981536865, "learning_rate": 3.5733628778716645e-06, "loss": 0.6029, "step": 277 }, { "epoch": 1.1834666666666667, "grad_norm": 0.3872799277305603, "learning_rate": 3.562748318438961e-06, "loss": 0.6323, "step": 278 }, { "epoch": 1.1877333333333333, "grad_norm": 0.38341936469078064, "learning_rate": 3.552110323348981e-06, "loss": 0.6964, "step": 279 }, { "epoch": 1.192, "grad_norm": 0.3867659568786621, "learning_rate": 3.5414491271901073e-06, "loss": 0.6376, "step": 280 }, { "epoch": 1.1962666666666666, "grad_norm": 0.3914010226726532, "learning_rate": 3.5307649650623476e-06, "loss": 0.6143, "step": 281 }, { "epoch": 1.2005333333333335, "grad_norm": 0.36839964985847473, "learning_rate": 3.5200580725721554e-06, "loss": 0.6702, "step": 282 }, { "epoch": 1.2048, "grad_norm": 0.37717902660369873, "learning_rate": 3.5093286858272325e-06, "loss": 0.6148, "step": 283 }, { "epoch": 1.2090666666666667, "grad_norm": 0.3799995183944702, "learning_rate": 3.4985770414313218e-06, "loss": 0.6284, "step": 284 }, { "epoch": 1.2133333333333334, "grad_norm": 0.3792381286621094, "learning_rate": 3.487803376478992e-06, "loss": 0.5911, "step": 285 }, { "epoch": 1.2176, "grad_norm": 0.3653464615345001, "learning_rate": 3.4770079285504053e-06, "loss": 0.6178, "step": 286 }, { "epoch": 1.2218666666666667, "grad_norm": 0.3645116090774536, "learning_rate": 3.4661909357060835e-06, "loss": 0.644, "step": 287 }, { "epoch": 1.2261333333333333, "grad_norm": 0.37026965618133545, "learning_rate": 3.4553526364816535e-06, "loss": 0.6191, "step": 288 }, { "epoch": 1.2304, "grad_norm": 0.40830501914024353, "learning_rate": 3.4444932698825904e-06, "loss": 0.6319, "step": 289 }, { "epoch": 1.2346666666666666, "grad_norm": 0.35780298709869385, "learning_rate": 3.4336130753789445e-06, "loss": 0.66, "step": 290 }, { "epoch": 1.2389333333333332, "grad_norm": 0.39104047417640686, "learning_rate": 3.422712292900062e-06, "loss": 0.6276, "step": 291 }, { "epoch": 1.2432, "grad_norm": 0.38032180070877075, "learning_rate": 3.4117911628292944e-06, "loss": 0.6201, "step": 292 }, { "epoch": 1.2474666666666667, "grad_norm": 0.3887733817100525, "learning_rate": 3.400849925998697e-06, "loss": 0.6148, "step": 293 }, { "epoch": 1.2517333333333334, "grad_norm": 0.37434589862823486, "learning_rate": 3.3898888236837167e-06, "loss": 0.649, "step": 294 }, { "epoch": 1.256, "grad_norm": 0.36425620317459106, "learning_rate": 3.378908097597875e-06, "loss": 0.6313, "step": 295 }, { "epoch": 1.2602666666666666, "grad_norm": 0.3721037805080414, "learning_rate": 3.3679079898874327e-06, "loss": 0.6699, "step": 296 }, { "epoch": 1.2645333333333333, "grad_norm": 0.35984450578689575, "learning_rate": 3.3568887431260566e-06, "loss": 0.6005, "step": 297 }, { "epoch": 1.2688, "grad_norm": 0.3606344759464264, "learning_rate": 3.3458506003094626e-06, "loss": 0.6569, "step": 298 }, { "epoch": 1.2730666666666668, "grad_norm": 0.3679051697254181, "learning_rate": 3.3347938048500643e-06, "loss": 0.5853, "step": 299 }, { "epoch": 1.2773333333333334, "grad_norm": 0.35892370343208313, "learning_rate": 3.3237186005716005e-06, "loss": 0.613, "step": 300 }, { "epoch": 1.2816, "grad_norm": 0.3816829323768616, "learning_rate": 3.3126252317037616e-06, "loss": 0.6021, "step": 301 }, { "epoch": 1.2858666666666667, "grad_norm": 0.3961769938468933, "learning_rate": 3.3015139428767994e-06, "loss": 0.667, "step": 302 }, { "epoch": 1.2901333333333334, "grad_norm": 0.34190869331359863, "learning_rate": 3.2903849791161398e-06, "loss": 0.6147, "step": 303 }, { "epoch": 1.2944, "grad_norm": 0.3746764659881592, "learning_rate": 3.2792385858369706e-06, "loss": 0.609, "step": 304 }, { "epoch": 1.2986666666666666, "grad_norm": 0.3749980628490448, "learning_rate": 3.2680750088388376e-06, "loss": 0.6378, "step": 305 }, { "epoch": 1.3029333333333333, "grad_norm": 0.35247915983200073, "learning_rate": 3.2568944943002205e-06, "loss": 0.6476, "step": 306 }, { "epoch": 1.3072, "grad_norm": 0.366487979888916, "learning_rate": 3.245697288773102e-06, "loss": 0.6239, "step": 307 }, { "epoch": 1.3114666666666666, "grad_norm": 0.37208351492881775, "learning_rate": 3.2344836391775357e-06, "loss": 0.6621, "step": 308 }, { "epoch": 1.3157333333333332, "grad_norm": 0.38878902792930603, "learning_rate": 3.2232537927961993e-06, "loss": 0.6533, "step": 309 }, { "epoch": 1.32, "grad_norm": 0.3752239942550659, "learning_rate": 3.2120079972689385e-06, "loss": 0.6528, "step": 310 }, { "epoch": 1.3242666666666667, "grad_norm": 0.33627378940582275, "learning_rate": 3.2007465005873104e-06, "loss": 0.6337, "step": 311 }, { "epoch": 1.3285333333333333, "grad_norm": 0.36405107378959656, "learning_rate": 3.189469551089113e-06, "loss": 0.646, "step": 312 }, { "epoch": 1.3328, "grad_norm": 0.34430474042892456, "learning_rate": 3.1781773974529072e-06, "loss": 0.6324, "step": 313 }, { "epoch": 1.3370666666666666, "grad_norm": 0.370339572429657, "learning_rate": 3.1668702886925366e-06, "loss": 0.6594, "step": 314 }, { "epoch": 1.3413333333333333, "grad_norm": 0.3622921109199524, "learning_rate": 3.1555484741516324e-06, "loss": 0.6463, "step": 315 }, { "epoch": 1.3456000000000001, "grad_norm": 0.37744611501693726, "learning_rate": 3.1442122034981187e-06, "loss": 0.6284, "step": 316 }, { "epoch": 1.3498666666666668, "grad_norm": 0.36469364166259766, "learning_rate": 3.1328617267187023e-06, "loss": 0.6014, "step": 317 }, { "epoch": 1.3541333333333334, "grad_norm": 0.36354753375053406, "learning_rate": 3.1214972941133654e-06, "loss": 0.621, "step": 318 }, { "epoch": 1.3584, "grad_norm": 0.35719966888427734, "learning_rate": 3.110119156289841e-06, "loss": 0.6319, "step": 319 }, { "epoch": 1.3626666666666667, "grad_norm": 0.37629184126853943, "learning_rate": 3.0987275641580887e-06, "loss": 0.6248, "step": 320 }, { "epoch": 1.3669333333333333, "grad_norm": 0.39341020584106445, "learning_rate": 3.087322768924765e-06, "loss": 0.6678, "step": 321 }, { "epoch": 1.3712, "grad_norm": 0.39847707748413086, "learning_rate": 3.075905022087675e-06, "loss": 0.6345, "step": 322 }, { "epoch": 1.3754666666666666, "grad_norm": 0.3695352375507355, "learning_rate": 3.064474575430236e-06, "loss": 0.6254, "step": 323 }, { "epoch": 1.3797333333333333, "grad_norm": 0.3770747482776642, "learning_rate": 3.053031681015919e-06, "loss": 0.6331, "step": 324 }, { "epoch": 1.384, "grad_norm": 0.35522177815437317, "learning_rate": 3.0415765911826916e-06, "loss": 0.6243, "step": 325 }, { "epoch": 1.3882666666666665, "grad_norm": 0.3473767936229706, "learning_rate": 3.030109558537457e-06, "loss": 0.6546, "step": 326 }, { "epoch": 1.3925333333333334, "grad_norm": 0.3723127841949463, "learning_rate": 3.0186308359504768e-06, "loss": 0.6376, "step": 327 }, { "epoch": 1.3968, "grad_norm": 0.34262001514434814, "learning_rate": 3.0071406765498003e-06, "loss": 0.5835, "step": 328 }, { "epoch": 1.4010666666666667, "grad_norm": 0.40056103467941284, "learning_rate": 2.995639333715681e-06, "loss": 0.6558, "step": 329 }, { "epoch": 1.4053333333333333, "grad_norm": 0.3862249255180359, "learning_rate": 2.984127061074987e-06, "loss": 0.6368, "step": 330 }, { "epoch": 1.4096, "grad_norm": 0.3410535156726837, "learning_rate": 2.9726041124956128e-06, "loss": 0.5971, "step": 331 }, { "epoch": 1.4138666666666666, "grad_norm": 0.36755862832069397, "learning_rate": 2.9610707420808754e-06, "loss": 0.6154, "step": 332 }, { "epoch": 1.4181333333333335, "grad_norm": 0.36731356382369995, "learning_rate": 2.9495272041639143e-06, "loss": 0.6269, "step": 333 }, { "epoch": 1.4224, "grad_norm": 0.35700151324272156, "learning_rate": 2.9379737533020812e-06, "loss": 0.6226, "step": 334 }, { "epoch": 1.4266666666666667, "grad_norm": 0.3792375922203064, "learning_rate": 2.9264106442713293e-06, "loss": 0.6546, "step": 335 }, { "epoch": 1.4309333333333334, "grad_norm": 0.37135738134384155, "learning_rate": 2.914838132060592e-06, "loss": 0.6582, "step": 336 }, { "epoch": 1.4352, "grad_norm": 0.3696453869342804, "learning_rate": 2.9032564718661606e-06, "loss": 0.6349, "step": 337 }, { "epoch": 1.4394666666666667, "grad_norm": 0.3558184802532196, "learning_rate": 2.891665919086058e-06, "loss": 0.636, "step": 338 }, { "epoch": 1.4437333333333333, "grad_norm": 0.36788755655288696, "learning_rate": 2.8800667293144047e-06, "loss": 0.6256, "step": 339 }, { "epoch": 1.448, "grad_norm": 0.3636646568775177, "learning_rate": 2.8684591583357863e-06, "loss": 0.6737, "step": 340 }, { "epoch": 1.4522666666666666, "grad_norm": 0.35329827666282654, "learning_rate": 2.8568434621196055e-06, "loss": 0.6449, "step": 341 }, { "epoch": 1.4565333333333332, "grad_norm": 0.3763044476509094, "learning_rate": 2.845219896814448e-06, "loss": 0.6034, "step": 342 }, { "epoch": 1.4607999999999999, "grad_norm": 0.3717707097530365, "learning_rate": 2.8335887187424225e-06, "loss": 0.6195, "step": 343 }, { "epoch": 1.4650666666666667, "grad_norm": 0.3806118965148926, "learning_rate": 2.8219501843935183e-06, "loss": 0.6065, "step": 344 }, { "epoch": 1.4693333333333334, "grad_norm": 0.35683637857437134, "learning_rate": 2.8103045504199435e-06, "loss": 0.6336, "step": 345 }, { "epoch": 1.4736, "grad_norm": 0.3510432243347168, "learning_rate": 2.7986520736304632e-06, "loss": 0.656, "step": 346 }, { "epoch": 1.4778666666666667, "grad_norm": 0.3614979386329651, "learning_rate": 2.786993010984747e-06, "loss": 0.5899, "step": 347 }, { "epoch": 1.4821333333333333, "grad_norm": 0.34515616297721863, "learning_rate": 2.7753276195876887e-06, "loss": 0.6528, "step": 348 }, { "epoch": 1.4864, "grad_norm": 0.35917502641677856, "learning_rate": 2.7636561566837463e-06, "loss": 0.6501, "step": 349 }, { "epoch": 1.4906666666666666, "grad_norm": 0.3679303228855133, "learning_rate": 2.751978879651267e-06, "loss": 0.6186, "step": 350 }, { "epoch": 1.4949333333333334, "grad_norm": 0.341778963804245, "learning_rate": 2.740296045996808e-06, "loss": 0.6206, "step": 351 }, { "epoch": 1.4992, "grad_norm": 0.3657280206680298, "learning_rate": 2.728607913349464e-06, "loss": 0.6201, "step": 352 }, { "epoch": 1.5034666666666667, "grad_norm": 0.37184861302375793, "learning_rate": 2.716914739455181e-06, "loss": 0.6382, "step": 353 }, { "epoch": 1.5077333333333334, "grad_norm": 0.35181599855422974, "learning_rate": 2.7052167821710728e-06, "loss": 0.6181, "step": 354 }, { "epoch": 1.512, "grad_norm": 0.33952847123146057, "learning_rate": 2.6935142994597407e-06, "loss": 0.582, "step": 355 }, { "epoch": 1.5162666666666667, "grad_norm": 0.3619312047958374, "learning_rate": 2.6818075493835747e-06, "loss": 0.6453, "step": 356 }, { "epoch": 1.5205333333333333, "grad_norm": 0.353040486574173, "learning_rate": 2.6700967900990733e-06, "loss": 0.6468, "step": 357 }, { "epoch": 1.5248, "grad_norm": 0.3691389262676239, "learning_rate": 2.6583822798511428e-06, "loss": 0.6226, "step": 358 }, { "epoch": 1.5290666666666666, "grad_norm": 0.3559889793395996, "learning_rate": 2.6466642769674065e-06, "loss": 0.6407, "step": 359 }, { "epoch": 1.5333333333333332, "grad_norm": 0.3588290810585022, "learning_rate": 2.634943039852509e-06, "loss": 0.6327, "step": 360 }, { "epoch": 1.5375999999999999, "grad_norm": 0.35324448347091675, "learning_rate": 2.623218826982411e-06, "loss": 0.6525, "step": 361 }, { "epoch": 1.5418666666666667, "grad_norm": 0.3669818043708801, "learning_rate": 2.6114918968987e-06, "loss": 0.6379, "step": 362 }, { "epoch": 1.5461333333333334, "grad_norm": 0.3631032407283783, "learning_rate": 2.59976250820288e-06, "loss": 0.6324, "step": 363 }, { "epoch": 1.5504, "grad_norm": 0.3435375988483429, "learning_rate": 2.5880309195506714e-06, "loss": 0.638, "step": 364 }, { "epoch": 1.5546666666666666, "grad_norm": 0.3883386552333832, "learning_rate": 2.5762973896463124e-06, "loss": 0.662, "step": 365 }, { "epoch": 1.5589333333333333, "grad_norm": 0.3442463278770447, "learning_rate": 2.564562177236844e-06, "loss": 0.5799, "step": 366 }, { "epoch": 1.5632000000000001, "grad_norm": 0.3552541434764862, "learning_rate": 2.552825541106414e-06, "loss": 0.5965, "step": 367 }, { "epoch": 1.5674666666666668, "grad_norm": 0.364967405796051, "learning_rate": 2.541087740070563e-06, "loss": 0.6378, "step": 368 }, { "epoch": 1.5717333333333334, "grad_norm": 0.37892046570777893, "learning_rate": 2.5293490329705215e-06, "loss": 0.6359, "step": 369 }, { "epoch": 1.576, "grad_norm": 0.36757996678352356, "learning_rate": 2.517609678667501e-06, "loss": 0.643, "step": 370 }, { "epoch": 1.5802666666666667, "grad_norm": 0.349754273891449, "learning_rate": 2.5058699360369842e-06, "loss": 0.6362, "step": 371 }, { "epoch": 1.5845333333333333, "grad_norm": 0.3402039706707001, "learning_rate": 2.494130063963016e-06, "loss": 0.623, "step": 372 }, { "epoch": 1.5888, "grad_norm": 0.3724100887775421, "learning_rate": 2.4823903213324995e-06, "loss": 0.6774, "step": 373 }, { "epoch": 1.5930666666666666, "grad_norm": 0.35909926891326904, "learning_rate": 2.4706509670294793e-06, "loss": 0.6353, "step": 374 }, { "epoch": 1.5973333333333333, "grad_norm": 0.3708135783672333, "learning_rate": 2.458912259929438e-06, "loss": 0.6386, "step": 375 }, { "epoch": 1.6016, "grad_norm": 0.3670898377895355, "learning_rate": 2.447174458893587e-06, "loss": 0.6226, "step": 376 }, { "epoch": 1.6058666666666666, "grad_norm": 0.3384304344654083, "learning_rate": 2.4354378227631566e-06, "loss": 0.6095, "step": 377 }, { "epoch": 1.6101333333333332, "grad_norm": 0.3360144793987274, "learning_rate": 2.423702610353689e-06, "loss": 0.5713, "step": 378 }, { "epoch": 1.6143999999999998, "grad_norm": 0.36030176281929016, "learning_rate": 2.4119690804493285e-06, "loss": 0.6171, "step": 379 }, { "epoch": 1.6186666666666667, "grad_norm": 0.3754883110523224, "learning_rate": 2.400237491797121e-06, "loss": 0.6334, "step": 380 }, { "epoch": 1.6229333333333333, "grad_norm": 0.37145912647247314, "learning_rate": 2.3885081031013013e-06, "loss": 0.6313, "step": 381 }, { "epoch": 1.6272, "grad_norm": 0.3442709743976593, "learning_rate": 2.376781173017589e-06, "loss": 0.616, "step": 382 }, { "epoch": 1.6314666666666666, "grad_norm": 0.36108705401420593, "learning_rate": 2.365056960147492e-06, "loss": 0.6034, "step": 383 }, { "epoch": 1.6357333333333335, "grad_norm": 0.3905346989631653, "learning_rate": 2.353335723032594e-06, "loss": 0.6408, "step": 384 }, { "epoch": 1.6400000000000001, "grad_norm": 0.3625428378582001, "learning_rate": 2.3416177201488585e-06, "loss": 0.6241, "step": 385 }, { "epoch": 1.6442666666666668, "grad_norm": 0.3429667353630066, "learning_rate": 2.3299032099009276e-06, "loss": 0.6253, "step": 386 }, { "epoch": 1.6485333333333334, "grad_norm": 0.3611001968383789, "learning_rate": 2.318192450616426e-06, "loss": 0.596, "step": 387 }, { "epoch": 1.6528, "grad_norm": 0.3439117968082428, "learning_rate": 2.3064857005402606e-06, "loss": 0.615, "step": 388 }, { "epoch": 1.6570666666666667, "grad_norm": 0.3314322829246521, "learning_rate": 2.294783217828927e-06, "loss": 0.5785, "step": 389 }, { "epoch": 1.6613333333333333, "grad_norm": 0.3500496745109558, "learning_rate": 2.2830852605448197e-06, "loss": 0.6063, "step": 390 }, { "epoch": 1.6656, "grad_norm": 0.34801536798477173, "learning_rate": 2.2713920866505364e-06, "loss": 0.6257, "step": 391 }, { "epoch": 1.6698666666666666, "grad_norm": 0.36531272530555725, "learning_rate": 2.259703954003192e-06, "loss": 0.5923, "step": 392 }, { "epoch": 1.6741333333333333, "grad_norm": 0.3721877634525299, "learning_rate": 2.2480211203487335e-06, "loss": 0.6449, "step": 393 }, { "epoch": 1.6784, "grad_norm": 0.3649953305721283, "learning_rate": 2.236343843316254e-06, "loss": 0.6161, "step": 394 }, { "epoch": 1.6826666666666665, "grad_norm": 0.36439573764801025, "learning_rate": 2.2246723804123126e-06, "loss": 0.6068, "step": 395 }, { "epoch": 1.6869333333333332, "grad_norm": 0.3658572733402252, "learning_rate": 2.213006989015254e-06, "loss": 0.5915, "step": 396 }, { "epoch": 1.6912, "grad_norm": 0.3674871027469635, "learning_rate": 2.201347926369537e-06, "loss": 0.6394, "step": 397 }, { "epoch": 1.6954666666666667, "grad_norm": 0.3523310124874115, "learning_rate": 2.189695449580058e-06, "loss": 0.6258, "step": 398 }, { "epoch": 1.6997333333333333, "grad_norm": 0.35189226269721985, "learning_rate": 2.178049815606482e-06, "loss": 0.6281, "step": 399 }, { "epoch": 1.704, "grad_norm": 0.36279675364494324, "learning_rate": 2.166411281257578e-06, "loss": 0.6225, "step": 400 }, { "epoch": 1.7082666666666668, "grad_norm": 0.3660772442817688, "learning_rate": 2.154780103185553e-06, "loss": 0.5899, "step": 401 }, { "epoch": 1.7125333333333335, "grad_norm": 0.3713538944721222, "learning_rate": 2.1431565378803953e-06, "loss": 0.6673, "step": 402 }, { "epoch": 1.7168, "grad_norm": 0.34312623739242554, "learning_rate": 2.1315408416642145e-06, "loss": 0.6076, "step": 403 }, { "epoch": 1.7210666666666667, "grad_norm": 0.361995667219162, "learning_rate": 2.119933270685596e-06, "loss": 0.6847, "step": 404 }, { "epoch": 1.7253333333333334, "grad_norm": 0.3452853262424469, "learning_rate": 2.1083340809139436e-06, "loss": 0.622, "step": 405 }, { "epoch": 1.7296, "grad_norm": 0.3667498826980591, "learning_rate": 2.09674352813384e-06, "loss": 0.626, "step": 406 }, { "epoch": 1.7338666666666667, "grad_norm": 0.3574604392051697, "learning_rate": 2.085161867939409e-06, "loss": 0.643, "step": 407 }, { "epoch": 1.7381333333333333, "grad_norm": 0.34958869218826294, "learning_rate": 2.0735893557286715e-06, "loss": 0.6257, "step": 408 }, { "epoch": 1.7424, "grad_norm": 0.34016844630241394, "learning_rate": 2.062026246697919e-06, "loss": 0.6227, "step": 409 }, { "epoch": 1.7466666666666666, "grad_norm": 0.333670973777771, "learning_rate": 2.0504727958360865e-06, "loss": 0.6102, "step": 410 }, { "epoch": 1.7509333333333332, "grad_norm": 0.33881455659866333, "learning_rate": 2.038929257919125e-06, "loss": 0.6216, "step": 411 }, { "epoch": 1.7551999999999999, "grad_norm": 0.3591978847980499, "learning_rate": 2.0273958875043877e-06, "loss": 0.5926, "step": 412 }, { "epoch": 1.7594666666666665, "grad_norm": 0.3602572977542877, "learning_rate": 2.015872938925013e-06, "loss": 0.65, "step": 413 }, { "epoch": 1.7637333333333334, "grad_norm": 0.35508790612220764, "learning_rate": 2.0043606662843194e-06, "loss": 0.6307, "step": 414 }, { "epoch": 1.768, "grad_norm": 0.3617687225341797, "learning_rate": 1.992859323450201e-06, "loss": 0.5987, "step": 415 }, { "epoch": 1.7722666666666667, "grad_norm": 0.37263643741607666, "learning_rate": 1.9813691640495236e-06, "loss": 0.6138, "step": 416 }, { "epoch": 1.7765333333333333, "grad_norm": 0.373625248670578, "learning_rate": 1.9698904414625443e-06, "loss": 0.6368, "step": 417 }, { "epoch": 1.7808000000000002, "grad_norm": 0.3303409814834595, "learning_rate": 1.958423408817309e-06, "loss": 0.6153, "step": 418 }, { "epoch": 1.7850666666666668, "grad_norm": 0.3457784056663513, "learning_rate": 1.9469683189840823e-06, "loss": 0.6036, "step": 419 }, { "epoch": 1.7893333333333334, "grad_norm": 0.36308011412620544, "learning_rate": 1.935525424569765e-06, "loss": 0.615, "step": 420 }, { "epoch": 1.7936, "grad_norm": 0.34869521856307983, "learning_rate": 1.924094977912326e-06, "loss": 0.6337, "step": 421 }, { "epoch": 1.7978666666666667, "grad_norm": 0.3418169915676117, "learning_rate": 1.912677231075236e-06, "loss": 0.6089, "step": 422 }, { "epoch": 1.8021333333333334, "grad_norm": 0.37303951382637024, "learning_rate": 1.901272435841911e-06, "loss": 0.6467, "step": 423 }, { "epoch": 1.8064, "grad_norm": 0.33986544609069824, "learning_rate": 1.8898808437101598e-06, "loss": 0.6276, "step": 424 }, { "epoch": 1.8106666666666666, "grad_norm": 0.36087459325790405, "learning_rate": 1.8785027058866358e-06, "loss": 0.6157, "step": 425 }, { "epoch": 1.8149333333333333, "grad_norm": 0.3607085943222046, "learning_rate": 1.8671382732812976e-06, "loss": 0.6463, "step": 426 }, { "epoch": 1.8192, "grad_norm": 0.3519996702671051, "learning_rate": 1.8557877965018817e-06, "loss": 0.5965, "step": 427 }, { "epoch": 1.8234666666666666, "grad_norm": 0.3577191233634949, "learning_rate": 1.8444515258483684e-06, "loss": 0.6493, "step": 428 }, { "epoch": 1.8277333333333332, "grad_norm": 0.34583061933517456, "learning_rate": 1.8331297113074647e-06, "loss": 0.6166, "step": 429 }, { "epoch": 1.8319999999999999, "grad_norm": 0.3553761839866638, "learning_rate": 1.8218226025470934e-06, "loss": 0.6197, "step": 430 }, { "epoch": 1.8362666666666667, "grad_norm": 0.36136338114738464, "learning_rate": 1.810530448910888e-06, "loss": 0.6486, "step": 431 }, { "epoch": 1.8405333333333334, "grad_norm": 0.3319532871246338, "learning_rate": 1.7992534994126904e-06, "loss": 0.5983, "step": 432 }, { "epoch": 1.8448, "grad_norm": 0.3669814169406891, "learning_rate": 1.7879920027310621e-06, "loss": 0.6314, "step": 433 }, { "epoch": 1.8490666666666666, "grad_norm": 0.34887489676475525, "learning_rate": 1.7767462072038017e-06, "loss": 0.5914, "step": 434 }, { "epoch": 1.8533333333333335, "grad_norm": 0.3559891879558563, "learning_rate": 1.7655163608224649e-06, "loss": 0.6388, "step": 435 }, { "epoch": 1.8576000000000001, "grad_norm": 0.3565674126148224, "learning_rate": 1.7543027112268994e-06, "loss": 0.654, "step": 436 }, { "epoch": 1.8618666666666668, "grad_norm": 0.34790274500846863, "learning_rate": 1.7431055056997803e-06, "loss": 0.6008, "step": 437 }, { "epoch": 1.8661333333333334, "grad_norm": 0.3522760272026062, "learning_rate": 1.731924991161163e-06, "loss": 0.6389, "step": 438 }, { "epoch": 1.8704, "grad_norm": 0.3217763602733612, "learning_rate": 1.7207614141630304e-06, "loss": 0.6068, "step": 439 }, { "epoch": 1.8746666666666667, "grad_norm": 0.3468863070011139, "learning_rate": 1.7096150208838613e-06, "loss": 0.6374, "step": 440 }, { "epoch": 1.8789333333333333, "grad_norm": 0.343654066324234, "learning_rate": 1.698486057123201e-06, "loss": 0.6164, "step": 441 }, { "epoch": 1.8832, "grad_norm": 0.35105621814727783, "learning_rate": 1.6873747682962393e-06, "loss": 0.6569, "step": 442 }, { "epoch": 1.8874666666666666, "grad_norm": 0.3443906307220459, "learning_rate": 1.6762813994283993e-06, "loss": 0.6269, "step": 443 }, { "epoch": 1.8917333333333333, "grad_norm": 0.33432722091674805, "learning_rate": 1.665206195149936e-06, "loss": 0.6265, "step": 444 }, { "epoch": 1.896, "grad_norm": 0.33422231674194336, "learning_rate": 1.6541493996905378e-06, "loss": 0.6022, "step": 445 }, { "epoch": 1.9002666666666665, "grad_norm": 0.32642269134521484, "learning_rate": 1.6431112568739448e-06, "loss": 0.5939, "step": 446 }, { "epoch": 1.9045333333333332, "grad_norm": 0.3520292639732361, "learning_rate": 1.6320920101125673e-06, "loss": 0.6236, "step": 447 }, { "epoch": 1.9088, "grad_norm": 0.3316883146762848, "learning_rate": 1.6210919024021258e-06, "loss": 0.6398, "step": 448 }, { "epoch": 1.9130666666666667, "grad_norm": 0.34300458431243896, "learning_rate": 1.6101111763162842e-06, "loss": 0.6361, "step": 449 }, { "epoch": 1.9173333333333333, "grad_norm": 0.3536739945411682, "learning_rate": 1.5991500740013032e-06, "loss": 0.6325, "step": 450 }, { "epoch": 1.9216, "grad_norm": 0.3418213427066803, "learning_rate": 1.588208837170706e-06, "loss": 0.6248, "step": 451 }, { "epoch": 1.9258666666666666, "grad_norm": 0.35811057686805725, "learning_rate": 1.5772877070999388e-06, "loss": 0.66, "step": 452 }, { "epoch": 1.9301333333333335, "grad_norm": 0.3446464538574219, "learning_rate": 1.5663869246210568e-06, "loss": 0.6601, "step": 453 }, { "epoch": 1.9344000000000001, "grad_norm": 0.352630078792572, "learning_rate": 1.55550673011741e-06, "loss": 0.6057, "step": 454 }, { "epoch": 1.9386666666666668, "grad_norm": 0.3361312747001648, "learning_rate": 1.5446473635183469e-06, "loss": 0.6151, "step": 455 }, { "epoch": 1.9429333333333334, "grad_norm": 0.34577980637550354, "learning_rate": 1.5338090642939171e-06, "loss": 0.5807, "step": 456 }, { "epoch": 1.9472, "grad_norm": 0.3399719297885895, "learning_rate": 1.522992071449595e-06, "loss": 0.646, "step": 457 }, { "epoch": 1.9514666666666667, "grad_norm": 0.33490023016929626, "learning_rate": 1.512196623521009e-06, "loss": 0.618, "step": 458 }, { "epoch": 1.9557333333333333, "grad_norm": 0.36129286885261536, "learning_rate": 1.501422958568679e-06, "loss": 0.6313, "step": 459 }, { "epoch": 1.96, "grad_norm": 0.3402632176876068, "learning_rate": 1.4906713141727677e-06, "loss": 0.5889, "step": 460 }, { "epoch": 1.9642666666666666, "grad_norm": 0.36346685886383057, "learning_rate": 1.4799419274278454e-06, "loss": 0.6268, "step": 461 }, { "epoch": 1.9685333333333332, "grad_norm": 0.36655858159065247, "learning_rate": 1.469235034937653e-06, "loss": 0.6135, "step": 462 }, { "epoch": 1.9727999999999999, "grad_norm": 0.3634871542453766, "learning_rate": 1.4585508728098935e-06, "loss": 0.6415, "step": 463 }, { "epoch": 1.9770666666666665, "grad_norm": 0.3393765091896057, "learning_rate": 1.4478896766510187e-06, "loss": 0.5915, "step": 464 }, { "epoch": 1.9813333333333332, "grad_norm": 0.35128340125083923, "learning_rate": 1.4372516815610405e-06, "loss": 0.6186, "step": 465 }, { "epoch": 1.9856, "grad_norm": 0.33152270317077637, "learning_rate": 1.4266371221283367e-06, "loss": 0.5733, "step": 466 }, { "epoch": 1.9898666666666667, "grad_norm": 0.36451447010040283, "learning_rate": 1.4160462324244864e-06, "loss": 0.6342, "step": 467 }, { "epoch": 1.9941333333333333, "grad_norm": 0.34968507289886475, "learning_rate": 1.4054792459991073e-06, "loss": 0.6182, "step": 468 }, { "epoch": 1.9984, "grad_norm": 0.33991050720214844, "learning_rate": 1.3949363958747004e-06, "loss": 0.612, "step": 469 }, { "epoch": 2.0, "grad_norm": 0.5291548371315002, "learning_rate": 1.3844179145415158e-06, "loss": 0.6129, "step": 470 }, { "epoch": 2.0042666666666666, "grad_norm": 0.3454642593860626, "learning_rate": 1.373924033952424e-06, "loss": 0.6203, "step": 471 }, { "epoch": 2.0085333333333333, "grad_norm": 0.3359213173389435, "learning_rate": 1.363454985517803e-06, "loss": 0.5775, "step": 472 }, { "epoch": 2.0128, "grad_norm": 0.3395461142063141, "learning_rate": 1.3530110001004315e-06, "loss": 0.6245, "step": 473 }, { "epoch": 2.0170666666666666, "grad_norm": 0.33210253715515137, "learning_rate": 1.3425923080104008e-06, "loss": 0.655, "step": 474 }, { "epoch": 2.021333333333333, "grad_norm": 0.3711182773113251, "learning_rate": 1.3321991390000382e-06, "loss": 0.6177, "step": 475 }, { "epoch": 2.0256, "grad_norm": 0.37890559434890747, "learning_rate": 1.3218317222588356e-06, "loss": 0.5875, "step": 476 }, { "epoch": 2.0298666666666665, "grad_norm": 0.34380125999450684, "learning_rate": 1.3114902864083937e-06, "loss": 0.5857, "step": 477 }, { "epoch": 2.034133333333333, "grad_norm": 0.34623777866363525, "learning_rate": 1.301175059497391e-06, "loss": 0.6143, "step": 478 }, { "epoch": 2.0384, "grad_norm": 0.3658795952796936, "learning_rate": 1.2908862689965446e-06, "loss": 0.6113, "step": 479 }, { "epoch": 2.042666666666667, "grad_norm": 0.35803937911987305, "learning_rate": 1.2806241417935975e-06, "loss": 0.6164, "step": 480 }, { "epoch": 2.0469333333333335, "grad_norm": 0.3726085126399994, "learning_rate": 1.270388904188316e-06, "loss": 0.6031, "step": 481 }, { "epoch": 2.0512, "grad_norm": 0.3445771634578705, "learning_rate": 1.2601807818874994e-06, "loss": 0.6445, "step": 482 }, { "epoch": 2.0554666666666668, "grad_norm": 0.3538333475589752, "learning_rate": 1.2500000000000007e-06, "loss": 0.6456, "step": 483 }, { "epoch": 2.0597333333333334, "grad_norm": 0.3596368134021759, "learning_rate": 1.2398467830317635e-06, "loss": 0.628, "step": 484 }, { "epoch": 2.064, "grad_norm": 0.3321940004825592, "learning_rate": 1.229721354880875e-06, "loss": 0.6237, "step": 485 }, { "epoch": 2.0682666666666667, "grad_norm": 0.3428746163845062, "learning_rate": 1.219623938832622e-06, "loss": 0.6196, "step": 486 }, { "epoch": 2.0725333333333333, "grad_norm": 0.34215423464775085, "learning_rate": 1.2095547575545685e-06, "loss": 0.5942, "step": 487 }, { "epoch": 2.0768, "grad_norm": 0.35768529772758484, "learning_rate": 1.199514033091653e-06, "loss": 0.6276, "step": 488 }, { "epoch": 2.0810666666666666, "grad_norm": 0.3465723991394043, "learning_rate": 1.1895019868612815e-06, "loss": 0.6087, "step": 489 }, { "epoch": 2.0853333333333333, "grad_norm": 0.3426065146923065, "learning_rate": 1.1795188396484505e-06, "loss": 0.5751, "step": 490 }, { "epoch": 2.0896, "grad_norm": 0.3264654278755188, "learning_rate": 1.1695648116008781e-06, "loss": 0.5953, "step": 491 }, { "epoch": 2.0938666666666665, "grad_norm": 0.33921313285827637, "learning_rate": 1.1596401222241473e-06, "loss": 0.6169, "step": 492 }, { "epoch": 2.098133333333333, "grad_norm": 0.3380139470100403, "learning_rate": 1.149744990376868e-06, "loss": 0.5793, "step": 493 }, { "epoch": 2.1024, "grad_norm": 0.33891841769218445, "learning_rate": 1.139879634265847e-06, "loss": 0.6119, "step": 494 }, { "epoch": 2.1066666666666665, "grad_norm": 0.33831652998924255, "learning_rate": 1.1300442714412819e-06, "loss": 0.6114, "step": 495 }, { "epoch": 2.1109333333333336, "grad_norm": 0.3383654057979584, "learning_rate": 1.1202391187919575e-06, "loss": 0.61, "step": 496 }, { "epoch": 2.1152, "grad_norm": 0.32236188650131226, "learning_rate": 1.1104643925404678e-06, "loss": 0.5775, "step": 497 }, { "epoch": 2.119466666666667, "grad_norm": 0.359540194272995, "learning_rate": 1.1007203082384424e-06, "loss": 0.5865, "step": 498 }, { "epoch": 2.1237333333333335, "grad_norm": 0.3443056344985962, "learning_rate": 1.0910070807618012e-06, "loss": 0.5759, "step": 499 }, { "epoch": 2.128, "grad_norm": 0.35354653000831604, "learning_rate": 1.0813249243060081e-06, "loss": 0.5905, "step": 500 }, { "epoch": 2.1322666666666668, "grad_norm": 0.3386101722717285, "learning_rate": 1.0716740523813524e-06, "loss": 0.6143, "step": 501 }, { "epoch": 2.1365333333333334, "grad_norm": 0.3504805564880371, "learning_rate": 1.062054677808238e-06, "loss": 0.6194, "step": 502 }, { "epoch": 2.1408, "grad_norm": 0.35748982429504395, "learning_rate": 1.0524670127124918e-06, "loss": 0.6312, "step": 503 }, { "epoch": 2.1450666666666667, "grad_norm": 0.3584182560443878, "learning_rate": 1.0429112685206843e-06, "loss": 0.622, "step": 504 }, { "epoch": 2.1493333333333333, "grad_norm": 0.34925296902656555, "learning_rate": 1.033387655955471e-06, "loss": 0.6289, "step": 505 }, { "epoch": 2.1536, "grad_norm": 0.3288041353225708, "learning_rate": 1.0238963850309406e-06, "loss": 0.5748, "step": 506 }, { "epoch": 2.1578666666666666, "grad_norm": 0.355558305978775, "learning_rate": 1.0144376650479867e-06, "loss": 0.6296, "step": 507 }, { "epoch": 2.1621333333333332, "grad_norm": 0.36249178647994995, "learning_rate": 1.0050117045896889e-06, "loss": 0.6366, "step": 508 }, { "epoch": 2.1664, "grad_norm": 0.3458845615386963, "learning_rate": 9.956187115167215e-07, "loss": 0.6318, "step": 509 }, { "epoch": 2.1706666666666665, "grad_norm": 0.34122511744499207, "learning_rate": 9.8625889296276e-07, "loss": 0.5991, "step": 510 }, { "epoch": 2.174933333333333, "grad_norm": 0.3294980525970459, "learning_rate": 9.769324553299174e-07, "loss": 0.6074, "step": 511 }, { "epoch": 2.1792, "grad_norm": 0.35011374950408936, "learning_rate": 9.67639604284197e-07, "loss": 0.6041, "step": 512 }, { "epoch": 2.183466666666667, "grad_norm": 0.3691865801811218, "learning_rate": 9.58380544750947e-07, "loss": 0.6238, "step": 513 }, { "epoch": 2.1877333333333335, "grad_norm": 0.35375744104385376, "learning_rate": 9.491554809103509e-07, "loss": 0.6299, "step": 514 }, { "epoch": 2.192, "grad_norm": 0.34152060747146606, "learning_rate": 9.399646161929202e-07, "loss": 0.6286, "step": 515 }, { "epoch": 2.196266666666667, "grad_norm": 0.36606308817863464, "learning_rate": 9.308081532750116e-07, "loss": 0.612, "step": 516 }, { "epoch": 2.2005333333333335, "grad_norm": 0.34242525696754456, "learning_rate": 9.216862940743529e-07, "loss": 0.641, "step": 517 }, { "epoch": 2.2048, "grad_norm": 0.33378395438194275, "learning_rate": 9.125992397455943e-07, "loss": 0.5533, "step": 518 }, { "epoch": 2.2090666666666667, "grad_norm": 0.3290783166885376, "learning_rate": 9.035471906758705e-07, "loss": 0.5853, "step": 519 }, { "epoch": 2.2133333333333334, "grad_norm": 0.35453036427497864, "learning_rate": 8.945303464803833e-07, "loss": 0.645, "step": 520 }, { "epoch": 2.2176, "grad_norm": 0.35501500964164734, "learning_rate": 8.855489059979977e-07, "loss": 0.6475, "step": 521 }, { "epoch": 2.2218666666666667, "grad_norm": 0.33805051445961, "learning_rate": 8.766030672868614e-07, "loss": 0.595, "step": 522 }, { "epoch": 2.2261333333333333, "grad_norm": 0.3185022175312042, "learning_rate": 8.676930276200294e-07, "loss": 0.5749, "step": 523 }, { "epoch": 2.2304, "grad_norm": 0.35385066270828247, "learning_rate": 8.588189834811217e-07, "loss": 0.6604, "step": 524 }, { "epoch": 2.2346666666666666, "grad_norm": 0.34080225229263306, "learning_rate": 8.499811305599858e-07, "loss": 0.6281, "step": 525 }, { "epoch": 2.238933333333333, "grad_norm": 0.32432180643081665, "learning_rate": 8.411796637483852e-07, "loss": 0.6241, "step": 526 }, { "epoch": 2.2432, "grad_norm": 0.3203832507133484, "learning_rate": 8.324147771356964e-07, "loss": 0.6222, "step": 527 }, { "epoch": 2.2474666666666665, "grad_norm": 0.32758456468582153, "learning_rate": 8.236866640046329e-07, "loss": 0.6351, "step": 528 }, { "epoch": 2.251733333333333, "grad_norm": 0.3457350730895996, "learning_rate": 8.149955168269822e-07, "loss": 0.6175, "step": 529 }, { "epoch": 2.2560000000000002, "grad_norm": 0.34189313650131226, "learning_rate": 8.0634152725936e-07, "loss": 0.6246, "step": 530 }, { "epoch": 2.2602666666666664, "grad_norm": 0.35133737325668335, "learning_rate": 7.977248861389853e-07, "loss": 0.6176, "step": 531 }, { "epoch": 2.2645333333333335, "grad_norm": 0.3272813856601715, "learning_rate": 7.891457834794711e-07, "loss": 0.5574, "step": 532 }, { "epoch": 2.2688, "grad_norm": 0.3326052725315094, "learning_rate": 7.80604408466637e-07, "loss": 0.5754, "step": 533 }, { "epoch": 2.273066666666667, "grad_norm": 0.3340674340724945, "learning_rate": 7.721009494543314e-07, "loss": 0.603, "step": 534 }, { "epoch": 2.2773333333333334, "grad_norm": 0.3468780517578125, "learning_rate": 7.636355939602824e-07, "loss": 0.6316, "step": 535 }, { "epoch": 2.2816, "grad_norm": 0.3622860312461853, "learning_rate": 7.55208528661965e-07, "loss": 0.5903, "step": 536 }, { "epoch": 2.2858666666666667, "grad_norm": 0.33696678280830383, "learning_rate": 7.468199393924775e-07, "loss": 0.6157, "step": 537 }, { "epoch": 2.2901333333333334, "grad_norm": 0.34255290031433105, "learning_rate": 7.384700111364487e-07, "loss": 0.6159, "step": 538 }, { "epoch": 2.2944, "grad_norm": 0.34535640478134155, "learning_rate": 7.301589280259572e-07, "loss": 0.6059, "step": 539 }, { "epoch": 2.2986666666666666, "grad_norm": 0.3281169533729553, "learning_rate": 7.218868733364712e-07, "loss": 0.5943, "step": 540 }, { "epoch": 2.3029333333333333, "grad_norm": 0.34532874822616577, "learning_rate": 7.136540294828062e-07, "loss": 0.5923, "step": 541 }, { "epoch": 2.3072, "grad_norm": 0.3486146926879883, "learning_rate": 7.054605780151022e-07, "loss": 0.6401, "step": 542 }, { "epoch": 2.3114666666666666, "grad_norm": 0.33802080154418945, "learning_rate": 6.973066996148245e-07, "loss": 0.5979, "step": 543 }, { "epoch": 2.315733333333333, "grad_norm": 0.33193105459213257, "learning_rate": 6.891925740907701e-07, "loss": 0.6044, "step": 544 }, { "epoch": 2.32, "grad_norm": 0.3354455828666687, "learning_rate": 6.811183803751112e-07, "loss": 0.5764, "step": 545 }, { "epoch": 2.3242666666666665, "grad_norm": 0.32878172397613525, "learning_rate": 6.730842965194479e-07, "loss": 0.5584, "step": 546 }, { "epoch": 2.3285333333333336, "grad_norm": 0.33991891145706177, "learning_rate": 6.650904996908772e-07, "loss": 0.6111, "step": 547 }, { "epoch": 2.3327999999999998, "grad_norm": 0.32996976375579834, "learning_rate": 6.571371661680909e-07, "loss": 0.5858, "step": 548 }, { "epoch": 2.337066666666667, "grad_norm": 0.3353066146373749, "learning_rate": 6.492244713374857e-07, "loss": 0.6115, "step": 549 }, { "epoch": 2.3413333333333335, "grad_norm": 0.31983545422554016, "learning_rate": 6.413525896892972e-07, "loss": 0.6009, "step": 550 }, { "epoch": 2.3456, "grad_norm": 0.33389580249786377, "learning_rate": 6.335216948137513e-07, "loss": 0.5975, "step": 551 }, { "epoch": 2.3498666666666668, "grad_norm": 0.34626585245132446, "learning_rate": 6.257319593972347e-07, "loss": 0.5625, "step": 552 }, { "epoch": 2.3541333333333334, "grad_norm": 0.3237454891204834, "learning_rate": 6.179835552184924e-07, "loss": 0.6048, "step": 553 }, { "epoch": 2.3584, "grad_norm": 0.3444509208202362, "learning_rate": 6.1027665314483e-07, "loss": 0.5843, "step": 554 }, { "epoch": 2.3626666666666667, "grad_norm": 0.3375681936740875, "learning_rate": 6.02611423128355e-07, "loss": 0.6234, "step": 555 }, { "epoch": 2.3669333333333333, "grad_norm": 0.35530391335487366, "learning_rate": 5.949880342022258e-07, "loss": 0.6244, "step": 556 }, { "epoch": 2.3712, "grad_norm": 0.35115307569503784, "learning_rate": 5.874066544769217e-07, "loss": 0.616, "step": 557 }, { "epoch": 2.3754666666666666, "grad_norm": 0.31733638048171997, "learning_rate": 5.79867451136539e-07, "loss": 0.6113, "step": 558 }, { "epoch": 2.3797333333333333, "grad_norm": 0.3279070556163788, "learning_rate": 5.723705904351027e-07, "loss": 0.6109, "step": 559 }, { "epoch": 2.384, "grad_norm": 0.3417271673679352, "learning_rate": 5.649162376929004e-07, "loss": 0.5966, "step": 560 }, { "epoch": 2.3882666666666665, "grad_norm": 0.3424253463745117, "learning_rate": 5.575045572928378e-07, "loss": 0.583, "step": 561 }, { "epoch": 2.392533333333333, "grad_norm": 0.3309208154678345, "learning_rate": 5.501357126768117e-07, "loss": 0.6015, "step": 562 }, { "epoch": 2.3968, "grad_norm": 0.34883973002433777, "learning_rate": 5.428098663421086e-07, "loss": 0.6008, "step": 563 }, { "epoch": 2.401066666666667, "grad_norm": 0.34529733657836914, "learning_rate": 5.355271798378189e-07, "loss": 0.6182, "step": 564 }, { "epoch": 2.405333333333333, "grad_norm": 0.34527671337127686, "learning_rate": 5.282878137612738e-07, "loss": 0.6188, "step": 565 }, { "epoch": 2.4096, "grad_norm": 0.3241617977619171, "learning_rate": 5.210919277545059e-07, "loss": 0.6145, "step": 566 }, { "epoch": 2.413866666666667, "grad_norm": 0.3428850769996643, "learning_rate": 5.139396805007307e-07, "loss": 0.6524, "step": 567 }, { "epoch": 2.4181333333333335, "grad_norm": 0.3443160653114319, "learning_rate": 5.068312297208414e-07, "loss": 0.618, "step": 568 }, { "epoch": 2.4224, "grad_norm": 0.34759387373924255, "learning_rate": 4.99766732169936e-07, "loss": 0.6638, "step": 569 }, { "epoch": 2.4266666666666667, "grad_norm": 0.3494528830051422, "learning_rate": 4.927463436338578e-07, "loss": 0.6362, "step": 570 }, { "epoch": 2.4309333333333334, "grad_norm": 0.33158278465270996, "learning_rate": 4.857702189257613e-07, "loss": 0.6511, "step": 571 }, { "epoch": 2.4352, "grad_norm": 0.33719706535339355, "learning_rate": 4.788385118826977e-07, "loss": 0.6401, "step": 572 }, { "epoch": 2.4394666666666667, "grad_norm": 0.34365832805633545, "learning_rate": 4.71951375362224e-07, "loss": 0.5674, "step": 573 }, { "epoch": 2.4437333333333333, "grad_norm": 0.36191850900650024, "learning_rate": 4.6510896123903027e-07, "loss": 0.6556, "step": 574 }, { "epoch": 2.448, "grad_norm": 0.32959699630737305, "learning_rate": 4.58311420401589e-07, "loss": 0.6102, "step": 575 }, { "epoch": 2.4522666666666666, "grad_norm": 0.3538116216659546, "learning_rate": 4.515589027488318e-07, "loss": 0.6435, "step": 576 }, { "epoch": 2.4565333333333332, "grad_norm": 0.32300877571105957, "learning_rate": 4.4485155718684334e-07, "loss": 0.5984, "step": 577 }, { "epoch": 2.4608, "grad_norm": 0.3273656666278839, "learning_rate": 4.381895316255741e-07, "loss": 0.5789, "step": 578 }, { "epoch": 2.4650666666666665, "grad_norm": 0.34395623207092285, "learning_rate": 4.31572972975581e-07, "loss": 0.6221, "step": 579 }, { "epoch": 2.469333333333333, "grad_norm": 0.3349197208881378, "learning_rate": 4.2500202714478853e-07, "loss": 0.6468, "step": 580 }, { "epoch": 2.4736000000000002, "grad_norm": 0.34170135855674744, "learning_rate": 4.1847683903526976e-07, "loss": 0.6236, "step": 581 }, { "epoch": 2.4778666666666664, "grad_norm": 0.34563860297203064, "learning_rate": 4.1199755254005105e-07, "loss": 0.644, "step": 582 }, { "epoch": 2.4821333333333335, "grad_norm": 0.3555491268634796, "learning_rate": 4.05564310539939e-07, "loss": 0.6249, "step": 583 }, { "epoch": 2.4864, "grad_norm": 0.36919161677360535, "learning_rate": 3.991772549003725e-07, "loss": 0.6316, "step": 584 }, { "epoch": 2.490666666666667, "grad_norm": 0.3386523723602295, "learning_rate": 3.9283652646828927e-07, "loss": 0.6206, "step": 585 }, { "epoch": 2.4949333333333334, "grad_norm": 0.3346911370754242, "learning_rate": 3.8654226506902204e-07, "loss": 0.5803, "step": 586 }, { "epoch": 2.4992, "grad_norm": 0.3344287872314453, "learning_rate": 3.8029460950321784e-07, "loss": 0.6229, "step": 587 }, { "epoch": 2.5034666666666667, "grad_norm": 0.3264784812927246, "learning_rate": 3.740936975437734e-07, "loss": 0.6047, "step": 588 }, { "epoch": 2.5077333333333334, "grad_norm": 0.33765143156051636, "learning_rate": 3.679396659327986e-07, "loss": 0.6114, "step": 589 }, { "epoch": 2.512, "grad_norm": 0.3362836539745331, "learning_rate": 3.6183265037860126e-07, "loss": 0.6251, "step": 590 }, { "epoch": 2.5162666666666667, "grad_norm": 0.3675728738307953, "learning_rate": 3.557727855526935e-07, "loss": 0.6128, "step": 591 }, { "epoch": 2.5205333333333333, "grad_norm": 0.3262024223804474, "learning_rate": 3.4976020508682345e-07, "loss": 0.6194, "step": 592 }, { "epoch": 2.5248, "grad_norm": 0.3431658148765564, "learning_rate": 3.437950415700264e-07, "loss": 0.6542, "step": 593 }, { "epoch": 2.5290666666666666, "grad_norm": 0.3347388207912445, "learning_rate": 3.378774265457041e-07, "loss": 0.6032, "step": 594 }, { "epoch": 2.533333333333333, "grad_norm": 0.33215099573135376, "learning_rate": 3.320074905087212e-07, "loss": 0.6248, "step": 595 }, { "epoch": 2.5376, "grad_norm": 0.3271443247795105, "learning_rate": 3.261853629025258e-07, "loss": 0.5753, "step": 596 }, { "epoch": 2.5418666666666665, "grad_norm": 0.3376429080963135, "learning_rate": 3.2041117211630166e-07, "loss": 0.6269, "step": 597 }, { "epoch": 2.5461333333333336, "grad_norm": 0.35204386711120605, "learning_rate": 3.14685045482131e-07, "loss": 0.6039, "step": 598 }, { "epoch": 2.5504, "grad_norm": 0.32474127411842346, "learning_rate": 3.090071092721877e-07, "loss": 0.5955, "step": 599 }, { "epoch": 2.554666666666667, "grad_norm": 0.3389427065849304, "learning_rate": 3.033774886959548e-07, "loss": 0.6076, "step": 600 }, { "epoch": 2.558933333333333, "grad_norm": 0.3408302664756775, "learning_rate": 2.977963078974616e-07, "loss": 0.6078, "step": 601 }, { "epoch": 2.5632, "grad_norm": 0.3243234157562256, "learning_rate": 2.922636899525466e-07, "loss": 0.6008, "step": 602 }, { "epoch": 2.567466666666667, "grad_norm": 0.3424961566925049, "learning_rate": 2.8677975686614264e-07, "loss": 0.6593, "step": 603 }, { "epoch": 2.5717333333333334, "grad_norm": 0.3413273096084595, "learning_rate": 2.813446295695893e-07, "loss": 0.5957, "step": 604 }, { "epoch": 2.576, "grad_norm": 0.34058678150177, "learning_rate": 2.759584279179617e-07, "loss": 0.6134, "step": 605 }, { "epoch": 2.5802666666666667, "grad_norm": 0.3428144156932831, "learning_rate": 2.7062127068743116e-07, "loss": 0.6109, "step": 606 }, { "epoch": 2.5845333333333333, "grad_norm": 0.33080190420150757, "learning_rate": 2.65333275572644e-07, "loss": 0.5882, "step": 607 }, { "epoch": 2.5888, "grad_norm": 0.35210663080215454, "learning_rate": 2.6009455918412724e-07, "loss": 0.6054, "step": 608 }, { "epoch": 2.5930666666666666, "grad_norm": 0.3406427800655365, "learning_rate": 2.5490523704571583e-07, "loss": 0.6164, "step": 609 }, { "epoch": 2.5973333333333333, "grad_norm": 0.3491783142089844, "learning_rate": 2.4976542359200664e-07, "loss": 0.5984, "step": 610 }, { "epoch": 2.6016, "grad_norm": 0.33281442523002625, "learning_rate": 2.4467523216583413e-07, "loss": 0.6001, "step": 611 }, { "epoch": 2.6058666666666666, "grad_norm": 0.35289639234542847, "learning_rate": 2.396347750157707e-07, "loss": 0.6258, "step": 612 }, { "epoch": 2.610133333333333, "grad_norm": 0.3332329988479614, "learning_rate": 2.3464416329365137e-07, "loss": 0.6031, "step": 613 }, { "epoch": 2.6144, "grad_norm": 0.34444907307624817, "learning_rate": 2.297035070521242e-07, "loss": 0.598, "step": 614 }, { "epoch": 2.618666666666667, "grad_norm": 0.35094860196113586, "learning_rate": 2.2481291524222154e-07, "loss": 0.6277, "step": 615 }, { "epoch": 2.622933333333333, "grad_norm": 0.34441515803337097, "learning_rate": 2.1997249571095835e-07, "loss": 0.5922, "step": 616 }, { "epoch": 2.6272, "grad_norm": 0.3234129846096039, "learning_rate": 2.151823551989518e-07, "loss": 0.6095, "step": 617 }, { "epoch": 2.6314666666666664, "grad_norm": 0.3194693326950073, "learning_rate": 2.1044259933807293e-07, "loss": 0.576, "step": 618 }, { "epoch": 2.6357333333333335, "grad_norm": 0.3412642776966095, "learning_rate": 2.0575333264911125e-07, "loss": 0.6096, "step": 619 }, { "epoch": 2.64, "grad_norm": 0.3499319851398468, "learning_rate": 2.0111465853947215e-07, "loss": 0.6403, "step": 620 }, { "epoch": 2.6442666666666668, "grad_norm": 0.33573850989341736, "learning_rate": 1.9652667930089908e-07, "loss": 0.5974, "step": 621 }, { "epoch": 2.6485333333333334, "grad_norm": 0.34437811374664307, "learning_rate": 1.9198949610721273e-07, "loss": 0.6193, "step": 622 }, { "epoch": 2.6528, "grad_norm": 0.3286372125148773, "learning_rate": 1.8750320901208345e-07, "loss": 0.6061, "step": 623 }, { "epoch": 2.6570666666666667, "grad_norm": 0.3341968357563019, "learning_rate": 1.8306791694682552e-07, "loss": 0.6014, "step": 624 }, { "epoch": 2.6613333333333333, "grad_norm": 0.34197428822517395, "learning_rate": 1.786837177182127e-07, "loss": 0.5892, "step": 625 }, { "epoch": 2.6656, "grad_norm": 0.35125383734703064, "learning_rate": 1.7435070800632336e-07, "loss": 0.6188, "step": 626 }, { "epoch": 2.6698666666666666, "grad_norm": 0.3228970766067505, "learning_rate": 1.7006898336240723e-07, "loss": 0.5889, "step": 627 }, { "epoch": 2.6741333333333333, "grad_norm": 0.32253357768058777, "learning_rate": 1.6583863820678032e-07, "loss": 0.6036, "step": 628 }, { "epoch": 2.6784, "grad_norm": 0.3427412211894989, "learning_rate": 1.616597658267402e-07, "loss": 0.6298, "step": 629 }, { "epoch": 2.6826666666666665, "grad_norm": 0.34148457646369934, "learning_rate": 1.5753245837451054e-07, "loss": 0.5882, "step": 630 }, { "epoch": 2.686933333333333, "grad_norm": 0.33803874254226685, "learning_rate": 1.534568068652101e-07, "loss": 0.6303, "step": 631 }, { "epoch": 2.6912000000000003, "grad_norm": 0.3265403211116791, "learning_rate": 1.4943290117484104e-07, "loss": 0.5489, "step": 632 }, { "epoch": 2.6954666666666665, "grad_norm": 0.33894577622413635, "learning_rate": 1.4546083003831201e-07, "loss": 0.6069, "step": 633 }, { "epoch": 2.6997333333333335, "grad_norm": 0.33138516545295715, "learning_rate": 1.4154068104747981e-07, "loss": 0.6033, "step": 634 }, { "epoch": 2.7039999999999997, "grad_norm": 0.32515788078308105, "learning_rate": 1.376725406492166e-07, "loss": 0.5931, "step": 635 }, { "epoch": 2.708266666666667, "grad_norm": 0.340743750333786, "learning_rate": 1.3385649414350442e-07, "loss": 0.6482, "step": 636 }, { "epoch": 2.7125333333333335, "grad_norm": 0.348867267370224, "learning_rate": 1.3009262568155462e-07, "loss": 0.5972, "step": 637 }, { "epoch": 2.7168, "grad_norm": 0.32340556383132935, "learning_rate": 1.2638101826395104e-07, "loss": 0.584, "step": 638 }, { "epoch": 2.7210666666666667, "grad_norm": 0.3204813003540039, "learning_rate": 1.227217537388209e-07, "loss": 0.6476, "step": 639 }, { "epoch": 2.7253333333333334, "grad_norm": 0.3281926214694977, "learning_rate": 1.1911491280002907e-07, "loss": 0.5966, "step": 640 }, { "epoch": 2.7296, "grad_norm": 0.3434792757034302, "learning_rate": 1.1556057498539913e-07, "loss": 0.5946, "step": 641 }, { "epoch": 2.7338666666666667, "grad_norm": 0.3499756455421448, "learning_rate": 1.120588186749591e-07, "loss": 0.6589, "step": 642 }, { "epoch": 2.7381333333333333, "grad_norm": 0.32970553636550903, "learning_rate": 1.0860972108921258e-07, "loss": 0.6073, "step": 643 }, { "epoch": 2.7424, "grad_norm": 0.3311205506324768, "learning_rate": 1.0521335828743678e-07, "loss": 0.5906, "step": 644 }, { "epoch": 2.7466666666666666, "grad_norm": 0.34418705105781555, "learning_rate": 1.0186980516600525e-07, "loss": 0.6233, "step": 645 }, { "epoch": 2.7509333333333332, "grad_norm": 0.32787424325942993, "learning_rate": 9.857913545673503e-08, "loss": 0.6237, "step": 646 }, { "epoch": 2.7552, "grad_norm": 0.31942757964134216, "learning_rate": 9.534142172526239e-08, "loss": 0.6018, "step": 647 }, { "epoch": 2.7594666666666665, "grad_norm": 0.3224412500858307, "learning_rate": 9.215673536944108e-08, "loss": 0.6439, "step": 648 }, { "epoch": 2.7637333333333336, "grad_norm": 0.331991583108902, "learning_rate": 8.902514661776885e-08, "loss": 0.5759, "step": 649 }, { "epoch": 2.768, "grad_norm": 0.32098379731178284, "learning_rate": 8.594672452783892e-08, "loss": 0.6009, "step": 650 }, { "epoch": 2.772266666666667, "grad_norm": 0.33318814635276794, "learning_rate": 8.292153698481631e-08, "loss": 0.6401, "step": 651 }, { "epoch": 2.776533333333333, "grad_norm": 0.3261711895465851, "learning_rate": 7.994965069994143e-08, "loss": 0.6193, "step": 652 }, { "epoch": 2.7808, "grad_norm": 0.32475578784942627, "learning_rate": 7.703113120905825e-08, "loss": 0.6092, "step": 653 }, { "epoch": 2.785066666666667, "grad_norm": 0.3446325957775116, "learning_rate": 7.416604287117018e-08, "loss": 0.5965, "step": 654 }, { "epoch": 2.7893333333333334, "grad_norm": 0.3262110948562622, "learning_rate": 7.135444886702064e-08, "loss": 0.5995, "step": 655 }, { "epoch": 2.7936, "grad_norm": 0.3156624734401703, "learning_rate": 6.859641119769861e-08, "loss": 0.6088, "step": 656 }, { "epoch": 2.7978666666666667, "grad_norm": 0.33477863669395447, "learning_rate": 6.58919906832728e-08, "loss": 0.6326, "step": 657 }, { "epoch": 2.8021333333333334, "grad_norm": 0.32477566599845886, "learning_rate": 6.324124696144962e-08, "loss": 0.5886, "step": 658 }, { "epoch": 2.8064, "grad_norm": 0.31346455216407776, "learning_rate": 6.064423848625822e-08, "loss": 0.6223, "step": 659 }, { "epoch": 2.8106666666666666, "grad_norm": 0.3541554808616638, "learning_rate": 5.810102252676225e-08, "loss": 0.6283, "step": 660 }, { "epoch": 2.8149333333333333, "grad_norm": 0.31597334146499634, "learning_rate": 5.5611655165795365e-08, "loss": 0.6229, "step": 661 }, { "epoch": 2.8192, "grad_norm": 0.325488418340683, "learning_rate": 5.3176191298726085e-08, "loss": 0.611, "step": 662 }, { "epoch": 2.8234666666666666, "grad_norm": 0.34377193450927734, "learning_rate": 5.0794684632246294e-08, "loss": 0.6153, "step": 663 }, { "epoch": 2.827733333333333, "grad_norm": 0.3318426311016083, "learning_rate": 4.846718768318659e-08, "loss": 0.5911, "step": 664 }, { "epoch": 2.832, "grad_norm": 0.33121493458747864, "learning_rate": 4.619375177736002e-08, "loss": 0.5897, "step": 665 }, { "epoch": 2.836266666666667, "grad_norm": 0.3531855642795563, "learning_rate": 4.397442704842825e-08, "loss": 0.6235, "step": 666 }, { "epoch": 2.840533333333333, "grad_norm": 0.33835938572883606, "learning_rate": 4.1809262436796896e-08, "loss": 0.6011, "step": 667 }, { "epoch": 2.8448, "grad_norm": 0.33475086092948914, "learning_rate": 3.9698305688535835e-08, "loss": 0.6189, "step": 668 }, { "epoch": 2.8490666666666664, "grad_norm": 0.341691792011261, "learning_rate": 3.764160335432726e-08, "loss": 0.6417, "step": 669 }, { "epoch": 2.8533333333333335, "grad_norm": 0.3405057489871979, "learning_rate": 3.563920078843791e-08, "loss": 0.6067, "step": 670 }, { "epoch": 2.8576, "grad_norm": 0.3475085198879242, "learning_rate": 3.369114214771957e-08, "loss": 0.634, "step": 671 }, { "epoch": 2.861866666666667, "grad_norm": 0.3283518850803375, "learning_rate": 3.179747039063652e-08, "loss": 0.5701, "step": 672 }, { "epoch": 2.8661333333333334, "grad_norm": 0.31825271248817444, "learning_rate": 2.99582272763152e-08, "loss": 0.5646, "step": 673 }, { "epoch": 2.8704, "grad_norm": 0.32577526569366455, "learning_rate": 2.8173453363626313e-08, "loss": 0.6118, "step": 674 }, { "epoch": 2.8746666666666667, "grad_norm": 0.32733026146888733, "learning_rate": 2.6443188010288612e-08, "loss": 0.6049, "step": 675 }, { "epoch": 2.8789333333333333, "grad_norm": 0.30781808495521545, "learning_rate": 2.4767469372002362e-08, "loss": 0.5807, "step": 676 }, { "epoch": 2.8832, "grad_norm": 0.33830124139785767, "learning_rate": 2.3146334401606406e-08, "loss": 0.6324, "step": 677 }, { "epoch": 2.8874666666666666, "grad_norm": 0.3217734694480896, "learning_rate": 2.1579818848264656e-08, "loss": 0.622, "step": 678 }, { "epoch": 2.8917333333333333, "grad_norm": 0.3331310749053955, "learning_rate": 2.0067957256676428e-08, "loss": 0.6071, "step": 679 }, { "epoch": 2.896, "grad_norm": 0.3501247465610504, "learning_rate": 1.861078296631652e-08, "loss": 0.6558, "step": 680 }, { "epoch": 2.9002666666666665, "grad_norm": 0.3323565423488617, "learning_rate": 1.7208328110697726e-08, "loss": 0.6192, "step": 681 }, { "epoch": 2.904533333333333, "grad_norm": 0.34517747163772583, "learning_rate": 1.5860623616664183e-08, "loss": 0.5974, "step": 682 }, { "epoch": 2.9088000000000003, "grad_norm": 0.33607083559036255, "learning_rate": 1.4567699203708597e-08, "loss": 0.6046, "step": 683 }, { "epoch": 2.9130666666666665, "grad_norm": 0.3128437101840973, "learning_rate": 1.332958338331608e-08, "loss": 0.585, "step": 684 }, { "epoch": 2.9173333333333336, "grad_norm": 0.31413301825523376, "learning_rate": 1.2146303458337172e-08, "loss": 0.5879, "step": 685 }, { "epoch": 2.9215999999999998, "grad_norm": 0.33694204688072205, "learning_rate": 1.1017885522383864e-08, "loss": 0.5916, "step": 686 }, { "epoch": 2.925866666666667, "grad_norm": 0.3271304666996002, "learning_rate": 9.944354459256178e-09, "loss": 0.5807, "step": 687 }, { "epoch": 2.9301333333333335, "grad_norm": 0.32571712136268616, "learning_rate": 8.92573394239149e-09, "loss": 0.5992, "step": 688 }, { "epoch": 2.9344, "grad_norm": 0.32543250918388367, "learning_rate": 7.962046434343562e-09, "loss": 0.6143, "step": 689 }, { "epoch": 2.9386666666666668, "grad_norm": 0.338191419839859, "learning_rate": 7.0533131862873804e-09, "loss": 0.6197, "step": 690 }, { "epoch": 2.9429333333333334, "grad_norm": 0.32142868638038635, "learning_rate": 6.1995542375495325e-09, "loss": 0.5715, "step": 691 }, { "epoch": 2.9472, "grad_norm": 0.31995338201522827, "learning_rate": 5.400788415167168e-09, "loss": 0.6164, "step": 692 }, { "epoch": 2.9514666666666667, "grad_norm": 0.32262685894966125, "learning_rate": 4.657033333472782e-09, "loss": 0.5794, "step": 693 }, { "epoch": 2.9557333333333333, "grad_norm": 0.3404903709888458, "learning_rate": 3.96830539370563e-09, "loss": 0.6333, "step": 694 }, { "epoch": 2.96, "grad_norm": 0.330427348613739, "learning_rate": 3.33461978364924e-09, "loss": 0.6157, "step": 695 }, { "epoch": 2.9642666666666666, "grad_norm": 0.32176586985588074, "learning_rate": 2.755990477298076e-09, "loss": 0.6469, "step": 696 }, { "epoch": 2.9685333333333332, "grad_norm": 0.3283085823059082, "learning_rate": 2.2324302345483327e-09, "loss": 0.6124, "step": 697 }, { "epoch": 2.9728, "grad_norm": 0.3386090397834778, "learning_rate": 1.7639506009162199e-09, "loss": 0.5898, "step": 698 }, { "epoch": 2.9770666666666665, "grad_norm": 0.3304394781589508, "learning_rate": 1.3505619072848309e-09, "loss": 0.6167, "step": 699 }, { "epoch": 2.981333333333333, "grad_norm": 0.3292512893676758, "learning_rate": 9.922732696748816e-10, "loss": 0.6138, "step": 700 }, { "epoch": 2.9856, "grad_norm": 0.32595470547676086, "learning_rate": 6.890925890437605e-10, "loss": 0.6257, "step": 701 }, { "epoch": 2.989866666666667, "grad_norm": 0.32718536257743835, "learning_rate": 4.410265511128886e-10, "loss": 0.6169, "step": 702 }, { "epoch": 2.994133333333333, "grad_norm": 0.3314308822154999, "learning_rate": 2.480806262181168e-10, "loss": 0.6169, "step": 703 }, { "epoch": 2.9984, "grad_norm": 0.3245869576931, "learning_rate": 1.1025906919065465e-10, "loss": 0.5867, "step": 704 }, { "epoch": 3.0, "grad_norm": 0.579947292804718, "learning_rate": 2.756491926270144e-11, "loss": 0.6911, "step": 705 }, { "epoch": 3.0, "step": 705, "total_flos": 385665514733568.0, "train_loss": 0.6493097235970463, "train_runtime": 29533.3855, "train_samples_per_second": 1.524, "train_steps_per_second": 0.024 } ], "logging_steps": 1, "max_steps": 705, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 385665514733568.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }