{ "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 9000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0003333333333333333, "grad_norm": 15.483834266662598, "learning_rate": 2.2222222222222224e-08, "loss": 2.4695, "step": 1 }, { "epoch": 0.0006666666666666666, "grad_norm": 12.210597038269043, "learning_rate": 4.444444444444445e-08, "loss": 2.5634, "step": 2 }, { "epoch": 0.001, "grad_norm": 12.039048194885254, "learning_rate": 6.666666666666668e-08, "loss": 2.4918, "step": 3 }, { "epoch": 0.0013333333333333333, "grad_norm": 10.530542373657227, "learning_rate": 8.88888888888889e-08, "loss": 2.486, "step": 4 }, { "epoch": 0.0016666666666666668, "grad_norm": 13.285630226135254, "learning_rate": 1.1111111111111112e-07, "loss": 2.7367, "step": 5 }, { "epoch": 0.002, "grad_norm": 17.898574829101562, "learning_rate": 1.3333333333333336e-07, "loss": 2.5451, "step": 6 }, { "epoch": 0.0023333333333333335, "grad_norm": 15.266742706298828, "learning_rate": 1.5555555555555556e-07, "loss": 2.7216, "step": 7 }, { "epoch": 0.0026666666666666666, "grad_norm": 11.564827919006348, "learning_rate": 1.777777777777778e-07, "loss": 2.5176, "step": 8 }, { "epoch": 0.003, "grad_norm": 16.329145431518555, "learning_rate": 2.0000000000000002e-07, "loss": 2.5706, "step": 9 }, { "epoch": 0.0033333333333333335, "grad_norm": 19.051498413085938, "learning_rate": 2.2222222222222224e-07, "loss": 2.5244, "step": 10 }, { "epoch": 0.0036666666666666666, "grad_norm": 12.913249969482422, "learning_rate": 2.444444444444445e-07, "loss": 2.5767, "step": 11 }, { "epoch": 0.004, "grad_norm": 12.247255325317383, "learning_rate": 2.666666666666667e-07, "loss": 2.4912, "step": 12 }, { "epoch": 0.004333333333333333, "grad_norm": 10.821545600891113, "learning_rate": 2.888888888888889e-07, "loss": 2.4361, "step": 13 }, { "epoch": 0.004666666666666667, "grad_norm": 14.99991512298584, "learning_rate": 3.111111111111111e-07, "loss": 2.6404, "step": 14 }, { "epoch": 0.005, "grad_norm": 11.54598331451416, "learning_rate": 3.3333333333333335e-07, "loss": 2.5249, "step": 15 }, { "epoch": 0.005333333333333333, "grad_norm": 17.67732048034668, "learning_rate": 3.555555555555556e-07, "loss": 2.5165, "step": 16 }, { "epoch": 0.005666666666666667, "grad_norm": 12.4342041015625, "learning_rate": 3.777777777777778e-07, "loss": 2.4871, "step": 17 }, { "epoch": 0.006, "grad_norm": 17.28836441040039, "learning_rate": 4.0000000000000003e-07, "loss": 2.5456, "step": 18 }, { "epoch": 0.006333333333333333, "grad_norm": 20.38640022277832, "learning_rate": 4.2222222222222226e-07, "loss": 2.457, "step": 19 }, { "epoch": 0.006666666666666667, "grad_norm": 24.533634185791016, "learning_rate": 4.444444444444445e-07, "loss": 2.6732, "step": 20 }, { "epoch": 0.007, "grad_norm": 15.844533920288086, "learning_rate": 4.666666666666667e-07, "loss": 2.5034, "step": 21 }, { "epoch": 0.007333333333333333, "grad_norm": 15.455002784729004, "learning_rate": 4.88888888888889e-07, "loss": 2.5174, "step": 22 }, { "epoch": 0.007666666666666666, "grad_norm": 11.586151123046875, "learning_rate": 5.111111111111112e-07, "loss": 2.4046, "step": 23 }, { "epoch": 0.008, "grad_norm": 11.079305648803711, "learning_rate": 5.333333333333335e-07, "loss": 2.4388, "step": 24 }, { "epoch": 0.008333333333333333, "grad_norm": 13.07664966583252, "learning_rate": 5.555555555555555e-07, "loss": 2.4107, "step": 25 }, { "epoch": 0.008666666666666666, "grad_norm": 12.323824882507324, "learning_rate": 5.777777777777778e-07, "loss": 2.3931, "step": 26 }, { "epoch": 0.009, "grad_norm": 22.025707244873047, "learning_rate": 6.000000000000001e-07, "loss": 2.5483, "step": 27 }, { "epoch": 0.009333333333333334, "grad_norm": 10.162385940551758, "learning_rate": 6.222222222222223e-07, "loss": 2.3843, "step": 28 }, { "epoch": 0.009666666666666667, "grad_norm": 26.29161834716797, "learning_rate": 6.444444444444445e-07, "loss": 2.4551, "step": 29 }, { "epoch": 0.01, "grad_norm": 17.98237419128418, "learning_rate": 6.666666666666667e-07, "loss": 2.3195, "step": 30 }, { "epoch": 0.010333333333333333, "grad_norm": 11.285619735717773, "learning_rate": 6.88888888888889e-07, "loss": 2.3862, "step": 31 }, { "epoch": 0.010666666666666666, "grad_norm": 11.58557415008545, "learning_rate": 7.111111111111112e-07, "loss": 2.372, "step": 32 }, { "epoch": 0.011, "grad_norm": 11.78183650970459, "learning_rate": 7.333333333333334e-07, "loss": 2.3471, "step": 33 }, { "epoch": 0.011333333333333334, "grad_norm": 11.701957702636719, "learning_rate": 7.555555555555556e-07, "loss": 2.3318, "step": 34 }, { "epoch": 0.011666666666666667, "grad_norm": 11.414590835571289, "learning_rate": 7.777777777777779e-07, "loss": 2.2884, "step": 35 }, { "epoch": 0.012, "grad_norm": 14.758543014526367, "learning_rate": 8.000000000000001e-07, "loss": 2.3573, "step": 36 }, { "epoch": 0.012333333333333333, "grad_norm": 12.022770881652832, "learning_rate": 8.222222222222223e-07, "loss": 2.2037, "step": 37 }, { "epoch": 0.012666666666666666, "grad_norm": 14.477051734924316, "learning_rate": 8.444444444444445e-07, "loss": 2.3243, "step": 38 }, { "epoch": 0.013, "grad_norm": 10.191349029541016, "learning_rate": 8.666666666666668e-07, "loss": 2.2392, "step": 39 }, { "epoch": 0.013333333333333334, "grad_norm": 14.050091743469238, "learning_rate": 8.88888888888889e-07, "loss": 2.2085, "step": 40 }, { "epoch": 0.013666666666666667, "grad_norm": 11.783500671386719, "learning_rate": 9.111111111111113e-07, "loss": 2.1095, "step": 41 }, { "epoch": 0.014, "grad_norm": 11.498329162597656, "learning_rate": 9.333333333333334e-07, "loss": 2.1769, "step": 42 }, { "epoch": 0.014333333333333333, "grad_norm": 12.038064002990723, "learning_rate": 9.555555555555556e-07, "loss": 2.0133, "step": 43 }, { "epoch": 0.014666666666666666, "grad_norm": 20.076196670532227, "learning_rate": 9.77777777777778e-07, "loss": 2.0727, "step": 44 }, { "epoch": 0.015, "grad_norm": 11.58134651184082, "learning_rate": 1.0000000000000002e-06, "loss": 2.0479, "step": 45 }, { "epoch": 0.015333333333333332, "grad_norm": 12.299894332885742, "learning_rate": 1.0222222222222223e-06, "loss": 2.0069, "step": 46 }, { "epoch": 0.015666666666666666, "grad_norm": 19.212779998779297, "learning_rate": 1.0444444444444445e-06, "loss": 2.1717, "step": 47 }, { "epoch": 0.016, "grad_norm": 8.969616889953613, "learning_rate": 1.066666666666667e-06, "loss": 2.03, "step": 48 }, { "epoch": 0.01633333333333333, "grad_norm": 7.151369571685791, "learning_rate": 1.0888888888888889e-06, "loss": 1.8041, "step": 49 }, { "epoch": 0.016666666666666666, "grad_norm": 9.04044246673584, "learning_rate": 1.111111111111111e-06, "loss": 1.9774, "step": 50 }, { "epoch": 0.017, "grad_norm": 8.885573387145996, "learning_rate": 1.1333333333333334e-06, "loss": 1.8785, "step": 51 }, { "epoch": 0.017333333333333333, "grad_norm": 6.911837100982666, "learning_rate": 1.1555555555555556e-06, "loss": 1.768, "step": 52 }, { "epoch": 0.017666666666666667, "grad_norm": 10.794865608215332, "learning_rate": 1.1777777777777778e-06, "loss": 1.7694, "step": 53 }, { "epoch": 0.018, "grad_norm": 6.722680568695068, "learning_rate": 1.2000000000000002e-06, "loss": 1.7242, "step": 54 }, { "epoch": 0.018333333333333333, "grad_norm": 7.395876407623291, "learning_rate": 1.2222222222222223e-06, "loss": 1.7397, "step": 55 }, { "epoch": 0.018666666666666668, "grad_norm": 8.92789077758789, "learning_rate": 1.2444444444444445e-06, "loss": 1.709, "step": 56 }, { "epoch": 0.019, "grad_norm": 5.237385272979736, "learning_rate": 1.2666666666666669e-06, "loss": 1.7997, "step": 57 }, { "epoch": 0.019333333333333334, "grad_norm": 4.562684535980225, "learning_rate": 1.288888888888889e-06, "loss": 1.6966, "step": 58 }, { "epoch": 0.019666666666666666, "grad_norm": 5.247601509094238, "learning_rate": 1.3111111111111112e-06, "loss": 1.7542, "step": 59 }, { "epoch": 0.02, "grad_norm": 5.398292064666748, "learning_rate": 1.3333333333333334e-06, "loss": 1.4922, "step": 60 }, { "epoch": 0.02033333333333333, "grad_norm": 5.790295600891113, "learning_rate": 1.3555555555555558e-06, "loss": 1.6083, "step": 61 }, { "epoch": 0.020666666666666667, "grad_norm": 6.4872822761535645, "learning_rate": 1.377777777777778e-06, "loss": 1.6952, "step": 62 }, { "epoch": 0.021, "grad_norm": 4.954003810882568, "learning_rate": 1.4000000000000001e-06, "loss": 1.6576, "step": 63 }, { "epoch": 0.021333333333333333, "grad_norm": 4.286629676818848, "learning_rate": 1.4222222222222223e-06, "loss": 1.6337, "step": 64 }, { "epoch": 0.021666666666666667, "grad_norm": 4.747916221618652, "learning_rate": 1.4444444444444445e-06, "loss": 1.6551, "step": 65 }, { "epoch": 0.022, "grad_norm": 3.8429605960845947, "learning_rate": 1.4666666666666669e-06, "loss": 1.6396, "step": 66 }, { "epoch": 0.022333333333333334, "grad_norm": 4.056787490844727, "learning_rate": 1.4888888888888888e-06, "loss": 1.618, "step": 67 }, { "epoch": 0.02266666666666667, "grad_norm": 3.8002164363861084, "learning_rate": 1.5111111111111112e-06, "loss": 1.5363, "step": 68 }, { "epoch": 0.023, "grad_norm": 3.8432459831237793, "learning_rate": 1.5333333333333334e-06, "loss": 1.6271, "step": 69 }, { "epoch": 0.023333333333333334, "grad_norm": 4.530714511871338, "learning_rate": 1.5555555555555558e-06, "loss": 1.5907, "step": 70 }, { "epoch": 0.023666666666666666, "grad_norm": 2.942293167114258, "learning_rate": 1.5777777777777778e-06, "loss": 1.5109, "step": 71 }, { "epoch": 0.024, "grad_norm": 3.0982654094696045, "learning_rate": 1.6000000000000001e-06, "loss": 1.5326, "step": 72 }, { "epoch": 0.024333333333333332, "grad_norm": 3.2497313022613525, "learning_rate": 1.6222222222222223e-06, "loss": 1.5008, "step": 73 }, { "epoch": 0.024666666666666667, "grad_norm": 3.474163293838501, "learning_rate": 1.6444444444444447e-06, "loss": 1.6914, "step": 74 }, { "epoch": 0.025, "grad_norm": 8.692206382751465, "learning_rate": 1.6666666666666667e-06, "loss": 1.6337, "step": 75 }, { "epoch": 0.025333333333333333, "grad_norm": 3.722869873046875, "learning_rate": 1.688888888888889e-06, "loss": 1.5106, "step": 76 }, { "epoch": 0.025666666666666667, "grad_norm": 2.901139974594116, "learning_rate": 1.7111111111111112e-06, "loss": 1.6043, "step": 77 }, { "epoch": 0.026, "grad_norm": 2.656733274459839, "learning_rate": 1.7333333333333336e-06, "loss": 1.4698, "step": 78 }, { "epoch": 0.026333333333333334, "grad_norm": 3.3284049034118652, "learning_rate": 1.7555555555555556e-06, "loss": 1.4834, "step": 79 }, { "epoch": 0.02666666666666667, "grad_norm": 2.2450153827667236, "learning_rate": 1.777777777777778e-06, "loss": 1.4378, "step": 80 }, { "epoch": 0.027, "grad_norm": 3.224684238433838, "learning_rate": 1.8000000000000001e-06, "loss": 1.5458, "step": 81 }, { "epoch": 0.027333333333333334, "grad_norm": 3.133759021759033, "learning_rate": 1.8222222222222225e-06, "loss": 1.5901, "step": 82 }, { "epoch": 0.027666666666666666, "grad_norm": 2.7170097827911377, "learning_rate": 1.8444444444444445e-06, "loss": 1.5318, "step": 83 }, { "epoch": 0.028, "grad_norm": 2.3953614234924316, "learning_rate": 1.8666666666666669e-06, "loss": 1.3938, "step": 84 }, { "epoch": 0.028333333333333332, "grad_norm": 2.6315011978149414, "learning_rate": 1.888888888888889e-06, "loss": 1.486, "step": 85 }, { "epoch": 0.028666666666666667, "grad_norm": 2.273895263671875, "learning_rate": 1.9111111111111112e-06, "loss": 1.4391, "step": 86 }, { "epoch": 0.029, "grad_norm": 2.1958627700805664, "learning_rate": 1.9333333333333336e-06, "loss": 1.5781, "step": 87 }, { "epoch": 0.029333333333333333, "grad_norm": 4.581125736236572, "learning_rate": 1.955555555555556e-06, "loss": 1.5318, "step": 88 }, { "epoch": 0.029666666666666668, "grad_norm": 2.566713333129883, "learning_rate": 1.977777777777778e-06, "loss": 1.5328, "step": 89 }, { "epoch": 0.03, "grad_norm": 2.0541727542877197, "learning_rate": 2.0000000000000003e-06, "loss": 1.4081, "step": 90 }, { "epoch": 0.030333333333333334, "grad_norm": 2.372750759124756, "learning_rate": 2.0222222222222223e-06, "loss": 1.4346, "step": 91 }, { "epoch": 0.030666666666666665, "grad_norm": 2.4790232181549072, "learning_rate": 2.0444444444444447e-06, "loss": 1.5006, "step": 92 }, { "epoch": 0.031, "grad_norm": 1.842381238937378, "learning_rate": 2.0666666666666666e-06, "loss": 1.4765, "step": 93 }, { "epoch": 0.03133333333333333, "grad_norm": 2.035754680633545, "learning_rate": 2.088888888888889e-06, "loss": 1.4111, "step": 94 }, { "epoch": 0.03166666666666667, "grad_norm": 1.8570780754089355, "learning_rate": 2.1111111111111114e-06, "loss": 1.4385, "step": 95 }, { "epoch": 0.032, "grad_norm": 2.595578670501709, "learning_rate": 2.133333333333334e-06, "loss": 1.3999, "step": 96 }, { "epoch": 0.03233333333333333, "grad_norm": 1.9990808963775635, "learning_rate": 2.1555555555555558e-06, "loss": 1.418, "step": 97 }, { "epoch": 0.03266666666666666, "grad_norm": 2.280733346939087, "learning_rate": 2.1777777777777777e-06, "loss": 1.4817, "step": 98 }, { "epoch": 0.033, "grad_norm": 2.075305461883545, "learning_rate": 2.2e-06, "loss": 1.4865, "step": 99 }, { "epoch": 0.03333333333333333, "grad_norm": 1.8431602716445923, "learning_rate": 2.222222222222222e-06, "loss": 1.4484, "step": 100 }, { "epoch": 0.033666666666666664, "grad_norm": 2.0524024963378906, "learning_rate": 2.2444444444444445e-06, "loss": 1.465, "step": 101 }, { "epoch": 0.034, "grad_norm": 2.0179994106292725, "learning_rate": 2.266666666666667e-06, "loss": 1.381, "step": 102 }, { "epoch": 0.034333333333333334, "grad_norm": 1.6242879629135132, "learning_rate": 2.2888888888888892e-06, "loss": 1.3618, "step": 103 }, { "epoch": 0.034666666666666665, "grad_norm": 1.5702133178710938, "learning_rate": 2.311111111111111e-06, "loss": 1.4513, "step": 104 }, { "epoch": 0.035, "grad_norm": 2.11061692237854, "learning_rate": 2.3333333333333336e-06, "loss": 1.489, "step": 105 }, { "epoch": 0.035333333333333335, "grad_norm": 1.4422800540924072, "learning_rate": 2.3555555555555555e-06, "loss": 1.3474, "step": 106 }, { "epoch": 0.035666666666666666, "grad_norm": 1.835077166557312, "learning_rate": 2.377777777777778e-06, "loss": 1.169, "step": 107 }, { "epoch": 0.036, "grad_norm": 1.5967047214508057, "learning_rate": 2.4000000000000003e-06, "loss": 1.4791, "step": 108 }, { "epoch": 0.036333333333333336, "grad_norm": 1.4876264333724976, "learning_rate": 2.4222222222222223e-06, "loss": 1.3253, "step": 109 }, { "epoch": 0.03666666666666667, "grad_norm": 6.190934181213379, "learning_rate": 2.4444444444444447e-06, "loss": 1.431, "step": 110 }, { "epoch": 0.037, "grad_norm": 1.7945926189422607, "learning_rate": 2.466666666666667e-06, "loss": 1.4117, "step": 111 }, { "epoch": 0.037333333333333336, "grad_norm": 1.8085747957229614, "learning_rate": 2.488888888888889e-06, "loss": 1.3967, "step": 112 }, { "epoch": 0.03766666666666667, "grad_norm": 1.820383071899414, "learning_rate": 2.5111111111111114e-06, "loss": 1.4246, "step": 113 }, { "epoch": 0.038, "grad_norm": 1.938625693321228, "learning_rate": 2.5333333333333338e-06, "loss": 1.3566, "step": 114 }, { "epoch": 0.03833333333333333, "grad_norm": 1.7998836040496826, "learning_rate": 2.5555555555555557e-06, "loss": 1.2963, "step": 115 }, { "epoch": 0.03866666666666667, "grad_norm": 1.5755552053451538, "learning_rate": 2.577777777777778e-06, "loss": 1.4064, "step": 116 }, { "epoch": 0.039, "grad_norm": 1.5559128522872925, "learning_rate": 2.6e-06, "loss": 1.3726, "step": 117 }, { "epoch": 0.03933333333333333, "grad_norm": 1.511427640914917, "learning_rate": 2.6222222222222225e-06, "loss": 1.4041, "step": 118 }, { "epoch": 0.03966666666666667, "grad_norm": 1.593808889389038, "learning_rate": 2.6444444444444444e-06, "loss": 1.3972, "step": 119 }, { "epoch": 0.04, "grad_norm": 1.6744073629379272, "learning_rate": 2.666666666666667e-06, "loss": 1.3895, "step": 120 }, { "epoch": 0.04033333333333333, "grad_norm": 1.4619052410125732, "learning_rate": 2.6888888888888892e-06, "loss": 1.2623, "step": 121 }, { "epoch": 0.04066666666666666, "grad_norm": 1.6849281787872314, "learning_rate": 2.7111111111111116e-06, "loss": 1.3463, "step": 122 }, { "epoch": 0.041, "grad_norm": 1.5644203424453735, "learning_rate": 2.7333333333333336e-06, "loss": 1.3406, "step": 123 }, { "epoch": 0.04133333333333333, "grad_norm": 1.4968042373657227, "learning_rate": 2.755555555555556e-06, "loss": 1.3818, "step": 124 }, { "epoch": 0.041666666666666664, "grad_norm": 1.7906386852264404, "learning_rate": 2.7777777777777783e-06, "loss": 1.2245, "step": 125 }, { "epoch": 0.042, "grad_norm": 1.3810752630233765, "learning_rate": 2.8000000000000003e-06, "loss": 1.3872, "step": 126 }, { "epoch": 0.042333333333333334, "grad_norm": 1.4208086729049683, "learning_rate": 2.8222222222222223e-06, "loss": 1.2718, "step": 127 }, { "epoch": 0.042666666666666665, "grad_norm": 1.6148021221160889, "learning_rate": 2.8444444444444446e-06, "loss": 1.3075, "step": 128 }, { "epoch": 0.043, "grad_norm": 1.4911831617355347, "learning_rate": 2.866666666666667e-06, "loss": 1.3303, "step": 129 }, { "epoch": 0.043333333333333335, "grad_norm": 1.3471121788024902, "learning_rate": 2.888888888888889e-06, "loss": 1.2575, "step": 130 }, { "epoch": 0.043666666666666666, "grad_norm": 1.5235962867736816, "learning_rate": 2.9111111111111114e-06, "loss": 1.3054, "step": 131 }, { "epoch": 0.044, "grad_norm": 1.3587009906768799, "learning_rate": 2.9333333333333338e-06, "loss": 1.3027, "step": 132 }, { "epoch": 0.044333333333333336, "grad_norm": 1.5427789688110352, "learning_rate": 2.955555555555556e-06, "loss": 1.3632, "step": 133 }, { "epoch": 0.04466666666666667, "grad_norm": 1.3619639873504639, "learning_rate": 2.9777777777777777e-06, "loss": 1.3555, "step": 134 }, { "epoch": 0.045, "grad_norm": 1.2612428665161133, "learning_rate": 3e-06, "loss": 1.3255, "step": 135 }, { "epoch": 0.04533333333333334, "grad_norm": 1.6188839673995972, "learning_rate": 3.0222222222222225e-06, "loss": 1.3535, "step": 136 }, { "epoch": 0.04566666666666667, "grad_norm": 1.347509741783142, "learning_rate": 3.044444444444445e-06, "loss": 1.2769, "step": 137 }, { "epoch": 0.046, "grad_norm": 1.4961661100387573, "learning_rate": 3.066666666666667e-06, "loss": 1.433, "step": 138 }, { "epoch": 0.04633333333333333, "grad_norm": 1.3602139949798584, "learning_rate": 3.088888888888889e-06, "loss": 1.2828, "step": 139 }, { "epoch": 0.04666666666666667, "grad_norm": 1.286740779876709, "learning_rate": 3.1111111111111116e-06, "loss": 1.3635, "step": 140 }, { "epoch": 0.047, "grad_norm": 1.2654173374176025, "learning_rate": 3.133333333333334e-06, "loss": 1.3668, "step": 141 }, { "epoch": 0.04733333333333333, "grad_norm": 1.4072736501693726, "learning_rate": 3.1555555555555555e-06, "loss": 1.3464, "step": 142 }, { "epoch": 0.04766666666666667, "grad_norm": 1.2724931240081787, "learning_rate": 3.177777777777778e-06, "loss": 1.3135, "step": 143 }, { "epoch": 0.048, "grad_norm": 1.2339658737182617, "learning_rate": 3.2000000000000003e-06, "loss": 1.2525, "step": 144 }, { "epoch": 0.04833333333333333, "grad_norm": 1.3238131999969482, "learning_rate": 3.2222222222222227e-06, "loss": 1.2757, "step": 145 }, { "epoch": 0.048666666666666664, "grad_norm": 1.491300344467163, "learning_rate": 3.2444444444444446e-06, "loss": 1.3233, "step": 146 }, { "epoch": 0.049, "grad_norm": 1.3430378437042236, "learning_rate": 3.266666666666667e-06, "loss": 1.3132, "step": 147 }, { "epoch": 0.04933333333333333, "grad_norm": 1.4021379947662354, "learning_rate": 3.2888888888888894e-06, "loss": 1.3387, "step": 148 }, { "epoch": 0.049666666666666665, "grad_norm": 1.1979670524597168, "learning_rate": 3.3111111111111118e-06, "loss": 1.2472, "step": 149 }, { "epoch": 0.05, "grad_norm": 1.2636607885360718, "learning_rate": 3.3333333333333333e-06, "loss": 1.3043, "step": 150 }, { "epoch": 0.050333333333333334, "grad_norm": 1.3946751356124878, "learning_rate": 3.3555555555555557e-06, "loss": 1.2108, "step": 151 }, { "epoch": 0.050666666666666665, "grad_norm": 1.2885507345199585, "learning_rate": 3.377777777777778e-06, "loss": 1.3348, "step": 152 }, { "epoch": 0.051, "grad_norm": 1.3779282569885254, "learning_rate": 3.4000000000000005e-06, "loss": 1.1304, "step": 153 }, { "epoch": 0.051333333333333335, "grad_norm": 1.236070990562439, "learning_rate": 3.4222222222222224e-06, "loss": 1.3648, "step": 154 }, { "epoch": 0.051666666666666666, "grad_norm": 1.3062734603881836, "learning_rate": 3.444444444444445e-06, "loss": 1.3378, "step": 155 }, { "epoch": 0.052, "grad_norm": 1.436011791229248, "learning_rate": 3.4666666666666672e-06, "loss": 1.2278, "step": 156 }, { "epoch": 0.052333333333333336, "grad_norm": 2.093560218811035, "learning_rate": 3.4888888888888896e-06, "loss": 1.3101, "step": 157 }, { "epoch": 0.05266666666666667, "grad_norm": 1.723180890083313, "learning_rate": 3.511111111111111e-06, "loss": 1.3184, "step": 158 }, { "epoch": 0.053, "grad_norm": 1.2060645818710327, "learning_rate": 3.5333333333333335e-06, "loss": 1.2853, "step": 159 }, { "epoch": 0.05333333333333334, "grad_norm": 1.3183825016021729, "learning_rate": 3.555555555555556e-06, "loss": 1.2031, "step": 160 }, { "epoch": 0.05366666666666667, "grad_norm": 1.5008703470230103, "learning_rate": 3.577777777777778e-06, "loss": 1.3214, "step": 161 }, { "epoch": 0.054, "grad_norm": 1.4213061332702637, "learning_rate": 3.6000000000000003e-06, "loss": 1.3879, "step": 162 }, { "epoch": 0.05433333333333333, "grad_norm": 1.4359703063964844, "learning_rate": 3.6222222222222226e-06, "loss": 1.2686, "step": 163 }, { "epoch": 0.05466666666666667, "grad_norm": 1.4547736644744873, "learning_rate": 3.644444444444445e-06, "loss": 1.225, "step": 164 }, { "epoch": 0.055, "grad_norm": 1.4665586948394775, "learning_rate": 3.6666666666666666e-06, "loss": 1.3169, "step": 165 }, { "epoch": 0.05533333333333333, "grad_norm": 1.390183687210083, "learning_rate": 3.688888888888889e-06, "loss": 1.3167, "step": 166 }, { "epoch": 0.05566666666666667, "grad_norm": 1.26180100440979, "learning_rate": 3.7111111111111113e-06, "loss": 1.303, "step": 167 }, { "epoch": 0.056, "grad_norm": 1.3252928256988525, "learning_rate": 3.7333333333333337e-06, "loss": 1.3461, "step": 168 }, { "epoch": 0.05633333333333333, "grad_norm": 1.2670942544937134, "learning_rate": 3.7555555555555557e-06, "loss": 1.2996, "step": 169 }, { "epoch": 0.056666666666666664, "grad_norm": 1.3658570051193237, "learning_rate": 3.777777777777778e-06, "loss": 1.0664, "step": 170 }, { "epoch": 0.057, "grad_norm": 1.4456546306610107, "learning_rate": 3.8000000000000005e-06, "loss": 1.2475, "step": 171 }, { "epoch": 0.05733333333333333, "grad_norm": 1.4840880632400513, "learning_rate": 3.8222222222222224e-06, "loss": 1.2065, "step": 172 }, { "epoch": 0.057666666666666665, "grad_norm": 1.1838343143463135, "learning_rate": 3.844444444444445e-06, "loss": 1.2843, "step": 173 }, { "epoch": 0.058, "grad_norm": 1.4141844511032104, "learning_rate": 3.866666666666667e-06, "loss": 1.3068, "step": 174 }, { "epoch": 0.058333333333333334, "grad_norm": 1.2677348852157593, "learning_rate": 3.88888888888889e-06, "loss": 1.2392, "step": 175 }, { "epoch": 0.058666666666666666, "grad_norm": 1.2379839420318604, "learning_rate": 3.911111111111112e-06, "loss": 1.2172, "step": 176 }, { "epoch": 0.059, "grad_norm": 1.258251667022705, "learning_rate": 3.9333333333333335e-06, "loss": 1.1805, "step": 177 }, { "epoch": 0.059333333333333335, "grad_norm": 1.4036495685577393, "learning_rate": 3.955555555555556e-06, "loss": 1.2764, "step": 178 }, { "epoch": 0.059666666666666666, "grad_norm": 1.3037679195404053, "learning_rate": 3.977777777777778e-06, "loss": 1.2541, "step": 179 }, { "epoch": 0.06, "grad_norm": 1.4055136442184448, "learning_rate": 4.000000000000001e-06, "loss": 1.3753, "step": 180 }, { "epoch": 0.060333333333333336, "grad_norm": 1.2639235258102417, "learning_rate": 4.022222222222222e-06, "loss": 1.3262, "step": 181 }, { "epoch": 0.06066666666666667, "grad_norm": 1.3695694208145142, "learning_rate": 4.044444444444445e-06, "loss": 1.3715, "step": 182 }, { "epoch": 0.061, "grad_norm": 1.35953950881958, "learning_rate": 4.066666666666667e-06, "loss": 1.2758, "step": 183 }, { "epoch": 0.06133333333333333, "grad_norm": 1.4494478702545166, "learning_rate": 4.088888888888889e-06, "loss": 1.2838, "step": 184 }, { "epoch": 0.06166666666666667, "grad_norm": 1.339180588722229, "learning_rate": 4.111111111111111e-06, "loss": 1.3029, "step": 185 }, { "epoch": 0.062, "grad_norm": 1.4733061790466309, "learning_rate": 4.133333333333333e-06, "loss": 1.0578, "step": 186 }, { "epoch": 0.06233333333333333, "grad_norm": 1.2901577949523926, "learning_rate": 4.155555555555556e-06, "loss": 1.2729, "step": 187 }, { "epoch": 0.06266666666666666, "grad_norm": 1.3564659357070923, "learning_rate": 4.177777777777778e-06, "loss": 1.1373, "step": 188 }, { "epoch": 0.063, "grad_norm": 1.2915252447128296, "learning_rate": 4.2000000000000004e-06, "loss": 1.2466, "step": 189 }, { "epoch": 0.06333333333333334, "grad_norm": 1.2145426273345947, "learning_rate": 4.222222222222223e-06, "loss": 1.2289, "step": 190 }, { "epoch": 0.06366666666666666, "grad_norm": 1.2791332006454468, "learning_rate": 4.244444444444445e-06, "loss": 1.2844, "step": 191 }, { "epoch": 0.064, "grad_norm": 1.450408935546875, "learning_rate": 4.266666666666668e-06, "loss": 1.2884, "step": 192 }, { "epoch": 0.06433333333333334, "grad_norm": 1.270392656326294, "learning_rate": 4.288888888888889e-06, "loss": 1.2359, "step": 193 }, { "epoch": 0.06466666666666666, "grad_norm": 1.404968023300171, "learning_rate": 4.3111111111111115e-06, "loss": 1.2646, "step": 194 }, { "epoch": 0.065, "grad_norm": 1.2794346809387207, "learning_rate": 4.333333333333334e-06, "loss": 1.1693, "step": 195 }, { "epoch": 0.06533333333333333, "grad_norm": 1.4090980291366577, "learning_rate": 4.3555555555555555e-06, "loss": 1.1415, "step": 196 }, { "epoch": 0.06566666666666666, "grad_norm": 1.3390249013900757, "learning_rate": 4.377777777777778e-06, "loss": 1.2124, "step": 197 }, { "epoch": 0.066, "grad_norm": 1.3669312000274658, "learning_rate": 4.4e-06, "loss": 1.2203, "step": 198 }, { "epoch": 0.06633333333333333, "grad_norm": 1.3142367601394653, "learning_rate": 4.422222222222223e-06, "loss": 1.2172, "step": 199 }, { "epoch": 0.06666666666666667, "grad_norm": 1.412399411201477, "learning_rate": 4.444444444444444e-06, "loss": 1.1519, "step": 200 }, { "epoch": 0.067, "grad_norm": 1.7827990055084229, "learning_rate": 4.4666666666666665e-06, "loss": 1.2257, "step": 201 }, { "epoch": 0.06733333333333333, "grad_norm": 1.2888553142547607, "learning_rate": 4.488888888888889e-06, "loss": 1.1455, "step": 202 }, { "epoch": 0.06766666666666667, "grad_norm": 1.3954130411148071, "learning_rate": 4.511111111111111e-06, "loss": 1.1715, "step": 203 }, { "epoch": 0.068, "grad_norm": 1.6892426013946533, "learning_rate": 4.533333333333334e-06, "loss": 1.1784, "step": 204 }, { "epoch": 0.06833333333333333, "grad_norm": 1.3415107727050781, "learning_rate": 4.555555555555556e-06, "loss": 1.2648, "step": 205 }, { "epoch": 0.06866666666666667, "grad_norm": 1.3903350830078125, "learning_rate": 4.5777777777777785e-06, "loss": 1.2145, "step": 206 }, { "epoch": 0.069, "grad_norm": 2.2485077381134033, "learning_rate": 4.600000000000001e-06, "loss": 1.1385, "step": 207 }, { "epoch": 0.06933333333333333, "grad_norm": 1.4355932474136353, "learning_rate": 4.622222222222222e-06, "loss": 1.2284, "step": 208 }, { "epoch": 0.06966666666666667, "grad_norm": 1.426110863685608, "learning_rate": 4.644444444444445e-06, "loss": 1.1575, "step": 209 }, { "epoch": 0.07, "grad_norm": 1.3815157413482666, "learning_rate": 4.666666666666667e-06, "loss": 1.1941, "step": 210 }, { "epoch": 0.07033333333333333, "grad_norm": 1.238779902458191, "learning_rate": 4.6888888888888895e-06, "loss": 1.3053, "step": 211 }, { "epoch": 0.07066666666666667, "grad_norm": 1.3803750276565552, "learning_rate": 4.711111111111111e-06, "loss": 1.2114, "step": 212 }, { "epoch": 0.071, "grad_norm": 1.4280091524124146, "learning_rate": 4.7333333333333335e-06, "loss": 1.1753, "step": 213 }, { "epoch": 0.07133333333333333, "grad_norm": 1.3657097816467285, "learning_rate": 4.755555555555556e-06, "loss": 1.2771, "step": 214 }, { "epoch": 0.07166666666666667, "grad_norm": 1.4120781421661377, "learning_rate": 4.777777777777778e-06, "loss": 1.29, "step": 215 }, { "epoch": 0.072, "grad_norm": 1.2994266748428345, "learning_rate": 4.800000000000001e-06, "loss": 1.3332, "step": 216 }, { "epoch": 0.07233333333333333, "grad_norm": 1.4608207941055298, "learning_rate": 4.822222222222222e-06, "loss": 1.0821, "step": 217 }, { "epoch": 0.07266666666666667, "grad_norm": 1.5336815118789673, "learning_rate": 4.8444444444444446e-06, "loss": 1.2205, "step": 218 }, { "epoch": 0.073, "grad_norm": 1.3190078735351562, "learning_rate": 4.866666666666667e-06, "loss": 1.1588, "step": 219 }, { "epoch": 0.07333333333333333, "grad_norm": 1.4905078411102295, "learning_rate": 4.888888888888889e-06, "loss": 1.2355, "step": 220 }, { "epoch": 0.07366666666666667, "grad_norm": 1.5503385066986084, "learning_rate": 4.911111111111112e-06, "loss": 1.3125, "step": 221 }, { "epoch": 0.074, "grad_norm": 1.4679452180862427, "learning_rate": 4.933333333333334e-06, "loss": 1.1889, "step": 222 }, { "epoch": 0.07433333333333333, "grad_norm": 1.3042186498641968, "learning_rate": 4.9555555555555565e-06, "loss": 1.1924, "step": 223 }, { "epoch": 0.07466666666666667, "grad_norm": 1.3114066123962402, "learning_rate": 4.977777777777778e-06, "loss": 1.1131, "step": 224 }, { "epoch": 0.075, "grad_norm": 1.346964716911316, "learning_rate": 5e-06, "loss": 1.2308, "step": 225 }, { "epoch": 0.07533333333333334, "grad_norm": 1.5224623680114746, "learning_rate": 5.022222222222223e-06, "loss": 1.2206, "step": 226 }, { "epoch": 0.07566666666666666, "grad_norm": 1.3664438724517822, "learning_rate": 5.044444444444445e-06, "loss": 1.1371, "step": 227 }, { "epoch": 0.076, "grad_norm": 1.4635165929794312, "learning_rate": 5.0666666666666676e-06, "loss": 1.272, "step": 228 }, { "epoch": 0.07633333333333334, "grad_norm": 1.644370675086975, "learning_rate": 5.088888888888889e-06, "loss": 1.2781, "step": 229 }, { "epoch": 0.07666666666666666, "grad_norm": 1.3507007360458374, "learning_rate": 5.1111111111111115e-06, "loss": 1.2523, "step": 230 }, { "epoch": 0.077, "grad_norm": 1.6970666646957397, "learning_rate": 5.133333333333334e-06, "loss": 1.1411, "step": 231 }, { "epoch": 0.07733333333333334, "grad_norm": 1.5529383420944214, "learning_rate": 5.155555555555556e-06, "loss": 1.2116, "step": 232 }, { "epoch": 0.07766666666666666, "grad_norm": 1.446147084236145, "learning_rate": 5.177777777777779e-06, "loss": 1.2673, "step": 233 }, { "epoch": 0.078, "grad_norm": 1.359573245048523, "learning_rate": 5.2e-06, "loss": 1.134, "step": 234 }, { "epoch": 0.07833333333333334, "grad_norm": 1.4841527938842773, "learning_rate": 5.2222222222222226e-06, "loss": 1.1724, "step": 235 }, { "epoch": 0.07866666666666666, "grad_norm": 1.4861623048782349, "learning_rate": 5.244444444444445e-06, "loss": 1.1802, "step": 236 }, { "epoch": 0.079, "grad_norm": 1.561577320098877, "learning_rate": 5.2666666666666665e-06, "loss": 1.2499, "step": 237 }, { "epoch": 0.07933333333333334, "grad_norm": 1.5490301847457886, "learning_rate": 5.288888888888889e-06, "loss": 1.2508, "step": 238 }, { "epoch": 0.07966666666666666, "grad_norm": 1.577430248260498, "learning_rate": 5.311111111111111e-06, "loss": 1.2194, "step": 239 }, { "epoch": 0.08, "grad_norm": 1.6178735494613647, "learning_rate": 5.333333333333334e-06, "loss": 1.2284, "step": 240 }, { "epoch": 0.08033333333333334, "grad_norm": 1.8305985927581787, "learning_rate": 5.355555555555556e-06, "loss": 1.1955, "step": 241 }, { "epoch": 0.08066666666666666, "grad_norm": 1.449809193611145, "learning_rate": 5.3777777777777784e-06, "loss": 1.198, "step": 242 }, { "epoch": 0.081, "grad_norm": 1.3779915571212769, "learning_rate": 5.400000000000001e-06, "loss": 1.1645, "step": 243 }, { "epoch": 0.08133333333333333, "grad_norm": 1.460625171661377, "learning_rate": 5.422222222222223e-06, "loss": 1.2127, "step": 244 }, { "epoch": 0.08166666666666667, "grad_norm": 1.4313592910766602, "learning_rate": 5.444444444444445e-06, "loss": 1.1936, "step": 245 }, { "epoch": 0.082, "grad_norm": 1.853387713432312, "learning_rate": 5.466666666666667e-06, "loss": 1.203, "step": 246 }, { "epoch": 0.08233333333333333, "grad_norm": 1.3658169507980347, "learning_rate": 5.4888888888888895e-06, "loss": 1.1723, "step": 247 }, { "epoch": 0.08266666666666667, "grad_norm": 1.606663465499878, "learning_rate": 5.511111111111112e-06, "loss": 1.1511, "step": 248 }, { "epoch": 0.083, "grad_norm": 1.358900547027588, "learning_rate": 5.533333333333334e-06, "loss": 1.1744, "step": 249 }, { "epoch": 0.08333333333333333, "grad_norm": 1.4844703674316406, "learning_rate": 5.555555555555557e-06, "loss": 1.1956, "step": 250 }, { "epoch": 0.08366666666666667, "grad_norm": 1.578043818473816, "learning_rate": 5.577777777777778e-06, "loss": 1.2517, "step": 251 }, { "epoch": 0.084, "grad_norm": 1.5674386024475098, "learning_rate": 5.600000000000001e-06, "loss": 1.2308, "step": 252 }, { "epoch": 0.08433333333333333, "grad_norm": 1.2692322731018066, "learning_rate": 5.622222222222222e-06, "loss": 1.2043, "step": 253 }, { "epoch": 0.08466666666666667, "grad_norm": 1.4952797889709473, "learning_rate": 5.6444444444444445e-06, "loss": 1.1216, "step": 254 }, { "epoch": 0.085, "grad_norm": 1.4115986824035645, "learning_rate": 5.666666666666667e-06, "loss": 1.1415, "step": 255 }, { "epoch": 0.08533333333333333, "grad_norm": 1.419814109802246, "learning_rate": 5.688888888888889e-06, "loss": 1.2161, "step": 256 }, { "epoch": 0.08566666666666667, "grad_norm": 1.324926733970642, "learning_rate": 5.711111111111112e-06, "loss": 1.0955, "step": 257 }, { "epoch": 0.086, "grad_norm": 1.57754647731781, "learning_rate": 5.733333333333334e-06, "loss": 1.0771, "step": 258 }, { "epoch": 0.08633333333333333, "grad_norm": 1.531800627708435, "learning_rate": 5.7555555555555564e-06, "loss": 1.1318, "step": 259 }, { "epoch": 0.08666666666666667, "grad_norm": 1.521822452545166, "learning_rate": 5.777777777777778e-06, "loss": 1.2023, "step": 260 }, { "epoch": 0.087, "grad_norm": 1.2750598192214966, "learning_rate": 5.8e-06, "loss": 1.2564, "step": 261 }, { "epoch": 0.08733333333333333, "grad_norm": 1.4583685398101807, "learning_rate": 5.822222222222223e-06, "loss": 1.1507, "step": 262 }, { "epoch": 0.08766666666666667, "grad_norm": 1.3622310161590576, "learning_rate": 5.844444444444445e-06, "loss": 1.2304, "step": 263 }, { "epoch": 0.088, "grad_norm": 1.375045657157898, "learning_rate": 5.8666666666666675e-06, "loss": 1.1561, "step": 264 }, { "epoch": 0.08833333333333333, "grad_norm": 1.3216606378555298, "learning_rate": 5.88888888888889e-06, "loss": 1.2951, "step": 265 }, { "epoch": 0.08866666666666667, "grad_norm": 1.3951408863067627, "learning_rate": 5.911111111111112e-06, "loss": 1.3015, "step": 266 }, { "epoch": 0.089, "grad_norm": 1.6425985097885132, "learning_rate": 5.933333333333335e-06, "loss": 1.241, "step": 267 }, { "epoch": 0.08933333333333333, "grad_norm": 1.3816287517547607, "learning_rate": 5.955555555555555e-06, "loss": 1.0992, "step": 268 }, { "epoch": 0.08966666666666667, "grad_norm": 1.2739745378494263, "learning_rate": 5.977777777777778e-06, "loss": 1.2529, "step": 269 }, { "epoch": 0.09, "grad_norm": 1.5077300071716309, "learning_rate": 6e-06, "loss": 1.1622, "step": 270 }, { "epoch": 0.09033333333333333, "grad_norm": 2.11258602142334, "learning_rate": 6.0222222222222225e-06, "loss": 1.1616, "step": 271 }, { "epoch": 0.09066666666666667, "grad_norm": 1.5671513080596924, "learning_rate": 6.044444444444445e-06, "loss": 1.0737, "step": 272 }, { "epoch": 0.091, "grad_norm": 1.655301809310913, "learning_rate": 6.066666666666667e-06, "loss": 1.2412, "step": 273 }, { "epoch": 0.09133333333333334, "grad_norm": 1.4785163402557373, "learning_rate": 6.08888888888889e-06, "loss": 1.0888, "step": 274 }, { "epoch": 0.09166666666666666, "grad_norm": 1.4750561714172363, "learning_rate": 6.111111111111112e-06, "loss": 1.1645, "step": 275 }, { "epoch": 0.092, "grad_norm": 1.5973974466323853, "learning_rate": 6.133333333333334e-06, "loss": 1.2213, "step": 276 }, { "epoch": 0.09233333333333334, "grad_norm": 1.513564944267273, "learning_rate": 6.155555555555556e-06, "loss": 1.1474, "step": 277 }, { "epoch": 0.09266666666666666, "grad_norm": 1.5961297750473022, "learning_rate": 6.177777777777778e-06, "loss": 1.2074, "step": 278 }, { "epoch": 0.093, "grad_norm": 1.6554787158966064, "learning_rate": 6.200000000000001e-06, "loss": 1.1329, "step": 279 }, { "epoch": 0.09333333333333334, "grad_norm": 1.5205824375152588, "learning_rate": 6.222222222222223e-06, "loss": 1.1911, "step": 280 }, { "epoch": 0.09366666666666666, "grad_norm": 1.4820094108581543, "learning_rate": 6.2444444444444456e-06, "loss": 1.0727, "step": 281 }, { "epoch": 0.094, "grad_norm": 1.482761025428772, "learning_rate": 6.266666666666668e-06, "loss": 1.1585, "step": 282 }, { "epoch": 0.09433333333333334, "grad_norm": 1.4356346130371094, "learning_rate": 6.28888888888889e-06, "loss": 1.2023, "step": 283 }, { "epoch": 0.09466666666666666, "grad_norm": 1.4977275133132935, "learning_rate": 6.311111111111111e-06, "loss": 1.1748, "step": 284 }, { "epoch": 0.095, "grad_norm": 1.5975319147109985, "learning_rate": 6.333333333333333e-06, "loss": 1.2242, "step": 285 }, { "epoch": 0.09533333333333334, "grad_norm": 1.50568687915802, "learning_rate": 6.355555555555556e-06, "loss": 1.2661, "step": 286 }, { "epoch": 0.09566666666666666, "grad_norm": 1.4776535034179688, "learning_rate": 6.377777777777778e-06, "loss": 1.0734, "step": 287 }, { "epoch": 0.096, "grad_norm": 1.4689065217971802, "learning_rate": 6.4000000000000006e-06, "loss": 1.2312, "step": 288 }, { "epoch": 0.09633333333333334, "grad_norm": 1.5893913507461548, "learning_rate": 6.422222222222223e-06, "loss": 1.2181, "step": 289 }, { "epoch": 0.09666666666666666, "grad_norm": 1.7700011730194092, "learning_rate": 6.444444444444445e-06, "loss": 1.1037, "step": 290 }, { "epoch": 0.097, "grad_norm": 1.5873522758483887, "learning_rate": 6.466666666666667e-06, "loss": 1.1076, "step": 291 }, { "epoch": 0.09733333333333333, "grad_norm": 1.291461706161499, "learning_rate": 6.488888888888889e-06, "loss": 1.1917, "step": 292 }, { "epoch": 0.09766666666666667, "grad_norm": 1.38518226146698, "learning_rate": 6.511111111111112e-06, "loss": 1.1446, "step": 293 }, { "epoch": 0.098, "grad_norm": 1.4989161491394043, "learning_rate": 6.533333333333334e-06, "loss": 1.1737, "step": 294 }, { "epoch": 0.09833333333333333, "grad_norm": 1.9605923891067505, "learning_rate": 6.555555555555556e-06, "loss": 1.2445, "step": 295 }, { "epoch": 0.09866666666666667, "grad_norm": 1.5787780284881592, "learning_rate": 6.577777777777779e-06, "loss": 1.2594, "step": 296 }, { "epoch": 0.099, "grad_norm": 1.5429476499557495, "learning_rate": 6.600000000000001e-06, "loss": 1.1398, "step": 297 }, { "epoch": 0.09933333333333333, "grad_norm": 1.7796704769134521, "learning_rate": 6.6222222222222236e-06, "loss": 1.1856, "step": 298 }, { "epoch": 0.09966666666666667, "grad_norm": 1.390278697013855, "learning_rate": 6.644444444444444e-06, "loss": 1.2044, "step": 299 }, { "epoch": 0.1, "grad_norm": 1.6023986339569092, "learning_rate": 6.666666666666667e-06, "loss": 1.1164, "step": 300 }, { "epoch": 0.10033333333333333, "grad_norm": 1.5142806768417358, "learning_rate": 6.688888888888889e-06, "loss": 1.2032, "step": 301 }, { "epoch": 0.10066666666666667, "grad_norm": 1.3071873188018799, "learning_rate": 6.711111111111111e-06, "loss": 1.1927, "step": 302 }, { "epoch": 0.101, "grad_norm": 1.4982858896255493, "learning_rate": 6.733333333333334e-06, "loss": 1.1218, "step": 303 }, { "epoch": 0.10133333333333333, "grad_norm": 1.7742758989334106, "learning_rate": 6.755555555555556e-06, "loss": 1.2853, "step": 304 }, { "epoch": 0.10166666666666667, "grad_norm": 1.8692550659179688, "learning_rate": 6.777777777777779e-06, "loss": 1.1121, "step": 305 }, { "epoch": 0.102, "grad_norm": 1.6868199110031128, "learning_rate": 6.800000000000001e-06, "loss": 1.1236, "step": 306 }, { "epoch": 0.10233333333333333, "grad_norm": 1.483672857284546, "learning_rate": 6.8222222222222225e-06, "loss": 1.1111, "step": 307 }, { "epoch": 0.10266666666666667, "grad_norm": 1.962953805923462, "learning_rate": 6.844444444444445e-06, "loss": 1.2258, "step": 308 }, { "epoch": 0.103, "grad_norm": 1.7608108520507812, "learning_rate": 6.866666666666667e-06, "loss": 1.1937, "step": 309 }, { "epoch": 0.10333333333333333, "grad_norm": 1.5710150003433228, "learning_rate": 6.88888888888889e-06, "loss": 1.0852, "step": 310 }, { "epoch": 0.10366666666666667, "grad_norm": 1.489043951034546, "learning_rate": 6.911111111111112e-06, "loss": 1.189, "step": 311 }, { "epoch": 0.104, "grad_norm": 1.6540623903274536, "learning_rate": 6.9333333333333344e-06, "loss": 1.2046, "step": 312 }, { "epoch": 0.10433333333333333, "grad_norm": 1.4469069242477417, "learning_rate": 6.955555555555557e-06, "loss": 1.205, "step": 313 }, { "epoch": 0.10466666666666667, "grad_norm": 1.5407646894454956, "learning_rate": 6.977777777777779e-06, "loss": 1.1436, "step": 314 }, { "epoch": 0.105, "grad_norm": 1.4340288639068604, "learning_rate": 7e-06, "loss": 1.0787, "step": 315 }, { "epoch": 0.10533333333333333, "grad_norm": 1.6154134273529053, "learning_rate": 7.022222222222222e-06, "loss": 1.1439, "step": 316 }, { "epoch": 0.10566666666666667, "grad_norm": 1.5567415952682495, "learning_rate": 7.044444444444445e-06, "loss": 1.1172, "step": 317 }, { "epoch": 0.106, "grad_norm": 1.4247684478759766, "learning_rate": 7.066666666666667e-06, "loss": 1.2386, "step": 318 }, { "epoch": 0.10633333333333334, "grad_norm": 1.4413695335388184, "learning_rate": 7.0888888888888894e-06, "loss": 1.1009, "step": 319 }, { "epoch": 0.10666666666666667, "grad_norm": 1.595289945602417, "learning_rate": 7.111111111111112e-06, "loss": 1.0404, "step": 320 }, { "epoch": 0.107, "grad_norm": 1.482068657875061, "learning_rate": 7.133333333333334e-06, "loss": 1.1667, "step": 321 }, { "epoch": 0.10733333333333334, "grad_norm": 1.5941014289855957, "learning_rate": 7.155555555555556e-06, "loss": 1.162, "step": 322 }, { "epoch": 0.10766666666666666, "grad_norm": 1.5260932445526123, "learning_rate": 7.177777777777778e-06, "loss": 1.1571, "step": 323 }, { "epoch": 0.108, "grad_norm": 1.4199073314666748, "learning_rate": 7.2000000000000005e-06, "loss": 1.2063, "step": 324 }, { "epoch": 0.10833333333333334, "grad_norm": 1.685937762260437, "learning_rate": 7.222222222222223e-06, "loss": 1.1562, "step": 325 }, { "epoch": 0.10866666666666666, "grad_norm": 1.692311406135559, "learning_rate": 7.244444444444445e-06, "loss": 1.1662, "step": 326 }, { "epoch": 0.109, "grad_norm": 1.781176209449768, "learning_rate": 7.266666666666668e-06, "loss": 1.1787, "step": 327 }, { "epoch": 0.10933333333333334, "grad_norm": 1.667367696762085, "learning_rate": 7.28888888888889e-06, "loss": 1.0435, "step": 328 }, { "epoch": 0.10966666666666666, "grad_norm": 1.6302257776260376, "learning_rate": 7.3111111111111125e-06, "loss": 1.1699, "step": 329 }, { "epoch": 0.11, "grad_norm": 1.682916522026062, "learning_rate": 7.333333333333333e-06, "loss": 1.1986, "step": 330 }, { "epoch": 0.11033333333333334, "grad_norm": 1.5431718826293945, "learning_rate": 7.3555555555555555e-06, "loss": 1.1105, "step": 331 }, { "epoch": 0.11066666666666666, "grad_norm": 1.735956072807312, "learning_rate": 7.377777777777778e-06, "loss": 1.2034, "step": 332 }, { "epoch": 0.111, "grad_norm": 1.827531099319458, "learning_rate": 7.4e-06, "loss": 1.1746, "step": 333 }, { "epoch": 0.11133333333333334, "grad_norm": 1.6700693368911743, "learning_rate": 7.422222222222223e-06, "loss": 1.2603, "step": 334 }, { "epoch": 0.11166666666666666, "grad_norm": 1.6991853713989258, "learning_rate": 7.444444444444445e-06, "loss": 1.1788, "step": 335 }, { "epoch": 0.112, "grad_norm": 1.4742239713668823, "learning_rate": 7.4666666666666675e-06, "loss": 1.151, "step": 336 }, { "epoch": 0.11233333333333333, "grad_norm": 1.4475758075714111, "learning_rate": 7.48888888888889e-06, "loss": 1.1858, "step": 337 }, { "epoch": 0.11266666666666666, "grad_norm": 1.285339593887329, "learning_rate": 7.511111111111111e-06, "loss": 1.1358, "step": 338 }, { "epoch": 0.113, "grad_norm": 1.5454645156860352, "learning_rate": 7.533333333333334e-06, "loss": 1.1656, "step": 339 }, { "epoch": 0.11333333333333333, "grad_norm": 1.5032529830932617, "learning_rate": 7.555555555555556e-06, "loss": 1.137, "step": 340 }, { "epoch": 0.11366666666666667, "grad_norm": 1.7839106321334839, "learning_rate": 7.5777777777777785e-06, "loss": 1.1233, "step": 341 }, { "epoch": 0.114, "grad_norm": 1.5113935470581055, "learning_rate": 7.600000000000001e-06, "loss": 1.1868, "step": 342 }, { "epoch": 0.11433333333333333, "grad_norm": 1.5882327556610107, "learning_rate": 7.622222222222223e-06, "loss": 1.0435, "step": 343 }, { "epoch": 0.11466666666666667, "grad_norm": 2.050560235977173, "learning_rate": 7.644444444444445e-06, "loss": 1.1427, "step": 344 }, { "epoch": 0.115, "grad_norm": 2.074932813644409, "learning_rate": 7.666666666666667e-06, "loss": 1.238, "step": 345 }, { "epoch": 0.11533333333333333, "grad_norm": 1.5033376216888428, "learning_rate": 7.68888888888889e-06, "loss": 1.0027, "step": 346 }, { "epoch": 0.11566666666666667, "grad_norm": 1.350109577178955, "learning_rate": 7.711111111111112e-06, "loss": 1.0181, "step": 347 }, { "epoch": 0.116, "grad_norm": 1.8769129514694214, "learning_rate": 7.733333333333334e-06, "loss": 1.14, "step": 348 }, { "epoch": 0.11633333333333333, "grad_norm": 1.6070586442947388, "learning_rate": 7.755555555555557e-06, "loss": 1.0977, "step": 349 }, { "epoch": 0.11666666666666667, "grad_norm": 1.6940979957580566, "learning_rate": 7.77777777777778e-06, "loss": 1.2392, "step": 350 }, { "epoch": 0.117, "grad_norm": 1.6905256509780884, "learning_rate": 7.800000000000002e-06, "loss": 1.1614, "step": 351 }, { "epoch": 0.11733333333333333, "grad_norm": 1.5635329484939575, "learning_rate": 7.822222222222224e-06, "loss": 1.1134, "step": 352 }, { "epoch": 0.11766666666666667, "grad_norm": 1.5194157361984253, "learning_rate": 7.844444444444446e-06, "loss": 1.157, "step": 353 }, { "epoch": 0.118, "grad_norm": 1.6269128322601318, "learning_rate": 7.866666666666667e-06, "loss": 1.2131, "step": 354 }, { "epoch": 0.11833333333333333, "grad_norm": 1.5441020727157593, "learning_rate": 7.88888888888889e-06, "loss": 1.1688, "step": 355 }, { "epoch": 0.11866666666666667, "grad_norm": 1.559867262840271, "learning_rate": 7.911111111111112e-06, "loss": 1.0915, "step": 356 }, { "epoch": 0.119, "grad_norm": 1.5246485471725464, "learning_rate": 7.933333333333334e-06, "loss": 1.1482, "step": 357 }, { "epoch": 0.11933333333333333, "grad_norm": 1.5248019695281982, "learning_rate": 7.955555555555557e-06, "loss": 1.1589, "step": 358 }, { "epoch": 0.11966666666666667, "grad_norm": 1.6641921997070312, "learning_rate": 7.977777777777779e-06, "loss": 1.0817, "step": 359 }, { "epoch": 0.12, "grad_norm": 1.4578205347061157, "learning_rate": 8.000000000000001e-06, "loss": 1.1637, "step": 360 }, { "epoch": 0.12033333333333333, "grad_norm": 1.8135591745376587, "learning_rate": 8.022222222222222e-06, "loss": 1.132, "step": 361 }, { "epoch": 0.12066666666666667, "grad_norm": 1.6558690071105957, "learning_rate": 8.044444444444444e-06, "loss": 1.1351, "step": 362 }, { "epoch": 0.121, "grad_norm": 1.5257915258407593, "learning_rate": 8.066666666666667e-06, "loss": 1.1792, "step": 363 }, { "epoch": 0.12133333333333333, "grad_norm": 1.815172553062439, "learning_rate": 8.08888888888889e-06, "loss": 1.1951, "step": 364 }, { "epoch": 0.12166666666666667, "grad_norm": 1.5992822647094727, "learning_rate": 8.111111111111112e-06, "loss": 1.2558, "step": 365 }, { "epoch": 0.122, "grad_norm": 1.4068996906280518, "learning_rate": 8.133333333333334e-06, "loss": 1.1722, "step": 366 }, { "epoch": 0.12233333333333334, "grad_norm": 1.5407975912094116, "learning_rate": 8.155555555555556e-06, "loss": 1.1079, "step": 367 }, { "epoch": 0.12266666666666666, "grad_norm": 1.768150806427002, "learning_rate": 8.177777777777779e-06, "loss": 1.1536, "step": 368 }, { "epoch": 0.123, "grad_norm": 1.6066533327102661, "learning_rate": 8.2e-06, "loss": 1.1544, "step": 369 }, { "epoch": 0.12333333333333334, "grad_norm": 1.6030548810958862, "learning_rate": 8.222222222222222e-06, "loss": 1.0829, "step": 370 }, { "epoch": 0.12366666666666666, "grad_norm": 1.911374568939209, "learning_rate": 8.244444444444444e-06, "loss": 1.0851, "step": 371 }, { "epoch": 0.124, "grad_norm": 1.6772592067718506, "learning_rate": 8.266666666666667e-06, "loss": 1.1749, "step": 372 }, { "epoch": 0.12433333333333334, "grad_norm": 2.1634037494659424, "learning_rate": 8.288888888888889e-06, "loss": 1.1514, "step": 373 }, { "epoch": 0.12466666666666666, "grad_norm": 1.7173736095428467, "learning_rate": 8.311111111111111e-06, "loss": 0.971, "step": 374 }, { "epoch": 0.125, "grad_norm": 1.7139873504638672, "learning_rate": 8.333333333333334e-06, "loss": 1.1419, "step": 375 }, { "epoch": 0.12533333333333332, "grad_norm": 1.5453203916549683, "learning_rate": 8.355555555555556e-06, "loss": 1.1571, "step": 376 }, { "epoch": 0.12566666666666668, "grad_norm": 1.6910905838012695, "learning_rate": 8.377777777777779e-06, "loss": 1.2612, "step": 377 }, { "epoch": 0.126, "grad_norm": 1.8547446727752686, "learning_rate": 8.400000000000001e-06, "loss": 1.0806, "step": 378 }, { "epoch": 0.12633333333333333, "grad_norm": 1.8702360391616821, "learning_rate": 8.422222222222223e-06, "loss": 1.2434, "step": 379 }, { "epoch": 0.12666666666666668, "grad_norm": 1.5896825790405273, "learning_rate": 8.444444444444446e-06, "loss": 1.1599, "step": 380 }, { "epoch": 0.127, "grad_norm": 1.5410326719284058, "learning_rate": 8.466666666666668e-06, "loss": 1.11, "step": 381 }, { "epoch": 0.12733333333333333, "grad_norm": 1.739018440246582, "learning_rate": 8.48888888888889e-06, "loss": 1.1388, "step": 382 }, { "epoch": 0.12766666666666668, "grad_norm": 1.7005584239959717, "learning_rate": 8.511111111111113e-06, "loss": 1.174, "step": 383 }, { "epoch": 0.128, "grad_norm": 1.5637319087982178, "learning_rate": 8.533333333333335e-06, "loss": 1.1878, "step": 384 }, { "epoch": 0.12833333333333333, "grad_norm": 1.596922755241394, "learning_rate": 8.555555555555556e-06, "loss": 1.133, "step": 385 }, { "epoch": 0.12866666666666668, "grad_norm": 1.4571577310562134, "learning_rate": 8.577777777777778e-06, "loss": 1.1335, "step": 386 }, { "epoch": 0.129, "grad_norm": 1.9833792448043823, "learning_rate": 8.6e-06, "loss": 1.0061, "step": 387 }, { "epoch": 0.12933333333333333, "grad_norm": 1.9010989665985107, "learning_rate": 8.622222222222223e-06, "loss": 1.0511, "step": 388 }, { "epoch": 0.12966666666666668, "grad_norm": 1.547566533088684, "learning_rate": 8.644444444444445e-06, "loss": 1.0818, "step": 389 }, { "epoch": 0.13, "grad_norm": 1.589276671409607, "learning_rate": 8.666666666666668e-06, "loss": 1.0882, "step": 390 }, { "epoch": 0.13033333333333333, "grad_norm": 1.7007571458816528, "learning_rate": 8.68888888888889e-06, "loss": 1.1447, "step": 391 }, { "epoch": 0.13066666666666665, "grad_norm": 2.1791880130767822, "learning_rate": 8.711111111111111e-06, "loss": 1.101, "step": 392 }, { "epoch": 0.131, "grad_norm": 1.7343331575393677, "learning_rate": 8.733333333333333e-06, "loss": 1.1551, "step": 393 }, { "epoch": 0.13133333333333333, "grad_norm": 1.6871845722198486, "learning_rate": 8.755555555555556e-06, "loss": 1.0867, "step": 394 }, { "epoch": 0.13166666666666665, "grad_norm": 1.6723601818084717, "learning_rate": 8.777777777777778e-06, "loss": 1.1054, "step": 395 }, { "epoch": 0.132, "grad_norm": 2.088505744934082, "learning_rate": 8.8e-06, "loss": 1.0793, "step": 396 }, { "epoch": 0.13233333333333333, "grad_norm": 1.833299160003662, "learning_rate": 8.822222222222223e-06, "loss": 1.1617, "step": 397 }, { "epoch": 0.13266666666666665, "grad_norm": 1.7320446968078613, "learning_rate": 8.844444444444445e-06, "loss": 0.9964, "step": 398 }, { "epoch": 0.133, "grad_norm": 1.658755898475647, "learning_rate": 8.866666666666668e-06, "loss": 1.166, "step": 399 }, { "epoch": 0.13333333333333333, "grad_norm": 1.5324523448944092, "learning_rate": 8.888888888888888e-06, "loss": 1.1281, "step": 400 }, { "epoch": 0.13366666666666666, "grad_norm": 1.6180557012557983, "learning_rate": 8.91111111111111e-06, "loss": 1.1381, "step": 401 }, { "epoch": 0.134, "grad_norm": 1.737163782119751, "learning_rate": 8.933333333333333e-06, "loss": 1.1248, "step": 402 }, { "epoch": 0.13433333333333333, "grad_norm": 1.6601003408432007, "learning_rate": 8.955555555555555e-06, "loss": 1.1917, "step": 403 }, { "epoch": 0.13466666666666666, "grad_norm": 1.5121172666549683, "learning_rate": 8.977777777777778e-06, "loss": 1.1284, "step": 404 }, { "epoch": 0.135, "grad_norm": 1.764634132385254, "learning_rate": 9e-06, "loss": 1.2303, "step": 405 }, { "epoch": 0.13533333333333333, "grad_norm": 1.4958068132400513, "learning_rate": 9.022222222222223e-06, "loss": 1.1501, "step": 406 }, { "epoch": 0.13566666666666666, "grad_norm": 1.8110212087631226, "learning_rate": 9.044444444444445e-06, "loss": 1.1432, "step": 407 }, { "epoch": 0.136, "grad_norm": 1.4228887557983398, "learning_rate": 9.066666666666667e-06, "loss": 1.1111, "step": 408 }, { "epoch": 0.13633333333333333, "grad_norm": 1.52152681350708, "learning_rate": 9.08888888888889e-06, "loss": 1.2095, "step": 409 }, { "epoch": 0.13666666666666666, "grad_norm": 1.6828523874282837, "learning_rate": 9.111111111111112e-06, "loss": 1.1656, "step": 410 }, { "epoch": 0.137, "grad_norm": 1.696372389793396, "learning_rate": 9.133333333333335e-06, "loss": 1.1808, "step": 411 }, { "epoch": 0.13733333333333334, "grad_norm": 1.6371486186981201, "learning_rate": 9.155555555555557e-06, "loss": 1.1403, "step": 412 }, { "epoch": 0.13766666666666666, "grad_norm": 1.7335549592971802, "learning_rate": 9.17777777777778e-06, "loss": 1.0669, "step": 413 }, { "epoch": 0.138, "grad_norm": 1.5683811902999878, "learning_rate": 9.200000000000002e-06, "loss": 1.1271, "step": 414 }, { "epoch": 0.13833333333333334, "grad_norm": 1.6414053440093994, "learning_rate": 9.222222222222224e-06, "loss": 1.2039, "step": 415 }, { "epoch": 0.13866666666666666, "grad_norm": 1.9280729293823242, "learning_rate": 9.244444444444445e-06, "loss": 1.0656, "step": 416 }, { "epoch": 0.139, "grad_norm": 1.8913592100143433, "learning_rate": 9.266666666666667e-06, "loss": 0.9857, "step": 417 }, { "epoch": 0.13933333333333334, "grad_norm": 1.7467008829116821, "learning_rate": 9.28888888888889e-06, "loss": 1.1746, "step": 418 }, { "epoch": 0.13966666666666666, "grad_norm": 2.009330987930298, "learning_rate": 9.311111111111112e-06, "loss": 1.1596, "step": 419 }, { "epoch": 0.14, "grad_norm": 1.5591484308242798, "learning_rate": 9.333333333333334e-06, "loss": 1.1271, "step": 420 }, { "epoch": 0.14033333333333334, "grad_norm": 1.5893148183822632, "learning_rate": 9.355555555555557e-06, "loss": 1.0694, "step": 421 }, { "epoch": 0.14066666666666666, "grad_norm": 1.5609533786773682, "learning_rate": 9.377777777777779e-06, "loss": 1.1466, "step": 422 }, { "epoch": 0.141, "grad_norm": 1.6362978219985962, "learning_rate": 9.4e-06, "loss": 1.1649, "step": 423 }, { "epoch": 0.14133333333333334, "grad_norm": 1.7604780197143555, "learning_rate": 9.422222222222222e-06, "loss": 1.12, "step": 424 }, { "epoch": 0.14166666666666666, "grad_norm": 2.1606240272521973, "learning_rate": 9.444444444444445e-06, "loss": 1.195, "step": 425 }, { "epoch": 0.142, "grad_norm": 1.568289041519165, "learning_rate": 9.466666666666667e-06, "loss": 1.0963, "step": 426 }, { "epoch": 0.14233333333333334, "grad_norm": 1.5797215700149536, "learning_rate": 9.48888888888889e-06, "loss": 1.0699, "step": 427 }, { "epoch": 0.14266666666666666, "grad_norm": 1.8140079975128174, "learning_rate": 9.511111111111112e-06, "loss": 1.0992, "step": 428 }, { "epoch": 0.143, "grad_norm": 1.765262246131897, "learning_rate": 9.533333333333334e-06, "loss": 1.1441, "step": 429 }, { "epoch": 0.14333333333333334, "grad_norm": 1.8398171663284302, "learning_rate": 9.555555555555556e-06, "loss": 1.1191, "step": 430 }, { "epoch": 0.14366666666666666, "grad_norm": 1.6656169891357422, "learning_rate": 9.577777777777779e-06, "loss": 1.0712, "step": 431 }, { "epoch": 0.144, "grad_norm": 1.7316750288009644, "learning_rate": 9.600000000000001e-06, "loss": 1.1527, "step": 432 }, { "epoch": 0.14433333333333334, "grad_norm": 1.7418121099472046, "learning_rate": 9.622222222222222e-06, "loss": 1.0815, "step": 433 }, { "epoch": 0.14466666666666667, "grad_norm": 1.6358797550201416, "learning_rate": 9.644444444444444e-06, "loss": 1.1202, "step": 434 }, { "epoch": 0.145, "grad_norm": 1.6336448192596436, "learning_rate": 9.666666666666667e-06, "loss": 1.1266, "step": 435 }, { "epoch": 0.14533333333333334, "grad_norm": 1.4874346256256104, "learning_rate": 9.688888888888889e-06, "loss": 1.0916, "step": 436 }, { "epoch": 0.14566666666666667, "grad_norm": 1.6131802797317505, "learning_rate": 9.711111111111111e-06, "loss": 1.1705, "step": 437 }, { "epoch": 0.146, "grad_norm": 1.6457535028457642, "learning_rate": 9.733333333333334e-06, "loss": 1.031, "step": 438 }, { "epoch": 0.14633333333333334, "grad_norm": 1.564022421836853, "learning_rate": 9.755555555555556e-06, "loss": 1.1451, "step": 439 }, { "epoch": 0.14666666666666667, "grad_norm": 1.781559944152832, "learning_rate": 9.777777777777779e-06, "loss": 1.1309, "step": 440 }, { "epoch": 0.147, "grad_norm": 1.7978386878967285, "learning_rate": 9.800000000000001e-06, "loss": 1.0591, "step": 441 }, { "epoch": 0.14733333333333334, "grad_norm": 1.4821981191635132, "learning_rate": 9.822222222222223e-06, "loss": 1.1663, "step": 442 }, { "epoch": 0.14766666666666667, "grad_norm": 1.5056161880493164, "learning_rate": 9.844444444444446e-06, "loss": 1.0982, "step": 443 }, { "epoch": 0.148, "grad_norm": 1.703609585762024, "learning_rate": 9.866666666666668e-06, "loss": 1.0452, "step": 444 }, { "epoch": 0.14833333333333334, "grad_norm": 1.6774314641952515, "learning_rate": 9.88888888888889e-06, "loss": 1.0727, "step": 445 }, { "epoch": 0.14866666666666667, "grad_norm": 1.980034589767456, "learning_rate": 9.911111111111113e-06, "loss": 1.0385, "step": 446 }, { "epoch": 0.149, "grad_norm": 1.7969330549240112, "learning_rate": 9.933333333333334e-06, "loss": 1.0617, "step": 447 }, { "epoch": 0.14933333333333335, "grad_norm": 1.7403318881988525, "learning_rate": 9.955555555555556e-06, "loss": 1.0591, "step": 448 }, { "epoch": 0.14966666666666667, "grad_norm": 1.5473605394363403, "learning_rate": 9.977777777777778e-06, "loss": 1.1091, "step": 449 }, { "epoch": 0.15, "grad_norm": 1.9292234182357788, "learning_rate": 1e-05, "loss": 1.0835, "step": 450 }, { "epoch": 0.15033333333333335, "grad_norm": 1.7397847175598145, "learning_rate": 1.0022222222222222e-05, "loss": 1.1231, "step": 451 }, { "epoch": 0.15066666666666667, "grad_norm": 1.6234381198883057, "learning_rate": 1.0044444444444446e-05, "loss": 1.1428, "step": 452 }, { "epoch": 0.151, "grad_norm": 1.5364257097244263, "learning_rate": 1.0066666666666666e-05, "loss": 1.1392, "step": 453 }, { "epoch": 0.15133333333333332, "grad_norm": 1.90274178981781, "learning_rate": 1.008888888888889e-05, "loss": 1.0987, "step": 454 }, { "epoch": 0.15166666666666667, "grad_norm": 1.7045230865478516, "learning_rate": 1.0111111111111111e-05, "loss": 1.1105, "step": 455 }, { "epoch": 0.152, "grad_norm": 1.636232614517212, "learning_rate": 1.0133333333333335e-05, "loss": 1.0495, "step": 456 }, { "epoch": 0.15233333333333332, "grad_norm": 1.7262197732925415, "learning_rate": 1.0155555555555556e-05, "loss": 1.0926, "step": 457 }, { "epoch": 0.15266666666666667, "grad_norm": 1.9142975807189941, "learning_rate": 1.0177777777777778e-05, "loss": 1.1005, "step": 458 }, { "epoch": 0.153, "grad_norm": 1.6508861780166626, "learning_rate": 1.02e-05, "loss": 1.1091, "step": 459 }, { "epoch": 0.15333333333333332, "grad_norm": 1.7159812450408936, "learning_rate": 1.0222222222222223e-05, "loss": 1.1027, "step": 460 }, { "epoch": 0.15366666666666667, "grad_norm": 1.6377849578857422, "learning_rate": 1.0244444444444445e-05, "loss": 1.1331, "step": 461 }, { "epoch": 0.154, "grad_norm": 1.6203923225402832, "learning_rate": 1.0266666666666668e-05, "loss": 1.1423, "step": 462 }, { "epoch": 0.15433333333333332, "grad_norm": 1.8346457481384277, "learning_rate": 1.028888888888889e-05, "loss": 1.1549, "step": 463 }, { "epoch": 0.15466666666666667, "grad_norm": 1.7381219863891602, "learning_rate": 1.0311111111111113e-05, "loss": 0.9659, "step": 464 }, { "epoch": 0.155, "grad_norm": 1.6528301239013672, "learning_rate": 1.0333333333333335e-05, "loss": 1.1035, "step": 465 }, { "epoch": 0.15533333333333332, "grad_norm": 1.6355177164077759, "learning_rate": 1.0355555555555557e-05, "loss": 1.1102, "step": 466 }, { "epoch": 0.15566666666666668, "grad_norm": 1.9482636451721191, "learning_rate": 1.0377777777777778e-05, "loss": 1.0308, "step": 467 }, { "epoch": 0.156, "grad_norm": 1.7846673727035522, "learning_rate": 1.04e-05, "loss": 1.0836, "step": 468 }, { "epoch": 0.15633333333333332, "grad_norm": 1.6953729391098022, "learning_rate": 1.0422222222222223e-05, "loss": 1.1131, "step": 469 }, { "epoch": 0.15666666666666668, "grad_norm": 1.6953966617584229, "learning_rate": 1.0444444444444445e-05, "loss": 1.0721, "step": 470 }, { "epoch": 0.157, "grad_norm": 1.8690605163574219, "learning_rate": 1.0466666666666668e-05, "loss": 1.0723, "step": 471 }, { "epoch": 0.15733333333333333, "grad_norm": 1.678210735321045, "learning_rate": 1.048888888888889e-05, "loss": 1.1137, "step": 472 }, { "epoch": 0.15766666666666668, "grad_norm": 1.8406871557235718, "learning_rate": 1.0511111111111112e-05, "loss": 1.1003, "step": 473 }, { "epoch": 0.158, "grad_norm": 1.6184312105178833, "learning_rate": 1.0533333333333333e-05, "loss": 1.0345, "step": 474 }, { "epoch": 0.15833333333333333, "grad_norm": 1.583672285079956, "learning_rate": 1.0555555555555557e-05, "loss": 1.1456, "step": 475 }, { "epoch": 0.15866666666666668, "grad_norm": 1.7261593341827393, "learning_rate": 1.0577777777777778e-05, "loss": 1.0755, "step": 476 }, { "epoch": 0.159, "grad_norm": 1.752791404724121, "learning_rate": 1.0600000000000002e-05, "loss": 1.0625, "step": 477 }, { "epoch": 0.15933333333333333, "grad_norm": 1.5139282941818237, "learning_rate": 1.0622222222222223e-05, "loss": 1.0368, "step": 478 }, { "epoch": 0.15966666666666668, "grad_norm": 1.5136128664016724, "learning_rate": 1.0644444444444447e-05, "loss": 1.1666, "step": 479 }, { "epoch": 0.16, "grad_norm": 1.7589632272720337, "learning_rate": 1.0666666666666667e-05, "loss": 1.0861, "step": 480 }, { "epoch": 0.16033333333333333, "grad_norm": 1.6331846714019775, "learning_rate": 1.0688888888888891e-05, "loss": 1.0676, "step": 481 }, { "epoch": 0.16066666666666668, "grad_norm": 1.7067865133285522, "learning_rate": 1.0711111111111112e-05, "loss": 1.0561, "step": 482 }, { "epoch": 0.161, "grad_norm": 1.5834790468215942, "learning_rate": 1.0733333333333333e-05, "loss": 1.1006, "step": 483 }, { "epoch": 0.16133333333333333, "grad_norm": 1.8412889242172241, "learning_rate": 1.0755555555555557e-05, "loss": 0.9469, "step": 484 }, { "epoch": 0.16166666666666665, "grad_norm": 1.7141199111938477, "learning_rate": 1.0777777777777778e-05, "loss": 1.0031, "step": 485 }, { "epoch": 0.162, "grad_norm": 1.893264651298523, "learning_rate": 1.0800000000000002e-05, "loss": 1.1586, "step": 486 }, { "epoch": 0.16233333333333333, "grad_norm": 2.068830966949463, "learning_rate": 1.0822222222222222e-05, "loss": 1.0885, "step": 487 }, { "epoch": 0.16266666666666665, "grad_norm": 1.9069668054580688, "learning_rate": 1.0844444444444446e-05, "loss": 1.1474, "step": 488 }, { "epoch": 0.163, "grad_norm": 1.6366583108901978, "learning_rate": 1.0866666666666667e-05, "loss": 1.07, "step": 489 }, { "epoch": 0.16333333333333333, "grad_norm": 1.7874704599380493, "learning_rate": 1.088888888888889e-05, "loss": 1.097, "step": 490 }, { "epoch": 0.16366666666666665, "grad_norm": 2.0118303298950195, "learning_rate": 1.0911111111111112e-05, "loss": 1.0299, "step": 491 }, { "epoch": 0.164, "grad_norm": 1.918944001197815, "learning_rate": 1.0933333333333334e-05, "loss": 1.0951, "step": 492 }, { "epoch": 0.16433333333333333, "grad_norm": 1.6921690702438354, "learning_rate": 1.0955555555555557e-05, "loss": 1.0929, "step": 493 }, { "epoch": 0.16466666666666666, "grad_norm": 1.7559075355529785, "learning_rate": 1.0977777777777779e-05, "loss": 1.0183, "step": 494 }, { "epoch": 0.165, "grad_norm": 1.856054663658142, "learning_rate": 1.1000000000000001e-05, "loss": 1.1597, "step": 495 }, { "epoch": 0.16533333333333333, "grad_norm": 1.5572078227996826, "learning_rate": 1.1022222222222224e-05, "loss": 1.1482, "step": 496 }, { "epoch": 0.16566666666666666, "grad_norm": 1.6209688186645508, "learning_rate": 1.1044444444444444e-05, "loss": 1.1628, "step": 497 }, { "epoch": 0.166, "grad_norm": 1.686906337738037, "learning_rate": 1.1066666666666669e-05, "loss": 1.062, "step": 498 }, { "epoch": 0.16633333333333333, "grad_norm": 1.7066789865493774, "learning_rate": 1.108888888888889e-05, "loss": 1.0644, "step": 499 }, { "epoch": 0.16666666666666666, "grad_norm": 1.702553629875183, "learning_rate": 1.1111111111111113e-05, "loss": 1.0446, "step": 500 }, { "epoch": 0.167, "grad_norm": 1.7418967485427856, "learning_rate": 1.1133333333333334e-05, "loss": 1.1086, "step": 501 }, { "epoch": 0.16733333333333333, "grad_norm": 1.8697181940078735, "learning_rate": 1.1155555555555556e-05, "loss": 1.0013, "step": 502 }, { "epoch": 0.16766666666666666, "grad_norm": 1.814271092414856, "learning_rate": 1.1177777777777779e-05, "loss": 1.0939, "step": 503 }, { "epoch": 0.168, "grad_norm": 1.9454995393753052, "learning_rate": 1.1200000000000001e-05, "loss": 1.1063, "step": 504 }, { "epoch": 0.16833333333333333, "grad_norm": 1.811567783355713, "learning_rate": 1.1222222222222224e-05, "loss": 1.1484, "step": 505 }, { "epoch": 0.16866666666666666, "grad_norm": 1.8062009811401367, "learning_rate": 1.1244444444444444e-05, "loss": 1.1049, "step": 506 }, { "epoch": 0.169, "grad_norm": 1.9528882503509521, "learning_rate": 1.1266666666666668e-05, "loss": 1.0427, "step": 507 }, { "epoch": 0.16933333333333334, "grad_norm": 2.022484064102173, "learning_rate": 1.1288888888888889e-05, "loss": 1.1245, "step": 508 }, { "epoch": 0.16966666666666666, "grad_norm": 1.9100559949874878, "learning_rate": 1.1311111111111113e-05, "loss": 1.0281, "step": 509 }, { "epoch": 0.17, "grad_norm": 1.5803272724151611, "learning_rate": 1.1333333333333334e-05, "loss": 1.0646, "step": 510 }, { "epoch": 0.17033333333333334, "grad_norm": 1.8275490999221802, "learning_rate": 1.1355555555555558e-05, "loss": 1.0328, "step": 511 }, { "epoch": 0.17066666666666666, "grad_norm": 1.7441529035568237, "learning_rate": 1.1377777777777779e-05, "loss": 1.0194, "step": 512 }, { "epoch": 0.171, "grad_norm": 1.8799328804016113, "learning_rate": 1.14e-05, "loss": 0.9822, "step": 513 }, { "epoch": 0.17133333333333334, "grad_norm": 1.970264196395874, "learning_rate": 1.1422222222222223e-05, "loss": 1.0289, "step": 514 }, { "epoch": 0.17166666666666666, "grad_norm": 1.912644863128662, "learning_rate": 1.1444444444444444e-05, "loss": 1.0627, "step": 515 }, { "epoch": 0.172, "grad_norm": 1.6623820066452026, "learning_rate": 1.1466666666666668e-05, "loss": 1.045, "step": 516 }, { "epoch": 0.17233333333333334, "grad_norm": 1.8136365413665771, "learning_rate": 1.1488888888888889e-05, "loss": 1.0204, "step": 517 }, { "epoch": 0.17266666666666666, "grad_norm": 1.921934962272644, "learning_rate": 1.1511111111111113e-05, "loss": 1.0478, "step": 518 }, { "epoch": 0.173, "grad_norm": 1.9126386642456055, "learning_rate": 1.1533333333333334e-05, "loss": 0.9806, "step": 519 }, { "epoch": 0.17333333333333334, "grad_norm": 1.8404539823532104, "learning_rate": 1.1555555555555556e-05, "loss": 1.0278, "step": 520 }, { "epoch": 0.17366666666666666, "grad_norm": 1.7314127683639526, "learning_rate": 1.1577777777777778e-05, "loss": 1.0871, "step": 521 }, { "epoch": 0.174, "grad_norm": 1.8584668636322021, "learning_rate": 1.16e-05, "loss": 1.0923, "step": 522 }, { "epoch": 0.17433333333333334, "grad_norm": 1.8660153150558472, "learning_rate": 1.1622222222222223e-05, "loss": 1.0928, "step": 523 }, { "epoch": 0.17466666666666666, "grad_norm": 1.7447179555892944, "learning_rate": 1.1644444444444446e-05, "loss": 1.0154, "step": 524 }, { "epoch": 0.175, "grad_norm": 1.7330108880996704, "learning_rate": 1.1666666666666668e-05, "loss": 0.9943, "step": 525 }, { "epoch": 0.17533333333333334, "grad_norm": 1.6308618783950806, "learning_rate": 1.168888888888889e-05, "loss": 1.0745, "step": 526 }, { "epoch": 0.17566666666666667, "grad_norm": 1.6489473581314087, "learning_rate": 1.1711111111111113e-05, "loss": 0.9978, "step": 527 }, { "epoch": 0.176, "grad_norm": 1.64958655834198, "learning_rate": 1.1733333333333335e-05, "loss": 1.0665, "step": 528 }, { "epoch": 0.17633333333333334, "grad_norm": 1.5711374282836914, "learning_rate": 1.1755555555555556e-05, "loss": 1.0458, "step": 529 }, { "epoch": 0.17666666666666667, "grad_norm": 1.5267395973205566, "learning_rate": 1.177777777777778e-05, "loss": 1.1208, "step": 530 }, { "epoch": 0.177, "grad_norm": 1.8761646747589111, "learning_rate": 1.18e-05, "loss": 0.9994, "step": 531 }, { "epoch": 0.17733333333333334, "grad_norm": 1.5514051914215088, "learning_rate": 1.1822222222222225e-05, "loss": 1.0679, "step": 532 }, { "epoch": 0.17766666666666667, "grad_norm": 1.7220550775527954, "learning_rate": 1.1844444444444445e-05, "loss": 1.0178, "step": 533 }, { "epoch": 0.178, "grad_norm": 1.6906753778457642, "learning_rate": 1.186666666666667e-05, "loss": 1.0044, "step": 534 }, { "epoch": 0.17833333333333334, "grad_norm": 1.925663709640503, "learning_rate": 1.188888888888889e-05, "loss": 1.092, "step": 535 }, { "epoch": 0.17866666666666667, "grad_norm": 1.8617786169052124, "learning_rate": 1.191111111111111e-05, "loss": 1.0885, "step": 536 }, { "epoch": 0.179, "grad_norm": 1.5811760425567627, "learning_rate": 1.1933333333333335e-05, "loss": 1.0263, "step": 537 }, { "epoch": 0.17933333333333334, "grad_norm": 1.7940433025360107, "learning_rate": 1.1955555555555556e-05, "loss": 1.0267, "step": 538 }, { "epoch": 0.17966666666666667, "grad_norm": 1.6902893781661987, "learning_rate": 1.197777777777778e-05, "loss": 1.1402, "step": 539 }, { "epoch": 0.18, "grad_norm": 1.5379472970962524, "learning_rate": 1.2e-05, "loss": 1.0778, "step": 540 }, { "epoch": 0.18033333333333335, "grad_norm": 1.6316343545913696, "learning_rate": 1.2022222222222224e-05, "loss": 1.1262, "step": 541 }, { "epoch": 0.18066666666666667, "grad_norm": 1.6102927923202515, "learning_rate": 1.2044444444444445e-05, "loss": 1.0359, "step": 542 }, { "epoch": 0.181, "grad_norm": 1.897112488746643, "learning_rate": 1.206666666666667e-05, "loss": 1.0094, "step": 543 }, { "epoch": 0.18133333333333335, "grad_norm": 1.8928526639938354, "learning_rate": 1.208888888888889e-05, "loss": 1.0176, "step": 544 }, { "epoch": 0.18166666666666667, "grad_norm": 1.5769389867782593, "learning_rate": 1.211111111111111e-05, "loss": 1.1062, "step": 545 }, { "epoch": 0.182, "grad_norm": 1.7001267671585083, "learning_rate": 1.2133333333333335e-05, "loss": 1.1348, "step": 546 }, { "epoch": 0.18233333333333332, "grad_norm": 1.8856518268585205, "learning_rate": 1.2155555555555555e-05, "loss": 1.065, "step": 547 }, { "epoch": 0.18266666666666667, "grad_norm": 1.9574525356292725, "learning_rate": 1.217777777777778e-05, "loss": 0.9953, "step": 548 }, { "epoch": 0.183, "grad_norm": 1.8669383525848389, "learning_rate": 1.22e-05, "loss": 0.979, "step": 549 }, { "epoch": 0.18333333333333332, "grad_norm": 1.8798657655715942, "learning_rate": 1.2222222222222224e-05, "loss": 1.1327, "step": 550 }, { "epoch": 0.18366666666666667, "grad_norm": 2.009044885635376, "learning_rate": 1.2244444444444445e-05, "loss": 1.1208, "step": 551 }, { "epoch": 0.184, "grad_norm": 1.9445277452468872, "learning_rate": 1.2266666666666667e-05, "loss": 1.0585, "step": 552 }, { "epoch": 0.18433333333333332, "grad_norm": 2.000067710876465, "learning_rate": 1.228888888888889e-05, "loss": 1.0491, "step": 553 }, { "epoch": 0.18466666666666667, "grad_norm": 1.7991902828216553, "learning_rate": 1.2311111111111112e-05, "loss": 0.9768, "step": 554 }, { "epoch": 0.185, "grad_norm": 1.9944171905517578, "learning_rate": 1.2333333333333334e-05, "loss": 1.009, "step": 555 }, { "epoch": 0.18533333333333332, "grad_norm": 1.792763590812683, "learning_rate": 1.2355555555555557e-05, "loss": 1.053, "step": 556 }, { "epoch": 0.18566666666666667, "grad_norm": 1.753755807876587, "learning_rate": 1.237777777777778e-05, "loss": 1.0751, "step": 557 }, { "epoch": 0.186, "grad_norm": 1.7179780006408691, "learning_rate": 1.2400000000000002e-05, "loss": 1.099, "step": 558 }, { "epoch": 0.18633333333333332, "grad_norm": 2.0452985763549805, "learning_rate": 1.2422222222222222e-05, "loss": 0.9935, "step": 559 }, { "epoch": 0.18666666666666668, "grad_norm": 1.6799918413162231, "learning_rate": 1.2444444444444446e-05, "loss": 1.0841, "step": 560 }, { "epoch": 0.187, "grad_norm": 2.139090061187744, "learning_rate": 1.2466666666666667e-05, "loss": 1.0862, "step": 561 }, { "epoch": 0.18733333333333332, "grad_norm": 2.1088294982910156, "learning_rate": 1.2488888888888891e-05, "loss": 0.9545, "step": 562 }, { "epoch": 0.18766666666666668, "grad_norm": 1.9414620399475098, "learning_rate": 1.2511111111111112e-05, "loss": 1.0266, "step": 563 }, { "epoch": 0.188, "grad_norm": 2.2404003143310547, "learning_rate": 1.2533333333333336e-05, "loss": 1.1768, "step": 564 }, { "epoch": 0.18833333333333332, "grad_norm": 1.762436866760254, "learning_rate": 1.2555555555555557e-05, "loss": 1.0773, "step": 565 }, { "epoch": 0.18866666666666668, "grad_norm": 1.7438178062438965, "learning_rate": 1.257777777777778e-05, "loss": 1.0556, "step": 566 }, { "epoch": 0.189, "grad_norm": 1.8524101972579956, "learning_rate": 1.2600000000000001e-05, "loss": 1.0523, "step": 567 }, { "epoch": 0.18933333333333333, "grad_norm": 1.6051878929138184, "learning_rate": 1.2622222222222222e-05, "loss": 1.0224, "step": 568 }, { "epoch": 0.18966666666666668, "grad_norm": 1.9028462171554565, "learning_rate": 1.2644444444444446e-05, "loss": 0.9599, "step": 569 }, { "epoch": 0.19, "grad_norm": 1.814272165298462, "learning_rate": 1.2666666666666667e-05, "loss": 1.0293, "step": 570 }, { "epoch": 0.19033333333333333, "grad_norm": 1.8441358804702759, "learning_rate": 1.2688888888888891e-05, "loss": 1.0903, "step": 571 }, { "epoch": 0.19066666666666668, "grad_norm": 1.6648900508880615, "learning_rate": 1.2711111111111112e-05, "loss": 1.0922, "step": 572 }, { "epoch": 0.191, "grad_norm": 1.7445429563522339, "learning_rate": 1.2733333333333336e-05, "loss": 1.1322, "step": 573 }, { "epoch": 0.19133333333333333, "grad_norm": 2.0905604362487793, "learning_rate": 1.2755555555555556e-05, "loss": 0.9303, "step": 574 }, { "epoch": 0.19166666666666668, "grad_norm": 1.9623490571975708, "learning_rate": 1.2777777777777777e-05, "loss": 1.0204, "step": 575 }, { "epoch": 0.192, "grad_norm": 1.6762508153915405, "learning_rate": 1.2800000000000001e-05, "loss": 1.1138, "step": 576 }, { "epoch": 0.19233333333333333, "grad_norm": 1.786900520324707, "learning_rate": 1.2822222222222222e-05, "loss": 1.0949, "step": 577 }, { "epoch": 0.19266666666666668, "grad_norm": 1.8005988597869873, "learning_rate": 1.2844444444444446e-05, "loss": 1.0357, "step": 578 }, { "epoch": 0.193, "grad_norm": 1.9089072942733765, "learning_rate": 1.2866666666666667e-05, "loss": 1.0984, "step": 579 }, { "epoch": 0.19333333333333333, "grad_norm": 1.9002981185913086, "learning_rate": 1.288888888888889e-05, "loss": 1.0485, "step": 580 }, { "epoch": 0.19366666666666665, "grad_norm": 1.9062466621398926, "learning_rate": 1.2911111111111111e-05, "loss": 1.0366, "step": 581 }, { "epoch": 0.194, "grad_norm": 1.8722420930862427, "learning_rate": 1.2933333333333334e-05, "loss": 1.0832, "step": 582 }, { "epoch": 0.19433333333333333, "grad_norm": 1.8554141521453857, "learning_rate": 1.2955555555555556e-05, "loss": 1.1072, "step": 583 }, { "epoch": 0.19466666666666665, "grad_norm": 1.6793633699417114, "learning_rate": 1.2977777777777779e-05, "loss": 1.0017, "step": 584 }, { "epoch": 0.195, "grad_norm": 1.7925872802734375, "learning_rate": 1.3000000000000001e-05, "loss": 1.0157, "step": 585 }, { "epoch": 0.19533333333333333, "grad_norm": 1.9033020734786987, "learning_rate": 1.3022222222222223e-05, "loss": 1.0355, "step": 586 }, { "epoch": 0.19566666666666666, "grad_norm": 1.8373574018478394, "learning_rate": 1.3044444444444446e-05, "loss": 1.0822, "step": 587 }, { "epoch": 0.196, "grad_norm": 1.8211172819137573, "learning_rate": 1.3066666666666668e-05, "loss": 0.9421, "step": 588 }, { "epoch": 0.19633333333333333, "grad_norm": 2.023993968963623, "learning_rate": 1.308888888888889e-05, "loss": 0.9999, "step": 589 }, { "epoch": 0.19666666666666666, "grad_norm": 1.7299787998199463, "learning_rate": 1.3111111111111113e-05, "loss": 1.0438, "step": 590 }, { "epoch": 0.197, "grad_norm": 1.6870613098144531, "learning_rate": 1.3133333333333334e-05, "loss": 0.9946, "step": 591 }, { "epoch": 0.19733333333333333, "grad_norm": 1.8648364543914795, "learning_rate": 1.3155555555555558e-05, "loss": 0.908, "step": 592 }, { "epoch": 0.19766666666666666, "grad_norm": 1.883615493774414, "learning_rate": 1.3177777777777778e-05, "loss": 1.0364, "step": 593 }, { "epoch": 0.198, "grad_norm": 1.9777247905731201, "learning_rate": 1.3200000000000002e-05, "loss": 1.0792, "step": 594 }, { "epoch": 0.19833333333333333, "grad_norm": 1.7418471574783325, "learning_rate": 1.3222222222222223e-05, "loss": 1.0684, "step": 595 }, { "epoch": 0.19866666666666666, "grad_norm": 2.000107526779175, "learning_rate": 1.3244444444444447e-05, "loss": 1.0447, "step": 596 }, { "epoch": 0.199, "grad_norm": 1.8475511074066162, "learning_rate": 1.3266666666666668e-05, "loss": 1.1028, "step": 597 }, { "epoch": 0.19933333333333333, "grad_norm": 1.8212943077087402, "learning_rate": 1.3288888888888889e-05, "loss": 0.9426, "step": 598 }, { "epoch": 0.19966666666666666, "grad_norm": 1.8428258895874023, "learning_rate": 1.3311111111111113e-05, "loss": 1.0131, "step": 599 }, { "epoch": 0.2, "grad_norm": 2.0170860290527344, "learning_rate": 1.3333333333333333e-05, "loss": 0.9908, "step": 600 }, { "epoch": 0.20033333333333334, "grad_norm": 2.2352406978607178, "learning_rate": 1.3355555555555557e-05, "loss": 1.0494, "step": 601 }, { "epoch": 0.20066666666666666, "grad_norm": 1.907303810119629, "learning_rate": 1.3377777777777778e-05, "loss": 1.0054, "step": 602 }, { "epoch": 0.201, "grad_norm": 1.8661456108093262, "learning_rate": 1.3400000000000002e-05, "loss": 1.0317, "step": 603 }, { "epoch": 0.20133333333333334, "grad_norm": 2.023705005645752, "learning_rate": 1.3422222222222223e-05, "loss": 1.0107, "step": 604 }, { "epoch": 0.20166666666666666, "grad_norm": 1.8328070640563965, "learning_rate": 1.3444444444444447e-05, "loss": 1.0696, "step": 605 }, { "epoch": 0.202, "grad_norm": 1.838645100593567, "learning_rate": 1.3466666666666668e-05, "loss": 0.9704, "step": 606 }, { "epoch": 0.20233333333333334, "grad_norm": 1.876550316810608, "learning_rate": 1.3488888888888888e-05, "loss": 1.0026, "step": 607 }, { "epoch": 0.20266666666666666, "grad_norm": 1.8483893871307373, "learning_rate": 1.3511111111111112e-05, "loss": 0.9897, "step": 608 }, { "epoch": 0.203, "grad_norm": 1.7434430122375488, "learning_rate": 1.3533333333333333e-05, "loss": 0.9448, "step": 609 }, { "epoch": 0.20333333333333334, "grad_norm": 1.803244948387146, "learning_rate": 1.3555555555555557e-05, "loss": 1.0623, "step": 610 }, { "epoch": 0.20366666666666666, "grad_norm": 1.698850154876709, "learning_rate": 1.3577777777777778e-05, "loss": 1.0551, "step": 611 }, { "epoch": 0.204, "grad_norm": 1.9324541091918945, "learning_rate": 1.3600000000000002e-05, "loss": 0.967, "step": 612 }, { "epoch": 0.20433333333333334, "grad_norm": 1.837526559829712, "learning_rate": 1.3622222222222223e-05, "loss": 1.0088, "step": 613 }, { "epoch": 0.20466666666666666, "grad_norm": 1.9536508321762085, "learning_rate": 1.3644444444444445e-05, "loss": 0.9968, "step": 614 }, { "epoch": 0.205, "grad_norm": 1.9767215251922607, "learning_rate": 1.3666666666666667e-05, "loss": 0.9477, "step": 615 }, { "epoch": 0.20533333333333334, "grad_norm": 2.3544328212738037, "learning_rate": 1.368888888888889e-05, "loss": 1.0359, "step": 616 }, { "epoch": 0.20566666666666666, "grad_norm": 2.0752015113830566, "learning_rate": 1.3711111111111112e-05, "loss": 0.9675, "step": 617 }, { "epoch": 0.206, "grad_norm": 2.1638569831848145, "learning_rate": 1.3733333333333335e-05, "loss": 1.0212, "step": 618 }, { "epoch": 0.20633333333333334, "grad_norm": 2.1373767852783203, "learning_rate": 1.3755555555555557e-05, "loss": 1.0805, "step": 619 }, { "epoch": 0.20666666666666667, "grad_norm": 2.117760181427002, "learning_rate": 1.377777777777778e-05, "loss": 1.0449, "step": 620 }, { "epoch": 0.207, "grad_norm": 1.8753548860549927, "learning_rate": 1.38e-05, "loss": 1.0726, "step": 621 }, { "epoch": 0.20733333333333334, "grad_norm": 2.037781238555908, "learning_rate": 1.3822222222222224e-05, "loss": 0.9676, "step": 622 }, { "epoch": 0.20766666666666667, "grad_norm": 1.9149776697158813, "learning_rate": 1.3844444444444445e-05, "loss": 1.0829, "step": 623 }, { "epoch": 0.208, "grad_norm": 1.9045953750610352, "learning_rate": 1.3866666666666669e-05, "loss": 1.0406, "step": 624 }, { "epoch": 0.20833333333333334, "grad_norm": 2.182391881942749, "learning_rate": 1.388888888888889e-05, "loss": 1.0034, "step": 625 }, { "epoch": 0.20866666666666667, "grad_norm": 2.096299886703491, "learning_rate": 1.3911111111111114e-05, "loss": 0.9731, "step": 626 }, { "epoch": 0.209, "grad_norm": 1.8933310508728027, "learning_rate": 1.3933333333333334e-05, "loss": 0.8871, "step": 627 }, { "epoch": 0.20933333333333334, "grad_norm": 2.0243444442749023, "learning_rate": 1.3955555555555558e-05, "loss": 0.9225, "step": 628 }, { "epoch": 0.20966666666666667, "grad_norm": 2.2813796997070312, "learning_rate": 1.3977777777777779e-05, "loss": 0.9982, "step": 629 }, { "epoch": 0.21, "grad_norm": 2.300152063369751, "learning_rate": 1.4e-05, "loss": 0.9557, "step": 630 }, { "epoch": 0.21033333333333334, "grad_norm": 1.9258462190628052, "learning_rate": 1.4022222222222224e-05, "loss": 0.8817, "step": 631 }, { "epoch": 0.21066666666666667, "grad_norm": 2.0485823154449463, "learning_rate": 1.4044444444444445e-05, "loss": 1.0348, "step": 632 }, { "epoch": 0.211, "grad_norm": 1.896964430809021, "learning_rate": 1.4066666666666669e-05, "loss": 1.0594, "step": 633 }, { "epoch": 0.21133333333333335, "grad_norm": 1.9187796115875244, "learning_rate": 1.408888888888889e-05, "loss": 1.0534, "step": 634 }, { "epoch": 0.21166666666666667, "grad_norm": 1.883115530014038, "learning_rate": 1.4111111111111113e-05, "loss": 1.0501, "step": 635 }, { "epoch": 0.212, "grad_norm": 1.923357367515564, "learning_rate": 1.4133333333333334e-05, "loss": 0.9634, "step": 636 }, { "epoch": 0.21233333333333335, "grad_norm": 2.013113498687744, "learning_rate": 1.4155555555555556e-05, "loss": 1.0973, "step": 637 }, { "epoch": 0.21266666666666667, "grad_norm": 1.8864637613296509, "learning_rate": 1.4177777777777779e-05, "loss": 1.0612, "step": 638 }, { "epoch": 0.213, "grad_norm": 1.9251823425292969, "learning_rate": 1.4200000000000001e-05, "loss": 0.9953, "step": 639 }, { "epoch": 0.21333333333333335, "grad_norm": 1.8344268798828125, "learning_rate": 1.4222222222222224e-05, "loss": 1.0066, "step": 640 }, { "epoch": 0.21366666666666667, "grad_norm": 1.9602892398834229, "learning_rate": 1.4244444444444444e-05, "loss": 1.0023, "step": 641 }, { "epoch": 0.214, "grad_norm": 1.957903504371643, "learning_rate": 1.4266666666666668e-05, "loss": 0.969, "step": 642 }, { "epoch": 0.21433333333333332, "grad_norm": 2.063138723373413, "learning_rate": 1.4288888888888889e-05, "loss": 1.049, "step": 643 }, { "epoch": 0.21466666666666667, "grad_norm": 1.9838637113571167, "learning_rate": 1.4311111111111111e-05, "loss": 0.8725, "step": 644 }, { "epoch": 0.215, "grad_norm": 2.2307844161987305, "learning_rate": 1.4333333333333334e-05, "loss": 0.9729, "step": 645 }, { "epoch": 0.21533333333333332, "grad_norm": 2.2554993629455566, "learning_rate": 1.4355555555555556e-05, "loss": 1.0136, "step": 646 }, { "epoch": 0.21566666666666667, "grad_norm": 1.9837831258773804, "learning_rate": 1.4377777777777779e-05, "loss": 0.941, "step": 647 }, { "epoch": 0.216, "grad_norm": 2.151555299758911, "learning_rate": 1.4400000000000001e-05, "loss": 0.9937, "step": 648 }, { "epoch": 0.21633333333333332, "grad_norm": 1.8693896532058716, "learning_rate": 1.4422222222222223e-05, "loss": 1.0059, "step": 649 }, { "epoch": 0.21666666666666667, "grad_norm": 2.026677370071411, "learning_rate": 1.4444444444444446e-05, "loss": 0.9235, "step": 650 }, { "epoch": 0.217, "grad_norm": 1.8262110948562622, "learning_rate": 1.4466666666666668e-05, "loss": 0.956, "step": 651 }, { "epoch": 0.21733333333333332, "grad_norm": 2.1659469604492188, "learning_rate": 1.448888888888889e-05, "loss": 0.9675, "step": 652 }, { "epoch": 0.21766666666666667, "grad_norm": 1.79062020778656, "learning_rate": 1.4511111111111111e-05, "loss": 1.0243, "step": 653 }, { "epoch": 0.218, "grad_norm": 1.9424083232879639, "learning_rate": 1.4533333333333335e-05, "loss": 1.0351, "step": 654 }, { "epoch": 0.21833333333333332, "grad_norm": 1.9661529064178467, "learning_rate": 1.4555555555555556e-05, "loss": 0.9842, "step": 655 }, { "epoch": 0.21866666666666668, "grad_norm": 2.0230393409729004, "learning_rate": 1.457777777777778e-05, "loss": 0.8851, "step": 656 }, { "epoch": 0.219, "grad_norm": 2.0815749168395996, "learning_rate": 1.46e-05, "loss": 0.9946, "step": 657 }, { "epoch": 0.21933333333333332, "grad_norm": 1.9361217021942139, "learning_rate": 1.4622222222222225e-05, "loss": 1.0198, "step": 658 }, { "epoch": 0.21966666666666668, "grad_norm": 2.0183467864990234, "learning_rate": 1.4644444444444446e-05, "loss": 0.8555, "step": 659 }, { "epoch": 0.22, "grad_norm": 1.957879900932312, "learning_rate": 1.4666666666666666e-05, "loss": 1.0172, "step": 660 }, { "epoch": 0.22033333333333333, "grad_norm": 2.021496295928955, "learning_rate": 1.468888888888889e-05, "loss": 0.961, "step": 661 }, { "epoch": 0.22066666666666668, "grad_norm": 2.0929293632507324, "learning_rate": 1.4711111111111111e-05, "loss": 0.9198, "step": 662 }, { "epoch": 0.221, "grad_norm": 2.028017997741699, "learning_rate": 1.4733333333333335e-05, "loss": 0.9539, "step": 663 }, { "epoch": 0.22133333333333333, "grad_norm": 2.4784786701202393, "learning_rate": 1.4755555555555556e-05, "loss": 1.0141, "step": 664 }, { "epoch": 0.22166666666666668, "grad_norm": 2.2953829765319824, "learning_rate": 1.477777777777778e-05, "loss": 0.9856, "step": 665 }, { "epoch": 0.222, "grad_norm": 2.2780611515045166, "learning_rate": 1.48e-05, "loss": 0.9431, "step": 666 }, { "epoch": 0.22233333333333333, "grad_norm": 2.3119475841522217, "learning_rate": 1.4822222222222225e-05, "loss": 1.0061, "step": 667 }, { "epoch": 0.22266666666666668, "grad_norm": 2.0179407596588135, "learning_rate": 1.4844444444444445e-05, "loss": 0.9416, "step": 668 }, { "epoch": 0.223, "grad_norm": 1.9845750331878662, "learning_rate": 1.4866666666666668e-05, "loss": 1.0028, "step": 669 }, { "epoch": 0.22333333333333333, "grad_norm": 2.0497219562530518, "learning_rate": 1.488888888888889e-05, "loss": 1.0415, "step": 670 }, { "epoch": 0.22366666666666668, "grad_norm": 2.03671932220459, "learning_rate": 1.4911111111111113e-05, "loss": 0.9986, "step": 671 }, { "epoch": 0.224, "grad_norm": 2.1817612648010254, "learning_rate": 1.4933333333333335e-05, "loss": 0.9757, "step": 672 }, { "epoch": 0.22433333333333333, "grad_norm": 2.007974624633789, "learning_rate": 1.4955555555555557e-05, "loss": 0.9803, "step": 673 }, { "epoch": 0.22466666666666665, "grad_norm": 2.02718186378479, "learning_rate": 1.497777777777778e-05, "loss": 0.9643, "step": 674 }, { "epoch": 0.225, "grad_norm": 1.9848275184631348, "learning_rate": 1.5000000000000002e-05, "loss": 0.9292, "step": 675 }, { "epoch": 0.22533333333333333, "grad_norm": 2.069039821624756, "learning_rate": 1.5022222222222223e-05, "loss": 1.015, "step": 676 }, { "epoch": 0.22566666666666665, "grad_norm": 1.9411133527755737, "learning_rate": 1.5044444444444445e-05, "loss": 0.9777, "step": 677 }, { "epoch": 0.226, "grad_norm": 2.288095474243164, "learning_rate": 1.5066666666666668e-05, "loss": 1.0123, "step": 678 }, { "epoch": 0.22633333333333333, "grad_norm": 1.979999303817749, "learning_rate": 1.508888888888889e-05, "loss": 0.9844, "step": 679 }, { "epoch": 0.22666666666666666, "grad_norm": 2.181199789047241, "learning_rate": 1.5111111111111112e-05, "loss": 0.9045, "step": 680 }, { "epoch": 0.227, "grad_norm": 1.8234004974365234, "learning_rate": 1.5133333333333335e-05, "loss": 0.916, "step": 681 }, { "epoch": 0.22733333333333333, "grad_norm": 2.0240960121154785, "learning_rate": 1.5155555555555557e-05, "loss": 1.0273, "step": 682 }, { "epoch": 0.22766666666666666, "grad_norm": 1.9899144172668457, "learning_rate": 1.5177777777777778e-05, "loss": 0.9743, "step": 683 }, { "epoch": 0.228, "grad_norm": 2.0331571102142334, "learning_rate": 1.5200000000000002e-05, "loss": 1.03, "step": 684 }, { "epoch": 0.22833333333333333, "grad_norm": 2.0641372203826904, "learning_rate": 1.5222222222222223e-05, "loss": 0.9342, "step": 685 }, { "epoch": 0.22866666666666666, "grad_norm": 2.199514150619507, "learning_rate": 1.5244444444444447e-05, "loss": 0.9707, "step": 686 }, { "epoch": 0.229, "grad_norm": 1.9875428676605225, "learning_rate": 1.5266666666666667e-05, "loss": 0.9132, "step": 687 }, { "epoch": 0.22933333333333333, "grad_norm": 2.171032667160034, "learning_rate": 1.528888888888889e-05, "loss": 0.9727, "step": 688 }, { "epoch": 0.22966666666666666, "grad_norm": 2.0045721530914307, "learning_rate": 1.5311111111111112e-05, "loss": 0.9788, "step": 689 }, { "epoch": 0.23, "grad_norm": 1.8578386306762695, "learning_rate": 1.5333333333333334e-05, "loss": 0.9384, "step": 690 }, { "epoch": 0.23033333333333333, "grad_norm": 1.9924761056900024, "learning_rate": 1.5355555555555557e-05, "loss": 1.004, "step": 691 }, { "epoch": 0.23066666666666666, "grad_norm": 1.9637020826339722, "learning_rate": 1.537777777777778e-05, "loss": 0.9519, "step": 692 }, { "epoch": 0.231, "grad_norm": 1.9160338640213013, "learning_rate": 1.54e-05, "loss": 0.9697, "step": 693 }, { "epoch": 0.23133333333333334, "grad_norm": 2.007272720336914, "learning_rate": 1.5422222222222224e-05, "loss": 0.8097, "step": 694 }, { "epoch": 0.23166666666666666, "grad_norm": 2.333876371383667, "learning_rate": 1.5444444444444446e-05, "loss": 0.966, "step": 695 }, { "epoch": 0.232, "grad_norm": 2.016676664352417, "learning_rate": 1.546666666666667e-05, "loss": 0.969, "step": 696 }, { "epoch": 0.23233333333333334, "grad_norm": 2.194587230682373, "learning_rate": 1.548888888888889e-05, "loss": 0.9656, "step": 697 }, { "epoch": 0.23266666666666666, "grad_norm": 1.957675814628601, "learning_rate": 1.5511111111111114e-05, "loss": 0.9535, "step": 698 }, { "epoch": 0.233, "grad_norm": 2.007817029953003, "learning_rate": 1.5533333333333333e-05, "loss": 0.9434, "step": 699 }, { "epoch": 0.23333333333333334, "grad_norm": 1.9728305339813232, "learning_rate": 1.555555555555556e-05, "loss": 0.9943, "step": 700 }, { "epoch": 0.23366666666666666, "grad_norm": 1.8780627250671387, "learning_rate": 1.5577777777777777e-05, "loss": 0.882, "step": 701 }, { "epoch": 0.234, "grad_norm": 1.870377779006958, "learning_rate": 1.5600000000000003e-05, "loss": 0.9632, "step": 702 }, { "epoch": 0.23433333333333334, "grad_norm": 2.386828660964966, "learning_rate": 1.5622222222222222e-05, "loss": 0.9946, "step": 703 }, { "epoch": 0.23466666666666666, "grad_norm": 2.267218828201294, "learning_rate": 1.5644444444444448e-05, "loss": 0.9006, "step": 704 }, { "epoch": 0.235, "grad_norm": 2.018437385559082, "learning_rate": 1.5666666666666667e-05, "loss": 0.9305, "step": 705 }, { "epoch": 0.23533333333333334, "grad_norm": 1.8608704805374146, "learning_rate": 1.5688888888888893e-05, "loss": 0.9872, "step": 706 }, { "epoch": 0.23566666666666666, "grad_norm": 2.1590754985809326, "learning_rate": 1.571111111111111e-05, "loss": 1.0441, "step": 707 }, { "epoch": 0.236, "grad_norm": 2.2927141189575195, "learning_rate": 1.5733333333333334e-05, "loss": 0.9433, "step": 708 }, { "epoch": 0.23633333333333334, "grad_norm": 2.424966335296631, "learning_rate": 1.5755555555555556e-05, "loss": 0.899, "step": 709 }, { "epoch": 0.23666666666666666, "grad_norm": 2.2097885608673096, "learning_rate": 1.577777777777778e-05, "loss": 0.8726, "step": 710 }, { "epoch": 0.237, "grad_norm": 2.1656298637390137, "learning_rate": 1.58e-05, "loss": 0.917, "step": 711 }, { "epoch": 0.23733333333333334, "grad_norm": 2.168102979660034, "learning_rate": 1.5822222222222224e-05, "loss": 0.999, "step": 712 }, { "epoch": 0.23766666666666666, "grad_norm": 2.123516321182251, "learning_rate": 1.5844444444444446e-05, "loss": 0.9908, "step": 713 }, { "epoch": 0.238, "grad_norm": 2.0416595935821533, "learning_rate": 1.586666666666667e-05, "loss": 0.9435, "step": 714 }, { "epoch": 0.23833333333333334, "grad_norm": 2.197096109390259, "learning_rate": 1.588888888888889e-05, "loss": 0.9292, "step": 715 }, { "epoch": 0.23866666666666667, "grad_norm": 2.022771120071411, "learning_rate": 1.5911111111111113e-05, "loss": 0.9366, "step": 716 }, { "epoch": 0.239, "grad_norm": 2.50850772857666, "learning_rate": 1.5933333333333336e-05, "loss": 0.9887, "step": 717 }, { "epoch": 0.23933333333333334, "grad_norm": 2.230081558227539, "learning_rate": 1.5955555555555558e-05, "loss": 0.8789, "step": 718 }, { "epoch": 0.23966666666666667, "grad_norm": 2.047361373901367, "learning_rate": 1.597777777777778e-05, "loss": 0.8969, "step": 719 }, { "epoch": 0.24, "grad_norm": 2.1291916370391846, "learning_rate": 1.6000000000000003e-05, "loss": 0.9084, "step": 720 }, { "epoch": 0.24033333333333334, "grad_norm": 2.0858380794525146, "learning_rate": 1.6022222222222225e-05, "loss": 0.9744, "step": 721 }, { "epoch": 0.24066666666666667, "grad_norm": 1.9984076023101807, "learning_rate": 1.6044444444444444e-05, "loss": 0.9716, "step": 722 }, { "epoch": 0.241, "grad_norm": 1.9284512996673584, "learning_rate": 1.606666666666667e-05, "loss": 0.9225, "step": 723 }, { "epoch": 0.24133333333333334, "grad_norm": 2.2967071533203125, "learning_rate": 1.608888888888889e-05, "loss": 0.9167, "step": 724 }, { "epoch": 0.24166666666666667, "grad_norm": 2.022691011428833, "learning_rate": 1.6111111111111115e-05, "loss": 0.9091, "step": 725 }, { "epoch": 0.242, "grad_norm": 2.1820151805877686, "learning_rate": 1.6133333333333334e-05, "loss": 0.9947, "step": 726 }, { "epoch": 0.24233333333333335, "grad_norm": 2.3929436206817627, "learning_rate": 1.6155555555555556e-05, "loss": 0.9181, "step": 727 }, { "epoch": 0.24266666666666667, "grad_norm": 2.3002102375030518, "learning_rate": 1.617777777777778e-05, "loss": 0.9075, "step": 728 }, { "epoch": 0.243, "grad_norm": 2.081393241882324, "learning_rate": 1.62e-05, "loss": 0.972, "step": 729 }, { "epoch": 0.24333333333333335, "grad_norm": 1.9346320629119873, "learning_rate": 1.6222222222222223e-05, "loss": 0.9354, "step": 730 }, { "epoch": 0.24366666666666667, "grad_norm": 2.1823244094848633, "learning_rate": 1.6244444444444446e-05, "loss": 0.96, "step": 731 }, { "epoch": 0.244, "grad_norm": 2.0564560890197754, "learning_rate": 1.6266666666666668e-05, "loss": 0.8663, "step": 732 }, { "epoch": 0.24433333333333335, "grad_norm": 2.0939719676971436, "learning_rate": 1.628888888888889e-05, "loss": 0.904, "step": 733 }, { "epoch": 0.24466666666666667, "grad_norm": 2.5487723350524902, "learning_rate": 1.6311111111111113e-05, "loss": 1.0096, "step": 734 }, { "epoch": 0.245, "grad_norm": 2.2547786235809326, "learning_rate": 1.6333333333333335e-05, "loss": 0.9223, "step": 735 }, { "epoch": 0.24533333333333332, "grad_norm": 2.648001194000244, "learning_rate": 1.6355555555555557e-05, "loss": 0.9318, "step": 736 }, { "epoch": 0.24566666666666667, "grad_norm": 2.2157437801361084, "learning_rate": 1.637777777777778e-05, "loss": 0.9678, "step": 737 }, { "epoch": 0.246, "grad_norm": 2.209550619125366, "learning_rate": 1.64e-05, "loss": 0.8773, "step": 738 }, { "epoch": 0.24633333333333332, "grad_norm": 1.977947473526001, "learning_rate": 1.6422222222222225e-05, "loss": 0.9865, "step": 739 }, { "epoch": 0.24666666666666667, "grad_norm": 2.1056556701660156, "learning_rate": 1.6444444444444444e-05, "loss": 0.8807, "step": 740 }, { "epoch": 0.247, "grad_norm": 2.1358039379119873, "learning_rate": 1.646666666666667e-05, "loss": 0.987, "step": 741 }, { "epoch": 0.24733333333333332, "grad_norm": 2.3467416763305664, "learning_rate": 1.648888888888889e-05, "loss": 0.9327, "step": 742 }, { "epoch": 0.24766666666666667, "grad_norm": 2.128547191619873, "learning_rate": 1.6511111111111114e-05, "loss": 0.9082, "step": 743 }, { "epoch": 0.248, "grad_norm": 2.1702280044555664, "learning_rate": 1.6533333333333333e-05, "loss": 0.8691, "step": 744 }, { "epoch": 0.24833333333333332, "grad_norm": 2.191246271133423, "learning_rate": 1.6555555555555556e-05, "loss": 1.0142, "step": 745 }, { "epoch": 0.24866666666666667, "grad_norm": 2.071685552597046, "learning_rate": 1.6577777777777778e-05, "loss": 0.9057, "step": 746 }, { "epoch": 0.249, "grad_norm": 2.2740635871887207, "learning_rate": 1.66e-05, "loss": 0.9504, "step": 747 }, { "epoch": 0.24933333333333332, "grad_norm": 2.2018792629241943, "learning_rate": 1.6622222222222223e-05, "loss": 0.9404, "step": 748 }, { "epoch": 0.24966666666666668, "grad_norm": 2.3164141178131104, "learning_rate": 1.6644444444444445e-05, "loss": 0.9001, "step": 749 }, { "epoch": 0.25, "grad_norm": 2.307731866836548, "learning_rate": 1.6666666666666667e-05, "loss": 0.8823, "step": 750 }, { "epoch": 0.25033333333333335, "grad_norm": 2.3382184505462646, "learning_rate": 1.668888888888889e-05, "loss": 0.9403, "step": 751 }, { "epoch": 0.25066666666666665, "grad_norm": 2.0344743728637695, "learning_rate": 1.6711111111111112e-05, "loss": 0.902, "step": 752 }, { "epoch": 0.251, "grad_norm": 1.9669145345687866, "learning_rate": 1.6733333333333335e-05, "loss": 0.9682, "step": 753 }, { "epoch": 0.25133333333333335, "grad_norm": 2.0329365730285645, "learning_rate": 1.6755555555555557e-05, "loss": 0.8299, "step": 754 }, { "epoch": 0.25166666666666665, "grad_norm": 1.9222513437271118, "learning_rate": 1.677777777777778e-05, "loss": 1.0133, "step": 755 }, { "epoch": 0.252, "grad_norm": 2.161478281021118, "learning_rate": 1.6800000000000002e-05, "loss": 0.8655, "step": 756 }, { "epoch": 0.25233333333333335, "grad_norm": 2.2355029582977295, "learning_rate": 1.6822222222222224e-05, "loss": 0.9554, "step": 757 }, { "epoch": 0.25266666666666665, "grad_norm": 2.064680814743042, "learning_rate": 1.6844444444444447e-05, "loss": 0.9272, "step": 758 }, { "epoch": 0.253, "grad_norm": 2.320974111557007, "learning_rate": 1.686666666666667e-05, "loss": 0.8619, "step": 759 }, { "epoch": 0.25333333333333335, "grad_norm": 2.4090940952301025, "learning_rate": 1.688888888888889e-05, "loss": 0.9468, "step": 760 }, { "epoch": 0.25366666666666665, "grad_norm": 2.7054309844970703, "learning_rate": 1.691111111111111e-05, "loss": 0.9265, "step": 761 }, { "epoch": 0.254, "grad_norm": 2.312974214553833, "learning_rate": 1.6933333333333336e-05, "loss": 0.906, "step": 762 }, { "epoch": 0.25433333333333336, "grad_norm": 2.1129260063171387, "learning_rate": 1.6955555555555555e-05, "loss": 0.967, "step": 763 }, { "epoch": 0.25466666666666665, "grad_norm": 1.8895968198776245, "learning_rate": 1.697777777777778e-05, "loss": 0.9209, "step": 764 }, { "epoch": 0.255, "grad_norm": 2.013596773147583, "learning_rate": 1.7e-05, "loss": 0.9214, "step": 765 }, { "epoch": 0.25533333333333336, "grad_norm": 2.0043716430664062, "learning_rate": 1.7022222222222226e-05, "loss": 0.8946, "step": 766 }, { "epoch": 0.25566666666666665, "grad_norm": 2.0996341705322266, "learning_rate": 1.7044444444444445e-05, "loss": 0.9369, "step": 767 }, { "epoch": 0.256, "grad_norm": 2.129432201385498, "learning_rate": 1.706666666666667e-05, "loss": 0.9456, "step": 768 }, { "epoch": 0.25633333333333336, "grad_norm": 2.386000156402588, "learning_rate": 1.708888888888889e-05, "loss": 0.9365, "step": 769 }, { "epoch": 0.25666666666666665, "grad_norm": 2.2194933891296387, "learning_rate": 1.7111111111111112e-05, "loss": 0.8375, "step": 770 }, { "epoch": 0.257, "grad_norm": 2.3204355239868164, "learning_rate": 1.7133333333333334e-05, "loss": 0.9373, "step": 771 }, { "epoch": 0.25733333333333336, "grad_norm": 1.966623067855835, "learning_rate": 1.7155555555555557e-05, "loss": 0.8997, "step": 772 }, { "epoch": 0.25766666666666665, "grad_norm": 2.1548244953155518, "learning_rate": 1.717777777777778e-05, "loss": 0.8919, "step": 773 }, { "epoch": 0.258, "grad_norm": 2.067744016647339, "learning_rate": 1.72e-05, "loss": 0.949, "step": 774 }, { "epoch": 0.25833333333333336, "grad_norm": 2.080667495727539, "learning_rate": 1.7222222222222224e-05, "loss": 0.9167, "step": 775 }, { "epoch": 0.25866666666666666, "grad_norm": 2.4006755352020264, "learning_rate": 1.7244444444444446e-05, "loss": 0.9116, "step": 776 }, { "epoch": 0.259, "grad_norm": 2.1062140464782715, "learning_rate": 1.726666666666667e-05, "loss": 0.882, "step": 777 }, { "epoch": 0.25933333333333336, "grad_norm": 2.018022298812866, "learning_rate": 1.728888888888889e-05, "loss": 0.8363, "step": 778 }, { "epoch": 0.25966666666666666, "grad_norm": 2.333477020263672, "learning_rate": 1.7311111111111113e-05, "loss": 0.8548, "step": 779 }, { "epoch": 0.26, "grad_norm": 2.0108344554901123, "learning_rate": 1.7333333333333336e-05, "loss": 0.8723, "step": 780 }, { "epoch": 0.26033333333333336, "grad_norm": 2.0852856636047363, "learning_rate": 1.7355555555555558e-05, "loss": 0.8459, "step": 781 }, { "epoch": 0.26066666666666666, "grad_norm": 2.1616809368133545, "learning_rate": 1.737777777777778e-05, "loss": 0.8604, "step": 782 }, { "epoch": 0.261, "grad_norm": 2.5095269680023193, "learning_rate": 1.7400000000000003e-05, "loss": 0.8491, "step": 783 }, { "epoch": 0.2613333333333333, "grad_norm": 2.2931036949157715, "learning_rate": 1.7422222222222222e-05, "loss": 0.8954, "step": 784 }, { "epoch": 0.26166666666666666, "grad_norm": 2.6345412731170654, "learning_rate": 1.7444444444444448e-05, "loss": 0.8016, "step": 785 }, { "epoch": 0.262, "grad_norm": 2.5826361179351807, "learning_rate": 1.7466666666666667e-05, "loss": 0.7649, "step": 786 }, { "epoch": 0.2623333333333333, "grad_norm": 2.427192211151123, "learning_rate": 1.7488888888888892e-05, "loss": 0.8861, "step": 787 }, { "epoch": 0.26266666666666666, "grad_norm": 1.9934463500976562, "learning_rate": 1.751111111111111e-05, "loss": 0.8744, "step": 788 }, { "epoch": 0.263, "grad_norm": 2.1077640056610107, "learning_rate": 1.7533333333333337e-05, "loss": 0.8866, "step": 789 }, { "epoch": 0.2633333333333333, "grad_norm": 2.267711639404297, "learning_rate": 1.7555555555555556e-05, "loss": 0.8585, "step": 790 }, { "epoch": 0.26366666666666666, "grad_norm": 2.7613096237182617, "learning_rate": 1.7577777777777782e-05, "loss": 0.8913, "step": 791 }, { "epoch": 0.264, "grad_norm": 2.03674054145813, "learning_rate": 1.76e-05, "loss": 0.9048, "step": 792 }, { "epoch": 0.2643333333333333, "grad_norm": 2.5240836143493652, "learning_rate": 1.7622222222222223e-05, "loss": 0.8744, "step": 793 }, { "epoch": 0.26466666666666666, "grad_norm": 2.086921215057373, "learning_rate": 1.7644444444444446e-05, "loss": 0.9103, "step": 794 }, { "epoch": 0.265, "grad_norm": 2.572826862335205, "learning_rate": 1.7666666666666668e-05, "loss": 0.8473, "step": 795 }, { "epoch": 0.2653333333333333, "grad_norm": 2.163623332977295, "learning_rate": 1.768888888888889e-05, "loss": 0.9072, "step": 796 }, { "epoch": 0.26566666666666666, "grad_norm": 2.0924720764160156, "learning_rate": 1.7711111111111113e-05, "loss": 0.8461, "step": 797 }, { "epoch": 0.266, "grad_norm": 1.9986131191253662, "learning_rate": 1.7733333333333335e-05, "loss": 0.9112, "step": 798 }, { "epoch": 0.2663333333333333, "grad_norm": 2.194119453430176, "learning_rate": 1.7755555555555558e-05, "loss": 0.8847, "step": 799 }, { "epoch": 0.26666666666666666, "grad_norm": 1.9765191078186035, "learning_rate": 1.7777777777777777e-05, "loss": 0.9007, "step": 800 }, { "epoch": 0.267, "grad_norm": 2.592564821243286, "learning_rate": 1.7800000000000002e-05, "loss": 0.9243, "step": 801 }, { "epoch": 0.2673333333333333, "grad_norm": 2.277754306793213, "learning_rate": 1.782222222222222e-05, "loss": 0.9077, "step": 802 }, { "epoch": 0.26766666666666666, "grad_norm": 2.1846249103546143, "learning_rate": 1.7844444444444447e-05, "loss": 0.9421, "step": 803 }, { "epoch": 0.268, "grad_norm": 2.3221323490142822, "learning_rate": 1.7866666666666666e-05, "loss": 0.8323, "step": 804 }, { "epoch": 0.2683333333333333, "grad_norm": 2.330634355545044, "learning_rate": 1.7888888888888892e-05, "loss": 0.8011, "step": 805 }, { "epoch": 0.26866666666666666, "grad_norm": 2.3643593788146973, "learning_rate": 1.791111111111111e-05, "loss": 0.867, "step": 806 }, { "epoch": 0.269, "grad_norm": 2.157201051712036, "learning_rate": 1.7933333333333333e-05, "loss": 0.9323, "step": 807 }, { "epoch": 0.2693333333333333, "grad_norm": 2.0367822647094727, "learning_rate": 1.7955555555555556e-05, "loss": 0.8855, "step": 808 }, { "epoch": 0.26966666666666667, "grad_norm": 1.9272222518920898, "learning_rate": 1.7977777777777778e-05, "loss": 0.9401, "step": 809 }, { "epoch": 0.27, "grad_norm": 2.003221273422241, "learning_rate": 1.8e-05, "loss": 0.8026, "step": 810 }, { "epoch": 0.2703333333333333, "grad_norm": 1.927902102470398, "learning_rate": 1.8022222222222223e-05, "loss": 0.8421, "step": 811 }, { "epoch": 0.27066666666666667, "grad_norm": 2.0983963012695312, "learning_rate": 1.8044444444444445e-05, "loss": 0.9228, "step": 812 }, { "epoch": 0.271, "grad_norm": 2.2984888553619385, "learning_rate": 1.8066666666666668e-05, "loss": 0.8578, "step": 813 }, { "epoch": 0.2713333333333333, "grad_norm": 2.226126194000244, "learning_rate": 1.808888888888889e-05, "loss": 0.8711, "step": 814 }, { "epoch": 0.27166666666666667, "grad_norm": 2.233779191970825, "learning_rate": 1.8111111111111112e-05, "loss": 0.8903, "step": 815 }, { "epoch": 0.272, "grad_norm": 2.301583766937256, "learning_rate": 1.8133333333333335e-05, "loss": 0.89, "step": 816 }, { "epoch": 0.2723333333333333, "grad_norm": 2.5492796897888184, "learning_rate": 1.8155555555555557e-05, "loss": 0.9021, "step": 817 }, { "epoch": 0.27266666666666667, "grad_norm": 2.193164587020874, "learning_rate": 1.817777777777778e-05, "loss": 0.9046, "step": 818 }, { "epoch": 0.273, "grad_norm": 2.2002978324890137, "learning_rate": 1.8200000000000002e-05, "loss": 0.8425, "step": 819 }, { "epoch": 0.2733333333333333, "grad_norm": 1.9136056900024414, "learning_rate": 1.8222222222222224e-05, "loss": 0.9018, "step": 820 }, { "epoch": 0.27366666666666667, "grad_norm": 1.9513788223266602, "learning_rate": 1.8244444444444447e-05, "loss": 0.9284, "step": 821 }, { "epoch": 0.274, "grad_norm": 1.967810034751892, "learning_rate": 1.826666666666667e-05, "loss": 0.8624, "step": 822 }, { "epoch": 0.2743333333333333, "grad_norm": 2.1073577404022217, "learning_rate": 1.8288888888888888e-05, "loss": 0.9154, "step": 823 }, { "epoch": 0.27466666666666667, "grad_norm": 2.0249345302581787, "learning_rate": 1.8311111111111114e-05, "loss": 0.8218, "step": 824 }, { "epoch": 0.275, "grad_norm": 2.094506025314331, "learning_rate": 1.8333333333333333e-05, "loss": 0.8928, "step": 825 }, { "epoch": 0.2753333333333333, "grad_norm": 2.2308523654937744, "learning_rate": 1.835555555555556e-05, "loss": 0.8997, "step": 826 }, { "epoch": 0.27566666666666667, "grad_norm": 2.2964560985565186, "learning_rate": 1.8377777777777778e-05, "loss": 0.9275, "step": 827 }, { "epoch": 0.276, "grad_norm": 2.210688352584839, "learning_rate": 1.8400000000000003e-05, "loss": 0.8191, "step": 828 }, { "epoch": 0.2763333333333333, "grad_norm": 2.1888043880462646, "learning_rate": 1.8422222222222222e-05, "loss": 0.8255, "step": 829 }, { "epoch": 0.27666666666666667, "grad_norm": 2.1950478553771973, "learning_rate": 1.8444444444444448e-05, "loss": 0.9314, "step": 830 }, { "epoch": 0.277, "grad_norm": 2.0702157020568848, "learning_rate": 1.8466666666666667e-05, "loss": 0.8693, "step": 831 }, { "epoch": 0.2773333333333333, "grad_norm": 2.0533876419067383, "learning_rate": 1.848888888888889e-05, "loss": 0.8576, "step": 832 }, { "epoch": 0.2776666666666667, "grad_norm": 2.0113816261291504, "learning_rate": 1.8511111111111112e-05, "loss": 0.8819, "step": 833 }, { "epoch": 0.278, "grad_norm": 2.30261492729187, "learning_rate": 1.8533333333333334e-05, "loss": 0.9101, "step": 834 }, { "epoch": 0.2783333333333333, "grad_norm": 2.238607406616211, "learning_rate": 1.8555555555555557e-05, "loss": 0.8526, "step": 835 }, { "epoch": 0.2786666666666667, "grad_norm": 2.015728235244751, "learning_rate": 1.857777777777778e-05, "loss": 0.8918, "step": 836 }, { "epoch": 0.279, "grad_norm": 2.1769864559173584, "learning_rate": 1.86e-05, "loss": 0.8938, "step": 837 }, { "epoch": 0.2793333333333333, "grad_norm": 1.9448826313018799, "learning_rate": 1.8622222222222224e-05, "loss": 0.8845, "step": 838 }, { "epoch": 0.2796666666666667, "grad_norm": 2.130124092102051, "learning_rate": 1.8644444444444446e-05, "loss": 0.8326, "step": 839 }, { "epoch": 0.28, "grad_norm": 2.0926198959350586, "learning_rate": 1.866666666666667e-05, "loss": 0.8196, "step": 840 }, { "epoch": 0.2803333333333333, "grad_norm": 2.165248394012451, "learning_rate": 1.868888888888889e-05, "loss": 0.901, "step": 841 }, { "epoch": 0.2806666666666667, "grad_norm": 2.5403506755828857, "learning_rate": 1.8711111111111113e-05, "loss": 0.8756, "step": 842 }, { "epoch": 0.281, "grad_norm": 2.2343173027038574, "learning_rate": 1.8733333333333336e-05, "loss": 0.9463, "step": 843 }, { "epoch": 0.2813333333333333, "grad_norm": 2.128934383392334, "learning_rate": 1.8755555555555558e-05, "loss": 0.7886, "step": 844 }, { "epoch": 0.2816666666666667, "grad_norm": 2.346515655517578, "learning_rate": 1.877777777777778e-05, "loss": 0.8687, "step": 845 }, { "epoch": 0.282, "grad_norm": 2.0480053424835205, "learning_rate": 1.88e-05, "loss": 0.7945, "step": 846 }, { "epoch": 0.2823333333333333, "grad_norm": 2.31706166267395, "learning_rate": 1.8822222222222225e-05, "loss": 0.9024, "step": 847 }, { "epoch": 0.2826666666666667, "grad_norm": 2.489253520965576, "learning_rate": 1.8844444444444444e-05, "loss": 0.9353, "step": 848 }, { "epoch": 0.283, "grad_norm": 2.304866075515747, "learning_rate": 1.886666666666667e-05, "loss": 0.8597, "step": 849 }, { "epoch": 0.2833333333333333, "grad_norm": 2.2582781314849854, "learning_rate": 1.888888888888889e-05, "loss": 0.8052, "step": 850 }, { "epoch": 0.2836666666666667, "grad_norm": 2.307666778564453, "learning_rate": 1.8911111111111115e-05, "loss": 0.928, "step": 851 }, { "epoch": 0.284, "grad_norm": 2.2976818084716797, "learning_rate": 1.8933333333333334e-05, "loss": 0.9066, "step": 852 }, { "epoch": 0.2843333333333333, "grad_norm": 2.0560195446014404, "learning_rate": 1.895555555555556e-05, "loss": 0.8583, "step": 853 }, { "epoch": 0.2846666666666667, "grad_norm": 2.3197362422943115, "learning_rate": 1.897777777777778e-05, "loss": 0.8713, "step": 854 }, { "epoch": 0.285, "grad_norm": 3.6058778762817383, "learning_rate": 1.9e-05, "loss": 0.7485, "step": 855 }, { "epoch": 0.2853333333333333, "grad_norm": 1.9282927513122559, "learning_rate": 1.9022222222222223e-05, "loss": 0.8644, "step": 856 }, { "epoch": 0.2856666666666667, "grad_norm": 2.2526888847351074, "learning_rate": 1.9044444444444446e-05, "loss": 0.8357, "step": 857 }, { "epoch": 0.286, "grad_norm": 2.1499907970428467, "learning_rate": 1.9066666666666668e-05, "loss": 0.8758, "step": 858 }, { "epoch": 0.28633333333333333, "grad_norm": 2.328141689300537, "learning_rate": 1.908888888888889e-05, "loss": 0.8692, "step": 859 }, { "epoch": 0.2866666666666667, "grad_norm": 2.4803988933563232, "learning_rate": 1.9111111111111113e-05, "loss": 0.7852, "step": 860 }, { "epoch": 0.287, "grad_norm": 2.113708972930908, "learning_rate": 1.9133333333333335e-05, "loss": 0.8718, "step": 861 }, { "epoch": 0.28733333333333333, "grad_norm": 2.136192798614502, "learning_rate": 1.9155555555555558e-05, "loss": 0.7966, "step": 862 }, { "epoch": 0.2876666666666667, "grad_norm": 2.4760093688964844, "learning_rate": 1.917777777777778e-05, "loss": 0.8203, "step": 863 }, { "epoch": 0.288, "grad_norm": 2.367380380630493, "learning_rate": 1.9200000000000003e-05, "loss": 0.8766, "step": 864 }, { "epoch": 0.28833333333333333, "grad_norm": 2.401047468185425, "learning_rate": 1.9222222222222225e-05, "loss": 0.8599, "step": 865 }, { "epoch": 0.2886666666666667, "grad_norm": 2.1798737049102783, "learning_rate": 1.9244444444444444e-05, "loss": 0.9143, "step": 866 }, { "epoch": 0.289, "grad_norm": 2.395322799682617, "learning_rate": 1.926666666666667e-05, "loss": 0.8833, "step": 867 }, { "epoch": 0.28933333333333333, "grad_norm": 2.069474697113037, "learning_rate": 1.928888888888889e-05, "loss": 0.8698, "step": 868 }, { "epoch": 0.2896666666666667, "grad_norm": 2.081885576248169, "learning_rate": 1.931111111111111e-05, "loss": 0.8944, "step": 869 }, { "epoch": 0.29, "grad_norm": 1.9220634698867798, "learning_rate": 1.9333333333333333e-05, "loss": 0.8445, "step": 870 }, { "epoch": 0.29033333333333333, "grad_norm": 2.4133830070495605, "learning_rate": 1.9355555555555556e-05, "loss": 0.8291, "step": 871 }, { "epoch": 0.2906666666666667, "grad_norm": 2.016739845275879, "learning_rate": 1.9377777777777778e-05, "loss": 0.8271, "step": 872 }, { "epoch": 0.291, "grad_norm": 2.1726737022399902, "learning_rate": 1.94e-05, "loss": 0.8225, "step": 873 }, { "epoch": 0.29133333333333333, "grad_norm": 2.286702871322632, "learning_rate": 1.9422222222222223e-05, "loss": 0.8288, "step": 874 }, { "epoch": 0.2916666666666667, "grad_norm": 2.2304904460906982, "learning_rate": 1.9444444444444445e-05, "loss": 0.8513, "step": 875 }, { "epoch": 0.292, "grad_norm": 2.369331121444702, "learning_rate": 1.9466666666666668e-05, "loss": 0.9163, "step": 876 }, { "epoch": 0.29233333333333333, "grad_norm": 2.9206459522247314, "learning_rate": 1.948888888888889e-05, "loss": 0.7695, "step": 877 }, { "epoch": 0.2926666666666667, "grad_norm": 2.3545427322387695, "learning_rate": 1.9511111111111113e-05, "loss": 0.7919, "step": 878 }, { "epoch": 0.293, "grad_norm": 2.026808023452759, "learning_rate": 1.9533333333333335e-05, "loss": 0.8501, "step": 879 }, { "epoch": 0.29333333333333333, "grad_norm": 1.919969916343689, "learning_rate": 1.9555555555555557e-05, "loss": 0.8093, "step": 880 }, { "epoch": 0.2936666666666667, "grad_norm": 2.1670100688934326, "learning_rate": 1.957777777777778e-05, "loss": 0.9139, "step": 881 }, { "epoch": 0.294, "grad_norm": 2.3178417682647705, "learning_rate": 1.9600000000000002e-05, "loss": 0.8381, "step": 882 }, { "epoch": 0.29433333333333334, "grad_norm": 2.607527256011963, "learning_rate": 1.9622222222222224e-05, "loss": 0.7426, "step": 883 }, { "epoch": 0.2946666666666667, "grad_norm": 2.304044723510742, "learning_rate": 1.9644444444444447e-05, "loss": 0.8408, "step": 884 }, { "epoch": 0.295, "grad_norm": 2.519094228744507, "learning_rate": 1.9666666666666666e-05, "loss": 0.7845, "step": 885 }, { "epoch": 0.29533333333333334, "grad_norm": 2.4646358489990234, "learning_rate": 1.968888888888889e-05, "loss": 0.8649, "step": 886 }, { "epoch": 0.2956666666666667, "grad_norm": 1.9289557933807373, "learning_rate": 1.971111111111111e-05, "loss": 0.8439, "step": 887 }, { "epoch": 0.296, "grad_norm": 2.289870500564575, "learning_rate": 1.9733333333333336e-05, "loss": 0.8489, "step": 888 }, { "epoch": 0.29633333333333334, "grad_norm": 2.0822255611419678, "learning_rate": 1.9755555555555555e-05, "loss": 0.8612, "step": 889 }, { "epoch": 0.2966666666666667, "grad_norm": 2.079266309738159, "learning_rate": 1.977777777777778e-05, "loss": 0.8593, "step": 890 }, { "epoch": 0.297, "grad_norm": 2.2207908630371094, "learning_rate": 1.98e-05, "loss": 0.8358, "step": 891 }, { "epoch": 0.29733333333333334, "grad_norm": 2.062523365020752, "learning_rate": 1.9822222222222226e-05, "loss": 0.8022, "step": 892 }, { "epoch": 0.2976666666666667, "grad_norm": 2.463602066040039, "learning_rate": 1.9844444444444445e-05, "loss": 0.8173, "step": 893 }, { "epoch": 0.298, "grad_norm": 2.6471102237701416, "learning_rate": 1.9866666666666667e-05, "loss": 0.8525, "step": 894 }, { "epoch": 0.29833333333333334, "grad_norm": 2.1708741188049316, "learning_rate": 1.988888888888889e-05, "loss": 0.839, "step": 895 }, { "epoch": 0.2986666666666667, "grad_norm": 2.412250518798828, "learning_rate": 1.9911111111111112e-05, "loss": 0.8393, "step": 896 }, { "epoch": 0.299, "grad_norm": 2.452162265777588, "learning_rate": 1.9933333333333334e-05, "loss": 0.8274, "step": 897 }, { "epoch": 0.29933333333333334, "grad_norm": 2.305922746658325, "learning_rate": 1.9955555555555557e-05, "loss": 0.8049, "step": 898 }, { "epoch": 0.2996666666666667, "grad_norm": 2.1298604011535645, "learning_rate": 1.997777777777778e-05, "loss": 0.8427, "step": 899 }, { "epoch": 0.3, "grad_norm": 1.9683762788772583, "learning_rate": 2e-05, "loss": 0.8786, "step": 900 }, { "epoch": 0.30033333333333334, "grad_norm": 2.481689214706421, "learning_rate": 1.9999999247858234e-05, "loss": 0.8907, "step": 901 }, { "epoch": 0.3006666666666667, "grad_norm": 2.509500741958618, "learning_rate": 1.9999996991433044e-05, "loss": 0.8509, "step": 902 }, { "epoch": 0.301, "grad_norm": 2.1209676265716553, "learning_rate": 1.999999323072477e-05, "loss": 0.9024, "step": 903 }, { "epoch": 0.30133333333333334, "grad_norm": 1.9133163690567017, "learning_rate": 1.999998796573398e-05, "loss": 0.9155, "step": 904 }, { "epoch": 0.3016666666666667, "grad_norm": 2.3124799728393555, "learning_rate": 1.9999981196461462e-05, "loss": 0.8453, "step": 905 }, { "epoch": 0.302, "grad_norm": 2.078798294067383, "learning_rate": 1.999997292290824e-05, "loss": 0.8243, "step": 906 }, { "epoch": 0.30233333333333334, "grad_norm": 2.105725049972534, "learning_rate": 1.9999963145075555e-05, "loss": 0.919, "step": 907 }, { "epoch": 0.30266666666666664, "grad_norm": 1.928966760635376, "learning_rate": 1.9999951862964876e-05, "loss": 0.8103, "step": 908 }, { "epoch": 0.303, "grad_norm": 2.249715566635132, "learning_rate": 1.9999939076577906e-05, "loss": 0.7425, "step": 909 }, { "epoch": 0.30333333333333334, "grad_norm": 2.5612077713012695, "learning_rate": 1.9999924785916563e-05, "loss": 0.8774, "step": 910 }, { "epoch": 0.30366666666666664, "grad_norm": 2.2138590812683105, "learning_rate": 1.9999908990982998e-05, "loss": 0.7837, "step": 911 }, { "epoch": 0.304, "grad_norm": 2.186096668243408, "learning_rate": 1.999989169177959e-05, "loss": 0.9078, "step": 912 }, { "epoch": 0.30433333333333334, "grad_norm": 2.009336471557617, "learning_rate": 1.9999872888308935e-05, "loss": 0.8851, "step": 913 }, { "epoch": 0.30466666666666664, "grad_norm": 1.8891050815582275, "learning_rate": 1.9999852580573868e-05, "loss": 0.8305, "step": 914 }, { "epoch": 0.305, "grad_norm": 2.170924186706543, "learning_rate": 1.9999830768577445e-05, "loss": 0.8247, "step": 915 }, { "epoch": 0.30533333333333335, "grad_norm": 1.9017391204833984, "learning_rate": 1.999980745232294e-05, "loss": 0.8836, "step": 916 }, { "epoch": 0.30566666666666664, "grad_norm": 2.0349135398864746, "learning_rate": 1.999978263181386e-05, "loss": 0.8753, "step": 917 }, { "epoch": 0.306, "grad_norm": 1.891861081123352, "learning_rate": 1.9999756307053947e-05, "loss": 0.8278, "step": 918 }, { "epoch": 0.30633333333333335, "grad_norm": 2.130855083465576, "learning_rate": 1.999972847804716e-05, "loss": 0.7984, "step": 919 }, { "epoch": 0.30666666666666664, "grad_norm": 2.1273233890533447, "learning_rate": 1.999969914479768e-05, "loss": 0.793, "step": 920 }, { "epoch": 0.307, "grad_norm": 2.1361231803894043, "learning_rate": 1.999966830730992e-05, "loss": 0.8203, "step": 921 }, { "epoch": 0.30733333333333335, "grad_norm": 2.5038576126098633, "learning_rate": 1.9999635965588517e-05, "loss": 0.785, "step": 922 }, { "epoch": 0.30766666666666664, "grad_norm": 2.344775676727295, "learning_rate": 1.9999602119638345e-05, "loss": 0.7798, "step": 923 }, { "epoch": 0.308, "grad_norm": 2.135897397994995, "learning_rate": 1.9999566769464483e-05, "loss": 0.8534, "step": 924 }, { "epoch": 0.30833333333333335, "grad_norm": 2.1863787174224854, "learning_rate": 1.999952991507226e-05, "loss": 0.8165, "step": 925 }, { "epoch": 0.30866666666666664, "grad_norm": 2.1612372398376465, "learning_rate": 1.9999491556467218e-05, "loss": 0.8162, "step": 926 }, { "epoch": 0.309, "grad_norm": 2.028317928314209, "learning_rate": 1.9999451693655125e-05, "loss": 0.8193, "step": 927 }, { "epoch": 0.30933333333333335, "grad_norm": 2.1359877586364746, "learning_rate": 1.9999410326641974e-05, "loss": 0.8666, "step": 928 }, { "epoch": 0.30966666666666665, "grad_norm": 2.298197031021118, "learning_rate": 1.999936745543399e-05, "loss": 0.7914, "step": 929 }, { "epoch": 0.31, "grad_norm": 1.9426814317703247, "learning_rate": 1.9999323080037623e-05, "loss": 0.7451, "step": 930 }, { "epoch": 0.31033333333333335, "grad_norm": 2.250953435897827, "learning_rate": 1.999927720045955e-05, "loss": 0.836, "step": 931 }, { "epoch": 0.31066666666666665, "grad_norm": 2.334116220474243, "learning_rate": 1.999922981670667e-05, "loss": 0.8225, "step": 932 }, { "epoch": 0.311, "grad_norm": 2.435739755630493, "learning_rate": 1.9999180928786113e-05, "loss": 0.8732, "step": 933 }, { "epoch": 0.31133333333333335, "grad_norm": 2.006897449493408, "learning_rate": 1.999913053670523e-05, "loss": 0.8334, "step": 934 }, { "epoch": 0.31166666666666665, "grad_norm": 2.331430435180664, "learning_rate": 1.9999078640471606e-05, "loss": 0.8491, "step": 935 }, { "epoch": 0.312, "grad_norm": 1.9961193799972534, "learning_rate": 1.9999025240093045e-05, "loss": 0.8058, "step": 936 }, { "epoch": 0.31233333333333335, "grad_norm": 2.1032357215881348, "learning_rate": 1.9998970335577578e-05, "loss": 0.8441, "step": 937 }, { "epoch": 0.31266666666666665, "grad_norm": 2.1000778675079346, "learning_rate": 1.9998913926933465e-05, "loss": 0.8135, "step": 938 }, { "epoch": 0.313, "grad_norm": 1.9800561666488647, "learning_rate": 1.9998856014169193e-05, "loss": 0.8495, "step": 939 }, { "epoch": 0.31333333333333335, "grad_norm": 2.00565242767334, "learning_rate": 1.9998796597293477e-05, "loss": 0.8451, "step": 940 }, { "epoch": 0.31366666666666665, "grad_norm": 1.8657926321029663, "learning_rate": 1.9998735676315247e-05, "loss": 0.9015, "step": 941 }, { "epoch": 0.314, "grad_norm": 2.1200785636901855, "learning_rate": 1.9998673251243672e-05, "loss": 0.7929, "step": 942 }, { "epoch": 0.31433333333333335, "grad_norm": 2.1039364337921143, "learning_rate": 1.9998609322088144e-05, "loss": 0.8754, "step": 943 }, { "epoch": 0.31466666666666665, "grad_norm": 2.2845101356506348, "learning_rate": 1.9998543888858278e-05, "loss": 0.8853, "step": 944 }, { "epoch": 0.315, "grad_norm": 2.4081878662109375, "learning_rate": 1.9998476951563914e-05, "loss": 0.8309, "step": 945 }, { "epoch": 0.31533333333333335, "grad_norm": 2.261096715927124, "learning_rate": 1.9998408510215127e-05, "loss": 0.8167, "step": 946 }, { "epoch": 0.31566666666666665, "grad_norm": 2.2221009731292725, "learning_rate": 1.9998338564822205e-05, "loss": 0.7739, "step": 947 }, { "epoch": 0.316, "grad_norm": 2.080281972885132, "learning_rate": 1.999826711539568e-05, "loss": 0.835, "step": 948 }, { "epoch": 0.31633333333333336, "grad_norm": 2.189330816268921, "learning_rate": 1.999819416194629e-05, "loss": 0.8269, "step": 949 }, { "epoch": 0.31666666666666665, "grad_norm": 2.2029945850372314, "learning_rate": 1.9998119704485016e-05, "loss": 0.8698, "step": 950 }, { "epoch": 0.317, "grad_norm": 2.3207647800445557, "learning_rate": 1.9998043743023056e-05, "loss": 0.908, "step": 951 }, { "epoch": 0.31733333333333336, "grad_norm": 1.9577239751815796, "learning_rate": 1.9997966277571837e-05, "loss": 0.7614, "step": 952 }, { "epoch": 0.31766666666666665, "grad_norm": 2.179511308670044, "learning_rate": 1.999788730814301e-05, "loss": 0.7821, "step": 953 }, { "epoch": 0.318, "grad_norm": 2.228524923324585, "learning_rate": 1.9997806834748455e-05, "loss": 0.8594, "step": 954 }, { "epoch": 0.31833333333333336, "grad_norm": 2.2076575756073, "learning_rate": 1.9997724857400284e-05, "loss": 0.8323, "step": 955 }, { "epoch": 0.31866666666666665, "grad_norm": 2.073796272277832, "learning_rate": 1.9997641376110816e-05, "loss": 0.8182, "step": 956 }, { "epoch": 0.319, "grad_norm": 1.9754027128219604, "learning_rate": 1.9997556390892623e-05, "loss": 0.9051, "step": 957 }, { "epoch": 0.31933333333333336, "grad_norm": 2.188063383102417, "learning_rate": 1.999746990175848e-05, "loss": 0.7229, "step": 958 }, { "epoch": 0.31966666666666665, "grad_norm": 2.0097320079803467, "learning_rate": 1.99973819087214e-05, "loss": 0.8355, "step": 959 }, { "epoch": 0.32, "grad_norm": 1.8830981254577637, "learning_rate": 1.999729241179462e-05, "loss": 0.7801, "step": 960 }, { "epoch": 0.32033333333333336, "grad_norm": 1.873984932899475, "learning_rate": 1.99972014109916e-05, "loss": 0.7714, "step": 961 }, { "epoch": 0.32066666666666666, "grad_norm": 2.2098886966705322, "learning_rate": 1.9997108906326033e-05, "loss": 0.8107, "step": 962 }, { "epoch": 0.321, "grad_norm": 2.0375657081604004, "learning_rate": 1.9997014897811834e-05, "loss": 0.8136, "step": 963 }, { "epoch": 0.32133333333333336, "grad_norm": 2.161545991897583, "learning_rate": 1.999691938546314e-05, "loss": 0.7259, "step": 964 }, { "epoch": 0.32166666666666666, "grad_norm": 2.326659679412842, "learning_rate": 1.9996822369294325e-05, "loss": 0.8436, "step": 965 }, { "epoch": 0.322, "grad_norm": 2.3017098903656006, "learning_rate": 1.9996723849319978e-05, "loss": 0.8403, "step": 966 }, { "epoch": 0.32233333333333336, "grad_norm": 2.090585708618164, "learning_rate": 1.9996623825554926e-05, "loss": 0.778, "step": 967 }, { "epoch": 0.32266666666666666, "grad_norm": 2.108825922012329, "learning_rate": 1.9996522298014208e-05, "loss": 0.8767, "step": 968 }, { "epoch": 0.323, "grad_norm": 2.1965863704681396, "learning_rate": 1.9996419266713097e-05, "loss": 0.7862, "step": 969 }, { "epoch": 0.3233333333333333, "grad_norm": 1.9985798597335815, "learning_rate": 1.9996314731667096e-05, "loss": 0.836, "step": 970 }, { "epoch": 0.32366666666666666, "grad_norm": 2.2388288974761963, "learning_rate": 1.999620869289193e-05, "loss": 0.7961, "step": 971 }, { "epoch": 0.324, "grad_norm": 2.0573344230651855, "learning_rate": 1.9996101150403543e-05, "loss": 0.775, "step": 972 }, { "epoch": 0.3243333333333333, "grad_norm": 2.074561595916748, "learning_rate": 1.9995992104218125e-05, "loss": 0.8163, "step": 973 }, { "epoch": 0.32466666666666666, "grad_norm": 2.1328125, "learning_rate": 1.9995881554352067e-05, "loss": 0.8249, "step": 974 }, { "epoch": 0.325, "grad_norm": 2.131251811981201, "learning_rate": 1.9995769500822007e-05, "loss": 0.7936, "step": 975 }, { "epoch": 0.3253333333333333, "grad_norm": 2.0918023586273193, "learning_rate": 1.99956559436448e-05, "loss": 0.7821, "step": 976 }, { "epoch": 0.32566666666666666, "grad_norm": 2.117102861404419, "learning_rate": 1.9995540882837523e-05, "loss": 0.8062, "step": 977 }, { "epoch": 0.326, "grad_norm": 2.229447364807129, "learning_rate": 1.999542431841749e-05, "loss": 0.7446, "step": 978 }, { "epoch": 0.3263333333333333, "grad_norm": 2.3197314739227295, "learning_rate": 1.9995306250402232e-05, "loss": 0.8528, "step": 979 }, { "epoch": 0.32666666666666666, "grad_norm": 2.2496230602264404, "learning_rate": 1.9995186678809513e-05, "loss": 0.8066, "step": 980 }, { "epoch": 0.327, "grad_norm": 2.2758231163024902, "learning_rate": 1.9995065603657317e-05, "loss": 0.8592, "step": 981 }, { "epoch": 0.3273333333333333, "grad_norm": 2.0636661052703857, "learning_rate": 1.9994943024963858e-05, "loss": 0.762, "step": 982 }, { "epoch": 0.32766666666666666, "grad_norm": 1.983399748802185, "learning_rate": 1.999481894274758e-05, "loss": 0.8188, "step": 983 }, { "epoch": 0.328, "grad_norm": 1.9809774160385132, "learning_rate": 1.999469335702714e-05, "loss": 0.8375, "step": 984 }, { "epoch": 0.3283333333333333, "grad_norm": 1.790808916091919, "learning_rate": 1.9994566267821437e-05, "loss": 0.8146, "step": 985 }, { "epoch": 0.32866666666666666, "grad_norm": 1.840437650680542, "learning_rate": 1.9994437675149583e-05, "loss": 0.8092, "step": 986 }, { "epoch": 0.329, "grad_norm": 1.9502990245819092, "learning_rate": 1.9994307579030925e-05, "loss": 0.7623, "step": 987 }, { "epoch": 0.3293333333333333, "grad_norm": 2.220668315887451, "learning_rate": 1.999417597948503e-05, "loss": 0.7645, "step": 988 }, { "epoch": 0.32966666666666666, "grad_norm": 2.150221586227417, "learning_rate": 1.9994042876531707e-05, "loss": 0.8504, "step": 989 }, { "epoch": 0.33, "grad_norm": 2.234956741333008, "learning_rate": 1.999390827019096e-05, "loss": 0.7417, "step": 990 }, { "epoch": 0.3303333333333333, "grad_norm": 2.6746230125427246, "learning_rate": 1.9993772160483048e-05, "loss": 0.8001, "step": 991 }, { "epoch": 0.33066666666666666, "grad_norm": 2.1081759929656982, "learning_rate": 1.9993634547428443e-05, "loss": 0.8208, "step": 992 }, { "epoch": 0.331, "grad_norm": 2.306769609451294, "learning_rate": 1.999349543104785e-05, "loss": 0.797, "step": 993 }, { "epoch": 0.3313333333333333, "grad_norm": 2.1099421977996826, "learning_rate": 1.9993354811362193e-05, "loss": 0.7854, "step": 994 }, { "epoch": 0.33166666666666667, "grad_norm": 2.415703058242798, "learning_rate": 1.9993212688392624e-05, "loss": 0.812, "step": 995 }, { "epoch": 0.332, "grad_norm": 2.148951768875122, "learning_rate": 1.999306906216052e-05, "loss": 0.8155, "step": 996 }, { "epoch": 0.3323333333333333, "grad_norm": 1.9756739139556885, "learning_rate": 1.9992923932687493e-05, "loss": 0.78, "step": 997 }, { "epoch": 0.33266666666666667, "grad_norm": 2.0927693843841553, "learning_rate": 1.9992777299995373e-05, "loss": 0.8099, "step": 998 }, { "epoch": 0.333, "grad_norm": 2.054877758026123, "learning_rate": 1.999262916410621e-05, "loss": 0.7993, "step": 999 }, { "epoch": 0.3333333333333333, "grad_norm": 2.0058798789978027, "learning_rate": 1.9992479525042305e-05, "loss": 0.7652, "step": 1000 }, { "epoch": 0.33366666666666667, "grad_norm": 2.2188594341278076, "learning_rate": 1.9992328382826147e-05, "loss": 0.8722, "step": 1001 }, { "epoch": 0.334, "grad_norm": 2.3724732398986816, "learning_rate": 1.9992175737480487e-05, "loss": 0.7762, "step": 1002 }, { "epoch": 0.3343333333333333, "grad_norm": 2.6232869625091553, "learning_rate": 1.9992021589028282e-05, "loss": 0.7581, "step": 1003 }, { "epoch": 0.33466666666666667, "grad_norm": 2.1158607006073, "learning_rate": 1.999186593749272e-05, "loss": 0.7782, "step": 1004 }, { "epoch": 0.335, "grad_norm": 2.0887694358825684, "learning_rate": 1.9991708782897214e-05, "loss": 0.8164, "step": 1005 }, { "epoch": 0.3353333333333333, "grad_norm": 2.3734004497528076, "learning_rate": 1.999155012526541e-05, "loss": 0.7321, "step": 1006 }, { "epoch": 0.33566666666666667, "grad_norm": 2.1463403701782227, "learning_rate": 1.9991389964621168e-05, "loss": 0.8136, "step": 1007 }, { "epoch": 0.336, "grad_norm": 2.232062339782715, "learning_rate": 1.9991228300988586e-05, "loss": 0.8154, "step": 1008 }, { "epoch": 0.3363333333333333, "grad_norm": 2.028738260269165, "learning_rate": 1.999106513439198e-05, "loss": 0.8035, "step": 1009 }, { "epoch": 0.33666666666666667, "grad_norm": 2.1344878673553467, "learning_rate": 1.9990900464855895e-05, "loss": 0.7643, "step": 1010 }, { "epoch": 0.337, "grad_norm": 2.201620578765869, "learning_rate": 1.9990734292405102e-05, "loss": 0.7291, "step": 1011 }, { "epoch": 0.3373333333333333, "grad_norm": 2.100900888442993, "learning_rate": 1.9990566617064598e-05, "loss": 0.784, "step": 1012 }, { "epoch": 0.33766666666666667, "grad_norm": 2.60718035697937, "learning_rate": 1.9990397438859607e-05, "loss": 0.7495, "step": 1013 }, { "epoch": 0.338, "grad_norm": 2.334930419921875, "learning_rate": 1.9990226757815582e-05, "loss": 0.7843, "step": 1014 }, { "epoch": 0.3383333333333333, "grad_norm": 2.176051378250122, "learning_rate": 1.999005457395819e-05, "loss": 0.7223, "step": 1015 }, { "epoch": 0.33866666666666667, "grad_norm": 2.170546293258667, "learning_rate": 1.9989880887313337e-05, "loss": 0.8231, "step": 1016 }, { "epoch": 0.339, "grad_norm": 2.2634449005126953, "learning_rate": 1.998970569790715e-05, "loss": 0.8074, "step": 1017 }, { "epoch": 0.3393333333333333, "grad_norm": 1.9887454509735107, "learning_rate": 1.998952900576598e-05, "loss": 0.804, "step": 1018 }, { "epoch": 0.3396666666666667, "grad_norm": 1.8919144868850708, "learning_rate": 1.998935081091641e-05, "loss": 0.7733, "step": 1019 }, { "epoch": 0.34, "grad_norm": 1.90397047996521, "learning_rate": 1.998917111338525e-05, "loss": 0.8443, "step": 1020 }, { "epoch": 0.3403333333333333, "grad_norm": 1.7607390880584717, "learning_rate": 1.9988989913199517e-05, "loss": 0.7097, "step": 1021 }, { "epoch": 0.3406666666666667, "grad_norm": 2.1817805767059326, "learning_rate": 1.9988807210386484e-05, "loss": 0.8351, "step": 1022 }, { "epoch": 0.341, "grad_norm": 2.242281675338745, "learning_rate": 1.9988623004973625e-05, "loss": 0.8152, "step": 1023 }, { "epoch": 0.3413333333333333, "grad_norm": 2.0592434406280518, "learning_rate": 1.9988437296988655e-05, "loss": 0.6767, "step": 1024 }, { "epoch": 0.3416666666666667, "grad_norm": 2.2092816829681396, "learning_rate": 1.9988250086459505e-05, "loss": 0.7413, "step": 1025 }, { "epoch": 0.342, "grad_norm": 2.0470402240753174, "learning_rate": 1.9988061373414342e-05, "loss": 0.7296, "step": 1026 }, { "epoch": 0.3423333333333333, "grad_norm": 2.0579376220703125, "learning_rate": 1.998787115788155e-05, "loss": 0.7729, "step": 1027 }, { "epoch": 0.3426666666666667, "grad_norm": 2.524709939956665, "learning_rate": 1.9987679439889747e-05, "loss": 0.7924, "step": 1028 }, { "epoch": 0.343, "grad_norm": 2.1059510707855225, "learning_rate": 1.9987486219467764e-05, "loss": 0.7919, "step": 1029 }, { "epoch": 0.3433333333333333, "grad_norm": 1.8495877981185913, "learning_rate": 1.998729149664468e-05, "loss": 0.7446, "step": 1030 }, { "epoch": 0.3436666666666667, "grad_norm": 2.218773365020752, "learning_rate": 1.9987095271449774e-05, "loss": 0.7319, "step": 1031 }, { "epoch": 0.344, "grad_norm": 1.9719382524490356, "learning_rate": 1.998689754391257e-05, "loss": 0.7585, "step": 1032 }, { "epoch": 0.3443333333333333, "grad_norm": 1.9704018831253052, "learning_rate": 1.9986698314062813e-05, "loss": 0.7857, "step": 1033 }, { "epoch": 0.3446666666666667, "grad_norm": 1.9411691427230835, "learning_rate": 1.998649758193047e-05, "loss": 0.7758, "step": 1034 }, { "epoch": 0.345, "grad_norm": 1.9187613725662231, "learning_rate": 1.9986295347545738e-05, "loss": 0.6831, "step": 1035 }, { "epoch": 0.3453333333333333, "grad_norm": 2.324803352355957, "learning_rate": 1.998609161093904e-05, "loss": 0.7535, "step": 1036 }, { "epoch": 0.3456666666666667, "grad_norm": 2.4694790840148926, "learning_rate": 1.9985886372141025e-05, "loss": 0.8351, "step": 1037 }, { "epoch": 0.346, "grad_norm": 2.1870453357696533, "learning_rate": 1.998567963118256e-05, "loss": 0.771, "step": 1038 }, { "epoch": 0.3463333333333333, "grad_norm": 1.978257417678833, "learning_rate": 1.998547138809475e-05, "loss": 0.7825, "step": 1039 }, { "epoch": 0.3466666666666667, "grad_norm": 2.2708704471588135, "learning_rate": 1.9985261642908917e-05, "loss": 0.7696, "step": 1040 }, { "epoch": 0.347, "grad_norm": 2.236644744873047, "learning_rate": 1.9985050395656617e-05, "loss": 0.7817, "step": 1041 }, { "epoch": 0.3473333333333333, "grad_norm": 1.8231257200241089, "learning_rate": 1.9984837646369626e-05, "loss": 0.7611, "step": 1042 }, { "epoch": 0.3476666666666667, "grad_norm": 2.0309948921203613, "learning_rate": 1.9984623395079946e-05, "loss": 0.7831, "step": 1043 }, { "epoch": 0.348, "grad_norm": 1.9954187870025635, "learning_rate": 1.9984407641819812e-05, "loss": 0.7411, "step": 1044 }, { "epoch": 0.34833333333333333, "grad_norm": 1.771074891090393, "learning_rate": 1.998419038662167e-05, "loss": 0.7061, "step": 1045 }, { "epoch": 0.3486666666666667, "grad_norm": 2.2099833488464355, "learning_rate": 1.998397162951821e-05, "loss": 0.8226, "step": 1046 }, { "epoch": 0.349, "grad_norm": 2.0259883403778076, "learning_rate": 1.9983751370542334e-05, "loss": 0.7772, "step": 1047 }, { "epoch": 0.34933333333333333, "grad_norm": 2.001450300216675, "learning_rate": 1.9983529609727176e-05, "loss": 0.7962, "step": 1048 }, { "epoch": 0.3496666666666667, "grad_norm": 2.0527937412261963, "learning_rate": 1.99833063471061e-05, "loss": 0.7718, "step": 1049 }, { "epoch": 0.35, "grad_norm": 2.0910353660583496, "learning_rate": 1.9983081582712684e-05, "loss": 0.7641, "step": 1050 }, { "epoch": 0.35033333333333333, "grad_norm": 2.2143545150756836, "learning_rate": 1.9982855316580744e-05, "loss": 0.8068, "step": 1051 }, { "epoch": 0.3506666666666667, "grad_norm": 2.3388025760650635, "learning_rate": 1.9982627548744313e-05, "loss": 0.7702, "step": 1052 }, { "epoch": 0.351, "grad_norm": 1.9161192178726196, "learning_rate": 1.9982398279237657e-05, "loss": 0.8189, "step": 1053 }, { "epoch": 0.35133333333333333, "grad_norm": 2.187574863433838, "learning_rate": 1.998216750809526e-05, "loss": 0.7582, "step": 1054 }, { "epoch": 0.3516666666666667, "grad_norm": 2.1558139324188232, "learning_rate": 1.998193523535184e-05, "loss": 0.7456, "step": 1055 }, { "epoch": 0.352, "grad_norm": 1.9562166929244995, "learning_rate": 1.998170146104234e-05, "loss": 0.8154, "step": 1056 }, { "epoch": 0.35233333333333333, "grad_norm": 2.050490379333496, "learning_rate": 1.9981466185201923e-05, "loss": 0.7199, "step": 1057 }, { "epoch": 0.3526666666666667, "grad_norm": 2.096595048904419, "learning_rate": 1.9981229407865982e-05, "loss": 0.7386, "step": 1058 }, { "epoch": 0.353, "grad_norm": 2.09926176071167, "learning_rate": 1.998099112907013e-05, "loss": 0.8147, "step": 1059 }, { "epoch": 0.35333333333333333, "grad_norm": 2.034252405166626, "learning_rate": 1.998075134885022e-05, "loss": 0.6942, "step": 1060 }, { "epoch": 0.3536666666666667, "grad_norm": 1.7176086902618408, "learning_rate": 1.9980510067242317e-05, "loss": 0.72, "step": 1061 }, { "epoch": 0.354, "grad_norm": 1.7372490167617798, "learning_rate": 1.9980267284282718e-05, "loss": 0.8154, "step": 1062 }, { "epoch": 0.35433333333333333, "grad_norm": 1.8102383613586426, "learning_rate": 1.9980023000007943e-05, "loss": 0.7559, "step": 1063 }, { "epoch": 0.3546666666666667, "grad_norm": 2.0881028175354004, "learning_rate": 1.9979777214454738e-05, "loss": 0.7071, "step": 1064 }, { "epoch": 0.355, "grad_norm": 2.2700257301330566, "learning_rate": 1.9979529927660076e-05, "loss": 0.7542, "step": 1065 }, { "epoch": 0.35533333333333333, "grad_norm": 2.053068161010742, "learning_rate": 1.997928113966116e-05, "loss": 0.7195, "step": 1066 }, { "epoch": 0.3556666666666667, "grad_norm": 2.112031936645508, "learning_rate": 1.997903085049541e-05, "loss": 0.7444, "step": 1067 }, { "epoch": 0.356, "grad_norm": 2.1540462970733643, "learning_rate": 1.9978779060200483e-05, "loss": 0.8328, "step": 1068 }, { "epoch": 0.35633333333333334, "grad_norm": 2.4797580242156982, "learning_rate": 1.997852576881425e-05, "loss": 0.7796, "step": 1069 }, { "epoch": 0.3566666666666667, "grad_norm": 2.203252077102661, "learning_rate": 1.9978270976374813e-05, "loss": 0.7793, "step": 1070 }, { "epoch": 0.357, "grad_norm": 2.0250799655914307, "learning_rate": 1.9978014682920503e-05, "loss": 0.734, "step": 1071 }, { "epoch": 0.35733333333333334, "grad_norm": 1.9329944849014282, "learning_rate": 1.9977756888489874e-05, "loss": 0.749, "step": 1072 }, { "epoch": 0.3576666666666667, "grad_norm": 1.9890209436416626, "learning_rate": 1.99774975931217e-05, "loss": 0.8157, "step": 1073 }, { "epoch": 0.358, "grad_norm": 1.9936943054199219, "learning_rate": 1.997723679685499e-05, "loss": 0.742, "step": 1074 }, { "epoch": 0.35833333333333334, "grad_norm": 1.9577529430389404, "learning_rate": 1.997697449972898e-05, "loss": 0.7788, "step": 1075 }, { "epoch": 0.3586666666666667, "grad_norm": 1.8452790975570679, "learning_rate": 1.9976710701783116e-05, "loss": 0.7074, "step": 1076 }, { "epoch": 0.359, "grad_norm": 1.951536774635315, "learning_rate": 1.9976445403057095e-05, "loss": 0.7575, "step": 1077 }, { "epoch": 0.35933333333333334, "grad_norm": 2.1195948123931885, "learning_rate": 1.9976178603590813e-05, "loss": 0.743, "step": 1078 }, { "epoch": 0.3596666666666667, "grad_norm": 2.0647988319396973, "learning_rate": 1.997591030342441e-05, "loss": 0.7762, "step": 1079 }, { "epoch": 0.36, "grad_norm": 2.1208059787750244, "learning_rate": 1.9975640502598243e-05, "loss": 0.7996, "step": 1080 }, { "epoch": 0.36033333333333334, "grad_norm": 2.2952370643615723, "learning_rate": 1.99753692011529e-05, "loss": 0.7718, "step": 1081 }, { "epoch": 0.3606666666666667, "grad_norm": 2.432772636413574, "learning_rate": 1.9975096399129196e-05, "loss": 0.7384, "step": 1082 }, { "epoch": 0.361, "grad_norm": 2.3604331016540527, "learning_rate": 1.9974822096568157e-05, "loss": 0.7708, "step": 1083 }, { "epoch": 0.36133333333333334, "grad_norm": 2.0644643306732178, "learning_rate": 1.9974546293511057e-05, "loss": 0.7299, "step": 1084 }, { "epoch": 0.3616666666666667, "grad_norm": 2.029348850250244, "learning_rate": 1.997426898999938e-05, "loss": 0.7879, "step": 1085 }, { "epoch": 0.362, "grad_norm": 2.2085654735565186, "learning_rate": 1.9973990186074844e-05, "loss": 0.7646, "step": 1086 }, { "epoch": 0.36233333333333334, "grad_norm": 1.9988279342651367, "learning_rate": 1.9973709881779383e-05, "loss": 0.7345, "step": 1087 }, { "epoch": 0.3626666666666667, "grad_norm": 1.8864048719406128, "learning_rate": 1.9973428077155165e-05, "loss": 0.8339, "step": 1088 }, { "epoch": 0.363, "grad_norm": 2.1184134483337402, "learning_rate": 1.997314477224458e-05, "loss": 0.8122, "step": 1089 }, { "epoch": 0.36333333333333334, "grad_norm": 2.1995043754577637, "learning_rate": 1.9972859967090253e-05, "loss": 0.7252, "step": 1090 }, { "epoch": 0.3636666666666667, "grad_norm": 1.9110766649246216, "learning_rate": 1.997257366173502e-05, "loss": 0.7423, "step": 1091 }, { "epoch": 0.364, "grad_norm": 1.942099690437317, "learning_rate": 1.9972285856221944e-05, "loss": 0.7494, "step": 1092 }, { "epoch": 0.36433333333333334, "grad_norm": 2.2395896911621094, "learning_rate": 1.9971996550594327e-05, "loss": 0.7891, "step": 1093 }, { "epoch": 0.36466666666666664, "grad_norm": 2.041685104370117, "learning_rate": 1.997170574489569e-05, "loss": 0.7674, "step": 1094 }, { "epoch": 0.365, "grad_norm": 1.9223977327346802, "learning_rate": 1.9971413439169777e-05, "loss": 0.7537, "step": 1095 }, { "epoch": 0.36533333333333334, "grad_norm": 1.7135380506515503, "learning_rate": 1.9971119633460553e-05, "loss": 0.7702, "step": 1096 }, { "epoch": 0.36566666666666664, "grad_norm": 2.0507731437683105, "learning_rate": 1.9970824327812224e-05, "loss": 0.7739, "step": 1097 }, { "epoch": 0.366, "grad_norm": 2.1883552074432373, "learning_rate": 1.9970527522269204e-05, "loss": 0.7422, "step": 1098 }, { "epoch": 0.36633333333333334, "grad_norm": 2.2083661556243896, "learning_rate": 1.9970229216876145e-05, "loss": 0.8117, "step": 1099 }, { "epoch": 0.36666666666666664, "grad_norm": 2.010261297225952, "learning_rate": 1.996992941167792e-05, "loss": 0.7744, "step": 1100 }, { "epoch": 0.367, "grad_norm": 2.1298770904541016, "learning_rate": 1.9969628106719632e-05, "loss": 0.7352, "step": 1101 }, { "epoch": 0.36733333333333335, "grad_norm": 2.0757699012756348, "learning_rate": 1.99693253020466e-05, "loss": 0.7947, "step": 1102 }, { "epoch": 0.36766666666666664, "grad_norm": 2.0138981342315674, "learning_rate": 1.9969020997704377e-05, "loss": 0.7023, "step": 1103 }, { "epoch": 0.368, "grad_norm": 2.163762092590332, "learning_rate": 1.9968715193738738e-05, "loss": 0.7045, "step": 1104 }, { "epoch": 0.36833333333333335, "grad_norm": 2.559589385986328, "learning_rate": 1.9968407890195686e-05, "loss": 0.6994, "step": 1105 }, { "epoch": 0.36866666666666664, "grad_norm": 1.9663361310958862, "learning_rate": 1.9968099087121445e-05, "loss": 0.7154, "step": 1106 }, { "epoch": 0.369, "grad_norm": 2.087641716003418, "learning_rate": 1.9967788784562474e-05, "loss": 0.74, "step": 1107 }, { "epoch": 0.36933333333333335, "grad_norm": 2.291304588317871, "learning_rate": 1.9967476982565445e-05, "loss": 0.7489, "step": 1108 }, { "epoch": 0.36966666666666664, "grad_norm": 2.104841470718384, "learning_rate": 1.9967163681177265e-05, "loss": 0.6888, "step": 1109 }, { "epoch": 0.37, "grad_norm": 1.9891563653945923, "learning_rate": 1.996684888044506e-05, "loss": 0.8035, "step": 1110 }, { "epoch": 0.37033333333333335, "grad_norm": 1.9549232721328735, "learning_rate": 1.996653258041619e-05, "loss": 0.7443, "step": 1111 }, { "epoch": 0.37066666666666664, "grad_norm": 1.8186441659927368, "learning_rate": 1.9966214781138236e-05, "loss": 0.7309, "step": 1112 }, { "epoch": 0.371, "grad_norm": 2.2102487087249756, "learning_rate": 1.9965895482659e-05, "loss": 0.6902, "step": 1113 }, { "epoch": 0.37133333333333335, "grad_norm": 1.83051598072052, "learning_rate": 1.996557468502651e-05, "loss": 0.7771, "step": 1114 }, { "epoch": 0.37166666666666665, "grad_norm": 2.125549077987671, "learning_rate": 1.9965252388289033e-05, "loss": 0.8083, "step": 1115 }, { "epoch": 0.372, "grad_norm": 1.7007070779800415, "learning_rate": 1.9964928592495046e-05, "loss": 0.7494, "step": 1116 }, { "epoch": 0.37233333333333335, "grad_norm": 2.6298935413360596, "learning_rate": 1.9964603297693253e-05, "loss": 0.7973, "step": 1117 }, { "epoch": 0.37266666666666665, "grad_norm": 2.1817800998687744, "learning_rate": 1.9964276503932595e-05, "loss": 0.6943, "step": 1118 }, { "epoch": 0.373, "grad_norm": 1.959341049194336, "learning_rate": 1.9963948211262233e-05, "loss": 0.7271, "step": 1119 }, { "epoch": 0.37333333333333335, "grad_norm": 1.9796826839447021, "learning_rate": 1.996361841973154e-05, "loss": 0.7542, "step": 1120 }, { "epoch": 0.37366666666666665, "grad_norm": 1.83212411403656, "learning_rate": 1.9963287129390134e-05, "loss": 0.7338, "step": 1121 }, { "epoch": 0.374, "grad_norm": 2.1045687198638916, "learning_rate": 1.996295434028785e-05, "loss": 0.7602, "step": 1122 }, { "epoch": 0.37433333333333335, "grad_norm": 1.9285991191864014, "learning_rate": 1.9962620052474747e-05, "loss": 0.7316, "step": 1123 }, { "epoch": 0.37466666666666665, "grad_norm": 2.102821111679077, "learning_rate": 1.9962284266001112e-05, "loss": 0.6962, "step": 1124 }, { "epoch": 0.375, "grad_norm": 2.0659685134887695, "learning_rate": 1.9961946980917457e-05, "loss": 0.7248, "step": 1125 }, { "epoch": 0.37533333333333335, "grad_norm": 2.022643804550171, "learning_rate": 1.996160819727452e-05, "loss": 0.7463, "step": 1126 }, { "epoch": 0.37566666666666665, "grad_norm": 2.2478013038635254, "learning_rate": 1.9961267915123264e-05, "loss": 0.7758, "step": 1127 }, { "epoch": 0.376, "grad_norm": 1.987743854522705, "learning_rate": 1.9960926134514875e-05, "loss": 0.7495, "step": 1128 }, { "epoch": 0.37633333333333335, "grad_norm": 2.517491579055786, "learning_rate": 1.9960582855500767e-05, "loss": 0.7763, "step": 1129 }, { "epoch": 0.37666666666666665, "grad_norm": 1.7973966598510742, "learning_rate": 1.996023807813258e-05, "loss": 0.6578, "step": 1130 }, { "epoch": 0.377, "grad_norm": 1.8995182514190674, "learning_rate": 1.995989180246218e-05, "loss": 0.7514, "step": 1131 }, { "epoch": 0.37733333333333335, "grad_norm": 2.0243937969207764, "learning_rate": 1.995954402854165e-05, "loss": 0.7657, "step": 1132 }, { "epoch": 0.37766666666666665, "grad_norm": 1.9394001960754395, "learning_rate": 1.9959194756423313e-05, "loss": 0.7058, "step": 1133 }, { "epoch": 0.378, "grad_norm": 2.1533093452453613, "learning_rate": 1.9958843986159705e-05, "loss": 0.7332, "step": 1134 }, { "epoch": 0.37833333333333335, "grad_norm": 1.8818633556365967, "learning_rate": 1.995849171780359e-05, "loss": 0.7117, "step": 1135 }, { "epoch": 0.37866666666666665, "grad_norm": 1.8808815479278564, "learning_rate": 1.9958137951407968e-05, "loss": 0.7397, "step": 1136 }, { "epoch": 0.379, "grad_norm": 2.050955057144165, "learning_rate": 1.9957782687026046e-05, "loss": 0.692, "step": 1137 }, { "epoch": 0.37933333333333336, "grad_norm": 2.078787326812744, "learning_rate": 1.9957425924711267e-05, "loss": 0.771, "step": 1138 }, { "epoch": 0.37966666666666665, "grad_norm": 2.2408478260040283, "learning_rate": 1.9957067664517305e-05, "loss": 0.7353, "step": 1139 }, { "epoch": 0.38, "grad_norm": 2.172652244567871, "learning_rate": 1.9956707906498046e-05, "loss": 0.653, "step": 1140 }, { "epoch": 0.38033333333333336, "grad_norm": 2.0745012760162354, "learning_rate": 1.9956346650707607e-05, "loss": 0.7612, "step": 1141 }, { "epoch": 0.38066666666666665, "grad_norm": 2.2520313262939453, "learning_rate": 1.995598389720034e-05, "loss": 0.8052, "step": 1142 }, { "epoch": 0.381, "grad_norm": 2.211989402770996, "learning_rate": 1.99556196460308e-05, "loss": 0.8007, "step": 1143 }, { "epoch": 0.38133333333333336, "grad_norm": 1.9017729759216309, "learning_rate": 1.9955253897253795e-05, "loss": 0.7529, "step": 1144 }, { "epoch": 0.38166666666666665, "grad_norm": 1.8454606533050537, "learning_rate": 1.995488665092433e-05, "loss": 0.6897, "step": 1145 }, { "epoch": 0.382, "grad_norm": 1.9648830890655518, "learning_rate": 1.9954517907097663e-05, "loss": 0.731, "step": 1146 }, { "epoch": 0.38233333333333336, "grad_norm": 1.8706629276275635, "learning_rate": 1.995414766582925e-05, "loss": 0.7601, "step": 1147 }, { "epoch": 0.38266666666666665, "grad_norm": 1.8314001560211182, "learning_rate": 1.9953775927174797e-05, "loss": 0.7758, "step": 1148 }, { "epoch": 0.383, "grad_norm": 2.039987564086914, "learning_rate": 1.9953402691190218e-05, "loss": 0.7357, "step": 1149 }, { "epoch": 0.38333333333333336, "grad_norm": 1.7851135730743408, "learning_rate": 1.9953027957931658e-05, "loss": 0.6747, "step": 1150 }, { "epoch": 0.38366666666666666, "grad_norm": 2.0674593448638916, "learning_rate": 1.9952651727455496e-05, "loss": 0.7315, "step": 1151 }, { "epoch": 0.384, "grad_norm": 1.9645249843597412, "learning_rate": 1.9952273999818312e-05, "loss": 0.7202, "step": 1152 }, { "epoch": 0.38433333333333336, "grad_norm": 2.2878596782684326, "learning_rate": 1.9951894775076944e-05, "loss": 0.737, "step": 1153 }, { "epoch": 0.38466666666666666, "grad_norm": 1.9502133131027222, "learning_rate": 1.9951514053288427e-05, "loss": 0.7504, "step": 1154 }, { "epoch": 0.385, "grad_norm": 2.5149459838867188, "learning_rate": 1.9951131834510034e-05, "loss": 0.6556, "step": 1155 }, { "epoch": 0.38533333333333336, "grad_norm": 1.8941422700881958, "learning_rate": 1.9950748118799264e-05, "loss": 0.773, "step": 1156 }, { "epoch": 0.38566666666666666, "grad_norm": 2.1689369678497314, "learning_rate": 1.9950362906213836e-05, "loss": 0.7983, "step": 1157 }, { "epoch": 0.386, "grad_norm": 1.9059181213378906, "learning_rate": 1.99499761968117e-05, "loss": 0.7075, "step": 1158 }, { "epoch": 0.3863333333333333, "grad_norm": 2.588683605194092, "learning_rate": 1.9949587990651026e-05, "loss": 0.6815, "step": 1159 }, { "epoch": 0.38666666666666666, "grad_norm": 2.259831190109253, "learning_rate": 1.9949198287790215e-05, "loss": 0.7116, "step": 1160 }, { "epoch": 0.387, "grad_norm": 2.0930469036102295, "learning_rate": 1.9948807088287884e-05, "loss": 0.7608, "step": 1161 }, { "epoch": 0.3873333333333333, "grad_norm": 2.3667359352111816, "learning_rate": 1.9948414392202884e-05, "loss": 0.8233, "step": 1162 }, { "epoch": 0.38766666666666666, "grad_norm": 2.0677759647369385, "learning_rate": 1.9948020199594285e-05, "loss": 0.7339, "step": 1163 }, { "epoch": 0.388, "grad_norm": 1.8860137462615967, "learning_rate": 1.9947624510521385e-05, "loss": 0.7264, "step": 1164 }, { "epoch": 0.3883333333333333, "grad_norm": 1.7774126529693604, "learning_rate": 1.994722732504371e-05, "loss": 0.7241, "step": 1165 }, { "epoch": 0.38866666666666666, "grad_norm": 1.9420359134674072, "learning_rate": 1.9946828643221004e-05, "loss": 0.7517, "step": 1166 }, { "epoch": 0.389, "grad_norm": 2.48769474029541, "learning_rate": 1.9946428465113244e-05, "loss": 0.7261, "step": 1167 }, { "epoch": 0.3893333333333333, "grad_norm": 1.966310977935791, "learning_rate": 1.9946026790780628e-05, "loss": 0.7332, "step": 1168 }, { "epoch": 0.38966666666666666, "grad_norm": 1.7786916494369507, "learning_rate": 1.9945623620283573e-05, "loss": 0.6643, "step": 1169 }, { "epoch": 0.39, "grad_norm": 1.8784512281417847, "learning_rate": 1.9945218953682736e-05, "loss": 0.7113, "step": 1170 }, { "epoch": 0.3903333333333333, "grad_norm": 2.149937391281128, "learning_rate": 1.9944812791038983e-05, "loss": 0.6893, "step": 1171 }, { "epoch": 0.39066666666666666, "grad_norm": 2.449223756790161, "learning_rate": 1.9944405132413417e-05, "loss": 0.6448, "step": 1172 }, { "epoch": 0.391, "grad_norm": 2.1093342304229736, "learning_rate": 1.9943995977867358e-05, "loss": 0.7128, "step": 1173 }, { "epoch": 0.3913333333333333, "grad_norm": 2.052586793899536, "learning_rate": 1.9943585327462357e-05, "loss": 0.6845, "step": 1174 }, { "epoch": 0.39166666666666666, "grad_norm": 2.330230951309204, "learning_rate": 1.9943173181260187e-05, "loss": 0.7535, "step": 1175 }, { "epoch": 0.392, "grad_norm": 2.0804014205932617, "learning_rate": 1.9942759539322845e-05, "loss": 0.7695, "step": 1176 }, { "epoch": 0.3923333333333333, "grad_norm": 1.7974039316177368, "learning_rate": 1.9942344401712556e-05, "loss": 0.7306, "step": 1177 }, { "epoch": 0.39266666666666666, "grad_norm": 2.0389997959136963, "learning_rate": 1.994192776849177e-05, "loss": 0.8014, "step": 1178 }, { "epoch": 0.393, "grad_norm": 1.9889395236968994, "learning_rate": 1.9941509639723155e-05, "loss": 0.6625, "step": 1179 }, { "epoch": 0.3933333333333333, "grad_norm": 2.0415425300598145, "learning_rate": 1.9941090015469614e-05, "loss": 0.6237, "step": 1180 }, { "epoch": 0.39366666666666666, "grad_norm": 1.655003547668457, "learning_rate": 1.9940668895794272e-05, "loss": 0.7319, "step": 1181 }, { "epoch": 0.394, "grad_norm": 1.8874716758728027, "learning_rate": 1.9940246280760473e-05, "loss": 0.7203, "step": 1182 }, { "epoch": 0.3943333333333333, "grad_norm": 2.101186752319336, "learning_rate": 1.993982217043179e-05, "loss": 0.7649, "step": 1183 }, { "epoch": 0.39466666666666667, "grad_norm": 2.103184223175049, "learning_rate": 1.9939396564872025e-05, "loss": 0.7443, "step": 1184 }, { "epoch": 0.395, "grad_norm": 2.2395594120025635, "learning_rate": 1.99389694641452e-05, "loss": 0.7788, "step": 1185 }, { "epoch": 0.3953333333333333, "grad_norm": 1.873664379119873, "learning_rate": 1.9938540868315563e-05, "loss": 0.717, "step": 1186 }, { "epoch": 0.39566666666666667, "grad_norm": 1.9045002460479736, "learning_rate": 1.9938110777447583e-05, "loss": 0.6936, "step": 1187 }, { "epoch": 0.396, "grad_norm": 1.941917061805725, "learning_rate": 1.9937679191605964e-05, "loss": 0.7166, "step": 1188 }, { "epoch": 0.3963333333333333, "grad_norm": 1.6899709701538086, "learning_rate": 1.9937246110855625e-05, "loss": 0.6464, "step": 1189 }, { "epoch": 0.39666666666666667, "grad_norm": 1.82481849193573, "learning_rate": 1.9936811535261714e-05, "loss": 0.6997, "step": 1190 }, { "epoch": 0.397, "grad_norm": 1.927303671836853, "learning_rate": 1.9936375464889608e-05, "loss": 0.7111, "step": 1191 }, { "epoch": 0.3973333333333333, "grad_norm": 1.9150807857513428, "learning_rate": 1.9935937899804897e-05, "loss": 0.7266, "step": 1192 }, { "epoch": 0.39766666666666667, "grad_norm": 1.953295111656189, "learning_rate": 1.9935498840073406e-05, "loss": 0.7542, "step": 1193 }, { "epoch": 0.398, "grad_norm": 2.085883140563965, "learning_rate": 1.9935058285761185e-05, "loss": 0.7123, "step": 1194 }, { "epoch": 0.3983333333333333, "grad_norm": 2.0823276042938232, "learning_rate": 1.9934616236934503e-05, "loss": 0.7148, "step": 1195 }, { "epoch": 0.39866666666666667, "grad_norm": 2.018998861312866, "learning_rate": 1.9934172693659854e-05, "loss": 0.7224, "step": 1196 }, { "epoch": 0.399, "grad_norm": 1.930698275566101, "learning_rate": 1.9933727656003964e-05, "loss": 0.7328, "step": 1197 }, { "epoch": 0.3993333333333333, "grad_norm": 2.42343807220459, "learning_rate": 1.993328112403378e-05, "loss": 0.7837, "step": 1198 }, { "epoch": 0.39966666666666667, "grad_norm": 2.05281662940979, "learning_rate": 1.993283309781647e-05, "loss": 0.7056, "step": 1199 }, { "epoch": 0.4, "grad_norm": 1.8378878831863403, "learning_rate": 1.9932383577419432e-05, "loss": 0.7373, "step": 1200 }, { "epoch": 0.4003333333333333, "grad_norm": 1.774647831916809, "learning_rate": 1.9931932562910282e-05, "loss": 0.7756, "step": 1201 }, { "epoch": 0.40066666666666667, "grad_norm": 2.0668885707855225, "learning_rate": 1.9931480054356875e-05, "loss": 0.7228, "step": 1202 }, { "epoch": 0.401, "grad_norm": 2.1184213161468506, "learning_rate": 1.993102605182727e-05, "loss": 0.7675, "step": 1203 }, { "epoch": 0.4013333333333333, "grad_norm": 1.6540908813476562, "learning_rate": 1.9930570555389766e-05, "loss": 0.7363, "step": 1204 }, { "epoch": 0.40166666666666667, "grad_norm": 1.7443417310714722, "learning_rate": 1.9930113565112887e-05, "loss": 0.7171, "step": 1205 }, { "epoch": 0.402, "grad_norm": 1.6970797777175903, "learning_rate": 1.992965508106537e-05, "loss": 0.6797, "step": 1206 }, { "epoch": 0.4023333333333333, "grad_norm": 1.700598120689392, "learning_rate": 1.9929195103316192e-05, "loss": 0.6583, "step": 1207 }, { "epoch": 0.4026666666666667, "grad_norm": 1.9905967712402344, "learning_rate": 1.992873363193454e-05, "loss": 0.6858, "step": 1208 }, { "epoch": 0.403, "grad_norm": 2.287100076675415, "learning_rate": 1.9928270666989835e-05, "loss": 0.6839, "step": 1209 }, { "epoch": 0.4033333333333333, "grad_norm": 2.1450607776641846, "learning_rate": 1.9927806208551718e-05, "loss": 0.7745, "step": 1210 }, { "epoch": 0.4036666666666667, "grad_norm": 1.8856462240219116, "learning_rate": 1.9927340256690063e-05, "loss": 0.6769, "step": 1211 }, { "epoch": 0.404, "grad_norm": 2.5233395099639893, "learning_rate": 1.9926872811474952e-05, "loss": 0.7024, "step": 1212 }, { "epoch": 0.4043333333333333, "grad_norm": 2.5802385807037354, "learning_rate": 1.992640387297671e-05, "loss": 0.7509, "step": 1213 }, { "epoch": 0.4046666666666667, "grad_norm": 2.1692276000976562, "learning_rate": 1.992593344126588e-05, "loss": 0.7174, "step": 1214 }, { "epoch": 0.405, "grad_norm": 2.25870943069458, "learning_rate": 1.9925461516413224e-05, "loss": 0.7008, "step": 1215 }, { "epoch": 0.4053333333333333, "grad_norm": 1.7548924684524536, "learning_rate": 1.9924988098489732e-05, "loss": 0.6265, "step": 1216 }, { "epoch": 0.4056666666666667, "grad_norm": 2.06205153465271, "learning_rate": 1.992451318756662e-05, "loss": 0.6199, "step": 1217 }, { "epoch": 0.406, "grad_norm": 1.7854952812194824, "learning_rate": 1.992403678371533e-05, "loss": 0.6903, "step": 1218 }, { "epoch": 0.4063333333333333, "grad_norm": 1.8193011283874512, "learning_rate": 1.9923558887007527e-05, "loss": 0.7491, "step": 1219 }, { "epoch": 0.4066666666666667, "grad_norm": 1.93204665184021, "learning_rate": 1.99230794975151e-05, "loss": 0.784, "step": 1220 }, { "epoch": 0.407, "grad_norm": 1.5916528701782227, "learning_rate": 1.9922598615310157e-05, "loss": 0.681, "step": 1221 }, { "epoch": 0.4073333333333333, "grad_norm": 2.088628053665161, "learning_rate": 1.9922116240465045e-05, "loss": 0.6597, "step": 1222 }, { "epoch": 0.4076666666666667, "grad_norm": 1.8749408721923828, "learning_rate": 1.9921632373052324e-05, "loss": 0.74, "step": 1223 }, { "epoch": 0.408, "grad_norm": 2.0280003547668457, "learning_rate": 1.9921147013144782e-05, "loss": 0.6934, "step": 1224 }, { "epoch": 0.4083333333333333, "grad_norm": 2.007281541824341, "learning_rate": 1.9920660160815423e-05, "loss": 0.716, "step": 1225 }, { "epoch": 0.4086666666666667, "grad_norm": 1.8300034999847412, "learning_rate": 1.9920171816137495e-05, "loss": 0.7465, "step": 1226 }, { "epoch": 0.409, "grad_norm": 2.110079765319824, "learning_rate": 1.9919681979184452e-05, "loss": 0.7397, "step": 1227 }, { "epoch": 0.4093333333333333, "grad_norm": 1.9315593242645264, "learning_rate": 1.991919065002998e-05, "loss": 0.7015, "step": 1228 }, { "epoch": 0.4096666666666667, "grad_norm": 2.3437914848327637, "learning_rate": 1.9918697828747994e-05, "loss": 0.7099, "step": 1229 }, { "epoch": 0.41, "grad_norm": 1.8759031295776367, "learning_rate": 1.9918203515412616e-05, "loss": 0.703, "step": 1230 }, { "epoch": 0.4103333333333333, "grad_norm": 1.6759707927703857, "learning_rate": 1.9917707710098223e-05, "loss": 0.7271, "step": 1231 }, { "epoch": 0.4106666666666667, "grad_norm": 1.7325053215026855, "learning_rate": 1.9917210412879383e-05, "loss": 0.6831, "step": 1232 }, { "epoch": 0.411, "grad_norm": 1.7454150915145874, "learning_rate": 1.9916711623830904e-05, "loss": 0.7166, "step": 1233 }, { "epoch": 0.41133333333333333, "grad_norm": 2.2876219749450684, "learning_rate": 1.991621134302783e-05, "loss": 0.6811, "step": 1234 }, { "epoch": 0.4116666666666667, "grad_norm": 1.7761526107788086, "learning_rate": 1.9915709570545406e-05, "loss": 0.7149, "step": 1235 }, { "epoch": 0.412, "grad_norm": 1.9442329406738281, "learning_rate": 1.9915206306459117e-05, "loss": 0.6916, "step": 1236 }, { "epoch": 0.41233333333333333, "grad_norm": 1.9865808486938477, "learning_rate": 1.9914701550844672e-05, "loss": 0.6581, "step": 1237 }, { "epoch": 0.4126666666666667, "grad_norm": 2.169468402862549, "learning_rate": 1.991419530377799e-05, "loss": 0.7476, "step": 1238 }, { "epoch": 0.413, "grad_norm": 2.1339352130889893, "learning_rate": 1.9913687565335237e-05, "loss": 0.6941, "step": 1239 }, { "epoch": 0.41333333333333333, "grad_norm": 2.033369302749634, "learning_rate": 1.9913178335592784e-05, "loss": 0.78, "step": 1240 }, { "epoch": 0.4136666666666667, "grad_norm": 1.8962883949279785, "learning_rate": 1.991266761462724e-05, "loss": 0.6622, "step": 1241 }, { "epoch": 0.414, "grad_norm": 2.0084176063537598, "learning_rate": 1.991215540251542e-05, "loss": 0.6987, "step": 1242 }, { "epoch": 0.41433333333333333, "grad_norm": 2.0199663639068604, "learning_rate": 1.9911641699334386e-05, "loss": 0.7474, "step": 1243 }, { "epoch": 0.4146666666666667, "grad_norm": 2.361563205718994, "learning_rate": 1.9911126505161408e-05, "loss": 0.7078, "step": 1244 }, { "epoch": 0.415, "grad_norm": 2.136251926422119, "learning_rate": 1.9910609820073986e-05, "loss": 0.7051, "step": 1245 }, { "epoch": 0.41533333333333333, "grad_norm": 2.2398927211761475, "learning_rate": 1.991009164414985e-05, "loss": 0.7262, "step": 1246 }, { "epoch": 0.4156666666666667, "grad_norm": 2.0252857208251953, "learning_rate": 1.9909571977466945e-05, "loss": 0.7195, "step": 1247 }, { "epoch": 0.416, "grad_norm": 1.9417016506195068, "learning_rate": 1.990905082010344e-05, "loss": 0.7063, "step": 1248 }, { "epoch": 0.41633333333333333, "grad_norm": 2.792980432510376, "learning_rate": 1.9908528172137736e-05, "loss": 0.7203, "step": 1249 }, { "epoch": 0.4166666666666667, "grad_norm": 1.945683240890503, "learning_rate": 1.9908004033648452e-05, "loss": 0.6754, "step": 1250 }, { "epoch": 0.417, "grad_norm": 2.0928432941436768, "learning_rate": 1.9907478404714438e-05, "loss": 0.6753, "step": 1251 }, { "epoch": 0.41733333333333333, "grad_norm": 2.2229537963867188, "learning_rate": 1.9906951285414755e-05, "loss": 0.6766, "step": 1252 }, { "epoch": 0.4176666666666667, "grad_norm": 1.9517675638198853, "learning_rate": 1.9906422675828706e-05, "loss": 0.6453, "step": 1253 }, { "epoch": 0.418, "grad_norm": 1.9047372341156006, "learning_rate": 1.9905892576035798e-05, "loss": 0.7111, "step": 1254 }, { "epoch": 0.41833333333333333, "grad_norm": 1.9305862188339233, "learning_rate": 1.9905360986115782e-05, "loss": 0.6607, "step": 1255 }, { "epoch": 0.4186666666666667, "grad_norm": 2.185830593109131, "learning_rate": 1.9904827906148624e-05, "loss": 0.7331, "step": 1256 }, { "epoch": 0.419, "grad_norm": 2.0383315086364746, "learning_rate": 1.9904293336214508e-05, "loss": 0.7318, "step": 1257 }, { "epoch": 0.41933333333333334, "grad_norm": 2.0283050537109375, "learning_rate": 1.9903757276393857e-05, "loss": 0.6794, "step": 1258 }, { "epoch": 0.4196666666666667, "grad_norm": 1.9188566207885742, "learning_rate": 1.9903219726767298e-05, "loss": 0.7006, "step": 1259 }, { "epoch": 0.42, "grad_norm": 1.836574673652649, "learning_rate": 1.9902680687415704e-05, "loss": 0.7104, "step": 1260 }, { "epoch": 0.42033333333333334, "grad_norm": 1.9219493865966797, "learning_rate": 1.990214015842016e-05, "loss": 0.689, "step": 1261 }, { "epoch": 0.4206666666666667, "grad_norm": 2.057803153991699, "learning_rate": 1.9901598139861972e-05, "loss": 0.6631, "step": 1262 }, { "epoch": 0.421, "grad_norm": 1.9240660667419434, "learning_rate": 1.990105463182268e-05, "loss": 0.7041, "step": 1263 }, { "epoch": 0.42133333333333334, "grad_norm": 2.0471842288970947, "learning_rate": 1.990050963438404e-05, "loss": 0.7345, "step": 1264 }, { "epoch": 0.4216666666666667, "grad_norm": 2.079371929168701, "learning_rate": 1.989996314762804e-05, "loss": 0.6853, "step": 1265 }, { "epoch": 0.422, "grad_norm": 2.544668436050415, "learning_rate": 1.989941517163688e-05, "loss": 0.7814, "step": 1266 }, { "epoch": 0.42233333333333334, "grad_norm": 2.2860443592071533, "learning_rate": 1.9898865706492994e-05, "loss": 0.7609, "step": 1267 }, { "epoch": 0.4226666666666667, "grad_norm": 1.8472710847854614, "learning_rate": 1.9898314752279038e-05, "loss": 0.6854, "step": 1268 }, { "epoch": 0.423, "grad_norm": 1.8020704984664917, "learning_rate": 1.989776230907789e-05, "loss": 0.6793, "step": 1269 }, { "epoch": 0.42333333333333334, "grad_norm": 2.0701444149017334, "learning_rate": 1.9897208376972655e-05, "loss": 0.6846, "step": 1270 }, { "epoch": 0.4236666666666667, "grad_norm": 2.028020143508911, "learning_rate": 1.989665295604666e-05, "loss": 0.7073, "step": 1271 }, { "epoch": 0.424, "grad_norm": 1.9126240015029907, "learning_rate": 1.9896096046383456e-05, "loss": 0.7034, "step": 1272 }, { "epoch": 0.42433333333333334, "grad_norm": 1.9537107944488525, "learning_rate": 1.9895537648066813e-05, "loss": 0.7385, "step": 1273 }, { "epoch": 0.4246666666666667, "grad_norm": 1.9060168266296387, "learning_rate": 1.9894977761180736e-05, "loss": 0.732, "step": 1274 }, { "epoch": 0.425, "grad_norm": 2.057732582092285, "learning_rate": 1.9894416385809444e-05, "loss": 0.7146, "step": 1275 }, { "epoch": 0.42533333333333334, "grad_norm": 1.8836514949798584, "learning_rate": 1.989385352203739e-05, "loss": 0.673, "step": 1276 }, { "epoch": 0.4256666666666667, "grad_norm": 2.012988805770874, "learning_rate": 1.9893289169949237e-05, "loss": 0.6781, "step": 1277 }, { "epoch": 0.426, "grad_norm": 2.0127482414245605, "learning_rate": 1.9892723329629885e-05, "loss": 0.7188, "step": 1278 }, { "epoch": 0.42633333333333334, "grad_norm": 1.9665907621383667, "learning_rate": 1.989215600116445e-05, "loss": 0.6528, "step": 1279 }, { "epoch": 0.4266666666666667, "grad_norm": 1.8513379096984863, "learning_rate": 1.9891587184638274e-05, "loss": 0.6111, "step": 1280 }, { "epoch": 0.427, "grad_norm": 1.9928703308105469, "learning_rate": 1.9891016880136923e-05, "loss": 0.6802, "step": 1281 }, { "epoch": 0.42733333333333334, "grad_norm": 2.0813562870025635, "learning_rate": 1.9890445087746188e-05, "loss": 0.7293, "step": 1282 }, { "epoch": 0.42766666666666664, "grad_norm": 1.800457239151001, "learning_rate": 1.9889871807552082e-05, "loss": 0.6813, "step": 1283 }, { "epoch": 0.428, "grad_norm": 1.8987205028533936, "learning_rate": 1.988929703964084e-05, "loss": 0.744, "step": 1284 }, { "epoch": 0.42833333333333334, "grad_norm": 1.951493263244629, "learning_rate": 1.988872078409893e-05, "loss": 0.6323, "step": 1285 }, { "epoch": 0.42866666666666664, "grad_norm": 1.921602725982666, "learning_rate": 1.9888143041013035e-05, "loss": 0.691, "step": 1286 }, { "epoch": 0.429, "grad_norm": 1.727927327156067, "learning_rate": 1.988756381047006e-05, "loss": 0.6351, "step": 1287 }, { "epoch": 0.42933333333333334, "grad_norm": 1.7842906713485718, "learning_rate": 1.988698309255714e-05, "loss": 0.7099, "step": 1288 }, { "epoch": 0.42966666666666664, "grad_norm": 2.035982370376587, "learning_rate": 1.9886400887361636e-05, "loss": 0.7049, "step": 1289 }, { "epoch": 0.43, "grad_norm": 1.8402166366577148, "learning_rate": 1.9885817194971116e-05, "loss": 0.7086, "step": 1290 }, { "epoch": 0.43033333333333335, "grad_norm": 2.1052823066711426, "learning_rate": 1.9885232015473396e-05, "loss": 0.7287, "step": 1291 }, { "epoch": 0.43066666666666664, "grad_norm": 1.8731765747070312, "learning_rate": 1.9884645348956503e-05, "loss": 0.7141, "step": 1292 }, { "epoch": 0.431, "grad_norm": 2.16485333442688, "learning_rate": 1.9884057195508683e-05, "loss": 0.7211, "step": 1293 }, { "epoch": 0.43133333333333335, "grad_norm": 1.9347325563430786, "learning_rate": 1.9883467555218408e-05, "loss": 0.696, "step": 1294 }, { "epoch": 0.43166666666666664, "grad_norm": 1.7346014976501465, "learning_rate": 1.9882876428174382e-05, "loss": 0.7214, "step": 1295 }, { "epoch": 0.432, "grad_norm": 2.1060562133789062, "learning_rate": 1.988228381446553e-05, "loss": 0.72, "step": 1296 }, { "epoch": 0.43233333333333335, "grad_norm": 1.8218963146209717, "learning_rate": 1.9881689714180993e-05, "loss": 0.6642, "step": 1297 }, { "epoch": 0.43266666666666664, "grad_norm": 2.0010130405426025, "learning_rate": 1.9881094127410142e-05, "loss": 0.7253, "step": 1298 }, { "epoch": 0.433, "grad_norm": 1.6809444427490234, "learning_rate": 1.9880497054242566e-05, "loss": 0.6661, "step": 1299 }, { "epoch": 0.43333333333333335, "grad_norm": 2.0670619010925293, "learning_rate": 1.9879898494768093e-05, "loss": 0.6568, "step": 1300 }, { "epoch": 0.43366666666666664, "grad_norm": 2.077821969985962, "learning_rate": 1.987929844907675e-05, "loss": 0.7047, "step": 1301 }, { "epoch": 0.434, "grad_norm": 2.045119285583496, "learning_rate": 1.987869691725881e-05, "loss": 0.6684, "step": 1302 }, { "epoch": 0.43433333333333335, "grad_norm": 1.6849219799041748, "learning_rate": 1.9878093899404757e-05, "loss": 0.702, "step": 1303 }, { "epoch": 0.43466666666666665, "grad_norm": 1.77828049659729, "learning_rate": 1.9877489395605302e-05, "loss": 0.7379, "step": 1304 }, { "epoch": 0.435, "grad_norm": 1.860720157623291, "learning_rate": 1.9876883405951378e-05, "loss": 0.6722, "step": 1305 }, { "epoch": 0.43533333333333335, "grad_norm": 1.8191590309143066, "learning_rate": 1.987627593053415e-05, "loss": 0.6814, "step": 1306 }, { "epoch": 0.43566666666666665, "grad_norm": 2.08137583732605, "learning_rate": 1.987566696944499e-05, "loss": 0.675, "step": 1307 }, { "epoch": 0.436, "grad_norm": 2.6699843406677246, "learning_rate": 1.9875056522775506e-05, "loss": 0.7518, "step": 1308 }, { "epoch": 0.43633333333333335, "grad_norm": 2.0957603454589844, "learning_rate": 1.9874444590617532e-05, "loss": 0.6574, "step": 1309 }, { "epoch": 0.43666666666666665, "grad_norm": 1.8697842359542847, "learning_rate": 1.9873831173063113e-05, "loss": 0.7318, "step": 1310 }, { "epoch": 0.437, "grad_norm": 1.9547779560089111, "learning_rate": 1.987321627020453e-05, "loss": 0.7104, "step": 1311 }, { "epoch": 0.43733333333333335, "grad_norm": 2.0397307872772217, "learning_rate": 1.9872599882134275e-05, "loss": 0.7688, "step": 1312 }, { "epoch": 0.43766666666666665, "grad_norm": 2.0035712718963623, "learning_rate": 1.9871982008945077e-05, "loss": 0.6405, "step": 1313 }, { "epoch": 0.438, "grad_norm": 1.7544715404510498, "learning_rate": 1.987136265072988e-05, "loss": 0.6277, "step": 1314 }, { "epoch": 0.43833333333333335, "grad_norm": 1.873053789138794, "learning_rate": 1.9870741807581854e-05, "loss": 0.6464, "step": 1315 }, { "epoch": 0.43866666666666665, "grad_norm": 1.927634358406067, "learning_rate": 1.9870119479594385e-05, "loss": 0.6615, "step": 1316 }, { "epoch": 0.439, "grad_norm": 1.9625498056411743, "learning_rate": 1.9869495666861094e-05, "loss": 0.6505, "step": 1317 }, { "epoch": 0.43933333333333335, "grad_norm": 2.30771803855896, "learning_rate": 1.986887036947582e-05, "loss": 0.6929, "step": 1318 }, { "epoch": 0.43966666666666665, "grad_norm": 1.8885747194290161, "learning_rate": 1.986824358753262e-05, "loss": 0.6913, "step": 1319 }, { "epoch": 0.44, "grad_norm": 2.0866029262542725, "learning_rate": 1.9867615321125796e-05, "loss": 0.7241, "step": 1320 }, { "epoch": 0.44033333333333335, "grad_norm": 1.7907589673995972, "learning_rate": 1.986698557034984e-05, "loss": 0.7359, "step": 1321 }, { "epoch": 0.44066666666666665, "grad_norm": 1.8179073333740234, "learning_rate": 1.9866354335299484e-05, "loss": 0.7019, "step": 1322 }, { "epoch": 0.441, "grad_norm": 1.9824146032333374, "learning_rate": 1.9865721616069695e-05, "loss": 0.6948, "step": 1323 }, { "epoch": 0.44133333333333336, "grad_norm": 1.8519065380096436, "learning_rate": 1.9865087412755647e-05, "loss": 0.7196, "step": 1324 }, { "epoch": 0.44166666666666665, "grad_norm": 1.8704299926757812, "learning_rate": 1.986445172545274e-05, "loss": 0.7212, "step": 1325 }, { "epoch": 0.442, "grad_norm": 1.8280761241912842, "learning_rate": 1.98638145542566e-05, "loss": 0.7288, "step": 1326 }, { "epoch": 0.44233333333333336, "grad_norm": 2.020328998565674, "learning_rate": 1.986317589926308e-05, "loss": 0.7166, "step": 1327 }, { "epoch": 0.44266666666666665, "grad_norm": 1.7782689332962036, "learning_rate": 1.9862535760568248e-05, "loss": 0.5532, "step": 1328 }, { "epoch": 0.443, "grad_norm": 1.6900458335876465, "learning_rate": 1.9861894138268402e-05, "loss": 0.6498, "step": 1329 }, { "epoch": 0.44333333333333336, "grad_norm": 2.2514488697052, "learning_rate": 1.9861251032460053e-05, "loss": 0.7473, "step": 1330 }, { "epoch": 0.44366666666666665, "grad_norm": 1.9283860921859741, "learning_rate": 1.9860606443239948e-05, "loss": 0.6648, "step": 1331 }, { "epoch": 0.444, "grad_norm": 1.940816044807434, "learning_rate": 1.985996037070505e-05, "loss": 0.6672, "step": 1332 }, { "epoch": 0.44433333333333336, "grad_norm": 2.0648176670074463, "learning_rate": 1.9859312814952548e-05, "loss": 0.6958, "step": 1333 }, { "epoch": 0.44466666666666665, "grad_norm": 1.8956643342971802, "learning_rate": 1.9858663776079852e-05, "loss": 0.7188, "step": 1334 }, { "epoch": 0.445, "grad_norm": 2.061436653137207, "learning_rate": 1.9858013254184597e-05, "loss": 0.7358, "step": 1335 }, { "epoch": 0.44533333333333336, "grad_norm": 1.8742183446884155, "learning_rate": 1.985736124936464e-05, "loss": 0.7007, "step": 1336 }, { "epoch": 0.44566666666666666, "grad_norm": 2.259061574935913, "learning_rate": 1.9856707761718056e-05, "loss": 0.6884, "step": 1337 }, { "epoch": 0.446, "grad_norm": 1.8501935005187988, "learning_rate": 1.9856052791343153e-05, "loss": 0.6966, "step": 1338 }, { "epoch": 0.44633333333333336, "grad_norm": 1.9011667966842651, "learning_rate": 1.9855396338338456e-05, "loss": 0.7179, "step": 1339 }, { "epoch": 0.44666666666666666, "grad_norm": 2.12760853767395, "learning_rate": 1.9854738402802715e-05, "loss": 0.7283, "step": 1340 }, { "epoch": 0.447, "grad_norm": 1.901779055595398, "learning_rate": 1.9854078984834904e-05, "loss": 0.6705, "step": 1341 }, { "epoch": 0.44733333333333336, "grad_norm": 1.7720332145690918, "learning_rate": 1.985341808453421e-05, "loss": 0.6402, "step": 1342 }, { "epoch": 0.44766666666666666, "grad_norm": 1.7954223155975342, "learning_rate": 1.985275570200006e-05, "loss": 0.5853, "step": 1343 }, { "epoch": 0.448, "grad_norm": 1.6979925632476807, "learning_rate": 1.985209183733209e-05, "loss": 0.6772, "step": 1344 }, { "epoch": 0.4483333333333333, "grad_norm": 1.921673059463501, "learning_rate": 1.9851426490630166e-05, "loss": 0.6342, "step": 1345 }, { "epoch": 0.44866666666666666, "grad_norm": 1.811184287071228, "learning_rate": 1.9850759661994376e-05, "loss": 0.6222, "step": 1346 }, { "epoch": 0.449, "grad_norm": 2.195169448852539, "learning_rate": 1.985009135152503e-05, "loss": 0.7198, "step": 1347 }, { "epoch": 0.4493333333333333, "grad_norm": 1.9610707759857178, "learning_rate": 1.9849421559322656e-05, "loss": 0.7102, "step": 1348 }, { "epoch": 0.44966666666666666, "grad_norm": 1.8301148414611816, "learning_rate": 1.9848750285488015e-05, "loss": 0.6671, "step": 1349 }, { "epoch": 0.45, "grad_norm": 1.9881455898284912, "learning_rate": 1.9848077530122083e-05, "loss": 0.6394, "step": 1350 }, { "epoch": 0.4503333333333333, "grad_norm": 1.930935025215149, "learning_rate": 1.9847403293326064e-05, "loss": 0.6154, "step": 1351 }, { "epoch": 0.45066666666666666, "grad_norm": 2.0322458744049072, "learning_rate": 1.9846727575201377e-05, "loss": 0.6987, "step": 1352 }, { "epoch": 0.451, "grad_norm": 2.011270046234131, "learning_rate": 1.9846050375849674e-05, "loss": 0.6832, "step": 1353 }, { "epoch": 0.4513333333333333, "grad_norm": 1.9188754558563232, "learning_rate": 1.9845371695372825e-05, "loss": 0.6831, "step": 1354 }, { "epoch": 0.45166666666666666, "grad_norm": 2.213665246963501, "learning_rate": 1.9844691533872925e-05, "loss": 0.621, "step": 1355 }, { "epoch": 0.452, "grad_norm": 2.0813636779785156, "learning_rate": 1.984400989145228e-05, "loss": 0.6934, "step": 1356 }, { "epoch": 0.4523333333333333, "grad_norm": 1.9071600437164307, "learning_rate": 1.984332676821344e-05, "loss": 0.6422, "step": 1357 }, { "epoch": 0.45266666666666666, "grad_norm": 2.036325454711914, "learning_rate": 1.9842642164259157e-05, "loss": 0.6687, "step": 1358 }, { "epoch": 0.453, "grad_norm": 2.51990008354187, "learning_rate": 1.984195607969242e-05, "loss": 0.6777, "step": 1359 }, { "epoch": 0.4533333333333333, "grad_norm": 2.158775806427002, "learning_rate": 1.9841268514616434e-05, "loss": 0.6396, "step": 1360 }, { "epoch": 0.45366666666666666, "grad_norm": 1.68404221534729, "learning_rate": 1.984057946913463e-05, "loss": 0.5982, "step": 1361 }, { "epoch": 0.454, "grad_norm": 1.6828266382217407, "learning_rate": 1.9839888943350656e-05, "loss": 0.7057, "step": 1362 }, { "epoch": 0.4543333333333333, "grad_norm": 1.9923990964889526, "learning_rate": 1.983919693736839e-05, "loss": 0.6362, "step": 1363 }, { "epoch": 0.45466666666666666, "grad_norm": 1.7965962886810303, "learning_rate": 1.983850345129193e-05, "loss": 0.6871, "step": 1364 }, { "epoch": 0.455, "grad_norm": 1.9899039268493652, "learning_rate": 1.983780848522559e-05, "loss": 0.6551, "step": 1365 }, { "epoch": 0.4553333333333333, "grad_norm": 1.6898752450942993, "learning_rate": 1.983711203927392e-05, "loss": 0.6322, "step": 1366 }, { "epoch": 0.45566666666666666, "grad_norm": 1.826444149017334, "learning_rate": 1.983641411354168e-05, "loss": 0.7158, "step": 1367 }, { "epoch": 0.456, "grad_norm": 1.785752296447754, "learning_rate": 1.983571470813386e-05, "loss": 0.6319, "step": 1368 }, { "epoch": 0.4563333333333333, "grad_norm": 2.1016714572906494, "learning_rate": 1.9835013823155672e-05, "loss": 0.7206, "step": 1369 }, { "epoch": 0.45666666666666667, "grad_norm": 1.9653794765472412, "learning_rate": 1.9834311458712547e-05, "loss": 0.6707, "step": 1370 }, { "epoch": 0.457, "grad_norm": 2.090902090072632, "learning_rate": 1.983360761491014e-05, "loss": 0.6817, "step": 1371 }, { "epoch": 0.4573333333333333, "grad_norm": 1.7958921194076538, "learning_rate": 1.983290229185433e-05, "loss": 0.6614, "step": 1372 }, { "epoch": 0.45766666666666667, "grad_norm": 1.8548550605773926, "learning_rate": 1.983219548965122e-05, "loss": 0.6687, "step": 1373 }, { "epoch": 0.458, "grad_norm": 2.166870355606079, "learning_rate": 1.9831487208407126e-05, "loss": 0.7071, "step": 1374 }, { "epoch": 0.4583333333333333, "grad_norm": 1.8956162929534912, "learning_rate": 1.9830777448228603e-05, "loss": 0.6668, "step": 1375 }, { "epoch": 0.45866666666666667, "grad_norm": 1.8870850801467896, "learning_rate": 1.983006620922241e-05, "loss": 0.7178, "step": 1376 }, { "epoch": 0.459, "grad_norm": 1.8531335592269897, "learning_rate": 1.9829353491495545e-05, "loss": 0.7143, "step": 1377 }, { "epoch": 0.4593333333333333, "grad_norm": 2.1798031330108643, "learning_rate": 1.9828639295155216e-05, "loss": 0.6836, "step": 1378 }, { "epoch": 0.45966666666666667, "grad_norm": 1.9403362274169922, "learning_rate": 1.982792362030886e-05, "loss": 0.7007, "step": 1379 }, { "epoch": 0.46, "grad_norm": 1.8434151411056519, "learning_rate": 1.9827206467064133e-05, "loss": 0.7469, "step": 1380 }, { "epoch": 0.4603333333333333, "grad_norm": 1.6915580034255981, "learning_rate": 1.982648783552892e-05, "loss": 0.7029, "step": 1381 }, { "epoch": 0.46066666666666667, "grad_norm": 1.653196930885315, "learning_rate": 1.982576772581132e-05, "loss": 0.623, "step": 1382 }, { "epoch": 0.461, "grad_norm": 1.7820712327957153, "learning_rate": 1.9825046138019658e-05, "loss": 0.6236, "step": 1383 }, { "epoch": 0.4613333333333333, "grad_norm": 1.687036395072937, "learning_rate": 1.9824323072262484e-05, "loss": 0.6735, "step": 1384 }, { "epoch": 0.46166666666666667, "grad_norm": 1.6067900657653809, "learning_rate": 1.9823598528648562e-05, "loss": 0.6738, "step": 1385 }, { "epoch": 0.462, "grad_norm": 2.160862922668457, "learning_rate": 1.982287250728689e-05, "loss": 0.6526, "step": 1386 }, { "epoch": 0.4623333333333333, "grad_norm": 2.1040396690368652, "learning_rate": 1.9822145008286677e-05, "loss": 0.663, "step": 1387 }, { "epoch": 0.46266666666666667, "grad_norm": 1.9555909633636475, "learning_rate": 1.9821416031757363e-05, "loss": 0.6385, "step": 1388 }, { "epoch": 0.463, "grad_norm": 2.245298147201538, "learning_rate": 1.9820685577808604e-05, "loss": 0.7028, "step": 1389 }, { "epoch": 0.4633333333333333, "grad_norm": 2.3079652786254883, "learning_rate": 1.9819953646550286e-05, "loss": 0.6341, "step": 1390 }, { "epoch": 0.46366666666666667, "grad_norm": 2.0223679542541504, "learning_rate": 1.9819220238092508e-05, "loss": 0.6913, "step": 1391 }, { "epoch": 0.464, "grad_norm": 2.1179873943328857, "learning_rate": 1.9818485352545595e-05, "loss": 0.6899, "step": 1392 }, { "epoch": 0.4643333333333333, "grad_norm": 1.9284541606903076, "learning_rate": 1.9817748990020094e-05, "loss": 0.6484, "step": 1393 }, { "epoch": 0.4646666666666667, "grad_norm": 2.2100353240966797, "learning_rate": 1.9817011150626778e-05, "loss": 0.7159, "step": 1394 }, { "epoch": 0.465, "grad_norm": 2.032525062561035, "learning_rate": 1.9816271834476642e-05, "loss": 0.6353, "step": 1395 }, { "epoch": 0.4653333333333333, "grad_norm": 2.0000319480895996, "learning_rate": 1.9815531041680894e-05, "loss": 0.6552, "step": 1396 }, { "epoch": 0.4656666666666667, "grad_norm": 1.7106472253799438, "learning_rate": 1.9814788772350966e-05, "loss": 0.691, "step": 1397 }, { "epoch": 0.466, "grad_norm": 1.9210445880889893, "learning_rate": 1.981404502659853e-05, "loss": 0.6508, "step": 1398 }, { "epoch": 0.4663333333333333, "grad_norm": 2.142388105392456, "learning_rate": 1.9813299804535454e-05, "loss": 0.6893, "step": 1399 }, { "epoch": 0.4666666666666667, "grad_norm": 1.980303406715393, "learning_rate": 1.9812553106273848e-05, "loss": 0.6866, "step": 1400 }, { "epoch": 0.467, "grad_norm": 1.7727348804473877, "learning_rate": 1.981180493192603e-05, "loss": 0.6608, "step": 1401 }, { "epoch": 0.4673333333333333, "grad_norm": 1.7487273216247559, "learning_rate": 1.9811055281604558e-05, "loss": 0.6347, "step": 1402 }, { "epoch": 0.4676666666666667, "grad_norm": 2.5802652835845947, "learning_rate": 1.9810304155422187e-05, "loss": 0.7291, "step": 1403 }, { "epoch": 0.468, "grad_norm": 2.004179000854492, "learning_rate": 1.9809551553491918e-05, "loss": 0.6125, "step": 1404 }, { "epoch": 0.4683333333333333, "grad_norm": 2.1982333660125732, "learning_rate": 1.9808797475926957e-05, "loss": 0.6933, "step": 1405 }, { "epoch": 0.4686666666666667, "grad_norm": 2.3151862621307373, "learning_rate": 1.9808041922840742e-05, "loss": 0.7816, "step": 1406 }, { "epoch": 0.469, "grad_norm": 2.0838046073913574, "learning_rate": 1.980728489434693e-05, "loss": 0.6901, "step": 1407 }, { "epoch": 0.4693333333333333, "grad_norm": 1.8020168542861938, "learning_rate": 1.9806526390559396e-05, "loss": 0.6541, "step": 1408 }, { "epoch": 0.4696666666666667, "grad_norm": 1.654340386390686, "learning_rate": 1.980576641159224e-05, "loss": 0.6789, "step": 1409 }, { "epoch": 0.47, "grad_norm": 1.8114802837371826, "learning_rate": 1.9805004957559795e-05, "loss": 0.7194, "step": 1410 }, { "epoch": 0.4703333333333333, "grad_norm": 1.9176132678985596, "learning_rate": 1.9804242028576595e-05, "loss": 0.6424, "step": 1411 }, { "epoch": 0.4706666666666667, "grad_norm": 1.5743498802185059, "learning_rate": 1.9803477624757405e-05, "loss": 0.6493, "step": 1412 }, { "epoch": 0.471, "grad_norm": 2.0517032146453857, "learning_rate": 1.9802711746217222e-05, "loss": 0.663, "step": 1413 }, { "epoch": 0.4713333333333333, "grad_norm": 1.9398175477981567, "learning_rate": 1.9801944393071248e-05, "loss": 0.6418, "step": 1414 }, { "epoch": 0.4716666666666667, "grad_norm": 1.8426593542099, "learning_rate": 1.9801175565434914e-05, "loss": 0.658, "step": 1415 }, { "epoch": 0.472, "grad_norm": 1.8666881322860718, "learning_rate": 1.980040526342388e-05, "loss": 0.649, "step": 1416 }, { "epoch": 0.4723333333333333, "grad_norm": 2.3491907119750977, "learning_rate": 1.9799633487154018e-05, "loss": 0.6917, "step": 1417 }, { "epoch": 0.4726666666666667, "grad_norm": 1.909712791442871, "learning_rate": 1.9798860236741424e-05, "loss": 0.7318, "step": 1418 }, { "epoch": 0.473, "grad_norm": 2.3456530570983887, "learning_rate": 1.9798085512302418e-05, "loss": 0.6892, "step": 1419 }, { "epoch": 0.47333333333333333, "grad_norm": 2.186323881149292, "learning_rate": 1.979730931395354e-05, "loss": 0.6716, "step": 1420 }, { "epoch": 0.4736666666666667, "grad_norm": 1.9680001735687256, "learning_rate": 1.9796531641811552e-05, "loss": 0.6474, "step": 1421 }, { "epoch": 0.474, "grad_norm": 1.8744800090789795, "learning_rate": 1.979575249599344e-05, "loss": 0.5888, "step": 1422 }, { "epoch": 0.47433333333333333, "grad_norm": 1.9113781452178955, "learning_rate": 1.979497187661641e-05, "loss": 0.6781, "step": 1423 }, { "epoch": 0.4746666666666667, "grad_norm": 1.9801160097122192, "learning_rate": 1.9794189783797883e-05, "loss": 0.6683, "step": 1424 }, { "epoch": 0.475, "grad_norm": 2.2956907749176025, "learning_rate": 1.9793406217655516e-05, "loss": 0.7018, "step": 1425 }, { "epoch": 0.47533333333333333, "grad_norm": 2.322943687438965, "learning_rate": 1.9792621178307176e-05, "loss": 0.6629, "step": 1426 }, { "epoch": 0.4756666666666667, "grad_norm": 1.8959424495697021, "learning_rate": 1.9791834665870952e-05, "loss": 0.7036, "step": 1427 }, { "epoch": 0.476, "grad_norm": 1.8679189682006836, "learning_rate": 1.979104668046516e-05, "loss": 0.6789, "step": 1428 }, { "epoch": 0.47633333333333333, "grad_norm": 1.9374725818634033, "learning_rate": 1.979025722220834e-05, "loss": 0.6905, "step": 1429 }, { "epoch": 0.4766666666666667, "grad_norm": 2.015317916870117, "learning_rate": 1.9789466291219246e-05, "loss": 0.7372, "step": 1430 }, { "epoch": 0.477, "grad_norm": 1.9160670042037964, "learning_rate": 1.9788673887616852e-05, "loss": 0.7065, "step": 1431 }, { "epoch": 0.47733333333333333, "grad_norm": 1.5801256895065308, "learning_rate": 1.9787880011520362e-05, "loss": 0.6811, "step": 1432 }, { "epoch": 0.4776666666666667, "grad_norm": 2.149095058441162, "learning_rate": 1.9787084663049197e-05, "loss": 0.6714, "step": 1433 }, { "epoch": 0.478, "grad_norm": 1.976320505142212, "learning_rate": 1.9786287842323002e-05, "loss": 0.6631, "step": 1434 }, { "epoch": 0.47833333333333333, "grad_norm": 1.79742431640625, "learning_rate": 1.9785489549461635e-05, "loss": 0.6393, "step": 1435 }, { "epoch": 0.4786666666666667, "grad_norm": 1.9006325006484985, "learning_rate": 1.9784689784585193e-05, "loss": 0.6029, "step": 1436 }, { "epoch": 0.479, "grad_norm": 1.6346909999847412, "learning_rate": 1.978388854781397e-05, "loss": 0.6016, "step": 1437 }, { "epoch": 0.47933333333333333, "grad_norm": 2.100168228149414, "learning_rate": 1.9783085839268504e-05, "loss": 0.6195, "step": 1438 }, { "epoch": 0.4796666666666667, "grad_norm": 2.111112117767334, "learning_rate": 1.9782281659069543e-05, "loss": 0.5731, "step": 1439 }, { "epoch": 0.48, "grad_norm": 1.8996119499206543, "learning_rate": 1.9781476007338058e-05, "loss": 0.6576, "step": 1440 }, { "epoch": 0.48033333333333333, "grad_norm": 1.852230429649353, "learning_rate": 1.978066888419524e-05, "loss": 0.6483, "step": 1441 }, { "epoch": 0.4806666666666667, "grad_norm": 2.020627021789551, "learning_rate": 1.9779860289762508e-05, "loss": 0.6552, "step": 1442 }, { "epoch": 0.481, "grad_norm": 2.031412363052368, "learning_rate": 1.9779050224161494e-05, "loss": 0.6561, "step": 1443 }, { "epoch": 0.48133333333333334, "grad_norm": 2.32307767868042, "learning_rate": 1.977823868751405e-05, "loss": 0.6986, "step": 1444 }, { "epoch": 0.4816666666666667, "grad_norm": 2.1759982109069824, "learning_rate": 1.9777425679942264e-05, "loss": 0.6348, "step": 1445 }, { "epoch": 0.482, "grad_norm": 1.5488877296447754, "learning_rate": 1.9776611201568434e-05, "loss": 0.6327, "step": 1446 }, { "epoch": 0.48233333333333334, "grad_norm": 1.6190524101257324, "learning_rate": 1.9775795252515075e-05, "loss": 0.6417, "step": 1447 }, { "epoch": 0.4826666666666667, "grad_norm": 1.6427035331726074, "learning_rate": 1.9774977832904926e-05, "loss": 0.583, "step": 1448 }, { "epoch": 0.483, "grad_norm": 1.9521344900131226, "learning_rate": 1.9774158942860962e-05, "loss": 0.6815, "step": 1449 }, { "epoch": 0.48333333333333334, "grad_norm": 1.60467529296875, "learning_rate": 1.9773338582506357e-05, "loss": 0.5949, "step": 1450 }, { "epoch": 0.4836666666666667, "grad_norm": 1.8124815225601196, "learning_rate": 1.9772516751964522e-05, "loss": 0.707, "step": 1451 }, { "epoch": 0.484, "grad_norm": 1.9955579042434692, "learning_rate": 1.977169345135908e-05, "loss": 0.5951, "step": 1452 }, { "epoch": 0.48433333333333334, "grad_norm": 1.7673020362854004, "learning_rate": 1.977086868081388e-05, "loss": 0.653, "step": 1453 }, { "epoch": 0.4846666666666667, "grad_norm": 1.7958984375, "learning_rate": 1.9770042440452996e-05, "loss": 0.6573, "step": 1454 }, { "epoch": 0.485, "grad_norm": 2.1916775703430176, "learning_rate": 1.976921473040071e-05, "loss": 0.7053, "step": 1455 }, { "epoch": 0.48533333333333334, "grad_norm": 1.9179869890213013, "learning_rate": 1.976838555078154e-05, "loss": 0.6249, "step": 1456 }, { "epoch": 0.4856666666666667, "grad_norm": 2.2775440216064453, "learning_rate": 1.976755490172021e-05, "loss": 0.6847, "step": 1457 }, { "epoch": 0.486, "grad_norm": 1.780543565750122, "learning_rate": 1.9766722783341682e-05, "loss": 0.6349, "step": 1458 }, { "epoch": 0.48633333333333334, "grad_norm": 1.8797558546066284, "learning_rate": 1.9765889195771123e-05, "loss": 0.626, "step": 1459 }, { "epoch": 0.4866666666666667, "grad_norm": 2.1305768489837646, "learning_rate": 1.976505413913393e-05, "loss": 0.6737, "step": 1460 }, { "epoch": 0.487, "grad_norm": 1.7141450643539429, "learning_rate": 1.976421761355572e-05, "loss": 0.6279, "step": 1461 }, { "epoch": 0.48733333333333334, "grad_norm": 1.8672692775726318, "learning_rate": 1.9763379619162335e-05, "loss": 0.6278, "step": 1462 }, { "epoch": 0.4876666666666667, "grad_norm": 2.2894818782806396, "learning_rate": 1.976254015607983e-05, "loss": 0.6852, "step": 1463 }, { "epoch": 0.488, "grad_norm": 1.8951503038406372, "learning_rate": 1.9761699224434476e-05, "loss": 0.5891, "step": 1464 }, { "epoch": 0.48833333333333334, "grad_norm": 2.0424888134002686, "learning_rate": 1.9760856824352785e-05, "loss": 0.6068, "step": 1465 }, { "epoch": 0.4886666666666667, "grad_norm": 1.7554185390472412, "learning_rate": 1.976001295596147e-05, "loss": 0.5919, "step": 1466 }, { "epoch": 0.489, "grad_norm": 2.1888723373413086, "learning_rate": 1.9759167619387474e-05, "loss": 0.631, "step": 1467 }, { "epoch": 0.48933333333333334, "grad_norm": 1.9526376724243164, "learning_rate": 1.9758320814757965e-05, "loss": 0.688, "step": 1468 }, { "epoch": 0.48966666666666664, "grad_norm": 1.9912841320037842, "learning_rate": 1.975747254220032e-05, "loss": 0.6224, "step": 1469 }, { "epoch": 0.49, "grad_norm": 1.8170961141586304, "learning_rate": 1.9756622801842144e-05, "loss": 0.6245, "step": 1470 }, { "epoch": 0.49033333333333334, "grad_norm": 1.5866855382919312, "learning_rate": 1.9755771593811267e-05, "loss": 0.6276, "step": 1471 }, { "epoch": 0.49066666666666664, "grad_norm": 1.8722777366638184, "learning_rate": 1.9754918918235728e-05, "loss": 0.6348, "step": 1472 }, { "epoch": 0.491, "grad_norm": 2.033801794052124, "learning_rate": 1.9754064775243797e-05, "loss": 0.6723, "step": 1473 }, { "epoch": 0.49133333333333334, "grad_norm": 1.7681994438171387, "learning_rate": 1.9753209164963963e-05, "loss": 0.6485, "step": 1474 }, { "epoch": 0.49166666666666664, "grad_norm": 1.7863802909851074, "learning_rate": 1.9752352087524934e-05, "loss": 0.6314, "step": 1475 }, { "epoch": 0.492, "grad_norm": 1.962929129600525, "learning_rate": 1.9751493543055634e-05, "loss": 0.6481, "step": 1476 }, { "epoch": 0.49233333333333335, "grad_norm": 2.151395320892334, "learning_rate": 1.9750633531685217e-05, "loss": 0.6528, "step": 1477 }, { "epoch": 0.49266666666666664, "grad_norm": 1.9449567794799805, "learning_rate": 1.9749772053543052e-05, "loss": 0.6666, "step": 1478 }, { "epoch": 0.493, "grad_norm": 1.8920751810073853, "learning_rate": 1.9748909108758727e-05, "loss": 0.6473, "step": 1479 }, { "epoch": 0.49333333333333335, "grad_norm": 2.0353286266326904, "learning_rate": 1.974804469746206e-05, "loss": 0.6407, "step": 1480 }, { "epoch": 0.49366666666666664, "grad_norm": 2.0410566329956055, "learning_rate": 1.9747178819783073e-05, "loss": 0.6383, "step": 1481 }, { "epoch": 0.494, "grad_norm": 1.8987188339233398, "learning_rate": 1.9746311475852028e-05, "loss": 0.6425, "step": 1482 }, { "epoch": 0.49433333333333335, "grad_norm": 1.6842052936553955, "learning_rate": 1.9745442665799393e-05, "loss": 0.6476, "step": 1483 }, { "epoch": 0.49466666666666664, "grad_norm": 2.1094841957092285, "learning_rate": 1.9744572389755862e-05, "loss": 0.6735, "step": 1484 }, { "epoch": 0.495, "grad_norm": 2.2882142066955566, "learning_rate": 1.9743700647852356e-05, "loss": 0.6461, "step": 1485 }, { "epoch": 0.49533333333333335, "grad_norm": 1.911829948425293, "learning_rate": 1.9742827440219998e-05, "loss": 0.6398, "step": 1486 }, { "epoch": 0.49566666666666664, "grad_norm": 1.6513973474502563, "learning_rate": 1.974195276699015e-05, "loss": 0.6406, "step": 1487 }, { "epoch": 0.496, "grad_norm": 1.8832594156265259, "learning_rate": 1.9741076628294387e-05, "loss": 0.6524, "step": 1488 }, { "epoch": 0.49633333333333335, "grad_norm": 1.7673801183700562, "learning_rate": 1.9740199024264507e-05, "loss": 0.6031, "step": 1489 }, { "epoch": 0.49666666666666665, "grad_norm": 1.7620924711227417, "learning_rate": 1.9739319955032522e-05, "loss": 0.6973, "step": 1490 }, { "epoch": 0.497, "grad_norm": 1.8439418077468872, "learning_rate": 1.9738439420730674e-05, "loss": 0.6464, "step": 1491 }, { "epoch": 0.49733333333333335, "grad_norm": 1.908811092376709, "learning_rate": 1.9737557421491416e-05, "loss": 0.6358, "step": 1492 }, { "epoch": 0.49766666666666665, "grad_norm": 1.6806470155715942, "learning_rate": 1.9736673957447425e-05, "loss": 0.661, "step": 1493 }, { "epoch": 0.498, "grad_norm": 1.8169951438903809, "learning_rate": 1.9735789028731603e-05, "loss": 0.6263, "step": 1494 }, { "epoch": 0.49833333333333335, "grad_norm": 1.9627268314361572, "learning_rate": 1.973490263547707e-05, "loss": 0.6322, "step": 1495 }, { "epoch": 0.49866666666666665, "grad_norm": 1.7424577474594116, "learning_rate": 1.9734014777817158e-05, "loss": 0.6625, "step": 1496 }, { "epoch": 0.499, "grad_norm": 1.6921533346176147, "learning_rate": 1.973312545588543e-05, "loss": 0.6767, "step": 1497 }, { "epoch": 0.49933333333333335, "grad_norm": 2.0257160663604736, "learning_rate": 1.9732234669815664e-05, "loss": 0.6789, "step": 1498 }, { "epoch": 0.49966666666666665, "grad_norm": 1.9959834814071655, "learning_rate": 1.973134241974186e-05, "loss": 0.6843, "step": 1499 }, { "epoch": 0.5, "grad_norm": 1.8182226419448853, "learning_rate": 1.973044870579824e-05, "loss": 0.5881, "step": 1500 }, { "epoch": 0.5003333333333333, "grad_norm": 1.7679436206817627, "learning_rate": 1.9729553528119242e-05, "loss": 0.638, "step": 1501 }, { "epoch": 0.5006666666666667, "grad_norm": 1.907412052154541, "learning_rate": 1.9728656886839524e-05, "loss": 0.6322, "step": 1502 }, { "epoch": 0.501, "grad_norm": 1.6640585660934448, "learning_rate": 1.972775878209397e-05, "loss": 0.6236, "step": 1503 }, { "epoch": 0.5013333333333333, "grad_norm": 2.046766996383667, "learning_rate": 1.9726859214017674e-05, "loss": 0.7037, "step": 1504 }, { "epoch": 0.5016666666666667, "grad_norm": 1.9726159572601318, "learning_rate": 1.9725958182745965e-05, "loss": 0.6485, "step": 1505 }, { "epoch": 0.502, "grad_norm": 1.73647141456604, "learning_rate": 1.9725055688414378e-05, "loss": 0.5858, "step": 1506 }, { "epoch": 0.5023333333333333, "grad_norm": 1.9070546627044678, "learning_rate": 1.9724151731158677e-05, "loss": 0.628, "step": 1507 }, { "epoch": 0.5026666666666667, "grad_norm": 1.72099769115448, "learning_rate": 1.972324631111484e-05, "loss": 0.6337, "step": 1508 }, { "epoch": 0.503, "grad_norm": 1.6319507360458374, "learning_rate": 1.972233942841907e-05, "loss": 0.6352, "step": 1509 }, { "epoch": 0.5033333333333333, "grad_norm": 2.0640833377838135, "learning_rate": 1.9721431083207786e-05, "loss": 0.6022, "step": 1510 }, { "epoch": 0.5036666666666667, "grad_norm": 1.812861442565918, "learning_rate": 1.9720521275617632e-05, "loss": 0.6183, "step": 1511 }, { "epoch": 0.504, "grad_norm": 1.857408046722412, "learning_rate": 1.9719610005785466e-05, "loss": 0.6819, "step": 1512 }, { "epoch": 0.5043333333333333, "grad_norm": 2.2589900493621826, "learning_rate": 1.9718697273848367e-05, "loss": 0.6272, "step": 1513 }, { "epoch": 0.5046666666666667, "grad_norm": 1.5754019021987915, "learning_rate": 1.971778307994364e-05, "loss": 0.6399, "step": 1514 }, { "epoch": 0.505, "grad_norm": 2.451218605041504, "learning_rate": 1.9716867424208805e-05, "loss": 0.658, "step": 1515 }, { "epoch": 0.5053333333333333, "grad_norm": 2.1443521976470947, "learning_rate": 1.97159503067816e-05, "loss": 0.6805, "step": 1516 }, { "epoch": 0.5056666666666667, "grad_norm": 2.227971076965332, "learning_rate": 1.9715031727799987e-05, "loss": 0.66, "step": 1517 }, { "epoch": 0.506, "grad_norm": 1.928181767463684, "learning_rate": 1.9714111687402146e-05, "loss": 0.6348, "step": 1518 }, { "epoch": 0.5063333333333333, "grad_norm": 1.7079014778137207, "learning_rate": 1.9713190185726477e-05, "loss": 0.6168, "step": 1519 }, { "epoch": 0.5066666666666667, "grad_norm": 1.9198323488235474, "learning_rate": 1.9712267222911605e-05, "loss": 0.6275, "step": 1520 }, { "epoch": 0.507, "grad_norm": 1.6489073038101196, "learning_rate": 1.971134279909636e-05, "loss": 0.6123, "step": 1521 }, { "epoch": 0.5073333333333333, "grad_norm": 1.7635973691940308, "learning_rate": 1.9710416914419813e-05, "loss": 0.632, "step": 1522 }, { "epoch": 0.5076666666666667, "grad_norm": 1.5478943586349487, "learning_rate": 1.970948956902123e-05, "loss": 0.6417, "step": 1523 }, { "epoch": 0.508, "grad_norm": 2.3248884677886963, "learning_rate": 1.970856076304012e-05, "loss": 0.6955, "step": 1524 }, { "epoch": 0.5083333333333333, "grad_norm": 1.8524372577667236, "learning_rate": 1.9707630496616203e-05, "loss": 0.6481, "step": 1525 }, { "epoch": 0.5086666666666667, "grad_norm": 2.000960111618042, "learning_rate": 1.9706698769889408e-05, "loss": 0.6753, "step": 1526 }, { "epoch": 0.509, "grad_norm": 2.0129053592681885, "learning_rate": 1.97057655829999e-05, "loss": 0.5647, "step": 1527 }, { "epoch": 0.5093333333333333, "grad_norm": 1.852281928062439, "learning_rate": 1.9704830936088054e-05, "loss": 0.6364, "step": 1528 }, { "epoch": 0.5096666666666667, "grad_norm": 1.9210920333862305, "learning_rate": 1.970389482929447e-05, "loss": 0.6505, "step": 1529 }, { "epoch": 0.51, "grad_norm": 2.0947864055633545, "learning_rate": 1.9702957262759964e-05, "loss": 0.7073, "step": 1530 }, { "epoch": 0.5103333333333333, "grad_norm": 1.7672374248504639, "learning_rate": 1.9702018236625574e-05, "loss": 0.6509, "step": 1531 }, { "epoch": 0.5106666666666667, "grad_norm": 1.8520594835281372, "learning_rate": 1.9701077751032554e-05, "loss": 0.6739, "step": 1532 }, { "epoch": 0.511, "grad_norm": 1.7320317029953003, "learning_rate": 1.9700135806122378e-05, "loss": 0.6926, "step": 1533 }, { "epoch": 0.5113333333333333, "grad_norm": 2.039808750152588, "learning_rate": 1.9699192402036746e-05, "loss": 0.6667, "step": 1534 }, { "epoch": 0.5116666666666667, "grad_norm": 1.7506831884384155, "learning_rate": 1.9698247538917566e-05, "loss": 0.6361, "step": 1535 }, { "epoch": 0.512, "grad_norm": 2.2109367847442627, "learning_rate": 1.969730121690698e-05, "loss": 0.5535, "step": 1536 }, { "epoch": 0.5123333333333333, "grad_norm": 1.9266458749771118, "learning_rate": 1.9696353436147336e-05, "loss": 0.6478, "step": 1537 }, { "epoch": 0.5126666666666667, "grad_norm": 1.6849522590637207, "learning_rate": 1.9695404196781206e-05, "loss": 0.6153, "step": 1538 }, { "epoch": 0.513, "grad_norm": 1.9330002069473267, "learning_rate": 1.9694453498951392e-05, "loss": 0.6245, "step": 1539 }, { "epoch": 0.5133333333333333, "grad_norm": 1.9595377445220947, "learning_rate": 1.9693501342800895e-05, "loss": 0.6794, "step": 1540 }, { "epoch": 0.5136666666666667, "grad_norm": 1.915877342224121, "learning_rate": 1.969254772847295e-05, "loss": 0.5826, "step": 1541 }, { "epoch": 0.514, "grad_norm": 1.6439400911331177, "learning_rate": 1.969159265611101e-05, "loss": 0.545, "step": 1542 }, { "epoch": 0.5143333333333333, "grad_norm": 1.7373108863830566, "learning_rate": 1.9690636125858745e-05, "loss": 0.6526, "step": 1543 }, { "epoch": 0.5146666666666667, "grad_norm": 1.8618465662002563, "learning_rate": 1.9689678137860042e-05, "loss": 0.6571, "step": 1544 }, { "epoch": 0.515, "grad_norm": 1.803619384765625, "learning_rate": 1.9688718692259007e-05, "loss": 0.649, "step": 1545 }, { "epoch": 0.5153333333333333, "grad_norm": 1.9556635618209839, "learning_rate": 1.9687757789199974e-05, "loss": 0.6599, "step": 1546 }, { "epoch": 0.5156666666666667, "grad_norm": 1.8580946922302246, "learning_rate": 1.9686795428827488e-05, "loss": 0.6151, "step": 1547 }, { "epoch": 0.516, "grad_norm": 1.6731923818588257, "learning_rate": 1.9685831611286312e-05, "loss": 0.5862, "step": 1548 }, { "epoch": 0.5163333333333333, "grad_norm": 2.005903720855713, "learning_rate": 1.9684866336721437e-05, "loss": 0.6545, "step": 1549 }, { "epoch": 0.5166666666666667, "grad_norm": 1.8832011222839355, "learning_rate": 1.9683899605278062e-05, "loss": 0.6337, "step": 1550 }, { "epoch": 0.517, "grad_norm": 1.7757728099822998, "learning_rate": 1.968293141710161e-05, "loss": 0.6528, "step": 1551 }, { "epoch": 0.5173333333333333, "grad_norm": 2.1345672607421875, "learning_rate": 1.9681961772337732e-05, "loss": 0.6239, "step": 1552 }, { "epoch": 0.5176666666666667, "grad_norm": 2.013556718826294, "learning_rate": 1.9680990671132284e-05, "loss": 0.6872, "step": 1553 }, { "epoch": 0.518, "grad_norm": 1.6996722221374512, "learning_rate": 1.9680018113631347e-05, "loss": 0.6324, "step": 1554 }, { "epoch": 0.5183333333333333, "grad_norm": 1.9999409914016724, "learning_rate": 1.9679044099981227e-05, "loss": 0.7106, "step": 1555 }, { "epoch": 0.5186666666666667, "grad_norm": 2.2257473468780518, "learning_rate": 1.9678068630328434e-05, "loss": 0.674, "step": 1556 }, { "epoch": 0.519, "grad_norm": 2.081480026245117, "learning_rate": 1.9677091704819714e-05, "loss": 0.6265, "step": 1557 }, { "epoch": 0.5193333333333333, "grad_norm": 1.6854099035263062, "learning_rate": 1.967611332360202e-05, "loss": 0.6688, "step": 1558 }, { "epoch": 0.5196666666666667, "grad_norm": 2.038602828979492, "learning_rate": 1.967513348682253e-05, "loss": 0.6343, "step": 1559 }, { "epoch": 0.52, "grad_norm": 1.6272858381271362, "learning_rate": 1.967415219462864e-05, "loss": 0.6125, "step": 1560 }, { "epoch": 0.5203333333333333, "grad_norm": 1.7890996932983398, "learning_rate": 1.9673169447167963e-05, "loss": 0.6599, "step": 1561 }, { "epoch": 0.5206666666666667, "grad_norm": 1.8290977478027344, "learning_rate": 1.9672185244588333e-05, "loss": 0.5974, "step": 1562 }, { "epoch": 0.521, "grad_norm": 2.068333625793457, "learning_rate": 1.96711995870378e-05, "loss": 0.6377, "step": 1563 }, { "epoch": 0.5213333333333333, "grad_norm": 1.8811323642730713, "learning_rate": 1.967021247466464e-05, "loss": 0.6769, "step": 1564 }, { "epoch": 0.5216666666666666, "grad_norm": 2.028862237930298, "learning_rate": 1.9669223907617332e-05, "loss": 0.624, "step": 1565 }, { "epoch": 0.522, "grad_norm": 1.6857810020446777, "learning_rate": 1.9668233886044597e-05, "loss": 0.6313, "step": 1566 }, { "epoch": 0.5223333333333333, "grad_norm": 1.9072877168655396, "learning_rate": 1.9667242410095354e-05, "loss": 0.6642, "step": 1567 }, { "epoch": 0.5226666666666666, "grad_norm": 1.7955948114395142, "learning_rate": 1.966624947991875e-05, "loss": 0.6711, "step": 1568 }, { "epoch": 0.523, "grad_norm": 2.185159206390381, "learning_rate": 1.9665255095664155e-05, "loss": 0.6731, "step": 1569 }, { "epoch": 0.5233333333333333, "grad_norm": 1.6590155363082886, "learning_rate": 1.966425925748115e-05, "loss": 0.6616, "step": 1570 }, { "epoch": 0.5236666666666666, "grad_norm": 1.696923851966858, "learning_rate": 1.966326196551953e-05, "loss": 0.6243, "step": 1571 }, { "epoch": 0.524, "grad_norm": 2.163553237915039, "learning_rate": 1.966226321992933e-05, "loss": 0.614, "step": 1572 }, { "epoch": 0.5243333333333333, "grad_norm": 2.172642707824707, "learning_rate": 1.9661263020860778e-05, "loss": 0.6849, "step": 1573 }, { "epoch": 0.5246666666666666, "grad_norm": 1.8500328063964844, "learning_rate": 1.966026136846434e-05, "loss": 0.6585, "step": 1574 }, { "epoch": 0.525, "grad_norm": 2.040909767150879, "learning_rate": 1.9659258262890683e-05, "loss": 0.6497, "step": 1575 }, { "epoch": 0.5253333333333333, "grad_norm": 1.7700321674346924, "learning_rate": 1.9658253704290714e-05, "loss": 0.6455, "step": 1576 }, { "epoch": 0.5256666666666666, "grad_norm": 1.9276682138442993, "learning_rate": 1.965724769281554e-05, "loss": 0.6007, "step": 1577 }, { "epoch": 0.526, "grad_norm": 1.6055076122283936, "learning_rate": 1.9656240228616496e-05, "loss": 0.6327, "step": 1578 }, { "epoch": 0.5263333333333333, "grad_norm": 1.7786095142364502, "learning_rate": 1.9655231311845133e-05, "loss": 0.5515, "step": 1579 }, { "epoch": 0.5266666666666666, "grad_norm": 1.7766258716583252, "learning_rate": 1.9654220942653223e-05, "loss": 0.6542, "step": 1580 }, { "epoch": 0.527, "grad_norm": 2.3650197982788086, "learning_rate": 1.9653209121192747e-05, "loss": 0.6212, "step": 1581 }, { "epoch": 0.5273333333333333, "grad_norm": 1.9718446731567383, "learning_rate": 1.965219584761592e-05, "loss": 0.6207, "step": 1582 }, { "epoch": 0.5276666666666666, "grad_norm": 1.8835598230361938, "learning_rate": 1.965118112207516e-05, "loss": 0.6163, "step": 1583 }, { "epoch": 0.528, "grad_norm": 1.9946832656860352, "learning_rate": 1.9650164944723116e-05, "loss": 0.6261, "step": 1584 }, { "epoch": 0.5283333333333333, "grad_norm": 1.8915408849716187, "learning_rate": 1.964914731571265e-05, "loss": 0.6402, "step": 1585 }, { "epoch": 0.5286666666666666, "grad_norm": 1.9487885236740112, "learning_rate": 1.9648128235196834e-05, "loss": 0.6289, "step": 1586 }, { "epoch": 0.529, "grad_norm": 2.508463144302368, "learning_rate": 1.964710770332898e-05, "loss": 0.7031, "step": 1587 }, { "epoch": 0.5293333333333333, "grad_norm": 2.087002992630005, "learning_rate": 1.9646085720262592e-05, "loss": 0.5803, "step": 1588 }, { "epoch": 0.5296666666666666, "grad_norm": 1.7754368782043457, "learning_rate": 1.964506228615141e-05, "loss": 0.6295, "step": 1589 }, { "epoch": 0.53, "grad_norm": 1.9283117055892944, "learning_rate": 1.964403740114939e-05, "loss": 0.6123, "step": 1590 }, { "epoch": 0.5303333333333333, "grad_norm": 1.5470919609069824, "learning_rate": 1.96430110654107e-05, "loss": 0.6553, "step": 1591 }, { "epoch": 0.5306666666666666, "grad_norm": 1.9947867393493652, "learning_rate": 1.964198327908974e-05, "loss": 0.6372, "step": 1592 }, { "epoch": 0.531, "grad_norm": 1.7214818000793457, "learning_rate": 1.96409540423411e-05, "loss": 0.6263, "step": 1593 }, { "epoch": 0.5313333333333333, "grad_norm": 1.577235460281372, "learning_rate": 1.9639923355319626e-05, "loss": 0.6253, "step": 1594 }, { "epoch": 0.5316666666666666, "grad_norm": 1.8039931058883667, "learning_rate": 1.9638891218180347e-05, "loss": 0.5728, "step": 1595 }, { "epoch": 0.532, "grad_norm": 2.045414447784424, "learning_rate": 1.9637857631078532e-05, "loss": 0.6345, "step": 1596 }, { "epoch": 0.5323333333333333, "grad_norm": 2.5339279174804688, "learning_rate": 1.9636822594169663e-05, "loss": 0.6742, "step": 1597 }, { "epoch": 0.5326666666666666, "grad_norm": 1.6357758045196533, "learning_rate": 1.9635786107609438e-05, "loss": 0.6888, "step": 1598 }, { "epoch": 0.533, "grad_norm": 2.0595452785491943, "learning_rate": 1.9634748171553775e-05, "loss": 0.6139, "step": 1599 }, { "epoch": 0.5333333333333333, "grad_norm": 2.1297261714935303, "learning_rate": 1.9633708786158803e-05, "loss": 0.677, "step": 1600 }, { "epoch": 0.5336666666666666, "grad_norm": 2.172912120819092, "learning_rate": 1.9632667951580885e-05, "loss": 0.6137, "step": 1601 }, { "epoch": 0.534, "grad_norm": 1.7834558486938477, "learning_rate": 1.9631625667976584e-05, "loss": 0.6638, "step": 1602 }, { "epoch": 0.5343333333333333, "grad_norm": 1.822911262512207, "learning_rate": 1.9630581935502692e-05, "loss": 0.6098, "step": 1603 }, { "epoch": 0.5346666666666666, "grad_norm": 1.6034448146820068, "learning_rate": 1.9629536754316213e-05, "loss": 0.6658, "step": 1604 }, { "epoch": 0.535, "grad_norm": 1.6959445476531982, "learning_rate": 1.962849012457438e-05, "loss": 0.6331, "step": 1605 }, { "epoch": 0.5353333333333333, "grad_norm": 1.6960105895996094, "learning_rate": 1.9627442046434623e-05, "loss": 0.6424, "step": 1606 }, { "epoch": 0.5356666666666666, "grad_norm": 1.9820947647094727, "learning_rate": 1.9626392520054615e-05, "loss": 0.6598, "step": 1607 }, { "epoch": 0.536, "grad_norm": 1.9339913129806519, "learning_rate": 1.9625341545592226e-05, "loss": 0.6381, "step": 1608 }, { "epoch": 0.5363333333333333, "grad_norm": 1.8806525468826294, "learning_rate": 1.962428912320556e-05, "loss": 0.6312, "step": 1609 }, { "epoch": 0.5366666666666666, "grad_norm": 2.488509178161621, "learning_rate": 1.9623235253052924e-05, "loss": 0.6491, "step": 1610 }, { "epoch": 0.537, "grad_norm": 1.9925320148468018, "learning_rate": 1.9622179935292855e-05, "loss": 0.6428, "step": 1611 }, { "epoch": 0.5373333333333333, "grad_norm": 1.9293164014816284, "learning_rate": 1.96211231700841e-05, "loss": 0.5938, "step": 1612 }, { "epoch": 0.5376666666666666, "grad_norm": 1.8740019798278809, "learning_rate": 1.9620064957585624e-05, "loss": 0.6469, "step": 1613 }, { "epoch": 0.538, "grad_norm": 2.2037343978881836, "learning_rate": 1.9619005297956623e-05, "loss": 0.6617, "step": 1614 }, { "epoch": 0.5383333333333333, "grad_norm": 2.116955041885376, "learning_rate": 1.9617944191356484e-05, "loss": 0.6625, "step": 1615 }, { "epoch": 0.5386666666666666, "grad_norm": 2.1342883110046387, "learning_rate": 1.961688163794484e-05, "loss": 0.6639, "step": 1616 }, { "epoch": 0.539, "grad_norm": 1.755620002746582, "learning_rate": 1.961581763788152e-05, "loss": 0.5735, "step": 1617 }, { "epoch": 0.5393333333333333, "grad_norm": 1.6629055738449097, "learning_rate": 1.961475219132659e-05, "loss": 0.675, "step": 1618 }, { "epoch": 0.5396666666666666, "grad_norm": 1.928382396697998, "learning_rate": 1.9613685298440316e-05, "loss": 0.6364, "step": 1619 }, { "epoch": 0.54, "grad_norm": 2.0127291679382324, "learning_rate": 1.961261695938319e-05, "loss": 0.585, "step": 1620 }, { "epoch": 0.5403333333333333, "grad_norm": 2.1117098331451416, "learning_rate": 1.961154717431592e-05, "loss": 0.5318, "step": 1621 }, { "epoch": 0.5406666666666666, "grad_norm": 1.8726224899291992, "learning_rate": 1.9610475943399438e-05, "loss": 0.5847, "step": 1622 }, { "epoch": 0.541, "grad_norm": 2.643831968307495, "learning_rate": 1.960940326679488e-05, "loss": 0.6759, "step": 1623 }, { "epoch": 0.5413333333333333, "grad_norm": 1.972240686416626, "learning_rate": 1.9608329144663608e-05, "loss": 0.6374, "step": 1624 }, { "epoch": 0.5416666666666666, "grad_norm": 1.682742953300476, "learning_rate": 1.9607253577167206e-05, "loss": 0.6237, "step": 1625 }, { "epoch": 0.542, "grad_norm": 1.9804433584213257, "learning_rate": 1.9606176564467465e-05, "loss": 0.6351, "step": 1626 }, { "epoch": 0.5423333333333333, "grad_norm": 2.0696895122528076, "learning_rate": 1.96050981067264e-05, "loss": 0.6607, "step": 1627 }, { "epoch": 0.5426666666666666, "grad_norm": 1.8089479207992554, "learning_rate": 1.960401820410624e-05, "loss": 0.6342, "step": 1628 }, { "epoch": 0.543, "grad_norm": 2.082751750946045, "learning_rate": 1.9602936856769432e-05, "loss": 0.6036, "step": 1629 }, { "epoch": 0.5433333333333333, "grad_norm": 1.9603283405303955, "learning_rate": 1.9601854064878645e-05, "loss": 0.6578, "step": 1630 }, { "epoch": 0.5436666666666666, "grad_norm": 1.8656306266784668, "learning_rate": 1.960076982859676e-05, "loss": 0.6098, "step": 1631 }, { "epoch": 0.544, "grad_norm": 1.7603955268859863, "learning_rate": 1.9599684148086876e-05, "loss": 0.6798, "step": 1632 }, { "epoch": 0.5443333333333333, "grad_norm": 1.7437418699264526, "learning_rate": 1.9598597023512314e-05, "loss": 0.6603, "step": 1633 }, { "epoch": 0.5446666666666666, "grad_norm": 1.708509087562561, "learning_rate": 1.95975084550366e-05, "loss": 0.6573, "step": 1634 }, { "epoch": 0.545, "grad_norm": 1.7036538124084473, "learning_rate": 1.9596418442823495e-05, "loss": 0.6694, "step": 1635 }, { "epoch": 0.5453333333333333, "grad_norm": 1.8595207929611206, "learning_rate": 1.9595326987036963e-05, "loss": 0.6749, "step": 1636 }, { "epoch": 0.5456666666666666, "grad_norm": 2.0527331829071045, "learning_rate": 1.959423408784119e-05, "loss": 0.6088, "step": 1637 }, { "epoch": 0.546, "grad_norm": 1.865770936012268, "learning_rate": 1.9593139745400575e-05, "loss": 0.5789, "step": 1638 }, { "epoch": 0.5463333333333333, "grad_norm": 1.7031164169311523, "learning_rate": 1.9592043959879748e-05, "loss": 0.5208, "step": 1639 }, { "epoch": 0.5466666666666666, "grad_norm": 2.496699571609497, "learning_rate": 1.959094673144354e-05, "loss": 0.6037, "step": 1640 }, { "epoch": 0.547, "grad_norm": 1.8879956007003784, "learning_rate": 1.9589848060257007e-05, "loss": 0.6305, "step": 1641 }, { "epoch": 0.5473333333333333, "grad_norm": 1.668976068496704, "learning_rate": 1.9588747946485416e-05, "loss": 0.5977, "step": 1642 }, { "epoch": 0.5476666666666666, "grad_norm": 1.7850587368011475, "learning_rate": 1.958764639029426e-05, "loss": 0.595, "step": 1643 }, { "epoch": 0.548, "grad_norm": 1.8291398286819458, "learning_rate": 1.9586543391849243e-05, "loss": 0.6518, "step": 1644 }, { "epoch": 0.5483333333333333, "grad_norm": 1.9565821886062622, "learning_rate": 1.9585438951316287e-05, "loss": 0.6327, "step": 1645 }, { "epoch": 0.5486666666666666, "grad_norm": 1.7072407007217407, "learning_rate": 1.9584333068861534e-05, "loss": 0.6081, "step": 1646 }, { "epoch": 0.549, "grad_norm": 1.775394320487976, "learning_rate": 1.9583225744651334e-05, "loss": 0.6271, "step": 1647 }, { "epoch": 0.5493333333333333, "grad_norm": 1.7564334869384766, "learning_rate": 1.9582116978852267e-05, "loss": 0.6275, "step": 1648 }, { "epoch": 0.5496666666666666, "grad_norm": 2.058332920074463, "learning_rate": 1.9581006771631115e-05, "loss": 0.6308, "step": 1649 }, { "epoch": 0.55, "grad_norm": 1.9339680671691895, "learning_rate": 1.957989512315489e-05, "loss": 0.6183, "step": 1650 }, { "epoch": 0.5503333333333333, "grad_norm": 1.6192432641983032, "learning_rate": 1.9578782033590816e-05, "loss": 0.5633, "step": 1651 }, { "epoch": 0.5506666666666666, "grad_norm": 1.9904814958572388, "learning_rate": 1.957766750310633e-05, "loss": 0.6617, "step": 1652 }, { "epoch": 0.551, "grad_norm": 1.8263285160064697, "learning_rate": 1.9576551531869092e-05, "loss": 0.6192, "step": 1653 }, { "epoch": 0.5513333333333333, "grad_norm": 2.196697473526001, "learning_rate": 1.9575434120046973e-05, "loss": 0.6526, "step": 1654 }, { "epoch": 0.5516666666666666, "grad_norm": 1.706146001815796, "learning_rate": 1.9574315267808065e-05, "loss": 0.6335, "step": 1655 }, { "epoch": 0.552, "grad_norm": 1.9411975145339966, "learning_rate": 1.9573194975320672e-05, "loss": 0.5927, "step": 1656 }, { "epoch": 0.5523333333333333, "grad_norm": 1.8517659902572632, "learning_rate": 1.9572073242753325e-05, "loss": 0.673, "step": 1657 }, { "epoch": 0.5526666666666666, "grad_norm": 1.665051817893982, "learning_rate": 1.957095007027476e-05, "loss": 0.5876, "step": 1658 }, { "epoch": 0.553, "grad_norm": 2.0442590713500977, "learning_rate": 1.956982545805393e-05, "loss": 0.5888, "step": 1659 }, { "epoch": 0.5533333333333333, "grad_norm": 1.6903780698776245, "learning_rate": 1.9568699406260016e-05, "loss": 0.6303, "step": 1660 }, { "epoch": 0.5536666666666666, "grad_norm": 1.6542539596557617, "learning_rate": 1.95675719150624e-05, "loss": 0.5999, "step": 1661 }, { "epoch": 0.554, "grad_norm": 1.8502190113067627, "learning_rate": 1.95664429846307e-05, "loss": 0.7135, "step": 1662 }, { "epoch": 0.5543333333333333, "grad_norm": 1.5312790870666504, "learning_rate": 1.9565312615134727e-05, "loss": 0.6897, "step": 1663 }, { "epoch": 0.5546666666666666, "grad_norm": 2.405555248260498, "learning_rate": 1.9564180806744527e-05, "loss": 0.6539, "step": 1664 }, { "epoch": 0.555, "grad_norm": 2.1204631328582764, "learning_rate": 1.9563047559630356e-05, "loss": 0.6366, "step": 1665 }, { "epoch": 0.5553333333333333, "grad_norm": 1.760364055633545, "learning_rate": 1.956191287396269e-05, "loss": 0.6378, "step": 1666 }, { "epoch": 0.5556666666666666, "grad_norm": 2.192199945449829, "learning_rate": 1.9560776749912206e-05, "loss": 0.5857, "step": 1667 }, { "epoch": 0.556, "grad_norm": 1.9522086381912231, "learning_rate": 1.9559639187649817e-05, "loss": 0.5809, "step": 1668 }, { "epoch": 0.5563333333333333, "grad_norm": 2.127303123474121, "learning_rate": 1.9558500187346648e-05, "loss": 0.6526, "step": 1669 }, { "epoch": 0.5566666666666666, "grad_norm": 1.875011682510376, "learning_rate": 1.9557359749174033e-05, "loss": 0.6537, "step": 1670 }, { "epoch": 0.557, "grad_norm": 2.0953292846679688, "learning_rate": 1.9556217873303526e-05, "loss": 0.6679, "step": 1671 }, { "epoch": 0.5573333333333333, "grad_norm": 2.068255662918091, "learning_rate": 1.9555074559906895e-05, "loss": 0.6402, "step": 1672 }, { "epoch": 0.5576666666666666, "grad_norm": 1.7696409225463867, "learning_rate": 1.9553929809156133e-05, "loss": 0.5557, "step": 1673 }, { "epoch": 0.558, "grad_norm": 1.7375173568725586, "learning_rate": 1.9552783621223437e-05, "loss": 0.6532, "step": 1674 }, { "epoch": 0.5583333333333333, "grad_norm": 2.1154677867889404, "learning_rate": 1.955163599628123e-05, "loss": 0.6776, "step": 1675 }, { "epoch": 0.5586666666666666, "grad_norm": 1.7167587280273438, "learning_rate": 1.9550486934502147e-05, "loss": 0.6298, "step": 1676 }, { "epoch": 0.559, "grad_norm": 2.209012031555176, "learning_rate": 1.954933643605904e-05, "loss": 0.6073, "step": 1677 }, { "epoch": 0.5593333333333333, "grad_norm": 1.5930330753326416, "learning_rate": 1.9548184501124976e-05, "loss": 0.6163, "step": 1678 }, { "epoch": 0.5596666666666666, "grad_norm": 2.1310362815856934, "learning_rate": 1.9547031129873237e-05, "loss": 0.6239, "step": 1679 }, { "epoch": 0.56, "grad_norm": 1.711143136024475, "learning_rate": 1.954587632247732e-05, "loss": 0.6199, "step": 1680 }, { "epoch": 0.5603333333333333, "grad_norm": 1.9387654066085815, "learning_rate": 1.9544720079110947e-05, "loss": 0.6104, "step": 1681 }, { "epoch": 0.5606666666666666, "grad_norm": 2.1449410915374756, "learning_rate": 1.954356239994805e-05, "loss": 0.5848, "step": 1682 }, { "epoch": 0.561, "grad_norm": 1.81890070438385, "learning_rate": 1.954240328516277e-05, "loss": 0.599, "step": 1683 }, { "epoch": 0.5613333333333334, "grad_norm": 1.9014817476272583, "learning_rate": 1.954124273492948e-05, "loss": 0.6318, "step": 1684 }, { "epoch": 0.5616666666666666, "grad_norm": 2.107100486755371, "learning_rate": 1.954008074942275e-05, "loss": 0.6376, "step": 1685 }, { "epoch": 0.562, "grad_norm": 1.8284448385238647, "learning_rate": 1.9538917328817377e-05, "loss": 0.654, "step": 1686 }, { "epoch": 0.5623333333333334, "grad_norm": 1.6034879684448242, "learning_rate": 1.953775247328838e-05, "loss": 0.6146, "step": 1687 }, { "epoch": 0.5626666666666666, "grad_norm": 1.7626359462738037, "learning_rate": 1.9536586183010982e-05, "loss": 0.605, "step": 1688 }, { "epoch": 0.563, "grad_norm": 1.7561988830566406, "learning_rate": 1.9535418458160625e-05, "loss": 0.6126, "step": 1689 }, { "epoch": 0.5633333333333334, "grad_norm": 1.76913583278656, "learning_rate": 1.9534249298912968e-05, "loss": 0.6193, "step": 1690 }, { "epoch": 0.5636666666666666, "grad_norm": 1.7890424728393555, "learning_rate": 1.9533078705443886e-05, "loss": 0.6369, "step": 1691 }, { "epoch": 0.564, "grad_norm": 1.7978370189666748, "learning_rate": 1.9531906677929472e-05, "loss": 0.6421, "step": 1692 }, { "epoch": 0.5643333333333334, "grad_norm": 1.816301941871643, "learning_rate": 1.953073321654603e-05, "loss": 0.6067, "step": 1693 }, { "epoch": 0.5646666666666667, "grad_norm": 1.812625765800476, "learning_rate": 1.952955832147008e-05, "loss": 0.6725, "step": 1694 }, { "epoch": 0.565, "grad_norm": 1.6897550821304321, "learning_rate": 1.9528381992878362e-05, "loss": 0.6492, "step": 1695 }, { "epoch": 0.5653333333333334, "grad_norm": 1.692525029182434, "learning_rate": 1.952720423094783e-05, "loss": 0.6078, "step": 1696 }, { "epoch": 0.5656666666666667, "grad_norm": 1.6065727472305298, "learning_rate": 1.952602503585565e-05, "loss": 0.5856, "step": 1697 }, { "epoch": 0.566, "grad_norm": 1.7335922718048096, "learning_rate": 1.9524844407779208e-05, "loss": 0.6115, "step": 1698 }, { "epoch": 0.5663333333333334, "grad_norm": 1.8705300092697144, "learning_rate": 1.9523662346896106e-05, "loss": 0.6355, "step": 1699 }, { "epoch": 0.5666666666666667, "grad_norm": 1.8413997888565063, "learning_rate": 1.9522478853384154e-05, "loss": 0.6659, "step": 1700 }, { "epoch": 0.567, "grad_norm": 2.0737459659576416, "learning_rate": 1.9521293927421388e-05, "loss": 0.6726, "step": 1701 }, { "epoch": 0.5673333333333334, "grad_norm": 1.7663267850875854, "learning_rate": 1.9520107569186055e-05, "loss": 0.5838, "step": 1702 }, { "epoch": 0.5676666666666667, "grad_norm": 1.7571055889129639, "learning_rate": 1.951891977885661e-05, "loss": 0.6116, "step": 1703 }, { "epoch": 0.568, "grad_norm": 1.8886364698410034, "learning_rate": 1.951773055661174e-05, "loss": 0.6264, "step": 1704 }, { "epoch": 0.5683333333333334, "grad_norm": 1.9208767414093018, "learning_rate": 1.951653990263033e-05, "loss": 0.6497, "step": 1705 }, { "epoch": 0.5686666666666667, "grad_norm": 2.0346057415008545, "learning_rate": 1.951534781709149e-05, "loss": 0.5965, "step": 1706 }, { "epoch": 0.569, "grad_norm": 1.8076273202896118, "learning_rate": 1.9514154300174542e-05, "loss": 0.5753, "step": 1707 }, { "epoch": 0.5693333333333334, "grad_norm": 1.7225615978240967, "learning_rate": 1.951295935205903e-05, "loss": 0.6763, "step": 1708 }, { "epoch": 0.5696666666666667, "grad_norm": 1.7665646076202393, "learning_rate": 1.9511762972924708e-05, "loss": 0.6242, "step": 1709 }, { "epoch": 0.57, "grad_norm": 1.8659073114395142, "learning_rate": 1.9510565162951538e-05, "loss": 0.5855, "step": 1710 }, { "epoch": 0.5703333333333334, "grad_norm": 1.553205966949463, "learning_rate": 1.950936592231971e-05, "loss": 0.6498, "step": 1711 }, { "epoch": 0.5706666666666667, "grad_norm": 1.7895482778549194, "learning_rate": 1.9508165251209625e-05, "loss": 0.6226, "step": 1712 }, { "epoch": 0.571, "grad_norm": 1.78269362449646, "learning_rate": 1.9506963149801894e-05, "loss": 0.5935, "step": 1713 }, { "epoch": 0.5713333333333334, "grad_norm": 1.88308584690094, "learning_rate": 1.9505759618277348e-05, "loss": 0.5581, "step": 1714 }, { "epoch": 0.5716666666666667, "grad_norm": 1.6667143106460571, "learning_rate": 1.9504554656817036e-05, "loss": 0.5831, "step": 1715 }, { "epoch": 0.572, "grad_norm": 1.7493493556976318, "learning_rate": 1.9503348265602212e-05, "loss": 0.6069, "step": 1716 }, { "epoch": 0.5723333333333334, "grad_norm": 1.647140622138977, "learning_rate": 1.950214044481436e-05, "loss": 0.5752, "step": 1717 }, { "epoch": 0.5726666666666667, "grad_norm": 1.5564192533493042, "learning_rate": 1.950093119463516e-05, "loss": 0.635, "step": 1718 }, { "epoch": 0.573, "grad_norm": 1.666658639907837, "learning_rate": 1.9499720515246524e-05, "loss": 0.6063, "step": 1719 }, { "epoch": 0.5733333333333334, "grad_norm": 1.5844146013259888, "learning_rate": 1.9498508406830577e-05, "loss": 0.6121, "step": 1720 }, { "epoch": 0.5736666666666667, "grad_norm": 2.0627198219299316, "learning_rate": 1.9497294869569645e-05, "loss": 0.5796, "step": 1721 }, { "epoch": 0.574, "grad_norm": 1.77592933177948, "learning_rate": 1.9496079903646282e-05, "loss": 0.5892, "step": 1722 }, { "epoch": 0.5743333333333334, "grad_norm": 1.7663394212722778, "learning_rate": 1.9494863509243256e-05, "loss": 0.5807, "step": 1723 }, { "epoch": 0.5746666666666667, "grad_norm": 2.245249032974243, "learning_rate": 1.9493645686543544e-05, "loss": 0.6577, "step": 1724 }, { "epoch": 0.575, "grad_norm": 2.3905038833618164, "learning_rate": 1.949242643573034e-05, "loss": 0.6141, "step": 1725 }, { "epoch": 0.5753333333333334, "grad_norm": 2.1567630767822266, "learning_rate": 1.949120575698706e-05, "loss": 0.6545, "step": 1726 }, { "epoch": 0.5756666666666667, "grad_norm": 1.7633922100067139, "learning_rate": 1.948998365049732e-05, "loss": 0.5928, "step": 1727 }, { "epoch": 0.576, "grad_norm": 2.126485586166382, "learning_rate": 1.9488760116444966e-05, "loss": 0.6462, "step": 1728 }, { "epoch": 0.5763333333333334, "grad_norm": 1.8753278255462646, "learning_rate": 1.948753515501405e-05, "loss": 0.6057, "step": 1729 }, { "epoch": 0.5766666666666667, "grad_norm": 2.3660531044006348, "learning_rate": 1.9486308766388843e-05, "loss": 0.5899, "step": 1730 }, { "epoch": 0.577, "grad_norm": 2.022672414779663, "learning_rate": 1.948508095075383e-05, "loss": 0.6084, "step": 1731 }, { "epoch": 0.5773333333333334, "grad_norm": 1.7935826778411865, "learning_rate": 1.9483851708293698e-05, "loss": 0.5739, "step": 1732 }, { "epoch": 0.5776666666666667, "grad_norm": 2.110163927078247, "learning_rate": 1.9482621039193373e-05, "loss": 0.6015, "step": 1733 }, { "epoch": 0.578, "grad_norm": 2.293452262878418, "learning_rate": 1.9481388943637976e-05, "loss": 0.646, "step": 1734 }, { "epoch": 0.5783333333333334, "grad_norm": 2.1924822330474854, "learning_rate": 1.948015542181285e-05, "loss": 0.554, "step": 1735 }, { "epoch": 0.5786666666666667, "grad_norm": 1.8692923784255981, "learning_rate": 1.9478920473903555e-05, "loss": 0.5968, "step": 1736 }, { "epoch": 0.579, "grad_norm": 1.6017380952835083, "learning_rate": 1.947768410009586e-05, "loss": 0.6658, "step": 1737 }, { "epoch": 0.5793333333333334, "grad_norm": 1.772155523300171, "learning_rate": 1.9476446300575748e-05, "loss": 0.6041, "step": 1738 }, { "epoch": 0.5796666666666667, "grad_norm": 1.7174969911575317, "learning_rate": 1.947520707552942e-05, "loss": 0.6602, "step": 1739 }, { "epoch": 0.58, "grad_norm": 1.9706426858901978, "learning_rate": 1.9473966425143292e-05, "loss": 0.6525, "step": 1740 }, { "epoch": 0.5803333333333334, "grad_norm": 1.6975786685943604, "learning_rate": 1.9472724349604e-05, "loss": 0.5666, "step": 1741 }, { "epoch": 0.5806666666666667, "grad_norm": 1.9286954402923584, "learning_rate": 1.9471480849098373e-05, "loss": 0.6824, "step": 1742 }, { "epoch": 0.581, "grad_norm": 2.455819606781006, "learning_rate": 1.947023592381348e-05, "loss": 0.6126, "step": 1743 }, { "epoch": 0.5813333333333334, "grad_norm": 2.2077488899230957, "learning_rate": 1.9468989573936585e-05, "loss": 0.6559, "step": 1744 }, { "epoch": 0.5816666666666667, "grad_norm": 1.8107964992523193, "learning_rate": 1.946774179965518e-05, "loss": 0.6241, "step": 1745 }, { "epoch": 0.582, "grad_norm": 2.155165433883667, "learning_rate": 1.9466492601156964e-05, "loss": 0.6313, "step": 1746 }, { "epoch": 0.5823333333333334, "grad_norm": 1.8649969100952148, "learning_rate": 1.9465241978629853e-05, "loss": 0.6126, "step": 1747 }, { "epoch": 0.5826666666666667, "grad_norm": 1.6512353420257568, "learning_rate": 1.9463989932261977e-05, "loss": 0.6135, "step": 1748 }, { "epoch": 0.583, "grad_norm": 1.6059677600860596, "learning_rate": 1.9462736462241672e-05, "loss": 0.6571, "step": 1749 }, { "epoch": 0.5833333333333334, "grad_norm": 1.7498847246170044, "learning_rate": 1.946148156875751e-05, "loss": 0.6266, "step": 1750 }, { "epoch": 0.5836666666666667, "grad_norm": 2.540587902069092, "learning_rate": 1.9460225251998243e-05, "loss": 0.6375, "step": 1751 }, { "epoch": 0.584, "grad_norm": 1.6287459135055542, "learning_rate": 1.9458967512152872e-05, "loss": 0.5749, "step": 1752 }, { "epoch": 0.5843333333333334, "grad_norm": 1.8234567642211914, "learning_rate": 1.945770834941059e-05, "loss": 0.6011, "step": 1753 }, { "epoch": 0.5846666666666667, "grad_norm": 2.3377091884613037, "learning_rate": 1.9456447763960815e-05, "loss": 0.6318, "step": 1754 }, { "epoch": 0.585, "grad_norm": 1.9465157985687256, "learning_rate": 1.945518575599317e-05, "loss": 0.6405, "step": 1755 }, { "epoch": 0.5853333333333334, "grad_norm": 1.713829517364502, "learning_rate": 1.9453922325697498e-05, "loss": 0.576, "step": 1756 }, { "epoch": 0.5856666666666667, "grad_norm": 2.12919545173645, "learning_rate": 1.9452657473263857e-05, "loss": 0.6086, "step": 1757 }, { "epoch": 0.586, "grad_norm": 2.10836124420166, "learning_rate": 1.945139119888252e-05, "loss": 0.6304, "step": 1758 }, { "epoch": 0.5863333333333334, "grad_norm": 1.5419052839279175, "learning_rate": 1.945012350274396e-05, "loss": 0.5702, "step": 1759 }, { "epoch": 0.5866666666666667, "grad_norm": 2.0960025787353516, "learning_rate": 1.944885438503888e-05, "loss": 0.6497, "step": 1760 }, { "epoch": 0.587, "grad_norm": 1.8500545024871826, "learning_rate": 1.9447583845958198e-05, "loss": 0.6193, "step": 1761 }, { "epoch": 0.5873333333333334, "grad_norm": 2.425869941711426, "learning_rate": 1.944631188569303e-05, "loss": 0.5932, "step": 1762 }, { "epoch": 0.5876666666666667, "grad_norm": 1.833100438117981, "learning_rate": 1.9445038504434715e-05, "loss": 0.6326, "step": 1763 }, { "epoch": 0.588, "grad_norm": 1.8234100341796875, "learning_rate": 1.944376370237481e-05, "loss": 0.5835, "step": 1764 }, { "epoch": 0.5883333333333334, "grad_norm": 2.0790021419525146, "learning_rate": 1.9442487479705082e-05, "loss": 0.5815, "step": 1765 }, { "epoch": 0.5886666666666667, "grad_norm": 1.8800514936447144, "learning_rate": 1.9441209836617506e-05, "loss": 0.6758, "step": 1766 }, { "epoch": 0.589, "grad_norm": 1.9707454442977905, "learning_rate": 1.9439930773304284e-05, "loss": 0.6403, "step": 1767 }, { "epoch": 0.5893333333333334, "grad_norm": 1.785820484161377, "learning_rate": 1.9438650289957813e-05, "loss": 0.613, "step": 1768 }, { "epoch": 0.5896666666666667, "grad_norm": 1.951697826385498, "learning_rate": 1.9437368386770718e-05, "loss": 0.6298, "step": 1769 }, { "epoch": 0.59, "grad_norm": 1.7540202140808105, "learning_rate": 1.9436085063935837e-05, "loss": 0.6633, "step": 1770 }, { "epoch": 0.5903333333333334, "grad_norm": 1.8390856981277466, "learning_rate": 1.9434800321646215e-05, "loss": 0.6489, "step": 1771 }, { "epoch": 0.5906666666666667, "grad_norm": 2.0970373153686523, "learning_rate": 1.9433514160095113e-05, "loss": 0.6747, "step": 1772 }, { "epoch": 0.591, "grad_norm": 1.9122954607009888, "learning_rate": 1.943222657947601e-05, "loss": 0.6648, "step": 1773 }, { "epoch": 0.5913333333333334, "grad_norm": 1.6289899349212646, "learning_rate": 1.943093757998259e-05, "loss": 0.6051, "step": 1774 }, { "epoch": 0.5916666666666667, "grad_norm": 2.065056800842285, "learning_rate": 1.942964716180876e-05, "loss": 0.5879, "step": 1775 }, { "epoch": 0.592, "grad_norm": 2.024317741394043, "learning_rate": 1.9428355325148632e-05, "loss": 0.6689, "step": 1776 }, { "epoch": 0.5923333333333334, "grad_norm": 1.8938965797424316, "learning_rate": 1.9427062070196536e-05, "loss": 0.6415, "step": 1777 }, { "epoch": 0.5926666666666667, "grad_norm": 2.154075860977173, "learning_rate": 1.9425767397147013e-05, "loss": 0.6357, "step": 1778 }, { "epoch": 0.593, "grad_norm": 1.7780462503433228, "learning_rate": 1.9424471306194822e-05, "loss": 0.5845, "step": 1779 }, { "epoch": 0.5933333333333334, "grad_norm": 1.8178362846374512, "learning_rate": 1.9423173797534924e-05, "loss": 0.6181, "step": 1780 }, { "epoch": 0.5936666666666667, "grad_norm": 1.8613277673721313, "learning_rate": 1.942187487136251e-05, "loss": 0.6196, "step": 1781 }, { "epoch": 0.594, "grad_norm": 1.8395161628723145, "learning_rate": 1.942057452787297e-05, "loss": 0.614, "step": 1782 }, { "epoch": 0.5943333333333334, "grad_norm": 1.939504861831665, "learning_rate": 1.941927276726191e-05, "loss": 0.584, "step": 1783 }, { "epoch": 0.5946666666666667, "grad_norm": 2.42627215385437, "learning_rate": 1.9417969589725163e-05, "loss": 0.5641, "step": 1784 }, { "epoch": 0.595, "grad_norm": 1.9121977090835571, "learning_rate": 1.9416664995458756e-05, "loss": 0.6273, "step": 1785 }, { "epoch": 0.5953333333333334, "grad_norm": 2.0631823539733887, "learning_rate": 1.9415358984658934e-05, "loss": 0.6452, "step": 1786 }, { "epoch": 0.5956666666666667, "grad_norm": 2.373368263244629, "learning_rate": 1.9414051557522165e-05, "loss": 0.6142, "step": 1787 }, { "epoch": 0.596, "grad_norm": 1.67765212059021, "learning_rate": 1.941274271424512e-05, "loss": 0.6156, "step": 1788 }, { "epoch": 0.5963333333333334, "grad_norm": 1.9538670778274536, "learning_rate": 1.9411432455024682e-05, "loss": 0.6143, "step": 1789 }, { "epoch": 0.5966666666666667, "grad_norm": 1.714404821395874, "learning_rate": 1.9410120780057958e-05, "loss": 0.594, "step": 1790 }, { "epoch": 0.597, "grad_norm": 1.8472583293914795, "learning_rate": 1.9408807689542257e-05, "loss": 0.5521, "step": 1791 }, { "epoch": 0.5973333333333334, "grad_norm": 1.8239890336990356, "learning_rate": 1.9407493183675104e-05, "loss": 0.6026, "step": 1792 }, { "epoch": 0.5976666666666667, "grad_norm": 1.7459886074066162, "learning_rate": 1.9406177262654245e-05, "loss": 0.5972, "step": 1793 }, { "epoch": 0.598, "grad_norm": 1.9091566801071167, "learning_rate": 1.9404859926677625e-05, "loss": 0.6482, "step": 1794 }, { "epoch": 0.5983333333333334, "grad_norm": 1.7072527408599854, "learning_rate": 1.940354117594341e-05, "loss": 0.6183, "step": 1795 }, { "epoch": 0.5986666666666667, "grad_norm": 1.9225122928619385, "learning_rate": 1.940222101064998e-05, "loss": 0.6247, "step": 1796 }, { "epoch": 0.599, "grad_norm": 1.9806348085403442, "learning_rate": 1.9400899430995923e-05, "loss": 0.6298, "step": 1797 }, { "epoch": 0.5993333333333334, "grad_norm": 1.7280195951461792, "learning_rate": 1.939957643718004e-05, "loss": 0.6223, "step": 1798 }, { "epoch": 0.5996666666666667, "grad_norm": 2.0048880577087402, "learning_rate": 1.9398252029401353e-05, "loss": 0.6017, "step": 1799 }, { "epoch": 0.6, "grad_norm": 1.9557818174362183, "learning_rate": 1.9396926207859085e-05, "loss": 0.6104, "step": 1800 }, { "epoch": 0.6003333333333334, "grad_norm": 2.6672873497009277, "learning_rate": 1.939559897275268e-05, "loss": 0.5808, "step": 1801 }, { "epoch": 0.6006666666666667, "grad_norm": 2.300036907196045, "learning_rate": 1.939427032428179e-05, "loss": 0.6383, "step": 1802 }, { "epoch": 0.601, "grad_norm": 2.302520990371704, "learning_rate": 1.9392940262646284e-05, "loss": 0.6357, "step": 1803 }, { "epoch": 0.6013333333333334, "grad_norm": 1.6641030311584473, "learning_rate": 1.9391608788046238e-05, "loss": 0.5595, "step": 1804 }, { "epoch": 0.6016666666666667, "grad_norm": 1.6789886951446533, "learning_rate": 1.9390275900681942e-05, "loss": 0.6427, "step": 1805 }, { "epoch": 0.602, "grad_norm": 3.186552047729492, "learning_rate": 1.9388941600753902e-05, "loss": 0.6678, "step": 1806 }, { "epoch": 0.6023333333333334, "grad_norm": 2.182847023010254, "learning_rate": 1.938760588846284e-05, "loss": 0.6418, "step": 1807 }, { "epoch": 0.6026666666666667, "grad_norm": 1.421980857849121, "learning_rate": 1.9386268764009678e-05, "loss": 0.6063, "step": 1808 }, { "epoch": 0.603, "grad_norm": 2.8037288188934326, "learning_rate": 1.938493022759556e-05, "loss": 0.6137, "step": 1809 }, { "epoch": 0.6033333333333334, "grad_norm": 2.1680097579956055, "learning_rate": 1.938359027942184e-05, "loss": 0.5919, "step": 1810 }, { "epoch": 0.6036666666666667, "grad_norm": 1.9774158000946045, "learning_rate": 1.9382248919690085e-05, "loss": 0.6389, "step": 1811 }, { "epoch": 0.604, "grad_norm": 1.6742018461227417, "learning_rate": 1.938090614860207e-05, "loss": 0.6021, "step": 1812 }, { "epoch": 0.6043333333333333, "grad_norm": 1.932276725769043, "learning_rate": 1.937956196635979e-05, "loss": 0.6224, "step": 1813 }, { "epoch": 0.6046666666666667, "grad_norm": 1.9877849817276, "learning_rate": 1.9378216373165444e-05, "loss": 0.6493, "step": 1814 }, { "epoch": 0.605, "grad_norm": 2.5243234634399414, "learning_rate": 1.937686936922145e-05, "loss": 0.5565, "step": 1815 }, { "epoch": 0.6053333333333333, "grad_norm": 2.2814571857452393, "learning_rate": 1.9375520954730434e-05, "loss": 0.6145, "step": 1816 }, { "epoch": 0.6056666666666667, "grad_norm": 1.7758924961090088, "learning_rate": 1.937417112989524e-05, "loss": 0.6495, "step": 1817 }, { "epoch": 0.606, "grad_norm": 1.7489680051803589, "learning_rate": 1.937281989491892e-05, "loss": 0.6293, "step": 1818 }, { "epoch": 0.6063333333333333, "grad_norm": 2.121697187423706, "learning_rate": 1.9371467250004728e-05, "loss": 0.6373, "step": 1819 }, { "epoch": 0.6066666666666667, "grad_norm": 1.975538730621338, "learning_rate": 1.937011319535615e-05, "loss": 0.6532, "step": 1820 }, { "epoch": 0.607, "grad_norm": 1.735205054283142, "learning_rate": 1.936875773117687e-05, "loss": 0.5853, "step": 1821 }, { "epoch": 0.6073333333333333, "grad_norm": 1.7343240976333618, "learning_rate": 1.936740085767079e-05, "loss": 0.5849, "step": 1822 }, { "epoch": 0.6076666666666667, "grad_norm": 1.3884570598602295, "learning_rate": 1.9366042575042024e-05, "loss": 0.6156, "step": 1823 }, { "epoch": 0.608, "grad_norm": 1.7339560985565186, "learning_rate": 1.9364682883494892e-05, "loss": 0.6297, "step": 1824 }, { "epoch": 0.6083333333333333, "grad_norm": 1.7365398406982422, "learning_rate": 1.9363321783233933e-05, "loss": 0.6378, "step": 1825 }, { "epoch": 0.6086666666666667, "grad_norm": 2.2365572452545166, "learning_rate": 1.9361959274463893e-05, "loss": 0.5663, "step": 1826 }, { "epoch": 0.609, "grad_norm": 1.8248591423034668, "learning_rate": 1.9360595357389735e-05, "loss": 0.6438, "step": 1827 }, { "epoch": 0.6093333333333333, "grad_norm": 1.8321421146392822, "learning_rate": 1.935923003221663e-05, "loss": 0.5911, "step": 1828 }, { "epoch": 0.6096666666666667, "grad_norm": 1.8882551193237305, "learning_rate": 1.935786329914996e-05, "loss": 0.5565, "step": 1829 }, { "epoch": 0.61, "grad_norm": 1.966599941253662, "learning_rate": 1.9356495158395317e-05, "loss": 0.6189, "step": 1830 }, { "epoch": 0.6103333333333333, "grad_norm": 2.0975751876831055, "learning_rate": 1.9355125610158515e-05, "loss": 0.5933, "step": 1831 }, { "epoch": 0.6106666666666667, "grad_norm": 1.9322171211242676, "learning_rate": 1.935375465464557e-05, "loss": 0.6187, "step": 1832 }, { "epoch": 0.611, "grad_norm": 2.3158986568450928, "learning_rate": 1.9352382292062712e-05, "loss": 0.5961, "step": 1833 }, { "epoch": 0.6113333333333333, "grad_norm": 2.392216444015503, "learning_rate": 1.9351008522616384e-05, "loss": 0.5887, "step": 1834 }, { "epoch": 0.6116666666666667, "grad_norm": 1.9514282941818237, "learning_rate": 1.934963334651324e-05, "loss": 0.6238, "step": 1835 }, { "epoch": 0.612, "grad_norm": 1.937767744064331, "learning_rate": 1.9348256763960146e-05, "loss": 0.6094, "step": 1836 }, { "epoch": 0.6123333333333333, "grad_norm": 1.8764073848724365, "learning_rate": 1.9346878775164176e-05, "loss": 0.6136, "step": 1837 }, { "epoch": 0.6126666666666667, "grad_norm": 3.111572027206421, "learning_rate": 1.9345499380332623e-05, "loss": 0.6151, "step": 1838 }, { "epoch": 0.613, "grad_norm": 1.759253978729248, "learning_rate": 1.9344118579672987e-05, "loss": 0.5556, "step": 1839 }, { "epoch": 0.6133333333333333, "grad_norm": 2.4533534049987793, "learning_rate": 1.9342736373392976e-05, "loss": 0.6464, "step": 1840 }, { "epoch": 0.6136666666666667, "grad_norm": 2.053068161010742, "learning_rate": 1.9341352761700513e-05, "loss": 0.5971, "step": 1841 }, { "epoch": 0.614, "grad_norm": 1.9928125143051147, "learning_rate": 1.9339967744803735e-05, "loss": 0.5694, "step": 1842 }, { "epoch": 0.6143333333333333, "grad_norm": 1.8017443418502808, "learning_rate": 1.9338581322910985e-05, "loss": 0.6056, "step": 1843 }, { "epoch": 0.6146666666666667, "grad_norm": 2.1970608234405518, "learning_rate": 1.9337193496230826e-05, "loss": 0.6482, "step": 1844 }, { "epoch": 0.615, "grad_norm": 1.8875905275344849, "learning_rate": 1.9335804264972018e-05, "loss": 0.5973, "step": 1845 }, { "epoch": 0.6153333333333333, "grad_norm": 1.7477443218231201, "learning_rate": 1.933441362934355e-05, "loss": 0.6498, "step": 1846 }, { "epoch": 0.6156666666666667, "grad_norm": 1.8329768180847168, "learning_rate": 1.9333021589554603e-05, "loss": 0.6401, "step": 1847 }, { "epoch": 0.616, "grad_norm": 2.16264009475708, "learning_rate": 1.9331628145814587e-05, "loss": 0.5945, "step": 1848 }, { "epoch": 0.6163333333333333, "grad_norm": 1.8790429830551147, "learning_rate": 1.9330233298333116e-05, "loss": 0.629, "step": 1849 }, { "epoch": 0.6166666666666667, "grad_norm": 1.81397545337677, "learning_rate": 1.932883704732001e-05, "loss": 0.6061, "step": 1850 }, { "epoch": 0.617, "grad_norm": 2.0108888149261475, "learning_rate": 1.93274393929853e-05, "loss": 0.5411, "step": 1851 }, { "epoch": 0.6173333333333333, "grad_norm": 2.2371575832366943, "learning_rate": 1.9326040335539248e-05, "loss": 0.6136, "step": 1852 }, { "epoch": 0.6176666666666667, "grad_norm": 1.7646808624267578, "learning_rate": 1.9324639875192298e-05, "loss": 0.6349, "step": 1853 }, { "epoch": 0.618, "grad_norm": 1.9146279096603394, "learning_rate": 1.9323238012155125e-05, "loss": 0.5687, "step": 1854 }, { "epoch": 0.6183333333333333, "grad_norm": 1.6164426803588867, "learning_rate": 1.9321834746638606e-05, "loss": 0.5901, "step": 1855 }, { "epoch": 0.6186666666666667, "grad_norm": 2.3906891345977783, "learning_rate": 1.932043007885384e-05, "loss": 0.62, "step": 1856 }, { "epoch": 0.619, "grad_norm": 1.8137831687927246, "learning_rate": 1.9319024009012114e-05, "loss": 0.5973, "step": 1857 }, { "epoch": 0.6193333333333333, "grad_norm": 1.6355624198913574, "learning_rate": 1.9317616537324955e-05, "loss": 0.5253, "step": 1858 }, { "epoch": 0.6196666666666667, "grad_norm": 1.7645325660705566, "learning_rate": 1.931620766400408e-05, "loss": 0.6452, "step": 1859 }, { "epoch": 0.62, "grad_norm": 1.7528090476989746, "learning_rate": 1.9314797389261426e-05, "loss": 0.5839, "step": 1860 }, { "epoch": 0.6203333333333333, "grad_norm": 2.0697484016418457, "learning_rate": 1.9313385713309135e-05, "loss": 0.604, "step": 1861 }, { "epoch": 0.6206666666666667, "grad_norm": 2.048318862915039, "learning_rate": 1.9311972636359567e-05, "loss": 0.6703, "step": 1862 }, { "epoch": 0.621, "grad_norm": 1.8616106510162354, "learning_rate": 1.9310558158625286e-05, "loss": 0.6038, "step": 1863 }, { "epoch": 0.6213333333333333, "grad_norm": 1.7063571214675903, "learning_rate": 1.930914228031907e-05, "loss": 0.6364, "step": 1864 }, { "epoch": 0.6216666666666667, "grad_norm": 1.5828651189804077, "learning_rate": 1.9307725001653906e-05, "loss": 0.6127, "step": 1865 }, { "epoch": 0.622, "grad_norm": 1.7301703691482544, "learning_rate": 1.9306306322842994e-05, "loss": 0.627, "step": 1866 }, { "epoch": 0.6223333333333333, "grad_norm": 1.5391148328781128, "learning_rate": 1.930488624409975e-05, "loss": 0.5155, "step": 1867 }, { "epoch": 0.6226666666666667, "grad_norm": 1.6816024780273438, "learning_rate": 1.9303464765637784e-05, "loss": 0.5632, "step": 1868 }, { "epoch": 0.623, "grad_norm": 1.5435359477996826, "learning_rate": 1.930204188767093e-05, "loss": 0.6123, "step": 1869 }, { "epoch": 0.6233333333333333, "grad_norm": 1.7626402378082275, "learning_rate": 1.9300617610413232e-05, "loss": 0.6472, "step": 1870 }, { "epoch": 0.6236666666666667, "grad_norm": 2.5659523010253906, "learning_rate": 1.929919193407894e-05, "loss": 0.6123, "step": 1871 }, { "epoch": 0.624, "grad_norm": 1.9939569234848022, "learning_rate": 1.9297764858882516e-05, "loss": 0.5979, "step": 1872 }, { "epoch": 0.6243333333333333, "grad_norm": 1.6749763488769531, "learning_rate": 1.9296336385038632e-05, "loss": 0.6287, "step": 1873 }, { "epoch": 0.6246666666666667, "grad_norm": 2.342250108718872, "learning_rate": 1.929490651276217e-05, "loss": 0.6361, "step": 1874 }, { "epoch": 0.625, "grad_norm": 1.8678984642028809, "learning_rate": 1.9293475242268224e-05, "loss": 0.5703, "step": 1875 }, { "epoch": 0.6253333333333333, "grad_norm": 1.8643264770507812, "learning_rate": 1.92920425737721e-05, "loss": 0.6711, "step": 1876 }, { "epoch": 0.6256666666666667, "grad_norm": 1.8378268480300903, "learning_rate": 1.929060850748931e-05, "loss": 0.5677, "step": 1877 }, { "epoch": 0.626, "grad_norm": 1.648834228515625, "learning_rate": 1.9289173043635584e-05, "loss": 0.5513, "step": 1878 }, { "epoch": 0.6263333333333333, "grad_norm": 1.7917345762252808, "learning_rate": 1.9287736182426845e-05, "loss": 0.6202, "step": 1879 }, { "epoch": 0.6266666666666667, "grad_norm": 1.911948323249817, "learning_rate": 1.9286297924079244e-05, "loss": 0.6104, "step": 1880 }, { "epoch": 0.627, "grad_norm": 1.6712164878845215, "learning_rate": 1.9284858268809135e-05, "loss": 0.624, "step": 1881 }, { "epoch": 0.6273333333333333, "grad_norm": 1.7099888324737549, "learning_rate": 1.9283417216833088e-05, "loss": 0.6159, "step": 1882 }, { "epoch": 0.6276666666666667, "grad_norm": 1.803826093673706, "learning_rate": 1.928197476836787e-05, "loss": 0.632, "step": 1883 }, { "epoch": 0.628, "grad_norm": 1.6736547946929932, "learning_rate": 1.928053092363047e-05, "loss": 0.5456, "step": 1884 }, { "epoch": 0.6283333333333333, "grad_norm": 2.5843966007232666, "learning_rate": 1.9279085682838082e-05, "loss": 0.6029, "step": 1885 }, { "epoch": 0.6286666666666667, "grad_norm": 2.3626954555511475, "learning_rate": 1.9277639046208114e-05, "loss": 0.6155, "step": 1886 }, { "epoch": 0.629, "grad_norm": 1.6866673231124878, "learning_rate": 1.927619101395818e-05, "loss": 0.6368, "step": 1887 }, { "epoch": 0.6293333333333333, "grad_norm": 1.7194513082504272, "learning_rate": 1.9274741586306102e-05, "loss": 0.5646, "step": 1888 }, { "epoch": 0.6296666666666667, "grad_norm": 1.6870874166488647, "learning_rate": 1.927329076346992e-05, "loss": 0.5691, "step": 1889 }, { "epoch": 0.63, "grad_norm": 1.862754464149475, "learning_rate": 1.9271838545667876e-05, "loss": 0.5952, "step": 1890 }, { "epoch": 0.6303333333333333, "grad_norm": 1.7301855087280273, "learning_rate": 1.927038493311842e-05, "loss": 0.6187, "step": 1891 }, { "epoch": 0.6306666666666667, "grad_norm": 2.0987391471862793, "learning_rate": 1.926892992604023e-05, "loss": 0.5668, "step": 1892 }, { "epoch": 0.631, "grad_norm": 1.7724093198776245, "learning_rate": 1.9267473524652168e-05, "loss": 0.6013, "step": 1893 }, { "epoch": 0.6313333333333333, "grad_norm": 1.8494619131088257, "learning_rate": 1.9266015729173323e-05, "loss": 0.6161, "step": 1894 }, { "epoch": 0.6316666666666667, "grad_norm": 1.756717562675476, "learning_rate": 1.9264556539822986e-05, "loss": 0.4949, "step": 1895 }, { "epoch": 0.632, "grad_norm": 1.7124066352844238, "learning_rate": 1.926309595682066e-05, "loss": 0.5504, "step": 1896 }, { "epoch": 0.6323333333333333, "grad_norm": 1.725367784500122, "learning_rate": 1.9261633980386066e-05, "loss": 0.5961, "step": 1897 }, { "epoch": 0.6326666666666667, "grad_norm": 1.8630249500274658, "learning_rate": 1.9260170610739117e-05, "loss": 0.5703, "step": 1898 }, { "epoch": 0.633, "grad_norm": 1.6896319389343262, "learning_rate": 1.925870584809995e-05, "loss": 0.5666, "step": 1899 }, { "epoch": 0.6333333333333333, "grad_norm": 1.7702076435089111, "learning_rate": 1.9257239692688907e-05, "loss": 0.6086, "step": 1900 }, { "epoch": 0.6336666666666667, "grad_norm": 1.8255672454833984, "learning_rate": 1.9255772144726536e-05, "loss": 0.5952, "step": 1901 }, { "epoch": 0.634, "grad_norm": 1.8773293495178223, "learning_rate": 1.9254303204433602e-05, "loss": 0.6045, "step": 1902 }, { "epoch": 0.6343333333333333, "grad_norm": 1.8425863981246948, "learning_rate": 1.9252832872031075e-05, "loss": 0.6324, "step": 1903 }, { "epoch": 0.6346666666666667, "grad_norm": 1.7249492406845093, "learning_rate": 1.9251361147740134e-05, "loss": 0.5444, "step": 1904 }, { "epoch": 0.635, "grad_norm": 2.1138768196105957, "learning_rate": 1.924988803178216e-05, "loss": 0.5928, "step": 1905 }, { "epoch": 0.6353333333333333, "grad_norm": 1.7589929103851318, "learning_rate": 1.9248413524378767e-05, "loss": 0.6131, "step": 1906 }, { "epoch": 0.6356666666666667, "grad_norm": 1.9029229879379272, "learning_rate": 1.924693762575175e-05, "loss": 0.6112, "step": 1907 }, { "epoch": 0.636, "grad_norm": 1.8011888265609741, "learning_rate": 1.9245460336123136e-05, "loss": 0.5678, "step": 1908 }, { "epoch": 0.6363333333333333, "grad_norm": 2.0989668369293213, "learning_rate": 1.924398165571514e-05, "loss": 0.5978, "step": 1909 }, { "epoch": 0.6366666666666667, "grad_norm": 1.6511486768722534, "learning_rate": 1.92425015847502e-05, "loss": 0.5641, "step": 1910 }, { "epoch": 0.637, "grad_norm": 1.7026129961013794, "learning_rate": 1.9241020123450972e-05, "loss": 0.5767, "step": 1911 }, { "epoch": 0.6373333333333333, "grad_norm": 1.5496375560760498, "learning_rate": 1.92395372720403e-05, "loss": 0.5842, "step": 1912 }, { "epoch": 0.6376666666666667, "grad_norm": 1.4787790775299072, "learning_rate": 1.9238053030741244e-05, "loss": 0.6249, "step": 1913 }, { "epoch": 0.638, "grad_norm": 1.6198229789733887, "learning_rate": 1.9236567399777086e-05, "loss": 0.5597, "step": 1914 }, { "epoch": 0.6383333333333333, "grad_norm": 1.5671448707580566, "learning_rate": 1.9235080379371295e-05, "loss": 0.6131, "step": 1915 }, { "epoch": 0.6386666666666667, "grad_norm": 1.7101445198059082, "learning_rate": 1.923359196974757e-05, "loss": 0.585, "step": 1916 }, { "epoch": 0.639, "grad_norm": 1.9777647256851196, "learning_rate": 1.923210217112981e-05, "loss": 0.6189, "step": 1917 }, { "epoch": 0.6393333333333333, "grad_norm": 1.5820404291152954, "learning_rate": 1.923061098374212e-05, "loss": 0.5921, "step": 1918 }, { "epoch": 0.6396666666666667, "grad_norm": 1.546519160270691, "learning_rate": 1.9229118407808815e-05, "loss": 0.6386, "step": 1919 }, { "epoch": 0.64, "grad_norm": 1.7167435884475708, "learning_rate": 1.9227624443554425e-05, "loss": 0.5228, "step": 1920 }, { "epoch": 0.6403333333333333, "grad_norm": 1.685009479522705, "learning_rate": 1.922612909120368e-05, "loss": 0.6163, "step": 1921 }, { "epoch": 0.6406666666666667, "grad_norm": 2.733128309249878, "learning_rate": 1.9224632350981532e-05, "loss": 0.5988, "step": 1922 }, { "epoch": 0.641, "grad_norm": 2.724623680114746, "learning_rate": 1.9223134223113122e-05, "loss": 0.5892, "step": 1923 }, { "epoch": 0.6413333333333333, "grad_norm": 1.5362430810928345, "learning_rate": 1.9221634707823816e-05, "loss": 0.5552, "step": 1924 }, { "epoch": 0.6416666666666667, "grad_norm": 2.0680153369903564, "learning_rate": 1.9220133805339186e-05, "loss": 0.6279, "step": 1925 }, { "epoch": 0.642, "grad_norm": 1.830322265625, "learning_rate": 1.9218631515885007e-05, "loss": 0.6006, "step": 1926 }, { "epoch": 0.6423333333333333, "grad_norm": 2.3784408569335938, "learning_rate": 1.9217127839687267e-05, "loss": 0.5913, "step": 1927 }, { "epoch": 0.6426666666666667, "grad_norm": 1.8684906959533691, "learning_rate": 1.921562277697216e-05, "loss": 0.5797, "step": 1928 }, { "epoch": 0.643, "grad_norm": 2.1109533309936523, "learning_rate": 1.9214116327966095e-05, "loss": 0.5859, "step": 1929 }, { "epoch": 0.6433333333333333, "grad_norm": 1.710239052772522, "learning_rate": 1.921260849289568e-05, "loss": 0.5575, "step": 1930 }, { "epoch": 0.6436666666666667, "grad_norm": 1.968813180923462, "learning_rate": 1.9211099271987735e-05, "loss": 0.6225, "step": 1931 }, { "epoch": 0.644, "grad_norm": 1.5242303609848022, "learning_rate": 1.9209588665469294e-05, "loss": 0.5708, "step": 1932 }, { "epoch": 0.6443333333333333, "grad_norm": 1.5480504035949707, "learning_rate": 1.9208076673567594e-05, "loss": 0.5808, "step": 1933 }, { "epoch": 0.6446666666666667, "grad_norm": 1.8572478294372559, "learning_rate": 1.920656329651008e-05, "loss": 0.5894, "step": 1934 }, { "epoch": 0.645, "grad_norm": 1.4696048498153687, "learning_rate": 1.9205048534524405e-05, "loss": 0.613, "step": 1935 }, { "epoch": 0.6453333333333333, "grad_norm": 1.5569661855697632, "learning_rate": 1.9203532387838434e-05, "loss": 0.5936, "step": 1936 }, { "epoch": 0.6456666666666667, "grad_norm": 1.6919677257537842, "learning_rate": 1.920201485668024e-05, "loss": 0.5868, "step": 1937 }, { "epoch": 0.646, "grad_norm": 1.789567470550537, "learning_rate": 1.9200495941278105e-05, "loss": 0.5647, "step": 1938 }, { "epoch": 0.6463333333333333, "grad_norm": 1.7207272052764893, "learning_rate": 1.9198975641860512e-05, "loss": 0.5807, "step": 1939 }, { "epoch": 0.6466666666666666, "grad_norm": 1.6439485549926758, "learning_rate": 1.9197453958656157e-05, "loss": 0.6048, "step": 1940 }, { "epoch": 0.647, "grad_norm": 1.782570719718933, "learning_rate": 1.9195930891893946e-05, "loss": 0.6299, "step": 1941 }, { "epoch": 0.6473333333333333, "grad_norm": 1.9047001600265503, "learning_rate": 1.9194406441802994e-05, "loss": 0.6561, "step": 1942 }, { "epoch": 0.6476666666666666, "grad_norm": 2.174100160598755, "learning_rate": 1.919288060861262e-05, "loss": 0.5988, "step": 1943 }, { "epoch": 0.648, "grad_norm": 2.0546693801879883, "learning_rate": 1.9191353392552346e-05, "loss": 0.5501, "step": 1944 }, { "epoch": 0.6483333333333333, "grad_norm": 1.8471958637237549, "learning_rate": 1.9189824793851915e-05, "loss": 0.5923, "step": 1945 }, { "epoch": 0.6486666666666666, "grad_norm": 1.878305196762085, "learning_rate": 1.9188294812741273e-05, "loss": 0.5873, "step": 1946 }, { "epoch": 0.649, "grad_norm": 2.1036112308502197, "learning_rate": 1.9186763449450572e-05, "loss": 0.6133, "step": 1947 }, { "epoch": 0.6493333333333333, "grad_norm": 1.712114930152893, "learning_rate": 1.9185230704210168e-05, "loss": 0.5737, "step": 1948 }, { "epoch": 0.6496666666666666, "grad_norm": 1.6572389602661133, "learning_rate": 1.9183696577250632e-05, "loss": 0.5846, "step": 1949 }, { "epoch": 0.65, "grad_norm": 1.863162875175476, "learning_rate": 1.9182161068802742e-05, "loss": 0.5675, "step": 1950 }, { "epoch": 0.6503333333333333, "grad_norm": 1.8311519622802734, "learning_rate": 1.918062417909748e-05, "loss": 0.6017, "step": 1951 }, { "epoch": 0.6506666666666666, "grad_norm": 1.9550293684005737, "learning_rate": 1.9179085908366037e-05, "loss": 0.5307, "step": 1952 }, { "epoch": 0.651, "grad_norm": 1.8651469945907593, "learning_rate": 1.9177546256839814e-05, "loss": 0.6298, "step": 1953 }, { "epoch": 0.6513333333333333, "grad_norm": 1.6301349401474, "learning_rate": 1.917600522475042e-05, "loss": 0.5406, "step": 1954 }, { "epoch": 0.6516666666666666, "grad_norm": 2.006326675415039, "learning_rate": 1.9174462812329662e-05, "loss": 0.5316, "step": 1955 }, { "epoch": 0.652, "grad_norm": 1.8847358226776123, "learning_rate": 1.9172919019809572e-05, "loss": 0.6398, "step": 1956 }, { "epoch": 0.6523333333333333, "grad_norm": 1.7330758571624756, "learning_rate": 1.9171373847422376e-05, "loss": 0.6098, "step": 1957 }, { "epoch": 0.6526666666666666, "grad_norm": 2.1318652629852295, "learning_rate": 1.9169827295400512e-05, "loss": 0.6227, "step": 1958 }, { "epoch": 0.653, "grad_norm": 1.9216524362564087, "learning_rate": 1.9168279363976627e-05, "loss": 0.5833, "step": 1959 }, { "epoch": 0.6533333333333333, "grad_norm": 2.425445079803467, "learning_rate": 1.916673005338357e-05, "loss": 0.6316, "step": 1960 }, { "epoch": 0.6536666666666666, "grad_norm": 1.6727910041809082, "learning_rate": 1.9165179363854404e-05, "loss": 0.5958, "step": 1961 }, { "epoch": 0.654, "grad_norm": 1.6883893013000488, "learning_rate": 1.9163627295622397e-05, "loss": 0.5874, "step": 1962 }, { "epoch": 0.6543333333333333, "grad_norm": 1.7801332473754883, "learning_rate": 1.9162073848921025e-05, "loss": 0.5783, "step": 1963 }, { "epoch": 0.6546666666666666, "grad_norm": 1.6683480739593506, "learning_rate": 1.9160519023983964e-05, "loss": 0.5611, "step": 1964 }, { "epoch": 0.655, "grad_norm": 1.9295698404312134, "learning_rate": 1.9158962821045113e-05, "loss": 0.6156, "step": 1965 }, { "epoch": 0.6553333333333333, "grad_norm": 1.61549711227417, "learning_rate": 1.9157405240338563e-05, "loss": 0.5664, "step": 1966 }, { "epoch": 0.6556666666666666, "grad_norm": 1.576548457145691, "learning_rate": 1.9155846282098617e-05, "loss": 0.6057, "step": 1967 }, { "epoch": 0.656, "grad_norm": 1.5510482788085938, "learning_rate": 1.9154285946559792e-05, "loss": 0.5902, "step": 1968 }, { "epoch": 0.6563333333333333, "grad_norm": 2.382603168487549, "learning_rate": 1.9152724233956805e-05, "loss": 0.643, "step": 1969 }, { "epoch": 0.6566666666666666, "grad_norm": 1.8080897331237793, "learning_rate": 1.915116114452458e-05, "loss": 0.582, "step": 1970 }, { "epoch": 0.657, "grad_norm": 1.971975564956665, "learning_rate": 1.914959667849825e-05, "loss": 0.5656, "step": 1971 }, { "epoch": 0.6573333333333333, "grad_norm": 1.7409899234771729, "learning_rate": 1.9148030836113157e-05, "loss": 0.5871, "step": 1972 }, { "epoch": 0.6576666666666666, "grad_norm": 1.9255099296569824, "learning_rate": 1.9146463617604843e-05, "loss": 0.6594, "step": 1973 }, { "epoch": 0.658, "grad_norm": 1.8800573348999023, "learning_rate": 1.9144895023209072e-05, "loss": 0.4856, "step": 1974 }, { "epoch": 0.6583333333333333, "grad_norm": 1.572288155555725, "learning_rate": 1.9143325053161795e-05, "loss": 0.5938, "step": 1975 }, { "epoch": 0.6586666666666666, "grad_norm": 2.0132248401641846, "learning_rate": 1.9141753707699187e-05, "loss": 0.5851, "step": 1976 }, { "epoch": 0.659, "grad_norm": 1.8435676097869873, "learning_rate": 1.914018098705762e-05, "loss": 0.5642, "step": 1977 }, { "epoch": 0.6593333333333333, "grad_norm": 1.8725494146347046, "learning_rate": 1.9138606891473672e-05, "loss": 0.5636, "step": 1978 }, { "epoch": 0.6596666666666666, "grad_norm": 1.6994271278381348, "learning_rate": 1.913703142118414e-05, "loss": 0.5685, "step": 1979 }, { "epoch": 0.66, "grad_norm": 2.259678363800049, "learning_rate": 1.913545457642601e-05, "loss": 0.5911, "step": 1980 }, { "epoch": 0.6603333333333333, "grad_norm": 1.770865559577942, "learning_rate": 1.913387635743649e-05, "loss": 0.6005, "step": 1981 }, { "epoch": 0.6606666666666666, "grad_norm": 1.6257458925247192, "learning_rate": 1.9132296764452994e-05, "loss": 0.6006, "step": 1982 }, { "epoch": 0.661, "grad_norm": 1.9265687465667725, "learning_rate": 1.9130715797713123e-05, "loss": 0.6023, "step": 1983 }, { "epoch": 0.6613333333333333, "grad_norm": 2.0335402488708496, "learning_rate": 1.9129133457454715e-05, "loss": 0.6408, "step": 1984 }, { "epoch": 0.6616666666666666, "grad_norm": 1.7442082166671753, "learning_rate": 1.9127549743915787e-05, "loss": 0.5938, "step": 1985 }, { "epoch": 0.662, "grad_norm": 2.175935745239258, "learning_rate": 1.912596465733458e-05, "loss": 0.5521, "step": 1986 }, { "epoch": 0.6623333333333333, "grad_norm": 1.740673303604126, "learning_rate": 1.9124378197949536e-05, "loss": 0.565, "step": 1987 }, { "epoch": 0.6626666666666666, "grad_norm": 2.2067317962646484, "learning_rate": 1.9122790365999303e-05, "loss": 0.5955, "step": 1988 }, { "epoch": 0.663, "grad_norm": 2.0723183155059814, "learning_rate": 1.9121201161722732e-05, "loss": 0.5648, "step": 1989 }, { "epoch": 0.6633333333333333, "grad_norm": 2.015491008758545, "learning_rate": 1.911961058535889e-05, "loss": 0.5857, "step": 1990 }, { "epoch": 0.6636666666666666, "grad_norm": 1.5428345203399658, "learning_rate": 1.911801863714704e-05, "loss": 0.6318, "step": 1991 }, { "epoch": 0.664, "grad_norm": 1.648766040802002, "learning_rate": 1.911642531732666e-05, "loss": 0.6103, "step": 1992 }, { "epoch": 0.6643333333333333, "grad_norm": 2.173269748687744, "learning_rate": 1.911483062613743e-05, "loss": 0.5949, "step": 1993 }, { "epoch": 0.6646666666666666, "grad_norm": 1.951863169670105, "learning_rate": 1.911323456381924e-05, "loss": 0.6404, "step": 1994 }, { "epoch": 0.665, "grad_norm": 1.8029232025146484, "learning_rate": 1.9111637130612172e-05, "loss": 0.6345, "step": 1995 }, { "epoch": 0.6653333333333333, "grad_norm": 1.824233055114746, "learning_rate": 1.9110038326756535e-05, "loss": 0.5989, "step": 1996 }, { "epoch": 0.6656666666666666, "grad_norm": 1.6722655296325684, "learning_rate": 1.910843815249283e-05, "loss": 0.6059, "step": 1997 }, { "epoch": 0.666, "grad_norm": 1.8969162702560425, "learning_rate": 1.910683660806177e-05, "loss": 0.5688, "step": 1998 }, { "epoch": 0.6663333333333333, "grad_norm": 1.7447729110717773, "learning_rate": 1.9105233693704278e-05, "loss": 0.5579, "step": 1999 }, { "epoch": 0.6666666666666666, "grad_norm": 1.5790331363677979, "learning_rate": 1.9103629409661468e-05, "loss": 0.5822, "step": 2000 }, { "epoch": 0.667, "grad_norm": 1.7006199359893799, "learning_rate": 1.9102023756174675e-05, "loss": 0.6012, "step": 2001 }, { "epoch": 0.6673333333333333, "grad_norm": 1.7733498811721802, "learning_rate": 1.9100416733485434e-05, "loss": 0.5779, "step": 2002 }, { "epoch": 0.6676666666666666, "grad_norm": 1.8421636819839478, "learning_rate": 1.909880834183549e-05, "loss": 0.565, "step": 2003 }, { "epoch": 0.668, "grad_norm": 1.5529049634933472, "learning_rate": 1.9097198581466785e-05, "loss": 0.5954, "step": 2004 }, { "epoch": 0.6683333333333333, "grad_norm": 1.9579272270202637, "learning_rate": 1.9095587452621476e-05, "loss": 0.6079, "step": 2005 }, { "epoch": 0.6686666666666666, "grad_norm": 2.064699411392212, "learning_rate": 1.9093974955541923e-05, "loss": 0.547, "step": 2006 }, { "epoch": 0.669, "grad_norm": 1.917235255241394, "learning_rate": 1.9092361090470688e-05, "loss": 0.589, "step": 2007 }, { "epoch": 0.6693333333333333, "grad_norm": 2.159214496612549, "learning_rate": 1.9090745857650542e-05, "loss": 0.5585, "step": 2008 }, { "epoch": 0.6696666666666666, "grad_norm": 2.3385579586029053, "learning_rate": 1.9089129257324468e-05, "loss": 0.5921, "step": 2009 }, { "epoch": 0.67, "grad_norm": 1.5274559259414673, "learning_rate": 1.9087511289735646e-05, "loss": 0.5581, "step": 2010 }, { "epoch": 0.6703333333333333, "grad_norm": 2.247070550918579, "learning_rate": 1.908589195512746e-05, "loss": 0.5852, "step": 2011 }, { "epoch": 0.6706666666666666, "grad_norm": 1.9675124883651733, "learning_rate": 1.9084271253743505e-05, "loss": 0.5604, "step": 2012 }, { "epoch": 0.671, "grad_norm": 1.7365851402282715, "learning_rate": 1.9082649185827583e-05, "loss": 0.5904, "step": 2013 }, { "epoch": 0.6713333333333333, "grad_norm": 1.761347770690918, "learning_rate": 1.90810257516237e-05, "loss": 0.5715, "step": 2014 }, { "epoch": 0.6716666666666666, "grad_norm": 1.980031132698059, "learning_rate": 1.9079400951376062e-05, "loss": 0.5775, "step": 2015 }, { "epoch": 0.672, "grad_norm": 1.7586394548416138, "learning_rate": 1.907777478532909e-05, "loss": 0.6255, "step": 2016 }, { "epoch": 0.6723333333333333, "grad_norm": 1.7115888595581055, "learning_rate": 1.90761472537274e-05, "loss": 0.5624, "step": 2017 }, { "epoch": 0.6726666666666666, "grad_norm": 1.979084849357605, "learning_rate": 1.907451835681582e-05, "loss": 0.5682, "step": 2018 }, { "epoch": 0.673, "grad_norm": 1.9412587881088257, "learning_rate": 1.907288809483939e-05, "loss": 0.5505, "step": 2019 }, { "epoch": 0.6733333333333333, "grad_norm": 1.8354929685592651, "learning_rate": 1.907125646804334e-05, "loss": 0.5863, "step": 2020 }, { "epoch": 0.6736666666666666, "grad_norm": 1.8282564878463745, "learning_rate": 1.9069623476673115e-05, "loss": 0.598, "step": 2021 }, { "epoch": 0.674, "grad_norm": 2.153160333633423, "learning_rate": 1.906798912097436e-05, "loss": 0.5941, "step": 2022 }, { "epoch": 0.6743333333333333, "grad_norm": 2.003105878829956, "learning_rate": 1.9066353401192933e-05, "loss": 0.5742, "step": 2023 }, { "epoch": 0.6746666666666666, "grad_norm": 1.8084009885787964, "learning_rate": 1.9064716317574893e-05, "loss": 0.5835, "step": 2024 }, { "epoch": 0.675, "grad_norm": 1.801048994064331, "learning_rate": 1.9063077870366504e-05, "loss": 0.5633, "step": 2025 }, { "epoch": 0.6753333333333333, "grad_norm": 1.6764501333236694, "learning_rate": 1.906143805981423e-05, "loss": 0.5572, "step": 2026 }, { "epoch": 0.6756666666666666, "grad_norm": 2.041627883911133, "learning_rate": 1.9059796886164744e-05, "loss": 0.6267, "step": 2027 }, { "epoch": 0.676, "grad_norm": 2.039536714553833, "learning_rate": 1.9058154349664932e-05, "loss": 0.5543, "step": 2028 }, { "epoch": 0.6763333333333333, "grad_norm": 1.8684322834014893, "learning_rate": 1.9056510450561873e-05, "loss": 0.6293, "step": 2029 }, { "epoch": 0.6766666666666666, "grad_norm": 1.6000580787658691, "learning_rate": 1.905486518910286e-05, "loss": 0.5412, "step": 2030 }, { "epoch": 0.677, "grad_norm": 1.7989964485168457, "learning_rate": 1.9053218565535383e-05, "loss": 0.5924, "step": 2031 }, { "epoch": 0.6773333333333333, "grad_norm": 1.6977481842041016, "learning_rate": 1.9051570580107147e-05, "loss": 0.5848, "step": 2032 }, { "epoch": 0.6776666666666666, "grad_norm": 1.8253545761108398, "learning_rate": 1.9049921233066048e-05, "loss": 0.5818, "step": 2033 }, { "epoch": 0.678, "grad_norm": 1.8133728504180908, "learning_rate": 1.9048270524660197e-05, "loss": 0.5667, "step": 2034 }, { "epoch": 0.6783333333333333, "grad_norm": 2.620681047439575, "learning_rate": 1.9046618455137912e-05, "loss": 0.5721, "step": 2035 }, { "epoch": 0.6786666666666666, "grad_norm": 2.214698553085327, "learning_rate": 1.9044965024747703e-05, "loss": 0.5808, "step": 2036 }, { "epoch": 0.679, "grad_norm": 2.1781506538391113, "learning_rate": 1.90433102337383e-05, "loss": 0.6382, "step": 2037 }, { "epoch": 0.6793333333333333, "grad_norm": 1.805187702178955, "learning_rate": 1.9041654082358628e-05, "loss": 0.5615, "step": 2038 }, { "epoch": 0.6796666666666666, "grad_norm": 1.9462668895721436, "learning_rate": 1.9039996570857817e-05, "loss": 0.5448, "step": 2039 }, { "epoch": 0.68, "grad_norm": 2.022385597229004, "learning_rate": 1.9038337699485207e-05, "loss": 0.539, "step": 2040 }, { "epoch": 0.6803333333333333, "grad_norm": 1.7152539491653442, "learning_rate": 1.903667746849034e-05, "loss": 0.568, "step": 2041 }, { "epoch": 0.6806666666666666, "grad_norm": 1.998419165611267, "learning_rate": 1.9035015878122957e-05, "loss": 0.5529, "step": 2042 }, { "epoch": 0.681, "grad_norm": 1.653003215789795, "learning_rate": 1.903335292863301e-05, "loss": 0.5965, "step": 2043 }, { "epoch": 0.6813333333333333, "grad_norm": 1.721289038658142, "learning_rate": 1.9031688620270657e-05, "loss": 0.5243, "step": 2044 }, { "epoch": 0.6816666666666666, "grad_norm": 1.8847224712371826, "learning_rate": 1.9030022953286254e-05, "loss": 0.6403, "step": 2045 }, { "epoch": 0.682, "grad_norm": 1.7527186870574951, "learning_rate": 1.9028355927930363e-05, "loss": 0.5987, "step": 2046 }, { "epoch": 0.6823333333333333, "grad_norm": 1.7473055124282837, "learning_rate": 1.902668754445376e-05, "loss": 0.5346, "step": 2047 }, { "epoch": 0.6826666666666666, "grad_norm": 2.351830244064331, "learning_rate": 1.9025017803107406e-05, "loss": 0.5645, "step": 2048 }, { "epoch": 0.683, "grad_norm": 2.436239719390869, "learning_rate": 1.9023346704142488e-05, "loss": 0.5842, "step": 2049 }, { "epoch": 0.6833333333333333, "grad_norm": 1.618774652481079, "learning_rate": 1.902167424781038e-05, "loss": 0.5673, "step": 2050 }, { "epoch": 0.6836666666666666, "grad_norm": 1.9775283336639404, "learning_rate": 1.9020000434362667e-05, "loss": 0.5593, "step": 2051 }, { "epoch": 0.684, "grad_norm": 2.031244993209839, "learning_rate": 1.901832526405114e-05, "loss": 0.5813, "step": 2052 }, { "epoch": 0.6843333333333333, "grad_norm": 2.259290933609009, "learning_rate": 1.901664873712779e-05, "loss": 0.6143, "step": 2053 }, { "epoch": 0.6846666666666666, "grad_norm": 1.794364094734192, "learning_rate": 1.9014970853844818e-05, "loss": 0.5981, "step": 2054 }, { "epoch": 0.685, "grad_norm": 1.9594210386276245, "learning_rate": 1.9013291614454622e-05, "loss": 0.5366, "step": 2055 }, { "epoch": 0.6853333333333333, "grad_norm": 1.9972115755081177, "learning_rate": 1.9011611019209812e-05, "loss": 0.6034, "step": 2056 }, { "epoch": 0.6856666666666666, "grad_norm": 1.8668123483657837, "learning_rate": 1.9009929068363187e-05, "loss": 0.5867, "step": 2057 }, { "epoch": 0.686, "grad_norm": 1.8490005731582642, "learning_rate": 1.9008245762167773e-05, "loss": 0.5515, "step": 2058 }, { "epoch": 0.6863333333333334, "grad_norm": 1.726818561553955, "learning_rate": 1.9006561100876774e-05, "loss": 0.5384, "step": 2059 }, { "epoch": 0.6866666666666666, "grad_norm": 1.701831579208374, "learning_rate": 1.9004875084743624e-05, "loss": 0.5595, "step": 2060 }, { "epoch": 0.687, "grad_norm": 1.8971352577209473, "learning_rate": 1.9003187714021936e-05, "loss": 0.5604, "step": 2061 }, { "epoch": 0.6873333333333334, "grad_norm": 1.8527909517288208, "learning_rate": 1.9001498988965544e-05, "loss": 0.5391, "step": 2062 }, { "epoch": 0.6876666666666666, "grad_norm": 1.8558787107467651, "learning_rate": 1.8999808909828483e-05, "loss": 0.5901, "step": 2063 }, { "epoch": 0.688, "grad_norm": 2.0249087810516357, "learning_rate": 1.8998117476864984e-05, "loss": 0.5426, "step": 2064 }, { "epoch": 0.6883333333333334, "grad_norm": 1.7440299987792969, "learning_rate": 1.8996424690329486e-05, "loss": 0.5492, "step": 2065 }, { "epoch": 0.6886666666666666, "grad_norm": 1.8593738079071045, "learning_rate": 1.8994730550476634e-05, "loss": 0.5918, "step": 2066 }, { "epoch": 0.689, "grad_norm": 2.216716766357422, "learning_rate": 1.8993035057561274e-05, "loss": 0.5792, "step": 2067 }, { "epoch": 0.6893333333333334, "grad_norm": 1.5799822807312012, "learning_rate": 1.8991338211838457e-05, "loss": 0.6093, "step": 2068 }, { "epoch": 0.6896666666666667, "grad_norm": 2.32010555267334, "learning_rate": 1.898964001356344e-05, "loss": 0.574, "step": 2069 }, { "epoch": 0.69, "grad_norm": 2.068986415863037, "learning_rate": 1.8987940462991673e-05, "loss": 0.597, "step": 2070 }, { "epoch": 0.6903333333333334, "grad_norm": 2.1589324474334717, "learning_rate": 1.8986239560378822e-05, "loss": 0.5785, "step": 2071 }, { "epoch": 0.6906666666666667, "grad_norm": 1.7123711109161377, "learning_rate": 1.8984537305980747e-05, "loss": 0.5698, "step": 2072 }, { "epoch": 0.691, "grad_norm": 1.9085718393325806, "learning_rate": 1.8982833700053518e-05, "loss": 0.5372, "step": 2073 }, { "epoch": 0.6913333333333334, "grad_norm": 1.71159827709198, "learning_rate": 1.8981128742853404e-05, "loss": 0.5113, "step": 2074 }, { "epoch": 0.6916666666666667, "grad_norm": 1.8708900213241577, "learning_rate": 1.897942243463688e-05, "loss": 0.5787, "step": 2075 }, { "epoch": 0.692, "grad_norm": 2.1282577514648438, "learning_rate": 1.897771477566063e-05, "loss": 0.6118, "step": 2076 }, { "epoch": 0.6923333333333334, "grad_norm": 2.365218162536621, "learning_rate": 1.897600576618152e-05, "loss": 0.6486, "step": 2077 }, { "epoch": 0.6926666666666667, "grad_norm": 1.744430661201477, "learning_rate": 1.8974295406456646e-05, "loss": 0.5819, "step": 2078 }, { "epoch": 0.693, "grad_norm": 1.962847352027893, "learning_rate": 1.8972583696743284e-05, "loss": 0.5871, "step": 2079 }, { "epoch": 0.6933333333333334, "grad_norm": 1.7624913454055786, "learning_rate": 1.8970870637298936e-05, "loss": 0.5473, "step": 2080 }, { "epoch": 0.6936666666666667, "grad_norm": 1.687206745147705, "learning_rate": 1.8969156228381283e-05, "loss": 0.5646, "step": 2081 }, { "epoch": 0.694, "grad_norm": 2.083860397338867, "learning_rate": 1.8967440470248227e-05, "loss": 0.6291, "step": 2082 }, { "epoch": 0.6943333333333334, "grad_norm": 1.6813275814056396, "learning_rate": 1.8965723363157868e-05, "loss": 0.5998, "step": 2083 }, { "epoch": 0.6946666666666667, "grad_norm": 1.601630687713623, "learning_rate": 1.89640049073685e-05, "loss": 0.6042, "step": 2084 }, { "epoch": 0.695, "grad_norm": 1.5633183717727661, "learning_rate": 1.8962285103138637e-05, "loss": 0.5756, "step": 2085 }, { "epoch": 0.6953333333333334, "grad_norm": 1.8745903968811035, "learning_rate": 1.8960563950726976e-05, "loss": 0.5466, "step": 2086 }, { "epoch": 0.6956666666666667, "grad_norm": 1.9840054512023926, "learning_rate": 1.895884145039244e-05, "loss": 0.5488, "step": 2087 }, { "epoch": 0.696, "grad_norm": 1.7774735689163208, "learning_rate": 1.895711760239413e-05, "loss": 0.5941, "step": 2088 }, { "epoch": 0.6963333333333334, "grad_norm": 1.9068409204483032, "learning_rate": 1.895539240699137e-05, "loss": 0.5947, "step": 2089 }, { "epoch": 0.6966666666666667, "grad_norm": 1.7330080270767212, "learning_rate": 1.895366586444367e-05, "loss": 0.5926, "step": 2090 }, { "epoch": 0.697, "grad_norm": 1.6770814657211304, "learning_rate": 1.895193797501076e-05, "loss": 0.5427, "step": 2091 }, { "epoch": 0.6973333333333334, "grad_norm": 1.6853171586990356, "learning_rate": 1.8950208738952555e-05, "loss": 0.6246, "step": 2092 }, { "epoch": 0.6976666666666667, "grad_norm": 1.8493105173110962, "learning_rate": 1.8948478156529188e-05, "loss": 0.5992, "step": 2093 }, { "epoch": 0.698, "grad_norm": 1.900656819343567, "learning_rate": 1.8946746228000987e-05, "loss": 0.5525, "step": 2094 }, { "epoch": 0.6983333333333334, "grad_norm": 1.8673324584960938, "learning_rate": 1.8945012953628478e-05, "loss": 0.6023, "step": 2095 }, { "epoch": 0.6986666666666667, "grad_norm": 1.867167353630066, "learning_rate": 1.89432783336724e-05, "loss": 0.5833, "step": 2096 }, { "epoch": 0.699, "grad_norm": 1.9404116868972778, "learning_rate": 1.8941542368393683e-05, "loss": 0.5328, "step": 2097 }, { "epoch": 0.6993333333333334, "grad_norm": 1.6877232789993286, "learning_rate": 1.893980505805347e-05, "loss": 0.5221, "step": 2098 }, { "epoch": 0.6996666666666667, "grad_norm": 2.303561210632324, "learning_rate": 1.8938066402913103e-05, "loss": 0.52, "step": 2099 }, { "epoch": 0.7, "grad_norm": 1.8887196779251099, "learning_rate": 1.8936326403234125e-05, "loss": 0.5804, "step": 2100 }, { "epoch": 0.7003333333333334, "grad_norm": 1.8010002374649048, "learning_rate": 1.8934585059278275e-05, "loss": 0.5442, "step": 2101 }, { "epoch": 0.7006666666666667, "grad_norm": 1.6902661323547363, "learning_rate": 1.893284237130751e-05, "loss": 0.5067, "step": 2102 }, { "epoch": 0.701, "grad_norm": 1.7310956716537476, "learning_rate": 1.893109833958397e-05, "loss": 0.4865, "step": 2103 }, { "epoch": 0.7013333333333334, "grad_norm": 2.2216367721557617, "learning_rate": 1.892935296437001e-05, "loss": 0.624, "step": 2104 }, { "epoch": 0.7016666666666667, "grad_norm": 1.9336506128311157, "learning_rate": 1.8927606245928188e-05, "loss": 0.5407, "step": 2105 }, { "epoch": 0.702, "grad_norm": 2.1904807090759277, "learning_rate": 1.892585818452126e-05, "loss": 0.5496, "step": 2106 }, { "epoch": 0.7023333333333334, "grad_norm": 2.1775004863739014, "learning_rate": 1.8924108780412175e-05, "loss": 0.5758, "step": 2107 }, { "epoch": 0.7026666666666667, "grad_norm": 2.1306331157684326, "learning_rate": 1.89223580338641e-05, "loss": 0.548, "step": 2108 }, { "epoch": 0.703, "grad_norm": 1.8506251573562622, "learning_rate": 1.8920605945140396e-05, "loss": 0.5441, "step": 2109 }, { "epoch": 0.7033333333333334, "grad_norm": 2.2135543823242188, "learning_rate": 1.8918852514504632e-05, "loss": 0.59, "step": 2110 }, { "epoch": 0.7036666666666667, "grad_norm": 1.838260293006897, "learning_rate": 1.8917097742220566e-05, "loss": 0.601, "step": 2111 }, { "epoch": 0.704, "grad_norm": 1.8703138828277588, "learning_rate": 1.8915341628552166e-05, "loss": 0.5794, "step": 2112 }, { "epoch": 0.7043333333333334, "grad_norm": 1.8700755834579468, "learning_rate": 1.8913584173763606e-05, "loss": 0.5605, "step": 2113 }, { "epoch": 0.7046666666666667, "grad_norm": 1.6666637659072876, "learning_rate": 1.891182537811925e-05, "loss": 0.5656, "step": 2114 }, { "epoch": 0.705, "grad_norm": 1.922322392463684, "learning_rate": 1.891006524188368e-05, "loss": 0.5791, "step": 2115 }, { "epoch": 0.7053333333333334, "grad_norm": 2.0193710327148438, "learning_rate": 1.8908303765321662e-05, "loss": 0.6029, "step": 2116 }, { "epoch": 0.7056666666666667, "grad_norm": 2.2458407878875732, "learning_rate": 1.890654094869818e-05, "loss": 0.5575, "step": 2117 }, { "epoch": 0.706, "grad_norm": 2.1185550689697266, "learning_rate": 1.8904776792278403e-05, "loss": 0.6357, "step": 2118 }, { "epoch": 0.7063333333333334, "grad_norm": 1.9450486898422241, "learning_rate": 1.8903011296327716e-05, "loss": 0.5643, "step": 2119 }, { "epoch": 0.7066666666666667, "grad_norm": 2.068369150161743, "learning_rate": 1.8901244461111697e-05, "loss": 0.5428, "step": 2120 }, { "epoch": 0.707, "grad_norm": 1.693382740020752, "learning_rate": 1.889947628689613e-05, "loss": 0.5815, "step": 2121 }, { "epoch": 0.7073333333333334, "grad_norm": 1.8284637928009033, "learning_rate": 1.8897706773946997e-05, "loss": 0.5783, "step": 2122 }, { "epoch": 0.7076666666666667, "grad_norm": 1.7653239965438843, "learning_rate": 1.8895935922530483e-05, "loss": 0.5769, "step": 2123 }, { "epoch": 0.708, "grad_norm": 2.0442309379577637, "learning_rate": 1.889416373291298e-05, "loss": 0.5575, "step": 2124 }, { "epoch": 0.7083333333333334, "grad_norm": 1.6616358757019043, "learning_rate": 1.8892390205361063e-05, "loss": 0.5565, "step": 2125 }, { "epoch": 0.7086666666666667, "grad_norm": 2.1232919692993164, "learning_rate": 1.889061534014153e-05, "loss": 0.603, "step": 2126 }, { "epoch": 0.709, "grad_norm": 1.8380498886108398, "learning_rate": 1.888883913752137e-05, "loss": 0.5094, "step": 2127 }, { "epoch": 0.7093333333333334, "grad_norm": 2.0929439067840576, "learning_rate": 1.8887061597767774e-05, "loss": 0.5878, "step": 2128 }, { "epoch": 0.7096666666666667, "grad_norm": 2.579010248184204, "learning_rate": 1.8885282721148135e-05, "loss": 0.5671, "step": 2129 }, { "epoch": 0.71, "grad_norm": 2.0320982933044434, "learning_rate": 1.8883502507930044e-05, "loss": 0.5872, "step": 2130 }, { "epoch": 0.7103333333333334, "grad_norm": 2.2939772605895996, "learning_rate": 1.8881720958381297e-05, "loss": 0.6338, "step": 2131 }, { "epoch": 0.7106666666666667, "grad_norm": 1.8123842477798462, "learning_rate": 1.8879938072769887e-05, "loss": 0.5676, "step": 2132 }, { "epoch": 0.711, "grad_norm": 1.975151538848877, "learning_rate": 1.8878153851364013e-05, "loss": 0.5492, "step": 2133 }, { "epoch": 0.7113333333333334, "grad_norm": 2.02030611038208, "learning_rate": 1.8876368294432078e-05, "loss": 0.5363, "step": 2134 }, { "epoch": 0.7116666666666667, "grad_norm": 1.698518991470337, "learning_rate": 1.887458140224267e-05, "loss": 0.5499, "step": 2135 }, { "epoch": 0.712, "grad_norm": 2.0173561573028564, "learning_rate": 1.8872793175064594e-05, "loss": 0.6291, "step": 2136 }, { "epoch": 0.7123333333333334, "grad_norm": 1.9108530282974243, "learning_rate": 1.887100361316685e-05, "loss": 0.6112, "step": 2137 }, { "epoch": 0.7126666666666667, "grad_norm": 1.9151854515075684, "learning_rate": 1.886921271681864e-05, "loss": 0.5238, "step": 2138 }, { "epoch": 0.713, "grad_norm": 2.3962857723236084, "learning_rate": 1.886742048628936e-05, "loss": 0.5009, "step": 2139 }, { "epoch": 0.7133333333333334, "grad_norm": 1.9997479915618896, "learning_rate": 1.8865626921848615e-05, "loss": 0.5753, "step": 2140 }, { "epoch": 0.7136666666666667, "grad_norm": 1.885342001914978, "learning_rate": 1.8863832023766208e-05, "loss": 0.6044, "step": 2141 }, { "epoch": 0.714, "grad_norm": 1.5714627504348755, "learning_rate": 1.8862035792312148e-05, "loss": 0.5679, "step": 2142 }, { "epoch": 0.7143333333333334, "grad_norm": 1.6094398498535156, "learning_rate": 1.8860238227756633e-05, "loss": 0.5216, "step": 2143 }, { "epoch": 0.7146666666666667, "grad_norm": 2.0711686611175537, "learning_rate": 1.885843933037007e-05, "loss": 0.6148, "step": 2144 }, { "epoch": 0.715, "grad_norm": 2.23581862449646, "learning_rate": 1.8856639100423062e-05, "loss": 0.5511, "step": 2145 }, { "epoch": 0.7153333333333334, "grad_norm": 2.0527005195617676, "learning_rate": 1.8854837538186417e-05, "loss": 0.5535, "step": 2146 }, { "epoch": 0.7156666666666667, "grad_norm": 1.9086167812347412, "learning_rate": 1.885303464393114e-05, "loss": 0.5465, "step": 2147 }, { "epoch": 0.716, "grad_norm": 2.3661744594573975, "learning_rate": 1.8851230417928433e-05, "loss": 0.583, "step": 2148 }, { "epoch": 0.7163333333333334, "grad_norm": 2.1467337608337402, "learning_rate": 1.884942486044971e-05, "loss": 0.5579, "step": 2149 }, { "epoch": 0.7166666666666667, "grad_norm": 1.8979485034942627, "learning_rate": 1.8847617971766577e-05, "loss": 0.5988, "step": 2150 }, { "epoch": 0.717, "grad_norm": 2.151345729827881, "learning_rate": 1.884580975215084e-05, "loss": 0.5836, "step": 2151 }, { "epoch": 0.7173333333333334, "grad_norm": 2.291039228439331, "learning_rate": 1.8844000201874505e-05, "loss": 0.5695, "step": 2152 }, { "epoch": 0.7176666666666667, "grad_norm": 2.073620319366455, "learning_rate": 1.884218932120978e-05, "loss": 0.6118, "step": 2153 }, { "epoch": 0.718, "grad_norm": 2.0049045085906982, "learning_rate": 1.8840377110429075e-05, "loss": 0.549, "step": 2154 }, { "epoch": 0.7183333333333334, "grad_norm": 1.714678168296814, "learning_rate": 1.8838563569804998e-05, "loss": 0.5735, "step": 2155 }, { "epoch": 0.7186666666666667, "grad_norm": 2.244452953338623, "learning_rate": 1.883674869961035e-05, "loss": 0.5459, "step": 2156 }, { "epoch": 0.719, "grad_norm": 1.9157934188842773, "learning_rate": 1.8834932500118148e-05, "loss": 0.5919, "step": 2157 }, { "epoch": 0.7193333333333334, "grad_norm": 1.6120067834854126, "learning_rate": 1.8833114971601593e-05, "loss": 0.5195, "step": 2158 }, { "epoch": 0.7196666666666667, "grad_norm": 1.7875571250915527, "learning_rate": 1.8831296114334103e-05, "loss": 0.5236, "step": 2159 }, { "epoch": 0.72, "grad_norm": 1.9105576276779175, "learning_rate": 1.8829475928589272e-05, "loss": 0.5538, "step": 2160 }, { "epoch": 0.7203333333333334, "grad_norm": 2.060075283050537, "learning_rate": 1.8827654414640914e-05, "loss": 0.6083, "step": 2161 }, { "epoch": 0.7206666666666667, "grad_norm": 2.228980302810669, "learning_rate": 1.882583157276304e-05, "loss": 0.562, "step": 2162 }, { "epoch": 0.721, "grad_norm": 1.9697140455245972, "learning_rate": 1.8824007403229852e-05, "loss": 0.5577, "step": 2163 }, { "epoch": 0.7213333333333334, "grad_norm": 1.8301570415496826, "learning_rate": 1.882218190631576e-05, "loss": 0.5718, "step": 2164 }, { "epoch": 0.7216666666666667, "grad_norm": 2.0624735355377197, "learning_rate": 1.8820355082295364e-05, "loss": 0.5895, "step": 2165 }, { "epoch": 0.722, "grad_norm": 1.726669430732727, "learning_rate": 1.881852693144348e-05, "loss": 0.5556, "step": 2166 }, { "epoch": 0.7223333333333334, "grad_norm": 1.6995861530303955, "learning_rate": 1.881669745403511e-05, "loss": 0.5476, "step": 2167 }, { "epoch": 0.7226666666666667, "grad_norm": 1.605146050453186, "learning_rate": 1.8814866650345455e-05, "loss": 0.5477, "step": 2168 }, { "epoch": 0.723, "grad_norm": 1.7791026830673218, "learning_rate": 1.8813034520649923e-05, "loss": 0.532, "step": 2169 }, { "epoch": 0.7233333333333334, "grad_norm": 1.852174162864685, "learning_rate": 1.8811201065224122e-05, "loss": 0.5414, "step": 2170 }, { "epoch": 0.7236666666666667, "grad_norm": 1.7012200355529785, "learning_rate": 1.8809366284343848e-05, "loss": 0.5438, "step": 2171 }, { "epoch": 0.724, "grad_norm": 1.6955254077911377, "learning_rate": 1.880753017828511e-05, "loss": 0.6176, "step": 2172 }, { "epoch": 0.7243333333333334, "grad_norm": 1.6132593154907227, "learning_rate": 1.88056927473241e-05, "loss": 0.5346, "step": 2173 }, { "epoch": 0.7246666666666667, "grad_norm": 2.0301737785339355, "learning_rate": 1.880385399173724e-05, "loss": 0.5615, "step": 2174 }, { "epoch": 0.725, "grad_norm": 1.4682117700576782, "learning_rate": 1.880201391180111e-05, "loss": 0.5575, "step": 2175 }, { "epoch": 0.7253333333333334, "grad_norm": 2.3218801021575928, "learning_rate": 1.880017250779253e-05, "loss": 0.5663, "step": 2176 }, { "epoch": 0.7256666666666667, "grad_norm": 1.6622506380081177, "learning_rate": 1.879832977998848e-05, "loss": 0.5594, "step": 2177 }, { "epoch": 0.726, "grad_norm": 1.9558353424072266, "learning_rate": 1.879648572866617e-05, "loss": 0.5797, "step": 2178 }, { "epoch": 0.7263333333333334, "grad_norm": 2.0650851726531982, "learning_rate": 1.8794640354102988e-05, "loss": 0.6214, "step": 2179 }, { "epoch": 0.7266666666666667, "grad_norm": 1.7640857696533203, "learning_rate": 1.8792793656576544e-05, "loss": 0.478, "step": 2180 }, { "epoch": 0.727, "grad_norm": 2.132930040359497, "learning_rate": 1.8790945636364628e-05, "loss": 0.5777, "step": 2181 }, { "epoch": 0.7273333333333334, "grad_norm": 1.9229763746261597, "learning_rate": 1.878909629374523e-05, "loss": 0.5463, "step": 2182 }, { "epoch": 0.7276666666666667, "grad_norm": 1.7831907272338867, "learning_rate": 1.8787245628996548e-05, "loss": 0.555, "step": 2183 }, { "epoch": 0.728, "grad_norm": 1.9775806665420532, "learning_rate": 1.8785393642396976e-05, "loss": 0.5888, "step": 2184 }, { "epoch": 0.7283333333333334, "grad_norm": 1.8439579010009766, "learning_rate": 1.87835403342251e-05, "loss": 0.6042, "step": 2185 }, { "epoch": 0.7286666666666667, "grad_norm": 1.800899863243103, "learning_rate": 1.8781685704759716e-05, "loss": 0.5919, "step": 2186 }, { "epoch": 0.729, "grad_norm": 1.6839807033538818, "learning_rate": 1.8779829754279806e-05, "loss": 0.5986, "step": 2187 }, { "epoch": 0.7293333333333333, "grad_norm": 2.0785436630249023, "learning_rate": 1.8777972483064566e-05, "loss": 0.5854, "step": 2188 }, { "epoch": 0.7296666666666667, "grad_norm": 1.8054238557815552, "learning_rate": 1.8776113891393374e-05, "loss": 0.5805, "step": 2189 }, { "epoch": 0.73, "grad_norm": 2.034383535385132, "learning_rate": 1.877425397954582e-05, "loss": 0.5703, "step": 2190 }, { "epoch": 0.7303333333333333, "grad_norm": 1.8439607620239258, "learning_rate": 1.8772392747801687e-05, "loss": 0.5643, "step": 2191 }, { "epoch": 0.7306666666666667, "grad_norm": 1.901745080947876, "learning_rate": 1.8770530196440955e-05, "loss": 0.5281, "step": 2192 }, { "epoch": 0.731, "grad_norm": 1.680163025856018, "learning_rate": 1.876866632574381e-05, "loss": 0.5414, "step": 2193 }, { "epoch": 0.7313333333333333, "grad_norm": 2.0803167819976807, "learning_rate": 1.876680113599062e-05, "loss": 0.5798, "step": 2194 }, { "epoch": 0.7316666666666667, "grad_norm": 1.7921168804168701, "learning_rate": 1.876493462746197e-05, "loss": 0.5518, "step": 2195 }, { "epoch": 0.732, "grad_norm": 1.9223124980926514, "learning_rate": 1.8763066800438638e-05, "loss": 0.6066, "step": 2196 }, { "epoch": 0.7323333333333333, "grad_norm": 2.168189287185669, "learning_rate": 1.8761197655201592e-05, "loss": 0.552, "step": 2197 }, { "epoch": 0.7326666666666667, "grad_norm": 1.6304471492767334, "learning_rate": 1.8759327192032007e-05, "loss": 0.5542, "step": 2198 }, { "epoch": 0.733, "grad_norm": 2.267163038253784, "learning_rate": 1.875745541121126e-05, "loss": 0.6072, "step": 2199 }, { "epoch": 0.7333333333333333, "grad_norm": 1.8281627893447876, "learning_rate": 1.8755582313020912e-05, "loss": 0.5521, "step": 2200 }, { "epoch": 0.7336666666666667, "grad_norm": 2.2135534286499023, "learning_rate": 1.8753707897742732e-05, "loss": 0.5377, "step": 2201 }, { "epoch": 0.734, "grad_norm": 1.8439853191375732, "learning_rate": 1.8751832165658682e-05, "loss": 0.5498, "step": 2202 }, { "epoch": 0.7343333333333333, "grad_norm": 1.9475177526474, "learning_rate": 1.874995511705093e-05, "loss": 0.5528, "step": 2203 }, { "epoch": 0.7346666666666667, "grad_norm": 1.7557822465896606, "learning_rate": 1.8748076752201837e-05, "loss": 0.5375, "step": 2204 }, { "epoch": 0.735, "grad_norm": 1.6403133869171143, "learning_rate": 1.874619707139396e-05, "loss": 0.512, "step": 2205 }, { "epoch": 0.7353333333333333, "grad_norm": 1.9532490968704224, "learning_rate": 1.874431607491006e-05, "loss": 0.5259, "step": 2206 }, { "epoch": 0.7356666666666667, "grad_norm": 2.6827540397644043, "learning_rate": 1.8742433763033085e-05, "loss": 0.5348, "step": 2207 }, { "epoch": 0.736, "grad_norm": 1.8797560930252075, "learning_rate": 1.8740550136046195e-05, "loss": 0.5899, "step": 2208 }, { "epoch": 0.7363333333333333, "grad_norm": 2.3218486309051514, "learning_rate": 1.8738665194232744e-05, "loss": 0.5931, "step": 2209 }, { "epoch": 0.7366666666666667, "grad_norm": 1.7182762622833252, "learning_rate": 1.873677893787627e-05, "loss": 0.5602, "step": 2210 }, { "epoch": 0.737, "grad_norm": 2.0669355392456055, "learning_rate": 1.8734891367260528e-05, "loss": 0.5454, "step": 2211 }, { "epoch": 0.7373333333333333, "grad_norm": 1.96034574508667, "learning_rate": 1.8733002482669457e-05, "loss": 0.5615, "step": 2212 }, { "epoch": 0.7376666666666667, "grad_norm": 1.9094692468643188, "learning_rate": 1.87311122843872e-05, "loss": 0.5917, "step": 2213 }, { "epoch": 0.738, "grad_norm": 1.838826060295105, "learning_rate": 1.8729220772698096e-05, "loss": 0.5672, "step": 2214 }, { "epoch": 0.7383333333333333, "grad_norm": 1.6768696308135986, "learning_rate": 1.872732794788669e-05, "loss": 0.491, "step": 2215 }, { "epoch": 0.7386666666666667, "grad_norm": 2.0375819206237793, "learning_rate": 1.8725433810237703e-05, "loss": 0.5805, "step": 2216 }, { "epoch": 0.739, "grad_norm": 1.6716399192810059, "learning_rate": 1.872353836003608e-05, "loss": 0.5782, "step": 2217 }, { "epoch": 0.7393333333333333, "grad_norm": 1.9901493787765503, "learning_rate": 1.8721641597566937e-05, "loss": 0.6337, "step": 2218 }, { "epoch": 0.7396666666666667, "grad_norm": 1.8798044919967651, "learning_rate": 1.8719743523115612e-05, "loss": 0.5955, "step": 2219 }, { "epoch": 0.74, "grad_norm": 1.9350297451019287, "learning_rate": 1.8717844136967626e-05, "loss": 0.5481, "step": 2220 }, { "epoch": 0.7403333333333333, "grad_norm": 1.6794553995132446, "learning_rate": 1.8715943439408698e-05, "loss": 0.6047, "step": 2221 }, { "epoch": 0.7406666666666667, "grad_norm": 1.9446078538894653, "learning_rate": 1.871404143072475e-05, "loss": 0.5318, "step": 2222 }, { "epoch": 0.741, "grad_norm": 2.142583131790161, "learning_rate": 1.8712138111201898e-05, "loss": 0.5341, "step": 2223 }, { "epoch": 0.7413333333333333, "grad_norm": 2.5452725887298584, "learning_rate": 1.871023348112645e-05, "loss": 0.5293, "step": 2224 }, { "epoch": 0.7416666666666667, "grad_norm": 1.646480679512024, "learning_rate": 1.870832754078492e-05, "loss": 0.5863, "step": 2225 }, { "epoch": 0.742, "grad_norm": 2.0577964782714844, "learning_rate": 1.870642029046402e-05, "loss": 0.5287, "step": 2226 }, { "epoch": 0.7423333333333333, "grad_norm": 2.5461041927337646, "learning_rate": 1.8704511730450646e-05, "loss": 0.5765, "step": 2227 }, { "epoch": 0.7426666666666667, "grad_norm": 2.3957419395446777, "learning_rate": 1.8702601861031907e-05, "loss": 0.5854, "step": 2228 }, { "epoch": 0.743, "grad_norm": 2.1979353427886963, "learning_rate": 1.87006906824951e-05, "loss": 0.5957, "step": 2229 }, { "epoch": 0.7433333333333333, "grad_norm": 1.6933979988098145, "learning_rate": 1.8698778195127715e-05, "loss": 0.5181, "step": 2230 }, { "epoch": 0.7436666666666667, "grad_norm": 1.8070861101150513, "learning_rate": 1.8696864399217452e-05, "loss": 0.5326, "step": 2231 }, { "epoch": 0.744, "grad_norm": 2.7960495948791504, "learning_rate": 1.869494929505219e-05, "loss": 0.5575, "step": 2232 }, { "epoch": 0.7443333333333333, "grad_norm": 2.390216588973999, "learning_rate": 1.869303288292003e-05, "loss": 0.6007, "step": 2233 }, { "epoch": 0.7446666666666667, "grad_norm": 1.8040499687194824, "learning_rate": 1.8691115163109237e-05, "loss": 0.5629, "step": 2234 }, { "epoch": 0.745, "grad_norm": 1.6371700763702393, "learning_rate": 1.8689196135908303e-05, "loss": 0.574, "step": 2235 }, { "epoch": 0.7453333333333333, "grad_norm": 1.871350646018982, "learning_rate": 1.86872758016059e-05, "loss": 0.5751, "step": 2236 }, { "epoch": 0.7456666666666667, "grad_norm": 1.9867359399795532, "learning_rate": 1.8685354160490903e-05, "loss": 0.5862, "step": 2237 }, { "epoch": 0.746, "grad_norm": 2.6972033977508545, "learning_rate": 1.868343121285238e-05, "loss": 0.6119, "step": 2238 }, { "epoch": 0.7463333333333333, "grad_norm": 1.7179450988769531, "learning_rate": 1.8681506958979593e-05, "loss": 0.582, "step": 2239 }, { "epoch": 0.7466666666666667, "grad_norm": 1.5624136924743652, "learning_rate": 1.8679581399162008e-05, "loss": 0.513, "step": 2240 }, { "epoch": 0.747, "grad_norm": 1.9696167707443237, "learning_rate": 1.8677654533689287e-05, "loss": 0.5892, "step": 2241 }, { "epoch": 0.7473333333333333, "grad_norm": 3.0517308712005615, "learning_rate": 1.867572636285128e-05, "loss": 0.6371, "step": 2242 }, { "epoch": 0.7476666666666667, "grad_norm": 1.7287601232528687, "learning_rate": 1.8673796886938038e-05, "loss": 0.5062, "step": 2243 }, { "epoch": 0.748, "grad_norm": 1.5444921255111694, "learning_rate": 1.8671866106239812e-05, "loss": 0.5301, "step": 2244 }, { "epoch": 0.7483333333333333, "grad_norm": 1.9012274742126465, "learning_rate": 1.8669934021047046e-05, "loss": 0.5611, "step": 2245 }, { "epoch": 0.7486666666666667, "grad_norm": 1.6552929878234863, "learning_rate": 1.8668000631650383e-05, "loss": 0.5201, "step": 2246 }, { "epoch": 0.749, "grad_norm": 2.084096908569336, "learning_rate": 1.866606593834065e-05, "loss": 0.5849, "step": 2247 }, { "epoch": 0.7493333333333333, "grad_norm": 1.927965760231018, "learning_rate": 1.866412994140889e-05, "loss": 0.5666, "step": 2248 }, { "epoch": 0.7496666666666667, "grad_norm": 1.9041293859481812, "learning_rate": 1.866219264114633e-05, "loss": 0.515, "step": 2249 }, { "epoch": 0.75, "grad_norm": 1.6050971746444702, "learning_rate": 1.866025403784439e-05, "loss": 0.5658, "step": 2250 }, { "epoch": 0.7503333333333333, "grad_norm": 1.9610923528671265, "learning_rate": 1.865831413179469e-05, "loss": 0.5527, "step": 2251 }, { "epoch": 0.7506666666666667, "grad_norm": 1.7477715015411377, "learning_rate": 1.8656372923289057e-05, "loss": 0.5278, "step": 2252 }, { "epoch": 0.751, "grad_norm": 2.018503189086914, "learning_rate": 1.8654430412619494e-05, "loss": 0.5477, "step": 2253 }, { "epoch": 0.7513333333333333, "grad_norm": 1.8837844133377075, "learning_rate": 1.865248660007821e-05, "loss": 0.542, "step": 2254 }, { "epoch": 0.7516666666666667, "grad_norm": 1.8015161752700806, "learning_rate": 1.8650541485957617e-05, "loss": 0.5204, "step": 2255 }, { "epoch": 0.752, "grad_norm": 2.2271530628204346, "learning_rate": 1.8648595070550312e-05, "loss": 0.5817, "step": 2256 }, { "epoch": 0.7523333333333333, "grad_norm": 1.708724021911621, "learning_rate": 1.8646647354149087e-05, "loss": 0.5784, "step": 2257 }, { "epoch": 0.7526666666666667, "grad_norm": 1.8925034999847412, "learning_rate": 1.8644698337046935e-05, "loss": 0.5982, "step": 2258 }, { "epoch": 0.753, "grad_norm": 1.8197609186172485, "learning_rate": 1.864274801953705e-05, "loss": 0.5265, "step": 2259 }, { "epoch": 0.7533333333333333, "grad_norm": 1.674228310585022, "learning_rate": 1.8640796401912805e-05, "loss": 0.5562, "step": 2260 }, { "epoch": 0.7536666666666667, "grad_norm": 1.6006112098693848, "learning_rate": 1.8638843484467788e-05, "loss": 0.5574, "step": 2261 }, { "epoch": 0.754, "grad_norm": 2.0349948406219482, "learning_rate": 1.8636889267495767e-05, "loss": 0.5785, "step": 2262 }, { "epoch": 0.7543333333333333, "grad_norm": 1.7714308500289917, "learning_rate": 1.8634933751290713e-05, "loss": 0.5823, "step": 2263 }, { "epoch": 0.7546666666666667, "grad_norm": 2.2393484115600586, "learning_rate": 1.8632976936146794e-05, "loss": 0.5113, "step": 2264 }, { "epoch": 0.755, "grad_norm": 1.900481939315796, "learning_rate": 1.8631018822358363e-05, "loss": 0.5942, "step": 2265 }, { "epoch": 0.7553333333333333, "grad_norm": 1.6770048141479492, "learning_rate": 1.8629059410219986e-05, "loss": 0.4937, "step": 2266 }, { "epoch": 0.7556666666666667, "grad_norm": 2.318620204925537, "learning_rate": 1.862709870002641e-05, "loss": 0.5356, "step": 2267 }, { "epoch": 0.756, "grad_norm": 1.992735743522644, "learning_rate": 1.8625136692072577e-05, "loss": 0.5773, "step": 2268 }, { "epoch": 0.7563333333333333, "grad_norm": 2.175776243209839, "learning_rate": 1.862317338665363e-05, "loss": 0.5916, "step": 2269 }, { "epoch": 0.7566666666666667, "grad_norm": 1.8722481727600098, "learning_rate": 1.8621208784064913e-05, "loss": 0.5532, "step": 2270 }, { "epoch": 0.757, "grad_norm": 1.8901983499526978, "learning_rate": 1.8619242884601953e-05, "loss": 0.5477, "step": 2271 }, { "epoch": 0.7573333333333333, "grad_norm": 2.265058994293213, "learning_rate": 1.8617275688560473e-05, "loss": 0.5267, "step": 2272 }, { "epoch": 0.7576666666666667, "grad_norm": 2.1035256385803223, "learning_rate": 1.8615307196236402e-05, "loss": 0.5107, "step": 2273 }, { "epoch": 0.758, "grad_norm": 2.2077574729919434, "learning_rate": 1.8613337407925854e-05, "loss": 0.5318, "step": 2274 }, { "epoch": 0.7583333333333333, "grad_norm": 2.489492177963257, "learning_rate": 1.8611366323925138e-05, "loss": 0.5819, "step": 2275 }, { "epoch": 0.7586666666666667, "grad_norm": 2.199556350708008, "learning_rate": 1.8609393944530765e-05, "loss": 0.5955, "step": 2276 }, { "epoch": 0.759, "grad_norm": 2.2557411193847656, "learning_rate": 1.860742027003944e-05, "loss": 0.5912, "step": 2277 }, { "epoch": 0.7593333333333333, "grad_norm": 1.9559897184371948, "learning_rate": 1.860544530074805e-05, "loss": 0.5491, "step": 2278 }, { "epoch": 0.7596666666666667, "grad_norm": 2.1367266178131104, "learning_rate": 1.8603469036953694e-05, "loss": 0.5145, "step": 2279 }, { "epoch": 0.76, "grad_norm": 2.057675838470459, "learning_rate": 1.860149147895366e-05, "loss": 0.5334, "step": 2280 }, { "epoch": 0.7603333333333333, "grad_norm": 2.372938394546509, "learning_rate": 1.8599512627045416e-05, "loss": 0.6242, "step": 2281 }, { "epoch": 0.7606666666666667, "grad_norm": 1.9466214179992676, "learning_rate": 1.8597532481526647e-05, "loss": 0.5248, "step": 2282 }, { "epoch": 0.761, "grad_norm": 1.9531055688858032, "learning_rate": 1.859555104269523e-05, "loss": 0.5826, "step": 2283 }, { "epoch": 0.7613333333333333, "grad_norm": 1.861224889755249, "learning_rate": 1.8593568310849216e-05, "loss": 0.5456, "step": 2284 }, { "epoch": 0.7616666666666667, "grad_norm": 1.9414621591567993, "learning_rate": 1.859158428628687e-05, "loss": 0.5636, "step": 2285 }, { "epoch": 0.762, "grad_norm": 2.444556951522827, "learning_rate": 1.8589598969306646e-05, "loss": 0.572, "step": 2286 }, { "epoch": 0.7623333333333333, "grad_norm": 2.002796173095703, "learning_rate": 1.858761236020719e-05, "loss": 0.5605, "step": 2287 }, { "epoch": 0.7626666666666667, "grad_norm": 1.8327915668487549, "learning_rate": 1.858562445928735e-05, "loss": 0.5536, "step": 2288 }, { "epoch": 0.763, "grad_norm": 1.8785024881362915, "learning_rate": 1.8583635266846155e-05, "loss": 0.5792, "step": 2289 }, { "epoch": 0.7633333333333333, "grad_norm": 1.9350024461746216, "learning_rate": 1.8581644783182837e-05, "loss": 0.5644, "step": 2290 }, { "epoch": 0.7636666666666667, "grad_norm": 2.2873668670654297, "learning_rate": 1.8579653008596828e-05, "loss": 0.5659, "step": 2291 }, { "epoch": 0.764, "grad_norm": 1.975070595741272, "learning_rate": 1.8577659943387737e-05, "loss": 0.5022, "step": 2292 }, { "epoch": 0.7643333333333333, "grad_norm": 1.8764017820358276, "learning_rate": 1.8575665587855387e-05, "loss": 0.5787, "step": 2293 }, { "epoch": 0.7646666666666667, "grad_norm": 1.769152283668518, "learning_rate": 1.8573669942299783e-05, "loss": 0.6065, "step": 2294 }, { "epoch": 0.765, "grad_norm": 1.6666793823242188, "learning_rate": 1.8571673007021124e-05, "loss": 0.5692, "step": 2295 }, { "epoch": 0.7653333333333333, "grad_norm": 1.8872841596603394, "learning_rate": 1.8569674782319808e-05, "loss": 0.5004, "step": 2296 }, { "epoch": 0.7656666666666667, "grad_norm": 1.5866657495498657, "learning_rate": 1.8567675268496424e-05, "loss": 0.5768, "step": 2297 }, { "epoch": 0.766, "grad_norm": 2.098783493041992, "learning_rate": 1.8565674465851753e-05, "loss": 0.5674, "step": 2298 }, { "epoch": 0.7663333333333333, "grad_norm": 1.6318126916885376, "learning_rate": 1.856367237468678e-05, "loss": 0.5337, "step": 2299 }, { "epoch": 0.7666666666666667, "grad_norm": 1.9342176914215088, "learning_rate": 1.8561668995302668e-05, "loss": 0.5621, "step": 2300 }, { "epoch": 0.767, "grad_norm": 1.6295939683914185, "learning_rate": 1.8559664328000782e-05, "loss": 0.5624, "step": 2301 }, { "epoch": 0.7673333333333333, "grad_norm": 1.7216784954071045, "learning_rate": 1.855765837308269e-05, "loss": 0.4795, "step": 2302 }, { "epoch": 0.7676666666666667, "grad_norm": 2.1899311542510986, "learning_rate": 1.8555651130850133e-05, "loss": 0.5466, "step": 2303 }, { "epoch": 0.768, "grad_norm": 1.9438992738723755, "learning_rate": 1.855364260160507e-05, "loss": 0.6035, "step": 2304 }, { "epoch": 0.7683333333333333, "grad_norm": 1.8282763957977295, "learning_rate": 1.8551632785649626e-05, "loss": 0.5065, "step": 2305 }, { "epoch": 0.7686666666666667, "grad_norm": 1.9945015907287598, "learning_rate": 1.8549621683286147e-05, "loss": 0.5685, "step": 2306 }, { "epoch": 0.769, "grad_norm": 1.8449575901031494, "learning_rate": 1.854760929481715e-05, "loss": 0.6001, "step": 2307 }, { "epoch": 0.7693333333333333, "grad_norm": 1.7508878707885742, "learning_rate": 1.8545595620545364e-05, "loss": 0.5482, "step": 2308 }, { "epoch": 0.7696666666666667, "grad_norm": 1.6997336149215698, "learning_rate": 1.8543580660773697e-05, "loss": 0.5343, "step": 2309 }, { "epoch": 0.77, "grad_norm": 1.661829948425293, "learning_rate": 1.854156441580526e-05, "loss": 0.5484, "step": 2310 }, { "epoch": 0.7703333333333333, "grad_norm": 1.8406507968902588, "learning_rate": 1.8539546885943344e-05, "loss": 0.5308, "step": 2311 }, { "epoch": 0.7706666666666667, "grad_norm": 2.434461832046509, "learning_rate": 1.8537528071491454e-05, "loss": 0.5544, "step": 2312 }, { "epoch": 0.771, "grad_norm": 2.3931291103363037, "learning_rate": 1.8535507972753275e-05, "loss": 0.6086, "step": 2313 }, { "epoch": 0.7713333333333333, "grad_norm": 1.8715115785598755, "learning_rate": 1.8533486590032685e-05, "loss": 0.5804, "step": 2314 }, { "epoch": 0.7716666666666666, "grad_norm": 2.3086602687835693, "learning_rate": 1.8531463923633754e-05, "loss": 0.5594, "step": 2315 }, { "epoch": 0.772, "grad_norm": 1.9205249547958374, "learning_rate": 1.852943997386075e-05, "loss": 0.588, "step": 2316 }, { "epoch": 0.7723333333333333, "grad_norm": 1.8763960599899292, "learning_rate": 1.852741474101814e-05, "loss": 0.5469, "step": 2317 }, { "epoch": 0.7726666666666666, "grad_norm": 1.5537322759628296, "learning_rate": 1.8525388225410566e-05, "loss": 0.5091, "step": 2318 }, { "epoch": 0.773, "grad_norm": 2.0114495754241943, "learning_rate": 1.8523360427342877e-05, "loss": 0.5232, "step": 2319 }, { "epoch": 0.7733333333333333, "grad_norm": 2.314218521118164, "learning_rate": 1.8521331347120116e-05, "loss": 0.5473, "step": 2320 }, { "epoch": 0.7736666666666666, "grad_norm": 2.3275744915008545, "learning_rate": 1.8519300985047507e-05, "loss": 0.5652, "step": 2321 }, { "epoch": 0.774, "grad_norm": 1.5608984231948853, "learning_rate": 1.851726934143048e-05, "loss": 0.5458, "step": 2322 }, { "epoch": 0.7743333333333333, "grad_norm": 1.8653578758239746, "learning_rate": 1.8515236416574646e-05, "loss": 0.5614, "step": 2323 }, { "epoch": 0.7746666666666666, "grad_norm": 1.869282841682434, "learning_rate": 1.8513202210785816e-05, "loss": 0.5949, "step": 2324 }, { "epoch": 0.775, "grad_norm": 1.902492642402649, "learning_rate": 1.8511166724369997e-05, "loss": 0.5479, "step": 2325 }, { "epoch": 0.7753333333333333, "grad_norm": 1.773000955581665, "learning_rate": 1.850912995763338e-05, "loss": 0.6056, "step": 2326 }, { "epoch": 0.7756666666666666, "grad_norm": 1.950681447982788, "learning_rate": 1.8507091910882355e-05, "loss": 0.4932, "step": 2327 }, { "epoch": 0.776, "grad_norm": 1.8024152517318726, "learning_rate": 1.85050525844235e-05, "loss": 0.5521, "step": 2328 }, { "epoch": 0.7763333333333333, "grad_norm": 1.7620480060577393, "learning_rate": 1.8503011978563587e-05, "loss": 0.5223, "step": 2329 }, { "epoch": 0.7766666666666666, "grad_norm": 1.8880044221878052, "learning_rate": 1.850097009360958e-05, "loss": 0.6162, "step": 2330 }, { "epoch": 0.777, "grad_norm": 1.6990065574645996, "learning_rate": 1.849892692986864e-05, "loss": 0.5422, "step": 2331 }, { "epoch": 0.7773333333333333, "grad_norm": 1.647261381149292, "learning_rate": 1.8496882487648116e-05, "loss": 0.5234, "step": 2332 }, { "epoch": 0.7776666666666666, "grad_norm": 1.7681612968444824, "learning_rate": 1.8494836767255545e-05, "loss": 0.5402, "step": 2333 }, { "epoch": 0.778, "grad_norm": 1.6687946319580078, "learning_rate": 1.8492789768998668e-05, "loss": 0.4822, "step": 2334 }, { "epoch": 0.7783333333333333, "grad_norm": 1.8622255325317383, "learning_rate": 1.8490741493185412e-05, "loss": 0.5663, "step": 2335 }, { "epoch": 0.7786666666666666, "grad_norm": 1.594354510307312, "learning_rate": 1.8488691940123888e-05, "loss": 0.5804, "step": 2336 }, { "epoch": 0.779, "grad_norm": 1.7686771154403687, "learning_rate": 1.848664111012241e-05, "loss": 0.5248, "step": 2337 }, { "epoch": 0.7793333333333333, "grad_norm": 2.1127398014068604, "learning_rate": 1.8484589003489487e-05, "loss": 0.5043, "step": 2338 }, { "epoch": 0.7796666666666666, "grad_norm": 2.243894338607788, "learning_rate": 1.8482535620533807e-05, "loss": 0.5622, "step": 2339 }, { "epoch": 0.78, "grad_norm": 1.7473294734954834, "learning_rate": 1.848048096156426e-05, "loss": 0.5554, "step": 2340 }, { "epoch": 0.7803333333333333, "grad_norm": 1.8459924459457397, "learning_rate": 1.8478425026889926e-05, "loss": 0.5765, "step": 2341 }, { "epoch": 0.7806666666666666, "grad_norm": 2.0093462467193604, "learning_rate": 1.8476367816820073e-05, "loss": 0.541, "step": 2342 }, { "epoch": 0.781, "grad_norm": 1.809410810470581, "learning_rate": 1.8474309331664165e-05, "loss": 0.5384, "step": 2343 }, { "epoch": 0.7813333333333333, "grad_norm": 2.319823741912842, "learning_rate": 1.847224957173186e-05, "loss": 0.5814, "step": 2344 }, { "epoch": 0.7816666666666666, "grad_norm": 1.7045223712921143, "learning_rate": 1.8470188537332997e-05, "loss": 0.5553, "step": 2345 }, { "epoch": 0.782, "grad_norm": 2.259972095489502, "learning_rate": 1.8468126228777617e-05, "loss": 0.5486, "step": 2346 }, { "epoch": 0.7823333333333333, "grad_norm": 1.6059082746505737, "learning_rate": 1.8466062646375953e-05, "loss": 0.529, "step": 2347 }, { "epoch": 0.7826666666666666, "grad_norm": 2.0995945930480957, "learning_rate": 1.8463997790438424e-05, "loss": 0.512, "step": 2348 }, { "epoch": 0.783, "grad_norm": 2.3176448345184326, "learning_rate": 1.8461931661275642e-05, "loss": 0.5629, "step": 2349 }, { "epoch": 0.7833333333333333, "grad_norm": 1.7015154361724854, "learning_rate": 1.845986425919841e-05, "loss": 0.4933, "step": 2350 }, { "epoch": 0.7836666666666666, "grad_norm": 1.6473286151885986, "learning_rate": 1.845779558451773e-05, "loss": 0.5778, "step": 2351 }, { "epoch": 0.784, "grad_norm": 1.4769898653030396, "learning_rate": 1.8455725637544784e-05, "loss": 0.5522, "step": 2352 }, { "epoch": 0.7843333333333333, "grad_norm": 1.9907476902008057, "learning_rate": 1.8453654418590953e-05, "loss": 0.5212, "step": 2353 }, { "epoch": 0.7846666666666666, "grad_norm": 1.61249577999115, "learning_rate": 1.8451581927967805e-05, "loss": 0.5897, "step": 2354 }, { "epoch": 0.785, "grad_norm": 1.779658555984497, "learning_rate": 1.8449508165987106e-05, "loss": 0.522, "step": 2355 }, { "epoch": 0.7853333333333333, "grad_norm": 2.185575246810913, "learning_rate": 1.84474331329608e-05, "loss": 0.5719, "step": 2356 }, { "epoch": 0.7856666666666666, "grad_norm": 1.815730094909668, "learning_rate": 1.8445356829201038e-05, "loss": 0.588, "step": 2357 }, { "epoch": 0.786, "grad_norm": 2.0841712951660156, "learning_rate": 1.8443279255020153e-05, "loss": 0.549, "step": 2358 }, { "epoch": 0.7863333333333333, "grad_norm": 2.032515048980713, "learning_rate": 1.844120041073067e-05, "loss": 0.5024, "step": 2359 }, { "epoch": 0.7866666666666666, "grad_norm": 2.0411319732666016, "learning_rate": 1.843912029664531e-05, "loss": 0.5469, "step": 2360 }, { "epoch": 0.787, "grad_norm": 1.986033320426941, "learning_rate": 1.8437038913076974e-05, "loss": 0.5245, "step": 2361 }, { "epoch": 0.7873333333333333, "grad_norm": 1.736281394958496, "learning_rate": 1.8434956260338766e-05, "loss": 0.5824, "step": 2362 }, { "epoch": 0.7876666666666666, "grad_norm": 1.8310120105743408, "learning_rate": 1.8432872338743977e-05, "loss": 0.5864, "step": 2363 }, { "epoch": 0.788, "grad_norm": 2.1789634227752686, "learning_rate": 1.8430787148606087e-05, "loss": 0.5413, "step": 2364 }, { "epoch": 0.7883333333333333, "grad_norm": 2.2370550632476807, "learning_rate": 1.842870069023877e-05, "loss": 0.5583, "step": 2365 }, { "epoch": 0.7886666666666666, "grad_norm": 1.9931237697601318, "learning_rate": 1.8426612963955878e-05, "loss": 0.5507, "step": 2366 }, { "epoch": 0.789, "grad_norm": 1.782211422920227, "learning_rate": 1.842452397007148e-05, "loss": 0.5759, "step": 2367 }, { "epoch": 0.7893333333333333, "grad_norm": 1.9567087888717651, "learning_rate": 1.8422433708899806e-05, "loss": 0.5818, "step": 2368 }, { "epoch": 0.7896666666666666, "grad_norm": 2.0430641174316406, "learning_rate": 1.8420342180755295e-05, "loss": 0.5791, "step": 2369 }, { "epoch": 0.79, "grad_norm": 1.5657299757003784, "learning_rate": 1.8418249385952575e-05, "loss": 0.5199, "step": 2370 }, { "epoch": 0.7903333333333333, "grad_norm": 1.7486547231674194, "learning_rate": 1.841615532480646e-05, "loss": 0.5776, "step": 2371 }, { "epoch": 0.7906666666666666, "grad_norm": 1.8467506170272827, "learning_rate": 1.8414059997631958e-05, "loss": 0.5506, "step": 2372 }, { "epoch": 0.791, "grad_norm": 2.330566883087158, "learning_rate": 1.8411963404744263e-05, "loss": 0.5456, "step": 2373 }, { "epoch": 0.7913333333333333, "grad_norm": 1.982193946838379, "learning_rate": 1.840986554645876e-05, "loss": 0.4956, "step": 2374 }, { "epoch": 0.7916666666666666, "grad_norm": 1.7394826412200928, "learning_rate": 1.8407766423091033e-05, "loss": 0.5462, "step": 2375 }, { "epoch": 0.792, "grad_norm": 1.9288429021835327, "learning_rate": 1.8405666034956842e-05, "loss": 0.546, "step": 2376 }, { "epoch": 0.7923333333333333, "grad_norm": 1.6435233354568481, "learning_rate": 1.8403564382372156e-05, "loss": 0.5229, "step": 2377 }, { "epoch": 0.7926666666666666, "grad_norm": 1.5581005811691284, "learning_rate": 1.840146146565311e-05, "loss": 0.4945, "step": 2378 }, { "epoch": 0.793, "grad_norm": 1.7418032884597778, "learning_rate": 1.8399357285116045e-05, "loss": 0.5419, "step": 2379 }, { "epoch": 0.7933333333333333, "grad_norm": 1.6758012771606445, "learning_rate": 1.83972518410775e-05, "loss": 0.5615, "step": 2380 }, { "epoch": 0.7936666666666666, "grad_norm": 2.068281412124634, "learning_rate": 1.8395145133854183e-05, "loss": 0.5111, "step": 2381 }, { "epoch": 0.794, "grad_norm": 1.9209685325622559, "learning_rate": 1.8393037163763005e-05, "loss": 0.5526, "step": 2382 }, { "epoch": 0.7943333333333333, "grad_norm": 1.8088747262954712, "learning_rate": 1.8390927931121063e-05, "loss": 0.5559, "step": 2383 }, { "epoch": 0.7946666666666666, "grad_norm": 1.628767728805542, "learning_rate": 1.838881743624565e-05, "loss": 0.5394, "step": 2384 }, { "epoch": 0.795, "grad_norm": 2.2441728115081787, "learning_rate": 1.8386705679454243e-05, "loss": 0.5731, "step": 2385 }, { "epoch": 0.7953333333333333, "grad_norm": 1.8494179248809814, "learning_rate": 1.8384592661064507e-05, "loss": 0.4876, "step": 2386 }, { "epoch": 0.7956666666666666, "grad_norm": 1.9975814819335938, "learning_rate": 1.8382478381394303e-05, "loss": 0.5124, "step": 2387 }, { "epoch": 0.796, "grad_norm": 2.6687216758728027, "learning_rate": 1.8380362840761675e-05, "loss": 0.5888, "step": 2388 }, { "epoch": 0.7963333333333333, "grad_norm": 1.7871829271316528, "learning_rate": 1.8378246039484863e-05, "loss": 0.5347, "step": 2389 }, { "epoch": 0.7966666666666666, "grad_norm": 2.1465303897857666, "learning_rate": 1.8376127977882294e-05, "loss": 0.5531, "step": 2390 }, { "epoch": 0.797, "grad_norm": 3.2463088035583496, "learning_rate": 1.8374008656272585e-05, "loss": 0.5889, "step": 2391 }, { "epoch": 0.7973333333333333, "grad_norm": 1.7677525281906128, "learning_rate": 1.8371888074974542e-05, "loss": 0.5488, "step": 2392 }, { "epoch": 0.7976666666666666, "grad_norm": 2.0891714096069336, "learning_rate": 1.8369766234307157e-05, "loss": 0.4835, "step": 2393 }, { "epoch": 0.798, "grad_norm": 2.1288113594055176, "learning_rate": 1.836764313458962e-05, "loss": 0.5256, "step": 2394 }, { "epoch": 0.7983333333333333, "grad_norm": 2.379441261291504, "learning_rate": 1.83655187761413e-05, "loss": 0.5646, "step": 2395 }, { "epoch": 0.7986666666666666, "grad_norm": 1.7023520469665527, "learning_rate": 1.8363393159281766e-05, "loss": 0.5813, "step": 2396 }, { "epoch": 0.799, "grad_norm": 1.8804715871810913, "learning_rate": 1.836126628433077e-05, "loss": 0.5671, "step": 2397 }, { "epoch": 0.7993333333333333, "grad_norm": 1.6512447595596313, "learning_rate": 1.8359138151608248e-05, "loss": 0.563, "step": 2398 }, { "epoch": 0.7996666666666666, "grad_norm": 2.0183653831481934, "learning_rate": 1.835700876143434e-05, "loss": 0.5567, "step": 2399 }, { "epoch": 0.8, "grad_norm": 1.8930798768997192, "learning_rate": 1.8354878114129368e-05, "loss": 0.547, "step": 2400 }, { "epoch": 0.8003333333333333, "grad_norm": 1.7506349086761475, "learning_rate": 1.835274621001383e-05, "loss": 0.5891, "step": 2401 }, { "epoch": 0.8006666666666666, "grad_norm": 1.6338080167770386, "learning_rate": 1.8350613049408434e-05, "loss": 0.4967, "step": 2402 }, { "epoch": 0.801, "grad_norm": 1.878610372543335, "learning_rate": 1.8348478632634067e-05, "loss": 0.5223, "step": 2403 }, { "epoch": 0.8013333333333333, "grad_norm": 1.9342248439788818, "learning_rate": 1.8346342960011803e-05, "loss": 0.5544, "step": 2404 }, { "epoch": 0.8016666666666666, "grad_norm": 2.0390114784240723, "learning_rate": 1.834420603186291e-05, "loss": 0.5647, "step": 2405 }, { "epoch": 0.802, "grad_norm": 2.1157386302948, "learning_rate": 1.8342067848508843e-05, "loss": 0.5182, "step": 2406 }, { "epoch": 0.8023333333333333, "grad_norm": 1.7539840936660767, "learning_rate": 1.8339928410271244e-05, "loss": 0.5297, "step": 2407 }, { "epoch": 0.8026666666666666, "grad_norm": 2.000946283340454, "learning_rate": 1.8337787717471943e-05, "loss": 0.541, "step": 2408 }, { "epoch": 0.803, "grad_norm": 2.45479154586792, "learning_rate": 1.8335645770432963e-05, "loss": 0.5486, "step": 2409 }, { "epoch": 0.8033333333333333, "grad_norm": 2.3115415573120117, "learning_rate": 1.8333502569476516e-05, "loss": 0.5776, "step": 2410 }, { "epoch": 0.8036666666666666, "grad_norm": 2.677072286605835, "learning_rate": 1.8331358114925e-05, "loss": 0.5466, "step": 2411 }, { "epoch": 0.804, "grad_norm": 2.4678807258605957, "learning_rate": 1.8329212407100996e-05, "loss": 0.583, "step": 2412 }, { "epoch": 0.8043333333333333, "grad_norm": 2.7966387271881104, "learning_rate": 1.8327065446327285e-05, "loss": 0.5611, "step": 2413 }, { "epoch": 0.8046666666666666, "grad_norm": 2.051300048828125, "learning_rate": 1.8324917232926828e-05, "loss": 0.5658, "step": 2414 }, { "epoch": 0.805, "grad_norm": 1.8446922302246094, "learning_rate": 1.832276776722278e-05, "loss": 0.4899, "step": 2415 }, { "epoch": 0.8053333333333333, "grad_norm": 1.837646722793579, "learning_rate": 1.832061704953848e-05, "loss": 0.5301, "step": 2416 }, { "epoch": 0.8056666666666666, "grad_norm": 1.7871882915496826, "learning_rate": 1.831846508019745e-05, "loss": 0.5758, "step": 2417 }, { "epoch": 0.806, "grad_norm": 1.5823808908462524, "learning_rate": 1.831631185952342e-05, "loss": 0.5803, "step": 2418 }, { "epoch": 0.8063333333333333, "grad_norm": 1.8457412719726562, "learning_rate": 1.8314157387840287e-05, "loss": 0.5643, "step": 2419 }, { "epoch": 0.8066666666666666, "grad_norm": 1.414435625076294, "learning_rate": 1.8312001665472146e-05, "loss": 0.5237, "step": 2420 }, { "epoch": 0.807, "grad_norm": 1.630928874015808, "learning_rate": 1.8309844692743283e-05, "loss": 0.4833, "step": 2421 }, { "epoch": 0.8073333333333333, "grad_norm": 2.1187591552734375, "learning_rate": 1.8307686469978165e-05, "loss": 0.597, "step": 2422 }, { "epoch": 0.8076666666666666, "grad_norm": 1.693577766418457, "learning_rate": 1.8305526997501446e-05, "loss": 0.4959, "step": 2423 }, { "epoch": 0.808, "grad_norm": 1.7477424144744873, "learning_rate": 1.8303366275637977e-05, "loss": 0.5699, "step": 2424 }, { "epoch": 0.8083333333333333, "grad_norm": 2.161944627761841, "learning_rate": 1.830120430471279e-05, "loss": 0.5716, "step": 2425 }, { "epoch": 0.8086666666666666, "grad_norm": 1.6645187139511108, "learning_rate": 1.8299041085051104e-05, "loss": 0.4929, "step": 2426 }, { "epoch": 0.809, "grad_norm": 1.9207031726837158, "learning_rate": 1.8296876616978337e-05, "loss": 0.5397, "step": 2427 }, { "epoch": 0.8093333333333333, "grad_norm": 1.8530179262161255, "learning_rate": 1.8294710900820075e-05, "loss": 0.5589, "step": 2428 }, { "epoch": 0.8096666666666666, "grad_norm": 1.9295934438705444, "learning_rate": 1.8292543936902115e-05, "loss": 0.4905, "step": 2429 }, { "epoch": 0.81, "grad_norm": 1.8369306325912476, "learning_rate": 1.8290375725550417e-05, "loss": 0.5451, "step": 2430 }, { "epoch": 0.8103333333333333, "grad_norm": 1.6058080196380615, "learning_rate": 1.8288206267091154e-05, "loss": 0.5266, "step": 2431 }, { "epoch": 0.8106666666666666, "grad_norm": 1.8290953636169434, "learning_rate": 1.8286035561850662e-05, "loss": 0.5208, "step": 2432 }, { "epoch": 0.811, "grad_norm": 1.9480245113372803, "learning_rate": 1.828386361015549e-05, "loss": 0.5737, "step": 2433 }, { "epoch": 0.8113333333333334, "grad_norm": 1.8783857822418213, "learning_rate": 1.828169041233235e-05, "loss": 0.515, "step": 2434 }, { "epoch": 0.8116666666666666, "grad_norm": 2.065704822540283, "learning_rate": 1.8279515968708157e-05, "loss": 0.5801, "step": 2435 }, { "epoch": 0.812, "grad_norm": 1.8230012655258179, "learning_rate": 1.827734027961001e-05, "loss": 0.5796, "step": 2436 }, { "epoch": 0.8123333333333334, "grad_norm": 1.6576764583587646, "learning_rate": 1.827516334536519e-05, "loss": 0.5131, "step": 2437 }, { "epoch": 0.8126666666666666, "grad_norm": 2.0657291412353516, "learning_rate": 1.8272985166301175e-05, "loss": 0.5649, "step": 2438 }, { "epoch": 0.813, "grad_norm": 2.114457607269287, "learning_rate": 1.827080574274562e-05, "loss": 0.5304, "step": 2439 }, { "epoch": 0.8133333333333334, "grad_norm": 1.7170404195785522, "learning_rate": 1.8268625075026375e-05, "loss": 0.5569, "step": 2440 }, { "epoch": 0.8136666666666666, "grad_norm": 1.8796237707138062, "learning_rate": 1.8266443163471473e-05, "loss": 0.5386, "step": 2441 }, { "epoch": 0.814, "grad_norm": 1.9828717708587646, "learning_rate": 1.8264260008409138e-05, "loss": 0.5417, "step": 2442 }, { "epoch": 0.8143333333333334, "grad_norm": 1.561966896057129, "learning_rate": 1.8262075610167777e-05, "loss": 0.4885, "step": 2443 }, { "epoch": 0.8146666666666667, "grad_norm": 1.7462998628616333, "learning_rate": 1.8259889969075986e-05, "loss": 0.5255, "step": 2444 }, { "epoch": 0.815, "grad_norm": 1.935646414756775, "learning_rate": 1.8257703085462542e-05, "loss": 0.5988, "step": 2445 }, { "epoch": 0.8153333333333334, "grad_norm": 1.7111618518829346, "learning_rate": 1.8255514959656423e-05, "loss": 0.5251, "step": 2446 }, { "epoch": 0.8156666666666667, "grad_norm": 1.8115055561065674, "learning_rate": 1.825332559198678e-05, "loss": 0.5358, "step": 2447 }, { "epoch": 0.816, "grad_norm": 2.36824893951416, "learning_rate": 1.8251134982782952e-05, "loss": 0.5462, "step": 2448 }, { "epoch": 0.8163333333333334, "grad_norm": 1.8183144330978394, "learning_rate": 1.8248943132374477e-05, "loss": 0.5579, "step": 2449 }, { "epoch": 0.8166666666666667, "grad_norm": 2.30993914604187, "learning_rate": 1.824675004109107e-05, "loss": 0.5231, "step": 2450 }, { "epoch": 0.817, "grad_norm": 1.9620369672775269, "learning_rate": 1.8244555709262627e-05, "loss": 0.5517, "step": 2451 }, { "epoch": 0.8173333333333334, "grad_norm": 1.6170330047607422, "learning_rate": 1.8242360137219247e-05, "loss": 0.5611, "step": 2452 }, { "epoch": 0.8176666666666667, "grad_norm": 1.960506796836853, "learning_rate": 1.8240163325291203e-05, "loss": 0.5128, "step": 2453 }, { "epoch": 0.818, "grad_norm": 2.2660903930664062, "learning_rate": 1.823796527380895e-05, "loss": 0.5845, "step": 2454 }, { "epoch": 0.8183333333333334, "grad_norm": 2.312617301940918, "learning_rate": 1.8235765983103152e-05, "loss": 0.5142, "step": 2455 }, { "epoch": 0.8186666666666667, "grad_norm": 1.7058075666427612, "learning_rate": 1.8233565453504634e-05, "loss": 0.527, "step": 2456 }, { "epoch": 0.819, "grad_norm": 1.6510164737701416, "learning_rate": 1.8231363685344422e-05, "loss": 0.5506, "step": 2457 }, { "epoch": 0.8193333333333334, "grad_norm": 2.2238399982452393, "learning_rate": 1.8229160678953718e-05, "loss": 0.5584, "step": 2458 }, { "epoch": 0.8196666666666667, "grad_norm": 2.339526414871216, "learning_rate": 1.822695643466393e-05, "loss": 0.5775, "step": 2459 }, { "epoch": 0.82, "grad_norm": 1.8038766384124756, "learning_rate": 1.8224750952806626e-05, "loss": 0.5427, "step": 2460 }, { "epoch": 0.8203333333333334, "grad_norm": 1.887312889099121, "learning_rate": 1.8222544233713576e-05, "loss": 0.5804, "step": 2461 }, { "epoch": 0.8206666666666667, "grad_norm": 2.5048322677612305, "learning_rate": 1.8220336277716737e-05, "loss": 0.5082, "step": 2462 }, { "epoch": 0.821, "grad_norm": 1.922984004020691, "learning_rate": 1.8218127085148246e-05, "loss": 0.5459, "step": 2463 }, { "epoch": 0.8213333333333334, "grad_norm": 1.4447247982025146, "learning_rate": 1.821591665634043e-05, "loss": 0.5185, "step": 2464 }, { "epoch": 0.8216666666666667, "grad_norm": 1.951953411102295, "learning_rate": 1.8213704991625794e-05, "loss": 0.5566, "step": 2465 }, { "epoch": 0.822, "grad_norm": 1.744961142539978, "learning_rate": 1.821149209133704e-05, "loss": 0.5203, "step": 2466 }, { "epoch": 0.8223333333333334, "grad_norm": 2.270984411239624, "learning_rate": 1.8209277955807054e-05, "loss": 0.5345, "step": 2467 }, { "epoch": 0.8226666666666667, "grad_norm": 1.7916579246520996, "learning_rate": 1.82070625853689e-05, "loss": 0.5404, "step": 2468 }, { "epoch": 0.823, "grad_norm": 1.6158019304275513, "learning_rate": 1.8204845980355834e-05, "loss": 0.5212, "step": 2469 }, { "epoch": 0.8233333333333334, "grad_norm": 2.452906608581543, "learning_rate": 1.8202628141101294e-05, "loss": 0.5557, "step": 2470 }, { "epoch": 0.8236666666666667, "grad_norm": 2.2508983612060547, "learning_rate": 1.8200409067938907e-05, "loss": 0.5458, "step": 2471 }, { "epoch": 0.824, "grad_norm": 1.7826250791549683, "learning_rate": 1.8198188761202487e-05, "loss": 0.4544, "step": 2472 }, { "epoch": 0.8243333333333334, "grad_norm": 1.7506648302078247, "learning_rate": 1.8195967221226032e-05, "loss": 0.5364, "step": 2473 }, { "epoch": 0.8246666666666667, "grad_norm": 1.7523107528686523, "learning_rate": 1.819374444834372e-05, "loss": 0.5493, "step": 2474 }, { "epoch": 0.825, "grad_norm": 2.0434796810150146, "learning_rate": 1.819152044288992e-05, "loss": 0.5367, "step": 2475 }, { "epoch": 0.8253333333333334, "grad_norm": 2.2611372470855713, "learning_rate": 1.8189295205199188e-05, "loss": 0.5772, "step": 2476 }, { "epoch": 0.8256666666666667, "grad_norm": 2.0965638160705566, "learning_rate": 1.8187068735606258e-05, "loss": 0.5776, "step": 2477 }, { "epoch": 0.826, "grad_norm": 1.9319881200790405, "learning_rate": 1.818484103444606e-05, "loss": 0.5641, "step": 2478 }, { "epoch": 0.8263333333333334, "grad_norm": 2.091566801071167, "learning_rate": 1.81826121020537e-05, "loss": 0.5746, "step": 2479 }, { "epoch": 0.8266666666666667, "grad_norm": 1.694374442100525, "learning_rate": 1.818038193876448e-05, "loss": 0.4967, "step": 2480 }, { "epoch": 0.827, "grad_norm": 1.9189006090164185, "learning_rate": 1.8178150544913867e-05, "loss": 0.5334, "step": 2481 }, { "epoch": 0.8273333333333334, "grad_norm": 2.956162214279175, "learning_rate": 1.8175917920837533e-05, "loss": 0.5867, "step": 2482 }, { "epoch": 0.8276666666666667, "grad_norm": 1.8964450359344482, "learning_rate": 1.8173684066871328e-05, "loss": 0.5549, "step": 2483 }, { "epoch": 0.828, "grad_norm": 2.090137004852295, "learning_rate": 1.8171448983351284e-05, "loss": 0.5946, "step": 2484 }, { "epoch": 0.8283333333333334, "grad_norm": 2.416135549545288, "learning_rate": 1.8169212670613628e-05, "loss": 0.5884, "step": 2485 }, { "epoch": 0.8286666666666667, "grad_norm": 1.9545024633407593, "learning_rate": 1.816697512899476e-05, "loss": 0.5534, "step": 2486 }, { "epoch": 0.829, "grad_norm": 2.2523860931396484, "learning_rate": 1.8164736358831265e-05, "loss": 0.5045, "step": 2487 }, { "epoch": 0.8293333333333334, "grad_norm": 1.8975847959518433, "learning_rate": 1.8162496360459926e-05, "loss": 0.5713, "step": 2488 }, { "epoch": 0.8296666666666667, "grad_norm": 1.84719979763031, "learning_rate": 1.8160255134217693e-05, "loss": 0.536, "step": 2489 }, { "epoch": 0.83, "grad_norm": 1.868896484375, "learning_rate": 1.8158012680441723e-05, "loss": 0.5017, "step": 2490 }, { "epoch": 0.8303333333333334, "grad_norm": 2.2627060413360596, "learning_rate": 1.8155768999469332e-05, "loss": 0.573, "step": 2491 }, { "epoch": 0.8306666666666667, "grad_norm": 2.0715224742889404, "learning_rate": 1.8153524091638042e-05, "loss": 0.5836, "step": 2492 }, { "epoch": 0.831, "grad_norm": 1.763808250427246, "learning_rate": 1.815127795728554e-05, "loss": 0.5197, "step": 2493 }, { "epoch": 0.8313333333333334, "grad_norm": 1.8643547296524048, "learning_rate": 1.8149030596749725e-05, "loss": 0.5412, "step": 2494 }, { "epoch": 0.8316666666666667, "grad_norm": 1.7609845399856567, "learning_rate": 1.814678201036865e-05, "loss": 0.5209, "step": 2495 }, { "epoch": 0.832, "grad_norm": 1.882252812385559, "learning_rate": 1.814453219848057e-05, "loss": 0.5121, "step": 2496 }, { "epoch": 0.8323333333333334, "grad_norm": 1.7351739406585693, "learning_rate": 1.814228116142392e-05, "loss": 0.5231, "step": 2497 }, { "epoch": 0.8326666666666667, "grad_norm": 1.9378739595413208, "learning_rate": 1.814002889953732e-05, "loss": 0.5788, "step": 2498 }, { "epoch": 0.833, "grad_norm": 1.7314152717590332, "learning_rate": 1.813777541315958e-05, "loss": 0.5165, "step": 2499 }, { "epoch": 0.8333333333333334, "grad_norm": 1.9269005060195923, "learning_rate": 1.8135520702629677e-05, "loss": 0.5719, "step": 2500 }, { "epoch": 0.8336666666666667, "grad_norm": 2.1308789253234863, "learning_rate": 1.8133264768286794e-05, "loss": 0.543, "step": 2501 }, { "epoch": 0.834, "grad_norm": 2.077603578567505, "learning_rate": 1.8131007610470278e-05, "loss": 0.5431, "step": 2502 }, { "epoch": 0.8343333333333334, "grad_norm": 2.07547926902771, "learning_rate": 1.8128749229519676e-05, "loss": 0.5242, "step": 2503 }, { "epoch": 0.8346666666666667, "grad_norm": 1.8179290294647217, "learning_rate": 1.8126489625774714e-05, "loss": 0.5261, "step": 2504 }, { "epoch": 0.835, "grad_norm": 1.8940424919128418, "learning_rate": 1.8124228799575295e-05, "loss": 0.5338, "step": 2505 }, { "epoch": 0.8353333333333334, "grad_norm": 2.358314037322998, "learning_rate": 1.8121966751261514e-05, "loss": 0.5368, "step": 2506 }, { "epoch": 0.8356666666666667, "grad_norm": 2.107483148574829, "learning_rate": 1.8119703481173644e-05, "loss": 0.5493, "step": 2507 }, { "epoch": 0.836, "grad_norm": 2.0148768424987793, "learning_rate": 1.811743898965215e-05, "loss": 0.5848, "step": 2508 }, { "epoch": 0.8363333333333334, "grad_norm": 2.249699354171753, "learning_rate": 1.8115173277037675e-05, "loss": 0.5429, "step": 2509 }, { "epoch": 0.8366666666666667, "grad_norm": 1.8044147491455078, "learning_rate": 1.8112906343671045e-05, "loss": 0.4812, "step": 2510 }, { "epoch": 0.837, "grad_norm": 1.890429973602295, "learning_rate": 1.8110638189893267e-05, "loss": 0.5715, "step": 2511 }, { "epoch": 0.8373333333333334, "grad_norm": 1.9170491695404053, "learning_rate": 1.8108368816045545e-05, "loss": 0.5816, "step": 2512 }, { "epoch": 0.8376666666666667, "grad_norm": 2.0341813564300537, "learning_rate": 1.8106098222469247e-05, "loss": 0.5149, "step": 2513 }, { "epoch": 0.838, "grad_norm": 2.1762256622314453, "learning_rate": 1.8103826409505944e-05, "loss": 0.5106, "step": 2514 }, { "epoch": 0.8383333333333334, "grad_norm": 1.7459139823913574, "learning_rate": 1.8101553377497375e-05, "loss": 0.5264, "step": 2515 }, { "epoch": 0.8386666666666667, "grad_norm": 2.5179052352905273, "learning_rate": 1.809927912678547e-05, "loss": 0.4884, "step": 2516 }, { "epoch": 0.839, "grad_norm": 1.9164050817489624, "learning_rate": 1.8097003657712343e-05, "loss": 0.5733, "step": 2517 }, { "epoch": 0.8393333333333334, "grad_norm": 1.76973557472229, "learning_rate": 1.809472697062028e-05, "loss": 0.4873, "step": 2518 }, { "epoch": 0.8396666666666667, "grad_norm": 1.9024912118911743, "learning_rate": 1.8092449065851774e-05, "loss": 0.5368, "step": 2519 }, { "epoch": 0.84, "grad_norm": 1.7673364877700806, "learning_rate": 1.8090169943749477e-05, "loss": 0.5488, "step": 2520 }, { "epoch": 0.8403333333333334, "grad_norm": 2.0481579303741455, "learning_rate": 1.8087889604656235e-05, "loss": 0.4989, "step": 2521 }, { "epoch": 0.8406666666666667, "grad_norm": 1.74677574634552, "learning_rate": 1.8085608048915072e-05, "loss": 0.5501, "step": 2522 }, { "epoch": 0.841, "grad_norm": 1.8456015586853027, "learning_rate": 1.8083325276869207e-05, "loss": 0.5435, "step": 2523 }, { "epoch": 0.8413333333333334, "grad_norm": 1.9446953535079956, "learning_rate": 1.808104128886203e-05, "loss": 0.5458, "step": 2524 }, { "epoch": 0.8416666666666667, "grad_norm": 1.953200340270996, "learning_rate": 1.8078756085237112e-05, "loss": 0.5177, "step": 2525 }, { "epoch": 0.842, "grad_norm": 1.8381633758544922, "learning_rate": 1.807646966633822e-05, "loss": 0.5355, "step": 2526 }, { "epoch": 0.8423333333333334, "grad_norm": 1.8751722574234009, "learning_rate": 1.8074182032509292e-05, "loss": 0.5523, "step": 2527 }, { "epoch": 0.8426666666666667, "grad_norm": 1.7569615840911865, "learning_rate": 1.807189318409446e-05, "loss": 0.557, "step": 2528 }, { "epoch": 0.843, "grad_norm": 1.936572551727295, "learning_rate": 1.806960312143802e-05, "loss": 0.5507, "step": 2529 }, { "epoch": 0.8433333333333334, "grad_norm": 1.7943737506866455, "learning_rate": 1.806731184488447e-05, "loss": 0.5281, "step": 2530 }, { "epoch": 0.8436666666666667, "grad_norm": 2.4032392501831055, "learning_rate": 1.8065019354778482e-05, "loss": 0.5603, "step": 2531 }, { "epoch": 0.844, "grad_norm": 1.5953805446624756, "learning_rate": 1.8062725651464913e-05, "loss": 0.5006, "step": 2532 }, { "epoch": 0.8443333333333334, "grad_norm": 1.769286870956421, "learning_rate": 1.80604307352888e-05, "loss": 0.5638, "step": 2533 }, { "epoch": 0.8446666666666667, "grad_norm": 1.9486199617385864, "learning_rate": 1.8058134606595356e-05, "loss": 0.5415, "step": 2534 }, { "epoch": 0.845, "grad_norm": 1.8632055521011353, "learning_rate": 1.8055837265729996e-05, "loss": 0.5229, "step": 2535 }, { "epoch": 0.8453333333333334, "grad_norm": 2.1575183868408203, "learning_rate": 1.8053538713038298e-05, "loss": 0.5353, "step": 2536 }, { "epoch": 0.8456666666666667, "grad_norm": 1.8087780475616455, "learning_rate": 1.805123894886603e-05, "loss": 0.53, "step": 2537 }, { "epoch": 0.846, "grad_norm": 1.7347882986068726, "learning_rate": 1.804893797355914e-05, "loss": 0.5319, "step": 2538 }, { "epoch": 0.8463333333333334, "grad_norm": 2.0039279460906982, "learning_rate": 1.804663578746377e-05, "loss": 0.5375, "step": 2539 }, { "epoch": 0.8466666666666667, "grad_norm": 1.9122445583343506, "learning_rate": 1.8044332390926224e-05, "loss": 0.492, "step": 2540 }, { "epoch": 0.847, "grad_norm": 2.018688440322876, "learning_rate": 1.8042027784292998e-05, "loss": 0.509, "step": 2541 }, { "epoch": 0.8473333333333334, "grad_norm": 1.863389015197754, "learning_rate": 1.8039721967910773e-05, "loss": 0.4904, "step": 2542 }, { "epoch": 0.8476666666666667, "grad_norm": 1.9037367105484009, "learning_rate": 1.8037414942126412e-05, "loss": 0.5248, "step": 2543 }, { "epoch": 0.848, "grad_norm": 1.9382926225662231, "learning_rate": 1.8035106707286957e-05, "loss": 0.5752, "step": 2544 }, { "epoch": 0.8483333333333334, "grad_norm": 1.930065393447876, "learning_rate": 1.8032797263739622e-05, "loss": 0.5456, "step": 2545 }, { "epoch": 0.8486666666666667, "grad_norm": 2.225367546081543, "learning_rate": 1.8030486611831825e-05, "loss": 0.5645, "step": 2546 }, { "epoch": 0.849, "grad_norm": 1.9131784439086914, "learning_rate": 1.8028174751911147e-05, "loss": 0.5219, "step": 2547 }, { "epoch": 0.8493333333333334, "grad_norm": 1.8632370233535767, "learning_rate": 1.8025861684325358e-05, "loss": 0.5218, "step": 2548 }, { "epoch": 0.8496666666666667, "grad_norm": 2.321017265319824, "learning_rate": 1.8023547409422414e-05, "loss": 0.4614, "step": 2549 }, { "epoch": 0.85, "grad_norm": 2.2721545696258545, "learning_rate": 1.802123192755044e-05, "loss": 0.5711, "step": 2550 }, { "epoch": 0.8503333333333334, "grad_norm": 1.785508632659912, "learning_rate": 1.8018915239057752e-05, "loss": 0.4962, "step": 2551 }, { "epoch": 0.8506666666666667, "grad_norm": 2.1590092182159424, "learning_rate": 1.801659734429285e-05, "loss": 0.5954, "step": 2552 }, { "epoch": 0.851, "grad_norm": 2.018662691116333, "learning_rate": 1.8014278243604407e-05, "loss": 0.5403, "step": 2553 }, { "epoch": 0.8513333333333334, "grad_norm": 1.884421944618225, "learning_rate": 1.8011957937341288e-05, "loss": 0.5621, "step": 2554 }, { "epoch": 0.8516666666666667, "grad_norm": 2.201396942138672, "learning_rate": 1.8009636425852522e-05, "loss": 0.5705, "step": 2555 }, { "epoch": 0.852, "grad_norm": 1.769240140914917, "learning_rate": 1.8007313709487334e-05, "loss": 0.513, "step": 2556 }, { "epoch": 0.8523333333333334, "grad_norm": 1.4559131860733032, "learning_rate": 1.8004989788595132e-05, "loss": 0.5055, "step": 2557 }, { "epoch": 0.8526666666666667, "grad_norm": 1.9950119256973267, "learning_rate": 1.8002664663525497e-05, "loss": 0.5308, "step": 2558 }, { "epoch": 0.853, "grad_norm": 1.658761739730835, "learning_rate": 1.800033833462819e-05, "loss": 0.5414, "step": 2559 }, { "epoch": 0.8533333333333334, "grad_norm": 1.8000699281692505, "learning_rate": 1.799801080225316e-05, "loss": 0.5523, "step": 2560 }, { "epoch": 0.8536666666666667, "grad_norm": 1.8589367866516113, "learning_rate": 1.7995682066750535e-05, "loss": 0.5529, "step": 2561 }, { "epoch": 0.854, "grad_norm": 1.68911612033844, "learning_rate": 1.7993352128470617e-05, "loss": 0.5545, "step": 2562 }, { "epoch": 0.8543333333333333, "grad_norm": 2.1425843238830566, "learning_rate": 1.7991020987763903e-05, "loss": 0.5555, "step": 2563 }, { "epoch": 0.8546666666666667, "grad_norm": 2.261228084564209, "learning_rate": 1.7988688644981057e-05, "loss": 0.5726, "step": 2564 }, { "epoch": 0.855, "grad_norm": 2.08913516998291, "learning_rate": 1.798635510047293e-05, "loss": 0.5462, "step": 2565 }, { "epoch": 0.8553333333333333, "grad_norm": 1.7430918216705322, "learning_rate": 1.7984020354590557e-05, "loss": 0.5334, "step": 2566 }, { "epoch": 0.8556666666666667, "grad_norm": 1.6419761180877686, "learning_rate": 1.7981684407685144e-05, "loss": 0.5096, "step": 2567 }, { "epoch": 0.856, "grad_norm": 2.427840232849121, "learning_rate": 1.7979347260108088e-05, "loss": 0.507, "step": 2568 }, { "epoch": 0.8563333333333333, "grad_norm": 1.8047685623168945, "learning_rate": 1.797700891221096e-05, "loss": 0.4856, "step": 2569 }, { "epoch": 0.8566666666666667, "grad_norm": 1.7883912324905396, "learning_rate": 1.7974669364345518e-05, "loss": 0.5616, "step": 2570 }, { "epoch": 0.857, "grad_norm": 1.9315829277038574, "learning_rate": 1.797232861686369e-05, "loss": 0.4996, "step": 2571 }, { "epoch": 0.8573333333333333, "grad_norm": 1.9484245777130127, "learning_rate": 1.7969986670117598e-05, "loss": 0.5148, "step": 2572 }, { "epoch": 0.8576666666666667, "grad_norm": 1.8105392456054688, "learning_rate": 1.796764352445953e-05, "loss": 0.5158, "step": 2573 }, { "epoch": 0.858, "grad_norm": 1.7083845138549805, "learning_rate": 1.7965299180241963e-05, "loss": 0.528, "step": 2574 }, { "epoch": 0.8583333333333333, "grad_norm": 2.0864369869232178, "learning_rate": 1.7962953637817556e-05, "loss": 0.5552, "step": 2575 }, { "epoch": 0.8586666666666667, "grad_norm": 2.1181886196136475, "learning_rate": 1.796060689753915e-05, "loss": 0.5349, "step": 2576 }, { "epoch": 0.859, "grad_norm": 2.697695255279541, "learning_rate": 1.7958258959759747e-05, "loss": 0.5354, "step": 2577 }, { "epoch": 0.8593333333333333, "grad_norm": 1.9724406003952026, "learning_rate": 1.7955909824832556e-05, "loss": 0.46, "step": 2578 }, { "epoch": 0.8596666666666667, "grad_norm": 1.7109674215316772, "learning_rate": 1.7953559493110945e-05, "loss": 0.4934, "step": 2579 }, { "epoch": 0.86, "grad_norm": 1.9101719856262207, "learning_rate": 1.795120796494848e-05, "loss": 0.5472, "step": 2580 }, { "epoch": 0.8603333333333333, "grad_norm": 1.970424771308899, "learning_rate": 1.7948855240698887e-05, "loss": 0.505, "step": 2581 }, { "epoch": 0.8606666666666667, "grad_norm": 2.292208433151245, "learning_rate": 1.794650132071609e-05, "loss": 0.5547, "step": 2582 }, { "epoch": 0.861, "grad_norm": 1.889332890510559, "learning_rate": 1.7944146205354182e-05, "loss": 0.54, "step": 2583 }, { "epoch": 0.8613333333333333, "grad_norm": 1.9565201997756958, "learning_rate": 1.794178989496744e-05, "loss": 0.5393, "step": 2584 }, { "epoch": 0.8616666666666667, "grad_norm": 1.5886310338974, "learning_rate": 1.793943238991032e-05, "loss": 0.5428, "step": 2585 }, { "epoch": 0.862, "grad_norm": 2.2815372943878174, "learning_rate": 1.793707369053746e-05, "loss": 0.5906, "step": 2586 }, { "epoch": 0.8623333333333333, "grad_norm": 2.014404296875, "learning_rate": 1.7934713797203668e-05, "loss": 0.4962, "step": 2587 }, { "epoch": 0.8626666666666667, "grad_norm": 1.9208639860153198, "learning_rate": 1.7932352710263943e-05, "loss": 0.5138, "step": 2588 }, { "epoch": 0.863, "grad_norm": 2.383042812347412, "learning_rate": 1.7929990430073463e-05, "loss": 0.504, "step": 2589 }, { "epoch": 0.8633333333333333, "grad_norm": 1.95362389087677, "learning_rate": 1.7927626956987577e-05, "loss": 0.4776, "step": 2590 }, { "epoch": 0.8636666666666667, "grad_norm": 2.023167133331299, "learning_rate": 1.7925262291361823e-05, "loss": 0.479, "step": 2591 }, { "epoch": 0.864, "grad_norm": 1.794791579246521, "learning_rate": 1.792289643355191e-05, "loss": 0.5416, "step": 2592 }, { "epoch": 0.8643333333333333, "grad_norm": 1.7650848627090454, "learning_rate": 1.7920529383913728e-05, "loss": 0.4697, "step": 2593 }, { "epoch": 0.8646666666666667, "grad_norm": 2.0278658866882324, "learning_rate": 1.7918161142803355e-05, "loss": 0.5399, "step": 2594 }, { "epoch": 0.865, "grad_norm": 2.1545586585998535, "learning_rate": 1.7915791710577035e-05, "loss": 0.5632, "step": 2595 }, { "epoch": 0.8653333333333333, "grad_norm": 1.9990527629852295, "learning_rate": 1.7913421087591204e-05, "loss": 0.5695, "step": 2596 }, { "epoch": 0.8656666666666667, "grad_norm": 1.9692472219467163, "learning_rate": 1.7911049274202467e-05, "loss": 0.5408, "step": 2597 }, { "epoch": 0.866, "grad_norm": 2.0101563930511475, "learning_rate": 1.7908676270767608e-05, "loss": 0.5095, "step": 2598 }, { "epoch": 0.8663333333333333, "grad_norm": 1.5777608156204224, "learning_rate": 1.7906302077643604e-05, "loss": 0.5245, "step": 2599 }, { "epoch": 0.8666666666666667, "grad_norm": 1.9896571636199951, "learning_rate": 1.7903926695187595e-05, "loss": 0.592, "step": 2600 }, { "epoch": 0.867, "grad_norm": 1.782129168510437, "learning_rate": 1.7901550123756906e-05, "loss": 0.5793, "step": 2601 }, { "epoch": 0.8673333333333333, "grad_norm": 1.9639253616333008, "learning_rate": 1.789917236370904e-05, "loss": 0.5405, "step": 2602 }, { "epoch": 0.8676666666666667, "grad_norm": 1.6482774019241333, "learning_rate": 1.7896793415401683e-05, "loss": 0.5307, "step": 2603 }, { "epoch": 0.868, "grad_norm": 1.7062448263168335, "learning_rate": 1.7894413279192693e-05, "loss": 0.5528, "step": 2604 }, { "epoch": 0.8683333333333333, "grad_norm": 1.8264614343643188, "learning_rate": 1.789203195544011e-05, "loss": 0.4968, "step": 2605 }, { "epoch": 0.8686666666666667, "grad_norm": 1.4673128128051758, "learning_rate": 1.7889649444502155e-05, "loss": 0.5065, "step": 2606 }, { "epoch": 0.869, "grad_norm": 1.6996774673461914, "learning_rate": 1.7887265746737224e-05, "loss": 0.5088, "step": 2607 }, { "epoch": 0.8693333333333333, "grad_norm": 2.2783889770507812, "learning_rate": 1.7884880862503893e-05, "loss": 0.5568, "step": 2608 }, { "epoch": 0.8696666666666667, "grad_norm": 1.912984013557434, "learning_rate": 1.7882494792160913e-05, "loss": 0.534, "step": 2609 }, { "epoch": 0.87, "grad_norm": 2.0802431106567383, "learning_rate": 1.788010753606722e-05, "loss": 0.4967, "step": 2610 }, { "epoch": 0.8703333333333333, "grad_norm": 1.9122956991195679, "learning_rate": 1.7877719094581927e-05, "loss": 0.5223, "step": 2611 }, { "epoch": 0.8706666666666667, "grad_norm": 2.112048864364624, "learning_rate": 1.787532946806432e-05, "loss": 0.537, "step": 2612 }, { "epoch": 0.871, "grad_norm": 2.162571668624878, "learning_rate": 1.7872938656873864e-05, "loss": 0.5213, "step": 2613 }, { "epoch": 0.8713333333333333, "grad_norm": 1.8454819917678833, "learning_rate": 1.7870546661370214e-05, "loss": 0.4462, "step": 2614 }, { "epoch": 0.8716666666666667, "grad_norm": 2.027466058731079, "learning_rate": 1.7868153481913186e-05, "loss": 0.5009, "step": 2615 }, { "epoch": 0.872, "grad_norm": 3.0177161693573, "learning_rate": 1.7865759118862784e-05, "loss": 0.4802, "step": 2616 }, { "epoch": 0.8723333333333333, "grad_norm": 2.1335556507110596, "learning_rate": 1.7863363572579183e-05, "loss": 0.5316, "step": 2617 }, { "epoch": 0.8726666666666667, "grad_norm": 2.193462610244751, "learning_rate": 1.786096684342275e-05, "loss": 0.4864, "step": 2618 }, { "epoch": 0.873, "grad_norm": 1.8443808555603027, "learning_rate": 1.785856893175402e-05, "loss": 0.5529, "step": 2619 }, { "epoch": 0.8733333333333333, "grad_norm": 1.9783754348754883, "learning_rate": 1.78561698379337e-05, "loss": 0.5344, "step": 2620 }, { "epoch": 0.8736666666666667, "grad_norm": 1.658711314201355, "learning_rate": 1.785376956232269e-05, "loss": 0.5213, "step": 2621 }, { "epoch": 0.874, "grad_norm": 2.1653366088867188, "learning_rate": 1.7851368105282054e-05, "loss": 0.5075, "step": 2622 }, { "epoch": 0.8743333333333333, "grad_norm": 1.722901701927185, "learning_rate": 1.7848965467173042e-05, "loss": 0.5205, "step": 2623 }, { "epoch": 0.8746666666666667, "grad_norm": 1.51028311252594, "learning_rate": 1.7846561648357076e-05, "loss": 0.5231, "step": 2624 }, { "epoch": 0.875, "grad_norm": 1.962365746498108, "learning_rate": 1.784415664919576e-05, "loss": 0.4825, "step": 2625 }, { "epoch": 0.8753333333333333, "grad_norm": 1.6839370727539062, "learning_rate": 1.7841750470050874e-05, "loss": 0.5242, "step": 2626 }, { "epoch": 0.8756666666666667, "grad_norm": 2.3817977905273438, "learning_rate": 1.7839343111284376e-05, "loss": 0.5263, "step": 2627 }, { "epoch": 0.876, "grad_norm": 1.6684722900390625, "learning_rate": 1.78369345732584e-05, "loss": 0.5111, "step": 2628 }, { "epoch": 0.8763333333333333, "grad_norm": 1.7689481973648071, "learning_rate": 1.783452485633526e-05, "loss": 0.5567, "step": 2629 }, { "epoch": 0.8766666666666667, "grad_norm": 2.255093812942505, "learning_rate": 1.7832113960877445e-05, "loss": 0.5414, "step": 2630 }, { "epoch": 0.877, "grad_norm": 1.701599359512329, "learning_rate": 1.7829701887247618e-05, "loss": 0.5225, "step": 2631 }, { "epoch": 0.8773333333333333, "grad_norm": 2.15592360496521, "learning_rate": 1.7827288635808634e-05, "loss": 0.5143, "step": 2632 }, { "epoch": 0.8776666666666667, "grad_norm": 1.7929786443710327, "learning_rate": 1.7824874206923503e-05, "loss": 0.5362, "step": 2633 }, { "epoch": 0.878, "grad_norm": 1.7911765575408936, "learning_rate": 1.7822458600955432e-05, "loss": 0.5087, "step": 2634 }, { "epoch": 0.8783333333333333, "grad_norm": 1.9323841333389282, "learning_rate": 1.7820041818267787e-05, "loss": 0.5513, "step": 2635 }, { "epoch": 0.8786666666666667, "grad_norm": 2.2409441471099854, "learning_rate": 1.7817623859224133e-05, "loss": 0.5623, "step": 2636 }, { "epoch": 0.879, "grad_norm": 1.9654486179351807, "learning_rate": 1.781520472418819e-05, "loss": 0.4966, "step": 2637 }, { "epoch": 0.8793333333333333, "grad_norm": 1.8461906909942627, "learning_rate": 1.7812784413523866e-05, "loss": 0.498, "step": 2638 }, { "epoch": 0.8796666666666667, "grad_norm": 1.9411054849624634, "learning_rate": 1.7810362927595248e-05, "loss": 0.5518, "step": 2639 }, { "epoch": 0.88, "grad_norm": 2.1846213340759277, "learning_rate": 1.7807940266766595e-05, "loss": 0.5661, "step": 2640 }, { "epoch": 0.8803333333333333, "grad_norm": 2.080413341522217, "learning_rate": 1.780551643140234e-05, "loss": 0.5608, "step": 2641 }, { "epoch": 0.8806666666666667, "grad_norm": 1.9293571710586548, "learning_rate": 1.78030914218671e-05, "loss": 0.5475, "step": 2642 }, { "epoch": 0.881, "grad_norm": 1.897422432899475, "learning_rate": 1.780066523852567e-05, "loss": 0.4717, "step": 2643 }, { "epoch": 0.8813333333333333, "grad_norm": 1.6544286012649536, "learning_rate": 1.7798237881743005e-05, "loss": 0.4758, "step": 2644 }, { "epoch": 0.8816666666666667, "grad_norm": 1.614274024963379, "learning_rate": 1.7795809351884257e-05, "loss": 0.5741, "step": 2645 }, { "epoch": 0.882, "grad_norm": 2.2348127365112305, "learning_rate": 1.7793379649314743e-05, "loss": 0.5328, "step": 2646 }, { "epoch": 0.8823333333333333, "grad_norm": 1.6600894927978516, "learning_rate": 1.779094877439996e-05, "loss": 0.5001, "step": 2647 }, { "epoch": 0.8826666666666667, "grad_norm": 1.5789622068405151, "learning_rate": 1.778851672750558e-05, "loss": 0.5061, "step": 2648 }, { "epoch": 0.883, "grad_norm": 1.4470988512039185, "learning_rate": 1.7786083508997452e-05, "loss": 0.5177, "step": 2649 }, { "epoch": 0.8833333333333333, "grad_norm": 1.729036569595337, "learning_rate": 1.7783649119241603e-05, "loss": 0.5383, "step": 2650 }, { "epoch": 0.8836666666666667, "grad_norm": 1.5474058389663696, "learning_rate": 1.778121355860423e-05, "loss": 0.4792, "step": 2651 }, { "epoch": 0.884, "grad_norm": 1.7481999397277832, "learning_rate": 1.7778776827451715e-05, "loss": 0.5263, "step": 2652 }, { "epoch": 0.8843333333333333, "grad_norm": 2.2084126472473145, "learning_rate": 1.7776338926150604e-05, "loss": 0.53, "step": 2653 }, { "epoch": 0.8846666666666667, "grad_norm": 2.0687124729156494, "learning_rate": 1.7773899855067634e-05, "loss": 0.5016, "step": 2654 }, { "epoch": 0.885, "grad_norm": 2.006239652633667, "learning_rate": 1.777145961456971e-05, "loss": 0.4983, "step": 2655 }, { "epoch": 0.8853333333333333, "grad_norm": 2.094696521759033, "learning_rate": 1.7769018205023913e-05, "loss": 0.4832, "step": 2656 }, { "epoch": 0.8856666666666667, "grad_norm": 2.2567341327667236, "learning_rate": 1.7766575626797495e-05, "loss": 0.5288, "step": 2657 }, { "epoch": 0.886, "grad_norm": 2.145249128341675, "learning_rate": 1.7764131880257892e-05, "loss": 0.5202, "step": 2658 }, { "epoch": 0.8863333333333333, "grad_norm": 1.8303942680358887, "learning_rate": 1.7761686965772714e-05, "loss": 0.5044, "step": 2659 }, { "epoch": 0.8866666666666667, "grad_norm": 2.1822400093078613, "learning_rate": 1.7759240883709745e-05, "loss": 0.5243, "step": 2660 }, { "epoch": 0.887, "grad_norm": 2.0925943851470947, "learning_rate": 1.7756793634436947e-05, "loss": 0.5298, "step": 2661 }, { "epoch": 0.8873333333333333, "grad_norm": 1.9549931287765503, "learning_rate": 1.7754345218322454e-05, "loss": 0.5181, "step": 2662 }, { "epoch": 0.8876666666666667, "grad_norm": 1.699444055557251, "learning_rate": 1.7751895635734576e-05, "loss": 0.5235, "step": 2663 }, { "epoch": 0.888, "grad_norm": 2.538925886154175, "learning_rate": 1.7749444887041797e-05, "loss": 0.5357, "step": 2664 }, { "epoch": 0.8883333333333333, "grad_norm": 1.989060640335083, "learning_rate": 1.7746992972612788e-05, "loss": 0.4726, "step": 2665 }, { "epoch": 0.8886666666666667, "grad_norm": 2.129547357559204, "learning_rate": 1.7744539892816375e-05, "loss": 0.4865, "step": 2666 }, { "epoch": 0.889, "grad_norm": 1.8985133171081543, "learning_rate": 1.774208564802158e-05, "loss": 0.5529, "step": 2667 }, { "epoch": 0.8893333333333333, "grad_norm": 1.7352436780929565, "learning_rate": 1.7739630238597588e-05, "loss": 0.5104, "step": 2668 }, { "epoch": 0.8896666666666667, "grad_norm": 1.9871855974197388, "learning_rate": 1.7737173664913762e-05, "loss": 0.5141, "step": 2669 }, { "epoch": 0.89, "grad_norm": 2.7347042560577393, "learning_rate": 1.7734715927339642e-05, "loss": 0.5444, "step": 2670 }, { "epoch": 0.8903333333333333, "grad_norm": 2.5433003902435303, "learning_rate": 1.773225702624494e-05, "loss": 0.5196, "step": 2671 }, { "epoch": 0.8906666666666667, "grad_norm": 1.9685091972351074, "learning_rate": 1.772979696199954e-05, "loss": 0.5743, "step": 2672 }, { "epoch": 0.891, "grad_norm": 1.921629786491394, "learning_rate": 1.7727335734973512e-05, "loss": 0.4861, "step": 2673 }, { "epoch": 0.8913333333333333, "grad_norm": 2.1615257263183594, "learning_rate": 1.7724873345537092e-05, "loss": 0.5171, "step": 2674 }, { "epoch": 0.8916666666666667, "grad_norm": 2.105835199356079, "learning_rate": 1.7722409794060692e-05, "loss": 0.5436, "step": 2675 }, { "epoch": 0.892, "grad_norm": 1.9090490341186523, "learning_rate": 1.7719945080914902e-05, "loss": 0.5018, "step": 2676 }, { "epoch": 0.8923333333333333, "grad_norm": 1.7854149341583252, "learning_rate": 1.7717479206470485e-05, "loss": 0.5479, "step": 2677 }, { "epoch": 0.8926666666666667, "grad_norm": 1.6299428939819336, "learning_rate": 1.7715012171098377e-05, "loss": 0.5476, "step": 2678 }, { "epoch": 0.893, "grad_norm": 2.6516032218933105, "learning_rate": 1.7712543975169687e-05, "loss": 0.5884, "step": 2679 }, { "epoch": 0.8933333333333333, "grad_norm": 1.8498444557189941, "learning_rate": 1.7710074619055707e-05, "loss": 0.505, "step": 2680 }, { "epoch": 0.8936666666666667, "grad_norm": 2.044762372970581, "learning_rate": 1.77076041031279e-05, "loss": 0.479, "step": 2681 }, { "epoch": 0.894, "grad_norm": 2.4019546508789062, "learning_rate": 1.7705132427757895e-05, "loss": 0.5233, "step": 2682 }, { "epoch": 0.8943333333333333, "grad_norm": 1.8680014610290527, "learning_rate": 1.7702659593317503e-05, "loss": 0.5554, "step": 2683 }, { "epoch": 0.8946666666666667, "grad_norm": 2.1703855991363525, "learning_rate": 1.7700185600178713e-05, "loss": 0.4756, "step": 2684 }, { "epoch": 0.895, "grad_norm": 2.4101104736328125, "learning_rate": 1.769771044871368e-05, "loss": 0.495, "step": 2685 }, { "epoch": 0.8953333333333333, "grad_norm": 2.023688316345215, "learning_rate": 1.7695234139294737e-05, "loss": 0.5302, "step": 2686 }, { "epoch": 0.8956666666666667, "grad_norm": 2.5998172760009766, "learning_rate": 1.7692756672294395e-05, "loss": 0.5581, "step": 2687 }, { "epoch": 0.896, "grad_norm": 1.772930383682251, "learning_rate": 1.7690278048085327e-05, "loss": 0.532, "step": 2688 }, { "epoch": 0.8963333333333333, "grad_norm": 2.2515530586242676, "learning_rate": 1.76877982670404e-05, "loss": 0.5723, "step": 2689 }, { "epoch": 0.8966666666666666, "grad_norm": 2.4104700088500977, "learning_rate": 1.7685317329532633e-05, "loss": 0.5226, "step": 2690 }, { "epoch": 0.897, "grad_norm": 2.0605523586273193, "learning_rate": 1.7682835235935236e-05, "loss": 0.5163, "step": 2691 }, { "epoch": 0.8973333333333333, "grad_norm": 2.1751317977905273, "learning_rate": 1.7680351986621582e-05, "loss": 0.5104, "step": 2692 }, { "epoch": 0.8976666666666666, "grad_norm": 1.8450360298156738, "learning_rate": 1.7677867581965223e-05, "loss": 0.5538, "step": 2693 }, { "epoch": 0.898, "grad_norm": 1.7442550659179688, "learning_rate": 1.767538202233989e-05, "loss": 0.5456, "step": 2694 }, { "epoch": 0.8983333333333333, "grad_norm": 1.8160663843154907, "learning_rate": 1.7672895308119467e-05, "loss": 0.5329, "step": 2695 }, { "epoch": 0.8986666666666666, "grad_norm": 1.9186846017837524, "learning_rate": 1.7670407439678047e-05, "loss": 0.46, "step": 2696 }, { "epoch": 0.899, "grad_norm": 1.6802805662155151, "learning_rate": 1.7667918417389857e-05, "loss": 0.5425, "step": 2697 }, { "epoch": 0.8993333333333333, "grad_norm": 1.7534557580947876, "learning_rate": 1.7665428241629327e-05, "loss": 0.5019, "step": 2698 }, { "epoch": 0.8996666666666666, "grad_norm": 2.2002642154693604, "learning_rate": 1.7662936912771047e-05, "loss": 0.5086, "step": 2699 }, { "epoch": 0.9, "grad_norm": 1.683007001876831, "learning_rate": 1.766044443118978e-05, "loss": 0.4927, "step": 2700 }, { "epoch": 0.9003333333333333, "grad_norm": 1.9803351163864136, "learning_rate": 1.7657950797260474e-05, "loss": 0.5438, "step": 2701 }, { "epoch": 0.9006666666666666, "grad_norm": 1.7023247480392456, "learning_rate": 1.7655456011358238e-05, "loss": 0.5864, "step": 2702 }, { "epoch": 0.901, "grad_norm": 2.2867891788482666, "learning_rate": 1.765296007385836e-05, "loss": 0.5064, "step": 2703 }, { "epoch": 0.9013333333333333, "grad_norm": 1.6087121963500977, "learning_rate": 1.765046298513629e-05, "loss": 0.4734, "step": 2704 }, { "epoch": 0.9016666666666666, "grad_norm": 2.1680562496185303, "learning_rate": 1.7647964745567676e-05, "loss": 0.5128, "step": 2705 }, { "epoch": 0.902, "grad_norm": 2.1791417598724365, "learning_rate": 1.7645465355528317e-05, "loss": 0.5415, "step": 2706 }, { "epoch": 0.9023333333333333, "grad_norm": 1.765775203704834, "learning_rate": 1.764296481539419e-05, "loss": 0.5334, "step": 2707 }, { "epoch": 0.9026666666666666, "grad_norm": 1.9078577756881714, "learning_rate": 1.764046312554145e-05, "loss": 0.5529, "step": 2708 }, { "epoch": 0.903, "grad_norm": 1.997977375984192, "learning_rate": 1.7637960286346423e-05, "loss": 0.5236, "step": 2709 }, { "epoch": 0.9033333333333333, "grad_norm": 1.8389421701431274, "learning_rate": 1.7635456298185607e-05, "loss": 0.5353, "step": 2710 }, { "epoch": 0.9036666666666666, "grad_norm": 1.8643972873687744, "learning_rate": 1.763295116143567e-05, "loss": 0.5089, "step": 2711 }, { "epoch": 0.904, "grad_norm": 1.6101388931274414, "learning_rate": 1.763044487647345e-05, "loss": 0.4824, "step": 2712 }, { "epoch": 0.9043333333333333, "grad_norm": 1.7740392684936523, "learning_rate": 1.762793744367598e-05, "loss": 0.5063, "step": 2713 }, { "epoch": 0.9046666666666666, "grad_norm": 1.9330699443817139, "learning_rate": 1.7625428863420435e-05, "loss": 0.5658, "step": 2714 }, { "epoch": 0.905, "grad_norm": 1.8276013135910034, "learning_rate": 1.7622919136084183e-05, "loss": 0.5092, "step": 2715 }, { "epoch": 0.9053333333333333, "grad_norm": 2.151740550994873, "learning_rate": 1.7620408262044753e-05, "loss": 0.5511, "step": 2716 }, { "epoch": 0.9056666666666666, "grad_norm": 2.1577670574188232, "learning_rate": 1.7617896241679854e-05, "loss": 0.5488, "step": 2717 }, { "epoch": 0.906, "grad_norm": 1.69735586643219, "learning_rate": 1.761538307536737e-05, "loss": 0.5531, "step": 2718 }, { "epoch": 0.9063333333333333, "grad_norm": 1.9532690048217773, "learning_rate": 1.7612868763485345e-05, "loss": 0.475, "step": 2719 }, { "epoch": 0.9066666666666666, "grad_norm": 1.8950403928756714, "learning_rate": 1.761035330641201e-05, "loss": 0.5327, "step": 2720 }, { "epoch": 0.907, "grad_norm": 2.16987943649292, "learning_rate": 1.760783670452575e-05, "loss": 0.5324, "step": 2721 }, { "epoch": 0.9073333333333333, "grad_norm": 2.301523447036743, "learning_rate": 1.7605318958205146e-05, "loss": 0.5461, "step": 2722 }, { "epoch": 0.9076666666666666, "grad_norm": 2.246433973312378, "learning_rate": 1.7602800067828928e-05, "loss": 0.5209, "step": 2723 }, { "epoch": 0.908, "grad_norm": 1.9905935525894165, "learning_rate": 1.7600280033776018e-05, "loss": 0.5179, "step": 2724 }, { "epoch": 0.9083333333333333, "grad_norm": 1.7946165800094604, "learning_rate": 1.7597758856425497e-05, "loss": 0.5264, "step": 2725 }, { "epoch": 0.9086666666666666, "grad_norm": 2.245739698410034, "learning_rate": 1.7595236536156615e-05, "loss": 0.526, "step": 2726 }, { "epoch": 0.909, "grad_norm": 2.278512716293335, "learning_rate": 1.759271307334881e-05, "loss": 0.4884, "step": 2727 }, { "epoch": 0.9093333333333333, "grad_norm": 1.9974677562713623, "learning_rate": 1.7590188468381675e-05, "loss": 0.5126, "step": 2728 }, { "epoch": 0.9096666666666666, "grad_norm": 2.10615873336792, "learning_rate": 1.7587662721634992e-05, "loss": 0.5475, "step": 2729 }, { "epoch": 0.91, "grad_norm": 2.225337505340576, "learning_rate": 1.7585135833488692e-05, "loss": 0.4958, "step": 2730 }, { "epoch": 0.9103333333333333, "grad_norm": 2.2858870029449463, "learning_rate": 1.75826078043229e-05, "loss": 0.493, "step": 2731 }, { "epoch": 0.9106666666666666, "grad_norm": 2.3033483028411865, "learning_rate": 1.7580078634517898e-05, "loss": 0.5412, "step": 2732 }, { "epoch": 0.911, "grad_norm": 1.9977308511734009, "learning_rate": 1.7577548324454148e-05, "loss": 0.5107, "step": 2733 }, { "epoch": 0.9113333333333333, "grad_norm": 2.7687299251556396, "learning_rate": 1.757501687451228e-05, "loss": 0.5472, "step": 2734 }, { "epoch": 0.9116666666666666, "grad_norm": 1.4965757131576538, "learning_rate": 1.7572484285073093e-05, "loss": 0.5186, "step": 2735 }, { "epoch": 0.912, "grad_norm": 1.969641923904419, "learning_rate": 1.7569950556517566e-05, "loss": 0.531, "step": 2736 }, { "epoch": 0.9123333333333333, "grad_norm": 2.5040206909179688, "learning_rate": 1.7567415689226838e-05, "loss": 0.5078, "step": 2737 }, { "epoch": 0.9126666666666666, "grad_norm": 1.7902939319610596, "learning_rate": 1.756487968358223e-05, "loss": 0.5057, "step": 2738 }, { "epoch": 0.913, "grad_norm": 1.9152554273605347, "learning_rate": 1.7562342539965223e-05, "loss": 0.4847, "step": 2739 }, { "epoch": 0.9133333333333333, "grad_norm": 1.610628604888916, "learning_rate": 1.755980425875748e-05, "loss": 0.4714, "step": 2740 }, { "epoch": 0.9136666666666666, "grad_norm": 2.5511863231658936, "learning_rate": 1.7557264840340828e-05, "loss": 0.5168, "step": 2741 }, { "epoch": 0.914, "grad_norm": 1.8587156534194946, "learning_rate": 1.7554724285097272e-05, "loss": 0.5208, "step": 2742 }, { "epoch": 0.9143333333333333, "grad_norm": 2.1852376461029053, "learning_rate": 1.7552182593408974e-05, "loss": 0.4495, "step": 2743 }, { "epoch": 0.9146666666666666, "grad_norm": 2.020415782928467, "learning_rate": 1.7549639765658288e-05, "loss": 0.5273, "step": 2744 }, { "epoch": 0.915, "grad_norm": 2.22951602935791, "learning_rate": 1.7547095802227723e-05, "loss": 0.518, "step": 2745 }, { "epoch": 0.9153333333333333, "grad_norm": 2.044238805770874, "learning_rate": 1.754455070349996e-05, "loss": 0.5076, "step": 2746 }, { "epoch": 0.9156666666666666, "grad_norm": 3.0056068897247314, "learning_rate": 1.7542004469857853e-05, "loss": 0.5266, "step": 2747 }, { "epoch": 0.916, "grad_norm": 1.9137752056121826, "learning_rate": 1.7539457101684434e-05, "loss": 0.5189, "step": 2748 }, { "epoch": 0.9163333333333333, "grad_norm": 2.37317156791687, "learning_rate": 1.7536908599362895e-05, "loss": 0.5227, "step": 2749 }, { "epoch": 0.9166666666666666, "grad_norm": 1.9395450353622437, "learning_rate": 1.7534358963276606e-05, "loss": 0.5157, "step": 2750 }, { "epoch": 0.917, "grad_norm": 1.7977285385131836, "learning_rate": 1.7531808193809106e-05, "loss": 0.4902, "step": 2751 }, { "epoch": 0.9173333333333333, "grad_norm": 1.7911009788513184, "learning_rate": 1.7529256291344095e-05, "loss": 0.4996, "step": 2752 }, { "epoch": 0.9176666666666666, "grad_norm": 1.6522202491760254, "learning_rate": 1.7526703256265462e-05, "loss": 0.5557, "step": 2753 }, { "epoch": 0.918, "grad_norm": 1.8838801383972168, "learning_rate": 1.7524149088957244e-05, "loss": 0.5439, "step": 2754 }, { "epoch": 0.9183333333333333, "grad_norm": 2.6294217109680176, "learning_rate": 1.752159378980367e-05, "loss": 0.522, "step": 2755 }, { "epoch": 0.9186666666666666, "grad_norm": 1.8617126941680908, "learning_rate": 1.7519037359189126e-05, "loss": 0.5254, "step": 2756 }, { "epoch": 0.919, "grad_norm": 1.984352946281433, "learning_rate": 1.7516479797498172e-05, "loss": 0.5343, "step": 2757 }, { "epoch": 0.9193333333333333, "grad_norm": 1.7099123001098633, "learning_rate": 1.7513921105115538e-05, "loss": 0.4854, "step": 2758 }, { "epoch": 0.9196666666666666, "grad_norm": 1.8719093799591064, "learning_rate": 1.751136128242612e-05, "loss": 0.491, "step": 2759 }, { "epoch": 0.92, "grad_norm": 1.8294391632080078, "learning_rate": 1.7508800329814993e-05, "loss": 0.4888, "step": 2760 }, { "epoch": 0.9203333333333333, "grad_norm": 2.1210572719573975, "learning_rate": 1.7506238247667395e-05, "loss": 0.5013, "step": 2761 }, { "epoch": 0.9206666666666666, "grad_norm": 2.124743700027466, "learning_rate": 1.7503675036368737e-05, "loss": 0.464, "step": 2762 }, { "epoch": 0.921, "grad_norm": 2.115917444229126, "learning_rate": 1.7501110696304598e-05, "loss": 0.5666, "step": 2763 }, { "epoch": 0.9213333333333333, "grad_norm": 2.014880657196045, "learning_rate": 1.7498545227860724e-05, "loss": 0.509, "step": 2764 }, { "epoch": 0.9216666666666666, "grad_norm": 2.0216684341430664, "learning_rate": 1.749597863142304e-05, "loss": 0.5103, "step": 2765 }, { "epoch": 0.922, "grad_norm": 2.381221055984497, "learning_rate": 1.749341090737763e-05, "loss": 0.5076, "step": 2766 }, { "epoch": 0.9223333333333333, "grad_norm": 1.7304141521453857, "learning_rate": 1.7490842056110756e-05, "loss": 0.517, "step": 2767 }, { "epoch": 0.9226666666666666, "grad_norm": 1.9141594171524048, "learning_rate": 1.7488272078008844e-05, "loss": 0.4787, "step": 2768 }, { "epoch": 0.923, "grad_norm": 1.8843417167663574, "learning_rate": 1.7485700973458494e-05, "loss": 0.5248, "step": 2769 }, { "epoch": 0.9233333333333333, "grad_norm": 2.458425521850586, "learning_rate": 1.748312874284647e-05, "loss": 0.5134, "step": 2770 }, { "epoch": 0.9236666666666666, "grad_norm": 2.1113381385803223, "learning_rate": 1.748055538655971e-05, "loss": 0.5162, "step": 2771 }, { "epoch": 0.924, "grad_norm": 2.148594856262207, "learning_rate": 1.747798090498532e-05, "loss": 0.539, "step": 2772 }, { "epoch": 0.9243333333333333, "grad_norm": 1.9489234685897827, "learning_rate": 1.7475405298510574e-05, "loss": 0.5435, "step": 2773 }, { "epoch": 0.9246666666666666, "grad_norm": 1.9387249946594238, "learning_rate": 1.7472828567522916e-05, "loss": 0.5054, "step": 2774 }, { "epoch": 0.925, "grad_norm": 2.388378620147705, "learning_rate": 1.7470250712409963e-05, "loss": 0.4983, "step": 2775 }, { "epoch": 0.9253333333333333, "grad_norm": 2.4145262241363525, "learning_rate": 1.746767173355949e-05, "loss": 0.5035, "step": 2776 }, { "epoch": 0.9256666666666666, "grad_norm": 1.7823277711868286, "learning_rate": 1.7465091631359455e-05, "loss": 0.4831, "step": 2777 }, { "epoch": 0.926, "grad_norm": 1.6626189947128296, "learning_rate": 1.746251040619798e-05, "loss": 0.5202, "step": 2778 }, { "epoch": 0.9263333333333333, "grad_norm": 2.3684005737304688, "learning_rate": 1.7459928058463348e-05, "loss": 0.532, "step": 2779 }, { "epoch": 0.9266666666666666, "grad_norm": 1.752739429473877, "learning_rate": 1.7457344588544018e-05, "loss": 0.5325, "step": 2780 }, { "epoch": 0.927, "grad_norm": 1.706058382987976, "learning_rate": 1.7454759996828622e-05, "loss": 0.5253, "step": 2781 }, { "epoch": 0.9273333333333333, "grad_norm": 1.5716028213500977, "learning_rate": 1.7452174283705955e-05, "loss": 0.5208, "step": 2782 }, { "epoch": 0.9276666666666666, "grad_norm": 1.9253973960876465, "learning_rate": 1.744958744956498e-05, "loss": 0.5048, "step": 2783 }, { "epoch": 0.928, "grad_norm": 2.012531042098999, "learning_rate": 1.744699949479483e-05, "loss": 0.5246, "step": 2784 }, { "epoch": 0.9283333333333333, "grad_norm": 2.095020055770874, "learning_rate": 1.7444410419784805e-05, "loss": 0.513, "step": 2785 }, { "epoch": 0.9286666666666666, "grad_norm": 1.9285601377487183, "learning_rate": 1.7441820224924376e-05, "loss": 0.4568, "step": 2786 }, { "epoch": 0.929, "grad_norm": 1.9119458198547363, "learning_rate": 1.7439228910603184e-05, "loss": 0.5234, "step": 2787 }, { "epoch": 0.9293333333333333, "grad_norm": 2.838871955871582, "learning_rate": 1.7436636477211038e-05, "loss": 0.5354, "step": 2788 }, { "epoch": 0.9296666666666666, "grad_norm": 2.063559055328369, "learning_rate": 1.743404292513791e-05, "loss": 0.4669, "step": 2789 }, { "epoch": 0.93, "grad_norm": 2.256366729736328, "learning_rate": 1.7431448254773943e-05, "loss": 0.4958, "step": 2790 }, { "epoch": 0.9303333333333333, "grad_norm": 2.3977978229522705, "learning_rate": 1.742885246650945e-05, "loss": 0.4951, "step": 2791 }, { "epoch": 0.9306666666666666, "grad_norm": 1.4774004220962524, "learning_rate": 1.7426255560734916e-05, "loss": 0.4865, "step": 2792 }, { "epoch": 0.931, "grad_norm": 3.0969021320343018, "learning_rate": 1.7423657537840978e-05, "loss": 0.5434, "step": 2793 }, { "epoch": 0.9313333333333333, "grad_norm": 2.354292631149292, "learning_rate": 1.7421058398218466e-05, "loss": 0.4976, "step": 2794 }, { "epoch": 0.9316666666666666, "grad_norm": 1.8530917167663574, "learning_rate": 1.7418458142258355e-05, "loss": 0.5502, "step": 2795 }, { "epoch": 0.932, "grad_norm": 1.8615202903747559, "learning_rate": 1.7415856770351797e-05, "loss": 0.5094, "step": 2796 }, { "epoch": 0.9323333333333333, "grad_norm": 1.8540737628936768, "learning_rate": 1.7413254282890118e-05, "loss": 0.5325, "step": 2797 }, { "epoch": 0.9326666666666666, "grad_norm": 1.662920355796814, "learning_rate": 1.74106506802648e-05, "loss": 0.5166, "step": 2798 }, { "epoch": 0.933, "grad_norm": 2.0544016361236572, "learning_rate": 1.74080459628675e-05, "loss": 0.5269, "step": 2799 }, { "epoch": 0.9333333333333333, "grad_norm": 1.9854844808578491, "learning_rate": 1.740544013109005e-05, "loss": 0.5419, "step": 2800 }, { "epoch": 0.9336666666666666, "grad_norm": 2.1567342281341553, "learning_rate": 1.7402833185324425e-05, "loss": 0.4989, "step": 2801 }, { "epoch": 0.934, "grad_norm": 1.6070232391357422, "learning_rate": 1.7400225125962796e-05, "loss": 0.4894, "step": 2802 }, { "epoch": 0.9343333333333333, "grad_norm": 1.8286882638931274, "learning_rate": 1.739761595339749e-05, "loss": 0.5052, "step": 2803 }, { "epoch": 0.9346666666666666, "grad_norm": 1.9713127613067627, "learning_rate": 1.7395005668020986e-05, "loss": 0.5234, "step": 2804 }, { "epoch": 0.935, "grad_norm": 1.9423435926437378, "learning_rate": 1.739239427022596e-05, "loss": 0.4702, "step": 2805 }, { "epoch": 0.9353333333333333, "grad_norm": 1.755602240562439, "learning_rate": 1.7389781760405236e-05, "loss": 0.4951, "step": 2806 }, { "epoch": 0.9356666666666666, "grad_norm": 1.9295631647109985, "learning_rate": 1.738716813895181e-05, "loss": 0.5234, "step": 2807 }, { "epoch": 0.936, "grad_norm": 2.0915653705596924, "learning_rate": 1.7384553406258842e-05, "loss": 0.4968, "step": 2808 }, { "epoch": 0.9363333333333334, "grad_norm": 1.8644956350326538, "learning_rate": 1.738193756271966e-05, "loss": 0.4807, "step": 2809 }, { "epoch": 0.9366666666666666, "grad_norm": 1.9745841026306152, "learning_rate": 1.7379320608727766e-05, "loss": 0.5021, "step": 2810 }, { "epoch": 0.937, "grad_norm": 1.8003559112548828, "learning_rate": 1.7376702544676823e-05, "loss": 0.5093, "step": 2811 }, { "epoch": 0.9373333333333334, "grad_norm": 1.6533221006393433, "learning_rate": 1.737408337096066e-05, "loss": 0.4407, "step": 2812 }, { "epoch": 0.9376666666666666, "grad_norm": 2.0921285152435303, "learning_rate": 1.737146308797328e-05, "loss": 0.5037, "step": 2813 }, { "epoch": 0.938, "grad_norm": 2.0030837059020996, "learning_rate": 1.736884169610884e-05, "loss": 0.5125, "step": 2814 }, { "epoch": 0.9383333333333334, "grad_norm": 2.8755762577056885, "learning_rate": 1.7366219195761683e-05, "loss": 0.5066, "step": 2815 }, { "epoch": 0.9386666666666666, "grad_norm": 2.102879524230957, "learning_rate": 1.7363595587326293e-05, "loss": 0.5631, "step": 2816 }, { "epoch": 0.939, "grad_norm": 1.7634645700454712, "learning_rate": 1.7360970871197347e-05, "loss": 0.4526, "step": 2817 }, { "epoch": 0.9393333333333334, "grad_norm": 2.076348304748535, "learning_rate": 1.7358345047769666e-05, "loss": 0.4676, "step": 2818 }, { "epoch": 0.9396666666666667, "grad_norm": 2.3278543949127197, "learning_rate": 1.7355718117438262e-05, "loss": 0.5325, "step": 2819 }, { "epoch": 0.94, "grad_norm": 2.1131398677825928, "learning_rate": 1.735309008059829e-05, "loss": 0.4781, "step": 2820 }, { "epoch": 0.9403333333333334, "grad_norm": 1.7988415956497192, "learning_rate": 1.735046093764508e-05, "loss": 0.5329, "step": 2821 }, { "epoch": 0.9406666666666667, "grad_norm": 1.950586199760437, "learning_rate": 1.7347830688974135e-05, "loss": 0.5189, "step": 2822 }, { "epoch": 0.941, "grad_norm": 1.667169451713562, "learning_rate": 1.734519933498112e-05, "loss": 0.5673, "step": 2823 }, { "epoch": 0.9413333333333334, "grad_norm": 2.0484883785247803, "learning_rate": 1.734256687606186e-05, "loss": 0.5107, "step": 2824 }, { "epoch": 0.9416666666666667, "grad_norm": 2.1305172443389893, "learning_rate": 1.7339933312612353e-05, "loss": 0.4813, "step": 2825 }, { "epoch": 0.942, "grad_norm": 1.9300123453140259, "learning_rate": 1.7337298645028764e-05, "loss": 0.5053, "step": 2826 }, { "epoch": 0.9423333333333334, "grad_norm": 1.6861968040466309, "learning_rate": 1.7334662873707422e-05, "loss": 0.4916, "step": 2827 }, { "epoch": 0.9426666666666667, "grad_norm": 1.714925765991211, "learning_rate": 1.733202599904482e-05, "loss": 0.5291, "step": 2828 }, { "epoch": 0.943, "grad_norm": 2.183638334274292, "learning_rate": 1.7329388021437615e-05, "loss": 0.5385, "step": 2829 }, { "epoch": 0.9433333333333334, "grad_norm": 1.852460265159607, "learning_rate": 1.7326748941282638e-05, "loss": 0.5026, "step": 2830 }, { "epoch": 0.9436666666666667, "grad_norm": 2.2943334579467773, "learning_rate": 1.732410875897688e-05, "loss": 0.5211, "step": 2831 }, { "epoch": 0.944, "grad_norm": 1.94868004322052, "learning_rate": 1.7321467474917502e-05, "loss": 0.5388, "step": 2832 }, { "epoch": 0.9443333333333334, "grad_norm": 1.6380105018615723, "learning_rate": 1.7318825089501827e-05, "loss": 0.5269, "step": 2833 }, { "epoch": 0.9446666666666667, "grad_norm": 1.4143552780151367, "learning_rate": 1.7316181603127344e-05, "loss": 0.515, "step": 2834 }, { "epoch": 0.945, "grad_norm": 1.7275224924087524, "learning_rate": 1.7313537016191706e-05, "loss": 0.4961, "step": 2835 }, { "epoch": 0.9453333333333334, "grad_norm": 2.1327710151672363, "learning_rate": 1.731089132909274e-05, "loss": 0.5245, "step": 2836 }, { "epoch": 0.9456666666666667, "grad_norm": 2.29274320602417, "learning_rate": 1.7308244542228424e-05, "loss": 0.5074, "step": 2837 }, { "epoch": 0.946, "grad_norm": 2.3154757022857666, "learning_rate": 1.7305596655996916e-05, "loss": 0.5569, "step": 2838 }, { "epoch": 0.9463333333333334, "grad_norm": 2.03775691986084, "learning_rate": 1.7302947670796526e-05, "loss": 0.526, "step": 2839 }, { "epoch": 0.9466666666666667, "grad_norm": 1.8755428791046143, "learning_rate": 1.7300297587025748e-05, "loss": 0.5083, "step": 2840 }, { "epoch": 0.947, "grad_norm": 2.2174131870269775, "learning_rate": 1.729764640508322e-05, "loss": 0.488, "step": 2841 }, { "epoch": 0.9473333333333334, "grad_norm": 2.070535182952881, "learning_rate": 1.729499412536776e-05, "loss": 0.5485, "step": 2842 }, { "epoch": 0.9476666666666667, "grad_norm": 1.6229937076568604, "learning_rate": 1.7292340748278345e-05, "loss": 0.5203, "step": 2843 }, { "epoch": 0.948, "grad_norm": 1.717932939529419, "learning_rate": 1.7289686274214116e-05, "loss": 0.504, "step": 2844 }, { "epoch": 0.9483333333333334, "grad_norm": 2.172827959060669, "learning_rate": 1.7287030703574387e-05, "loss": 0.5329, "step": 2845 }, { "epoch": 0.9486666666666667, "grad_norm": 2.036482572555542, "learning_rate": 1.7284374036758623e-05, "loss": 0.4924, "step": 2846 }, { "epoch": 0.949, "grad_norm": 1.8386858701705933, "learning_rate": 1.7281716274166464e-05, "loss": 0.4839, "step": 2847 }, { "epoch": 0.9493333333333334, "grad_norm": 2.1081178188323975, "learning_rate": 1.7279057416197717e-05, "loss": 0.5273, "step": 2848 }, { "epoch": 0.9496666666666667, "grad_norm": 2.254025936126709, "learning_rate": 1.727639746325235e-05, "loss": 0.495, "step": 2849 }, { "epoch": 0.95, "grad_norm": 2.0992519855499268, "learning_rate": 1.7273736415730488e-05, "loss": 0.5369, "step": 2850 }, { "epoch": 0.9503333333333334, "grad_norm": 1.9518769979476929, "learning_rate": 1.7271074274032435e-05, "loss": 0.5076, "step": 2851 }, { "epoch": 0.9506666666666667, "grad_norm": 1.9011812210083008, "learning_rate": 1.7268411038558653e-05, "loss": 0.527, "step": 2852 }, { "epoch": 0.951, "grad_norm": 1.9634250402450562, "learning_rate": 1.7265746709709762e-05, "loss": 0.4945, "step": 2853 }, { "epoch": 0.9513333333333334, "grad_norm": 2.585527181625366, "learning_rate": 1.7263081287886555e-05, "loss": 0.4791, "step": 2854 }, { "epoch": 0.9516666666666667, "grad_norm": 1.8723233938217163, "learning_rate": 1.726041477348999e-05, "loss": 0.5055, "step": 2855 }, { "epoch": 0.952, "grad_norm": 2.2931430339813232, "learning_rate": 1.7257747166921186e-05, "loss": 0.5187, "step": 2856 }, { "epoch": 0.9523333333333334, "grad_norm": 1.5297926664352417, "learning_rate": 1.725507846858142e-05, "loss": 0.4777, "step": 2857 }, { "epoch": 0.9526666666666667, "grad_norm": 2.1875336170196533, "learning_rate": 1.725240867887215e-05, "loss": 0.4931, "step": 2858 }, { "epoch": 0.953, "grad_norm": 2.0782415866851807, "learning_rate": 1.7249737798194982e-05, "loss": 0.5166, "step": 2859 }, { "epoch": 0.9533333333333334, "grad_norm": 1.9492281675338745, "learning_rate": 1.7247065826951694e-05, "loss": 0.4847, "step": 2860 }, { "epoch": 0.9536666666666667, "grad_norm": 1.9672863483428955, "learning_rate": 1.7244392765544222e-05, "loss": 0.5133, "step": 2861 }, { "epoch": 0.954, "grad_norm": 2.0841641426086426, "learning_rate": 1.7241718614374678e-05, "loss": 0.5303, "step": 2862 }, { "epoch": 0.9543333333333334, "grad_norm": 1.8010457754135132, "learning_rate": 1.723904337384532e-05, "loss": 0.4725, "step": 2863 }, { "epoch": 0.9546666666666667, "grad_norm": 1.7831709384918213, "learning_rate": 1.723636704435859e-05, "loss": 0.5596, "step": 2864 }, { "epoch": 0.955, "grad_norm": 1.9151415824890137, "learning_rate": 1.723368962631708e-05, "loss": 0.4853, "step": 2865 }, { "epoch": 0.9553333333333334, "grad_norm": 2.536095142364502, "learning_rate": 1.7231011120123548e-05, "loss": 0.5578, "step": 2866 }, { "epoch": 0.9556666666666667, "grad_norm": 1.973555564880371, "learning_rate": 1.7228331526180923e-05, "loss": 0.522, "step": 2867 }, { "epoch": 0.956, "grad_norm": 1.7467399835586548, "learning_rate": 1.722565084489228e-05, "loss": 0.4892, "step": 2868 }, { "epoch": 0.9563333333333334, "grad_norm": 1.7545795440673828, "learning_rate": 1.7222969076660882e-05, "loss": 0.5116, "step": 2869 }, { "epoch": 0.9566666666666667, "grad_norm": 2.0700645446777344, "learning_rate": 1.7220286221890137e-05, "loss": 0.5189, "step": 2870 }, { "epoch": 0.957, "grad_norm": 1.931038737297058, "learning_rate": 1.7217602280983622e-05, "loss": 0.5069, "step": 2871 }, { "epoch": 0.9573333333333334, "grad_norm": 1.682341456413269, "learning_rate": 1.721491725434508e-05, "loss": 0.5251, "step": 2872 }, { "epoch": 0.9576666666666667, "grad_norm": 1.5063272714614868, "learning_rate": 1.7212231142378418e-05, "loss": 0.5025, "step": 2873 }, { "epoch": 0.958, "grad_norm": 2.110450506210327, "learning_rate": 1.7209543945487696e-05, "loss": 0.4839, "step": 2874 }, { "epoch": 0.9583333333333334, "grad_norm": 1.626175880432129, "learning_rate": 1.7206855664077147e-05, "loss": 0.498, "step": 2875 }, { "epoch": 0.9586666666666667, "grad_norm": 1.6907410621643066, "learning_rate": 1.720416629855117e-05, "loss": 0.5127, "step": 2876 }, { "epoch": 0.959, "grad_norm": 1.4536644220352173, "learning_rate": 1.720147584931431e-05, "loss": 0.4709, "step": 2877 }, { "epoch": 0.9593333333333334, "grad_norm": 1.626591444015503, "learning_rate": 1.7198784316771303e-05, "loss": 0.4859, "step": 2878 }, { "epoch": 0.9596666666666667, "grad_norm": 1.7104442119598389, "learning_rate": 1.7196091701327022e-05, "loss": 0.5215, "step": 2879 }, { "epoch": 0.96, "grad_norm": 1.893433928489685, "learning_rate": 1.7193398003386514e-05, "loss": 0.5114, "step": 2880 }, { "epoch": 0.9603333333333334, "grad_norm": 1.6895033121109009, "learning_rate": 1.7190703223354985e-05, "loss": 0.5226, "step": 2881 }, { "epoch": 0.9606666666666667, "grad_norm": 1.7315192222595215, "learning_rate": 1.718800736163781e-05, "loss": 0.474, "step": 2882 }, { "epoch": 0.961, "grad_norm": 2.2694835662841797, "learning_rate": 1.7185310418640525e-05, "loss": 0.5194, "step": 2883 }, { "epoch": 0.9613333333333334, "grad_norm": 1.8390156030654907, "learning_rate": 1.7182612394768822e-05, "loss": 0.518, "step": 2884 }, { "epoch": 0.9616666666666667, "grad_norm": 2.4681217670440674, "learning_rate": 1.7179913290428563e-05, "loss": 0.487, "step": 2885 }, { "epoch": 0.962, "grad_norm": 1.868140459060669, "learning_rate": 1.7177213106025768e-05, "loss": 0.491, "step": 2886 }, { "epoch": 0.9623333333333334, "grad_norm": 2.29270601272583, "learning_rate": 1.7174511841966623e-05, "loss": 0.5294, "step": 2887 }, { "epoch": 0.9626666666666667, "grad_norm": 2.285738468170166, "learning_rate": 1.7171809498657473e-05, "loss": 0.5196, "step": 2888 }, { "epoch": 0.963, "grad_norm": 2.3833682537078857, "learning_rate": 1.716910607650483e-05, "loss": 0.4954, "step": 2889 }, { "epoch": 0.9633333333333334, "grad_norm": 1.7843906879425049, "learning_rate": 1.716640157591536e-05, "loss": 0.519, "step": 2890 }, { "epoch": 0.9636666666666667, "grad_norm": 1.8214682340621948, "learning_rate": 1.7163695997295904e-05, "loss": 0.5132, "step": 2891 }, { "epoch": 0.964, "grad_norm": 1.744269609451294, "learning_rate": 1.716098934105345e-05, "loss": 0.4662, "step": 2892 }, { "epoch": 0.9643333333333334, "grad_norm": 1.8520874977111816, "learning_rate": 1.715828160759516e-05, "loss": 0.5074, "step": 2893 }, { "epoch": 0.9646666666666667, "grad_norm": 2.073383092880249, "learning_rate": 1.7155572797328358e-05, "loss": 0.4938, "step": 2894 }, { "epoch": 0.965, "grad_norm": 2.631277084350586, "learning_rate": 1.7152862910660516e-05, "loss": 0.5137, "step": 2895 }, { "epoch": 0.9653333333333334, "grad_norm": 1.8642548322677612, "learning_rate": 1.7150151947999285e-05, "loss": 0.5471, "step": 2896 }, { "epoch": 0.9656666666666667, "grad_norm": 2.3170273303985596, "learning_rate": 1.714743990975247e-05, "loss": 0.487, "step": 2897 }, { "epoch": 0.966, "grad_norm": 2.4904589653015137, "learning_rate": 1.7144726796328034e-05, "loss": 0.5459, "step": 2898 }, { "epoch": 0.9663333333333334, "grad_norm": 2.53475022315979, "learning_rate": 1.714201260813411e-05, "loss": 0.4793, "step": 2899 }, { "epoch": 0.9666666666666667, "grad_norm": 2.371899127960205, "learning_rate": 1.7139297345578992e-05, "loss": 0.5115, "step": 2900 }, { "epoch": 0.967, "grad_norm": 2.3323960304260254, "learning_rate": 1.7136581009071126e-05, "loss": 0.4852, "step": 2901 }, { "epoch": 0.9673333333333334, "grad_norm": 1.9285149574279785, "learning_rate": 1.713386359901913e-05, "loss": 0.5012, "step": 2902 }, { "epoch": 0.9676666666666667, "grad_norm": 1.6660205125808716, "learning_rate": 1.713114511583178e-05, "loss": 0.49, "step": 2903 }, { "epoch": 0.968, "grad_norm": 2.1607847213745117, "learning_rate": 1.7128425559918006e-05, "loss": 0.5291, "step": 2904 }, { "epoch": 0.9683333333333334, "grad_norm": 2.7268927097320557, "learning_rate": 1.7125704931686913e-05, "loss": 0.4971, "step": 2905 }, { "epoch": 0.9686666666666667, "grad_norm": 1.920475721359253, "learning_rate": 1.712298323154776e-05, "loss": 0.524, "step": 2906 }, { "epoch": 0.969, "grad_norm": 1.7357840538024902, "learning_rate": 1.712026045990997e-05, "loss": 0.5387, "step": 2907 }, { "epoch": 0.9693333333333334, "grad_norm": 2.3984012603759766, "learning_rate": 1.711753661718312e-05, "loss": 0.4885, "step": 2908 }, { "epoch": 0.9696666666666667, "grad_norm": 2.0897819995880127, "learning_rate": 1.711481170377695e-05, "loss": 0.5549, "step": 2909 }, { "epoch": 0.97, "grad_norm": 1.8214243650436401, "learning_rate": 1.711208572010137e-05, "loss": 0.5041, "step": 2910 }, { "epoch": 0.9703333333333334, "grad_norm": 1.651496410369873, "learning_rate": 1.7109358666566453e-05, "loss": 0.4736, "step": 2911 }, { "epoch": 0.9706666666666667, "grad_norm": 1.652413249015808, "learning_rate": 1.7106630543582413e-05, "loss": 0.4801, "step": 2912 }, { "epoch": 0.971, "grad_norm": 1.862821340560913, "learning_rate": 1.710390135155964e-05, "loss": 0.5062, "step": 2913 }, { "epoch": 0.9713333333333334, "grad_norm": 1.7816804647445679, "learning_rate": 1.710117109090868e-05, "loss": 0.4746, "step": 2914 }, { "epoch": 0.9716666666666667, "grad_norm": 1.9144974946975708, "learning_rate": 1.709843976204025e-05, "loss": 0.5166, "step": 2915 }, { "epoch": 0.972, "grad_norm": 1.6675899028778076, "learning_rate": 1.709570736536521e-05, "loss": 0.4801, "step": 2916 }, { "epoch": 0.9723333333333334, "grad_norm": 2.1286120414733887, "learning_rate": 1.7092973901294596e-05, "loss": 0.4938, "step": 2917 }, { "epoch": 0.9726666666666667, "grad_norm": 2.05037522315979, "learning_rate": 1.7090239370239597e-05, "loss": 0.5027, "step": 2918 }, { "epoch": 0.973, "grad_norm": 1.9301187992095947, "learning_rate": 1.708750377261156e-05, "loss": 0.5137, "step": 2919 }, { "epoch": 0.9733333333333334, "grad_norm": 2.109262704849243, "learning_rate": 1.7084767108822e-05, "loss": 0.488, "step": 2920 }, { "epoch": 0.9736666666666667, "grad_norm": 1.7142226696014404, "learning_rate": 1.7082029379282586e-05, "loss": 0.477, "step": 2921 }, { "epoch": 0.974, "grad_norm": 1.9599456787109375, "learning_rate": 1.7079290584405158e-05, "loss": 0.524, "step": 2922 }, { "epoch": 0.9743333333333334, "grad_norm": 1.4273947477340698, "learning_rate": 1.7076550724601702e-05, "loss": 0.4727, "step": 2923 }, { "epoch": 0.9746666666666667, "grad_norm": 1.782457709312439, "learning_rate": 1.7073809800284373e-05, "loss": 0.5347, "step": 2924 }, { "epoch": 0.975, "grad_norm": 2.2197420597076416, "learning_rate": 1.7071067811865477e-05, "loss": 0.5215, "step": 2925 }, { "epoch": 0.9753333333333334, "grad_norm": 1.730368733406067, "learning_rate": 1.7068324759757494e-05, "loss": 0.4473, "step": 2926 }, { "epoch": 0.9756666666666667, "grad_norm": 1.7747712135314941, "learning_rate": 1.7065580644373057e-05, "loss": 0.5188, "step": 2927 }, { "epoch": 0.976, "grad_norm": 2.1798434257507324, "learning_rate": 1.7062835466124953e-05, "loss": 0.4307, "step": 2928 }, { "epoch": 0.9763333333333334, "grad_norm": 1.6156154870986938, "learning_rate": 1.7060089225426143e-05, "loss": 0.4659, "step": 2929 }, { "epoch": 0.9766666666666667, "grad_norm": 1.9213547706604004, "learning_rate": 1.7057341922689733e-05, "loss": 0.4996, "step": 2930 }, { "epoch": 0.977, "grad_norm": 2.234142541885376, "learning_rate": 1.7054593558328996e-05, "loss": 0.4821, "step": 2931 }, { "epoch": 0.9773333333333334, "grad_norm": 1.8070229291915894, "learning_rate": 1.7051844132757366e-05, "loss": 0.5085, "step": 2932 }, { "epoch": 0.9776666666666667, "grad_norm": 2.2573421001434326, "learning_rate": 1.7049093646388433e-05, "loss": 0.535, "step": 2933 }, { "epoch": 0.978, "grad_norm": 2.11916184425354, "learning_rate": 1.7046342099635948e-05, "loss": 0.5089, "step": 2934 }, { "epoch": 0.9783333333333334, "grad_norm": 1.8849787712097168, "learning_rate": 1.7043589492913823e-05, "loss": 0.5106, "step": 2935 }, { "epoch": 0.9786666666666667, "grad_norm": 2.483538866043091, "learning_rate": 1.704083582663613e-05, "loss": 0.5144, "step": 2936 }, { "epoch": 0.979, "grad_norm": 1.9261701107025146, "learning_rate": 1.7038081101217093e-05, "loss": 0.4849, "step": 2937 }, { "epoch": 0.9793333333333333, "grad_norm": 2.820054531097412, "learning_rate": 1.70353253170711e-05, "loss": 0.531, "step": 2938 }, { "epoch": 0.9796666666666667, "grad_norm": 1.9522387981414795, "learning_rate": 1.703256847461271e-05, "loss": 0.4988, "step": 2939 }, { "epoch": 0.98, "grad_norm": 1.8335148096084595, "learning_rate": 1.702981057425662e-05, "loss": 0.4829, "step": 2940 }, { "epoch": 0.9803333333333333, "grad_norm": 1.9661641120910645, "learning_rate": 1.7027051616417698e-05, "loss": 0.4646, "step": 2941 }, { "epoch": 0.9806666666666667, "grad_norm": 2.0059688091278076, "learning_rate": 1.7024291601510975e-05, "loss": 0.4667, "step": 2942 }, { "epoch": 0.981, "grad_norm": 1.7500596046447754, "learning_rate": 1.7021530529951627e-05, "loss": 0.5055, "step": 2943 }, { "epoch": 0.9813333333333333, "grad_norm": 1.838411569595337, "learning_rate": 1.7018768402155004e-05, "loss": 0.4463, "step": 2944 }, { "epoch": 0.9816666666666667, "grad_norm": 1.9303139448165894, "learning_rate": 1.7016005218536606e-05, "loss": 0.4951, "step": 2945 }, { "epoch": 0.982, "grad_norm": 2.1950361728668213, "learning_rate": 1.701324097951209e-05, "loss": 0.5041, "step": 2946 }, { "epoch": 0.9823333333333333, "grad_norm": 2.104398250579834, "learning_rate": 1.7010475685497287e-05, "loss": 0.4979, "step": 2947 }, { "epoch": 0.9826666666666667, "grad_norm": 1.689895510673523, "learning_rate": 1.7007709336908166e-05, "loss": 0.5045, "step": 2948 }, { "epoch": 0.983, "grad_norm": 2.0678699016571045, "learning_rate": 1.7004941934160866e-05, "loss": 0.5418, "step": 2949 }, { "epoch": 0.9833333333333333, "grad_norm": 2.0072021484375, "learning_rate": 1.7002173477671685e-05, "loss": 0.5015, "step": 2950 }, { "epoch": 0.9836666666666667, "grad_norm": 2.6297669410705566, "learning_rate": 1.6999403967857078e-05, "loss": 0.5146, "step": 2951 }, { "epoch": 0.984, "grad_norm": 1.6963024139404297, "learning_rate": 1.6996633405133656e-05, "loss": 0.4712, "step": 2952 }, { "epoch": 0.9843333333333333, "grad_norm": 2.2400600910186768, "learning_rate": 1.699386178991819e-05, "loss": 0.4665, "step": 2953 }, { "epoch": 0.9846666666666667, "grad_norm": 2.4421145915985107, "learning_rate": 1.699108912262761e-05, "loss": 0.5261, "step": 2954 }, { "epoch": 0.985, "grad_norm": 2.7662720680236816, "learning_rate": 1.6988315403679e-05, "loss": 0.4992, "step": 2955 }, { "epoch": 0.9853333333333333, "grad_norm": 2.518733024597168, "learning_rate": 1.6985540633489614e-05, "loss": 0.4973, "step": 2956 }, { "epoch": 0.9856666666666667, "grad_norm": 1.8520945310592651, "learning_rate": 1.698276481247685e-05, "loss": 0.5132, "step": 2957 }, { "epoch": 0.986, "grad_norm": 2.2199008464813232, "learning_rate": 1.6979987941058274e-05, "loss": 0.5304, "step": 2958 }, { "epoch": 0.9863333333333333, "grad_norm": 2.220635175704956, "learning_rate": 1.6977210019651603e-05, "loss": 0.5339, "step": 2959 }, { "epoch": 0.9866666666666667, "grad_norm": 2.107926368713379, "learning_rate": 1.6974431048674714e-05, "loss": 0.5243, "step": 2960 }, { "epoch": 0.987, "grad_norm": 1.8617899417877197, "learning_rate": 1.697165102854565e-05, "loss": 0.4697, "step": 2961 }, { "epoch": 0.9873333333333333, "grad_norm": 1.730425238609314, "learning_rate": 1.6968869959682594e-05, "loss": 0.5299, "step": 2962 }, { "epoch": 0.9876666666666667, "grad_norm": 2.084721565246582, "learning_rate": 1.6966087842503907e-05, "loss": 0.4881, "step": 2963 }, { "epoch": 0.988, "grad_norm": 2.3069067001342773, "learning_rate": 1.6963304677428096e-05, "loss": 0.512, "step": 2964 }, { "epoch": 0.9883333333333333, "grad_norm": 3.0454607009887695, "learning_rate": 1.6960520464873826e-05, "loss": 0.4541, "step": 2965 }, { "epoch": 0.9886666666666667, "grad_norm": 2.110428810119629, "learning_rate": 1.6957735205259923e-05, "loss": 0.4692, "step": 2966 }, { "epoch": 0.989, "grad_norm": 2.0311062335968018, "learning_rate": 1.6954948899005365e-05, "loss": 0.5046, "step": 2967 }, { "epoch": 0.9893333333333333, "grad_norm": 1.914138674736023, "learning_rate": 1.69521615465293e-05, "loss": 0.5174, "step": 2968 }, { "epoch": 0.9896666666666667, "grad_norm": 1.9220861196517944, "learning_rate": 1.6949373148251017e-05, "loss": 0.484, "step": 2969 }, { "epoch": 0.99, "grad_norm": 2.267446517944336, "learning_rate": 1.6946583704589973e-05, "loss": 0.5354, "step": 2970 }, { "epoch": 0.9903333333333333, "grad_norm": 2.9675934314727783, "learning_rate": 1.694379321596578e-05, "loss": 0.5212, "step": 2971 }, { "epoch": 0.9906666666666667, "grad_norm": 2.5405101776123047, "learning_rate": 1.6941001682798207e-05, "loss": 0.5199, "step": 2972 }, { "epoch": 0.991, "grad_norm": 1.8130561113357544, "learning_rate": 1.6938209105507177e-05, "loss": 0.4761, "step": 2973 }, { "epoch": 0.9913333333333333, "grad_norm": 1.8543353080749512, "learning_rate": 1.6935415484512778e-05, "loss": 0.456, "step": 2974 }, { "epoch": 0.9916666666666667, "grad_norm": 2.22680401802063, "learning_rate": 1.6932620820235243e-05, "loss": 0.5101, "step": 2975 }, { "epoch": 0.992, "grad_norm": 3.1567420959472656, "learning_rate": 1.6929825113094972e-05, "loss": 0.5406, "step": 2976 }, { "epoch": 0.9923333333333333, "grad_norm": 1.5801520347595215, "learning_rate": 1.6927028363512523e-05, "loss": 0.5101, "step": 2977 }, { "epoch": 0.9926666666666667, "grad_norm": 1.7762486934661865, "learning_rate": 1.6924230571908598e-05, "loss": 0.4754, "step": 2978 }, { "epoch": 0.993, "grad_norm": 1.7251542806625366, "learning_rate": 1.692143173870407e-05, "loss": 0.5096, "step": 2979 }, { "epoch": 0.9933333333333333, "grad_norm": 2.266618251800537, "learning_rate": 1.691863186431996e-05, "loss": 0.5139, "step": 2980 }, { "epoch": 0.9936666666666667, "grad_norm": 2.0991580486297607, "learning_rate": 1.691583094917745e-05, "loss": 0.5139, "step": 2981 }, { "epoch": 0.994, "grad_norm": 2.5464742183685303, "learning_rate": 1.6913028993697877e-05, "loss": 0.5217, "step": 2982 }, { "epoch": 0.9943333333333333, "grad_norm": 1.9734686613082886, "learning_rate": 1.6910225998302733e-05, "loss": 0.51, "step": 2983 }, { "epoch": 0.9946666666666667, "grad_norm": 2.036740779876709, "learning_rate": 1.6907421963413676e-05, "loss": 0.4949, "step": 2984 }, { "epoch": 0.995, "grad_norm": 1.9659996032714844, "learning_rate": 1.6904616889452497e-05, "loss": 0.4764, "step": 2985 }, { "epoch": 0.9953333333333333, "grad_norm": 2.468283176422119, "learning_rate": 1.6901810776841172e-05, "loss": 0.5288, "step": 2986 }, { "epoch": 0.9956666666666667, "grad_norm": 1.9724609851837158, "learning_rate": 1.6899003626001814e-05, "loss": 0.5052, "step": 2987 }, { "epoch": 0.996, "grad_norm": 1.7870981693267822, "learning_rate": 1.68961954373567e-05, "loss": 0.5166, "step": 2988 }, { "epoch": 0.9963333333333333, "grad_norm": 2.7094497680664062, "learning_rate": 1.689338621132826e-05, "loss": 0.5047, "step": 2989 }, { "epoch": 0.9966666666666667, "grad_norm": 1.7678171396255493, "learning_rate": 1.689057594833908e-05, "loss": 0.4859, "step": 2990 }, { "epoch": 0.997, "grad_norm": 1.7469357252120972, "learning_rate": 1.688776464881191e-05, "loss": 0.4918, "step": 2991 }, { "epoch": 0.9973333333333333, "grad_norm": 1.9298542737960815, "learning_rate": 1.6884952313169636e-05, "loss": 0.4874, "step": 2992 }, { "epoch": 0.9976666666666667, "grad_norm": 1.6487497091293335, "learning_rate": 1.6882138941835327e-05, "loss": 0.4655, "step": 2993 }, { "epoch": 0.998, "grad_norm": 1.7612838745117188, "learning_rate": 1.6879324535232186e-05, "loss": 0.4652, "step": 2994 }, { "epoch": 0.9983333333333333, "grad_norm": 1.7919495105743408, "learning_rate": 1.6876509093783584e-05, "loss": 0.4637, "step": 2995 }, { "epoch": 0.9986666666666667, "grad_norm": 1.843759298324585, "learning_rate": 1.6873692617913038e-05, "loss": 0.5194, "step": 2996 }, { "epoch": 0.999, "grad_norm": 1.931972861289978, "learning_rate": 1.6870875108044233e-05, "loss": 0.4647, "step": 2997 }, { "epoch": 0.9993333333333333, "grad_norm": 1.70893132686615, "learning_rate": 1.6868056564600993e-05, "loss": 0.5042, "step": 2998 }, { "epoch": 0.9996666666666667, "grad_norm": 2.250117778778076, "learning_rate": 1.6865236988007315e-05, "loss": 0.5236, "step": 2999 }, { "epoch": 1.0, "grad_norm": 2.202547311782837, "learning_rate": 1.686241637868734e-05, "loss": 0.5178, "step": 3000 }, { "epoch": 1.0003333333333333, "grad_norm": 2.1980180740356445, "learning_rate": 1.6859594737065364e-05, "loss": 0.4814, "step": 3001 }, { "epoch": 1.0006666666666666, "grad_norm": 1.7109228372573853, "learning_rate": 1.6856772063565846e-05, "loss": 0.4406, "step": 3002 }, { "epoch": 1.001, "grad_norm": 2.4907004833221436, "learning_rate": 1.68539483586134e-05, "loss": 0.5343, "step": 3003 }, { "epoch": 1.0013333333333334, "grad_norm": 2.013209342956543, "learning_rate": 1.6851123622632783e-05, "loss": 0.4669, "step": 3004 }, { "epoch": 1.0016666666666667, "grad_norm": 2.0400888919830322, "learning_rate": 1.684829785604892e-05, "loss": 0.4687, "step": 3005 }, { "epoch": 1.002, "grad_norm": 2.12064266204834, "learning_rate": 1.684547105928689e-05, "loss": 0.5344, "step": 3006 }, { "epoch": 1.0023333333333333, "grad_norm": 1.9916552305221558, "learning_rate": 1.6842643232771916e-05, "loss": 0.442, "step": 3007 }, { "epoch": 1.0026666666666666, "grad_norm": 2.3662986755371094, "learning_rate": 1.6839814376929383e-05, "loss": 0.503, "step": 3008 }, { "epoch": 1.003, "grad_norm": 1.8590506315231323, "learning_rate": 1.683698449218484e-05, "loss": 0.4616, "step": 3009 }, { "epoch": 1.0033333333333334, "grad_norm": 1.8555656671524048, "learning_rate": 1.683415357896397e-05, "loss": 0.456, "step": 3010 }, { "epoch": 1.0036666666666667, "grad_norm": 1.7504217624664307, "learning_rate": 1.6831321637692637e-05, "loss": 0.4951, "step": 3011 }, { "epoch": 1.004, "grad_norm": 1.8299319744110107, "learning_rate": 1.6828488668796836e-05, "loss": 0.4758, "step": 3012 }, { "epoch": 1.0043333333333333, "grad_norm": 2.048830986022949, "learning_rate": 1.6825654672702723e-05, "loss": 0.4964, "step": 3013 }, { "epoch": 1.0046666666666666, "grad_norm": 2.0760393142700195, "learning_rate": 1.6822819649836616e-05, "loss": 0.46, "step": 3014 }, { "epoch": 1.005, "grad_norm": 2.0590097904205322, "learning_rate": 1.6819983600624986e-05, "loss": 0.5087, "step": 3015 }, { "epoch": 1.0053333333333334, "grad_norm": 1.9812830686569214, "learning_rate": 1.681714652549445e-05, "loss": 0.4555, "step": 3016 }, { "epoch": 1.0056666666666667, "grad_norm": 1.6371197700500488, "learning_rate": 1.6814308424871785e-05, "loss": 0.51, "step": 3017 }, { "epoch": 1.006, "grad_norm": 2.468271255493164, "learning_rate": 1.6811469299183928e-05, "loss": 0.4974, "step": 3018 }, { "epoch": 1.0063333333333333, "grad_norm": 1.8475083112716675, "learning_rate": 1.6808629148857953e-05, "loss": 0.4825, "step": 3019 }, { "epoch": 1.0066666666666666, "grad_norm": 1.9873250722885132, "learning_rate": 1.6805787974321107e-05, "loss": 0.4995, "step": 3020 }, { "epoch": 1.007, "grad_norm": 2.043215036392212, "learning_rate": 1.6802945776000782e-05, "loss": 0.4905, "step": 3021 }, { "epoch": 1.0073333333333334, "grad_norm": 2.050205945968628, "learning_rate": 1.680010255432452e-05, "loss": 0.4902, "step": 3022 }, { "epoch": 1.0076666666666667, "grad_norm": 1.9751814603805542, "learning_rate": 1.679725830972003e-05, "loss": 0.472, "step": 3023 }, { "epoch": 1.008, "grad_norm": 1.8363134860992432, "learning_rate": 1.6794413042615168e-05, "loss": 0.473, "step": 3024 }, { "epoch": 1.0083333333333333, "grad_norm": 1.746618390083313, "learning_rate": 1.6791566753437935e-05, "loss": 0.4854, "step": 3025 }, { "epoch": 1.0086666666666666, "grad_norm": 1.9460093975067139, "learning_rate": 1.6788719442616493e-05, "loss": 0.5132, "step": 3026 }, { "epoch": 1.009, "grad_norm": 2.2912261486053467, "learning_rate": 1.6785871110579167e-05, "loss": 0.4955, "step": 3027 }, { "epoch": 1.0093333333333334, "grad_norm": 1.8412930965423584, "learning_rate": 1.6783021757754424e-05, "loss": 0.4765, "step": 3028 }, { "epoch": 1.0096666666666667, "grad_norm": 1.7031528949737549, "learning_rate": 1.678017138457088e-05, "loss": 0.4771, "step": 3029 }, { "epoch": 1.01, "grad_norm": 1.833648443222046, "learning_rate": 1.6777319991457325e-05, "loss": 0.4802, "step": 3030 }, { "epoch": 1.0103333333333333, "grad_norm": 1.9447599649429321, "learning_rate": 1.677446757884268e-05, "loss": 0.505, "step": 3031 }, { "epoch": 1.0106666666666666, "grad_norm": 2.17453932762146, "learning_rate": 1.677161414715603e-05, "loss": 0.4726, "step": 3032 }, { "epoch": 1.011, "grad_norm": 2.417970895767212, "learning_rate": 1.6768759696826608e-05, "loss": 0.4665, "step": 3033 }, { "epoch": 1.0113333333333334, "grad_norm": 1.6314611434936523, "learning_rate": 1.6765904228283815e-05, "loss": 0.5046, "step": 3034 }, { "epoch": 1.0116666666666667, "grad_norm": 2.068404197692871, "learning_rate": 1.6763047741957186e-05, "loss": 0.4899, "step": 3035 }, { "epoch": 1.012, "grad_norm": 2.230820894241333, "learning_rate": 1.6760190238276418e-05, "loss": 0.5019, "step": 3036 }, { "epoch": 1.0123333333333333, "grad_norm": 1.946341633796692, "learning_rate": 1.675733171767137e-05, "loss": 0.4691, "step": 3037 }, { "epoch": 1.0126666666666666, "grad_norm": 1.628322720527649, "learning_rate": 1.6754472180572032e-05, "loss": 0.4117, "step": 3038 }, { "epoch": 1.013, "grad_norm": 2.264216661453247, "learning_rate": 1.6751611627408567e-05, "loss": 0.5219, "step": 3039 }, { "epoch": 1.0133333333333334, "grad_norm": 2.123194932937622, "learning_rate": 1.674875005861128e-05, "loss": 0.4424, "step": 3040 }, { "epoch": 1.0136666666666667, "grad_norm": 1.876983404159546, "learning_rate": 1.674588747461063e-05, "loss": 0.5015, "step": 3041 }, { "epoch": 1.014, "grad_norm": 2.208102226257324, "learning_rate": 1.6743023875837233e-05, "loss": 0.4533, "step": 3042 }, { "epoch": 1.0143333333333333, "grad_norm": 1.7911404371261597, "learning_rate": 1.6740159262721862e-05, "loss": 0.4772, "step": 3043 }, { "epoch": 1.0146666666666666, "grad_norm": 1.7562752962112427, "learning_rate": 1.673729363569543e-05, "loss": 0.4324, "step": 3044 }, { "epoch": 1.015, "grad_norm": 2.154268980026245, "learning_rate": 1.6734426995189003e-05, "loss": 0.5225, "step": 3045 }, { "epoch": 1.0153333333333334, "grad_norm": 1.7407371997833252, "learning_rate": 1.6731559341633818e-05, "loss": 0.5053, "step": 3046 }, { "epoch": 1.0156666666666667, "grad_norm": 2.2238097190856934, "learning_rate": 1.6728690675461237e-05, "loss": 0.5126, "step": 3047 }, { "epoch": 1.016, "grad_norm": 1.9914867877960205, "learning_rate": 1.6725820997102804e-05, "loss": 0.5231, "step": 3048 }, { "epoch": 1.0163333333333333, "grad_norm": 1.6741689443588257, "learning_rate": 1.6722950306990187e-05, "loss": 0.4974, "step": 3049 }, { "epoch": 1.0166666666666666, "grad_norm": 1.737831473350525, "learning_rate": 1.6720078605555227e-05, "loss": 0.4565, "step": 3050 }, { "epoch": 1.017, "grad_norm": 1.863660216331482, "learning_rate": 1.6717205893229904e-05, "loss": 0.5389, "step": 3051 }, { "epoch": 1.0173333333333334, "grad_norm": 1.479814887046814, "learning_rate": 1.6714332170446357e-05, "loss": 0.4578, "step": 3052 }, { "epoch": 1.0176666666666667, "grad_norm": 2.1109564304351807, "learning_rate": 1.671145743763688e-05, "loss": 0.4991, "step": 3053 }, { "epoch": 1.018, "grad_norm": 1.997512698173523, "learning_rate": 1.670858169523391e-05, "loss": 0.4969, "step": 3054 }, { "epoch": 1.0183333333333333, "grad_norm": 1.7759875059127808, "learning_rate": 1.6705704943670038e-05, "loss": 0.5004, "step": 3055 }, { "epoch": 1.0186666666666666, "grad_norm": 1.8939120769500732, "learning_rate": 1.6702827183378014e-05, "loss": 0.479, "step": 3056 }, { "epoch": 1.019, "grad_norm": 2.462367057800293, "learning_rate": 1.6699948414790734e-05, "loss": 0.4811, "step": 3057 }, { "epoch": 1.0193333333333334, "grad_norm": 1.8297048807144165, "learning_rate": 1.669706863834124e-05, "loss": 0.4989, "step": 3058 }, { "epoch": 1.0196666666666667, "grad_norm": 1.933908462524414, "learning_rate": 1.6694187854462742e-05, "loss": 0.5054, "step": 3059 }, { "epoch": 1.02, "grad_norm": 2.1321945190429688, "learning_rate": 1.6691306063588583e-05, "loss": 0.5175, "step": 3060 }, { "epoch": 1.0203333333333333, "grad_norm": 1.9940738677978516, "learning_rate": 1.668842326615227e-05, "loss": 0.462, "step": 3061 }, { "epoch": 1.0206666666666666, "grad_norm": 1.8780194520950317, "learning_rate": 1.6685539462587462e-05, "loss": 0.4705, "step": 3062 }, { "epoch": 1.021, "grad_norm": 2.207775115966797, "learning_rate": 1.6682654653327953e-05, "loss": 0.516, "step": 3063 }, { "epoch": 1.0213333333333334, "grad_norm": 2.578500509262085, "learning_rate": 1.6679768838807713e-05, "loss": 0.5216, "step": 3064 }, { "epoch": 1.0216666666666667, "grad_norm": 2.3588039875030518, "learning_rate": 1.667688201946084e-05, "loss": 0.5208, "step": 3065 }, { "epoch": 1.022, "grad_norm": 1.9689172506332397, "learning_rate": 1.66739941957216e-05, "loss": 0.4647, "step": 3066 }, { "epoch": 1.0223333333333333, "grad_norm": 2.1084043979644775, "learning_rate": 1.66711053680244e-05, "loss": 0.5077, "step": 3067 }, { "epoch": 1.0226666666666666, "grad_norm": 1.7643581628799438, "learning_rate": 1.6668215536803805e-05, "loss": 0.4498, "step": 3068 }, { "epoch": 1.023, "grad_norm": 3.47749662399292, "learning_rate": 1.6665324702494524e-05, "loss": 0.4953, "step": 3069 }, { "epoch": 1.0233333333333334, "grad_norm": 2.1378774642944336, "learning_rate": 1.6662432865531428e-05, "loss": 0.4933, "step": 3070 }, { "epoch": 1.0236666666666667, "grad_norm": 2.2830557823181152, "learning_rate": 1.6659540026349516e-05, "loss": 0.4946, "step": 3071 }, { "epoch": 1.024, "grad_norm": 1.6638725996017456, "learning_rate": 1.665664618538397e-05, "loss": 0.515, "step": 3072 }, { "epoch": 1.0243333333333333, "grad_norm": 1.8124128580093384, "learning_rate": 1.665375134307009e-05, "loss": 0.4953, "step": 3073 }, { "epoch": 1.0246666666666666, "grad_norm": 1.9248677492141724, "learning_rate": 1.6650855499843358e-05, "loss": 0.4675, "step": 3074 }, { "epoch": 1.025, "grad_norm": 2.3982746601104736, "learning_rate": 1.6647958656139377e-05, "loss": 0.4838, "step": 3075 }, { "epoch": 1.0253333333333334, "grad_norm": 1.9664154052734375, "learning_rate": 1.6645060812393926e-05, "loss": 0.4488, "step": 3076 }, { "epoch": 1.0256666666666667, "grad_norm": 2.093088388442993, "learning_rate": 1.664216196904292e-05, "loss": 0.4492, "step": 3077 }, { "epoch": 1.026, "grad_norm": 2.055760145187378, "learning_rate": 1.6639262126522417e-05, "loss": 0.4593, "step": 3078 }, { "epoch": 1.0263333333333333, "grad_norm": 3.2958791255950928, "learning_rate": 1.6636361285268647e-05, "loss": 0.5142, "step": 3079 }, { "epoch": 1.0266666666666666, "grad_norm": 2.9428513050079346, "learning_rate": 1.6633459445717973e-05, "loss": 0.4916, "step": 3080 }, { "epoch": 1.027, "grad_norm": 2.070254325866699, "learning_rate": 1.663055660830692e-05, "loss": 0.4859, "step": 3081 }, { "epoch": 1.0273333333333334, "grad_norm": 2.6271626949310303, "learning_rate": 1.6627652773472153e-05, "loss": 0.4688, "step": 3082 }, { "epoch": 1.0276666666666667, "grad_norm": 2.1124155521392822, "learning_rate": 1.662474794165049e-05, "loss": 0.4819, "step": 3083 }, { "epoch": 1.028, "grad_norm": 2.707834482192993, "learning_rate": 1.6621842113278902e-05, "loss": 0.4597, "step": 3084 }, { "epoch": 1.0283333333333333, "grad_norm": 1.9395018815994263, "learning_rate": 1.6618935288794508e-05, "loss": 0.5081, "step": 3085 }, { "epoch": 1.0286666666666666, "grad_norm": 2.0990288257598877, "learning_rate": 1.6616027468634573e-05, "loss": 0.4784, "step": 3086 }, { "epoch": 1.029, "grad_norm": 2.492589235305786, "learning_rate": 1.661311865323652e-05, "loss": 0.5191, "step": 3087 }, { "epoch": 1.0293333333333334, "grad_norm": 2.195531129837036, "learning_rate": 1.6610208843037917e-05, "loss": 0.4869, "step": 3088 }, { "epoch": 1.0296666666666667, "grad_norm": 2.0557219982147217, "learning_rate": 1.660729803847648e-05, "loss": 0.5094, "step": 3089 }, { "epoch": 1.03, "grad_norm": 2.332214593887329, "learning_rate": 1.6604386239990077e-05, "loss": 0.4817, "step": 3090 }, { "epoch": 1.0303333333333333, "grad_norm": 2.2459888458251953, "learning_rate": 1.660147344801673e-05, "loss": 0.4793, "step": 3091 }, { "epoch": 1.0306666666666666, "grad_norm": 1.8781728744506836, "learning_rate": 1.6598559662994594e-05, "loss": 0.4314, "step": 3092 }, { "epoch": 1.031, "grad_norm": 1.5045130252838135, "learning_rate": 1.6595644885362e-05, "loss": 0.4536, "step": 3093 }, { "epoch": 1.0313333333333334, "grad_norm": 1.7862602472305298, "learning_rate": 1.65927291155574e-05, "loss": 0.528, "step": 3094 }, { "epoch": 1.0316666666666667, "grad_norm": 2.020780086517334, "learning_rate": 1.6589812354019414e-05, "loss": 0.5031, "step": 3095 }, { "epoch": 1.032, "grad_norm": 4.08859920501709, "learning_rate": 1.6586894601186804e-05, "loss": 0.5141, "step": 3096 }, { "epoch": 1.0323333333333333, "grad_norm": 1.903228521347046, "learning_rate": 1.6583975857498487e-05, "loss": 0.4424, "step": 3097 }, { "epoch": 1.0326666666666666, "grad_norm": 1.9765145778656006, "learning_rate": 1.6581056123393523e-05, "loss": 0.4615, "step": 3098 }, { "epoch": 1.033, "grad_norm": 2.4145913124084473, "learning_rate": 1.657813539931112e-05, "loss": 0.4983, "step": 3099 }, { "epoch": 1.0333333333333334, "grad_norm": 2.3215830326080322, "learning_rate": 1.657521368569064e-05, "loss": 0.4859, "step": 3100 }, { "epoch": 1.0336666666666667, "grad_norm": 2.3862881660461426, "learning_rate": 1.6572290982971588e-05, "loss": 0.5007, "step": 3101 }, { "epoch": 1.034, "grad_norm": 1.6964170932769775, "learning_rate": 1.6569367291593627e-05, "loss": 0.4982, "step": 3102 }, { "epoch": 1.0343333333333333, "grad_norm": 3.914522409439087, "learning_rate": 1.6566442611996557e-05, "loss": 0.4712, "step": 3103 }, { "epoch": 1.0346666666666666, "grad_norm": 1.8896594047546387, "learning_rate": 1.656351694462034e-05, "loss": 0.44, "step": 3104 }, { "epoch": 1.035, "grad_norm": 2.0367259979248047, "learning_rate": 1.6560590289905074e-05, "loss": 0.4994, "step": 3105 }, { "epoch": 1.0353333333333334, "grad_norm": 2.425678253173828, "learning_rate": 1.6557662648291013e-05, "loss": 0.5385, "step": 3106 }, { "epoch": 1.0356666666666667, "grad_norm": 2.5833356380462646, "learning_rate": 1.6554734020218557e-05, "loss": 0.4704, "step": 3107 }, { "epoch": 1.036, "grad_norm": 1.7954316139221191, "learning_rate": 1.655180440612825e-05, "loss": 0.4812, "step": 3108 }, { "epoch": 1.0363333333333333, "grad_norm": 2.127567768096924, "learning_rate": 1.6548873806460797e-05, "loss": 0.4971, "step": 3109 }, { "epoch": 1.0366666666666666, "grad_norm": 1.8413059711456299, "learning_rate": 1.6545942221657042e-05, "loss": 0.4694, "step": 3110 }, { "epoch": 1.037, "grad_norm": 2.0201797485351562, "learning_rate": 1.6543009652157973e-05, "loss": 0.441, "step": 3111 }, { "epoch": 1.0373333333333334, "grad_norm": 2.279364824295044, "learning_rate": 1.6540076098404732e-05, "loss": 0.4653, "step": 3112 }, { "epoch": 1.0376666666666667, "grad_norm": 2.325411081314087, "learning_rate": 1.6537141560838614e-05, "loss": 0.4945, "step": 3113 }, { "epoch": 1.038, "grad_norm": 2.137651205062866, "learning_rate": 1.6534206039901057e-05, "loss": 0.4958, "step": 3114 }, { "epoch": 1.0383333333333333, "grad_norm": 1.965380072593689, "learning_rate": 1.6531269536033637e-05, "loss": 0.4724, "step": 3115 }, { "epoch": 1.0386666666666666, "grad_norm": 1.832567572593689, "learning_rate": 1.6528332049678103e-05, "loss": 0.4801, "step": 3116 }, { "epoch": 1.039, "grad_norm": 2.1928815841674805, "learning_rate": 1.652539358127632e-05, "loss": 0.4905, "step": 3117 }, { "epoch": 1.0393333333333334, "grad_norm": 1.7171064615249634, "learning_rate": 1.6522454131270324e-05, "loss": 0.4822, "step": 3118 }, { "epoch": 1.0396666666666667, "grad_norm": 1.9076147079467773, "learning_rate": 1.6519513700102298e-05, "loss": 0.4813, "step": 3119 }, { "epoch": 1.04, "grad_norm": 1.7677780389785767, "learning_rate": 1.6516572288214555e-05, "loss": 0.4905, "step": 3120 }, { "epoch": 1.0403333333333333, "grad_norm": 1.5838521718978882, "learning_rate": 1.651362989604957e-05, "loss": 0.4733, "step": 3121 }, { "epoch": 1.0406666666666666, "grad_norm": 1.8678529262542725, "learning_rate": 1.6510686524049966e-05, "loss": 0.4962, "step": 3122 }, { "epoch": 1.041, "grad_norm": 1.979506254196167, "learning_rate": 1.650774217265851e-05, "loss": 0.4688, "step": 3123 }, { "epoch": 1.0413333333333332, "grad_norm": 2.173853874206543, "learning_rate": 1.6504796842318112e-05, "loss": 0.4882, "step": 3124 }, { "epoch": 1.0416666666666667, "grad_norm": 1.8481817245483398, "learning_rate": 1.650185053347184e-05, "loss": 0.4592, "step": 3125 }, { "epoch": 1.042, "grad_norm": 1.6179890632629395, "learning_rate": 1.649890324656289e-05, "loss": 0.435, "step": 3126 }, { "epoch": 1.0423333333333333, "grad_norm": 1.683473825454712, "learning_rate": 1.6495954982034624e-05, "loss": 0.4584, "step": 3127 }, { "epoch": 1.0426666666666666, "grad_norm": 1.8291237354278564, "learning_rate": 1.6493005740330547e-05, "loss": 0.4114, "step": 3128 }, { "epoch": 1.043, "grad_norm": 1.817430853843689, "learning_rate": 1.649005552189431e-05, "loss": 0.5251, "step": 3129 }, { "epoch": 1.0433333333333334, "grad_norm": 2.015709161758423, "learning_rate": 1.6487104327169702e-05, "loss": 0.492, "step": 3130 }, { "epoch": 1.0436666666666667, "grad_norm": 2.249107599258423, "learning_rate": 1.6484152156600674e-05, "loss": 0.427, "step": 3131 }, { "epoch": 1.044, "grad_norm": 1.9362753629684448, "learning_rate": 1.6481199010631312e-05, "loss": 0.4641, "step": 3132 }, { "epoch": 1.0443333333333333, "grad_norm": 2.646538257598877, "learning_rate": 1.6478244889705852e-05, "loss": 0.4544, "step": 3133 }, { "epoch": 1.0446666666666666, "grad_norm": 1.8943476676940918, "learning_rate": 1.647528979426868e-05, "loss": 0.4723, "step": 3134 }, { "epoch": 1.045, "grad_norm": 1.508339285850525, "learning_rate": 1.6472333724764326e-05, "loss": 0.463, "step": 3135 }, { "epoch": 1.0453333333333332, "grad_norm": 1.9291613101959229, "learning_rate": 1.6469376681637465e-05, "loss": 0.5371, "step": 3136 }, { "epoch": 1.0456666666666667, "grad_norm": 2.2733123302459717, "learning_rate": 1.6466418665332923e-05, "loss": 0.5042, "step": 3137 }, { "epoch": 1.046, "grad_norm": 1.8470145463943481, "learning_rate": 1.6463459676295666e-05, "loss": 0.4981, "step": 3138 }, { "epoch": 1.0463333333333333, "grad_norm": 2.4648170471191406, "learning_rate": 1.6460499714970814e-05, "loss": 0.4972, "step": 3139 }, { "epoch": 1.0466666666666666, "grad_norm": 2.0665173530578613, "learning_rate": 1.6457538781803625e-05, "loss": 0.4712, "step": 3140 }, { "epoch": 1.047, "grad_norm": 1.7782540321350098, "learning_rate": 1.645457687723951e-05, "loss": 0.4284, "step": 3141 }, { "epoch": 1.0473333333333332, "grad_norm": 2.1089470386505127, "learning_rate": 1.645161400172402e-05, "loss": 0.5425, "step": 3142 }, { "epoch": 1.0476666666666667, "grad_norm": 1.7855074405670166, "learning_rate": 1.6448650155702857e-05, "loss": 0.4546, "step": 3143 }, { "epoch": 1.048, "grad_norm": 1.8777012825012207, "learning_rate": 1.644568533962187e-05, "loss": 0.4344, "step": 3144 }, { "epoch": 1.0483333333333333, "grad_norm": 1.8342435359954834, "learning_rate": 1.644271955392705e-05, "loss": 0.5148, "step": 3145 }, { "epoch": 1.0486666666666666, "grad_norm": 1.9356497526168823, "learning_rate": 1.6439752799064536e-05, "loss": 0.4809, "step": 3146 }, { "epoch": 1.049, "grad_norm": 2.182593584060669, "learning_rate": 1.643678507548061e-05, "loss": 0.4718, "step": 3147 }, { "epoch": 1.0493333333333332, "grad_norm": 1.5436753034591675, "learning_rate": 1.6433816383621705e-05, "loss": 0.4904, "step": 3148 }, { "epoch": 1.0496666666666667, "grad_norm": 1.7764239311218262, "learning_rate": 1.6430846723934392e-05, "loss": 0.4575, "step": 3149 }, { "epoch": 1.05, "grad_norm": 2.398813486099243, "learning_rate": 1.6427876096865394e-05, "loss": 0.5016, "step": 3150 }, { "epoch": 1.0503333333333333, "grad_norm": 1.9500607252120972, "learning_rate": 1.6424904502861577e-05, "loss": 0.4843, "step": 3151 }, { "epoch": 1.0506666666666666, "grad_norm": 1.9217243194580078, "learning_rate": 1.642193194236996e-05, "loss": 0.4098, "step": 3152 }, { "epoch": 1.051, "grad_norm": 1.9484481811523438, "learning_rate": 1.6418958415837688e-05, "loss": 0.5005, "step": 3153 }, { "epoch": 1.0513333333333332, "grad_norm": 2.155916213989258, "learning_rate": 1.6415983923712072e-05, "loss": 0.4961, "step": 3154 }, { "epoch": 1.0516666666666667, "grad_norm": 2.498138904571533, "learning_rate": 1.6413008466440555e-05, "loss": 0.4997, "step": 3155 }, { "epoch": 1.052, "grad_norm": 1.828988790512085, "learning_rate": 1.6410032044470735e-05, "loss": 0.5029, "step": 3156 }, { "epoch": 1.0523333333333333, "grad_norm": 1.8768105506896973, "learning_rate": 1.6407054658250352e-05, "loss": 0.4625, "step": 3157 }, { "epoch": 1.0526666666666666, "grad_norm": 1.9782334566116333, "learning_rate": 1.6404076308227282e-05, "loss": 0.4637, "step": 3158 }, { "epoch": 1.053, "grad_norm": 1.9366331100463867, "learning_rate": 1.6401096994849558e-05, "loss": 0.4888, "step": 3159 }, { "epoch": 1.0533333333333332, "grad_norm": 2.3539841175079346, "learning_rate": 1.639811671856535e-05, "loss": 0.4932, "step": 3160 }, { "epoch": 1.0536666666666668, "grad_norm": 1.8901169300079346, "learning_rate": 1.639513547982298e-05, "loss": 0.5015, "step": 3161 }, { "epoch": 1.054, "grad_norm": 1.8876283168792725, "learning_rate": 1.6392153279070905e-05, "loss": 0.4513, "step": 3162 }, { "epoch": 1.0543333333333333, "grad_norm": 1.7501580715179443, "learning_rate": 1.6389170116757742e-05, "loss": 0.4999, "step": 3163 }, { "epoch": 1.0546666666666666, "grad_norm": 2.330796957015991, "learning_rate": 1.6386185993332235e-05, "loss": 0.4634, "step": 3164 }, { "epoch": 1.055, "grad_norm": 1.8863592147827148, "learning_rate": 1.6383200909243285e-05, "loss": 0.4465, "step": 3165 }, { "epoch": 1.0553333333333332, "grad_norm": 2.3893215656280518, "learning_rate": 1.638021486493993e-05, "loss": 0.5297, "step": 3166 }, { "epoch": 1.0556666666666668, "grad_norm": 2.11055588722229, "learning_rate": 1.637722786087136e-05, "loss": 0.512, "step": 3167 }, { "epoch": 1.056, "grad_norm": 2.102146863937378, "learning_rate": 1.63742398974869e-05, "loss": 0.4836, "step": 3168 }, { "epoch": 1.0563333333333333, "grad_norm": 2.094093084335327, "learning_rate": 1.637125097523603e-05, "loss": 0.5071, "step": 3169 }, { "epoch": 1.0566666666666666, "grad_norm": 1.5724694728851318, "learning_rate": 1.636826109456836e-05, "loss": 0.4804, "step": 3170 }, { "epoch": 1.057, "grad_norm": 1.9601621627807617, "learning_rate": 1.6365270255933663e-05, "loss": 0.5062, "step": 3171 }, { "epoch": 1.0573333333333332, "grad_norm": 1.5793722867965698, "learning_rate": 1.636227845978184e-05, "loss": 0.4766, "step": 3172 }, { "epoch": 1.0576666666666668, "grad_norm": 2.143860340118408, "learning_rate": 1.635928570656294e-05, "loss": 0.5154, "step": 3173 }, { "epoch": 1.058, "grad_norm": 1.5853973627090454, "learning_rate": 1.635629199672717e-05, "loss": 0.5256, "step": 3174 }, { "epoch": 1.0583333333333333, "grad_norm": 1.8661155700683594, "learning_rate": 1.635329733072485e-05, "loss": 0.439, "step": 3175 }, { "epoch": 1.0586666666666666, "grad_norm": 2.3701303005218506, "learning_rate": 1.635030170900648e-05, "loss": 0.4873, "step": 3176 }, { "epoch": 1.059, "grad_norm": 1.6863163709640503, "learning_rate": 1.6347305132022677e-05, "loss": 0.4642, "step": 3177 }, { "epoch": 1.0593333333333332, "grad_norm": 1.569169044494629, "learning_rate": 1.6344307600224214e-05, "loss": 0.4668, "step": 3178 }, { "epoch": 1.0596666666666668, "grad_norm": 1.788034439086914, "learning_rate": 1.6341309114062006e-05, "loss": 0.4636, "step": 3179 }, { "epoch": 1.06, "grad_norm": 1.7984009981155396, "learning_rate": 1.63383096739871e-05, "loss": 0.4512, "step": 3180 }, { "epoch": 1.0603333333333333, "grad_norm": 2.026501417160034, "learning_rate": 1.6335309280450715e-05, "loss": 0.4537, "step": 3181 }, { "epoch": 1.0606666666666666, "grad_norm": 2.0330238342285156, "learning_rate": 1.633230793390418e-05, "loss": 0.4674, "step": 3182 }, { "epoch": 1.061, "grad_norm": 2.002180814743042, "learning_rate": 1.6329305634798993e-05, "loss": 0.4968, "step": 3183 }, { "epoch": 1.0613333333333332, "grad_norm": 1.6835755109786987, "learning_rate": 1.632630238358678e-05, "loss": 0.4601, "step": 3184 }, { "epoch": 1.0616666666666668, "grad_norm": 2.3578739166259766, "learning_rate": 1.6323298180719312e-05, "loss": 0.4244, "step": 3185 }, { "epoch": 1.062, "grad_norm": 2.0931167602539062, "learning_rate": 1.632029302664851e-05, "loss": 0.4892, "step": 3186 }, { "epoch": 1.0623333333333334, "grad_norm": 2.5414860248565674, "learning_rate": 1.6317286921826433e-05, "loss": 0.4988, "step": 3187 }, { "epoch": 1.0626666666666666, "grad_norm": 2.0745270252227783, "learning_rate": 1.631427986670529e-05, "loss": 0.4771, "step": 3188 }, { "epoch": 1.063, "grad_norm": 2.636579751968384, "learning_rate": 1.6311271861737417e-05, "loss": 0.463, "step": 3189 }, { "epoch": 1.0633333333333332, "grad_norm": 2.1602115631103516, "learning_rate": 1.6308262907375314e-05, "loss": 0.4854, "step": 3190 }, { "epoch": 1.0636666666666668, "grad_norm": 1.6345126628875732, "learning_rate": 1.6305253004071605e-05, "loss": 0.4764, "step": 3191 }, { "epoch": 1.064, "grad_norm": 1.7574418783187866, "learning_rate": 1.6302242152279068e-05, "loss": 0.4857, "step": 3192 }, { "epoch": 1.0643333333333334, "grad_norm": 2.4863131046295166, "learning_rate": 1.629923035245062e-05, "loss": 0.4937, "step": 3193 }, { "epoch": 1.0646666666666667, "grad_norm": 1.7858210802078247, "learning_rate": 1.6296217605039322e-05, "loss": 0.4829, "step": 3194 }, { "epoch": 1.065, "grad_norm": 1.9313993453979492, "learning_rate": 1.6293203910498375e-05, "loss": 0.4928, "step": 3195 }, { "epoch": 1.0653333333333332, "grad_norm": 3.156885862350464, "learning_rate": 1.6290189269281124e-05, "loss": 0.4439, "step": 3196 }, { "epoch": 1.0656666666666668, "grad_norm": 1.8002336025238037, "learning_rate": 1.6287173681841063e-05, "loss": 0.5206, "step": 3197 }, { "epoch": 1.066, "grad_norm": 2.065136432647705, "learning_rate": 1.6284157148631814e-05, "loss": 0.4609, "step": 3198 }, { "epoch": 1.0663333333333334, "grad_norm": 1.810200572013855, "learning_rate": 1.628113967010715e-05, "loss": 0.488, "step": 3199 }, { "epoch": 1.0666666666666667, "grad_norm": 2.120126962661743, "learning_rate": 1.627812124672099e-05, "loss": 0.4992, "step": 3200 }, { "epoch": 1.067, "grad_norm": 1.640285611152649, "learning_rate": 1.6275101878927382e-05, "loss": 0.4367, "step": 3201 }, { "epoch": 1.0673333333333332, "grad_norm": 1.7746844291687012, "learning_rate": 1.6272081567180533e-05, "loss": 0.4879, "step": 3202 }, { "epoch": 1.0676666666666668, "grad_norm": 1.9533861875534058, "learning_rate": 1.626906031193478e-05, "loss": 0.4844, "step": 3203 }, { "epoch": 1.068, "grad_norm": 1.7297760248184204, "learning_rate": 1.6266038113644605e-05, "loss": 0.506, "step": 3204 }, { "epoch": 1.0683333333333334, "grad_norm": 1.8510570526123047, "learning_rate": 1.6263014972764636e-05, "loss": 0.4783, "step": 3205 }, { "epoch": 1.0686666666666667, "grad_norm": 1.8374592065811157, "learning_rate": 1.625999088974963e-05, "loss": 0.4702, "step": 3206 }, { "epoch": 1.069, "grad_norm": 2.054192066192627, "learning_rate": 1.625696586505451e-05, "loss": 0.4682, "step": 3207 }, { "epoch": 1.0693333333333332, "grad_norm": 1.8356044292449951, "learning_rate": 1.6253939899134314e-05, "loss": 0.49, "step": 3208 }, { "epoch": 1.0696666666666668, "grad_norm": 1.7355624437332153, "learning_rate": 1.6250912992444235e-05, "loss": 0.4195, "step": 3209 }, { "epoch": 1.07, "grad_norm": 2.1800341606140137, "learning_rate": 1.6247885145439602e-05, "loss": 0.5012, "step": 3210 }, { "epoch": 1.0703333333333334, "grad_norm": 1.9301726818084717, "learning_rate": 1.6244856358575898e-05, "loss": 0.5083, "step": 3211 }, { "epoch": 1.0706666666666667, "grad_norm": 2.2425882816314697, "learning_rate": 1.6241826632308732e-05, "loss": 0.5204, "step": 3212 }, { "epoch": 1.071, "grad_norm": 2.3260610103607178, "learning_rate": 1.6238795967093865e-05, "loss": 0.4784, "step": 3213 }, { "epoch": 1.0713333333333332, "grad_norm": 1.8973039388656616, "learning_rate": 1.623576436338719e-05, "loss": 0.4404, "step": 3214 }, { "epoch": 1.0716666666666668, "grad_norm": 1.9245564937591553, "learning_rate": 1.6232731821644747e-05, "loss": 0.4398, "step": 3215 }, { "epoch": 1.072, "grad_norm": 1.7436766624450684, "learning_rate": 1.622969834232272e-05, "loss": 0.4982, "step": 3216 }, { "epoch": 1.0723333333333334, "grad_norm": 2.5855064392089844, "learning_rate": 1.6226663925877427e-05, "loss": 0.5084, "step": 3217 }, { "epoch": 1.0726666666666667, "grad_norm": 2.1002790927886963, "learning_rate": 1.6223628572765334e-05, "loss": 0.4836, "step": 3218 }, { "epoch": 1.073, "grad_norm": 1.7077717781066895, "learning_rate": 1.622059228344304e-05, "loss": 0.4549, "step": 3219 }, { "epoch": 1.0733333333333333, "grad_norm": 1.7240896224975586, "learning_rate": 1.6217555058367288e-05, "loss": 0.4549, "step": 3220 }, { "epoch": 1.0736666666666668, "grad_norm": 1.7840018272399902, "learning_rate": 1.621451689799497e-05, "loss": 0.4793, "step": 3221 }, { "epoch": 1.074, "grad_norm": 1.7680634260177612, "learning_rate": 1.6211477802783105e-05, "loss": 0.5017, "step": 3222 }, { "epoch": 1.0743333333333334, "grad_norm": 1.9992289543151855, "learning_rate": 1.6208437773188862e-05, "loss": 0.4161, "step": 3223 }, { "epoch": 1.0746666666666667, "grad_norm": 2.3175127506256104, "learning_rate": 1.6205396809669546e-05, "loss": 0.5299, "step": 3224 }, { "epoch": 1.075, "grad_norm": 2.5154025554656982, "learning_rate": 1.6202354912682602e-05, "loss": 0.4718, "step": 3225 }, { "epoch": 1.0753333333333333, "grad_norm": 1.8432323932647705, "learning_rate": 1.6199312082685624e-05, "loss": 0.4947, "step": 3226 }, { "epoch": 1.0756666666666668, "grad_norm": 1.9234951734542847, "learning_rate": 1.619626832013633e-05, "loss": 0.4756, "step": 3227 }, { "epoch": 1.076, "grad_norm": 2.1832621097564697, "learning_rate": 1.6193223625492604e-05, "loss": 0.5023, "step": 3228 }, { "epoch": 1.0763333333333334, "grad_norm": 1.6285009384155273, "learning_rate": 1.619017799921244e-05, "loss": 0.5043, "step": 3229 }, { "epoch": 1.0766666666666667, "grad_norm": 1.7268849611282349, "learning_rate": 1.618713144175399e-05, "loss": 0.4425, "step": 3230 }, { "epoch": 1.077, "grad_norm": 2.0412838459014893, "learning_rate": 1.6184083953575543e-05, "loss": 0.4657, "step": 3231 }, { "epoch": 1.0773333333333333, "grad_norm": 1.8488695621490479, "learning_rate": 1.618103553513553e-05, "loss": 0.4734, "step": 3232 }, { "epoch": 1.0776666666666666, "grad_norm": 2.7353575229644775, "learning_rate": 1.617798618689252e-05, "loss": 0.4945, "step": 3233 }, { "epoch": 1.078, "grad_norm": 2.0880494117736816, "learning_rate": 1.6174935909305216e-05, "loss": 0.4812, "step": 3234 }, { "epoch": 1.0783333333333334, "grad_norm": 2.0218844413757324, "learning_rate": 1.6171884702832472e-05, "loss": 0.5139, "step": 3235 }, { "epoch": 1.0786666666666667, "grad_norm": 1.9637078046798706, "learning_rate": 1.616883256793327e-05, "loss": 0.5144, "step": 3236 }, { "epoch": 1.079, "grad_norm": 2.1541430950164795, "learning_rate": 1.616577950506675e-05, "loss": 0.4567, "step": 3237 }, { "epoch": 1.0793333333333333, "grad_norm": 2.078345775604248, "learning_rate": 1.6162725514692166e-05, "loss": 0.4834, "step": 3238 }, { "epoch": 1.0796666666666668, "grad_norm": 2.4819607734680176, "learning_rate": 1.6159670597268927e-05, "loss": 0.4932, "step": 3239 }, { "epoch": 1.08, "grad_norm": 2.6949615478515625, "learning_rate": 1.6156614753256583e-05, "loss": 0.4879, "step": 3240 }, { "epoch": 1.0803333333333334, "grad_norm": 2.343153476715088, "learning_rate": 1.615355798311482e-05, "loss": 0.4459, "step": 3241 }, { "epoch": 1.0806666666666667, "grad_norm": 1.8969755172729492, "learning_rate": 1.615050028730346e-05, "loss": 0.4507, "step": 3242 }, { "epoch": 1.081, "grad_norm": 1.8087433576583862, "learning_rate": 1.614744166628247e-05, "loss": 0.4506, "step": 3243 }, { "epoch": 1.0813333333333333, "grad_norm": 1.8659217357635498, "learning_rate": 1.6144382120511946e-05, "loss": 0.4755, "step": 3244 }, { "epoch": 1.0816666666666666, "grad_norm": 2.1856586933135986, "learning_rate": 1.614132165045214e-05, "loss": 0.4654, "step": 3245 }, { "epoch": 1.082, "grad_norm": 1.707052230834961, "learning_rate": 1.613826025656343e-05, "loss": 0.4308, "step": 3246 }, { "epoch": 1.0823333333333334, "grad_norm": 2.5776195526123047, "learning_rate": 1.6135197939306334e-05, "loss": 0.4891, "step": 3247 }, { "epoch": 1.0826666666666667, "grad_norm": 1.9664990901947021, "learning_rate": 1.6132134699141514e-05, "loss": 0.4777, "step": 3248 }, { "epoch": 1.083, "grad_norm": 1.8041198253631592, "learning_rate": 1.6129070536529767e-05, "loss": 0.4725, "step": 3249 }, { "epoch": 1.0833333333333333, "grad_norm": 3.0820860862731934, "learning_rate": 1.6126005451932028e-05, "loss": 0.5158, "step": 3250 }, { "epoch": 1.0836666666666668, "grad_norm": 1.9553828239440918, "learning_rate": 1.612293944580938e-05, "loss": 0.4723, "step": 3251 }, { "epoch": 1.084, "grad_norm": 2.057863473892212, "learning_rate": 1.611987251862303e-05, "loss": 0.4486, "step": 3252 }, { "epoch": 1.0843333333333334, "grad_norm": 2.2619707584381104, "learning_rate": 1.611680467083433e-05, "loss": 0.4849, "step": 3253 }, { "epoch": 1.0846666666666667, "grad_norm": 2.033116340637207, "learning_rate": 1.611373590290478e-05, "loss": 0.4759, "step": 3254 }, { "epoch": 1.085, "grad_norm": 2.120976448059082, "learning_rate": 1.6110666215296e-05, "loss": 0.4827, "step": 3255 }, { "epoch": 1.0853333333333333, "grad_norm": 1.8005471229553223, "learning_rate": 1.6107595608469764e-05, "loss": 0.4904, "step": 3256 }, { "epoch": 1.0856666666666666, "grad_norm": 2.0086095333099365, "learning_rate": 1.6104524082887975e-05, "loss": 0.4905, "step": 3257 }, { "epoch": 1.086, "grad_norm": 2.6004886627197266, "learning_rate": 1.610145163901268e-05, "loss": 0.4732, "step": 3258 }, { "epoch": 1.0863333333333334, "grad_norm": 2.1451218128204346, "learning_rate": 1.6098378277306056e-05, "loss": 0.527, "step": 3259 }, { "epoch": 1.0866666666666667, "grad_norm": 1.7550746202468872, "learning_rate": 1.6095303998230432e-05, "loss": 0.4536, "step": 3260 }, { "epoch": 1.087, "grad_norm": 2.2783849239349365, "learning_rate": 1.6092228802248264e-05, "loss": 0.4896, "step": 3261 }, { "epoch": 1.0873333333333333, "grad_norm": 1.7969160079956055, "learning_rate": 1.608915268982215e-05, "loss": 0.5028, "step": 3262 }, { "epoch": 1.0876666666666668, "grad_norm": 2.2234013080596924, "learning_rate": 1.6086075661414818e-05, "loss": 0.4862, "step": 3263 }, { "epoch": 1.088, "grad_norm": 2.383121967315674, "learning_rate": 1.6082997717489145e-05, "loss": 0.4499, "step": 3264 }, { "epoch": 1.0883333333333334, "grad_norm": 1.9092090129852295, "learning_rate": 1.6079918858508144e-05, "loss": 0.4661, "step": 3265 }, { "epoch": 1.0886666666666667, "grad_norm": 2.1919126510620117, "learning_rate": 1.6076839084934953e-05, "loss": 0.4627, "step": 3266 }, { "epoch": 1.089, "grad_norm": 1.7370631694793701, "learning_rate": 1.607375839723287e-05, "loss": 0.4702, "step": 3267 }, { "epoch": 1.0893333333333333, "grad_norm": 2.0039076805114746, "learning_rate": 1.6070676795865306e-05, "loss": 0.4691, "step": 3268 }, { "epoch": 1.0896666666666666, "grad_norm": 2.0881710052490234, "learning_rate": 1.6067594281295832e-05, "loss": 0.4766, "step": 3269 }, { "epoch": 1.09, "grad_norm": 1.8073265552520752, "learning_rate": 1.6064510853988137e-05, "loss": 0.4504, "step": 3270 }, { "epoch": 1.0903333333333334, "grad_norm": 1.820199966430664, "learning_rate": 1.6061426514406056e-05, "loss": 0.4276, "step": 3271 }, { "epoch": 1.0906666666666667, "grad_norm": 2.868025541305542, "learning_rate": 1.605834126301357e-05, "loss": 0.5146, "step": 3272 }, { "epoch": 1.091, "grad_norm": 2.03600811958313, "learning_rate": 1.605525510027478e-05, "loss": 0.5118, "step": 3273 }, { "epoch": 1.0913333333333333, "grad_norm": 1.772374153137207, "learning_rate": 1.6052168026653936e-05, "loss": 0.4126, "step": 3274 }, { "epoch": 1.0916666666666666, "grad_norm": 2.059155225753784, "learning_rate": 1.6049080042615417e-05, "loss": 0.4801, "step": 3275 }, { "epoch": 1.092, "grad_norm": 1.6748100519180298, "learning_rate": 1.6045991148623752e-05, "loss": 0.4963, "step": 3276 }, { "epoch": 1.0923333333333334, "grad_norm": 2.007636547088623, "learning_rate": 1.604290134514359e-05, "loss": 0.4836, "step": 3277 }, { "epoch": 1.0926666666666667, "grad_norm": 1.9855884313583374, "learning_rate": 1.6039810632639726e-05, "loss": 0.5053, "step": 3278 }, { "epoch": 1.093, "grad_norm": 1.7644248008728027, "learning_rate": 1.6036719011577094e-05, "loss": 0.4621, "step": 3279 }, { "epoch": 1.0933333333333333, "grad_norm": 1.7495381832122803, "learning_rate": 1.603362648242076e-05, "loss": 0.4269, "step": 3280 }, { "epoch": 1.0936666666666666, "grad_norm": 1.616342544555664, "learning_rate": 1.6030533045635928e-05, "loss": 0.4672, "step": 3281 }, { "epoch": 1.094, "grad_norm": 2.4181792736053467, "learning_rate": 1.6027438701687937e-05, "loss": 0.4657, "step": 3282 }, { "epoch": 1.0943333333333334, "grad_norm": 1.8298434019088745, "learning_rate": 1.6024343451042272e-05, "loss": 0.4821, "step": 3283 }, { "epoch": 1.0946666666666667, "grad_norm": 2.092646360397339, "learning_rate": 1.6021247294164538e-05, "loss": 0.4919, "step": 3284 }, { "epoch": 1.095, "grad_norm": 1.7375763654708862, "learning_rate": 1.6018150231520486e-05, "loss": 0.4552, "step": 3285 }, { "epoch": 1.0953333333333333, "grad_norm": 1.9054824113845825, "learning_rate": 1.6015052263576003e-05, "loss": 0.4458, "step": 3286 }, { "epoch": 1.0956666666666666, "grad_norm": 1.797002911567688, "learning_rate": 1.601195339079711e-05, "loss": 0.4591, "step": 3287 }, { "epoch": 1.096, "grad_norm": 2.9139404296875, "learning_rate": 1.600885361364997e-05, "loss": 0.4605, "step": 3288 }, { "epoch": 1.0963333333333334, "grad_norm": 3.0775256156921387, "learning_rate": 1.600575293260087e-05, "loss": 0.4763, "step": 3289 }, { "epoch": 1.0966666666666667, "grad_norm": 2.0822575092315674, "learning_rate": 1.6002651348116248e-05, "loss": 0.4763, "step": 3290 }, { "epoch": 1.097, "grad_norm": 2.1238505840301514, "learning_rate": 1.5999548860662666e-05, "loss": 0.4753, "step": 3291 }, { "epoch": 1.0973333333333333, "grad_norm": 2.257321357727051, "learning_rate": 1.5996445470706822e-05, "loss": 0.42, "step": 3292 }, { "epoch": 1.0976666666666666, "grad_norm": 2.390848398208618, "learning_rate": 1.5993341178715563e-05, "loss": 0.4944, "step": 3293 }, { "epoch": 1.098, "grad_norm": 2.1301188468933105, "learning_rate": 1.599023598515586e-05, "loss": 0.4539, "step": 3294 }, { "epoch": 1.0983333333333334, "grad_norm": 1.9435374736785889, "learning_rate": 1.598712989049482e-05, "loss": 0.4338, "step": 3295 }, { "epoch": 1.0986666666666667, "grad_norm": 1.9710330963134766, "learning_rate": 1.598402289519968e-05, "loss": 0.4794, "step": 3296 }, { "epoch": 1.099, "grad_norm": 2.355700731277466, "learning_rate": 1.598091499973784e-05, "loss": 0.4395, "step": 3297 }, { "epoch": 1.0993333333333333, "grad_norm": 1.9771625995635986, "learning_rate": 1.5977806204576798e-05, "loss": 0.4587, "step": 3298 }, { "epoch": 1.0996666666666666, "grad_norm": 1.8210252523422241, "learning_rate": 1.5974696510184208e-05, "loss": 0.495, "step": 3299 }, { "epoch": 1.1, "grad_norm": 1.9994221925735474, "learning_rate": 1.5971585917027864e-05, "loss": 0.4706, "step": 3300 }, { "epoch": 1.1003333333333334, "grad_norm": 2.1662395000457764, "learning_rate": 1.596847442557568e-05, "loss": 0.4962, "step": 3301 }, { "epoch": 1.1006666666666667, "grad_norm": 1.7063288688659668, "learning_rate": 1.5965362036295715e-05, "loss": 0.4651, "step": 3302 }, { "epoch": 1.101, "grad_norm": 2.5269615650177, "learning_rate": 1.5962248749656158e-05, "loss": 0.4919, "step": 3303 }, { "epoch": 1.1013333333333333, "grad_norm": 1.6659492254257202, "learning_rate": 1.595913456612534e-05, "loss": 0.4509, "step": 3304 }, { "epoch": 1.1016666666666666, "grad_norm": 2.004112958908081, "learning_rate": 1.5956019486171724e-05, "loss": 0.4353, "step": 3305 }, { "epoch": 1.102, "grad_norm": 2.0460689067840576, "learning_rate": 1.59529035102639e-05, "loss": 0.5048, "step": 3306 }, { "epoch": 1.1023333333333334, "grad_norm": 2.4590580463409424, "learning_rate": 1.5949786638870602e-05, "loss": 0.4937, "step": 3307 }, { "epoch": 1.1026666666666667, "grad_norm": 1.9152462482452393, "learning_rate": 1.5946668872460693e-05, "loss": 0.4905, "step": 3308 }, { "epoch": 1.103, "grad_norm": 1.997359037399292, "learning_rate": 1.594355021150318e-05, "loss": 0.4762, "step": 3309 }, { "epoch": 1.1033333333333333, "grad_norm": 1.9366618394851685, "learning_rate": 1.5940430656467193e-05, "loss": 0.4992, "step": 3310 }, { "epoch": 1.1036666666666666, "grad_norm": 1.9314720630645752, "learning_rate": 1.5937310207822005e-05, "loss": 0.4696, "step": 3311 }, { "epoch": 1.104, "grad_norm": 2.0395195484161377, "learning_rate": 1.5934188866037017e-05, "loss": 0.5065, "step": 3312 }, { "epoch": 1.1043333333333334, "grad_norm": 2.0652055740356445, "learning_rate": 1.5931066631581766e-05, "loss": 0.4619, "step": 3313 }, { "epoch": 1.1046666666666667, "grad_norm": 1.9513851404190063, "learning_rate": 1.592794350492593e-05, "loss": 0.5159, "step": 3314 }, { "epoch": 1.105, "grad_norm": 2.143723964691162, "learning_rate": 1.592481948653931e-05, "loss": 0.4965, "step": 3315 }, { "epoch": 1.1053333333333333, "grad_norm": 1.924232006072998, "learning_rate": 1.5921694576891847e-05, "loss": 0.4695, "step": 3316 }, { "epoch": 1.1056666666666666, "grad_norm": 1.854174256324768, "learning_rate": 1.591856877645362e-05, "loss": 0.4439, "step": 3317 }, { "epoch": 1.106, "grad_norm": 1.729059100151062, "learning_rate": 1.591544208569484e-05, "loss": 0.484, "step": 3318 }, { "epoch": 1.1063333333333334, "grad_norm": 1.9784599542617798, "learning_rate": 1.591231450508585e-05, "loss": 0.4647, "step": 3319 }, { "epoch": 1.1066666666666667, "grad_norm": 2.26705265045166, "learning_rate": 1.5909186035097114e-05, "loss": 0.468, "step": 3320 }, { "epoch": 1.107, "grad_norm": 1.631038784980774, "learning_rate": 1.5906056676199256e-05, "loss": 0.4733, "step": 3321 }, { "epoch": 1.1073333333333333, "grad_norm": 1.7022122144699097, "learning_rate": 1.5902926428863014e-05, "loss": 0.4523, "step": 3322 }, { "epoch": 1.1076666666666666, "grad_norm": 1.878237247467041, "learning_rate": 1.589979529355927e-05, "loss": 0.4799, "step": 3323 }, { "epoch": 1.108, "grad_norm": 2.476735830307007, "learning_rate": 1.5896663270759034e-05, "loss": 0.529, "step": 3324 }, { "epoch": 1.1083333333333334, "grad_norm": 1.915333867073059, "learning_rate": 1.589353036093345e-05, "loss": 0.472, "step": 3325 }, { "epoch": 1.1086666666666667, "grad_norm": 1.7077006101608276, "learning_rate": 1.5890396564553797e-05, "loss": 0.428, "step": 3326 }, { "epoch": 1.109, "grad_norm": 2.037419319152832, "learning_rate": 1.5887261882091488e-05, "loss": 0.4934, "step": 3327 }, { "epoch": 1.1093333333333333, "grad_norm": 2.139150619506836, "learning_rate": 1.5884126314018065e-05, "loss": 0.4556, "step": 3328 }, { "epoch": 1.1096666666666666, "grad_norm": 2.6925487518310547, "learning_rate": 1.588098986080521e-05, "loss": 0.5256, "step": 3329 }, { "epoch": 1.11, "grad_norm": 2.1034746170043945, "learning_rate": 1.5877852522924733e-05, "loss": 0.4799, "step": 3330 }, { "epoch": 1.1103333333333334, "grad_norm": 1.921148419380188, "learning_rate": 1.5874714300848577e-05, "loss": 0.4815, "step": 3331 }, { "epoch": 1.1106666666666667, "grad_norm": 1.6565192937850952, "learning_rate": 1.5871575195048822e-05, "loss": 0.4145, "step": 3332 }, { "epoch": 1.111, "grad_norm": 3.073138952255249, "learning_rate": 1.586843520599768e-05, "loss": 0.4635, "step": 3333 }, { "epoch": 1.1113333333333333, "grad_norm": 2.562185049057007, "learning_rate": 1.586529433416749e-05, "loss": 0.4795, "step": 3334 }, { "epoch": 1.1116666666666666, "grad_norm": 2.301253318786621, "learning_rate": 1.586215258003073e-05, "loss": 0.4417, "step": 3335 }, { "epoch": 1.112, "grad_norm": 1.9132670164108276, "learning_rate": 1.5859009944060005e-05, "loss": 0.4389, "step": 3336 }, { "epoch": 1.1123333333333334, "grad_norm": 2.01598858833313, "learning_rate": 1.5855866426728066e-05, "loss": 0.4556, "step": 3337 }, { "epoch": 1.1126666666666667, "grad_norm": 2.719381809234619, "learning_rate": 1.585272202850778e-05, "loss": 0.4527, "step": 3338 }, { "epoch": 1.113, "grad_norm": 2.1485238075256348, "learning_rate": 1.584957674987216e-05, "loss": 0.4862, "step": 3339 }, { "epoch": 1.1133333333333333, "grad_norm": 1.8247313499450684, "learning_rate": 1.5846430591294334e-05, "loss": 0.4463, "step": 3340 }, { "epoch": 1.1136666666666666, "grad_norm": 1.915191411972046, "learning_rate": 1.584328355324758e-05, "loss": 0.4723, "step": 3341 }, { "epoch": 1.114, "grad_norm": 1.8733875751495361, "learning_rate": 1.5840135636205305e-05, "loss": 0.4862, "step": 3342 }, { "epoch": 1.1143333333333334, "grad_norm": 2.2887237071990967, "learning_rate": 1.5836986840641036e-05, "loss": 0.4828, "step": 3343 }, { "epoch": 1.1146666666666667, "grad_norm": 2.107534646987915, "learning_rate": 1.5833837167028455e-05, "loss": 0.4691, "step": 3344 }, { "epoch": 1.115, "grad_norm": 2.068342447280884, "learning_rate": 1.5830686615841348e-05, "loss": 0.4592, "step": 3345 }, { "epoch": 1.1153333333333333, "grad_norm": 2.169832706451416, "learning_rate": 1.5827535187553657e-05, "loss": 0.4729, "step": 3346 }, { "epoch": 1.1156666666666666, "grad_norm": 2.594038963317871, "learning_rate": 1.582438288263944e-05, "loss": 0.4449, "step": 3347 }, { "epoch": 1.116, "grad_norm": 2.267516613006592, "learning_rate": 1.5821229701572897e-05, "loss": 0.4905, "step": 3348 }, { "epoch": 1.1163333333333334, "grad_norm": 2.568556547164917, "learning_rate": 1.5818075644828353e-05, "loss": 0.4509, "step": 3349 }, { "epoch": 1.1166666666666667, "grad_norm": 2.477652072906494, "learning_rate": 1.5814920712880267e-05, "loss": 0.4939, "step": 3350 }, { "epoch": 1.117, "grad_norm": 1.8674592971801758, "learning_rate": 1.5811764906203235e-05, "loss": 0.4883, "step": 3351 }, { "epoch": 1.1173333333333333, "grad_norm": 1.973258376121521, "learning_rate": 1.5808608225271975e-05, "loss": 0.4745, "step": 3352 }, { "epoch": 1.1176666666666666, "grad_norm": 2.6277198791503906, "learning_rate": 1.5805450670561347e-05, "loss": 0.4783, "step": 3353 }, { "epoch": 1.1179999999999999, "grad_norm": 2.4433178901672363, "learning_rate": 1.580229224254633e-05, "loss": 0.4662, "step": 3354 }, { "epoch": 1.1183333333333334, "grad_norm": 2.288973093032837, "learning_rate": 1.5799132941702042e-05, "loss": 0.4541, "step": 3355 }, { "epoch": 1.1186666666666667, "grad_norm": 2.0431854724884033, "learning_rate": 1.579597276850374e-05, "loss": 0.4728, "step": 3356 }, { "epoch": 1.119, "grad_norm": 1.9589743614196777, "learning_rate": 1.5792811723426787e-05, "loss": 0.4845, "step": 3357 }, { "epoch": 1.1193333333333333, "grad_norm": 1.7049788236618042, "learning_rate": 1.5789649806946713e-05, "loss": 0.4412, "step": 3358 }, { "epoch": 1.1196666666666666, "grad_norm": 2.0287585258483887, "learning_rate": 1.5786487019539146e-05, "loss": 0.456, "step": 3359 }, { "epoch": 1.12, "grad_norm": 1.7839654684066772, "learning_rate": 1.5783323361679865e-05, "loss": 0.4445, "step": 3360 }, { "epoch": 1.1203333333333334, "grad_norm": 1.6730620861053467, "learning_rate": 1.5780158833844773e-05, "loss": 0.4608, "step": 3361 }, { "epoch": 1.1206666666666667, "grad_norm": 2.003404378890991, "learning_rate": 1.5776993436509907e-05, "loss": 0.4528, "step": 3362 }, { "epoch": 1.121, "grad_norm": 2.002289056777954, "learning_rate": 1.5773827170151425e-05, "loss": 0.4889, "step": 3363 }, { "epoch": 1.1213333333333333, "grad_norm": 1.7936046123504639, "learning_rate": 1.5770660035245632e-05, "loss": 0.4643, "step": 3364 }, { "epoch": 1.1216666666666666, "grad_norm": 1.7317235469818115, "learning_rate": 1.576749203226895e-05, "loss": 0.429, "step": 3365 }, { "epoch": 1.1219999999999999, "grad_norm": 2.6614060401916504, "learning_rate": 1.5764323161697933e-05, "loss": 0.5104, "step": 3366 }, { "epoch": 1.1223333333333334, "grad_norm": 1.9465726613998413, "learning_rate": 1.576115342400928e-05, "loss": 0.4479, "step": 3367 }, { "epoch": 1.1226666666666667, "grad_norm": 2.3724310398101807, "learning_rate": 1.5757982819679795e-05, "loss": 0.4746, "step": 3368 }, { "epoch": 1.123, "grad_norm": 1.5377075672149658, "learning_rate": 1.5754811349186443e-05, "loss": 0.4224, "step": 3369 }, { "epoch": 1.1233333333333333, "grad_norm": 2.029351234436035, "learning_rate": 1.575163901300629e-05, "loss": 0.4681, "step": 3370 }, { "epoch": 1.1236666666666666, "grad_norm": 2.4886951446533203, "learning_rate": 1.574846581161655e-05, "loss": 0.4682, "step": 3371 }, { "epoch": 1.124, "grad_norm": 2.3924543857574463, "learning_rate": 1.5745291745494563e-05, "loss": 0.4815, "step": 3372 }, { "epoch": 1.1243333333333334, "grad_norm": 2.3844220638275146, "learning_rate": 1.57421168151178e-05, "loss": 0.4387, "step": 3373 }, { "epoch": 1.1246666666666667, "grad_norm": 2.10634446144104, "learning_rate": 1.5738941020963854e-05, "loss": 0.4735, "step": 3374 }, { "epoch": 1.125, "grad_norm": 1.7567239999771118, "learning_rate": 1.573576436351046e-05, "loss": 0.4737, "step": 3375 }, { "epoch": 1.1253333333333333, "grad_norm": 1.766741156578064, "learning_rate": 1.5732586843235483e-05, "loss": 0.4452, "step": 3376 }, { "epoch": 1.1256666666666666, "grad_norm": 2.0247292518615723, "learning_rate": 1.5729408460616897e-05, "loss": 0.4403, "step": 3377 }, { "epoch": 1.126, "grad_norm": 2.0810706615448, "learning_rate": 1.5726229216132835e-05, "loss": 0.4741, "step": 3378 }, { "epoch": 1.1263333333333334, "grad_norm": 2.0370216369628906, "learning_rate": 1.5723049110261537e-05, "loss": 0.4723, "step": 3379 }, { "epoch": 1.1266666666666667, "grad_norm": 2.084721326828003, "learning_rate": 1.5719868143481385e-05, "loss": 0.4939, "step": 3380 }, { "epoch": 1.127, "grad_norm": 2.4021809101104736, "learning_rate": 1.5716686316270884e-05, "loss": 0.4781, "step": 3381 }, { "epoch": 1.1273333333333333, "grad_norm": 2.1152236461639404, "learning_rate": 1.5713503629108676e-05, "loss": 0.4808, "step": 3382 }, { "epoch": 1.1276666666666666, "grad_norm": 1.6827484369277954, "learning_rate": 1.571032008247352e-05, "loss": 0.4292, "step": 3383 }, { "epoch": 1.1280000000000001, "grad_norm": 2.0083279609680176, "learning_rate": 1.570713567684432e-05, "loss": 0.4597, "step": 3384 }, { "epoch": 1.1283333333333334, "grad_norm": 2.0326051712036133, "learning_rate": 1.5703950412700094e-05, "loss": 0.5039, "step": 3385 }, { "epoch": 1.1286666666666667, "grad_norm": 1.8624041080474854, "learning_rate": 1.5700764290519997e-05, "loss": 0.4191, "step": 3386 }, { "epoch": 1.129, "grad_norm": 1.8796257972717285, "learning_rate": 1.5697577310783318e-05, "loss": 0.4741, "step": 3387 }, { "epoch": 1.1293333333333333, "grad_norm": 1.7839596271514893, "learning_rate": 1.569438947396946e-05, "loss": 0.4683, "step": 3388 }, { "epoch": 1.1296666666666666, "grad_norm": 1.9423686265945435, "learning_rate": 1.569120078055797e-05, "loss": 0.4669, "step": 3389 }, { "epoch": 1.13, "grad_norm": 1.621351718902588, "learning_rate": 1.568801123102852e-05, "loss": 0.4332, "step": 3390 }, { "epoch": 1.1303333333333334, "grad_norm": 1.7650374174118042, "learning_rate": 1.5684820825860905e-05, "loss": 0.4545, "step": 3391 }, { "epoch": 1.1306666666666667, "grad_norm": 2.7837071418762207, "learning_rate": 1.568162956553505e-05, "loss": 0.4406, "step": 3392 }, { "epoch": 1.131, "grad_norm": 1.8532389402389526, "learning_rate": 1.5678437450531014e-05, "loss": 0.4229, "step": 3393 }, { "epoch": 1.1313333333333333, "grad_norm": 2.449455976486206, "learning_rate": 1.5675244481328982e-05, "loss": 0.4893, "step": 3394 }, { "epoch": 1.1316666666666666, "grad_norm": 1.905610203742981, "learning_rate": 1.567205065840927e-05, "loss": 0.4766, "step": 3395 }, { "epoch": 1.1320000000000001, "grad_norm": 2.4021706581115723, "learning_rate": 1.566885598225231e-05, "loss": 0.4795, "step": 3396 }, { "epoch": 1.1323333333333334, "grad_norm": 1.8790534734725952, "learning_rate": 1.5665660453338683e-05, "loss": 0.4961, "step": 3397 }, { "epoch": 1.1326666666666667, "grad_norm": 1.9747971296310425, "learning_rate": 1.5662464072149083e-05, "loss": 0.4863, "step": 3398 }, { "epoch": 1.133, "grad_norm": 1.934444546699524, "learning_rate": 1.565926683916433e-05, "loss": 0.4873, "step": 3399 }, { "epoch": 1.1333333333333333, "grad_norm": 2.0133609771728516, "learning_rate": 1.5656068754865388e-05, "loss": 0.4492, "step": 3400 }, { "epoch": 1.1336666666666666, "grad_norm": 1.8066085577011108, "learning_rate": 1.5652869819733335e-05, "loss": 0.4421, "step": 3401 }, { "epoch": 1.134, "grad_norm": 2.012803077697754, "learning_rate": 1.564967003424938e-05, "loss": 0.4405, "step": 3402 }, { "epoch": 1.1343333333333334, "grad_norm": 2.005469799041748, "learning_rate": 1.5646469398894864e-05, "loss": 0.5173, "step": 3403 }, { "epoch": 1.1346666666666667, "grad_norm": 1.8974169492721558, "learning_rate": 1.5643267914151258e-05, "loss": 0.4713, "step": 3404 }, { "epoch": 1.135, "grad_norm": 2.0965983867645264, "learning_rate": 1.5640065580500146e-05, "loss": 0.4334, "step": 3405 }, { "epoch": 1.1353333333333333, "grad_norm": 1.8577754497528076, "learning_rate": 1.5636862398423253e-05, "loss": 0.4387, "step": 3406 }, { "epoch": 1.1356666666666666, "grad_norm": 1.864989161491394, "learning_rate": 1.5633658368402436e-05, "loss": 0.4773, "step": 3407 }, { "epoch": 1.1360000000000001, "grad_norm": 1.7561482191085815, "learning_rate": 1.5630453490919663e-05, "loss": 0.4157, "step": 3408 }, { "epoch": 1.1363333333333334, "grad_norm": 1.7770594358444214, "learning_rate": 1.562724776645704e-05, "loss": 0.4768, "step": 3409 }, { "epoch": 1.1366666666666667, "grad_norm": 2.127619981765747, "learning_rate": 1.56240411954968e-05, "loss": 0.4725, "step": 3410 }, { "epoch": 1.137, "grad_norm": 2.3314504623413086, "learning_rate": 1.5620833778521306e-05, "loss": 0.514, "step": 3411 }, { "epoch": 1.1373333333333333, "grad_norm": 1.8305864334106445, "learning_rate": 1.5617625516013043e-05, "loss": 0.4355, "step": 3412 }, { "epoch": 1.1376666666666666, "grad_norm": 2.030567169189453, "learning_rate": 1.5614416408454616e-05, "loss": 0.48, "step": 3413 }, { "epoch": 1.138, "grad_norm": 1.8874828815460205, "learning_rate": 1.561120645632878e-05, "loss": 0.4601, "step": 3414 }, { "epoch": 1.1383333333333334, "grad_norm": 1.8594450950622559, "learning_rate": 1.5607995660118387e-05, "loss": 0.4508, "step": 3415 }, { "epoch": 1.1386666666666667, "grad_norm": 2.1788744926452637, "learning_rate": 1.5604784020306446e-05, "loss": 0.4491, "step": 3416 }, { "epoch": 1.139, "grad_norm": 2.5533740520477295, "learning_rate": 1.560157153737607e-05, "loss": 0.4496, "step": 3417 }, { "epoch": 1.1393333333333333, "grad_norm": 2.295027494430542, "learning_rate": 1.559835821181051e-05, "loss": 0.4453, "step": 3418 }, { "epoch": 1.1396666666666666, "grad_norm": 1.6711286306381226, "learning_rate": 1.5595144044093143e-05, "loss": 0.4725, "step": 3419 }, { "epoch": 1.1400000000000001, "grad_norm": 1.8557301759719849, "learning_rate": 1.5591929034707468e-05, "loss": 0.4301, "step": 3420 }, { "epoch": 1.1403333333333334, "grad_norm": 2.1372902393341064, "learning_rate": 1.558871318413712e-05, "loss": 0.4824, "step": 3421 }, { "epoch": 1.1406666666666667, "grad_norm": 2.0578501224517822, "learning_rate": 1.5585496492865844e-05, "loss": 0.4624, "step": 3422 }, { "epoch": 1.141, "grad_norm": 1.8163989782333374, "learning_rate": 1.5582278961377524e-05, "loss": 0.445, "step": 3423 }, { "epoch": 1.1413333333333333, "grad_norm": 1.6204196214675903, "learning_rate": 1.5579060590156178e-05, "loss": 0.4746, "step": 3424 }, { "epoch": 1.1416666666666666, "grad_norm": 1.967958688735962, "learning_rate": 1.557584137968593e-05, "loss": 0.4181, "step": 3425 }, { "epoch": 1.142, "grad_norm": 1.8917710781097412, "learning_rate": 1.5572621330451044e-05, "loss": 0.4905, "step": 3426 }, { "epoch": 1.1423333333333334, "grad_norm": 2.50571608543396, "learning_rate": 1.5569400442935904e-05, "loss": 0.4571, "step": 3427 }, { "epoch": 1.1426666666666667, "grad_norm": 1.8700056076049805, "learning_rate": 1.5566178717625026e-05, "loss": 0.4492, "step": 3428 }, { "epoch": 1.143, "grad_norm": 1.7186375856399536, "learning_rate": 1.556295615500305e-05, "loss": 0.4582, "step": 3429 }, { "epoch": 1.1433333333333333, "grad_norm": 2.253270149230957, "learning_rate": 1.5559732755554734e-05, "loss": 0.4597, "step": 3430 }, { "epoch": 1.1436666666666666, "grad_norm": 2.182253122329712, "learning_rate": 1.5556508519764978e-05, "loss": 0.4348, "step": 3431 }, { "epoch": 1.144, "grad_norm": 1.7890278100967407, "learning_rate": 1.5553283448118795e-05, "loss": 0.4777, "step": 3432 }, { "epoch": 1.1443333333333334, "grad_norm": 1.977464199066162, "learning_rate": 1.555005754110132e-05, "loss": 0.5119, "step": 3433 }, { "epoch": 1.1446666666666667, "grad_norm": 2.6588516235351562, "learning_rate": 1.5546830799197833e-05, "loss": 0.4219, "step": 3434 }, { "epoch": 1.145, "grad_norm": 2.164128541946411, "learning_rate": 1.5543603222893718e-05, "loss": 0.4845, "step": 3435 }, { "epoch": 1.1453333333333333, "grad_norm": 1.7471668720245361, "learning_rate": 1.5540374812674496e-05, "loss": 0.4673, "step": 3436 }, { "epoch": 1.1456666666666666, "grad_norm": 2.0288314819335938, "learning_rate": 1.5537145569025814e-05, "loss": 0.491, "step": 3437 }, { "epoch": 1.146, "grad_norm": 2.0385398864746094, "learning_rate": 1.553391549243344e-05, "loss": 0.4304, "step": 3438 }, { "epoch": 1.1463333333333334, "grad_norm": 2.2439780235290527, "learning_rate": 1.5530684583383273e-05, "loss": 0.4745, "step": 3439 }, { "epoch": 1.1466666666666667, "grad_norm": 2.0077078342437744, "learning_rate": 1.552745284236133e-05, "loss": 0.4594, "step": 3440 }, { "epoch": 1.147, "grad_norm": 2.1633737087249756, "learning_rate": 1.5524220269853754e-05, "loss": 0.502, "step": 3441 }, { "epoch": 1.1473333333333333, "grad_norm": 2.3252475261688232, "learning_rate": 1.5520986866346817e-05, "loss": 0.4407, "step": 3442 }, { "epoch": 1.1476666666666666, "grad_norm": 1.6506083011627197, "learning_rate": 1.551775263232692e-05, "loss": 0.4586, "step": 3443 }, { "epoch": 1.148, "grad_norm": 1.855846643447876, "learning_rate": 1.5514517568280573e-05, "loss": 0.4196, "step": 3444 }, { "epoch": 1.1483333333333334, "grad_norm": 2.018500566482544, "learning_rate": 1.551128167469443e-05, "loss": 0.5168, "step": 3445 }, { "epoch": 1.1486666666666667, "grad_norm": 1.8072384595870972, "learning_rate": 1.550804495205526e-05, "loss": 0.4503, "step": 3446 }, { "epoch": 1.149, "grad_norm": 1.7805131673812866, "learning_rate": 1.5504807400849957e-05, "loss": 0.4323, "step": 3447 }, { "epoch": 1.1493333333333333, "grad_norm": 1.9272656440734863, "learning_rate": 1.550156902156554e-05, "loss": 0.4596, "step": 3448 }, { "epoch": 1.1496666666666666, "grad_norm": 1.9786120653152466, "learning_rate": 1.549832981468915e-05, "loss": 0.4395, "step": 3449 }, { "epoch": 1.15, "grad_norm": 1.9659907817840576, "learning_rate": 1.5495089780708062e-05, "loss": 0.499, "step": 3450 }, { "epoch": 1.1503333333333334, "grad_norm": 1.8576531410217285, "learning_rate": 1.5491848920109665e-05, "loss": 0.4522, "step": 3451 }, { "epoch": 1.1506666666666667, "grad_norm": 2.245288133621216, "learning_rate": 1.5488607233381475e-05, "loss": 0.4126, "step": 3452 }, { "epoch": 1.151, "grad_norm": 1.953558087348938, "learning_rate": 1.548536472101114e-05, "loss": 0.4933, "step": 3453 }, { "epoch": 1.1513333333333333, "grad_norm": 1.8936622142791748, "learning_rate": 1.5482121383486414e-05, "loss": 0.4601, "step": 3454 }, { "epoch": 1.1516666666666666, "grad_norm": 2.1159284114837646, "learning_rate": 1.54788772212952e-05, "loss": 0.4568, "step": 3455 }, { "epoch": 1.152, "grad_norm": 2.100609540939331, "learning_rate": 1.5475632234925505e-05, "loss": 0.4661, "step": 3456 }, { "epoch": 1.1523333333333334, "grad_norm": 1.8768576383590698, "learning_rate": 1.5472386424865468e-05, "loss": 0.4918, "step": 3457 }, { "epoch": 1.1526666666666667, "grad_norm": 2.143301248550415, "learning_rate": 1.546913979160335e-05, "loss": 0.4285, "step": 3458 }, { "epoch": 1.153, "grad_norm": 2.1413416862487793, "learning_rate": 1.5465892335627537e-05, "loss": 0.4735, "step": 3459 }, { "epoch": 1.1533333333333333, "grad_norm": 1.7609272003173828, "learning_rate": 1.546264405742654e-05, "loss": 0.4492, "step": 3460 }, { "epoch": 1.1536666666666666, "grad_norm": 2.3646459579467773, "learning_rate": 1.5459394957488995e-05, "loss": 0.4631, "step": 3461 }, { "epoch": 1.154, "grad_norm": 1.9654889106750488, "learning_rate": 1.545614503630365e-05, "loss": 0.4472, "step": 3462 }, { "epoch": 1.1543333333333332, "grad_norm": 2.019083261489868, "learning_rate": 1.545289429435939e-05, "loss": 0.4696, "step": 3463 }, { "epoch": 1.1546666666666667, "grad_norm": 1.6056864261627197, "learning_rate": 1.5449642732145224e-05, "loss": 0.4513, "step": 3464 }, { "epoch": 1.155, "grad_norm": 2.1931235790252686, "learning_rate": 1.5446390350150272e-05, "loss": 0.4628, "step": 3465 }, { "epoch": 1.1553333333333333, "grad_norm": 2.121729612350464, "learning_rate": 1.5443137148863786e-05, "loss": 0.48, "step": 3466 }, { "epoch": 1.1556666666666666, "grad_norm": 2.341189384460449, "learning_rate": 1.5439883128775145e-05, "loss": 0.4784, "step": 3467 }, { "epoch": 1.156, "grad_norm": 2.609895706176758, "learning_rate": 1.5436628290373835e-05, "loss": 0.506, "step": 3468 }, { "epoch": 1.1563333333333334, "grad_norm": 2.0169730186462402, "learning_rate": 1.5433372634149485e-05, "loss": 0.4315, "step": 3469 }, { "epoch": 1.1566666666666667, "grad_norm": 1.9485234022140503, "learning_rate": 1.5430116160591836e-05, "loss": 0.4294, "step": 3470 }, { "epoch": 1.157, "grad_norm": 2.760608673095703, "learning_rate": 1.542685887019075e-05, "loss": 0.46, "step": 3471 }, { "epoch": 1.1573333333333333, "grad_norm": 1.676979422569275, "learning_rate": 1.5423600763436222e-05, "loss": 0.4165, "step": 3472 }, { "epoch": 1.1576666666666666, "grad_norm": 3.540289878845215, "learning_rate": 1.542034184081836e-05, "loss": 0.4122, "step": 3473 }, { "epoch": 1.158, "grad_norm": 2.149358034133911, "learning_rate": 1.54170821028274e-05, "loss": 0.4954, "step": 3474 }, { "epoch": 1.1583333333333332, "grad_norm": 2.156590461730957, "learning_rate": 1.5413821549953697e-05, "loss": 0.4362, "step": 3475 }, { "epoch": 1.1586666666666667, "grad_norm": 2.8702292442321777, "learning_rate": 1.5410560182687736e-05, "loss": 0.4737, "step": 3476 }, { "epoch": 1.159, "grad_norm": 2.7799532413482666, "learning_rate": 1.5407298001520108e-05, "loss": 0.4698, "step": 3477 }, { "epoch": 1.1593333333333333, "grad_norm": 2.1255290508270264, "learning_rate": 1.5404035006941546e-05, "loss": 0.4863, "step": 3478 }, { "epoch": 1.1596666666666666, "grad_norm": 2.725829839706421, "learning_rate": 1.54007711994429e-05, "loss": 0.4346, "step": 3479 }, { "epoch": 1.16, "grad_norm": 2.073582410812378, "learning_rate": 1.539750657951513e-05, "loss": 0.4988, "step": 3480 }, { "epoch": 1.1603333333333334, "grad_norm": 1.8310521841049194, "learning_rate": 1.5394241147649333e-05, "loss": 0.4614, "step": 3481 }, { "epoch": 1.1606666666666667, "grad_norm": 2.605480909347534, "learning_rate": 1.539097490433672e-05, "loss": 0.5007, "step": 3482 }, { "epoch": 1.161, "grad_norm": 2.5771381855010986, "learning_rate": 1.5387707850068633e-05, "loss": 0.4524, "step": 3483 }, { "epoch": 1.1613333333333333, "grad_norm": 2.5302963256835938, "learning_rate": 1.5384439985336522e-05, "loss": 0.4452, "step": 3484 }, { "epoch": 1.1616666666666666, "grad_norm": 2.200883150100708, "learning_rate": 1.5381171310631968e-05, "loss": 0.4667, "step": 3485 }, { "epoch": 1.162, "grad_norm": 1.9604096412658691, "learning_rate": 1.5377901826446672e-05, "loss": 0.4649, "step": 3486 }, { "epoch": 1.1623333333333332, "grad_norm": 2.24973726272583, "learning_rate": 1.537463153327246e-05, "loss": 0.422, "step": 3487 }, { "epoch": 1.1626666666666667, "grad_norm": 2.2424376010894775, "learning_rate": 1.5371360431601278e-05, "loss": 0.4615, "step": 3488 }, { "epoch": 1.163, "grad_norm": 1.574415683746338, "learning_rate": 1.5368088521925185e-05, "loss": 0.4592, "step": 3489 }, { "epoch": 1.1633333333333333, "grad_norm": 1.8913483619689941, "learning_rate": 1.536481580473638e-05, "loss": 0.4618, "step": 3490 }, { "epoch": 1.1636666666666666, "grad_norm": 1.9400815963745117, "learning_rate": 1.536154228052716e-05, "loss": 0.4268, "step": 3491 }, { "epoch": 1.164, "grad_norm": 2.146951913833618, "learning_rate": 1.5358267949789968e-05, "loss": 0.4484, "step": 3492 }, { "epoch": 1.1643333333333334, "grad_norm": 2.905308961868286, "learning_rate": 1.5354992813017347e-05, "loss": 0.4763, "step": 3493 }, { "epoch": 1.1646666666666667, "grad_norm": 2.014080762863159, "learning_rate": 1.5351716870701973e-05, "loss": 0.518, "step": 3494 }, { "epoch": 1.165, "grad_norm": 2.358583927154541, "learning_rate": 1.5348440123336647e-05, "loss": 0.4409, "step": 3495 }, { "epoch": 1.1653333333333333, "grad_norm": 2.2123029232025146, "learning_rate": 1.534516257141427e-05, "loss": 0.5033, "step": 3496 }, { "epoch": 1.1656666666666666, "grad_norm": 2.2228126525878906, "learning_rate": 1.5341884215427894e-05, "loss": 0.4708, "step": 3497 }, { "epoch": 1.166, "grad_norm": 1.9507590532302856, "learning_rate": 1.533860505587067e-05, "loss": 0.4724, "step": 3498 }, { "epoch": 1.1663333333333332, "grad_norm": 2.446230411529541, "learning_rate": 1.5335325093235878e-05, "loss": 0.4412, "step": 3499 }, { "epoch": 1.1666666666666667, "grad_norm": 1.904396891593933, "learning_rate": 1.5332044328016916e-05, "loss": 0.4184, "step": 3500 }, { "epoch": 1.167, "grad_norm": 1.5859789848327637, "learning_rate": 1.53287627607073e-05, "loss": 0.4821, "step": 3501 }, { "epoch": 1.1673333333333333, "grad_norm": 1.9846441745758057, "learning_rate": 1.532548039180068e-05, "loss": 0.494, "step": 3502 }, { "epoch": 1.1676666666666666, "grad_norm": 2.260131359100342, "learning_rate": 1.5322197221790812e-05, "loss": 0.4473, "step": 3503 }, { "epoch": 1.168, "grad_norm": 3.0353710651397705, "learning_rate": 1.531891325117158e-05, "loss": 0.4345, "step": 3504 }, { "epoch": 1.1683333333333334, "grad_norm": 2.0710015296936035, "learning_rate": 1.5315628480436982e-05, "loss": 0.4471, "step": 3505 }, { "epoch": 1.1686666666666667, "grad_norm": 1.6537854671478271, "learning_rate": 1.5312342910081144e-05, "loss": 0.4739, "step": 3506 }, { "epoch": 1.169, "grad_norm": 2.4398105144500732, "learning_rate": 1.530905654059831e-05, "loss": 0.4499, "step": 3507 }, { "epoch": 1.1693333333333333, "grad_norm": 1.8558629751205444, "learning_rate": 1.530576937248284e-05, "loss": 0.4746, "step": 3508 }, { "epoch": 1.1696666666666666, "grad_norm": 2.217684745788574, "learning_rate": 1.530248140622922e-05, "loss": 0.4605, "step": 3509 }, { "epoch": 1.17, "grad_norm": 1.7335542440414429, "learning_rate": 1.529919264233205e-05, "loss": 0.4399, "step": 3510 }, { "epoch": 1.1703333333333332, "grad_norm": 2.233306407928467, "learning_rate": 1.5295903081286057e-05, "loss": 0.4505, "step": 3511 }, { "epoch": 1.1706666666666667, "grad_norm": 1.769219160079956, "learning_rate": 1.5292612723586084e-05, "loss": 0.473, "step": 3512 }, { "epoch": 1.171, "grad_norm": 2.318850517272949, "learning_rate": 1.5289321569727093e-05, "loss": 0.4633, "step": 3513 }, { "epoch": 1.1713333333333333, "grad_norm": 2.2220911979675293, "learning_rate": 1.5286029620204166e-05, "loss": 0.4682, "step": 3514 }, { "epoch": 1.1716666666666666, "grad_norm": 2.3762357234954834, "learning_rate": 1.5282736875512506e-05, "loss": 0.4502, "step": 3515 }, { "epoch": 1.172, "grad_norm": 2.5734620094299316, "learning_rate": 1.5279443336147437e-05, "loss": 0.4639, "step": 3516 }, { "epoch": 1.1723333333333334, "grad_norm": 2.1510536670684814, "learning_rate": 1.5276149002604398e-05, "loss": 0.4326, "step": 3517 }, { "epoch": 1.1726666666666667, "grad_norm": 3.1478419303894043, "learning_rate": 1.527285387537895e-05, "loss": 0.4333, "step": 3518 }, { "epoch": 1.173, "grad_norm": 2.1604459285736084, "learning_rate": 1.5269557954966777e-05, "loss": 0.4784, "step": 3519 }, { "epoch": 1.1733333333333333, "grad_norm": 2.3418619632720947, "learning_rate": 1.5266261241863675e-05, "loss": 0.4243, "step": 3520 }, { "epoch": 1.1736666666666666, "grad_norm": 2.0307815074920654, "learning_rate": 1.5262963736565568e-05, "loss": 0.445, "step": 3521 }, { "epoch": 1.174, "grad_norm": 2.01073956489563, "learning_rate": 1.525966543956849e-05, "loss": 0.4399, "step": 3522 }, { "epoch": 1.1743333333333332, "grad_norm": 2.0513243675231934, "learning_rate": 1.52563663513686e-05, "loss": 0.4786, "step": 3523 }, { "epoch": 1.1746666666666667, "grad_norm": 1.691153645515442, "learning_rate": 1.5253066472462171e-05, "loss": 0.4504, "step": 3524 }, { "epoch": 1.175, "grad_norm": 1.727756381034851, "learning_rate": 1.5249765803345602e-05, "loss": 0.4634, "step": 3525 }, { "epoch": 1.1753333333333333, "grad_norm": 2.0650155544281006, "learning_rate": 1.5246464344515408e-05, "loss": 0.4517, "step": 3526 }, { "epoch": 1.1756666666666666, "grad_norm": 2.526017904281616, "learning_rate": 1.5243162096468223e-05, "loss": 0.4712, "step": 3527 }, { "epoch": 1.176, "grad_norm": 2.2174577713012695, "learning_rate": 1.5239859059700794e-05, "loss": 0.4828, "step": 3528 }, { "epoch": 1.1763333333333335, "grad_norm": 1.9204890727996826, "learning_rate": 1.5236555234709993e-05, "loss": 0.427, "step": 3529 }, { "epoch": 1.1766666666666667, "grad_norm": 2.7677385807037354, "learning_rate": 1.523325062199281e-05, "loss": 0.4854, "step": 3530 }, { "epoch": 1.177, "grad_norm": 1.9025510549545288, "learning_rate": 1.5229945222046354e-05, "loss": 0.4154, "step": 3531 }, { "epoch": 1.1773333333333333, "grad_norm": 2.3586199283599854, "learning_rate": 1.5226639035367848e-05, "loss": 0.4682, "step": 3532 }, { "epoch": 1.1776666666666666, "grad_norm": 2.5862579345703125, "learning_rate": 1.5223332062454634e-05, "loss": 0.4874, "step": 3533 }, { "epoch": 1.178, "grad_norm": 1.9733043909072876, "learning_rate": 1.5220024303804181e-05, "loss": 0.4685, "step": 3534 }, { "epoch": 1.1783333333333332, "grad_norm": 1.8379154205322266, "learning_rate": 1.5216715759914068e-05, "loss": 0.4989, "step": 3535 }, { "epoch": 1.1786666666666668, "grad_norm": 2.0285396575927734, "learning_rate": 1.521340643128199e-05, "loss": 0.426, "step": 3536 }, { "epoch": 1.179, "grad_norm": 2.0840158462524414, "learning_rate": 1.5210096318405768e-05, "loss": 0.4534, "step": 3537 }, { "epoch": 1.1793333333333333, "grad_norm": 1.7574483156204224, "learning_rate": 1.520678542178333e-05, "loss": 0.4602, "step": 3538 }, { "epoch": 1.1796666666666666, "grad_norm": 1.6364351511001587, "learning_rate": 1.5203473741912737e-05, "loss": 0.399, "step": 3539 }, { "epoch": 1.18, "grad_norm": 2.1704132556915283, "learning_rate": 1.5200161279292154e-05, "loss": 0.4007, "step": 3540 }, { "epoch": 1.1803333333333335, "grad_norm": 2.410813093185425, "learning_rate": 1.5196848034419876e-05, "loss": 0.507, "step": 3541 }, { "epoch": 1.1806666666666668, "grad_norm": 1.9721314907073975, "learning_rate": 1.5193534007794303e-05, "loss": 0.4708, "step": 3542 }, { "epoch": 1.181, "grad_norm": 1.928574800491333, "learning_rate": 1.5190219199913956e-05, "loss": 0.4446, "step": 3543 }, { "epoch": 1.1813333333333333, "grad_norm": 2.181241512298584, "learning_rate": 1.5186903611277486e-05, "loss": 0.5077, "step": 3544 }, { "epoch": 1.1816666666666666, "grad_norm": 2.0305142402648926, "learning_rate": 1.5183587242383639e-05, "loss": 0.4766, "step": 3545 }, { "epoch": 1.182, "grad_norm": 2.3674089908599854, "learning_rate": 1.5180270093731305e-05, "loss": 0.4663, "step": 3546 }, { "epoch": 1.1823333333333332, "grad_norm": 2.3479859828948975, "learning_rate": 1.5176952165819465e-05, "loss": 0.493, "step": 3547 }, { "epoch": 1.1826666666666668, "grad_norm": 1.911966323852539, "learning_rate": 1.5173633459147235e-05, "loss": 0.4769, "step": 3548 }, { "epoch": 1.183, "grad_norm": 2.027218818664551, "learning_rate": 1.5170313974213841e-05, "loss": 0.4407, "step": 3549 }, { "epoch": 1.1833333333333333, "grad_norm": 1.8829259872436523, "learning_rate": 1.5166993711518631e-05, "loss": 0.4789, "step": 3550 }, { "epoch": 1.1836666666666666, "grad_norm": 2.1745169162750244, "learning_rate": 1.5163672671561065e-05, "loss": 0.4621, "step": 3551 }, { "epoch": 1.184, "grad_norm": 1.6477388143539429, "learning_rate": 1.5160350854840715e-05, "loss": 0.4455, "step": 3552 }, { "epoch": 1.1843333333333332, "grad_norm": 1.9569541215896606, "learning_rate": 1.5157028261857285e-05, "loss": 0.4711, "step": 3553 }, { "epoch": 1.1846666666666668, "grad_norm": 2.750669002532959, "learning_rate": 1.5153704893110584e-05, "loss": 0.4808, "step": 3554 }, { "epoch": 1.185, "grad_norm": 3.8058793544769287, "learning_rate": 1.5150380749100545e-05, "loss": 0.4471, "step": 3555 }, { "epoch": 1.1853333333333333, "grad_norm": 2.382453441619873, "learning_rate": 1.5147055830327206e-05, "loss": 0.4796, "step": 3556 }, { "epoch": 1.1856666666666666, "grad_norm": 2.5921995639801025, "learning_rate": 1.5143730137290731e-05, "loss": 0.4965, "step": 3557 }, { "epoch": 1.186, "grad_norm": 1.722122311592102, "learning_rate": 1.5140403670491406e-05, "loss": 0.462, "step": 3558 }, { "epoch": 1.1863333333333332, "grad_norm": 1.9912775754928589, "learning_rate": 1.5137076430429613e-05, "loss": 0.436, "step": 3559 }, { "epoch": 1.1866666666666668, "grad_norm": 2.0386147499084473, "learning_rate": 1.5133748417605878e-05, "loss": 0.4415, "step": 3560 }, { "epoch": 1.187, "grad_norm": 2.191254138946533, "learning_rate": 1.5130419632520814e-05, "loss": 0.4469, "step": 3561 }, { "epoch": 1.1873333333333334, "grad_norm": 1.6077723503112793, "learning_rate": 1.5127090075675174e-05, "loss": 0.452, "step": 3562 }, { "epoch": 1.1876666666666666, "grad_norm": 2.1708269119262695, "learning_rate": 1.5123759747569819e-05, "loss": 0.476, "step": 3563 }, { "epoch": 1.188, "grad_norm": 2.2840797901153564, "learning_rate": 1.5120428648705716e-05, "loss": 0.4802, "step": 3564 }, { "epoch": 1.1883333333333332, "grad_norm": 2.030975341796875, "learning_rate": 1.5117096779583966e-05, "loss": 0.4428, "step": 3565 }, { "epoch": 1.1886666666666668, "grad_norm": 2.1888039112091064, "learning_rate": 1.5113764140705768e-05, "loss": 0.498, "step": 3566 }, { "epoch": 1.189, "grad_norm": 2.017178535461426, "learning_rate": 1.5110430732572454e-05, "loss": 0.4351, "step": 3567 }, { "epoch": 1.1893333333333334, "grad_norm": 2.1237940788269043, "learning_rate": 1.5107096555685457e-05, "loss": 0.4503, "step": 3568 }, { "epoch": 1.1896666666666667, "grad_norm": 1.929861068725586, "learning_rate": 1.5103761610546333e-05, "loss": 0.4185, "step": 3569 }, { "epoch": 1.19, "grad_norm": 2.5818052291870117, "learning_rate": 1.5100425897656754e-05, "loss": 0.4585, "step": 3570 }, { "epoch": 1.1903333333333332, "grad_norm": 2.277862787246704, "learning_rate": 1.5097089417518504e-05, "loss": 0.4624, "step": 3571 }, { "epoch": 1.1906666666666668, "grad_norm": 2.9524636268615723, "learning_rate": 1.5093752170633486e-05, "loss": 0.4335, "step": 3572 }, { "epoch": 1.191, "grad_norm": 1.8573235273361206, "learning_rate": 1.5090414157503715e-05, "loss": 0.4563, "step": 3573 }, { "epoch": 1.1913333333333334, "grad_norm": 2.5362563133239746, "learning_rate": 1.5087075378631322e-05, "loss": 0.4726, "step": 3574 }, { "epoch": 1.1916666666666667, "grad_norm": 2.094550371170044, "learning_rate": 1.5083735834518556e-05, "loss": 0.4207, "step": 3575 }, { "epoch": 1.192, "grad_norm": 1.8888705968856812, "learning_rate": 1.508039552566778e-05, "loss": 0.4829, "step": 3576 }, { "epoch": 1.1923333333333332, "grad_norm": 1.9449268579483032, "learning_rate": 1.507705445258147e-05, "loss": 0.4413, "step": 3577 }, { "epoch": 1.1926666666666668, "grad_norm": 3.2390925884246826, "learning_rate": 1.5073712615762213e-05, "loss": 0.4435, "step": 3578 }, { "epoch": 1.193, "grad_norm": 2.3805816173553467, "learning_rate": 1.5070370015712727e-05, "loss": 0.4756, "step": 3579 }, { "epoch": 1.1933333333333334, "grad_norm": 2.069995641708374, "learning_rate": 1.5067026652935823e-05, "loss": 0.4361, "step": 3580 }, { "epoch": 1.1936666666666667, "grad_norm": 2.105062484741211, "learning_rate": 1.5063682527934445e-05, "loss": 0.4667, "step": 3581 }, { "epoch": 1.194, "grad_norm": 2.127288579940796, "learning_rate": 1.5060337641211637e-05, "loss": 0.4823, "step": 3582 }, { "epoch": 1.1943333333333332, "grad_norm": 2.0246832370758057, "learning_rate": 1.5056991993270575e-05, "loss": 0.4646, "step": 3583 }, { "epoch": 1.1946666666666665, "grad_norm": 1.827953577041626, "learning_rate": 1.5053645584614533e-05, "loss": 0.496, "step": 3584 }, { "epoch": 1.195, "grad_norm": 1.772531509399414, "learning_rate": 1.5050298415746903e-05, "loss": 0.4473, "step": 3585 }, { "epoch": 1.1953333333333334, "grad_norm": 2.0129735469818115, "learning_rate": 1.5046950487171196e-05, "loss": 0.4219, "step": 3586 }, { "epoch": 1.1956666666666667, "grad_norm": 1.7051286697387695, "learning_rate": 1.504360179939104e-05, "loss": 0.4689, "step": 3587 }, { "epoch": 1.196, "grad_norm": 1.79444420337677, "learning_rate": 1.5040252352910168e-05, "loss": 0.4356, "step": 3588 }, { "epoch": 1.1963333333333332, "grad_norm": 2.1506145000457764, "learning_rate": 1.5036902148232433e-05, "loss": 0.482, "step": 3589 }, { "epoch": 1.1966666666666668, "grad_norm": 2.289778470993042, "learning_rate": 1.50335511858618e-05, "loss": 0.4337, "step": 3590 }, { "epoch": 1.197, "grad_norm": 2.184636354446411, "learning_rate": 1.5030199466302354e-05, "loss": 0.4696, "step": 3591 }, { "epoch": 1.1973333333333334, "grad_norm": 1.8214219808578491, "learning_rate": 1.502684699005828e-05, "loss": 0.4439, "step": 3592 }, { "epoch": 1.1976666666666667, "grad_norm": 2.2887167930603027, "learning_rate": 1.5023493757633888e-05, "loss": 0.4222, "step": 3593 }, { "epoch": 1.198, "grad_norm": 1.6604251861572266, "learning_rate": 1.5020139769533604e-05, "loss": 0.4367, "step": 3594 }, { "epoch": 1.1983333333333333, "grad_norm": 2.4130353927612305, "learning_rate": 1.5016785026261959e-05, "loss": 0.4471, "step": 3595 }, { "epoch": 1.1986666666666665, "grad_norm": 2.058225154876709, "learning_rate": 1.5013429528323603e-05, "loss": 0.4154, "step": 3596 }, { "epoch": 1.199, "grad_norm": 2.4377431869506836, "learning_rate": 1.5010073276223295e-05, "loss": 0.4557, "step": 3597 }, { "epoch": 1.1993333333333334, "grad_norm": 2.086317300796509, "learning_rate": 1.5006716270465918e-05, "loss": 0.446, "step": 3598 }, { "epoch": 1.1996666666666667, "grad_norm": 1.7972038984298706, "learning_rate": 1.5003358511556449e-05, "loss": 0.4834, "step": 3599 }, { "epoch": 1.2, "grad_norm": 1.8591723442077637, "learning_rate": 1.5000000000000002e-05, "loss": 0.4809, "step": 3600 }, { "epoch": 1.2003333333333333, "grad_norm": 1.9653589725494385, "learning_rate": 1.4996640736301784e-05, "loss": 0.4742, "step": 3601 }, { "epoch": 1.2006666666666668, "grad_norm": 1.9049458503723145, "learning_rate": 1.4993280720967129e-05, "loss": 0.4464, "step": 3602 }, { "epoch": 1.201, "grad_norm": 2.4859068393707275, "learning_rate": 1.4989919954501474e-05, "loss": 0.4797, "step": 3603 }, { "epoch": 1.2013333333333334, "grad_norm": 2.084995985031128, "learning_rate": 1.4986558437410379e-05, "loss": 0.5056, "step": 3604 }, { "epoch": 1.2016666666666667, "grad_norm": 2.054882049560547, "learning_rate": 1.4983196170199505e-05, "loss": 0.4044, "step": 3605 }, { "epoch": 1.202, "grad_norm": 1.9648844003677368, "learning_rate": 1.4979833153374636e-05, "loss": 0.4927, "step": 3606 }, { "epoch": 1.2023333333333333, "grad_norm": 2.058539867401123, "learning_rate": 1.4976469387441666e-05, "loss": 0.4355, "step": 3607 }, { "epoch": 1.2026666666666666, "grad_norm": 1.6504617929458618, "learning_rate": 1.49731048729066e-05, "loss": 0.4578, "step": 3608 }, { "epoch": 1.203, "grad_norm": 1.770723819732666, "learning_rate": 1.4969739610275556e-05, "loss": 0.4399, "step": 3609 }, { "epoch": 1.2033333333333334, "grad_norm": 1.9510291814804077, "learning_rate": 1.4966373600054763e-05, "loss": 0.4315, "step": 3610 }, { "epoch": 1.2036666666666667, "grad_norm": 2.00298810005188, "learning_rate": 1.4963006842750564e-05, "loss": 0.4729, "step": 3611 }, { "epoch": 1.204, "grad_norm": 1.933251976966858, "learning_rate": 1.4959639338869423e-05, "loss": 0.4786, "step": 3612 }, { "epoch": 1.2043333333333333, "grad_norm": 1.8344179391860962, "learning_rate": 1.4956271088917897e-05, "loss": 0.4986, "step": 3613 }, { "epoch": 1.2046666666666668, "grad_norm": 1.7013663053512573, "learning_rate": 1.4952902093402675e-05, "loss": 0.4459, "step": 3614 }, { "epoch": 1.205, "grad_norm": 2.8047614097595215, "learning_rate": 1.4949532352830543e-05, "loss": 0.4244, "step": 3615 }, { "epoch": 1.2053333333333334, "grad_norm": 1.8989795446395874, "learning_rate": 1.494616186770841e-05, "loss": 0.4323, "step": 3616 }, { "epoch": 1.2056666666666667, "grad_norm": 1.8184815645217896, "learning_rate": 1.494279063854329e-05, "loss": 0.4127, "step": 3617 }, { "epoch": 1.206, "grad_norm": 2.1310389041900635, "learning_rate": 1.493941866584231e-05, "loss": 0.4571, "step": 3618 }, { "epoch": 1.2063333333333333, "grad_norm": 1.9125585556030273, "learning_rate": 1.4936045950112714e-05, "loss": 0.4871, "step": 3619 }, { "epoch": 1.2066666666666666, "grad_norm": 1.7435959577560425, "learning_rate": 1.4932672491861855e-05, "loss": 0.4894, "step": 3620 }, { "epoch": 1.207, "grad_norm": 1.7435431480407715, "learning_rate": 1.4929298291597195e-05, "loss": 0.4529, "step": 3621 }, { "epoch": 1.2073333333333334, "grad_norm": 1.6941876411437988, "learning_rate": 1.4925923349826303e-05, "loss": 0.4614, "step": 3622 }, { "epoch": 1.2076666666666667, "grad_norm": 2.28096079826355, "learning_rate": 1.4922547667056877e-05, "loss": 0.4248, "step": 3623 }, { "epoch": 1.208, "grad_norm": 2.40734601020813, "learning_rate": 1.4919171243796706e-05, "loss": 0.4429, "step": 3624 }, { "epoch": 1.2083333333333333, "grad_norm": 2.7983877658843994, "learning_rate": 1.4915794080553706e-05, "loss": 0.4505, "step": 3625 }, { "epoch": 1.2086666666666668, "grad_norm": 2.147287368774414, "learning_rate": 1.4912416177835897e-05, "loss": 0.494, "step": 3626 }, { "epoch": 1.209, "grad_norm": 2.989819288253784, "learning_rate": 1.490903753615141e-05, "loss": 0.5107, "step": 3627 }, { "epoch": 1.2093333333333334, "grad_norm": 1.8779916763305664, "learning_rate": 1.4905658156008489e-05, "loss": 0.4579, "step": 3628 }, { "epoch": 1.2096666666666667, "grad_norm": 1.9703369140625, "learning_rate": 1.4902278037915485e-05, "loss": 0.4409, "step": 3629 }, { "epoch": 1.21, "grad_norm": 2.1699440479278564, "learning_rate": 1.4898897182380872e-05, "loss": 0.4697, "step": 3630 }, { "epoch": 1.2103333333333333, "grad_norm": 1.941283941268921, "learning_rate": 1.4895515589913219e-05, "loss": 0.4469, "step": 3631 }, { "epoch": 1.2106666666666666, "grad_norm": 2.6715972423553467, "learning_rate": 1.4892133261021217e-05, "loss": 0.4842, "step": 3632 }, { "epoch": 1.211, "grad_norm": 2.481964349746704, "learning_rate": 1.4888750196213661e-05, "loss": 0.4211, "step": 3633 }, { "epoch": 1.2113333333333334, "grad_norm": 1.8403793573379517, "learning_rate": 1.4885366395999463e-05, "loss": 0.4465, "step": 3634 }, { "epoch": 1.2116666666666667, "grad_norm": 1.7884855270385742, "learning_rate": 1.4881981860887642e-05, "loss": 0.4264, "step": 3635 }, { "epoch": 1.212, "grad_norm": 2.5508358478546143, "learning_rate": 1.4878596591387329e-05, "loss": 0.4397, "step": 3636 }, { "epoch": 1.2123333333333333, "grad_norm": 2.6540191173553467, "learning_rate": 1.4875210588007763e-05, "loss": 0.4949, "step": 3637 }, { "epoch": 1.2126666666666668, "grad_norm": 2.708523750305176, "learning_rate": 1.4871823851258292e-05, "loss": 0.4485, "step": 3638 }, { "epoch": 1.213, "grad_norm": 2.3964951038360596, "learning_rate": 1.486843638164838e-05, "loss": 0.4331, "step": 3639 }, { "epoch": 1.2133333333333334, "grad_norm": 2.6637842655181885, "learning_rate": 1.48650481796876e-05, "loss": 0.4448, "step": 3640 }, { "epoch": 1.2136666666666667, "grad_norm": 2.1158931255340576, "learning_rate": 1.4861659245885633e-05, "loss": 0.4719, "step": 3641 }, { "epoch": 1.214, "grad_norm": 1.7911992073059082, "learning_rate": 1.4858269580752272e-05, "loss": 0.4661, "step": 3642 }, { "epoch": 1.2143333333333333, "grad_norm": 2.66974139213562, "learning_rate": 1.4854879184797413e-05, "loss": 0.4701, "step": 3643 }, { "epoch": 1.2146666666666666, "grad_norm": 1.8872348070144653, "learning_rate": 1.4851488058531072e-05, "loss": 0.4828, "step": 3644 }, { "epoch": 1.215, "grad_norm": 2.1442298889160156, "learning_rate": 1.4848096202463373e-05, "loss": 0.436, "step": 3645 }, { "epoch": 1.2153333333333334, "grad_norm": 1.947938323020935, "learning_rate": 1.4844703617104541e-05, "loss": 0.4205, "step": 3646 }, { "epoch": 1.2156666666666667, "grad_norm": 1.7558131217956543, "learning_rate": 1.4841310302964922e-05, "loss": 0.48, "step": 3647 }, { "epoch": 1.216, "grad_norm": 1.987143635749817, "learning_rate": 1.4837916260554966e-05, "loss": 0.4217, "step": 3648 }, { "epoch": 1.2163333333333333, "grad_norm": 2.325270891189575, "learning_rate": 1.483452149038523e-05, "loss": 0.4519, "step": 3649 }, { "epoch": 1.2166666666666668, "grad_norm": 2.3550095558166504, "learning_rate": 1.4831125992966386e-05, "loss": 0.491, "step": 3650 }, { "epoch": 1.217, "grad_norm": 1.8783644437789917, "learning_rate": 1.4827729768809215e-05, "loss": 0.475, "step": 3651 }, { "epoch": 1.2173333333333334, "grad_norm": 1.8205156326293945, "learning_rate": 1.48243328184246e-05, "loss": 0.4397, "step": 3652 }, { "epoch": 1.2176666666666667, "grad_norm": 1.7389907836914062, "learning_rate": 1.4820935142323544e-05, "loss": 0.4561, "step": 3653 }, { "epoch": 1.218, "grad_norm": 1.867498755455017, "learning_rate": 1.4817536741017153e-05, "loss": 0.4771, "step": 3654 }, { "epoch": 1.2183333333333333, "grad_norm": 1.667130708694458, "learning_rate": 1.4814137615016644e-05, "loss": 0.4626, "step": 3655 }, { "epoch": 1.2186666666666666, "grad_norm": 1.6476634740829468, "learning_rate": 1.4810737764833336e-05, "loss": 0.4436, "step": 3656 }, { "epoch": 1.219, "grad_norm": 2.449219226837158, "learning_rate": 1.4807337190978666e-05, "loss": 0.4498, "step": 3657 }, { "epoch": 1.2193333333333334, "grad_norm": 2.2484216690063477, "learning_rate": 1.4803935893964178e-05, "loss": 0.4307, "step": 3658 }, { "epoch": 1.2196666666666667, "grad_norm": 2.0355112552642822, "learning_rate": 1.4800533874301523e-05, "loss": 0.4632, "step": 3659 }, { "epoch": 1.22, "grad_norm": 2.0813279151916504, "learning_rate": 1.4797131132502464e-05, "loss": 0.4696, "step": 3660 }, { "epoch": 1.2203333333333333, "grad_norm": 2.5972859859466553, "learning_rate": 1.4793727669078863e-05, "loss": 0.4725, "step": 3661 }, { "epoch": 1.2206666666666668, "grad_norm": 2.191145658493042, "learning_rate": 1.4790323484542703e-05, "loss": 0.4385, "step": 3662 }, { "epoch": 1.221, "grad_norm": 3.4031031131744385, "learning_rate": 1.478691857940607e-05, "loss": 0.448, "step": 3663 }, { "epoch": 1.2213333333333334, "grad_norm": 2.197817087173462, "learning_rate": 1.4783512954181154e-05, "loss": 0.4427, "step": 3664 }, { "epoch": 1.2216666666666667, "grad_norm": 2.050992727279663, "learning_rate": 1.4780106609380262e-05, "loss": 0.4651, "step": 3665 }, { "epoch": 1.222, "grad_norm": 2.1310930252075195, "learning_rate": 1.47766995455158e-05, "loss": 0.4712, "step": 3666 }, { "epoch": 1.2223333333333333, "grad_norm": 2.7889418601989746, "learning_rate": 1.477329176310029e-05, "loss": 0.4396, "step": 3667 }, { "epoch": 1.2226666666666666, "grad_norm": 2.0394392013549805, "learning_rate": 1.4769883262646361e-05, "loss": 0.4892, "step": 3668 }, { "epoch": 1.223, "grad_norm": 2.9903664588928223, "learning_rate": 1.4766474044666748e-05, "loss": 0.4652, "step": 3669 }, { "epoch": 1.2233333333333334, "grad_norm": 2.177185535430908, "learning_rate": 1.476306410967429e-05, "loss": 0.4384, "step": 3670 }, { "epoch": 1.2236666666666667, "grad_norm": 1.7835633754730225, "learning_rate": 1.4759653458181937e-05, "loss": 0.4214, "step": 3671 }, { "epoch": 1.224, "grad_norm": 3.912917375564575, "learning_rate": 1.4756242090702756e-05, "loss": 0.4727, "step": 3672 }, { "epoch": 1.2243333333333333, "grad_norm": 2.6304516792297363, "learning_rate": 1.4752830007749902e-05, "loss": 0.4688, "step": 3673 }, { "epoch": 1.2246666666666666, "grad_norm": 1.8166626691818237, "learning_rate": 1.4749417209836661e-05, "loss": 0.4485, "step": 3674 }, { "epoch": 1.225, "grad_norm": 2.120305061340332, "learning_rate": 1.4746003697476406e-05, "loss": 0.4813, "step": 3675 }, { "epoch": 1.2253333333333334, "grad_norm": 1.868691086769104, "learning_rate": 1.474258947118263e-05, "loss": 0.4147, "step": 3676 }, { "epoch": 1.2256666666666667, "grad_norm": 2.1171715259552, "learning_rate": 1.4739174531468927e-05, "loss": 0.4737, "step": 3677 }, { "epoch": 1.226, "grad_norm": 2.1783864498138428, "learning_rate": 1.4735758878849e-05, "loss": 0.4633, "step": 3678 }, { "epoch": 1.2263333333333333, "grad_norm": 2.4301016330718994, "learning_rate": 1.4732342513836669e-05, "loss": 0.4663, "step": 3679 }, { "epoch": 1.2266666666666666, "grad_norm": 2.3221025466918945, "learning_rate": 1.4728925436945838e-05, "loss": 0.438, "step": 3680 }, { "epoch": 1.227, "grad_norm": 1.9430309534072876, "learning_rate": 1.4725507648690542e-05, "loss": 0.4088, "step": 3681 }, { "epoch": 1.2273333333333334, "grad_norm": 2.2006943225860596, "learning_rate": 1.4722089149584908e-05, "loss": 0.4385, "step": 3682 }, { "epoch": 1.2276666666666667, "grad_norm": 2.301147699356079, "learning_rate": 1.4718669940143182e-05, "loss": 0.4716, "step": 3683 }, { "epoch": 1.228, "grad_norm": 2.3663859367370605, "learning_rate": 1.4715250020879705e-05, "loss": 0.4298, "step": 3684 }, { "epoch": 1.2283333333333333, "grad_norm": 1.916046380996704, "learning_rate": 1.471182939230893e-05, "loss": 0.4214, "step": 3685 }, { "epoch": 1.2286666666666666, "grad_norm": 2.031867504119873, "learning_rate": 1.4708408054945418e-05, "loss": 0.4472, "step": 3686 }, { "epoch": 1.229, "grad_norm": 3.3008291721343994, "learning_rate": 1.4704986009303833e-05, "loss": 0.4462, "step": 3687 }, { "epoch": 1.2293333333333334, "grad_norm": 3.5394821166992188, "learning_rate": 1.470156325589895e-05, "loss": 0.4665, "step": 3688 }, { "epoch": 1.2296666666666667, "grad_norm": 2.119612693786621, "learning_rate": 1.4698139795245645e-05, "loss": 0.4151, "step": 3689 }, { "epoch": 1.23, "grad_norm": 2.26462984085083, "learning_rate": 1.469471562785891e-05, "loss": 0.4543, "step": 3690 }, { "epoch": 1.2303333333333333, "grad_norm": 1.9806493520736694, "learning_rate": 1.469129075425383e-05, "loss": 0.4925, "step": 3691 }, { "epoch": 1.2306666666666666, "grad_norm": 2.292172908782959, "learning_rate": 1.4687865174945605e-05, "loss": 0.4673, "step": 3692 }, { "epoch": 1.231, "grad_norm": 2.7065231800079346, "learning_rate": 1.4684438890449542e-05, "loss": 0.4674, "step": 3693 }, { "epoch": 1.2313333333333334, "grad_norm": 2.047373056411743, "learning_rate": 1.4681011901281048e-05, "loss": 0.4433, "step": 3694 }, { "epoch": 1.2316666666666667, "grad_norm": 2.11812162399292, "learning_rate": 1.4677584207955641e-05, "loss": 0.4376, "step": 3695 }, { "epoch": 1.232, "grad_norm": 1.7150847911834717, "learning_rate": 1.4674155810988944e-05, "loss": 0.4402, "step": 3696 }, { "epoch": 1.2323333333333333, "grad_norm": 4.223010063171387, "learning_rate": 1.4670726710896683e-05, "loss": 0.437, "step": 3697 }, { "epoch": 1.2326666666666666, "grad_norm": 1.8054052591323853, "learning_rate": 1.4667296908194694e-05, "loss": 0.426, "step": 3698 }, { "epoch": 1.233, "grad_norm": 1.7131661176681519, "learning_rate": 1.4663866403398915e-05, "loss": 0.4487, "step": 3699 }, { "epoch": 1.2333333333333334, "grad_norm": 2.057929754257202, "learning_rate": 1.4660435197025391e-05, "loss": 0.4488, "step": 3700 }, { "epoch": 1.2336666666666667, "grad_norm": 2.069866895675659, "learning_rate": 1.4657003289590272e-05, "loss": 0.4525, "step": 3701 }, { "epoch": 1.234, "grad_norm": 2.2197883129119873, "learning_rate": 1.4653570681609816e-05, "loss": 0.4761, "step": 3702 }, { "epoch": 1.2343333333333333, "grad_norm": 2.6874849796295166, "learning_rate": 1.4650137373600388e-05, "loss": 0.4568, "step": 3703 }, { "epoch": 1.2346666666666666, "grad_norm": 2.1824657917022705, "learning_rate": 1.4646703366078448e-05, "loss": 0.4751, "step": 3704 }, { "epoch": 1.2349999999999999, "grad_norm": 2.2965822219848633, "learning_rate": 1.4643268659560571e-05, "loss": 0.4662, "step": 3705 }, { "epoch": 1.2353333333333334, "grad_norm": 2.0602924823760986, "learning_rate": 1.4639833254563435e-05, "loss": 0.4348, "step": 3706 }, { "epoch": 1.2356666666666667, "grad_norm": 2.475106954574585, "learning_rate": 1.4636397151603823e-05, "loss": 0.4584, "step": 3707 }, { "epoch": 1.236, "grad_norm": 2.2526919841766357, "learning_rate": 1.463296035119862e-05, "loss": 0.4726, "step": 3708 }, { "epoch": 1.2363333333333333, "grad_norm": 1.5288777351379395, "learning_rate": 1.4629522853864816e-05, "loss": 0.4346, "step": 3709 }, { "epoch": 1.2366666666666666, "grad_norm": 2.2367608547210693, "learning_rate": 1.4626084660119515e-05, "loss": 0.4046, "step": 3710 }, { "epoch": 1.237, "grad_norm": 1.7246630191802979, "learning_rate": 1.4622645770479915e-05, "loss": 0.488, "step": 3711 }, { "epoch": 1.2373333333333334, "grad_norm": 2.2492902278900146, "learning_rate": 1.4619206185463322e-05, "loss": 0.4582, "step": 3712 }, { "epoch": 1.2376666666666667, "grad_norm": 1.8328876495361328, "learning_rate": 1.461576590558715e-05, "loss": 0.4882, "step": 3713 }, { "epoch": 1.238, "grad_norm": 1.747689962387085, "learning_rate": 1.4612324931368909e-05, "loss": 0.4189, "step": 3714 }, { "epoch": 1.2383333333333333, "grad_norm": 1.784241795539856, "learning_rate": 1.4608883263326221e-05, "loss": 0.4575, "step": 3715 }, { "epoch": 1.2386666666666666, "grad_norm": 2.347734212875366, "learning_rate": 1.4605440901976815e-05, "loss": 0.4859, "step": 3716 }, { "epoch": 1.2389999999999999, "grad_norm": 2.2694778442382812, "learning_rate": 1.4601997847838518e-05, "loss": 0.48, "step": 3717 }, { "epoch": 1.2393333333333334, "grad_norm": 1.786476492881775, "learning_rate": 1.4598554101429262e-05, "loss": 0.4634, "step": 3718 }, { "epoch": 1.2396666666666667, "grad_norm": 2.7530524730682373, "learning_rate": 1.4595109663267079e-05, "loss": 0.4679, "step": 3719 }, { "epoch": 1.24, "grad_norm": 1.9182621240615845, "learning_rate": 1.4591664533870118e-05, "loss": 0.4224, "step": 3720 }, { "epoch": 1.2403333333333333, "grad_norm": 2.129664659500122, "learning_rate": 1.458821871375662e-05, "loss": 0.461, "step": 3721 }, { "epoch": 1.2406666666666666, "grad_norm": 2.272054672241211, "learning_rate": 1.4584772203444937e-05, "loss": 0.4315, "step": 3722 }, { "epoch": 1.241, "grad_norm": 1.7678719758987427, "learning_rate": 1.458132500345352e-05, "loss": 0.3895, "step": 3723 }, { "epoch": 1.2413333333333334, "grad_norm": 2.4902756214141846, "learning_rate": 1.457787711430092e-05, "loss": 0.4691, "step": 3724 }, { "epoch": 1.2416666666666667, "grad_norm": 2.462686777114868, "learning_rate": 1.4574428536505809e-05, "loss": 0.429, "step": 3725 }, { "epoch": 1.242, "grad_norm": 2.366212844848633, "learning_rate": 1.4570979270586944e-05, "loss": 0.4694, "step": 3726 }, { "epoch": 1.2423333333333333, "grad_norm": 2.153597831726074, "learning_rate": 1.4567529317063192e-05, "loss": 0.44, "step": 3727 }, { "epoch": 1.2426666666666666, "grad_norm": 1.8893499374389648, "learning_rate": 1.4564078676453525e-05, "loss": 0.4465, "step": 3728 }, { "epoch": 1.2429999999999999, "grad_norm": 2.1075279712677, "learning_rate": 1.4560627349277017e-05, "loss": 0.4551, "step": 3729 }, { "epoch": 1.2433333333333334, "grad_norm": 3.023179054260254, "learning_rate": 1.4557175336052844e-05, "loss": 0.4863, "step": 3730 }, { "epoch": 1.2436666666666667, "grad_norm": 2.2716166973114014, "learning_rate": 1.4553722637300291e-05, "loss": 0.4496, "step": 3731 }, { "epoch": 1.244, "grad_norm": 1.8751100301742554, "learning_rate": 1.4550269253538739e-05, "loss": 0.445, "step": 3732 }, { "epoch": 1.2443333333333333, "grad_norm": 2.279985189437866, "learning_rate": 1.4546815185287673e-05, "loss": 0.4831, "step": 3733 }, { "epoch": 1.2446666666666666, "grad_norm": 2.0033695697784424, "learning_rate": 1.4543360433066686e-05, "loss": 0.4253, "step": 3734 }, { "epoch": 1.245, "grad_norm": 2.29156494140625, "learning_rate": 1.4539904997395468e-05, "loss": 0.3978, "step": 3735 }, { "epoch": 1.2453333333333334, "grad_norm": 2.602569818496704, "learning_rate": 1.4536448878793818e-05, "loss": 0.4488, "step": 3736 }, { "epoch": 1.2456666666666667, "grad_norm": 1.8897285461425781, "learning_rate": 1.453299207778163e-05, "loss": 0.4372, "step": 3737 }, { "epoch": 1.246, "grad_norm": 2.1228818893432617, "learning_rate": 1.452953459487891e-05, "loss": 0.407, "step": 3738 }, { "epoch": 1.2463333333333333, "grad_norm": 2.2467358112335205, "learning_rate": 1.4526076430605756e-05, "loss": 0.4717, "step": 3739 }, { "epoch": 1.2466666666666666, "grad_norm": 1.891943335533142, "learning_rate": 1.4522617585482377e-05, "loss": 0.4636, "step": 3740 }, { "epoch": 1.2469999999999999, "grad_norm": 1.7859731912612915, "learning_rate": 1.4519158060029081e-05, "loss": 0.4587, "step": 3741 }, { "epoch": 1.2473333333333334, "grad_norm": 2.093454122543335, "learning_rate": 1.451569785476628e-05, "loss": 0.4742, "step": 3742 }, { "epoch": 1.2476666666666667, "grad_norm": 2.1724143028259277, "learning_rate": 1.4512236970214484e-05, "loss": 0.4516, "step": 3743 }, { "epoch": 1.248, "grad_norm": 1.8144965171813965, "learning_rate": 1.4508775406894308e-05, "loss": 0.4561, "step": 3744 }, { "epoch": 1.2483333333333333, "grad_norm": 2.027216911315918, "learning_rate": 1.4505313165326473e-05, "loss": 0.4697, "step": 3745 }, { "epoch": 1.2486666666666666, "grad_norm": 2.0910820960998535, "learning_rate": 1.4501850246031796e-05, "loss": 0.3922, "step": 3746 }, { "epoch": 1.249, "grad_norm": 1.8312132358551025, "learning_rate": 1.4498386649531198e-05, "loss": 0.4047, "step": 3747 }, { "epoch": 1.2493333333333334, "grad_norm": 1.9607402086257935, "learning_rate": 1.4494922376345704e-05, "loss": 0.4521, "step": 3748 }, { "epoch": 1.2496666666666667, "grad_norm": 2.07328724861145, "learning_rate": 1.4491457426996438e-05, "loss": 0.4267, "step": 3749 }, { "epoch": 1.25, "grad_norm": 1.956960916519165, "learning_rate": 1.4487991802004625e-05, "loss": 0.4607, "step": 3750 }, { "epoch": 1.2503333333333333, "grad_norm": 1.8556407690048218, "learning_rate": 1.4484525501891594e-05, "loss": 0.4264, "step": 3751 }, { "epoch": 1.2506666666666666, "grad_norm": 2.2518768310546875, "learning_rate": 1.4481058527178772e-05, "loss": 0.4569, "step": 3752 }, { "epoch": 1.251, "grad_norm": 1.9622656106948853, "learning_rate": 1.4477590878387697e-05, "loss": 0.4351, "step": 3753 }, { "epoch": 1.2513333333333334, "grad_norm": 2.032024383544922, "learning_rate": 1.4474122556039997e-05, "loss": 0.4313, "step": 3754 }, { "epoch": 1.2516666666666667, "grad_norm": 2.034853458404541, "learning_rate": 1.4470653560657413e-05, "loss": 0.425, "step": 3755 }, { "epoch": 1.252, "grad_norm": 1.9037164449691772, "learning_rate": 1.4467183892761769e-05, "loss": 0.4636, "step": 3756 }, { "epoch": 1.2523333333333333, "grad_norm": 2.063434362411499, "learning_rate": 1.4463713552875006e-05, "loss": 0.4321, "step": 3757 }, { "epoch": 1.2526666666666666, "grad_norm": 1.8328278064727783, "learning_rate": 1.4460242541519165e-05, "loss": 0.4428, "step": 3758 }, { "epoch": 1.2530000000000001, "grad_norm": 2.3786637783050537, "learning_rate": 1.4456770859216383e-05, "loss": 0.442, "step": 3759 }, { "epoch": 1.2533333333333334, "grad_norm": 2.47713303565979, "learning_rate": 1.4453298506488896e-05, "loss": 0.4847, "step": 3760 }, { "epoch": 1.2536666666666667, "grad_norm": 1.8960039615631104, "learning_rate": 1.4449825483859045e-05, "loss": 0.4505, "step": 3761 }, { "epoch": 1.254, "grad_norm": 2.173851490020752, "learning_rate": 1.4446351791849276e-05, "loss": 0.4673, "step": 3762 }, { "epoch": 1.2543333333333333, "grad_norm": 2.098567485809326, "learning_rate": 1.4442877430982128e-05, "loss": 0.4452, "step": 3763 }, { "epoch": 1.2546666666666666, "grad_norm": 2.008098840713501, "learning_rate": 1.4439402401780243e-05, "loss": 0.4108, "step": 3764 }, { "epoch": 1.255, "grad_norm": 1.813326358795166, "learning_rate": 1.4435926704766364e-05, "loss": 0.378, "step": 3765 }, { "epoch": 1.2553333333333334, "grad_norm": 1.9171578884124756, "learning_rate": 1.4432450340463329e-05, "loss": 0.4784, "step": 3766 }, { "epoch": 1.2556666666666667, "grad_norm": 2.152315378189087, "learning_rate": 1.4428973309394091e-05, "loss": 0.3851, "step": 3767 }, { "epoch": 1.256, "grad_norm": 2.27624773979187, "learning_rate": 1.442549561208169e-05, "loss": 0.4588, "step": 3768 }, { "epoch": 1.2563333333333333, "grad_norm": 2.158641815185547, "learning_rate": 1.4422017249049272e-05, "loss": 0.5053, "step": 3769 }, { "epoch": 1.2566666666666666, "grad_norm": 2.001112699508667, "learning_rate": 1.441853822082008e-05, "loss": 0.4035, "step": 3770 }, { "epoch": 1.2570000000000001, "grad_norm": 2.1803345680236816, "learning_rate": 1.4415058527917454e-05, "loss": 0.4754, "step": 3771 }, { "epoch": 1.2573333333333334, "grad_norm": 2.277876853942871, "learning_rate": 1.4411578170864844e-05, "loss": 0.4496, "step": 3772 }, { "epoch": 1.2576666666666667, "grad_norm": 1.705907940864563, "learning_rate": 1.4408097150185794e-05, "loss": 0.4128, "step": 3773 }, { "epoch": 1.258, "grad_norm": 1.965734839439392, "learning_rate": 1.4404615466403951e-05, "loss": 0.4297, "step": 3774 }, { "epoch": 1.2583333333333333, "grad_norm": 1.9476176500320435, "learning_rate": 1.440113312004305e-05, "loss": 0.4336, "step": 3775 }, { "epoch": 1.2586666666666666, "grad_norm": 2.182021141052246, "learning_rate": 1.4397650111626943e-05, "loss": 0.4397, "step": 3776 }, { "epoch": 1.259, "grad_norm": 2.0129921436309814, "learning_rate": 1.439416644167957e-05, "loss": 0.4598, "step": 3777 }, { "epoch": 1.2593333333333334, "grad_norm": 2.1106200218200684, "learning_rate": 1.439068211072497e-05, "loss": 0.4399, "step": 3778 }, { "epoch": 1.2596666666666667, "grad_norm": 1.9992029666900635, "learning_rate": 1.4387197119287294e-05, "loss": 0.4776, "step": 3779 }, { "epoch": 1.26, "grad_norm": 1.7440659999847412, "learning_rate": 1.4383711467890776e-05, "loss": 0.4311, "step": 3780 }, { "epoch": 1.2603333333333333, "grad_norm": 3.3062222003936768, "learning_rate": 1.438022515705976e-05, "loss": 0.4568, "step": 3781 }, { "epoch": 1.2606666666666666, "grad_norm": 1.8144992589950562, "learning_rate": 1.4376738187318685e-05, "loss": 0.4368, "step": 3782 }, { "epoch": 1.2610000000000001, "grad_norm": 1.9059442281723022, "learning_rate": 1.4373250559192088e-05, "loss": 0.4145, "step": 3783 }, { "epoch": 1.2613333333333334, "grad_norm": 2.8296284675598145, "learning_rate": 1.4369762273204618e-05, "loss": 0.4339, "step": 3784 }, { "epoch": 1.2616666666666667, "grad_norm": 1.8866751194000244, "learning_rate": 1.4366273329880996e-05, "loss": 0.4052, "step": 3785 }, { "epoch": 1.262, "grad_norm": 2.0456440448760986, "learning_rate": 1.4362783729746068e-05, "loss": 0.4475, "step": 3786 }, { "epoch": 1.2623333333333333, "grad_norm": 2.2218785285949707, "learning_rate": 1.4359293473324765e-05, "loss": 0.4895, "step": 3787 }, { "epoch": 1.2626666666666666, "grad_norm": 1.9557065963745117, "learning_rate": 1.4355802561142127e-05, "loss": 0.4211, "step": 3788 }, { "epoch": 1.263, "grad_norm": 1.8411163091659546, "learning_rate": 1.4352310993723277e-05, "loss": 0.3986, "step": 3789 }, { "epoch": 1.2633333333333332, "grad_norm": 2.2256717681884766, "learning_rate": 1.4348818771593452e-05, "loss": 0.4679, "step": 3790 }, { "epoch": 1.2636666666666667, "grad_norm": 2.415987253189087, "learning_rate": 1.4345325895277977e-05, "loss": 0.4645, "step": 3791 }, { "epoch": 1.264, "grad_norm": 2.0670711994171143, "learning_rate": 1.4341832365302282e-05, "loss": 0.4706, "step": 3792 }, { "epoch": 1.2643333333333333, "grad_norm": 2.0662338733673096, "learning_rate": 1.4338338182191898e-05, "loss": 0.3928, "step": 3793 }, { "epoch": 1.2646666666666666, "grad_norm": 2.405611515045166, "learning_rate": 1.4334843346472438e-05, "loss": 0.4774, "step": 3794 }, { "epoch": 1.2650000000000001, "grad_norm": 1.8310359716415405, "learning_rate": 1.4331347858669631e-05, "loss": 0.4105, "step": 3795 }, { "epoch": 1.2653333333333334, "grad_norm": 2.250049114227295, "learning_rate": 1.4327851719309298e-05, "loss": 0.3948, "step": 3796 }, { "epoch": 1.2656666666666667, "grad_norm": 3.6418633460998535, "learning_rate": 1.4324354928917357e-05, "loss": 0.4532, "step": 3797 }, { "epoch": 1.266, "grad_norm": 1.746102213859558, "learning_rate": 1.4320857488019826e-05, "loss": 0.4176, "step": 3798 }, { "epoch": 1.2663333333333333, "grad_norm": 1.7841068506240845, "learning_rate": 1.4317359397142814e-05, "loss": 0.436, "step": 3799 }, { "epoch": 1.2666666666666666, "grad_norm": 2.1562235355377197, "learning_rate": 1.4313860656812537e-05, "loss": 0.4435, "step": 3800 }, { "epoch": 1.267, "grad_norm": 2.603123903274536, "learning_rate": 1.4310361267555302e-05, "loss": 0.4563, "step": 3801 }, { "epoch": 1.2673333333333332, "grad_norm": 3.054077625274658, "learning_rate": 1.430686122989752e-05, "loss": 0.4416, "step": 3802 }, { "epoch": 1.2676666666666667, "grad_norm": 2.0260632038116455, "learning_rate": 1.4303360544365695e-05, "loss": 0.4148, "step": 3803 }, { "epoch": 1.268, "grad_norm": 2.8678512573242188, "learning_rate": 1.4299859211486429e-05, "loss": 0.48, "step": 3804 }, { "epoch": 1.2683333333333333, "grad_norm": 1.8981337547302246, "learning_rate": 1.4296357231786417e-05, "loss": 0.4317, "step": 3805 }, { "epoch": 1.2686666666666666, "grad_norm": 2.4009315967559814, "learning_rate": 1.4292854605792464e-05, "loss": 0.464, "step": 3806 }, { "epoch": 1.2690000000000001, "grad_norm": 2.2560462951660156, "learning_rate": 1.4289351334031461e-05, "loss": 0.4484, "step": 3807 }, { "epoch": 1.2693333333333334, "grad_norm": 2.073779582977295, "learning_rate": 1.4285847417030398e-05, "loss": 0.458, "step": 3808 }, { "epoch": 1.2696666666666667, "grad_norm": 1.7185527086257935, "learning_rate": 1.4282342855316364e-05, "loss": 0.4692, "step": 3809 }, { "epoch": 1.27, "grad_norm": 1.7833210229873657, "learning_rate": 1.4278837649416543e-05, "loss": 0.4587, "step": 3810 }, { "epoch": 1.2703333333333333, "grad_norm": 1.9455443620681763, "learning_rate": 1.4275331799858223e-05, "loss": 0.4213, "step": 3811 }, { "epoch": 1.2706666666666666, "grad_norm": 1.8856741189956665, "learning_rate": 1.4271825307168778e-05, "loss": 0.4504, "step": 3812 }, { "epoch": 1.271, "grad_norm": 2.222961664199829, "learning_rate": 1.4268318171875683e-05, "loss": 0.4749, "step": 3813 }, { "epoch": 1.2713333333333332, "grad_norm": 1.9084389209747314, "learning_rate": 1.4264810394506517e-05, "loss": 0.4078, "step": 3814 }, { "epoch": 1.2716666666666667, "grad_norm": 1.9359400272369385, "learning_rate": 1.4261301975588941e-05, "loss": 0.4019, "step": 3815 }, { "epoch": 1.272, "grad_norm": 2.613342523574829, "learning_rate": 1.4257792915650728e-05, "loss": 0.4112, "step": 3816 }, { "epoch": 1.2723333333333333, "grad_norm": 2.2260000705718994, "learning_rate": 1.4254283215219735e-05, "loss": 0.448, "step": 3817 }, { "epoch": 1.2726666666666666, "grad_norm": 1.850510835647583, "learning_rate": 1.4250772874823923e-05, "loss": 0.4727, "step": 3818 }, { "epoch": 1.2730000000000001, "grad_norm": 2.059331178665161, "learning_rate": 1.4247261894991344e-05, "loss": 0.4163, "step": 3819 }, { "epoch": 1.2733333333333334, "grad_norm": 2.4013171195983887, "learning_rate": 1.4243750276250154e-05, "loss": 0.4586, "step": 3820 }, { "epoch": 1.2736666666666667, "grad_norm": 2.02060604095459, "learning_rate": 1.4240238019128598e-05, "loss": 0.4399, "step": 3821 }, { "epoch": 1.274, "grad_norm": 1.9842334985733032, "learning_rate": 1.4236725124155015e-05, "loss": 0.4187, "step": 3822 }, { "epoch": 1.2743333333333333, "grad_norm": 2.59712553024292, "learning_rate": 1.423321159185785e-05, "loss": 0.4777, "step": 3823 }, { "epoch": 1.2746666666666666, "grad_norm": 2.1868138313293457, "learning_rate": 1.4229697422765632e-05, "loss": 0.4387, "step": 3824 }, { "epoch": 1.275, "grad_norm": 2.2077836990356445, "learning_rate": 1.4226182617406996e-05, "loss": 0.408, "step": 3825 }, { "epoch": 1.2753333333333332, "grad_norm": 2.552806854248047, "learning_rate": 1.4222667176310667e-05, "loss": 0.4033, "step": 3826 }, { "epoch": 1.2756666666666667, "grad_norm": 1.8710808753967285, "learning_rate": 1.4219151100005465e-05, "loss": 0.4372, "step": 3827 }, { "epoch": 1.276, "grad_norm": 2.7542688846588135, "learning_rate": 1.4215634389020314e-05, "loss": 0.4153, "step": 3828 }, { "epoch": 1.2763333333333333, "grad_norm": 2.0057907104492188, "learning_rate": 1.4212117043884218e-05, "loss": 0.4314, "step": 3829 }, { "epoch": 1.2766666666666666, "grad_norm": 2.019566297531128, "learning_rate": 1.4208599065126292e-05, "loss": 0.4191, "step": 3830 }, { "epoch": 1.2770000000000001, "grad_norm": 2.6800389289855957, "learning_rate": 1.4205080453275739e-05, "loss": 0.4572, "step": 3831 }, { "epoch": 1.2773333333333334, "grad_norm": 2.2012057304382324, "learning_rate": 1.4201561208861856e-05, "loss": 0.4611, "step": 3832 }, { "epoch": 1.2776666666666667, "grad_norm": 1.5985770225524902, "learning_rate": 1.4198041332414037e-05, "loss": 0.3633, "step": 3833 }, { "epoch": 1.278, "grad_norm": 1.667069673538208, "learning_rate": 1.4194520824461773e-05, "loss": 0.3945, "step": 3834 }, { "epoch": 1.2783333333333333, "grad_norm": 1.8017868995666504, "learning_rate": 1.4190999685534648e-05, "loss": 0.3963, "step": 3835 }, { "epoch": 1.2786666666666666, "grad_norm": 3.2264957427978516, "learning_rate": 1.4187477916162338e-05, "loss": 0.4812, "step": 3836 }, { "epoch": 1.279, "grad_norm": 2.2261836528778076, "learning_rate": 1.4183955516874624e-05, "loss": 0.4109, "step": 3837 }, { "epoch": 1.2793333333333332, "grad_norm": 2.4000113010406494, "learning_rate": 1.4180432488201366e-05, "loss": 0.4262, "step": 3838 }, { "epoch": 1.2796666666666667, "grad_norm": 2.088527202606201, "learning_rate": 1.4176908830672531e-05, "loss": 0.4203, "step": 3839 }, { "epoch": 1.28, "grad_norm": 1.9089995622634888, "learning_rate": 1.417338454481818e-05, "loss": 0.4334, "step": 3840 }, { "epoch": 1.2803333333333333, "grad_norm": 1.7367889881134033, "learning_rate": 1.4169859631168463e-05, "loss": 0.3796, "step": 3841 }, { "epoch": 1.2806666666666666, "grad_norm": 2.057239055633545, "learning_rate": 1.4166334090253629e-05, "loss": 0.4777, "step": 3842 }, { "epoch": 1.2810000000000001, "grad_norm": 1.763196349143982, "learning_rate": 1.4162807922604014e-05, "loss": 0.483, "step": 3843 }, { "epoch": 1.2813333333333334, "grad_norm": 1.690468192100525, "learning_rate": 1.4159281128750058e-05, "loss": 0.4492, "step": 3844 }, { "epoch": 1.2816666666666667, "grad_norm": 2.3677978515625, "learning_rate": 1.415575370922229e-05, "loss": 0.4389, "step": 3845 }, { "epoch": 1.282, "grad_norm": 2.5341272354125977, "learning_rate": 1.4152225664551333e-05, "loss": 0.4081, "step": 3846 }, { "epoch": 1.2823333333333333, "grad_norm": 2.5529325008392334, "learning_rate": 1.4148696995267905e-05, "loss": 0.4393, "step": 3847 }, { "epoch": 1.2826666666666666, "grad_norm": 2.427572727203369, "learning_rate": 1.4145167701902823e-05, "loss": 0.4527, "step": 3848 }, { "epoch": 1.283, "grad_norm": 1.8842095136642456, "learning_rate": 1.4141637784986984e-05, "loss": 0.4828, "step": 3849 }, { "epoch": 1.2833333333333332, "grad_norm": 2.1474106311798096, "learning_rate": 1.4138107245051394e-05, "loss": 0.4527, "step": 3850 }, { "epoch": 1.2836666666666667, "grad_norm": 1.6460667848587036, "learning_rate": 1.4134576082627142e-05, "loss": 0.4452, "step": 3851 }, { "epoch": 1.284, "grad_norm": 1.762737512588501, "learning_rate": 1.413104429824542e-05, "loss": 0.4203, "step": 3852 }, { "epoch": 1.2843333333333333, "grad_norm": 1.8844592571258545, "learning_rate": 1.4127511892437505e-05, "loss": 0.4617, "step": 3853 }, { "epoch": 1.2846666666666666, "grad_norm": 1.7990268468856812, "learning_rate": 1.412397886573477e-05, "loss": 0.4473, "step": 3854 }, { "epoch": 1.285, "grad_norm": 1.769297480583191, "learning_rate": 1.4120445218668687e-05, "loss": 0.4745, "step": 3855 }, { "epoch": 1.2853333333333334, "grad_norm": 1.89057195186615, "learning_rate": 1.411691095177081e-05, "loss": 0.4393, "step": 3856 }, { "epoch": 1.2856666666666667, "grad_norm": 2.6213717460632324, "learning_rate": 1.4113376065572797e-05, "loss": 0.4419, "step": 3857 }, { "epoch": 1.286, "grad_norm": 1.8652480840682983, "learning_rate": 1.4109840560606397e-05, "loss": 0.4296, "step": 3858 }, { "epoch": 1.2863333333333333, "grad_norm": 2.3344783782958984, "learning_rate": 1.4106304437403448e-05, "loss": 0.4011, "step": 3859 }, { "epoch": 1.2866666666666666, "grad_norm": 2.189352035522461, "learning_rate": 1.4102767696495885e-05, "loss": 0.4216, "step": 3860 }, { "epoch": 1.287, "grad_norm": 2.0701918601989746, "learning_rate": 1.4099230338415728e-05, "loss": 0.4523, "step": 3861 }, { "epoch": 1.2873333333333332, "grad_norm": 2.7328271865844727, "learning_rate": 1.4095692363695103e-05, "loss": 0.4459, "step": 3862 }, { "epoch": 1.2876666666666667, "grad_norm": 1.9816937446594238, "learning_rate": 1.4092153772866219e-05, "loss": 0.441, "step": 3863 }, { "epoch": 1.288, "grad_norm": 1.8788831233978271, "learning_rate": 1.408861456646138e-05, "loss": 0.3783, "step": 3864 }, { "epoch": 1.2883333333333333, "grad_norm": 2.2342309951782227, "learning_rate": 1.4085074745012986e-05, "loss": 0.4195, "step": 3865 }, { "epoch": 1.2886666666666666, "grad_norm": 2.37644624710083, "learning_rate": 1.408153430905352e-05, "loss": 0.4334, "step": 3866 }, { "epoch": 1.289, "grad_norm": 2.443526029586792, "learning_rate": 1.4077993259115568e-05, "loss": 0.4729, "step": 3867 }, { "epoch": 1.2893333333333334, "grad_norm": 2.5603549480438232, "learning_rate": 1.4074451595731804e-05, "loss": 0.4689, "step": 3868 }, { "epoch": 1.2896666666666667, "grad_norm": 2.3168020248413086, "learning_rate": 1.4070909319435e-05, "loss": 0.4323, "step": 3869 }, { "epoch": 1.29, "grad_norm": 1.8669002056121826, "learning_rate": 1.4067366430758004e-05, "loss": 0.3958, "step": 3870 }, { "epoch": 1.2903333333333333, "grad_norm": 1.860651969909668, "learning_rate": 1.4063822930233774e-05, "loss": 0.4346, "step": 3871 }, { "epoch": 1.2906666666666666, "grad_norm": 2.0116753578186035, "learning_rate": 1.4060278818395353e-05, "loss": 0.414, "step": 3872 }, { "epoch": 1.291, "grad_norm": 2.3815793991088867, "learning_rate": 1.405673409577587e-05, "loss": 0.4166, "step": 3873 }, { "epoch": 1.2913333333333332, "grad_norm": 2.8447275161743164, "learning_rate": 1.4053188762908562e-05, "loss": 0.4647, "step": 3874 }, { "epoch": 1.2916666666666667, "grad_norm": 1.76083505153656, "learning_rate": 1.4049642820326737e-05, "loss": 0.418, "step": 3875 }, { "epoch": 1.292, "grad_norm": 2.4110946655273438, "learning_rate": 1.4046096268563814e-05, "loss": 0.4665, "step": 3876 }, { "epoch": 1.2923333333333333, "grad_norm": 1.9770140647888184, "learning_rate": 1.4042549108153287e-05, "loss": 0.4308, "step": 3877 }, { "epoch": 1.2926666666666666, "grad_norm": 2.2591552734375, "learning_rate": 1.4039001339628756e-05, "loss": 0.4454, "step": 3878 }, { "epoch": 1.293, "grad_norm": 2.4257235527038574, "learning_rate": 1.4035452963523903e-05, "loss": 0.448, "step": 3879 }, { "epoch": 1.2933333333333334, "grad_norm": 1.9306738376617432, "learning_rate": 1.4031903980372503e-05, "loss": 0.4062, "step": 3880 }, { "epoch": 1.2936666666666667, "grad_norm": 2.230847120285034, "learning_rate": 1.4028354390708428e-05, "loss": 0.4348, "step": 3881 }, { "epoch": 1.294, "grad_norm": 2.2440335750579834, "learning_rate": 1.402480419506563e-05, "loss": 0.4197, "step": 3882 }, { "epoch": 1.2943333333333333, "grad_norm": 2.30576229095459, "learning_rate": 1.4021253393978172e-05, "loss": 0.4694, "step": 3883 }, { "epoch": 1.2946666666666666, "grad_norm": 3.3298230171203613, "learning_rate": 1.401770198798018e-05, "loss": 0.4089, "step": 3884 }, { "epoch": 1.295, "grad_norm": 1.8062715530395508, "learning_rate": 1.4014149977605893e-05, "loss": 0.4329, "step": 3885 }, { "epoch": 1.2953333333333332, "grad_norm": 1.7653950452804565, "learning_rate": 1.4010597363389638e-05, "loss": 0.4301, "step": 3886 }, { "epoch": 1.2956666666666667, "grad_norm": 2.509382963180542, "learning_rate": 1.4007044145865818e-05, "loss": 0.4362, "step": 3887 }, { "epoch": 1.296, "grad_norm": 2.3179454803466797, "learning_rate": 1.4003490325568953e-05, "loss": 0.3615, "step": 3888 }, { "epoch": 1.2963333333333333, "grad_norm": 3.301262855529785, "learning_rate": 1.3999935903033623e-05, "loss": 0.426, "step": 3889 }, { "epoch": 1.2966666666666666, "grad_norm": 2.486290693283081, "learning_rate": 1.3996380878794524e-05, "loss": 0.4407, "step": 3890 }, { "epoch": 1.297, "grad_norm": 2.979915142059326, "learning_rate": 1.3992825253386428e-05, "loss": 0.4164, "step": 3891 }, { "epoch": 1.2973333333333334, "grad_norm": 5.621781349182129, "learning_rate": 1.3989269027344204e-05, "loss": 0.4409, "step": 3892 }, { "epoch": 1.2976666666666667, "grad_norm": 2.3673198223114014, "learning_rate": 1.3985712201202807e-05, "loss": 0.4438, "step": 3893 }, { "epoch": 1.298, "grad_norm": 2.3322348594665527, "learning_rate": 1.3982154775497287e-05, "loss": 0.4605, "step": 3894 }, { "epoch": 1.2983333333333333, "grad_norm": 2.2701752185821533, "learning_rate": 1.397859675076278e-05, "loss": 0.4688, "step": 3895 }, { "epoch": 1.2986666666666666, "grad_norm": 2.3688042163848877, "learning_rate": 1.3975038127534513e-05, "loss": 0.4292, "step": 3896 }, { "epoch": 1.299, "grad_norm": 1.6792250871658325, "learning_rate": 1.3971478906347806e-05, "loss": 0.4275, "step": 3897 }, { "epoch": 1.2993333333333332, "grad_norm": 2.5477895736694336, "learning_rate": 1.3967919087738069e-05, "loss": 0.455, "step": 3898 }, { "epoch": 1.2996666666666667, "grad_norm": 2.6776492595672607, "learning_rate": 1.3964358672240792e-05, "loss": 0.49, "step": 3899 }, { "epoch": 1.3, "grad_norm": 2.659306526184082, "learning_rate": 1.396079766039157e-05, "loss": 0.4762, "step": 3900 }, { "epoch": 1.3003333333333333, "grad_norm": 1.637818455696106, "learning_rate": 1.3957236052726076e-05, "loss": 0.3946, "step": 3901 }, { "epoch": 1.3006666666666666, "grad_norm": 1.7061941623687744, "learning_rate": 1.3953673849780076e-05, "loss": 0.4266, "step": 3902 }, { "epoch": 1.301, "grad_norm": 2.1800761222839355, "learning_rate": 1.3950111052089432e-05, "loss": 0.4469, "step": 3903 }, { "epoch": 1.3013333333333335, "grad_norm": 2.2532284259796143, "learning_rate": 1.3946547660190084e-05, "loss": 0.4258, "step": 3904 }, { "epoch": 1.3016666666666667, "grad_norm": 2.057459831237793, "learning_rate": 1.394298367461807e-05, "loss": 0.4321, "step": 3905 }, { "epoch": 1.302, "grad_norm": 3.3158071041107178, "learning_rate": 1.3939419095909513e-05, "loss": 0.4246, "step": 3906 }, { "epoch": 1.3023333333333333, "grad_norm": 2.573613405227661, "learning_rate": 1.393585392460063e-05, "loss": 0.4796, "step": 3907 }, { "epoch": 1.3026666666666666, "grad_norm": 2.609769821166992, "learning_rate": 1.3932288161227716e-05, "loss": 0.4412, "step": 3908 }, { "epoch": 1.303, "grad_norm": 1.8374089002609253, "learning_rate": 1.3928721806327173e-05, "loss": 0.4386, "step": 3909 }, { "epoch": 1.3033333333333332, "grad_norm": 1.8651577234268188, "learning_rate": 1.3925154860435473e-05, "loss": 0.4484, "step": 3910 }, { "epoch": 1.3036666666666665, "grad_norm": 2.0108301639556885, "learning_rate": 1.3921587324089192e-05, "loss": 0.4472, "step": 3911 }, { "epoch": 1.304, "grad_norm": 3.328984498977661, "learning_rate": 1.3918019197824985e-05, "loss": 0.4238, "step": 3912 }, { "epoch": 1.3043333333333333, "grad_norm": 2.010154962539673, "learning_rate": 1.3914450482179604e-05, "loss": 0.4454, "step": 3913 }, { "epoch": 1.3046666666666666, "grad_norm": 1.510329246520996, "learning_rate": 1.3910881177689881e-05, "loss": 0.4365, "step": 3914 }, { "epoch": 1.305, "grad_norm": 2.483088970184326, "learning_rate": 1.3907311284892737e-05, "loss": 0.4964, "step": 3915 }, { "epoch": 1.3053333333333335, "grad_norm": 2.1171786785125732, "learning_rate": 1.3903740804325193e-05, "loss": 0.4298, "step": 3916 }, { "epoch": 1.3056666666666668, "grad_norm": 1.876490592956543, "learning_rate": 1.390016973652435e-05, "loss": 0.4198, "step": 3917 }, { "epoch": 1.306, "grad_norm": 2.49251127243042, "learning_rate": 1.389659808202739e-05, "loss": 0.4063, "step": 3918 }, { "epoch": 1.3063333333333333, "grad_norm": 1.993699550628662, "learning_rate": 1.3893025841371598e-05, "loss": 0.436, "step": 3919 }, { "epoch": 1.3066666666666666, "grad_norm": 1.821175217628479, "learning_rate": 1.3889453015094338e-05, "loss": 0.454, "step": 3920 }, { "epoch": 1.307, "grad_norm": 1.9825352430343628, "learning_rate": 1.3885879603733066e-05, "loss": 0.4425, "step": 3921 }, { "epoch": 1.3073333333333332, "grad_norm": 1.9222930669784546, "learning_rate": 1.3882305607825323e-05, "loss": 0.4113, "step": 3922 }, { "epoch": 1.3076666666666665, "grad_norm": 2.0950427055358887, "learning_rate": 1.3878731027908739e-05, "loss": 0.4127, "step": 3923 }, { "epoch": 1.308, "grad_norm": 2.1269540786743164, "learning_rate": 1.3875155864521031e-05, "loss": 0.4632, "step": 3924 }, { "epoch": 1.3083333333333333, "grad_norm": 3.1901931762695312, "learning_rate": 1.3871580118200007e-05, "loss": 0.4896, "step": 3925 }, { "epoch": 1.3086666666666666, "grad_norm": 1.9883273839950562, "learning_rate": 1.3868003789483562e-05, "loss": 0.441, "step": 3926 }, { "epoch": 1.309, "grad_norm": 2.366713047027588, "learning_rate": 1.3864426878909674e-05, "loss": 0.4813, "step": 3927 }, { "epoch": 1.3093333333333335, "grad_norm": 2.0402112007141113, "learning_rate": 1.3860849387016413e-05, "loss": 0.4508, "step": 3928 }, { "epoch": 1.3096666666666668, "grad_norm": 2.3578085899353027, "learning_rate": 1.3857271314341934e-05, "loss": 0.4336, "step": 3929 }, { "epoch": 1.31, "grad_norm": 2.729173421859741, "learning_rate": 1.3853692661424485e-05, "loss": 0.4755, "step": 3930 }, { "epoch": 1.3103333333333333, "grad_norm": 2.8200149536132812, "learning_rate": 1.3850113428802392e-05, "loss": 0.4583, "step": 3931 }, { "epoch": 1.3106666666666666, "grad_norm": 1.582682728767395, "learning_rate": 1.3846533617014075e-05, "loss": 0.4702, "step": 3932 }, { "epoch": 1.311, "grad_norm": 2.310777187347412, "learning_rate": 1.3842953226598036e-05, "loss": 0.4754, "step": 3933 }, { "epoch": 1.3113333333333332, "grad_norm": 1.894606590270996, "learning_rate": 1.3839372258092875e-05, "loss": 0.4218, "step": 3934 }, { "epoch": 1.3116666666666665, "grad_norm": 1.6717088222503662, "learning_rate": 1.3835790712037268e-05, "loss": 0.4088, "step": 3935 }, { "epoch": 1.312, "grad_norm": 1.9346680641174316, "learning_rate": 1.3832208588969975e-05, "loss": 0.3953, "step": 3936 }, { "epoch": 1.3123333333333334, "grad_norm": 2.138970375061035, "learning_rate": 1.3828625889429853e-05, "loss": 0.468, "step": 3937 }, { "epoch": 1.3126666666666666, "grad_norm": 2.3609519004821777, "learning_rate": 1.3825042613955844e-05, "loss": 0.4533, "step": 3938 }, { "epoch": 1.313, "grad_norm": 2.0723700523376465, "learning_rate": 1.3821458763086973e-05, "loss": 0.4298, "step": 3939 }, { "epoch": 1.3133333333333335, "grad_norm": 1.5863920450210571, "learning_rate": 1.3817874337362351e-05, "loss": 0.4119, "step": 3940 }, { "epoch": 1.3136666666666668, "grad_norm": 1.9540965557098389, "learning_rate": 1.381428933732118e-05, "loss": 0.3774, "step": 3941 }, { "epoch": 1.314, "grad_norm": 2.6945340633392334, "learning_rate": 1.3810703763502744e-05, "loss": 0.4333, "step": 3942 }, { "epoch": 1.3143333333333334, "grad_norm": 2.0361671447753906, "learning_rate": 1.380711761644641e-05, "loss": 0.3587, "step": 3943 }, { "epoch": 1.3146666666666667, "grad_norm": 1.996535301208496, "learning_rate": 1.3803530896691646e-05, "loss": 0.4199, "step": 3944 }, { "epoch": 1.315, "grad_norm": 2.048079252243042, "learning_rate": 1.3799943604777993e-05, "loss": 0.466, "step": 3945 }, { "epoch": 1.3153333333333332, "grad_norm": 1.9949936866760254, "learning_rate": 1.3796355741245075e-05, "loss": 0.4291, "step": 3946 }, { "epoch": 1.3156666666666665, "grad_norm": 2.615034580230713, "learning_rate": 1.3792767306632614e-05, "loss": 0.4466, "step": 3947 }, { "epoch": 1.316, "grad_norm": 1.944091796875, "learning_rate": 1.3789178301480415e-05, "loss": 0.4344, "step": 3948 }, { "epoch": 1.3163333333333334, "grad_norm": 2.2792017459869385, "learning_rate": 1.378558872632836e-05, "loss": 0.4203, "step": 3949 }, { "epoch": 1.3166666666666667, "grad_norm": 1.9865614175796509, "learning_rate": 1.3781998581716427e-05, "loss": 0.4539, "step": 3950 }, { "epoch": 1.317, "grad_norm": 1.8545788526535034, "learning_rate": 1.3778407868184674e-05, "loss": 0.41, "step": 3951 }, { "epoch": 1.3173333333333335, "grad_norm": 2.581266164779663, "learning_rate": 1.3774816586273242e-05, "loss": 0.4664, "step": 3952 }, { "epoch": 1.3176666666666668, "grad_norm": 1.9974572658538818, "learning_rate": 1.3771224736522373e-05, "loss": 0.4182, "step": 3953 }, { "epoch": 1.318, "grad_norm": 2.1703925132751465, "learning_rate": 1.3767632319472373e-05, "loss": 0.4103, "step": 3954 }, { "epoch": 1.3183333333333334, "grad_norm": 1.9623632431030273, "learning_rate": 1.3764039335663645e-05, "loss": 0.4347, "step": 3955 }, { "epoch": 1.3186666666666667, "grad_norm": 2.0908491611480713, "learning_rate": 1.376044578563668e-05, "loss": 0.4173, "step": 3956 }, { "epoch": 1.319, "grad_norm": 1.7560179233551025, "learning_rate": 1.375685166993204e-05, "loss": 0.4351, "step": 3957 }, { "epoch": 1.3193333333333332, "grad_norm": 2.081408739089966, "learning_rate": 1.3753256989090395e-05, "loss": 0.3968, "step": 3958 }, { "epoch": 1.3196666666666665, "grad_norm": 2.605381488800049, "learning_rate": 1.3749661743652481e-05, "loss": 0.4664, "step": 3959 }, { "epoch": 1.32, "grad_norm": 2.344468355178833, "learning_rate": 1.3746065934159123e-05, "loss": 0.4534, "step": 3960 }, { "epoch": 1.3203333333333334, "grad_norm": 1.8966875076293945, "learning_rate": 1.3742469561151233e-05, "loss": 0.3893, "step": 3961 }, { "epoch": 1.3206666666666667, "grad_norm": 2.3010032176971436, "learning_rate": 1.373887262516981e-05, "loss": 0.4054, "step": 3962 }, { "epoch": 1.321, "grad_norm": 1.9095978736877441, "learning_rate": 1.3735275126755933e-05, "loss": 0.4264, "step": 3963 }, { "epoch": 1.3213333333333335, "grad_norm": 2.6384048461914062, "learning_rate": 1.3731677066450768e-05, "loss": 0.476, "step": 3964 }, { "epoch": 1.3216666666666668, "grad_norm": 2.4218668937683105, "learning_rate": 1.3728078444795567e-05, "loss": 0.4653, "step": 3965 }, { "epoch": 1.322, "grad_norm": 2.1581859588623047, "learning_rate": 1.3724479262331662e-05, "loss": 0.4364, "step": 3966 }, { "epoch": 1.3223333333333334, "grad_norm": 2.1681487560272217, "learning_rate": 1.3720879519600476e-05, "loss": 0.4608, "step": 3967 }, { "epoch": 1.3226666666666667, "grad_norm": 1.9387850761413574, "learning_rate": 1.3717279217143507e-05, "loss": 0.4296, "step": 3968 }, { "epoch": 1.323, "grad_norm": 2.3060219287872314, "learning_rate": 1.371367835550235e-05, "loss": 0.4632, "step": 3969 }, { "epoch": 1.3233333333333333, "grad_norm": 2.554258108139038, "learning_rate": 1.3710076935218671e-05, "loss": 0.4409, "step": 3970 }, { "epoch": 1.3236666666666665, "grad_norm": 2.3191514015197754, "learning_rate": 1.3706474956834223e-05, "loss": 0.4719, "step": 3971 }, { "epoch": 1.324, "grad_norm": 2.6418685913085938, "learning_rate": 1.3702872420890853e-05, "loss": 0.4409, "step": 3972 }, { "epoch": 1.3243333333333334, "grad_norm": 2.252352476119995, "learning_rate": 1.3699269327930482e-05, "loss": 0.4731, "step": 3973 }, { "epoch": 1.3246666666666667, "grad_norm": 1.9029724597930908, "learning_rate": 1.3695665678495118e-05, "loss": 0.4076, "step": 3974 }, { "epoch": 1.325, "grad_norm": 2.122746229171753, "learning_rate": 1.3692061473126845e-05, "loss": 0.4438, "step": 3975 }, { "epoch": 1.3253333333333333, "grad_norm": 1.6303867101669312, "learning_rate": 1.3688456712367849e-05, "loss": 0.431, "step": 3976 }, { "epoch": 1.3256666666666668, "grad_norm": 2.621004581451416, "learning_rate": 1.368485139676038e-05, "loss": 0.4692, "step": 3977 }, { "epoch": 1.326, "grad_norm": 2.8015294075012207, "learning_rate": 1.3681245526846782e-05, "loss": 0.4765, "step": 3978 }, { "epoch": 1.3263333333333334, "grad_norm": 2.100907564163208, "learning_rate": 1.3677639103169481e-05, "loss": 0.383, "step": 3979 }, { "epoch": 1.3266666666666667, "grad_norm": 2.210078239440918, "learning_rate": 1.3674032126270982e-05, "loss": 0.4369, "step": 3980 }, { "epoch": 1.327, "grad_norm": 2.7388663291931152, "learning_rate": 1.3670424596693884e-05, "loss": 0.476, "step": 3981 }, { "epoch": 1.3273333333333333, "grad_norm": 2.4581503868103027, "learning_rate": 1.3666816514980851e-05, "loss": 0.4504, "step": 3982 }, { "epoch": 1.3276666666666666, "grad_norm": 1.6715757846832275, "learning_rate": 1.3663207881674654e-05, "loss": 0.4126, "step": 3983 }, { "epoch": 1.328, "grad_norm": 2.534447431564331, "learning_rate": 1.3659598697318122e-05, "loss": 0.4412, "step": 3984 }, { "epoch": 1.3283333333333334, "grad_norm": 2.783086061477661, "learning_rate": 1.3655988962454185e-05, "loss": 0.4479, "step": 3985 }, { "epoch": 1.3286666666666667, "grad_norm": 2.2931196689605713, "learning_rate": 1.3652378677625848e-05, "loss": 0.4313, "step": 3986 }, { "epoch": 1.329, "grad_norm": 2.2050864696502686, "learning_rate": 1.3648767843376196e-05, "loss": 0.4291, "step": 3987 }, { "epoch": 1.3293333333333333, "grad_norm": 2.4459211826324463, "learning_rate": 1.3645156460248412e-05, "loss": 0.4084, "step": 3988 }, { "epoch": 1.3296666666666668, "grad_norm": 2.337657928466797, "learning_rate": 1.3641544528785737e-05, "loss": 0.435, "step": 3989 }, { "epoch": 1.33, "grad_norm": 2.822838544845581, "learning_rate": 1.3637932049531517e-05, "loss": 0.4481, "step": 3990 }, { "epoch": 1.3303333333333334, "grad_norm": 2.094388723373413, "learning_rate": 1.3634319023029165e-05, "loss": 0.4431, "step": 3991 }, { "epoch": 1.3306666666666667, "grad_norm": 1.9054129123687744, "learning_rate": 1.363070544982219e-05, "loss": 0.4223, "step": 3992 }, { "epoch": 1.331, "grad_norm": 2.392293691635132, "learning_rate": 1.3627091330454172e-05, "loss": 0.3997, "step": 3993 }, { "epoch": 1.3313333333333333, "grad_norm": 4.334693431854248, "learning_rate": 1.3623476665468776e-05, "loss": 0.4595, "step": 3994 }, { "epoch": 1.3316666666666666, "grad_norm": 2.3672924041748047, "learning_rate": 1.3619861455409749e-05, "loss": 0.4361, "step": 3995 }, { "epoch": 1.332, "grad_norm": 2.1929023265838623, "learning_rate": 1.3616245700820922e-05, "loss": 0.444, "step": 3996 }, { "epoch": 1.3323333333333334, "grad_norm": 2.0475411415100098, "learning_rate": 1.3612629402246214e-05, "loss": 0.4495, "step": 3997 }, { "epoch": 1.3326666666666667, "grad_norm": 2.8409597873687744, "learning_rate": 1.3609012560229608e-05, "loss": 0.4374, "step": 3998 }, { "epoch": 1.333, "grad_norm": 2.443429708480835, "learning_rate": 1.3605395175315188e-05, "loss": 0.4863, "step": 3999 }, { "epoch": 1.3333333333333333, "grad_norm": 1.7742435932159424, "learning_rate": 1.3601777248047105e-05, "loss": 0.4328, "step": 4000 }, { "epoch": 1.3336666666666668, "grad_norm": 1.702661395072937, "learning_rate": 1.3598158778969601e-05, "loss": 0.4189, "step": 4001 }, { "epoch": 1.334, "grad_norm": 2.2591307163238525, "learning_rate": 1.3594539768627e-05, "loss": 0.3877, "step": 4002 }, { "epoch": 1.3343333333333334, "grad_norm": 1.902758240699768, "learning_rate": 1.3590920217563694e-05, "loss": 0.4238, "step": 4003 }, { "epoch": 1.3346666666666667, "grad_norm": 2.1042938232421875, "learning_rate": 1.3587300126324174e-05, "loss": 0.4262, "step": 4004 }, { "epoch": 1.335, "grad_norm": 2.1026954650878906, "learning_rate": 1.3583679495453e-05, "loss": 0.4416, "step": 4005 }, { "epoch": 1.3353333333333333, "grad_norm": 2.8349192142486572, "learning_rate": 1.3580058325494827e-05, "loss": 0.426, "step": 4006 }, { "epoch": 1.3356666666666666, "grad_norm": 2.361039161682129, "learning_rate": 1.357643661699437e-05, "loss": 0.5, "step": 4007 }, { "epoch": 1.336, "grad_norm": 2.016700267791748, "learning_rate": 1.3572814370496441e-05, "loss": 0.481, "step": 4008 }, { "epoch": 1.3363333333333334, "grad_norm": 2.376772880554199, "learning_rate": 1.3569191586545929e-05, "loss": 0.3918, "step": 4009 }, { "epoch": 1.3366666666666667, "grad_norm": 1.8212547302246094, "learning_rate": 1.3565568265687802e-05, "loss": 0.4561, "step": 4010 }, { "epoch": 1.337, "grad_norm": 2.3287558555603027, "learning_rate": 1.3561944408467112e-05, "loss": 0.4175, "step": 4011 }, { "epoch": 1.3373333333333333, "grad_norm": 1.9734416007995605, "learning_rate": 1.355832001542899e-05, "loss": 0.4474, "step": 4012 }, { "epoch": 1.3376666666666668, "grad_norm": 1.76744544506073, "learning_rate": 1.3554695087118645e-05, "loss": 0.4147, "step": 4013 }, { "epoch": 1.338, "grad_norm": 1.6875869035720825, "learning_rate": 1.3551069624081372e-05, "loss": 0.4466, "step": 4014 }, { "epoch": 1.3383333333333334, "grad_norm": 2.1589372158050537, "learning_rate": 1.3547443626862543e-05, "loss": 0.411, "step": 4015 }, { "epoch": 1.3386666666666667, "grad_norm": 1.937870979309082, "learning_rate": 1.3543817096007606e-05, "loss": 0.4442, "step": 4016 }, { "epoch": 1.339, "grad_norm": 2.0803287029266357, "learning_rate": 1.3540190032062102e-05, "loss": 0.4351, "step": 4017 }, { "epoch": 1.3393333333333333, "grad_norm": 2.267624855041504, "learning_rate": 1.353656243557164e-05, "loss": 0.448, "step": 4018 }, { "epoch": 1.3396666666666666, "grad_norm": 2.0480880737304688, "learning_rate": 1.3532934307081909e-05, "loss": 0.4488, "step": 4019 }, { "epoch": 1.34, "grad_norm": 2.113337993621826, "learning_rate": 1.3529305647138689e-05, "loss": 0.4319, "step": 4020 }, { "epoch": 1.3403333333333334, "grad_norm": 2.0944416522979736, "learning_rate": 1.3525676456287832e-05, "loss": 0.4267, "step": 4021 }, { "epoch": 1.3406666666666667, "grad_norm": 1.8629188537597656, "learning_rate": 1.352204673507527e-05, "loss": 0.4039, "step": 4022 }, { "epoch": 1.341, "grad_norm": 2.479680061340332, "learning_rate": 1.3518416484047018e-05, "loss": 0.452, "step": 4023 }, { "epoch": 1.3413333333333333, "grad_norm": 2.065948247909546, "learning_rate": 1.3514785703749168e-05, "loss": 0.4229, "step": 4024 }, { "epoch": 1.3416666666666668, "grad_norm": 2.6506478786468506, "learning_rate": 1.351115439472789e-05, "loss": 0.4271, "step": 4025 }, { "epoch": 1.342, "grad_norm": 1.9128103256225586, "learning_rate": 1.3507522557529438e-05, "loss": 0.4512, "step": 4026 }, { "epoch": 1.3423333333333334, "grad_norm": 2.1317713260650635, "learning_rate": 1.350389019270014e-05, "loss": 0.4025, "step": 4027 }, { "epoch": 1.3426666666666667, "grad_norm": 1.7793078422546387, "learning_rate": 1.3500257300786413e-05, "loss": 0.4345, "step": 4028 }, { "epoch": 1.343, "grad_norm": 2.120425224304199, "learning_rate": 1.3496623882334738e-05, "loss": 0.4333, "step": 4029 }, { "epoch": 1.3433333333333333, "grad_norm": 1.9276654720306396, "learning_rate": 1.3492989937891694e-05, "loss": 0.4117, "step": 4030 }, { "epoch": 1.3436666666666666, "grad_norm": 1.9633657932281494, "learning_rate": 1.3489355468003922e-05, "loss": 0.4062, "step": 4031 }, { "epoch": 1.3439999999999999, "grad_norm": 3.2184343338012695, "learning_rate": 1.3485720473218153e-05, "loss": 0.446, "step": 4032 }, { "epoch": 1.3443333333333334, "grad_norm": 2.2902567386627197, "learning_rate": 1.3482084954081192e-05, "loss": 0.4237, "step": 4033 }, { "epoch": 1.3446666666666667, "grad_norm": 1.9041099548339844, "learning_rate": 1.3478448911139925e-05, "loss": 0.4377, "step": 4034 }, { "epoch": 1.345, "grad_norm": 1.7595800161361694, "learning_rate": 1.3474812344941315e-05, "loss": 0.4172, "step": 4035 }, { "epoch": 1.3453333333333333, "grad_norm": 2.618051767349243, "learning_rate": 1.3471175256032406e-05, "loss": 0.4008, "step": 4036 }, { "epoch": 1.3456666666666668, "grad_norm": 3.2696685791015625, "learning_rate": 1.3467537644960318e-05, "loss": 0.458, "step": 4037 }, { "epoch": 1.346, "grad_norm": 2.3814215660095215, "learning_rate": 1.3463899512272249e-05, "loss": 0.4407, "step": 4038 }, { "epoch": 1.3463333333333334, "grad_norm": 1.6441619396209717, "learning_rate": 1.346026085851548e-05, "loss": 0.392, "step": 4039 }, { "epoch": 1.3466666666666667, "grad_norm": 2.2195684909820557, "learning_rate": 1.3456621684237367e-05, "loss": 0.4201, "step": 4040 }, { "epoch": 1.347, "grad_norm": 1.8409740924835205, "learning_rate": 1.3452981989985347e-05, "loss": 0.421, "step": 4041 }, { "epoch": 1.3473333333333333, "grad_norm": 2.4080631732940674, "learning_rate": 1.3449341776306932e-05, "loss": 0.4391, "step": 4042 }, { "epoch": 1.3476666666666666, "grad_norm": 1.8833301067352295, "learning_rate": 1.3445701043749711e-05, "loss": 0.4254, "step": 4043 }, { "epoch": 1.3479999999999999, "grad_norm": 2.04375958442688, "learning_rate": 1.3442059792861356e-05, "loss": 0.3583, "step": 4044 }, { "epoch": 1.3483333333333334, "grad_norm": 2.0385453701019287, "learning_rate": 1.3438418024189612e-05, "loss": 0.4106, "step": 4045 }, { "epoch": 1.3486666666666667, "grad_norm": 1.8697539567947388, "learning_rate": 1.3434775738282306e-05, "loss": 0.4136, "step": 4046 }, { "epoch": 1.349, "grad_norm": 1.823530673980713, "learning_rate": 1.343113293568734e-05, "loss": 0.3985, "step": 4047 }, { "epoch": 1.3493333333333333, "grad_norm": 2.6098577976226807, "learning_rate": 1.3427489616952698e-05, "loss": 0.42, "step": 4048 }, { "epoch": 1.3496666666666668, "grad_norm": 1.889946460723877, "learning_rate": 1.3423845782626437e-05, "loss": 0.4476, "step": 4049 }, { "epoch": 1.35, "grad_norm": 1.818507432937622, "learning_rate": 1.342020143325669e-05, "loss": 0.4325, "step": 4050 }, { "epoch": 1.3503333333333334, "grad_norm": 3.684271812438965, "learning_rate": 1.3416556569391672e-05, "loss": 0.4425, "step": 4051 }, { "epoch": 1.3506666666666667, "grad_norm": 2.783240795135498, "learning_rate": 1.3412911191579674e-05, "loss": 0.4413, "step": 4052 }, { "epoch": 1.351, "grad_norm": 2.2634873390197754, "learning_rate": 1.3409265300369065e-05, "loss": 0.4194, "step": 4053 }, { "epoch": 1.3513333333333333, "grad_norm": 1.709645390510559, "learning_rate": 1.3405618896308293e-05, "loss": 0.418, "step": 4054 }, { "epoch": 1.3516666666666666, "grad_norm": 2.2111427783966064, "learning_rate": 1.3401971979945873e-05, "loss": 0.3958, "step": 4055 }, { "epoch": 1.3519999999999999, "grad_norm": 3.0629515647888184, "learning_rate": 1.3398324551830416e-05, "loss": 0.4207, "step": 4056 }, { "epoch": 1.3523333333333334, "grad_norm": 3.2368011474609375, "learning_rate": 1.3394676612510585e-05, "loss": 0.4467, "step": 4057 }, { "epoch": 1.3526666666666667, "grad_norm": 2.4952969551086426, "learning_rate": 1.3391028162535142e-05, "loss": 0.4291, "step": 4058 }, { "epoch": 1.353, "grad_norm": 2.5858802795410156, "learning_rate": 1.3387379202452917e-05, "loss": 0.4523, "step": 4059 }, { "epoch": 1.3533333333333333, "grad_norm": 2.0759928226470947, "learning_rate": 1.3383729732812814e-05, "loss": 0.4104, "step": 4060 }, { "epoch": 1.3536666666666668, "grad_norm": 2.779031753540039, "learning_rate": 1.3380079754163818e-05, "loss": 0.4573, "step": 4061 }, { "epoch": 1.354, "grad_norm": 1.8355473279953003, "learning_rate": 1.3376429267054991e-05, "loss": 0.4119, "step": 4062 }, { "epoch": 1.3543333333333334, "grad_norm": 1.897520661354065, "learning_rate": 1.337277827203547e-05, "loss": 0.437, "step": 4063 }, { "epoch": 1.3546666666666667, "grad_norm": 1.9011083841323853, "learning_rate": 1.3369126769654463e-05, "loss": 0.3918, "step": 4064 }, { "epoch": 1.355, "grad_norm": 2.0155396461486816, "learning_rate": 1.3365474760461265e-05, "loss": 0.4398, "step": 4065 }, { "epoch": 1.3553333333333333, "grad_norm": 2.71474027633667, "learning_rate": 1.336182224500524e-05, "loss": 0.4003, "step": 4066 }, { "epoch": 1.3556666666666666, "grad_norm": 2.02255916595459, "learning_rate": 1.3358169223835828e-05, "loss": 0.4092, "step": 4067 }, { "epoch": 1.3559999999999999, "grad_norm": 2.026224374771118, "learning_rate": 1.3354515697502552e-05, "loss": 0.4302, "step": 4068 }, { "epoch": 1.3563333333333334, "grad_norm": 2.362471103668213, "learning_rate": 1.3350861666555001e-05, "loss": 0.4068, "step": 4069 }, { "epoch": 1.3566666666666667, "grad_norm": 2.160334587097168, "learning_rate": 1.3347207131542847e-05, "loss": 0.4594, "step": 4070 }, { "epoch": 1.357, "grad_norm": 2.4565160274505615, "learning_rate": 1.3343552093015833e-05, "loss": 0.4293, "step": 4071 }, { "epoch": 1.3573333333333333, "grad_norm": 1.9360255002975464, "learning_rate": 1.3339896551523786e-05, "loss": 0.3647, "step": 4072 }, { "epoch": 1.3576666666666668, "grad_norm": 2.468860149383545, "learning_rate": 1.3336240507616595e-05, "loss": 0.4479, "step": 4073 }, { "epoch": 1.358, "grad_norm": 2.2277090549468994, "learning_rate": 1.3332583961844243e-05, "loss": 0.4431, "step": 4074 }, { "epoch": 1.3583333333333334, "grad_norm": 2.5251550674438477, "learning_rate": 1.3328926914756765e-05, "loss": 0.3654, "step": 4075 }, { "epoch": 1.3586666666666667, "grad_norm": 1.9905890226364136, "learning_rate": 1.33252693669043e-05, "loss": 0.4394, "step": 4076 }, { "epoch": 1.359, "grad_norm": 1.9066463708877563, "learning_rate": 1.3321611318837033e-05, "loss": 0.4336, "step": 4077 }, { "epoch": 1.3593333333333333, "grad_norm": 2.2011351585388184, "learning_rate": 1.331795277110525e-05, "loss": 0.4118, "step": 4078 }, { "epoch": 1.3596666666666666, "grad_norm": 2.324631690979004, "learning_rate": 1.331429372425929e-05, "loss": 0.4568, "step": 4079 }, { "epoch": 1.3599999999999999, "grad_norm": 1.7997889518737793, "learning_rate": 1.3310634178849583e-05, "loss": 0.4508, "step": 4080 }, { "epoch": 1.3603333333333334, "grad_norm": 1.8739527463912964, "learning_rate": 1.3306974135426626e-05, "loss": 0.4292, "step": 4081 }, { "epoch": 1.3606666666666667, "grad_norm": 1.735390305519104, "learning_rate": 1.3303313594540993e-05, "loss": 0.4148, "step": 4082 }, { "epoch": 1.361, "grad_norm": 2.544579029083252, "learning_rate": 1.3299652556743341e-05, "loss": 0.4449, "step": 4083 }, { "epoch": 1.3613333333333333, "grad_norm": 2.4624953269958496, "learning_rate": 1.3295991022584382e-05, "loss": 0.4475, "step": 4084 }, { "epoch": 1.3616666666666668, "grad_norm": 2.018395185470581, "learning_rate": 1.3292328992614922e-05, "loss": 0.4362, "step": 4085 }, { "epoch": 1.362, "grad_norm": 2.1110386848449707, "learning_rate": 1.3288666467385834e-05, "loss": 0.4702, "step": 4086 }, { "epoch": 1.3623333333333334, "grad_norm": 2.1681225299835205, "learning_rate": 1.3285003447448062e-05, "loss": 0.4236, "step": 4087 }, { "epoch": 1.3626666666666667, "grad_norm": 2.0553064346313477, "learning_rate": 1.3281339933352633e-05, "loss": 0.4138, "step": 4088 }, { "epoch": 1.363, "grad_norm": 2.4165773391723633, "learning_rate": 1.3277675925650635e-05, "loss": 0.4395, "step": 4089 }, { "epoch": 1.3633333333333333, "grad_norm": 1.6397720575332642, "learning_rate": 1.3274011424893245e-05, "loss": 0.4252, "step": 4090 }, { "epoch": 1.3636666666666666, "grad_norm": 2.5856356620788574, "learning_rate": 1.3270346431631706e-05, "loss": 0.4344, "step": 4091 }, { "epoch": 1.3639999999999999, "grad_norm": 1.8829457759857178, "learning_rate": 1.3266680946417346e-05, "loss": 0.3651, "step": 4092 }, { "epoch": 1.3643333333333334, "grad_norm": 2.1430158615112305, "learning_rate": 1.3263014969801542e-05, "loss": 0.4369, "step": 4093 }, { "epoch": 1.3646666666666667, "grad_norm": 2.1041791439056396, "learning_rate": 1.325934850233577e-05, "loss": 0.4333, "step": 4094 }, { "epoch": 1.365, "grad_norm": 1.888534426689148, "learning_rate": 1.3255681544571568e-05, "loss": 0.4355, "step": 4095 }, { "epoch": 1.3653333333333333, "grad_norm": 2.1959187984466553, "learning_rate": 1.3252014097060553e-05, "loss": 0.4782, "step": 4096 }, { "epoch": 1.3656666666666666, "grad_norm": 1.9827972650527954, "learning_rate": 1.3248346160354413e-05, "loss": 0.4064, "step": 4097 }, { "epoch": 1.366, "grad_norm": 2.5645480155944824, "learning_rate": 1.3244677735004904e-05, "loss": 0.4141, "step": 4098 }, { "epoch": 1.3663333333333334, "grad_norm": 1.9843820333480835, "learning_rate": 1.3241008821563867e-05, "loss": 0.4257, "step": 4099 }, { "epoch": 1.3666666666666667, "grad_norm": 2.388456106185913, "learning_rate": 1.3237339420583213e-05, "loss": 0.4595, "step": 4100 }, { "epoch": 1.367, "grad_norm": 2.3298614025115967, "learning_rate": 1.3233669532614914e-05, "loss": 0.4491, "step": 4101 }, { "epoch": 1.3673333333333333, "grad_norm": 2.3660905361175537, "learning_rate": 1.3229999158211037e-05, "loss": 0.4071, "step": 4102 }, { "epoch": 1.3676666666666666, "grad_norm": 2.401282787322998, "learning_rate": 1.32263282979237e-05, "loss": 0.4228, "step": 4103 }, { "epoch": 1.3679999999999999, "grad_norm": 2.137641429901123, "learning_rate": 1.3222656952305113e-05, "loss": 0.3815, "step": 4104 }, { "epoch": 1.3683333333333334, "grad_norm": 2.1896190643310547, "learning_rate": 1.3218985121907544e-05, "loss": 0.492, "step": 4105 }, { "epoch": 1.3686666666666667, "grad_norm": 2.185682535171509, "learning_rate": 1.3215312807283343e-05, "loss": 0.4173, "step": 4106 }, { "epoch": 1.369, "grad_norm": 2.296051025390625, "learning_rate": 1.3211640008984934e-05, "loss": 0.4327, "step": 4107 }, { "epoch": 1.3693333333333333, "grad_norm": 2.3760504722595215, "learning_rate": 1.3207966727564801e-05, "loss": 0.4425, "step": 4108 }, { "epoch": 1.3696666666666666, "grad_norm": 2.2271125316619873, "learning_rate": 1.3204292963575517e-05, "loss": 0.4342, "step": 4109 }, { "epoch": 1.37, "grad_norm": 3.9666123390197754, "learning_rate": 1.3200618717569716e-05, "loss": 0.4202, "step": 4110 }, { "epoch": 1.3703333333333334, "grad_norm": 2.1083984375, "learning_rate": 1.3196943990100112e-05, "loss": 0.4411, "step": 4111 }, { "epoch": 1.3706666666666667, "grad_norm": 2.48651385307312, "learning_rate": 1.319326878171949e-05, "loss": 0.4464, "step": 4112 }, { "epoch": 1.371, "grad_norm": 2.1207480430603027, "learning_rate": 1.3189593092980701e-05, "loss": 0.4058, "step": 4113 }, { "epoch": 1.3713333333333333, "grad_norm": 2.028930425643921, "learning_rate": 1.3185916924436675e-05, "loss": 0.4092, "step": 4114 }, { "epoch": 1.3716666666666666, "grad_norm": 1.9226911067962646, "learning_rate": 1.3182240276640408e-05, "loss": 0.4329, "step": 4115 }, { "epoch": 1.3719999999999999, "grad_norm": 2.336848258972168, "learning_rate": 1.317856315014498e-05, "loss": 0.4182, "step": 4116 }, { "epoch": 1.3723333333333334, "grad_norm": 3.076395034790039, "learning_rate": 1.3174885545503528e-05, "loss": 0.4347, "step": 4117 }, { "epoch": 1.3726666666666667, "grad_norm": 1.9304423332214355, "learning_rate": 1.3171207463269272e-05, "loss": 0.4781, "step": 4118 }, { "epoch": 1.373, "grad_norm": 2.2799601554870605, "learning_rate": 1.3167528903995497e-05, "loss": 0.4551, "step": 4119 }, { "epoch": 1.3733333333333333, "grad_norm": 3.565476179122925, "learning_rate": 1.3163849868235566e-05, "loss": 0.4373, "step": 4120 }, { "epoch": 1.3736666666666666, "grad_norm": 2.1394705772399902, "learning_rate": 1.316017035654291e-05, "loss": 0.4481, "step": 4121 }, { "epoch": 1.374, "grad_norm": 2.463912010192871, "learning_rate": 1.3156490369471026e-05, "loss": 0.4243, "step": 4122 }, { "epoch": 1.3743333333333334, "grad_norm": 2.45925235748291, "learning_rate": 1.3152809907573496e-05, "loss": 0.4061, "step": 4123 }, { "epoch": 1.3746666666666667, "grad_norm": 1.8023463487625122, "learning_rate": 1.314912897140396e-05, "loss": 0.4102, "step": 4124 }, { "epoch": 1.375, "grad_norm": 2.850297689437866, "learning_rate": 1.3145447561516138e-05, "loss": 0.4141, "step": 4125 }, { "epoch": 1.3753333333333333, "grad_norm": 3.6914775371551514, "learning_rate": 1.3141765678463819e-05, "loss": 0.429, "step": 4126 }, { "epoch": 1.3756666666666666, "grad_norm": 1.8386235237121582, "learning_rate": 1.313808332280086e-05, "loss": 0.467, "step": 4127 }, { "epoch": 1.376, "grad_norm": 3.4109280109405518, "learning_rate": 1.3134400495081197e-05, "loss": 0.3899, "step": 4128 }, { "epoch": 1.3763333333333334, "grad_norm": 1.9983510971069336, "learning_rate": 1.3130717195858825e-05, "loss": 0.3975, "step": 4129 }, { "epoch": 1.3766666666666667, "grad_norm": 2.0289130210876465, "learning_rate": 1.312703342568782e-05, "loss": 0.4762, "step": 4130 }, { "epoch": 1.377, "grad_norm": 2.032121419906616, "learning_rate": 1.3123349185122328e-05, "loss": 0.4615, "step": 4131 }, { "epoch": 1.3773333333333333, "grad_norm": 1.9992647171020508, "learning_rate": 1.3119664474716558e-05, "loss": 0.4131, "step": 4132 }, { "epoch": 1.3776666666666666, "grad_norm": 1.9083448648452759, "learning_rate": 1.3115979295024796e-05, "loss": 0.4355, "step": 4133 }, { "epoch": 1.3780000000000001, "grad_norm": 2.069701671600342, "learning_rate": 1.3112293646601402e-05, "loss": 0.4076, "step": 4134 }, { "epoch": 1.3783333333333334, "grad_norm": 1.7754952907562256, "learning_rate": 1.3108607530000796e-05, "loss": 0.5033, "step": 4135 }, { "epoch": 1.3786666666666667, "grad_norm": 2.0060977935791016, "learning_rate": 1.310492094577748e-05, "loss": 0.4281, "step": 4136 }, { "epoch": 1.379, "grad_norm": 2.482656240463257, "learning_rate": 1.3101233894486018e-05, "loss": 0.4412, "step": 4137 }, { "epoch": 1.3793333333333333, "grad_norm": 3.8850388526916504, "learning_rate": 1.3097546376681046e-05, "loss": 0.4595, "step": 4138 }, { "epoch": 1.3796666666666666, "grad_norm": 1.8450167179107666, "learning_rate": 1.3093858392917271e-05, "loss": 0.4221, "step": 4139 }, { "epoch": 1.38, "grad_norm": 2.3598058223724365, "learning_rate": 1.3090169943749475e-05, "loss": 0.4117, "step": 4140 }, { "epoch": 1.3803333333333334, "grad_norm": 2.484260082244873, "learning_rate": 1.3086481029732504e-05, "loss": 0.4259, "step": 4141 }, { "epoch": 1.3806666666666667, "grad_norm": 2.1077427864074707, "learning_rate": 1.3082791651421269e-05, "loss": 0.4391, "step": 4142 }, { "epoch": 1.381, "grad_norm": 2.0911996364593506, "learning_rate": 1.307910180937076e-05, "loss": 0.4191, "step": 4143 }, { "epoch": 1.3813333333333333, "grad_norm": 2.3289363384246826, "learning_rate": 1.307541150413604e-05, "loss": 0.4203, "step": 4144 }, { "epoch": 1.3816666666666666, "grad_norm": 2.1173202991485596, "learning_rate": 1.307172073627223e-05, "loss": 0.3889, "step": 4145 }, { "epoch": 1.3820000000000001, "grad_norm": 2.2455577850341797, "learning_rate": 1.3068029506334526e-05, "loss": 0.3989, "step": 4146 }, { "epoch": 1.3823333333333334, "grad_norm": 2.0102710723876953, "learning_rate": 1.3064337814878192e-05, "loss": 0.4196, "step": 4147 }, { "epoch": 1.3826666666666667, "grad_norm": 1.7816983461380005, "learning_rate": 1.3060645662458569e-05, "loss": 0.4413, "step": 4148 }, { "epoch": 1.383, "grad_norm": 2.0734975337982178, "learning_rate": 1.3056953049631059e-05, "loss": 0.4356, "step": 4149 }, { "epoch": 1.3833333333333333, "grad_norm": 1.8870151042938232, "learning_rate": 1.3053259976951134e-05, "loss": 0.4313, "step": 4150 }, { "epoch": 1.3836666666666666, "grad_norm": 1.9066005945205688, "learning_rate": 1.3049566444974335e-05, "loss": 0.4346, "step": 4151 }, { "epoch": 1.384, "grad_norm": 1.7835731506347656, "learning_rate": 1.3045872454256278e-05, "loss": 0.4192, "step": 4152 }, { "epoch": 1.3843333333333334, "grad_norm": 4.209802150726318, "learning_rate": 1.3042178005352644e-05, "loss": 0.4578, "step": 4153 }, { "epoch": 1.3846666666666667, "grad_norm": 3.0387399196624756, "learning_rate": 1.3038483098819181e-05, "loss": 0.4635, "step": 4154 }, { "epoch": 1.385, "grad_norm": 2.3739259243011475, "learning_rate": 1.3034787735211708e-05, "loss": 0.425, "step": 4155 }, { "epoch": 1.3853333333333333, "grad_norm": 3.2760815620422363, "learning_rate": 1.3031091915086114e-05, "loss": 0.4494, "step": 4156 }, { "epoch": 1.3856666666666666, "grad_norm": 1.884202003479004, "learning_rate": 1.302739563899835e-05, "loss": 0.3916, "step": 4157 }, { "epoch": 1.3860000000000001, "grad_norm": 1.7982455492019653, "learning_rate": 1.3023698907504447e-05, "loss": 0.4165, "step": 4158 }, { "epoch": 1.3863333333333334, "grad_norm": 2.287827968597412, "learning_rate": 1.3020001721160495e-05, "loss": 0.4435, "step": 4159 }, { "epoch": 1.3866666666666667, "grad_norm": 2.2520103454589844, "learning_rate": 1.3016304080522657e-05, "loss": 0.4151, "step": 4160 }, { "epoch": 1.387, "grad_norm": 2.330341100692749, "learning_rate": 1.301260598614716e-05, "loss": 0.4081, "step": 4161 }, { "epoch": 1.3873333333333333, "grad_norm": 2.341596841812134, "learning_rate": 1.3008907438590308e-05, "loss": 0.4052, "step": 4162 }, { "epoch": 1.3876666666666666, "grad_norm": 1.9963903427124023, "learning_rate": 1.300520843840846e-05, "loss": 0.4397, "step": 4163 }, { "epoch": 1.388, "grad_norm": 1.8314616680145264, "learning_rate": 1.3001508986158057e-05, "loss": 0.4081, "step": 4164 }, { "epoch": 1.3883333333333332, "grad_norm": 2.0011789798736572, "learning_rate": 1.29978090823956e-05, "loss": 0.4197, "step": 4165 }, { "epoch": 1.3886666666666667, "grad_norm": 2.13606858253479, "learning_rate": 1.2994108727677657e-05, "loss": 0.3693, "step": 4166 }, { "epoch": 1.389, "grad_norm": 2.2595608234405518, "learning_rate": 1.2990407922560869e-05, "loss": 0.4557, "step": 4167 }, { "epoch": 1.3893333333333333, "grad_norm": 2.0692219734191895, "learning_rate": 1.2986706667601938e-05, "loss": 0.4332, "step": 4168 }, { "epoch": 1.3896666666666666, "grad_norm": 2.037379503250122, "learning_rate": 1.2983004963357644e-05, "loss": 0.4415, "step": 4169 }, { "epoch": 1.3900000000000001, "grad_norm": 2.2836711406707764, "learning_rate": 1.297930281038482e-05, "loss": 0.4062, "step": 4170 }, { "epoch": 1.3903333333333334, "grad_norm": 2.0799200534820557, "learning_rate": 1.2975600209240384e-05, "loss": 0.4879, "step": 4171 }, { "epoch": 1.3906666666666667, "grad_norm": 1.6501466035842896, "learning_rate": 1.2971897160481305e-05, "loss": 0.3983, "step": 4172 }, { "epoch": 1.391, "grad_norm": 1.6213264465332031, "learning_rate": 1.2968193664664633e-05, "loss": 0.3907, "step": 4173 }, { "epoch": 1.3913333333333333, "grad_norm": 1.9443094730377197, "learning_rate": 1.296448972234747e-05, "loss": 0.4296, "step": 4174 }, { "epoch": 1.3916666666666666, "grad_norm": 2.3601396083831787, "learning_rate": 1.2960785334087e-05, "loss": 0.4087, "step": 4175 }, { "epoch": 1.392, "grad_norm": 2.058213472366333, "learning_rate": 1.2957080500440469e-05, "loss": 0.4775, "step": 4176 }, { "epoch": 1.3923333333333332, "grad_norm": 2.0184485912323, "learning_rate": 1.2953375221965182e-05, "loss": 0.4488, "step": 4177 }, { "epoch": 1.3926666666666667, "grad_norm": 3.300091028213501, "learning_rate": 1.2949669499218531e-05, "loss": 0.4342, "step": 4178 }, { "epoch": 1.393, "grad_norm": 2.088280439376831, "learning_rate": 1.2945963332757949e-05, "loss": 0.4188, "step": 4179 }, { "epoch": 1.3933333333333333, "grad_norm": 1.9477156400680542, "learning_rate": 1.2942256723140951e-05, "loss": 0.4261, "step": 4180 }, { "epoch": 1.3936666666666666, "grad_norm": 1.747100591659546, "learning_rate": 1.2938549670925122e-05, "loss": 0.4254, "step": 4181 }, { "epoch": 1.3940000000000001, "grad_norm": 2.5268139839172363, "learning_rate": 1.2934842176668105e-05, "loss": 0.4268, "step": 4182 }, { "epoch": 1.3943333333333334, "grad_norm": 2.5111262798309326, "learning_rate": 1.2931134240927609e-05, "loss": 0.4268, "step": 4183 }, { "epoch": 1.3946666666666667, "grad_norm": 2.0148518085479736, "learning_rate": 1.2927425864261415e-05, "loss": 0.4226, "step": 4184 }, { "epoch": 1.395, "grad_norm": 1.8309370279312134, "learning_rate": 1.2923717047227368e-05, "loss": 0.4421, "step": 4185 }, { "epoch": 1.3953333333333333, "grad_norm": 2.365903377532959, "learning_rate": 1.2920007790383383e-05, "loss": 0.4245, "step": 4186 }, { "epoch": 1.3956666666666666, "grad_norm": 2.0862324237823486, "learning_rate": 1.291629809428743e-05, "loss": 0.412, "step": 4187 }, { "epoch": 1.396, "grad_norm": 2.3952505588531494, "learning_rate": 1.2912587959497556e-05, "loss": 0.4244, "step": 4188 }, { "epoch": 1.3963333333333332, "grad_norm": 2.0573673248291016, "learning_rate": 1.290887738657187e-05, "loss": 0.4459, "step": 4189 }, { "epoch": 1.3966666666666667, "grad_norm": 1.9212181568145752, "learning_rate": 1.290516637606855e-05, "loss": 0.4441, "step": 4190 }, { "epoch": 1.397, "grad_norm": 1.8616859912872314, "learning_rate": 1.2901454928545834e-05, "loss": 0.4103, "step": 4191 }, { "epoch": 1.3973333333333333, "grad_norm": 2.9636409282684326, "learning_rate": 1.2897743044562032e-05, "loss": 0.412, "step": 4192 }, { "epoch": 1.3976666666666666, "grad_norm": 2.1088688373565674, "learning_rate": 1.2894030724675515e-05, "loss": 0.4531, "step": 4193 }, { "epoch": 1.3980000000000001, "grad_norm": 2.3544633388519287, "learning_rate": 1.2890317969444716e-05, "loss": 0.4072, "step": 4194 }, { "epoch": 1.3983333333333334, "grad_norm": 2.6100151538848877, "learning_rate": 1.288660477942815e-05, "loss": 0.4429, "step": 4195 }, { "epoch": 1.3986666666666667, "grad_norm": 1.788604974746704, "learning_rate": 1.2882891155184375e-05, "loss": 0.4327, "step": 4196 }, { "epoch": 1.399, "grad_norm": 2.2453455924987793, "learning_rate": 1.2879177097272033e-05, "loss": 0.3905, "step": 4197 }, { "epoch": 1.3993333333333333, "grad_norm": 3.0299816131591797, "learning_rate": 1.2875462606249817e-05, "loss": 0.4705, "step": 4198 }, { "epoch": 1.3996666666666666, "grad_norm": 2.3069043159484863, "learning_rate": 1.2871747682676498e-05, "loss": 0.4298, "step": 4199 }, { "epoch": 1.4, "grad_norm": 2.5730926990509033, "learning_rate": 1.2868032327110904e-05, "loss": 0.4247, "step": 4200 }, { "epoch": 1.4003333333333332, "grad_norm": 2.4371118545532227, "learning_rate": 1.2864316540111928e-05, "loss": 0.4588, "step": 4201 }, { "epoch": 1.4006666666666667, "grad_norm": 1.8527507781982422, "learning_rate": 1.2860600322238532e-05, "loss": 0.3979, "step": 4202 }, { "epoch": 1.401, "grad_norm": 2.4099068641662598, "learning_rate": 1.2856883674049736e-05, "loss": 0.417, "step": 4203 }, { "epoch": 1.4013333333333333, "grad_norm": 1.8456270694732666, "learning_rate": 1.2853166596104635e-05, "loss": 0.4306, "step": 4204 }, { "epoch": 1.4016666666666666, "grad_norm": 1.9952774047851562, "learning_rate": 1.284944908896238e-05, "loss": 0.428, "step": 4205 }, { "epoch": 1.4020000000000001, "grad_norm": 2.6461782455444336, "learning_rate": 1.2845731153182191e-05, "loss": 0.4154, "step": 4206 }, { "epoch": 1.4023333333333334, "grad_norm": 2.365670919418335, "learning_rate": 1.284201278932335e-05, "loss": 0.3661, "step": 4207 }, { "epoch": 1.4026666666666667, "grad_norm": 1.9815982580184937, "learning_rate": 1.2838293997945204e-05, "loss": 0.3623, "step": 4208 }, { "epoch": 1.403, "grad_norm": 2.3917906284332275, "learning_rate": 1.2834574779607163e-05, "loss": 0.4267, "step": 4209 }, { "epoch": 1.4033333333333333, "grad_norm": 1.9307727813720703, "learning_rate": 1.2830855134868705e-05, "loss": 0.4152, "step": 4210 }, { "epoch": 1.4036666666666666, "grad_norm": 1.7345914840698242, "learning_rate": 1.2827135064289374e-05, "loss": 0.441, "step": 4211 }, { "epoch": 1.404, "grad_norm": 1.7135056257247925, "learning_rate": 1.2823414568428767e-05, "loss": 0.4222, "step": 4212 }, { "epoch": 1.4043333333333332, "grad_norm": 2.3457679748535156, "learning_rate": 1.2819693647846554e-05, "loss": 0.3848, "step": 4213 }, { "epoch": 1.4046666666666667, "grad_norm": 1.9207227230072021, "learning_rate": 1.281597230310247e-05, "loss": 0.4733, "step": 4214 }, { "epoch": 1.405, "grad_norm": 2.407586097717285, "learning_rate": 1.2812250534756307e-05, "loss": 0.4151, "step": 4215 }, { "epoch": 1.4053333333333333, "grad_norm": 2.2704946994781494, "learning_rate": 1.280852834336793e-05, "loss": 0.414, "step": 4216 }, { "epoch": 1.4056666666666666, "grad_norm": 2.3929975032806396, "learning_rate": 1.2804805729497255e-05, "loss": 0.4469, "step": 4217 }, { "epoch": 1.4060000000000001, "grad_norm": 1.881379246711731, "learning_rate": 1.2801082693704272e-05, "loss": 0.4112, "step": 4218 }, { "epoch": 1.4063333333333334, "grad_norm": 2.5797312259674072, "learning_rate": 1.279735923654903e-05, "loss": 0.4388, "step": 4219 }, { "epoch": 1.4066666666666667, "grad_norm": 2.004080057144165, "learning_rate": 1.2793635358591645e-05, "loss": 0.4202, "step": 4220 }, { "epoch": 1.407, "grad_norm": 2.1702606678009033, "learning_rate": 1.2789911060392295e-05, "loss": 0.4413, "step": 4221 }, { "epoch": 1.4073333333333333, "grad_norm": 2.494495153427124, "learning_rate": 1.2786186342511216e-05, "loss": 0.4512, "step": 4222 }, { "epoch": 1.4076666666666666, "grad_norm": 2.9879510402679443, "learning_rate": 1.278246120550871e-05, "loss": 0.4321, "step": 4223 }, { "epoch": 1.408, "grad_norm": 2.1473758220672607, "learning_rate": 1.277873564994515e-05, "loss": 0.4137, "step": 4224 }, { "epoch": 1.4083333333333332, "grad_norm": 2.226731061935425, "learning_rate": 1.2775009676380959e-05, "loss": 0.4078, "step": 4225 }, { "epoch": 1.4086666666666667, "grad_norm": 1.8874210119247437, "learning_rate": 1.2771283285376633e-05, "loss": 0.4117, "step": 4226 }, { "epoch": 1.409, "grad_norm": 2.1560325622558594, "learning_rate": 1.2767556477492722e-05, "loss": 0.413, "step": 4227 }, { "epoch": 1.4093333333333333, "grad_norm": 2.2125608921051025, "learning_rate": 1.276382925328985e-05, "loss": 0.4436, "step": 4228 }, { "epoch": 1.4096666666666666, "grad_norm": 1.8448435068130493, "learning_rate": 1.2760101613328693e-05, "loss": 0.3878, "step": 4229 }, { "epoch": 1.41, "grad_norm": 2.103559732437134, "learning_rate": 1.2756373558169992e-05, "loss": 0.4465, "step": 4230 }, { "epoch": 1.4103333333333334, "grad_norm": 2.136390209197998, "learning_rate": 1.2752645088374558e-05, "loss": 0.4489, "step": 4231 }, { "epoch": 1.4106666666666667, "grad_norm": 2.0648162364959717, "learning_rate": 1.2748916204503257e-05, "loss": 0.4811, "step": 4232 }, { "epoch": 1.411, "grad_norm": 2.2573251724243164, "learning_rate": 1.274518690711701e-05, "loss": 0.4192, "step": 4233 }, { "epoch": 1.4113333333333333, "grad_norm": 2.232323408126831, "learning_rate": 1.2741457196776823e-05, "loss": 0.4318, "step": 4234 }, { "epoch": 1.4116666666666666, "grad_norm": 2.2189278602600098, "learning_rate": 1.2737727074043741e-05, "loss": 0.3894, "step": 4235 }, { "epoch": 1.412, "grad_norm": 1.9611910581588745, "learning_rate": 1.2733996539478883e-05, "loss": 0.379, "step": 4236 }, { "epoch": 1.4123333333333332, "grad_norm": 2.103881359100342, "learning_rate": 1.2730265593643429e-05, "loss": 0.4377, "step": 4237 }, { "epoch": 1.4126666666666667, "grad_norm": 2.030085802078247, "learning_rate": 1.2726534237098614e-05, "loss": 0.4029, "step": 4238 }, { "epoch": 1.413, "grad_norm": 2.2179367542266846, "learning_rate": 1.2722802470405744e-05, "loss": 0.3927, "step": 4239 }, { "epoch": 1.4133333333333333, "grad_norm": 1.8742170333862305, "learning_rate": 1.2719070294126183e-05, "loss": 0.444, "step": 4240 }, { "epoch": 1.4136666666666666, "grad_norm": 1.6942081451416016, "learning_rate": 1.2715337708821351e-05, "loss": 0.4189, "step": 4241 }, { "epoch": 1.414, "grad_norm": 2.2812893390655518, "learning_rate": 1.271160471505274e-05, "loss": 0.3795, "step": 4242 }, { "epoch": 1.4143333333333334, "grad_norm": 2.415921449661255, "learning_rate": 1.2707871313381897e-05, "loss": 0.4457, "step": 4243 }, { "epoch": 1.4146666666666667, "grad_norm": 2.409968614578247, "learning_rate": 1.270413750437043e-05, "loss": 0.4616, "step": 4244 }, { "epoch": 1.415, "grad_norm": 1.9006694555282593, "learning_rate": 1.270040328858001e-05, "loss": 0.4478, "step": 4245 }, { "epoch": 1.4153333333333333, "grad_norm": 2.365903377532959, "learning_rate": 1.2696668666572369e-05, "loss": 0.4084, "step": 4246 }, { "epoch": 1.4156666666666666, "grad_norm": 1.659257173538208, "learning_rate": 1.2692933638909299e-05, "loss": 0.3946, "step": 4247 }, { "epoch": 1.416, "grad_norm": 1.7140274047851562, "learning_rate": 1.2689198206152657e-05, "loss": 0.4016, "step": 4248 }, { "epoch": 1.4163333333333332, "grad_norm": 2.0872995853424072, "learning_rate": 1.2685462368864358e-05, "loss": 0.4255, "step": 4249 }, { "epoch": 1.4166666666666667, "grad_norm": 1.7456756830215454, "learning_rate": 1.2681726127606374e-05, "loss": 0.3945, "step": 4250 }, { "epoch": 1.417, "grad_norm": 2.118865489959717, "learning_rate": 1.2677989482940747e-05, "loss": 0.4694, "step": 4251 }, { "epoch": 1.4173333333333333, "grad_norm": 1.9375540018081665, "learning_rate": 1.2674252435429569e-05, "loss": 0.4163, "step": 4252 }, { "epoch": 1.4176666666666666, "grad_norm": 2.439126968383789, "learning_rate": 1.2670514985634998e-05, "loss": 0.4397, "step": 4253 }, { "epoch": 1.418, "grad_norm": 1.9608159065246582, "learning_rate": 1.2666777134119257e-05, "loss": 0.4031, "step": 4254 }, { "epoch": 1.4183333333333334, "grad_norm": 2.126660108566284, "learning_rate": 1.2663038881444622e-05, "loss": 0.4243, "step": 4255 }, { "epoch": 1.4186666666666667, "grad_norm": 1.8863391876220703, "learning_rate": 1.2659300228173435e-05, "loss": 0.3933, "step": 4256 }, { "epoch": 1.419, "grad_norm": 2.2172396183013916, "learning_rate": 1.265556117486809e-05, "loss": 0.3946, "step": 4257 }, { "epoch": 1.4193333333333333, "grad_norm": 2.633141040802002, "learning_rate": 1.2651821722091051e-05, "loss": 0.4248, "step": 4258 }, { "epoch": 1.4196666666666666, "grad_norm": 2.101621627807617, "learning_rate": 1.2648081870404836e-05, "loss": 0.4445, "step": 4259 }, { "epoch": 1.42, "grad_norm": 2.975247859954834, "learning_rate": 1.2644341620372025e-05, "loss": 0.4428, "step": 4260 }, { "epoch": 1.4203333333333332, "grad_norm": 2.3593053817749023, "learning_rate": 1.2640600972555255e-05, "loss": 0.4344, "step": 4261 }, { "epoch": 1.4206666666666667, "grad_norm": 3.1870522499084473, "learning_rate": 1.2636859927517234e-05, "loss": 0.4423, "step": 4262 }, { "epoch": 1.421, "grad_norm": 2.1950204372406006, "learning_rate": 1.2633118485820713e-05, "loss": 0.4731, "step": 4263 }, { "epoch": 1.4213333333333333, "grad_norm": 2.4002842903137207, "learning_rate": 1.262937664802851e-05, "loss": 0.4445, "step": 4264 }, { "epoch": 1.4216666666666666, "grad_norm": 3.924745559692383, "learning_rate": 1.2625634414703512e-05, "loss": 0.4294, "step": 4265 }, { "epoch": 1.422, "grad_norm": 2.0960519313812256, "learning_rate": 1.2621891786408648e-05, "loss": 0.421, "step": 4266 }, { "epoch": 1.4223333333333334, "grad_norm": 2.5537707805633545, "learning_rate": 1.2618148763706921e-05, "loss": 0.4626, "step": 4267 }, { "epoch": 1.4226666666666667, "grad_norm": 2.055589437484741, "learning_rate": 1.2614405347161388e-05, "loss": 0.4283, "step": 4268 }, { "epoch": 1.423, "grad_norm": 2.118973731994629, "learning_rate": 1.2610661537335163e-05, "loss": 0.4145, "step": 4269 }, { "epoch": 1.4233333333333333, "grad_norm": 2.142054557800293, "learning_rate": 1.2606917334791415e-05, "loss": 0.4084, "step": 4270 }, { "epoch": 1.4236666666666666, "grad_norm": 2.020226001739502, "learning_rate": 1.260317274009339e-05, "loss": 0.4051, "step": 4271 }, { "epoch": 1.424, "grad_norm": 2.133958101272583, "learning_rate": 1.2599427753804377e-05, "loss": 0.4619, "step": 4272 }, { "epoch": 1.4243333333333332, "grad_norm": 2.3708910942077637, "learning_rate": 1.2595682376487723e-05, "loss": 0.4498, "step": 4273 }, { "epoch": 1.4246666666666667, "grad_norm": 2.2390568256378174, "learning_rate": 1.2591936608706845e-05, "loss": 0.4216, "step": 4274 }, { "epoch": 1.425, "grad_norm": 2.2441349029541016, "learning_rate": 1.2588190451025209e-05, "loss": 0.4425, "step": 4275 }, { "epoch": 1.4253333333333333, "grad_norm": 2.667358875274658, "learning_rate": 1.2584443904006345e-05, "loss": 0.3892, "step": 4276 }, { "epoch": 1.4256666666666666, "grad_norm": 2.22326922416687, "learning_rate": 1.2580696968213842e-05, "loss": 0.428, "step": 4277 }, { "epoch": 1.426, "grad_norm": 2.261275291442871, "learning_rate": 1.257694964421134e-05, "loss": 0.4134, "step": 4278 }, { "epoch": 1.4263333333333335, "grad_norm": 1.8703452348709106, "learning_rate": 1.2573201932562546e-05, "loss": 0.4115, "step": 4279 }, { "epoch": 1.4266666666666667, "grad_norm": 2.490893840789795, "learning_rate": 1.2569453833831222e-05, "loss": 0.4135, "step": 4280 }, { "epoch": 1.427, "grad_norm": 3.165391683578491, "learning_rate": 1.256570534858119e-05, "loss": 0.4348, "step": 4281 }, { "epoch": 1.4273333333333333, "grad_norm": 2.0148327350616455, "learning_rate": 1.2561956477376325e-05, "loss": 0.4419, "step": 4282 }, { "epoch": 1.4276666666666666, "grad_norm": 2.844803810119629, "learning_rate": 1.2558207220780568e-05, "loss": 0.396, "step": 4283 }, { "epoch": 1.428, "grad_norm": 2.0547821521759033, "learning_rate": 1.2554457579357906e-05, "loss": 0.3718, "step": 4284 }, { "epoch": 1.4283333333333332, "grad_norm": 2.3633439540863037, "learning_rate": 1.2550707553672399e-05, "loss": 0.4454, "step": 4285 }, { "epoch": 1.4286666666666665, "grad_norm": 2.792901039123535, "learning_rate": 1.2546957144288154e-05, "loss": 0.4301, "step": 4286 }, { "epoch": 1.429, "grad_norm": 2.525186061859131, "learning_rate": 1.2543206351769341e-05, "loss": 0.4385, "step": 4287 }, { "epoch": 1.4293333333333333, "grad_norm": 2.032254457473755, "learning_rate": 1.2539455176680183e-05, "loss": 0.3929, "step": 4288 }, { "epoch": 1.4296666666666666, "grad_norm": 2.2030763626098633, "learning_rate": 1.253570361958496e-05, "loss": 0.412, "step": 4289 }, { "epoch": 1.43, "grad_norm": 2.375046491622925, "learning_rate": 1.253195168104802e-05, "loss": 0.4145, "step": 4290 }, { "epoch": 1.4303333333333335, "grad_norm": 2.1283063888549805, "learning_rate": 1.2528199361633753e-05, "loss": 0.4401, "step": 4291 }, { "epoch": 1.4306666666666668, "grad_norm": 2.199359178543091, "learning_rate": 1.2524446661906625e-05, "loss": 0.3881, "step": 4292 }, { "epoch": 1.431, "grad_norm": 1.9513942003250122, "learning_rate": 1.252069358243114e-05, "loss": 0.4055, "step": 4293 }, { "epoch": 1.4313333333333333, "grad_norm": 2.7535266876220703, "learning_rate": 1.2516940123771866e-05, "loss": 0.414, "step": 4294 }, { "epoch": 1.4316666666666666, "grad_norm": 2.5705654621124268, "learning_rate": 1.2513186286493437e-05, "loss": 0.402, "step": 4295 }, { "epoch": 1.432, "grad_norm": 2.195105791091919, "learning_rate": 1.2509432071160527e-05, "loss": 0.4354, "step": 4296 }, { "epoch": 1.4323333333333332, "grad_norm": 2.5046260356903076, "learning_rate": 1.250567747833789e-05, "loss": 0.4075, "step": 4297 }, { "epoch": 1.4326666666666665, "grad_norm": 2.8288207054138184, "learning_rate": 1.2501922508590311e-05, "loss": 0.4041, "step": 4298 }, { "epoch": 1.433, "grad_norm": 2.4096291065216064, "learning_rate": 1.2498167162482649e-05, "loss": 0.384, "step": 4299 }, { "epoch": 1.4333333333333333, "grad_norm": 2.133258819580078, "learning_rate": 1.2494411440579814e-05, "loss": 0.4181, "step": 4300 }, { "epoch": 1.4336666666666666, "grad_norm": 2.4145612716674805, "learning_rate": 1.2490655343446773e-05, "loss": 0.4464, "step": 4301 }, { "epoch": 1.434, "grad_norm": 2.2793688774108887, "learning_rate": 1.2486898871648552e-05, "loss": 0.3992, "step": 4302 }, { "epoch": 1.4343333333333335, "grad_norm": 2.0591046810150146, "learning_rate": 1.2483142025750224e-05, "loss": 0.4457, "step": 4303 }, { "epoch": 1.4346666666666668, "grad_norm": 2.012709379196167, "learning_rate": 1.247938480631693e-05, "loss": 0.4734, "step": 4304 }, { "epoch": 1.435, "grad_norm": 2.1922824382781982, "learning_rate": 1.2475627213913861e-05, "loss": 0.395, "step": 4305 }, { "epoch": 1.4353333333333333, "grad_norm": 2.3593459129333496, "learning_rate": 1.247186924910627e-05, "loss": 0.4524, "step": 4306 }, { "epoch": 1.4356666666666666, "grad_norm": 2.524994373321533, "learning_rate": 1.2468110912459457e-05, "loss": 0.402, "step": 4307 }, { "epoch": 1.436, "grad_norm": 2.008467197418213, "learning_rate": 1.246435220453878e-05, "loss": 0.4128, "step": 4308 }, { "epoch": 1.4363333333333332, "grad_norm": 2.3537662029266357, "learning_rate": 1.2460593125909658e-05, "loss": 0.4088, "step": 4309 }, { "epoch": 1.4366666666666665, "grad_norm": 2.3492581844329834, "learning_rate": 1.2456833677137563e-05, "loss": 0.4278, "step": 4310 }, { "epoch": 1.437, "grad_norm": 2.204594373703003, "learning_rate": 1.2453073858788027e-05, "loss": 0.4231, "step": 4311 }, { "epoch": 1.4373333333333334, "grad_norm": 2.0094146728515625, "learning_rate": 1.2449313671426626e-05, "loss": 0.4524, "step": 4312 }, { "epoch": 1.4376666666666666, "grad_norm": 1.835618495941162, "learning_rate": 1.2445553115619004e-05, "loss": 0.4303, "step": 4313 }, { "epoch": 1.438, "grad_norm": 2.101666212081909, "learning_rate": 1.2441792191930856e-05, "loss": 0.4232, "step": 4314 }, { "epoch": 1.4383333333333335, "grad_norm": 1.978222131729126, "learning_rate": 1.2438030900927923e-05, "loss": 0.3872, "step": 4315 }, { "epoch": 1.4386666666666668, "grad_norm": 2.815089464187622, "learning_rate": 1.2434269243176018e-05, "loss": 0.4078, "step": 4316 }, { "epoch": 1.439, "grad_norm": 3.5518078804016113, "learning_rate": 1.2430507219240997e-05, "loss": 0.4399, "step": 4317 }, { "epoch": 1.4393333333333334, "grad_norm": 2.139178514480591, "learning_rate": 1.242674482968878e-05, "loss": 0.3986, "step": 4318 }, { "epoch": 1.4396666666666667, "grad_norm": 2.876626968383789, "learning_rate": 1.242298207508533e-05, "loss": 0.3757, "step": 4319 }, { "epoch": 1.44, "grad_norm": 2.0710902214050293, "learning_rate": 1.2419218955996677e-05, "loss": 0.3862, "step": 4320 }, { "epoch": 1.4403333333333332, "grad_norm": 2.316556215286255, "learning_rate": 1.2415455472988904e-05, "loss": 0.4116, "step": 4321 }, { "epoch": 1.4406666666666665, "grad_norm": 1.9579781293869019, "learning_rate": 1.2411691626628136e-05, "loss": 0.3893, "step": 4322 }, { "epoch": 1.441, "grad_norm": 1.8088115453720093, "learning_rate": 1.2407927417480567e-05, "loss": 0.4331, "step": 4323 }, { "epoch": 1.4413333333333334, "grad_norm": 1.8558316230773926, "learning_rate": 1.2404162846112443e-05, "loss": 0.437, "step": 4324 }, { "epoch": 1.4416666666666667, "grad_norm": 2.0201961994171143, "learning_rate": 1.2400397913090061e-05, "loss": 0.4294, "step": 4325 }, { "epoch": 1.442, "grad_norm": 2.7098796367645264, "learning_rate": 1.2396632618979772e-05, "loss": 0.4541, "step": 4326 }, { "epoch": 1.4423333333333335, "grad_norm": 1.717038631439209, "learning_rate": 1.2392866964347984e-05, "loss": 0.4498, "step": 4327 }, { "epoch": 1.4426666666666668, "grad_norm": 1.8904579877853394, "learning_rate": 1.2389100949761159e-05, "loss": 0.3378, "step": 4328 }, { "epoch": 1.443, "grad_norm": 2.775022029876709, "learning_rate": 1.238533457578581e-05, "loss": 0.4211, "step": 4329 }, { "epoch": 1.4433333333333334, "grad_norm": 2.3261241912841797, "learning_rate": 1.238156784298851e-05, "loss": 0.4391, "step": 4330 }, { "epoch": 1.4436666666666667, "grad_norm": 1.9073102474212646, "learning_rate": 1.2377800751935878e-05, "loss": 0.433, "step": 4331 }, { "epoch": 1.444, "grad_norm": 2.085239887237549, "learning_rate": 1.2374033303194597e-05, "loss": 0.4001, "step": 4332 }, { "epoch": 1.4443333333333332, "grad_norm": 2.1926157474517822, "learning_rate": 1.237026549733139e-05, "loss": 0.4253, "step": 4333 }, { "epoch": 1.4446666666666665, "grad_norm": 2.1272132396698, "learning_rate": 1.2366497334913052e-05, "loss": 0.4237, "step": 4334 }, { "epoch": 1.445, "grad_norm": 2.0830326080322266, "learning_rate": 1.2362728816506418e-05, "loss": 0.4187, "step": 4335 }, { "epoch": 1.4453333333333334, "grad_norm": 2.02469801902771, "learning_rate": 1.2358959942678372e-05, "loss": 0.3932, "step": 4336 }, { "epoch": 1.4456666666666667, "grad_norm": 2.4871573448181152, "learning_rate": 1.2355190713995868e-05, "loss": 0.4286, "step": 4337 }, { "epoch": 1.446, "grad_norm": 2.161851644515991, "learning_rate": 1.23514211310259e-05, "loss": 0.4205, "step": 4338 }, { "epoch": 1.4463333333333335, "grad_norm": 3.922456741333008, "learning_rate": 1.2347651194335526e-05, "loss": 0.4583, "step": 4339 }, { "epoch": 1.4466666666666668, "grad_norm": 3.0275306701660156, "learning_rate": 1.2343880904491846e-05, "loss": 0.4405, "step": 4340 }, { "epoch": 1.447, "grad_norm": 2.3531689643859863, "learning_rate": 1.2340110262062024e-05, "loss": 0.4289, "step": 4341 }, { "epoch": 1.4473333333333334, "grad_norm": 2.1766345500946045, "learning_rate": 1.2336339267613267e-05, "loss": 0.3877, "step": 4342 }, { "epoch": 1.4476666666666667, "grad_norm": 2.1732988357543945, "learning_rate": 1.233256792171284e-05, "loss": 0.4076, "step": 4343 }, { "epoch": 1.448, "grad_norm": 2.7216925621032715, "learning_rate": 1.232879622492806e-05, "loss": 0.4024, "step": 4344 }, { "epoch": 1.4483333333333333, "grad_norm": 5.261264801025391, "learning_rate": 1.2325024177826299e-05, "loss": 0.4009, "step": 4345 }, { "epoch": 1.4486666666666665, "grad_norm": 2.085413932800293, "learning_rate": 1.2321251780974978e-05, "loss": 0.4192, "step": 4346 }, { "epoch": 1.449, "grad_norm": 2.1895649433135986, "learning_rate": 1.2317479034941572e-05, "loss": 0.3998, "step": 4347 }, { "epoch": 1.4493333333333334, "grad_norm": 3.14558744430542, "learning_rate": 1.2313705940293615e-05, "loss": 0.4998, "step": 4348 }, { "epoch": 1.4496666666666667, "grad_norm": 2.8420004844665527, "learning_rate": 1.230993249759868e-05, "loss": 0.4103, "step": 4349 }, { "epoch": 1.45, "grad_norm": 2.4056644439697266, "learning_rate": 1.2306158707424402e-05, "loss": 0.39, "step": 4350 }, { "epoch": 1.4503333333333333, "grad_norm": 3.1843631267547607, "learning_rate": 1.230238457033847e-05, "loss": 0.4368, "step": 4351 }, { "epoch": 1.4506666666666668, "grad_norm": 2.0987491607666016, "learning_rate": 1.2298610086908613e-05, "loss": 0.4027, "step": 4352 }, { "epoch": 1.451, "grad_norm": 2.6089608669281006, "learning_rate": 1.2294835257702629e-05, "loss": 0.4069, "step": 4353 }, { "epoch": 1.4513333333333334, "grad_norm": 2.5659983158111572, "learning_rate": 1.2291060083288354e-05, "loss": 0.4045, "step": 4354 }, { "epoch": 1.4516666666666667, "grad_norm": 4.115542411804199, "learning_rate": 1.228728456423368e-05, "loss": 0.4295, "step": 4355 }, { "epoch": 1.452, "grad_norm": 3.1238865852355957, "learning_rate": 1.2283508701106559e-05, "loss": 0.4006, "step": 4356 }, { "epoch": 1.4523333333333333, "grad_norm": 2.456324338912964, "learning_rate": 1.2279732494474981e-05, "loss": 0.4068, "step": 4357 }, { "epoch": 1.4526666666666666, "grad_norm": 2.6554551124572754, "learning_rate": 1.2275955944906999e-05, "loss": 0.4274, "step": 4358 }, { "epoch": 1.453, "grad_norm": 2.5487916469573975, "learning_rate": 1.2272179052970711e-05, "loss": 0.4078, "step": 4359 }, { "epoch": 1.4533333333333334, "grad_norm": 1.9425185918807983, "learning_rate": 1.226840181923427e-05, "loss": 0.4499, "step": 4360 }, { "epoch": 1.4536666666666667, "grad_norm": 2.7227954864501953, "learning_rate": 1.2264624244265874e-05, "loss": 0.4353, "step": 4361 }, { "epoch": 1.454, "grad_norm": 1.856796145439148, "learning_rate": 1.2260846328633786e-05, "loss": 0.3951, "step": 4362 }, { "epoch": 1.4543333333333333, "grad_norm": 2.5715739727020264, "learning_rate": 1.2257068072906307e-05, "loss": 0.4126, "step": 4363 }, { "epoch": 1.4546666666666668, "grad_norm": 2.1797356605529785, "learning_rate": 1.2253289477651793e-05, "loss": 0.3997, "step": 4364 }, { "epoch": 1.455, "grad_norm": 2.058387279510498, "learning_rate": 1.2249510543438652e-05, "loss": 0.4028, "step": 4365 }, { "epoch": 1.4553333333333334, "grad_norm": 1.7594350576400757, "learning_rate": 1.2245731270835344e-05, "loss": 0.4216, "step": 4366 }, { "epoch": 1.4556666666666667, "grad_norm": 1.9932981729507446, "learning_rate": 1.2241951660410378e-05, "loss": 0.413, "step": 4367 }, { "epoch": 1.456, "grad_norm": 1.8412070274353027, "learning_rate": 1.2238171712732316e-05, "loss": 0.4139, "step": 4368 }, { "epoch": 1.4563333333333333, "grad_norm": 2.04097580909729, "learning_rate": 1.2234391428369767e-05, "loss": 0.4107, "step": 4369 }, { "epoch": 1.4566666666666666, "grad_norm": 1.705998420715332, "learning_rate": 1.2230610807891394e-05, "loss": 0.3928, "step": 4370 }, { "epoch": 1.457, "grad_norm": 2.1191768646240234, "learning_rate": 1.2226829851865911e-05, "loss": 0.4348, "step": 4371 }, { "epoch": 1.4573333333333334, "grad_norm": 2.3249552249908447, "learning_rate": 1.222304856086208e-05, "loss": 0.4393, "step": 4372 }, { "epoch": 1.4576666666666667, "grad_norm": 1.8432012796401978, "learning_rate": 1.2219266935448713e-05, "loss": 0.392, "step": 4373 }, { "epoch": 1.458, "grad_norm": 2.084885597229004, "learning_rate": 1.2215484976194675e-05, "loss": 0.3935, "step": 4374 }, { "epoch": 1.4583333333333333, "grad_norm": 2.2801156044006348, "learning_rate": 1.2211702683668878e-05, "loss": 0.422, "step": 4375 }, { "epoch": 1.4586666666666668, "grad_norm": 2.10634708404541, "learning_rate": 1.220792005844029e-05, "loss": 0.3396, "step": 4376 }, { "epoch": 1.459, "grad_norm": 2.899996280670166, "learning_rate": 1.2204137101077924e-05, "loss": 0.423, "step": 4377 }, { "epoch": 1.4593333333333334, "grad_norm": 2.2205164432525635, "learning_rate": 1.220035381215084e-05, "loss": 0.432, "step": 4378 }, { "epoch": 1.4596666666666667, "grad_norm": 3.391493558883667, "learning_rate": 1.2196570192228156e-05, "loss": 0.395, "step": 4379 }, { "epoch": 1.46, "grad_norm": 2.309601306915283, "learning_rate": 1.2192786241879033e-05, "loss": 0.4028, "step": 4380 }, { "epoch": 1.4603333333333333, "grad_norm": 1.6865627765655518, "learning_rate": 1.2189001961672688e-05, "loss": 0.42, "step": 4381 }, { "epoch": 1.4606666666666666, "grad_norm": 2.6494243144989014, "learning_rate": 1.2185217352178383e-05, "loss": 0.3731, "step": 4382 }, { "epoch": 1.461, "grad_norm": 2.645418643951416, "learning_rate": 1.2181432413965428e-05, "loss": 0.4021, "step": 4383 }, { "epoch": 1.4613333333333334, "grad_norm": 2.356947422027588, "learning_rate": 1.2177647147603184e-05, "loss": 0.4437, "step": 4384 }, { "epoch": 1.4616666666666667, "grad_norm": 1.9912081956863403, "learning_rate": 1.2173861553661069e-05, "loss": 0.3801, "step": 4385 }, { "epoch": 1.462, "grad_norm": 2.636651039123535, "learning_rate": 1.2170075632708538e-05, "loss": 0.3995, "step": 4386 }, { "epoch": 1.4623333333333333, "grad_norm": 2.272113561630249, "learning_rate": 1.2166289385315102e-05, "loss": 0.3795, "step": 4387 }, { "epoch": 1.4626666666666668, "grad_norm": 2.712053060531616, "learning_rate": 1.2162502812050324e-05, "loss": 0.4176, "step": 4388 }, { "epoch": 1.463, "grad_norm": 2.0916972160339355, "learning_rate": 1.21587159134838e-05, "loss": 0.4206, "step": 4389 }, { "epoch": 1.4633333333333334, "grad_norm": 2.103753089904785, "learning_rate": 1.2154928690185201e-05, "loss": 0.4362, "step": 4390 }, { "epoch": 1.4636666666666667, "grad_norm": 2.4214134216308594, "learning_rate": 1.2151141142724225e-05, "loss": 0.4372, "step": 4391 }, { "epoch": 1.464, "grad_norm": 2.1179451942443848, "learning_rate": 1.2147353271670634e-05, "loss": 0.4231, "step": 4392 }, { "epoch": 1.4643333333333333, "grad_norm": 1.793068528175354, "learning_rate": 1.2143565077594224e-05, "loss": 0.3959, "step": 4393 }, { "epoch": 1.4646666666666666, "grad_norm": 2.2874181270599365, "learning_rate": 1.2139776561064844e-05, "loss": 0.4459, "step": 4394 }, { "epoch": 1.465, "grad_norm": 2.213188886642456, "learning_rate": 1.2135987722652403e-05, "loss": 0.4087, "step": 4395 }, { "epoch": 1.4653333333333334, "grad_norm": 1.8653665781021118, "learning_rate": 1.2132198562926845e-05, "loss": 0.4489, "step": 4396 }, { "epoch": 1.4656666666666667, "grad_norm": 2.2819623947143555, "learning_rate": 1.2128409082458166e-05, "loss": 0.4313, "step": 4397 }, { "epoch": 1.466, "grad_norm": 2.0792129039764404, "learning_rate": 1.2124619281816413e-05, "loss": 0.4434, "step": 4398 }, { "epoch": 1.4663333333333333, "grad_norm": 2.060321569442749, "learning_rate": 1.212082916157168e-05, "loss": 0.416, "step": 4399 }, { "epoch": 1.4666666666666668, "grad_norm": 2.2844295501708984, "learning_rate": 1.211703872229411e-05, "loss": 0.397, "step": 4400 }, { "epoch": 1.467, "grad_norm": 1.8361470699310303, "learning_rate": 1.211324796455389e-05, "loss": 0.387, "step": 4401 }, { "epoch": 1.4673333333333334, "grad_norm": 2.2301952838897705, "learning_rate": 1.2109456888921255e-05, "loss": 0.3907, "step": 4402 }, { "epoch": 1.4676666666666667, "grad_norm": 2.1160404682159424, "learning_rate": 1.2105665495966494e-05, "loss": 0.4006, "step": 4403 }, { "epoch": 1.468, "grad_norm": 3.3104004859924316, "learning_rate": 1.210187378625994e-05, "loss": 0.4047, "step": 4404 }, { "epoch": 1.4683333333333333, "grad_norm": 2.3976383209228516, "learning_rate": 1.2098081760371973e-05, "loss": 0.3786, "step": 4405 }, { "epoch": 1.4686666666666666, "grad_norm": 1.9155336618423462, "learning_rate": 1.2094289418873024e-05, "loss": 0.4113, "step": 4406 }, { "epoch": 1.4689999999999999, "grad_norm": 2.0095374584198, "learning_rate": 1.2090496762333565e-05, "loss": 0.381, "step": 4407 }, { "epoch": 1.4693333333333334, "grad_norm": 3.129544258117676, "learning_rate": 1.2086703791324118e-05, "loss": 0.3928, "step": 4408 }, { "epoch": 1.4696666666666667, "grad_norm": 2.0897693634033203, "learning_rate": 1.2082910506415256e-05, "loss": 0.4231, "step": 4409 }, { "epoch": 1.47, "grad_norm": 1.8572827577590942, "learning_rate": 1.2079116908177592e-05, "loss": 0.4238, "step": 4410 }, { "epoch": 1.4703333333333333, "grad_norm": 2.0680019855499268, "learning_rate": 1.2075322997181802e-05, "loss": 0.4081, "step": 4411 }, { "epoch": 1.4706666666666668, "grad_norm": 2.1931724548339844, "learning_rate": 1.2071528773998585e-05, "loss": 0.4425, "step": 4412 }, { "epoch": 1.471, "grad_norm": 3.9410653114318848, "learning_rate": 1.2067734239198707e-05, "loss": 0.4222, "step": 4413 }, { "epoch": 1.4713333333333334, "grad_norm": 2.262795925140381, "learning_rate": 1.2063939393352973e-05, "loss": 0.4252, "step": 4414 }, { "epoch": 1.4716666666666667, "grad_norm": 1.6508134603500366, "learning_rate": 1.2060144237032232e-05, "loss": 0.4444, "step": 4415 }, { "epoch": 1.472, "grad_norm": 2.2273807525634766, "learning_rate": 1.2056348770807386e-05, "loss": 0.4326, "step": 4416 }, { "epoch": 1.4723333333333333, "grad_norm": 2.2979536056518555, "learning_rate": 1.205255299524938e-05, "loss": 0.4072, "step": 4417 }, { "epoch": 1.4726666666666666, "grad_norm": 2.097721576690674, "learning_rate": 1.2048756910929206e-05, "loss": 0.4185, "step": 4418 }, { "epoch": 1.4729999999999999, "grad_norm": 2.219648838043213, "learning_rate": 1.2044960518417902e-05, "loss": 0.4139, "step": 4419 }, { "epoch": 1.4733333333333334, "grad_norm": 2.7506115436553955, "learning_rate": 1.2041163818286558e-05, "loss": 0.4449, "step": 4420 }, { "epoch": 1.4736666666666667, "grad_norm": 2.1700074672698975, "learning_rate": 1.2037366811106302e-05, "loss": 0.433, "step": 4421 }, { "epoch": 1.474, "grad_norm": 2.6986870765686035, "learning_rate": 1.2033569497448306e-05, "loss": 0.3992, "step": 4422 }, { "epoch": 1.4743333333333333, "grad_norm": 2.412170171737671, "learning_rate": 1.20297718778838e-05, "loss": 0.4091, "step": 4423 }, { "epoch": 1.4746666666666668, "grad_norm": 2.536518096923828, "learning_rate": 1.202597395298405e-05, "loss": 0.4242, "step": 4424 }, { "epoch": 1.475, "grad_norm": 1.969635248184204, "learning_rate": 1.2022175723320382e-05, "loss": 0.4089, "step": 4425 }, { "epoch": 1.4753333333333334, "grad_norm": 2.288621425628662, "learning_rate": 1.2018377189464144e-05, "loss": 0.3902, "step": 4426 }, { "epoch": 1.4756666666666667, "grad_norm": 2.1412599086761475, "learning_rate": 1.2014578351986747e-05, "loss": 0.3856, "step": 4427 }, { "epoch": 1.476, "grad_norm": 2.7379934787750244, "learning_rate": 1.2010779211459649e-05, "loss": 0.3646, "step": 4428 }, { "epoch": 1.4763333333333333, "grad_norm": 2.4421017169952393, "learning_rate": 1.200697976845434e-05, "loss": 0.4353, "step": 4429 }, { "epoch": 1.4766666666666666, "grad_norm": 2.8903465270996094, "learning_rate": 1.2003180023542375e-05, "loss": 0.4051, "step": 4430 }, { "epoch": 1.4769999999999999, "grad_norm": 2.5041768550872803, "learning_rate": 1.1999379977295334e-05, "loss": 0.4003, "step": 4431 }, { "epoch": 1.4773333333333334, "grad_norm": 2.1646621227264404, "learning_rate": 1.1995579630284855e-05, "loss": 0.3928, "step": 4432 }, { "epoch": 1.4776666666666667, "grad_norm": 1.9588849544525146, "learning_rate": 1.1991778983082616e-05, "loss": 0.393, "step": 4433 }, { "epoch": 1.478, "grad_norm": 2.9233779907226562, "learning_rate": 1.1987978036260346e-05, "loss": 0.4156, "step": 4434 }, { "epoch": 1.4783333333333333, "grad_norm": 3.4462268352508545, "learning_rate": 1.1984176790389815e-05, "loss": 0.4582, "step": 4435 }, { "epoch": 1.4786666666666668, "grad_norm": 3.316166639328003, "learning_rate": 1.1980375246042832e-05, "loss": 0.3988, "step": 4436 }, { "epoch": 1.479, "grad_norm": 2.886756420135498, "learning_rate": 1.1976573403791263e-05, "loss": 0.4309, "step": 4437 }, { "epoch": 1.4793333333333334, "grad_norm": 2.1024160385131836, "learning_rate": 1.197277126420701e-05, "loss": 0.3586, "step": 4438 }, { "epoch": 1.4796666666666667, "grad_norm": 2.527660369873047, "learning_rate": 1.1968968827862026e-05, "loss": 0.3974, "step": 4439 }, { "epoch": 1.48, "grad_norm": 2.4547600746154785, "learning_rate": 1.1965166095328302e-05, "loss": 0.4162, "step": 4440 }, { "epoch": 1.4803333333333333, "grad_norm": 1.9393043518066406, "learning_rate": 1.1961363067177877e-05, "loss": 0.4412, "step": 4441 }, { "epoch": 1.4806666666666666, "grad_norm": 3.32869815826416, "learning_rate": 1.1957559743982838e-05, "loss": 0.4502, "step": 4442 }, { "epoch": 1.4809999999999999, "grad_norm": 1.9792367219924927, "learning_rate": 1.1953756126315306e-05, "loss": 0.4322, "step": 4443 }, { "epoch": 1.4813333333333334, "grad_norm": 3.5881991386413574, "learning_rate": 1.194995221474746e-05, "loss": 0.4196, "step": 4444 }, { "epoch": 1.4816666666666667, "grad_norm": 2.0359537601470947, "learning_rate": 1.194614800985151e-05, "loss": 0.4181, "step": 4445 }, { "epoch": 1.482, "grad_norm": 2.84293270111084, "learning_rate": 1.194234351219972e-05, "loss": 0.4159, "step": 4446 }, { "epoch": 1.4823333333333333, "grad_norm": 2.410393238067627, "learning_rate": 1.1938538722364395e-05, "loss": 0.416, "step": 4447 }, { "epoch": 1.4826666666666668, "grad_norm": 1.910607099533081, "learning_rate": 1.1934733640917879e-05, "loss": 0.4299, "step": 4448 }, { "epoch": 1.483, "grad_norm": 1.9847393035888672, "learning_rate": 1.1930928268432569e-05, "loss": 0.4102, "step": 4449 }, { "epoch": 1.4833333333333334, "grad_norm": 2.1816534996032715, "learning_rate": 1.1927122605480899e-05, "loss": 0.419, "step": 4450 }, { "epoch": 1.4836666666666667, "grad_norm": 2.560614585876465, "learning_rate": 1.1923316652635349e-05, "loss": 0.4223, "step": 4451 }, { "epoch": 1.484, "grad_norm": 1.8097997903823853, "learning_rate": 1.1919510410468435e-05, "loss": 0.3771, "step": 4452 }, { "epoch": 1.4843333333333333, "grad_norm": 1.787440299987793, "learning_rate": 1.1915703879552738e-05, "loss": 0.4168, "step": 4453 }, { "epoch": 1.4846666666666666, "grad_norm": 2.065204381942749, "learning_rate": 1.1911897060460858e-05, "loss": 0.4429, "step": 4454 }, { "epoch": 1.4849999999999999, "grad_norm": 2.489821195602417, "learning_rate": 1.190808995376545e-05, "loss": 0.4162, "step": 4455 }, { "epoch": 1.4853333333333334, "grad_norm": 2.2562155723571777, "learning_rate": 1.190428256003921e-05, "loss": 0.4433, "step": 4456 }, { "epoch": 1.4856666666666667, "grad_norm": 2.1790659427642822, "learning_rate": 1.1900474879854884e-05, "loss": 0.4131, "step": 4457 }, { "epoch": 1.486, "grad_norm": 2.028926372528076, "learning_rate": 1.1896666913785248e-05, "loss": 0.4218, "step": 4458 }, { "epoch": 1.4863333333333333, "grad_norm": 1.9908692836761475, "learning_rate": 1.1892858662403132e-05, "loss": 0.4534, "step": 4459 }, { "epoch": 1.4866666666666668, "grad_norm": 1.9729528427124023, "learning_rate": 1.1889050126281405e-05, "loss": 0.4019, "step": 4460 }, { "epoch": 1.487, "grad_norm": 2.200756311416626, "learning_rate": 1.1885241305992976e-05, "loss": 0.4108, "step": 4461 }, { "epoch": 1.4873333333333334, "grad_norm": 2.1345624923706055, "learning_rate": 1.1881432202110801e-05, "loss": 0.4515, "step": 4462 }, { "epoch": 1.4876666666666667, "grad_norm": 2.1370441913604736, "learning_rate": 1.187762281520788e-05, "loss": 0.4036, "step": 4463 }, { "epoch": 1.488, "grad_norm": 2.2854723930358887, "learning_rate": 1.187381314585725e-05, "loss": 0.3577, "step": 4464 }, { "epoch": 1.4883333333333333, "grad_norm": 1.971579670906067, "learning_rate": 1.1870003194631991e-05, "loss": 0.3929, "step": 4465 }, { "epoch": 1.4886666666666666, "grad_norm": 2.1954894065856934, "learning_rate": 1.1866192962105229e-05, "loss": 0.4186, "step": 4466 }, { "epoch": 1.4889999999999999, "grad_norm": 2.4567601680755615, "learning_rate": 1.1862382448850136e-05, "loss": 0.4047, "step": 4467 }, { "epoch": 1.4893333333333334, "grad_norm": 2.2461183071136475, "learning_rate": 1.1858571655439916e-05, "loss": 0.4282, "step": 4468 }, { "epoch": 1.4896666666666667, "grad_norm": 2.228302478790283, "learning_rate": 1.1854760582447825e-05, "loss": 0.3944, "step": 4469 }, { "epoch": 1.49, "grad_norm": 2.964979887008667, "learning_rate": 1.1850949230447146e-05, "loss": 0.403, "step": 4470 }, { "epoch": 1.4903333333333333, "grad_norm": 2.182877540588379, "learning_rate": 1.1847137600011226e-05, "loss": 0.3952, "step": 4471 }, { "epoch": 1.4906666666666666, "grad_norm": 1.8863117694854736, "learning_rate": 1.1843325691713438e-05, "loss": 0.4081, "step": 4472 }, { "epoch": 1.491, "grad_norm": 2.085278034210205, "learning_rate": 1.1839513506127202e-05, "loss": 0.4353, "step": 4473 }, { "epoch": 1.4913333333333334, "grad_norm": 2.212477207183838, "learning_rate": 1.183570104382598e-05, "loss": 0.416, "step": 4474 }, { "epoch": 1.4916666666666667, "grad_norm": 2.299213171005249, "learning_rate": 1.1831888305383268e-05, "loss": 0.4228, "step": 4475 }, { "epoch": 1.492, "grad_norm": 2.7080934047698975, "learning_rate": 1.1828075291372616e-05, "loss": 0.4443, "step": 4476 }, { "epoch": 1.4923333333333333, "grad_norm": 2.0087106227874756, "learning_rate": 1.1824262002367609e-05, "loss": 0.4026, "step": 4477 }, { "epoch": 1.4926666666666666, "grad_norm": 2.2049598693847656, "learning_rate": 1.182044843894187e-05, "loss": 0.4128, "step": 4478 }, { "epoch": 1.4929999999999999, "grad_norm": 2.5622940063476562, "learning_rate": 1.181663460166907e-05, "loss": 0.3994, "step": 4479 }, { "epoch": 1.4933333333333334, "grad_norm": 2.8226442337036133, "learning_rate": 1.1812820491122918e-05, "loss": 0.4519, "step": 4480 }, { "epoch": 1.4936666666666667, "grad_norm": 2.2677254676818848, "learning_rate": 1.1809006107877165e-05, "loss": 0.3888, "step": 4481 }, { "epoch": 1.494, "grad_norm": 2.499776601791382, "learning_rate": 1.1805191452505602e-05, "loss": 0.392, "step": 4482 }, { "epoch": 1.4943333333333333, "grad_norm": 1.93801748752594, "learning_rate": 1.180137652558206e-05, "loss": 0.3723, "step": 4483 }, { "epoch": 1.4946666666666666, "grad_norm": 2.3441357612609863, "learning_rate": 1.1797561327680412e-05, "loss": 0.4052, "step": 4484 }, { "epoch": 1.495, "grad_norm": 2.8711273670196533, "learning_rate": 1.1793745859374575e-05, "loss": 0.4442, "step": 4485 }, { "epoch": 1.4953333333333334, "grad_norm": 2.849168062210083, "learning_rate": 1.1789930121238501e-05, "loss": 0.4153, "step": 4486 }, { "epoch": 1.4956666666666667, "grad_norm": 1.8469303846359253, "learning_rate": 1.1786114113846187e-05, "loss": 0.4176, "step": 4487 }, { "epoch": 1.496, "grad_norm": 2.7057743072509766, "learning_rate": 1.1782297837771668e-05, "loss": 0.458, "step": 4488 }, { "epoch": 1.4963333333333333, "grad_norm": 2.344125270843506, "learning_rate": 1.1778481293589015e-05, "loss": 0.4059, "step": 4489 }, { "epoch": 1.4966666666666666, "grad_norm": 1.8390482664108276, "learning_rate": 1.1774664481872354e-05, "loss": 0.3728, "step": 4490 }, { "epoch": 1.4969999999999999, "grad_norm": 2.607189893722534, "learning_rate": 1.1770847403195836e-05, "loss": 0.407, "step": 4491 }, { "epoch": 1.4973333333333334, "grad_norm": 1.8116655349731445, "learning_rate": 1.1767030058133656e-05, "loss": 0.427, "step": 4492 }, { "epoch": 1.4976666666666667, "grad_norm": 2.180344343185425, "learning_rate": 1.1763212447260058e-05, "loss": 0.3468, "step": 4493 }, { "epoch": 1.498, "grad_norm": 2.479219436645508, "learning_rate": 1.175939457114931e-05, "loss": 0.3627, "step": 4494 }, { "epoch": 1.4983333333333333, "grad_norm": 2.582557439804077, "learning_rate": 1.1755576430375735e-05, "loss": 0.3897, "step": 4495 }, { "epoch": 1.4986666666666666, "grad_norm": 2.0340192317962646, "learning_rate": 1.175175802551369e-05, "loss": 0.4458, "step": 4496 }, { "epoch": 1.499, "grad_norm": 2.3162872791290283, "learning_rate": 1.1747939357137568e-05, "loss": 0.3982, "step": 4497 }, { "epoch": 1.4993333333333334, "grad_norm": 2.3222172260284424, "learning_rate": 1.1744120425821806e-05, "loss": 0.4067, "step": 4498 }, { "epoch": 1.4996666666666667, "grad_norm": 2.523641586303711, "learning_rate": 1.174030123214088e-05, "loss": 0.4218, "step": 4499 }, { "epoch": 1.5, "grad_norm": 2.2606654167175293, "learning_rate": 1.1736481776669307e-05, "loss": 0.4334, "step": 4500 }, { "epoch": 1.5003333333333333, "grad_norm": 2.213113307952881, "learning_rate": 1.1732662059981637e-05, "loss": 0.4184, "step": 4501 }, { "epoch": 1.5006666666666666, "grad_norm": 1.942258358001709, "learning_rate": 1.1728842082652467e-05, "loss": 0.3852, "step": 4502 }, { "epoch": 1.501, "grad_norm": 2.467301845550537, "learning_rate": 1.1725021845256426e-05, "loss": 0.3888, "step": 4503 }, { "epoch": 1.5013333333333332, "grad_norm": 2.1340184211730957, "learning_rate": 1.1721201348368192e-05, "loss": 0.4108, "step": 4504 }, { "epoch": 1.5016666666666667, "grad_norm": 3.2336068153381348, "learning_rate": 1.171738059256247e-05, "loss": 0.4437, "step": 4505 }, { "epoch": 1.502, "grad_norm": 2.4690935611724854, "learning_rate": 1.171355957841402e-05, "loss": 0.3968, "step": 4506 }, { "epoch": 1.5023333333333333, "grad_norm": 2.311581611633301, "learning_rate": 1.170973830649762e-05, "loss": 0.4153, "step": 4507 }, { "epoch": 1.5026666666666668, "grad_norm": 2.111309289932251, "learning_rate": 1.1705916777388097e-05, "loss": 0.4227, "step": 4508 }, { "epoch": 1.5030000000000001, "grad_norm": 1.8576077222824097, "learning_rate": 1.1702094991660326e-05, "loss": 0.3876, "step": 4509 }, { "epoch": 1.5033333333333334, "grad_norm": 2.524840831756592, "learning_rate": 1.1698272949889206e-05, "loss": 0.4187, "step": 4510 }, { "epoch": 1.5036666666666667, "grad_norm": 2.250126838684082, "learning_rate": 1.1694450652649687e-05, "loss": 0.3668, "step": 4511 }, { "epoch": 1.504, "grad_norm": 2.1706457138061523, "learning_rate": 1.169062810051674e-05, "loss": 0.4092, "step": 4512 }, { "epoch": 1.5043333333333333, "grad_norm": 2.057668924331665, "learning_rate": 1.1686805294065397e-05, "loss": 0.3853, "step": 4513 }, { "epoch": 1.5046666666666666, "grad_norm": 4.376829624176025, "learning_rate": 1.1682982233870708e-05, "loss": 0.4048, "step": 4514 }, { "epoch": 1.505, "grad_norm": 1.8808777332305908, "learning_rate": 1.1679158920507773e-05, "loss": 0.3997, "step": 4515 }, { "epoch": 1.5053333333333332, "grad_norm": 3.593636989593506, "learning_rate": 1.1675335354551726e-05, "loss": 0.4244, "step": 4516 }, { "epoch": 1.5056666666666667, "grad_norm": 2.92787766456604, "learning_rate": 1.1671511536577737e-05, "loss": 0.4416, "step": 4517 }, { "epoch": 1.506, "grad_norm": 2.529820442199707, "learning_rate": 1.1667687467161025e-05, "loss": 0.4191, "step": 4518 }, { "epoch": 1.5063333333333333, "grad_norm": 2.0379295349121094, "learning_rate": 1.1663863146876828e-05, "loss": 0.3969, "step": 4519 }, { "epoch": 1.5066666666666668, "grad_norm": 2.196471929550171, "learning_rate": 1.1660038576300444e-05, "loss": 0.4122, "step": 4520 }, { "epoch": 1.5070000000000001, "grad_norm": 3.411020040512085, "learning_rate": 1.1656213756007184e-05, "loss": 0.3838, "step": 4521 }, { "epoch": 1.5073333333333334, "grad_norm": 1.9331562519073486, "learning_rate": 1.1652388686572416e-05, "loss": 0.3699, "step": 4522 }, { "epoch": 1.5076666666666667, "grad_norm": 2.2996857166290283, "learning_rate": 1.1648563368571541e-05, "loss": 0.397, "step": 4523 }, { "epoch": 1.508, "grad_norm": 1.9231303930282593, "learning_rate": 1.1644737802579989e-05, "loss": 0.3997, "step": 4524 }, { "epoch": 1.5083333333333333, "grad_norm": 1.9787415266036987, "learning_rate": 1.1640911989173242e-05, "loss": 0.4475, "step": 4525 }, { "epoch": 1.5086666666666666, "grad_norm": 1.9905426502227783, "learning_rate": 1.1637085928926803e-05, "loss": 0.44, "step": 4526 }, { "epoch": 1.509, "grad_norm": 2.0000295639038086, "learning_rate": 1.1633259622416224e-05, "loss": 0.4238, "step": 4527 }, { "epoch": 1.5093333333333332, "grad_norm": 2.3935389518737793, "learning_rate": 1.162943307021709e-05, "loss": 0.3832, "step": 4528 }, { "epoch": 1.5096666666666667, "grad_norm": 2.6589722633361816, "learning_rate": 1.1625606272905019e-05, "loss": 0.4126, "step": 4529 }, { "epoch": 1.51, "grad_norm": 2.5124828815460205, "learning_rate": 1.1621779231055677e-05, "loss": 0.3806, "step": 4530 }, { "epoch": 1.5103333333333333, "grad_norm": 2.0962131023406982, "learning_rate": 1.1617951945244753e-05, "loss": 0.3663, "step": 4531 }, { "epoch": 1.5106666666666668, "grad_norm": 2.4686543941497803, "learning_rate": 1.1614124416047981e-05, "loss": 0.4154, "step": 4532 }, { "epoch": 1.5110000000000001, "grad_norm": 2.6200613975524902, "learning_rate": 1.161029664404113e-05, "loss": 0.3782, "step": 4533 }, { "epoch": 1.5113333333333334, "grad_norm": 2.2662456035614014, "learning_rate": 1.160646862980001e-05, "loss": 0.4225, "step": 4534 }, { "epoch": 1.5116666666666667, "grad_norm": 2.281245231628418, "learning_rate": 1.1602640373900457e-05, "loss": 0.4466, "step": 4535 }, { "epoch": 1.512, "grad_norm": 2.3515193462371826, "learning_rate": 1.159881187691835e-05, "loss": 0.3886, "step": 4536 }, { "epoch": 1.5123333333333333, "grad_norm": 2.211338996887207, "learning_rate": 1.1594983139429606e-05, "loss": 0.4677, "step": 4537 }, { "epoch": 1.5126666666666666, "grad_norm": 2.865842342376709, "learning_rate": 1.1591154162010172e-05, "loss": 0.4215, "step": 4538 }, { "epoch": 1.513, "grad_norm": 2.42582106590271, "learning_rate": 1.158732494523604e-05, "loss": 0.3787, "step": 4539 }, { "epoch": 1.5133333333333332, "grad_norm": 3.289379596710205, "learning_rate": 1.158349548968323e-05, "loss": 0.4134, "step": 4540 }, { "epoch": 1.5136666666666667, "grad_norm": 3.2779924869537354, "learning_rate": 1.1579665795927798e-05, "loss": 0.4286, "step": 4541 }, { "epoch": 1.514, "grad_norm": 2.7365059852600098, "learning_rate": 1.1575835864545844e-05, "loss": 0.4117, "step": 4542 }, { "epoch": 1.5143333333333333, "grad_norm": 2.276204824447632, "learning_rate": 1.1572005696113493e-05, "loss": 0.3651, "step": 4543 }, { "epoch": 1.5146666666666668, "grad_norm": 1.8814116716384888, "learning_rate": 1.1568175291206917e-05, "loss": 0.3615, "step": 4544 }, { "epoch": 1.5150000000000001, "grad_norm": 2.1392273902893066, "learning_rate": 1.156434465040231e-05, "loss": 0.4361, "step": 4545 }, { "epoch": 1.5153333333333334, "grad_norm": 2.701874256134033, "learning_rate": 1.1560513774275915e-05, "loss": 0.4553, "step": 4546 }, { "epoch": 1.5156666666666667, "grad_norm": 3.014608383178711, "learning_rate": 1.1556682663404e-05, "loss": 0.419, "step": 4547 }, { "epoch": 1.516, "grad_norm": 2.7536110877990723, "learning_rate": 1.1552851318362876e-05, "loss": 0.3836, "step": 4548 }, { "epoch": 1.5163333333333333, "grad_norm": 1.904276728630066, "learning_rate": 1.1549019739728887e-05, "loss": 0.3753, "step": 4549 }, { "epoch": 1.5166666666666666, "grad_norm": 2.600801467895508, "learning_rate": 1.1545187928078407e-05, "loss": 0.4271, "step": 4550 }, { "epoch": 1.517, "grad_norm": 2.457437038421631, "learning_rate": 1.154135588398785e-05, "loss": 0.4095, "step": 4551 }, { "epoch": 1.5173333333333332, "grad_norm": 2.633578062057495, "learning_rate": 1.1537523608033665e-05, "loss": 0.3965, "step": 4552 }, { "epoch": 1.5176666666666667, "grad_norm": 2.0384926795959473, "learning_rate": 1.1533691100792336e-05, "loss": 0.3856, "step": 4553 }, { "epoch": 1.518, "grad_norm": 1.6652981042861938, "learning_rate": 1.1529858362840383e-05, "loss": 0.3738, "step": 4554 }, { "epoch": 1.5183333333333333, "grad_norm": 2.7906060218811035, "learning_rate": 1.1526025394754351e-05, "loss": 0.4228, "step": 4555 }, { "epoch": 1.5186666666666668, "grad_norm": 1.8500792980194092, "learning_rate": 1.1522192197110833e-05, "loss": 0.4365, "step": 4556 }, { "epoch": 1.5190000000000001, "grad_norm": 2.0590744018554688, "learning_rate": 1.151835877048645e-05, "loss": 0.4055, "step": 4557 }, { "epoch": 1.5193333333333334, "grad_norm": 2.0349485874176025, "learning_rate": 1.1514525115457855e-05, "loss": 0.4119, "step": 4558 }, { "epoch": 1.5196666666666667, "grad_norm": 2.3443245887756348, "learning_rate": 1.151069123260174e-05, "loss": 0.4429, "step": 4559 }, { "epoch": 1.52, "grad_norm": 2.375197172164917, "learning_rate": 1.1506857122494832e-05, "loss": 0.4145, "step": 4560 }, { "epoch": 1.5203333333333333, "grad_norm": 2.061567544937134, "learning_rate": 1.1503022785713886e-05, "loss": 0.4124, "step": 4561 }, { "epoch": 1.5206666666666666, "grad_norm": 1.9566704034805298, "learning_rate": 1.14991882228357e-05, "loss": 0.3703, "step": 4562 }, { "epoch": 1.521, "grad_norm": 2.0190846920013428, "learning_rate": 1.1495353434437098e-05, "loss": 0.3654, "step": 4563 }, { "epoch": 1.5213333333333332, "grad_norm": 3.101468563079834, "learning_rate": 1.1491518421094938e-05, "loss": 0.3772, "step": 4564 }, { "epoch": 1.5216666666666665, "grad_norm": 2.4638009071350098, "learning_rate": 1.148768318338612e-05, "loss": 0.406, "step": 4565 }, { "epoch": 1.522, "grad_norm": 2.3988027572631836, "learning_rate": 1.1483847721887567e-05, "loss": 0.4035, "step": 4566 }, { "epoch": 1.5223333333333333, "grad_norm": 3.6791205406188965, "learning_rate": 1.1480012037176247e-05, "loss": 0.4344, "step": 4567 }, { "epoch": 1.5226666666666666, "grad_norm": 2.238023281097412, "learning_rate": 1.1476176129829153e-05, "loss": 0.4313, "step": 4568 }, { "epoch": 1.5230000000000001, "grad_norm": 2.966233253479004, "learning_rate": 1.1472340000423313e-05, "loss": 0.3976, "step": 4569 }, { "epoch": 1.5233333333333334, "grad_norm": 2.1513335704803467, "learning_rate": 1.146850364953579e-05, "loss": 0.4089, "step": 4570 }, { "epoch": 1.5236666666666667, "grad_norm": 2.1426186561584473, "learning_rate": 1.1464667077743683e-05, "loss": 0.3658, "step": 4571 }, { "epoch": 1.524, "grad_norm": 2.3184545040130615, "learning_rate": 1.1460830285624119e-05, "loss": 0.4062, "step": 4572 }, { "epoch": 1.5243333333333333, "grad_norm": 2.7629973888397217, "learning_rate": 1.1456993273754258e-05, "loss": 0.4366, "step": 4573 }, { "epoch": 1.5246666666666666, "grad_norm": 3.2267942428588867, "learning_rate": 1.14531560427113e-05, "loss": 0.3381, "step": 4574 }, { "epoch": 1.525, "grad_norm": 2.2783761024475098, "learning_rate": 1.1449318593072468e-05, "loss": 0.407, "step": 4575 }, { "epoch": 1.5253333333333332, "grad_norm": 3.583699941635132, "learning_rate": 1.144548092541503e-05, "loss": 0.4654, "step": 4576 }, { "epoch": 1.5256666666666665, "grad_norm": 1.9921696186065674, "learning_rate": 1.1441643040316275e-05, "loss": 0.4384, "step": 4577 }, { "epoch": 1.526, "grad_norm": 1.8321667909622192, "learning_rate": 1.143780493835353e-05, "loss": 0.3963, "step": 4578 }, { "epoch": 1.5263333333333333, "grad_norm": 2.9079325199127197, "learning_rate": 1.1433966620104155e-05, "loss": 0.4446, "step": 4579 }, { "epoch": 1.5266666666666666, "grad_norm": 2.1535236835479736, "learning_rate": 1.1430128086145542e-05, "loss": 0.3739, "step": 4580 }, { "epoch": 1.5270000000000001, "grad_norm": 2.520395517349243, "learning_rate": 1.1426289337055119e-05, "loss": 0.4276, "step": 4581 }, { "epoch": 1.5273333333333334, "grad_norm": 2.4481453895568848, "learning_rate": 1.1422450373410337e-05, "loss": 0.3888, "step": 4582 }, { "epoch": 1.5276666666666667, "grad_norm": 2.026834487915039, "learning_rate": 1.1418611195788687e-05, "loss": 0.4215, "step": 4583 }, { "epoch": 1.528, "grad_norm": 2.345726490020752, "learning_rate": 1.141477180476769e-05, "loss": 0.4161, "step": 4584 }, { "epoch": 1.5283333333333333, "grad_norm": 2.5751025676727295, "learning_rate": 1.1410932200924901e-05, "loss": 0.4246, "step": 4585 }, { "epoch": 1.5286666666666666, "grad_norm": 3.168186902999878, "learning_rate": 1.1407092384837903e-05, "loss": 0.382, "step": 4586 }, { "epoch": 1.529, "grad_norm": 2.9757847785949707, "learning_rate": 1.1403252357084315e-05, "loss": 0.3603, "step": 4587 }, { "epoch": 1.5293333333333332, "grad_norm": 2.555752754211426, "learning_rate": 1.1399412118241785e-05, "loss": 0.3972, "step": 4588 }, { "epoch": 1.5296666666666665, "grad_norm": 2.2885689735412598, "learning_rate": 1.1395571668887995e-05, "loss": 0.3812, "step": 4589 }, { "epoch": 1.53, "grad_norm": 1.930442452430725, "learning_rate": 1.1391731009600655e-05, "loss": 0.3865, "step": 4590 }, { "epoch": 1.5303333333333333, "grad_norm": 2.6977665424346924, "learning_rate": 1.1387890140957513e-05, "loss": 0.4045, "step": 4591 }, { "epoch": 1.5306666666666666, "grad_norm": 3.0578505992889404, "learning_rate": 1.138404906353634e-05, "loss": 0.4275, "step": 4592 }, { "epoch": 1.5310000000000001, "grad_norm": 2.3081791400909424, "learning_rate": 1.1380207777914946e-05, "loss": 0.4338, "step": 4593 }, { "epoch": 1.5313333333333334, "grad_norm": 3.016777992248535, "learning_rate": 1.1376366284671167e-05, "loss": 0.4335, "step": 4594 }, { "epoch": 1.5316666666666667, "grad_norm": 1.9012219905853271, "learning_rate": 1.1372524584382876e-05, "loss": 0.3982, "step": 4595 }, { "epoch": 1.532, "grad_norm": 2.534528970718384, "learning_rate": 1.1368682677627971e-05, "loss": 0.4031, "step": 4596 }, { "epoch": 1.5323333333333333, "grad_norm": 2.0854902267456055, "learning_rate": 1.1364840564984385e-05, "loss": 0.3787, "step": 4597 }, { "epoch": 1.5326666666666666, "grad_norm": 4.48397159576416, "learning_rate": 1.1360998247030078e-05, "loss": 0.4055, "step": 4598 }, { "epoch": 1.533, "grad_norm": 2.437084674835205, "learning_rate": 1.1357155724343046e-05, "loss": 0.3845, "step": 4599 }, { "epoch": 1.5333333333333332, "grad_norm": 2.558687448501587, "learning_rate": 1.1353312997501313e-05, "loss": 0.3655, "step": 4600 }, { "epoch": 1.5336666666666665, "grad_norm": 2.5663747787475586, "learning_rate": 1.1349470067082934e-05, "loss": 0.4437, "step": 4601 }, { "epoch": 1.534, "grad_norm": 2.5764846801757812, "learning_rate": 1.1345626933665996e-05, "loss": 0.4029, "step": 4602 }, { "epoch": 1.5343333333333333, "grad_norm": 2.0151638984680176, "learning_rate": 1.1341783597828611e-05, "loss": 0.4111, "step": 4603 }, { "epoch": 1.5346666666666666, "grad_norm": 2.4481468200683594, "learning_rate": 1.133794006014893e-05, "loss": 0.4107, "step": 4604 }, { "epoch": 1.5350000000000001, "grad_norm": 2.4583842754364014, "learning_rate": 1.1334096321205129e-05, "loss": 0.4021, "step": 4605 }, { "epoch": 1.5353333333333334, "grad_norm": 2.3759219646453857, "learning_rate": 1.1330252381575415e-05, "loss": 0.3764, "step": 4606 }, { "epoch": 1.5356666666666667, "grad_norm": 2.4388067722320557, "learning_rate": 1.1326408241838026e-05, "loss": 0.4197, "step": 4607 }, { "epoch": 1.536, "grad_norm": 2.0552756786346436, "learning_rate": 1.1322563902571227e-05, "loss": 0.3874, "step": 4608 }, { "epoch": 1.5363333333333333, "grad_norm": 2.1117823123931885, "learning_rate": 1.1318719364353319e-05, "loss": 0.3947, "step": 4609 }, { "epoch": 1.5366666666666666, "grad_norm": 2.28401780128479, "learning_rate": 1.1314874627762627e-05, "loss": 0.4232, "step": 4610 }, { "epoch": 1.537, "grad_norm": 2.3095343112945557, "learning_rate": 1.1311029693377511e-05, "loss": 0.3726, "step": 4611 }, { "epoch": 1.5373333333333332, "grad_norm": 2.3964972496032715, "learning_rate": 1.1307184561776354e-05, "loss": 0.4091, "step": 4612 }, { "epoch": 1.5376666666666665, "grad_norm": 1.8483046293258667, "learning_rate": 1.1303339233537577e-05, "loss": 0.3929, "step": 4613 }, { "epoch": 1.538, "grad_norm": 2.4538846015930176, "learning_rate": 1.1299493709239628e-05, "loss": 0.407, "step": 4614 }, { "epoch": 1.5383333333333333, "grad_norm": 1.9776288270950317, "learning_rate": 1.1295647989460978e-05, "loss": 0.3792, "step": 4615 }, { "epoch": 1.5386666666666666, "grad_norm": 2.1142117977142334, "learning_rate": 1.1291802074780134e-05, "loss": 0.3748, "step": 4616 }, { "epoch": 1.5390000000000001, "grad_norm": 2.1858370304107666, "learning_rate": 1.128795596577563e-05, "loss": 0.4106, "step": 4617 }, { "epoch": 1.5393333333333334, "grad_norm": 2.3255436420440674, "learning_rate": 1.1284109663026031e-05, "loss": 0.3936, "step": 4618 }, { "epoch": 1.5396666666666667, "grad_norm": 2.332824468612671, "learning_rate": 1.1280263167109929e-05, "loss": 0.4284, "step": 4619 }, { "epoch": 1.54, "grad_norm": 2.367053270339966, "learning_rate": 1.127641647860595e-05, "loss": 0.4017, "step": 4620 }, { "epoch": 1.5403333333333333, "grad_norm": 1.9043395519256592, "learning_rate": 1.1272569598092737e-05, "loss": 0.3652, "step": 4621 }, { "epoch": 1.5406666666666666, "grad_norm": 1.9708354473114014, "learning_rate": 1.1268722526148977e-05, "loss": 0.4172, "step": 4622 }, { "epoch": 1.541, "grad_norm": 2.1746528148651123, "learning_rate": 1.1264875263353375e-05, "loss": 0.3341, "step": 4623 }, { "epoch": 1.5413333333333332, "grad_norm": 2.5968854427337646, "learning_rate": 1.1261027810284668e-05, "loss": 0.439, "step": 4624 }, { "epoch": 1.5416666666666665, "grad_norm": 2.7150979042053223, "learning_rate": 1.125718016752163e-05, "loss": 0.3961, "step": 4625 }, { "epoch": 1.542, "grad_norm": 2.626476526260376, "learning_rate": 1.1253332335643043e-05, "loss": 0.358, "step": 4626 }, { "epoch": 1.5423333333333333, "grad_norm": 2.6113221645355225, "learning_rate": 1.1249484315227739e-05, "loss": 0.3827, "step": 4627 }, { "epoch": 1.5426666666666666, "grad_norm": 2.03092622756958, "learning_rate": 1.1245636106854565e-05, "loss": 0.404, "step": 4628 }, { "epoch": 1.5430000000000001, "grad_norm": 2.1253018379211426, "learning_rate": 1.1241787711102405e-05, "loss": 0.4084, "step": 4629 }, { "epoch": 1.5433333333333334, "grad_norm": 2.22802472114563, "learning_rate": 1.1237939128550167e-05, "loss": 0.377, "step": 4630 }, { "epoch": 1.5436666666666667, "grad_norm": 3.0110156536102295, "learning_rate": 1.1234090359776778e-05, "loss": 0.3984, "step": 4631 }, { "epoch": 1.544, "grad_norm": 2.8835387229919434, "learning_rate": 1.1230241405361209e-05, "loss": 0.4283, "step": 4632 }, { "epoch": 1.5443333333333333, "grad_norm": 1.9403769969940186, "learning_rate": 1.122639226588245e-05, "loss": 0.4145, "step": 4633 }, { "epoch": 1.5446666666666666, "grad_norm": 2.0384490489959717, "learning_rate": 1.1222542941919526e-05, "loss": 0.3877, "step": 4634 }, { "epoch": 1.545, "grad_norm": 4.214197635650635, "learning_rate": 1.1218693434051475e-05, "loss": 0.434, "step": 4635 }, { "epoch": 1.5453333333333332, "grad_norm": 2.1647138595581055, "learning_rate": 1.1214843742857382e-05, "loss": 0.4155, "step": 4636 }, { "epoch": 1.5456666666666665, "grad_norm": 2.5295403003692627, "learning_rate": 1.1210993868916342e-05, "loss": 0.4242, "step": 4637 }, { "epoch": 1.546, "grad_norm": 2.9477016925811768, "learning_rate": 1.1207143812807489e-05, "loss": 0.4216, "step": 4638 }, { "epoch": 1.5463333333333333, "grad_norm": 2.1538548469543457, "learning_rate": 1.1203293575109981e-05, "loss": 0.4191, "step": 4639 }, { "epoch": 1.5466666666666666, "grad_norm": 2.2159759998321533, "learning_rate": 1.1199443156402998e-05, "loss": 0.4284, "step": 4640 }, { "epoch": 1.5470000000000002, "grad_norm": 2.2940385341644287, "learning_rate": 1.1195592557265757e-05, "loss": 0.4005, "step": 4641 }, { "epoch": 1.5473333333333334, "grad_norm": 1.986438274383545, "learning_rate": 1.1191741778277496e-05, "loss": 0.4162, "step": 4642 }, { "epoch": 1.5476666666666667, "grad_norm": 1.8089224100112915, "learning_rate": 1.1187890820017485e-05, "loss": 0.3665, "step": 4643 }, { "epoch": 1.548, "grad_norm": 2.4131550788879395, "learning_rate": 1.1184039683065014e-05, "loss": 0.3972, "step": 4644 }, { "epoch": 1.5483333333333333, "grad_norm": 2.6298828125, "learning_rate": 1.1180188367999395e-05, "loss": 0.4087, "step": 4645 }, { "epoch": 1.5486666666666666, "grad_norm": 2.8239173889160156, "learning_rate": 1.1176336875399991e-05, "loss": 0.4246, "step": 4646 }, { "epoch": 1.549, "grad_norm": 2.4081337451934814, "learning_rate": 1.1172485205846161e-05, "loss": 0.4112, "step": 4647 }, { "epoch": 1.5493333333333332, "grad_norm": 2.2222630977630615, "learning_rate": 1.1168633359917319e-05, "loss": 0.4168, "step": 4648 }, { "epoch": 1.5496666666666665, "grad_norm": 1.9541877508163452, "learning_rate": 1.116478133819288e-05, "loss": 0.3793, "step": 4649 }, { "epoch": 1.55, "grad_norm": 1.9589672088623047, "learning_rate": 1.1160929141252303e-05, "loss": 0.382, "step": 4650 }, { "epoch": 1.5503333333333333, "grad_norm": 1.9807180166244507, "learning_rate": 1.1157076769675068e-05, "loss": 0.3802, "step": 4651 }, { "epoch": 1.5506666666666666, "grad_norm": 1.9759724140167236, "learning_rate": 1.1153224224040678e-05, "loss": 0.431, "step": 4652 }, { "epoch": 1.5510000000000002, "grad_norm": 2.858398199081421, "learning_rate": 1.1149371504928667e-05, "loss": 0.3615, "step": 4653 }, { "epoch": 1.5513333333333335, "grad_norm": 3.086412191390991, "learning_rate": 1.1145518612918593e-05, "loss": 0.3488, "step": 4654 }, { "epoch": 1.5516666666666667, "grad_norm": 3.077212333679199, "learning_rate": 1.1141665548590041e-05, "loss": 0.4101, "step": 4655 }, { "epoch": 1.552, "grad_norm": 2.8847625255584717, "learning_rate": 1.1137812312522618e-05, "loss": 0.3733, "step": 4656 }, { "epoch": 1.5523333333333333, "grad_norm": 1.9701124429702759, "learning_rate": 1.1133958905295965e-05, "loss": 0.4082, "step": 4657 }, { "epoch": 1.5526666666666666, "grad_norm": 2.7493772506713867, "learning_rate": 1.113010532748974e-05, "loss": 0.3864, "step": 4658 }, { "epoch": 1.553, "grad_norm": 3.2303378582000732, "learning_rate": 1.112625157968363e-05, "loss": 0.4049, "step": 4659 }, { "epoch": 1.5533333333333332, "grad_norm": 3.9866883754730225, "learning_rate": 1.1122397662457352e-05, "loss": 0.4236, "step": 4660 }, { "epoch": 1.5536666666666665, "grad_norm": 2.9112443923950195, "learning_rate": 1.1118543576390636e-05, "loss": 0.3875, "step": 4661 }, { "epoch": 1.554, "grad_norm": 2.420149564743042, "learning_rate": 1.1114689322063255e-05, "loss": 0.4095, "step": 4662 }, { "epoch": 1.5543333333333333, "grad_norm": 2.4312527179718018, "learning_rate": 1.1110834900054996e-05, "loss": 0.3927, "step": 4663 }, { "epoch": 1.5546666666666666, "grad_norm": 2.8385722637176514, "learning_rate": 1.110698031094567e-05, "loss": 0.4002, "step": 4664 }, { "epoch": 1.5550000000000002, "grad_norm": 2.0809662342071533, "learning_rate": 1.110312555531512e-05, "loss": 0.4217, "step": 4665 }, { "epoch": 1.5553333333333335, "grad_norm": 1.9962151050567627, "learning_rate": 1.1099270633743204e-05, "loss": 0.3576, "step": 4666 }, { "epoch": 1.5556666666666668, "grad_norm": 2.9496941566467285, "learning_rate": 1.1095415546809822e-05, "loss": 0.3973, "step": 4667 }, { "epoch": 1.556, "grad_norm": 2.1002399921417236, "learning_rate": 1.109156029509488e-05, "loss": 0.3634, "step": 4668 }, { "epoch": 1.5563333333333333, "grad_norm": 2.4066667556762695, "learning_rate": 1.1087704879178322e-05, "loss": 0.3954, "step": 4669 }, { "epoch": 1.5566666666666666, "grad_norm": 2.5645601749420166, "learning_rate": 1.1083849299640109e-05, "loss": 0.4285, "step": 4670 }, { "epoch": 1.557, "grad_norm": 1.7781466245651245, "learning_rate": 1.1079993557060228e-05, "loss": 0.3484, "step": 4671 }, { "epoch": 1.5573333333333332, "grad_norm": 2.4414970874786377, "learning_rate": 1.1076137652018699e-05, "loss": 0.4327, "step": 4672 }, { "epoch": 1.5576666666666665, "grad_norm": 2.3034300804138184, "learning_rate": 1.1072281585095552e-05, "loss": 0.3953, "step": 4673 }, { "epoch": 1.558, "grad_norm": 1.8869044780731201, "learning_rate": 1.1068425356870853e-05, "loss": 0.4152, "step": 4674 }, { "epoch": 1.5583333333333333, "grad_norm": 2.1908695697784424, "learning_rate": 1.1064568967924683e-05, "loss": 0.369, "step": 4675 }, { "epoch": 1.5586666666666666, "grad_norm": 2.319551467895508, "learning_rate": 1.1060712418837159e-05, "loss": 0.3977, "step": 4676 }, { "epoch": 1.5590000000000002, "grad_norm": 1.9849603176116943, "learning_rate": 1.1056855710188413e-05, "loss": 0.363, "step": 4677 }, { "epoch": 1.5593333333333335, "grad_norm": 2.3069894313812256, "learning_rate": 1.10529988425586e-05, "loss": 0.4119, "step": 4678 }, { "epoch": 1.5596666666666668, "grad_norm": 2.2390997409820557, "learning_rate": 1.1049141816527906e-05, "loss": 0.3943, "step": 4679 }, { "epoch": 1.56, "grad_norm": 2.2448410987854004, "learning_rate": 1.1045284632676535e-05, "loss": 0.4021, "step": 4680 }, { "epoch": 1.5603333333333333, "grad_norm": 2.17044997215271, "learning_rate": 1.1041427291584719e-05, "loss": 0.4067, "step": 4681 }, { "epoch": 1.5606666666666666, "grad_norm": 3.391261339187622, "learning_rate": 1.103756979383271e-05, "loss": 0.4181, "step": 4682 }, { "epoch": 1.561, "grad_norm": 1.939231276512146, "learning_rate": 1.1033712140000787e-05, "loss": 0.3928, "step": 4683 }, { "epoch": 1.5613333333333332, "grad_norm": 2.8292856216430664, "learning_rate": 1.1029854330669245e-05, "loss": 0.4068, "step": 4684 }, { "epoch": 1.5616666666666665, "grad_norm": 2.590684652328491, "learning_rate": 1.1025996366418413e-05, "loss": 0.3819, "step": 4685 }, { "epoch": 1.562, "grad_norm": 2.2163379192352295, "learning_rate": 1.1022138247828638e-05, "loss": 0.4061, "step": 4686 }, { "epoch": 1.5623333333333334, "grad_norm": 2.145742177963257, "learning_rate": 1.1018279975480288e-05, "loss": 0.3218, "step": 4687 }, { "epoch": 1.5626666666666666, "grad_norm": 1.8293603658676147, "learning_rate": 1.101442154995376e-05, "loss": 0.401, "step": 4688 }, { "epoch": 1.563, "grad_norm": 3.057927370071411, "learning_rate": 1.1010562971829464e-05, "loss": 0.428, "step": 4689 }, { "epoch": 1.5633333333333335, "grad_norm": 2.913428544998169, "learning_rate": 1.1006704241687846e-05, "loss": 0.4109, "step": 4690 }, { "epoch": 1.5636666666666668, "grad_norm": 2.055891752243042, "learning_rate": 1.1002845360109368e-05, "loss": 0.4101, "step": 4691 }, { "epoch": 1.564, "grad_norm": 2.057849407196045, "learning_rate": 1.0998986327674515e-05, "loss": 0.3994, "step": 4692 }, { "epoch": 1.5643333333333334, "grad_norm": 2.349092960357666, "learning_rate": 1.0995127144963792e-05, "loss": 0.3807, "step": 4693 }, { "epoch": 1.5646666666666667, "grad_norm": 3.7130393981933594, "learning_rate": 1.0991267812557726e-05, "loss": 0.4104, "step": 4694 }, { "epoch": 1.565, "grad_norm": 2.899174690246582, "learning_rate": 1.0987408331036879e-05, "loss": 0.4427, "step": 4695 }, { "epoch": 1.5653333333333332, "grad_norm": 2.764601469039917, "learning_rate": 1.0983548700981825e-05, "loss": 0.3879, "step": 4696 }, { "epoch": 1.5656666666666665, "grad_norm": 2.248028516769409, "learning_rate": 1.0979688922973157e-05, "loss": 0.382, "step": 4697 }, { "epoch": 1.5659999999999998, "grad_norm": 2.628772735595703, "learning_rate": 1.0975828997591496e-05, "loss": 0.3861, "step": 4698 }, { "epoch": 1.5663333333333334, "grad_norm": 2.4924910068511963, "learning_rate": 1.0971968925417486e-05, "loss": 0.4031, "step": 4699 }, { "epoch": 1.5666666666666667, "grad_norm": 2.4867780208587646, "learning_rate": 1.0968108707031792e-05, "loss": 0.3957, "step": 4700 }, { "epoch": 1.567, "grad_norm": 2.0705368518829346, "learning_rate": 1.09642483430151e-05, "loss": 0.3884, "step": 4701 }, { "epoch": 1.5673333333333335, "grad_norm": 1.9664608240127563, "learning_rate": 1.0960387833948117e-05, "loss": 0.3794, "step": 4702 }, { "epoch": 1.5676666666666668, "grad_norm": 2.253676414489746, "learning_rate": 1.095652718041157e-05, "loss": 0.3807, "step": 4703 }, { "epoch": 1.568, "grad_norm": 4.3155837059021, "learning_rate": 1.0952666382986216e-05, "loss": 0.4043, "step": 4704 }, { "epoch": 1.5683333333333334, "grad_norm": 1.858162522315979, "learning_rate": 1.0948805442252828e-05, "loss": 0.3636, "step": 4705 }, { "epoch": 1.5686666666666667, "grad_norm": 2.0638339519500732, "learning_rate": 1.09449443587922e-05, "loss": 0.414, "step": 4706 }, { "epoch": 1.569, "grad_norm": 2.9656152725219727, "learning_rate": 1.0941083133185146e-05, "loss": 0.3737, "step": 4707 }, { "epoch": 1.5693333333333332, "grad_norm": 2.032008647918701, "learning_rate": 1.0937221766012504e-05, "loss": 0.4132, "step": 4708 }, { "epoch": 1.5696666666666665, "grad_norm": 1.9929908514022827, "learning_rate": 1.0933360257855137e-05, "loss": 0.3739, "step": 4709 }, { "epoch": 1.5699999999999998, "grad_norm": 2.375175952911377, "learning_rate": 1.0929498609293925e-05, "loss": 0.3748, "step": 4710 }, { "epoch": 1.5703333333333334, "grad_norm": 2.020542621612549, "learning_rate": 1.0925636820909764e-05, "loss": 0.3929, "step": 4711 }, { "epoch": 1.5706666666666667, "grad_norm": 2.082646131515503, "learning_rate": 1.092177489328358e-05, "loss": 0.4019, "step": 4712 }, { "epoch": 1.571, "grad_norm": 2.1189210414886475, "learning_rate": 1.0917912826996319e-05, "loss": 0.3736, "step": 4713 }, { "epoch": 1.5713333333333335, "grad_norm": 1.821919322013855, "learning_rate": 1.0914050622628942e-05, "loss": 0.4036, "step": 4714 }, { "epoch": 1.5716666666666668, "grad_norm": 3.0367393493652344, "learning_rate": 1.0910188280762435e-05, "loss": 0.3822, "step": 4715 }, { "epoch": 1.572, "grad_norm": 2.570927143096924, "learning_rate": 1.0906325801977804e-05, "loss": 0.4002, "step": 4716 }, { "epoch": 1.5723333333333334, "grad_norm": 2.153837203979492, "learning_rate": 1.0902463186856071e-05, "loss": 0.3984, "step": 4717 }, { "epoch": 1.5726666666666667, "grad_norm": 2.3464348316192627, "learning_rate": 1.0898600435978291e-05, "loss": 0.4062, "step": 4718 }, { "epoch": 1.573, "grad_norm": 2.3791842460632324, "learning_rate": 1.0894737549925525e-05, "loss": 0.394, "step": 4719 }, { "epoch": 1.5733333333333333, "grad_norm": 1.9859588146209717, "learning_rate": 1.0890874529278866e-05, "loss": 0.4008, "step": 4720 }, { "epoch": 1.5736666666666665, "grad_norm": 2.2477478981018066, "learning_rate": 1.0887011374619412e-05, "loss": 0.38, "step": 4721 }, { "epoch": 1.5739999999999998, "grad_norm": 2.416189432144165, "learning_rate": 1.08831480865283e-05, "loss": 0.3843, "step": 4722 }, { "epoch": 1.5743333333333334, "grad_norm": 2.2872397899627686, "learning_rate": 1.0879284665586678e-05, "loss": 0.404, "step": 4723 }, { "epoch": 1.5746666666666667, "grad_norm": 2.1532442569732666, "learning_rate": 1.0875421112375709e-05, "loss": 0.4106, "step": 4724 }, { "epoch": 1.575, "grad_norm": 2.477294683456421, "learning_rate": 1.0871557427476585e-05, "loss": 0.4027, "step": 4725 }, { "epoch": 1.5753333333333335, "grad_norm": 1.9042569398880005, "learning_rate": 1.0867693611470508e-05, "loss": 0.3679, "step": 4726 }, { "epoch": 1.5756666666666668, "grad_norm": 1.989035964012146, "learning_rate": 1.0863829664938714e-05, "loss": 0.3941, "step": 4727 }, { "epoch": 1.576, "grad_norm": 2.2634170055389404, "learning_rate": 1.0859965588462442e-05, "loss": 0.4173, "step": 4728 }, { "epoch": 1.5763333333333334, "grad_norm": 2.1763765811920166, "learning_rate": 1.0856101382622968e-05, "loss": 0.4017, "step": 4729 }, { "epoch": 1.5766666666666667, "grad_norm": 2.779428482055664, "learning_rate": 1.0852237048001568e-05, "loss": 0.4213, "step": 4730 }, { "epoch": 1.577, "grad_norm": 2.4275803565979004, "learning_rate": 1.0848372585179552e-05, "loss": 0.3812, "step": 4731 }, { "epoch": 1.5773333333333333, "grad_norm": 2.0971174240112305, "learning_rate": 1.0844507994738248e-05, "loss": 0.3975, "step": 4732 }, { "epoch": 1.5776666666666666, "grad_norm": 2.3259613513946533, "learning_rate": 1.0840643277258993e-05, "loss": 0.4296, "step": 4733 }, { "epoch": 1.5779999999999998, "grad_norm": 2.3203985691070557, "learning_rate": 1.083677843332316e-05, "loss": 0.3925, "step": 4734 }, { "epoch": 1.5783333333333334, "grad_norm": 2.19077205657959, "learning_rate": 1.0832913463512116e-05, "loss": 0.39, "step": 4735 }, { "epoch": 1.5786666666666667, "grad_norm": 1.7853426933288574, "learning_rate": 1.0829048368407276e-05, "loss": 0.3616, "step": 4736 }, { "epoch": 1.579, "grad_norm": 2.1817517280578613, "learning_rate": 1.0825183148590055e-05, "loss": 0.407, "step": 4737 }, { "epoch": 1.5793333333333335, "grad_norm": 1.7937780618667603, "learning_rate": 1.0821317804641892e-05, "loss": 0.4119, "step": 4738 }, { "epoch": 1.5796666666666668, "grad_norm": 2.0732204914093018, "learning_rate": 1.0817452337144242e-05, "loss": 0.4109, "step": 4739 }, { "epoch": 1.58, "grad_norm": 2.1286094188690186, "learning_rate": 1.0813586746678584e-05, "loss": 0.3918, "step": 4740 }, { "epoch": 1.5803333333333334, "grad_norm": 2.1760098934173584, "learning_rate": 1.0809721033826413e-05, "loss": 0.4095, "step": 4741 }, { "epoch": 1.5806666666666667, "grad_norm": 2.117506504058838, "learning_rate": 1.0805855199169235e-05, "loss": 0.3851, "step": 4742 }, { "epoch": 1.581, "grad_norm": 2.2339413166046143, "learning_rate": 1.0801989243288588e-05, "loss": 0.3675, "step": 4743 }, { "epoch": 1.5813333333333333, "grad_norm": 1.8721472024917603, "learning_rate": 1.0798123166766026e-05, "loss": 0.4194, "step": 4744 }, { "epoch": 1.5816666666666666, "grad_norm": 2.2725019454956055, "learning_rate": 1.0794256970183104e-05, "loss": 0.3939, "step": 4745 }, { "epoch": 1.5819999999999999, "grad_norm": 2.296945333480835, "learning_rate": 1.0790390654121414e-05, "loss": 0.3547, "step": 4746 }, { "epoch": 1.5823333333333334, "grad_norm": 3.4445290565490723, "learning_rate": 1.0786524219162558e-05, "loss": 0.3988, "step": 4747 }, { "epoch": 1.5826666666666667, "grad_norm": 2.450566053390503, "learning_rate": 1.0782657665888162e-05, "loss": 0.3965, "step": 4748 }, { "epoch": 1.583, "grad_norm": 2.256586790084839, "learning_rate": 1.077879099487986e-05, "loss": 0.3872, "step": 4749 }, { "epoch": 1.5833333333333335, "grad_norm": 2.3115105628967285, "learning_rate": 1.077492420671931e-05, "loss": 0.4002, "step": 4750 }, { "epoch": 1.5836666666666668, "grad_norm": 2.436431646347046, "learning_rate": 1.0771057301988191e-05, "loss": 0.3653, "step": 4751 }, { "epoch": 1.584, "grad_norm": 1.936546802520752, "learning_rate": 1.0767190281268187e-05, "loss": 0.3662, "step": 4752 }, { "epoch": 1.5843333333333334, "grad_norm": 2.678028106689453, "learning_rate": 1.0763323145141015e-05, "loss": 0.4083, "step": 4753 }, { "epoch": 1.5846666666666667, "grad_norm": 1.9824035167694092, "learning_rate": 1.0759455894188397e-05, "loss": 0.3802, "step": 4754 }, { "epoch": 1.585, "grad_norm": 2.3016467094421387, "learning_rate": 1.0755588528992082e-05, "loss": 0.3956, "step": 4755 }, { "epoch": 1.5853333333333333, "grad_norm": 2.706146001815796, "learning_rate": 1.0751721050133825e-05, "loss": 0.424, "step": 4756 }, { "epoch": 1.5856666666666666, "grad_norm": 1.9859908819198608, "learning_rate": 1.0747853458195413e-05, "loss": 0.3409, "step": 4757 }, { "epoch": 1.5859999999999999, "grad_norm": 2.7304940223693848, "learning_rate": 1.0743985753758636e-05, "loss": 0.3589, "step": 4758 }, { "epoch": 1.5863333333333334, "grad_norm": 1.7344845533370972, "learning_rate": 1.0740117937405304e-05, "loss": 0.3752, "step": 4759 }, { "epoch": 1.5866666666666667, "grad_norm": 2.2903528213500977, "learning_rate": 1.0736250009717249e-05, "loss": 0.3657, "step": 4760 }, { "epoch": 1.587, "grad_norm": 2.109903335571289, "learning_rate": 1.0732381971276318e-05, "loss": 0.3762, "step": 4761 }, { "epoch": 1.5873333333333335, "grad_norm": 3.3861196041107178, "learning_rate": 1.0728513822664373e-05, "loss": 0.3863, "step": 4762 }, { "epoch": 1.5876666666666668, "grad_norm": 2.157378911972046, "learning_rate": 1.0724645564463293e-05, "loss": 0.399, "step": 4763 }, { "epoch": 1.588, "grad_norm": 2.5586671829223633, "learning_rate": 1.0720777197254974e-05, "loss": 0.3702, "step": 4764 }, { "epoch": 1.5883333333333334, "grad_norm": 3.137629508972168, "learning_rate": 1.0716908721621331e-05, "loss": 0.3602, "step": 4765 }, { "epoch": 1.5886666666666667, "grad_norm": 2.1479222774505615, "learning_rate": 1.0713040138144284e-05, "loss": 0.3717, "step": 4766 }, { "epoch": 1.589, "grad_norm": 1.9763215780258179, "learning_rate": 1.0709171447405786e-05, "loss": 0.3755, "step": 4767 }, { "epoch": 1.5893333333333333, "grad_norm": 1.9722269773483276, "learning_rate": 1.0705302649987794e-05, "loss": 0.3943, "step": 4768 }, { "epoch": 1.5896666666666666, "grad_norm": 2.757087469100952, "learning_rate": 1.0701433746472287e-05, "loss": 0.4129, "step": 4769 }, { "epoch": 1.5899999999999999, "grad_norm": 2.2545645236968994, "learning_rate": 1.0697564737441254e-05, "loss": 0.3743, "step": 4770 }, { "epoch": 1.5903333333333334, "grad_norm": 2.2409629821777344, "learning_rate": 1.0693695623476707e-05, "loss": 0.3578, "step": 4771 }, { "epoch": 1.5906666666666667, "grad_norm": 2.0801119804382324, "learning_rate": 1.068982640516067e-05, "loss": 0.3405, "step": 4772 }, { "epoch": 1.591, "grad_norm": 2.3514246940612793, "learning_rate": 1.0685957083075182e-05, "loss": 0.4087, "step": 4773 }, { "epoch": 1.5913333333333335, "grad_norm": 1.6243207454681396, "learning_rate": 1.06820876578023e-05, "loss": 0.3457, "step": 4774 }, { "epoch": 1.5916666666666668, "grad_norm": 2.9967806339263916, "learning_rate": 1.0678218129924093e-05, "loss": 0.4188, "step": 4775 }, { "epoch": 1.592, "grad_norm": 1.8725097179412842, "learning_rate": 1.0674348500022653e-05, "loss": 0.3569, "step": 4776 }, { "epoch": 1.5923333333333334, "grad_norm": 2.8142142295837402, "learning_rate": 1.0670478768680074e-05, "loss": 0.4106, "step": 4777 }, { "epoch": 1.5926666666666667, "grad_norm": 3.6168906688690186, "learning_rate": 1.0666608936478482e-05, "loss": 0.4168, "step": 4778 }, { "epoch": 1.593, "grad_norm": 2.2844016551971436, "learning_rate": 1.0662739004000005e-05, "loss": 0.3972, "step": 4779 }, { "epoch": 1.5933333333333333, "grad_norm": 2.087989091873169, "learning_rate": 1.0658868971826785e-05, "loss": 0.3671, "step": 4780 }, { "epoch": 1.5936666666666666, "grad_norm": 2.884720802307129, "learning_rate": 1.0654998840540995e-05, "loss": 0.4083, "step": 4781 }, { "epoch": 1.5939999999999999, "grad_norm": 2.1068036556243896, "learning_rate": 1.0651128610724808e-05, "loss": 0.3885, "step": 4782 }, { "epoch": 1.5943333333333334, "grad_norm": 2.6984241008758545, "learning_rate": 1.0647258282960415e-05, "loss": 0.404, "step": 4783 }, { "epoch": 1.5946666666666667, "grad_norm": 2.8043196201324463, "learning_rate": 1.0643387857830024e-05, "loss": 0.4007, "step": 4784 }, { "epoch": 1.595, "grad_norm": 2.191270112991333, "learning_rate": 1.0639517335915857e-05, "loss": 0.3997, "step": 4785 }, { "epoch": 1.5953333333333335, "grad_norm": 2.2835893630981445, "learning_rate": 1.0635646717800152e-05, "loss": 0.3825, "step": 4786 }, { "epoch": 1.5956666666666668, "grad_norm": 2.3807997703552246, "learning_rate": 1.0631776004065155e-05, "loss": 0.4076, "step": 4787 }, { "epoch": 1.596, "grad_norm": 3.0683302879333496, "learning_rate": 1.0627905195293135e-05, "loss": 0.3545, "step": 4788 }, { "epoch": 1.5963333333333334, "grad_norm": 2.0057082176208496, "learning_rate": 1.0624034292066369e-05, "loss": 0.3836, "step": 4789 }, { "epoch": 1.5966666666666667, "grad_norm": 2.6906983852386475, "learning_rate": 1.0620163294967155e-05, "loss": 0.3625, "step": 4790 }, { "epoch": 1.597, "grad_norm": 2.220893621444702, "learning_rate": 1.0616292204577796e-05, "loss": 0.3241, "step": 4791 }, { "epoch": 1.5973333333333333, "grad_norm": 2.17507266998291, "learning_rate": 1.0612421021480614e-05, "loss": 0.3913, "step": 4792 }, { "epoch": 1.5976666666666666, "grad_norm": 5.486623764038086, "learning_rate": 1.0608549746257949e-05, "loss": 0.4216, "step": 4793 }, { "epoch": 1.5979999999999999, "grad_norm": 1.9665871858596802, "learning_rate": 1.0604678379492143e-05, "loss": 0.363, "step": 4794 }, { "epoch": 1.5983333333333334, "grad_norm": 2.3992183208465576, "learning_rate": 1.0600806921765568e-05, "loss": 0.4097, "step": 4795 }, { "epoch": 1.5986666666666667, "grad_norm": 2.255674362182617, "learning_rate": 1.0596935373660595e-05, "loss": 0.4281, "step": 4796 }, { "epoch": 1.599, "grad_norm": 5.246337890625, "learning_rate": 1.0593063735759619e-05, "loss": 0.4043, "step": 4797 }, { "epoch": 1.5993333333333335, "grad_norm": 2.734703779220581, "learning_rate": 1.0589192008645037e-05, "loss": 0.3863, "step": 4798 }, { "epoch": 1.5996666666666668, "grad_norm": 2.6793932914733887, "learning_rate": 1.0585320192899275e-05, "loss": 0.4015, "step": 4799 }, { "epoch": 1.6, "grad_norm": 2.8210718631744385, "learning_rate": 1.0581448289104759e-05, "loss": 0.3989, "step": 4800 }, { "epoch": 1.6003333333333334, "grad_norm": 2.7178497314453125, "learning_rate": 1.0577576297843936e-05, "loss": 0.3826, "step": 4801 }, { "epoch": 1.6006666666666667, "grad_norm": 2.5951902866363525, "learning_rate": 1.0573704219699258e-05, "loss": 0.376, "step": 4802 }, { "epoch": 1.601, "grad_norm": 3.310730218887329, "learning_rate": 1.05698320552532e-05, "loss": 0.4054, "step": 4803 }, { "epoch": 1.6013333333333333, "grad_norm": 2.4814789295196533, "learning_rate": 1.0565959805088246e-05, "loss": 0.4398, "step": 4804 }, { "epoch": 1.6016666666666666, "grad_norm": 2.1903674602508545, "learning_rate": 1.056208746978689e-05, "loss": 0.3682, "step": 4805 }, { "epoch": 1.6019999999999999, "grad_norm": 2.1509461402893066, "learning_rate": 1.055821504993164e-05, "loss": 0.4006, "step": 4806 }, { "epoch": 1.6023333333333334, "grad_norm": 2.4567108154296875, "learning_rate": 1.0554342546105021e-05, "loss": 0.3959, "step": 4807 }, { "epoch": 1.6026666666666667, "grad_norm": 2.2782247066497803, "learning_rate": 1.0550469958889562e-05, "loss": 0.4068, "step": 4808 }, { "epoch": 1.603, "grad_norm": 2.2155869007110596, "learning_rate": 1.0546597288867815e-05, "loss": 0.3954, "step": 4809 }, { "epoch": 1.6033333333333335, "grad_norm": 2.044660806655884, "learning_rate": 1.054272453662234e-05, "loss": 0.4247, "step": 4810 }, { "epoch": 1.6036666666666668, "grad_norm": 2.046394109725952, "learning_rate": 1.0538851702735704e-05, "loss": 0.3846, "step": 4811 }, { "epoch": 1.604, "grad_norm": 1.964968204498291, "learning_rate": 1.0534978787790494e-05, "loss": 0.3631, "step": 4812 }, { "epoch": 1.6043333333333334, "grad_norm": 3.1363744735717773, "learning_rate": 1.0531105792369305e-05, "loss": 0.3974, "step": 4813 }, { "epoch": 1.6046666666666667, "grad_norm": 2.5201399326324463, "learning_rate": 1.0527232717054744e-05, "loss": 0.369, "step": 4814 }, { "epoch": 1.605, "grad_norm": 3.5226402282714844, "learning_rate": 1.0523359562429441e-05, "loss": 0.4167, "step": 4815 }, { "epoch": 1.6053333333333333, "grad_norm": 2.0293350219726562, "learning_rate": 1.0519486329076017e-05, "loss": 0.3853, "step": 4816 }, { "epoch": 1.6056666666666666, "grad_norm": 1.8135545253753662, "learning_rate": 1.0515613017577115e-05, "loss": 0.3598, "step": 4817 }, { "epoch": 1.6059999999999999, "grad_norm": 2.093762159347534, "learning_rate": 1.0511739628515402e-05, "loss": 0.3946, "step": 4818 }, { "epoch": 1.6063333333333332, "grad_norm": 1.9064711332321167, "learning_rate": 1.0507866162473537e-05, "loss": 0.3919, "step": 4819 }, { "epoch": 1.6066666666666667, "grad_norm": 2.6507022380828857, "learning_rate": 1.0503992620034202e-05, "loss": 0.4005, "step": 4820 }, { "epoch": 1.607, "grad_norm": 2.795788049697876, "learning_rate": 1.0500119001780085e-05, "loss": 0.4228, "step": 4821 }, { "epoch": 1.6073333333333333, "grad_norm": 4.068974018096924, "learning_rate": 1.0496245308293892e-05, "loss": 0.4176, "step": 4822 }, { "epoch": 1.6076666666666668, "grad_norm": 2.7622857093811035, "learning_rate": 1.0492371540158332e-05, "loss": 0.3934, "step": 4823 }, { "epoch": 1.608, "grad_norm": 2.65724515914917, "learning_rate": 1.0488497697956134e-05, "loss": 0.4162, "step": 4824 }, { "epoch": 1.6083333333333334, "grad_norm": 2.5938451290130615, "learning_rate": 1.0484623782270032e-05, "loss": 0.3533, "step": 4825 }, { "epoch": 1.6086666666666667, "grad_norm": 2.4468917846679688, "learning_rate": 1.048074979368277e-05, "loss": 0.3922, "step": 4826 }, { "epoch": 1.609, "grad_norm": 2.1622705459594727, "learning_rate": 1.047687573277711e-05, "loss": 0.3719, "step": 4827 }, { "epoch": 1.6093333333333333, "grad_norm": 2.59745717048645, "learning_rate": 1.0473001600135815e-05, "loss": 0.3964, "step": 4828 }, { "epoch": 1.6096666666666666, "grad_norm": 2.2890374660491943, "learning_rate": 1.0469127396341675e-05, "loss": 0.3712, "step": 4829 }, { "epoch": 1.6099999999999999, "grad_norm": 2.776484489440918, "learning_rate": 1.046525312197747e-05, "loss": 0.3862, "step": 4830 }, { "epoch": 1.6103333333333332, "grad_norm": 3.104187250137329, "learning_rate": 1.0461378777626001e-05, "loss": 0.4083, "step": 4831 }, { "epoch": 1.6106666666666667, "grad_norm": 2.26220440864563, "learning_rate": 1.0457504363870084e-05, "loss": 0.3692, "step": 4832 }, { "epoch": 1.611, "grad_norm": 2.8042452335357666, "learning_rate": 1.0453629881292537e-05, "loss": 0.4228, "step": 4833 }, { "epoch": 1.6113333333333333, "grad_norm": 2.036648750305176, "learning_rate": 1.04497553304762e-05, "loss": 0.3876, "step": 4834 }, { "epoch": 1.6116666666666668, "grad_norm": 3.0298118591308594, "learning_rate": 1.0445880712003901e-05, "loss": 0.395, "step": 4835 }, { "epoch": 1.612, "grad_norm": 2.0553860664367676, "learning_rate": 1.0442006026458506e-05, "loss": 0.353, "step": 4836 }, { "epoch": 1.6123333333333334, "grad_norm": 2.584496021270752, "learning_rate": 1.0438131274422872e-05, "loss": 0.4106, "step": 4837 }, { "epoch": 1.6126666666666667, "grad_norm": 2.3801681995391846, "learning_rate": 1.0434256456479868e-05, "loss": 0.408, "step": 4838 }, { "epoch": 1.613, "grad_norm": 2.0928633213043213, "learning_rate": 1.0430381573212385e-05, "loss": 0.3503, "step": 4839 }, { "epoch": 1.6133333333333333, "grad_norm": 2.049912691116333, "learning_rate": 1.0426506625203308e-05, "loss": 0.3862, "step": 4840 }, { "epoch": 1.6136666666666666, "grad_norm": 2.269869327545166, "learning_rate": 1.042263161303554e-05, "loss": 0.4249, "step": 4841 }, { "epoch": 1.6139999999999999, "grad_norm": 3.526336669921875, "learning_rate": 1.0418756537291996e-05, "loss": 0.437, "step": 4842 }, { "epoch": 1.6143333333333332, "grad_norm": 2.8765945434570312, "learning_rate": 1.0414881398555596e-05, "loss": 0.4274, "step": 4843 }, { "epoch": 1.6146666666666667, "grad_norm": 3.190725326538086, "learning_rate": 1.0411006197409272e-05, "loss": 0.3941, "step": 4844 }, { "epoch": 1.615, "grad_norm": 2.027998208999634, "learning_rate": 1.040713093443596e-05, "loss": 0.395, "step": 4845 }, { "epoch": 1.6153333333333333, "grad_norm": 2.842268943786621, "learning_rate": 1.0403255610218613e-05, "loss": 0.3985, "step": 4846 }, { "epoch": 1.6156666666666668, "grad_norm": 2.3296847343444824, "learning_rate": 1.0399380225340186e-05, "loss": 0.3921, "step": 4847 }, { "epoch": 1.616, "grad_norm": 2.092621088027954, "learning_rate": 1.0395504780383653e-05, "loss": 0.4101, "step": 4848 }, { "epoch": 1.6163333333333334, "grad_norm": 2.0927963256835938, "learning_rate": 1.0391629275931982e-05, "loss": 0.3955, "step": 4849 }, { "epoch": 1.6166666666666667, "grad_norm": 3.2226643562316895, "learning_rate": 1.038775371256817e-05, "loss": 0.3977, "step": 4850 }, { "epoch": 1.617, "grad_norm": 1.9971424341201782, "learning_rate": 1.03838780908752e-05, "loss": 0.3574, "step": 4851 }, { "epoch": 1.6173333333333333, "grad_norm": 2.32261061668396, "learning_rate": 1.0380002411436082e-05, "loss": 0.3823, "step": 4852 }, { "epoch": 1.6176666666666666, "grad_norm": 2.4926445484161377, "learning_rate": 1.037612667483383e-05, "loss": 0.3844, "step": 4853 }, { "epoch": 1.6179999999999999, "grad_norm": 2.3345537185668945, "learning_rate": 1.037225088165146e-05, "loss": 0.3663, "step": 4854 }, { "epoch": 1.6183333333333332, "grad_norm": 2.195115089416504, "learning_rate": 1.0368375032472003e-05, "loss": 0.3941, "step": 4855 }, { "epoch": 1.6186666666666667, "grad_norm": 2.7384862899780273, "learning_rate": 1.0364499127878493e-05, "loss": 0.3841, "step": 4856 }, { "epoch": 1.619, "grad_norm": 2.6462645530700684, "learning_rate": 1.0360623168453982e-05, "loss": 0.3578, "step": 4857 }, { "epoch": 1.6193333333333333, "grad_norm": 2.379380941390991, "learning_rate": 1.0356747154781526e-05, "loss": 0.4129, "step": 4858 }, { "epoch": 1.6196666666666668, "grad_norm": 2.5646514892578125, "learning_rate": 1.0352871087444176e-05, "loss": 0.3763, "step": 4859 }, { "epoch": 1.62, "grad_norm": 2.0218708515167236, "learning_rate": 1.0348994967025012e-05, "loss": 0.4063, "step": 4860 }, { "epoch": 1.6203333333333334, "grad_norm": 1.9470257759094238, "learning_rate": 1.0345118794107108e-05, "loss": 0.3905, "step": 4861 }, { "epoch": 1.6206666666666667, "grad_norm": 2.319248676300049, "learning_rate": 1.0341242569273553e-05, "loss": 0.4164, "step": 4862 }, { "epoch": 1.621, "grad_norm": 2.6181647777557373, "learning_rate": 1.0337366293107441e-05, "loss": 0.4107, "step": 4863 }, { "epoch": 1.6213333333333333, "grad_norm": 2.8394150733947754, "learning_rate": 1.0333489966191874e-05, "loss": 0.3978, "step": 4864 }, { "epoch": 1.6216666666666666, "grad_norm": 2.463758707046509, "learning_rate": 1.0329613589109959e-05, "loss": 0.3911, "step": 4865 }, { "epoch": 1.6219999999999999, "grad_norm": 2.103893280029297, "learning_rate": 1.0325737162444813e-05, "loss": 0.3996, "step": 4866 }, { "epoch": 1.6223333333333332, "grad_norm": 2.368427276611328, "learning_rate": 1.0321860686779563e-05, "loss": 0.3864, "step": 4867 }, { "epoch": 1.6226666666666667, "grad_norm": 2.2395358085632324, "learning_rate": 1.0317984162697341e-05, "loss": 0.4348, "step": 4868 }, { "epoch": 1.623, "grad_norm": 3.056201219558716, "learning_rate": 1.0314107590781284e-05, "loss": 0.4051, "step": 4869 }, { "epoch": 1.6233333333333333, "grad_norm": 2.745420455932617, "learning_rate": 1.0310230971614538e-05, "loss": 0.3808, "step": 4870 }, { "epoch": 1.6236666666666668, "grad_norm": 2.0188450813293457, "learning_rate": 1.030635430578026e-05, "loss": 0.3585, "step": 4871 }, { "epoch": 1.624, "grad_norm": 2.153754472732544, "learning_rate": 1.0302477593861608e-05, "loss": 0.4287, "step": 4872 }, { "epoch": 1.6243333333333334, "grad_norm": 2.647303819656372, "learning_rate": 1.029860083644175e-05, "loss": 0.3959, "step": 4873 }, { "epoch": 1.6246666666666667, "grad_norm": 2.1011321544647217, "learning_rate": 1.0294724034103858e-05, "loss": 0.3939, "step": 4874 }, { "epoch": 1.625, "grad_norm": 2.139519214630127, "learning_rate": 1.0290847187431115e-05, "loss": 0.393, "step": 4875 }, { "epoch": 1.6253333333333333, "grad_norm": 2.748246431350708, "learning_rate": 1.0286970297006709e-05, "loss": 0.3998, "step": 4876 }, { "epoch": 1.6256666666666666, "grad_norm": 3.8351449966430664, "learning_rate": 1.0283093363413834e-05, "loss": 0.3905, "step": 4877 }, { "epoch": 1.626, "grad_norm": 2.5498998165130615, "learning_rate": 1.0279216387235691e-05, "loss": 0.3617, "step": 4878 }, { "epoch": 1.6263333333333332, "grad_norm": 2.092214584350586, "learning_rate": 1.0275339369055485e-05, "loss": 0.3864, "step": 4879 }, { "epoch": 1.6266666666666667, "grad_norm": 2.8568849563598633, "learning_rate": 1.027146230945643e-05, "loss": 0.4039, "step": 4880 }, { "epoch": 1.627, "grad_norm": 3.3279335498809814, "learning_rate": 1.0267585209021748e-05, "loss": 0.4312, "step": 4881 }, { "epoch": 1.6273333333333333, "grad_norm": 2.1159865856170654, "learning_rate": 1.0263708068334666e-05, "loss": 0.3927, "step": 4882 }, { "epoch": 1.6276666666666668, "grad_norm": 2.2602357864379883, "learning_rate": 1.0259830887978413e-05, "loss": 0.3885, "step": 4883 }, { "epoch": 1.6280000000000001, "grad_norm": 2.091521739959717, "learning_rate": 1.0255953668536223e-05, "loss": 0.396, "step": 4884 }, { "epoch": 1.6283333333333334, "grad_norm": 2.5102624893188477, "learning_rate": 1.0252076410591348e-05, "loss": 0.3908, "step": 4885 }, { "epoch": 1.6286666666666667, "grad_norm": 2.202422618865967, "learning_rate": 1.0248199114727033e-05, "loss": 0.3699, "step": 4886 }, { "epoch": 1.629, "grad_norm": 1.9880046844482422, "learning_rate": 1.0244321781526533e-05, "loss": 0.3887, "step": 4887 }, { "epoch": 1.6293333333333333, "grad_norm": 2.8319144248962402, "learning_rate": 1.0240444411573112e-05, "loss": 0.3557, "step": 4888 }, { "epoch": 1.6296666666666666, "grad_norm": 2.355677366256714, "learning_rate": 1.023656700545003e-05, "loss": 0.3927, "step": 4889 }, { "epoch": 1.63, "grad_norm": 3.66475510597229, "learning_rate": 1.0232689563740563e-05, "loss": 0.3731, "step": 4890 }, { "epoch": 1.6303333333333332, "grad_norm": 2.2152700424194336, "learning_rate": 1.022881208702799e-05, "loss": 0.3888, "step": 4891 }, { "epoch": 1.6306666666666667, "grad_norm": 2.8040058612823486, "learning_rate": 1.0224934575895592e-05, "loss": 0.3817, "step": 4892 }, { "epoch": 1.631, "grad_norm": 1.9826041460037231, "learning_rate": 1.0221057030926657e-05, "loss": 0.4104, "step": 4893 }, { "epoch": 1.6313333333333333, "grad_norm": 2.312415599822998, "learning_rate": 1.0217179452704474e-05, "loss": 0.4427, "step": 4894 }, { "epoch": 1.6316666666666668, "grad_norm": 3.294074535369873, "learning_rate": 1.0213301841812345e-05, "loss": 0.3967, "step": 4895 }, { "epoch": 1.6320000000000001, "grad_norm": 3.1755149364471436, "learning_rate": 1.0209424198833571e-05, "loss": 0.3884, "step": 4896 }, { "epoch": 1.6323333333333334, "grad_norm": 1.8074257373809814, "learning_rate": 1.020554652435146e-05, "loss": 0.3701, "step": 4897 }, { "epoch": 1.6326666666666667, "grad_norm": 2.393001079559326, "learning_rate": 1.0201668818949323e-05, "loss": 0.4198, "step": 4898 }, { "epoch": 1.633, "grad_norm": 2.337869167327881, "learning_rate": 1.0197791083210478e-05, "loss": 0.3562, "step": 4899 }, { "epoch": 1.6333333333333333, "grad_norm": 2.3221940994262695, "learning_rate": 1.0193913317718245e-05, "loss": 0.3994, "step": 4900 }, { "epoch": 1.6336666666666666, "grad_norm": 2.6955478191375732, "learning_rate": 1.0190035523055952e-05, "loss": 0.3969, "step": 4901 }, { "epoch": 1.634, "grad_norm": 2.3303139209747314, "learning_rate": 1.0186157699806928e-05, "loss": 0.407, "step": 4902 }, { "epoch": 1.6343333333333332, "grad_norm": 2.1778452396392822, "learning_rate": 1.0182279848554506e-05, "loss": 0.3659, "step": 4903 }, { "epoch": 1.6346666666666667, "grad_norm": 2.0941028594970703, "learning_rate": 1.0178401969882029e-05, "loss": 0.3885, "step": 4904 }, { "epoch": 1.635, "grad_norm": 2.345041036605835, "learning_rate": 1.0174524064372837e-05, "loss": 0.4185, "step": 4905 }, { "epoch": 1.6353333333333333, "grad_norm": 2.154445171356201, "learning_rate": 1.0170646132610278e-05, "loss": 0.4074, "step": 4906 }, { "epoch": 1.6356666666666668, "grad_norm": 2.2848308086395264, "learning_rate": 1.0166768175177699e-05, "loss": 0.3541, "step": 4907 }, { "epoch": 1.6360000000000001, "grad_norm": 2.359203577041626, "learning_rate": 1.0162890192658459e-05, "loss": 0.3878, "step": 4908 }, { "epoch": 1.6363333333333334, "grad_norm": 2.398984909057617, "learning_rate": 1.0159012185635917e-05, "loss": 0.3584, "step": 4909 }, { "epoch": 1.6366666666666667, "grad_norm": 2.125455141067505, "learning_rate": 1.0155134154693434e-05, "loss": 0.4067, "step": 4910 }, { "epoch": 1.637, "grad_norm": 1.8736975193023682, "learning_rate": 1.0151256100414375e-05, "loss": 0.3775, "step": 4911 }, { "epoch": 1.6373333333333333, "grad_norm": 2.5161311626434326, "learning_rate": 1.0147378023382108e-05, "loss": 0.4136, "step": 4912 }, { "epoch": 1.6376666666666666, "grad_norm": 1.9798706769943237, "learning_rate": 1.014349992418001e-05, "loss": 0.3942, "step": 4913 }, { "epoch": 1.638, "grad_norm": 2.628796339035034, "learning_rate": 1.0139621803391454e-05, "loss": 0.367, "step": 4914 }, { "epoch": 1.6383333333333332, "grad_norm": 2.231912851333618, "learning_rate": 1.0135743661599821e-05, "loss": 0.3721, "step": 4915 }, { "epoch": 1.6386666666666667, "grad_norm": 1.9139373302459717, "learning_rate": 1.013186549938849e-05, "loss": 0.363, "step": 4916 }, { "epoch": 1.639, "grad_norm": 2.7914624214172363, "learning_rate": 1.0127987317340851e-05, "loss": 0.3728, "step": 4917 }, { "epoch": 1.6393333333333333, "grad_norm": 1.9204601049423218, "learning_rate": 1.012410911604029e-05, "loss": 0.426, "step": 4918 }, { "epoch": 1.6396666666666668, "grad_norm": 2.6371610164642334, "learning_rate": 1.0120230896070197e-05, "loss": 0.3981, "step": 4919 }, { "epoch": 1.6400000000000001, "grad_norm": 2.171576499938965, "learning_rate": 1.0116352658013973e-05, "loss": 0.3559, "step": 4920 }, { "epoch": 1.6403333333333334, "grad_norm": 1.9554239511489868, "learning_rate": 1.0112474402455005e-05, "loss": 0.3179, "step": 4921 }, { "epoch": 1.6406666666666667, "grad_norm": 2.6682281494140625, "learning_rate": 1.01085961299767e-05, "loss": 0.3839, "step": 4922 }, { "epoch": 1.641, "grad_norm": 1.965303897857666, "learning_rate": 1.010471784116246e-05, "loss": 0.4072, "step": 4923 }, { "epoch": 1.6413333333333333, "grad_norm": 1.87592613697052, "learning_rate": 1.0100839536595685e-05, "loss": 0.376, "step": 4924 }, { "epoch": 1.6416666666666666, "grad_norm": 2.572605848312378, "learning_rate": 1.0096961216859786e-05, "loss": 0.3927, "step": 4925 }, { "epoch": 1.642, "grad_norm": 2.179682493209839, "learning_rate": 1.009308288253817e-05, "loss": 0.3842, "step": 4926 }, { "epoch": 1.6423333333333332, "grad_norm": 2.0119402408599854, "learning_rate": 1.008920453421425e-05, "loss": 0.3886, "step": 4927 }, { "epoch": 1.6426666666666667, "grad_norm": 2.047334671020508, "learning_rate": 1.0085326172471435e-05, "loss": 0.3773, "step": 4928 }, { "epoch": 1.643, "grad_norm": 1.9641050100326538, "learning_rate": 1.0081447797893149e-05, "loss": 0.3892, "step": 4929 }, { "epoch": 1.6433333333333333, "grad_norm": 2.8584659099578857, "learning_rate": 1.0077569411062804e-05, "loss": 0.3481, "step": 4930 }, { "epoch": 1.6436666666666668, "grad_norm": 1.952132225036621, "learning_rate": 1.0073691012563818e-05, "loss": 0.3805, "step": 4931 }, { "epoch": 1.6440000000000001, "grad_norm": 2.1198618412017822, "learning_rate": 1.0069812602979617e-05, "loss": 0.3909, "step": 4932 }, { "epoch": 1.6443333333333334, "grad_norm": 2.3500747680664062, "learning_rate": 1.0065934182893618e-05, "loss": 0.3815, "step": 4933 }, { "epoch": 1.6446666666666667, "grad_norm": 2.0353474617004395, "learning_rate": 1.0062055752889252e-05, "loss": 0.4262, "step": 4934 }, { "epoch": 1.645, "grad_norm": 2.2703795433044434, "learning_rate": 1.005817731354994e-05, "loss": 0.3776, "step": 4935 }, { "epoch": 1.6453333333333333, "grad_norm": 2.891414165496826, "learning_rate": 1.005429886545911e-05, "loss": 0.4056, "step": 4936 }, { "epoch": 1.6456666666666666, "grad_norm": 2.646493911743164, "learning_rate": 1.0050420409200193e-05, "loss": 0.3894, "step": 4937 }, { "epoch": 1.646, "grad_norm": 2.694119453430176, "learning_rate": 1.0046541945356613e-05, "loss": 0.3878, "step": 4938 }, { "epoch": 1.6463333333333332, "grad_norm": 2.2561452388763428, "learning_rate": 1.004266347451181e-05, "loss": 0.3916, "step": 4939 }, { "epoch": 1.6466666666666665, "grad_norm": 2.1495814323425293, "learning_rate": 1.0038784997249205e-05, "loss": 0.3709, "step": 4940 }, { "epoch": 1.647, "grad_norm": 2.343183755874634, "learning_rate": 1.0034906514152239e-05, "loss": 0.3542, "step": 4941 }, { "epoch": 1.6473333333333333, "grad_norm": 3.140831708908081, "learning_rate": 1.0031028025804341e-05, "loss": 0.4176, "step": 4942 }, { "epoch": 1.6476666666666666, "grad_norm": 3.365590810775757, "learning_rate": 1.0027149532788955e-05, "loss": 0.3848, "step": 4943 }, { "epoch": 1.6480000000000001, "grad_norm": 3.9170079231262207, "learning_rate": 1.0023271035689506e-05, "loss": 0.4223, "step": 4944 }, { "epoch": 1.6483333333333334, "grad_norm": 3.1836650371551514, "learning_rate": 1.0019392535089431e-05, "loss": 0.38, "step": 4945 }, { "epoch": 1.6486666666666667, "grad_norm": 3.1342391967773438, "learning_rate": 1.0015514031572171e-05, "loss": 0.3811, "step": 4946 }, { "epoch": 1.649, "grad_norm": 2.6175882816314697, "learning_rate": 1.001163552572116e-05, "loss": 0.4222, "step": 4947 }, { "epoch": 1.6493333333333333, "grad_norm": 3.2767069339752197, "learning_rate": 1.0007757018119839e-05, "loss": 0.4045, "step": 4948 }, { "epoch": 1.6496666666666666, "grad_norm": 2.269263982772827, "learning_rate": 1.0003878509351637e-05, "loss": 0.3484, "step": 4949 }, { "epoch": 1.65, "grad_norm": 2.3987982273101807, "learning_rate": 1e-05, "loss": 0.3708, "step": 4950 }, { "epoch": 1.6503333333333332, "grad_norm": 2.0157628059387207, "learning_rate": 9.996121490648363e-06, "loss": 0.3819, "step": 4951 }, { "epoch": 1.6506666666666665, "grad_norm": 2.325796365737915, "learning_rate": 9.992242981880168e-06, "loss": 0.374, "step": 4952 }, { "epoch": 1.651, "grad_norm": 3.889958143234253, "learning_rate": 9.988364474278844e-06, "loss": 0.3713, "step": 4953 }, { "epoch": 1.6513333333333333, "grad_norm": 2.4422495365142822, "learning_rate": 9.984485968427832e-06, "loss": 0.3683, "step": 4954 }, { "epoch": 1.6516666666666666, "grad_norm": 2.6227846145629883, "learning_rate": 9.98060746491057e-06, "loss": 0.3779, "step": 4955 }, { "epoch": 1.6520000000000001, "grad_norm": 2.8090436458587646, "learning_rate": 9.976728964310499e-06, "loss": 0.3804, "step": 4956 }, { "epoch": 1.6523333333333334, "grad_norm": 2.075206756591797, "learning_rate": 9.972850467211048e-06, "loss": 0.3803, "step": 4957 }, { "epoch": 1.6526666666666667, "grad_norm": 2.6792287826538086, "learning_rate": 9.968971974195659e-06, "loss": 0.36, "step": 4958 }, { "epoch": 1.653, "grad_norm": 2.1883387565612793, "learning_rate": 9.965093485847766e-06, "loss": 0.3835, "step": 4959 }, { "epoch": 1.6533333333333333, "grad_norm": 2.533402919769287, "learning_rate": 9.961215002750799e-06, "loss": 0.3806, "step": 4960 }, { "epoch": 1.6536666666666666, "grad_norm": 2.582916259765625, "learning_rate": 9.957336525488196e-06, "loss": 0.4071, "step": 4961 }, { "epoch": 1.654, "grad_norm": 2.6558892726898193, "learning_rate": 9.953458054643389e-06, "loss": 0.385, "step": 4962 }, { "epoch": 1.6543333333333332, "grad_norm": 1.7557164430618286, "learning_rate": 9.949579590799814e-06, "loss": 0.4095, "step": 4963 }, { "epoch": 1.6546666666666665, "grad_norm": 2.6410083770751953, "learning_rate": 9.945701134540892e-06, "loss": 0.404, "step": 4964 }, { "epoch": 1.655, "grad_norm": 1.9365836381912231, "learning_rate": 9.941822686450061e-06, "loss": 0.3772, "step": 4965 }, { "epoch": 1.6553333333333333, "grad_norm": 2.5795581340789795, "learning_rate": 9.937944247110752e-06, "loss": 0.3661, "step": 4966 }, { "epoch": 1.6556666666666666, "grad_norm": 2.351900100708008, "learning_rate": 9.934065817106383e-06, "loss": 0.3803, "step": 4967 }, { "epoch": 1.6560000000000001, "grad_norm": 2.3972959518432617, "learning_rate": 9.930187397020385e-06, "loss": 0.3436, "step": 4968 }, { "epoch": 1.6563333333333334, "grad_norm": 3.265639066696167, "learning_rate": 9.926308987436182e-06, "loss": 0.3902, "step": 4969 }, { "epoch": 1.6566666666666667, "grad_norm": 2.666452646255493, "learning_rate": 9.9224305889372e-06, "loss": 0.3894, "step": 4970 }, { "epoch": 1.657, "grad_norm": 2.7219629287719727, "learning_rate": 9.918552202106853e-06, "loss": 0.3718, "step": 4971 }, { "epoch": 1.6573333333333333, "grad_norm": 2.6471261978149414, "learning_rate": 9.914673827528567e-06, "loss": 0.4006, "step": 4972 }, { "epoch": 1.6576666666666666, "grad_norm": 2.249971389770508, "learning_rate": 9.910795465785757e-06, "loss": 0.4189, "step": 4973 }, { "epoch": 1.658, "grad_norm": 2.3453447818756104, "learning_rate": 9.906917117461835e-06, "loss": 0.4051, "step": 4974 }, { "epoch": 1.6583333333333332, "grad_norm": 3.230998992919922, "learning_rate": 9.903038783140216e-06, "loss": 0.3697, "step": 4975 }, { "epoch": 1.6586666666666665, "grad_norm": 3.545405387878418, "learning_rate": 9.899160463404316e-06, "loss": 0.405, "step": 4976 }, { "epoch": 1.659, "grad_norm": 1.7897201776504517, "learning_rate": 9.895282158837545e-06, "loss": 0.3773, "step": 4977 }, { "epoch": 1.6593333333333333, "grad_norm": 3.6461915969848633, "learning_rate": 9.891403870023302e-06, "loss": 0.4022, "step": 4978 }, { "epoch": 1.6596666666666666, "grad_norm": 2.7432844638824463, "learning_rate": 9.887525597544996e-06, "loss": 0.3703, "step": 4979 }, { "epoch": 1.6600000000000001, "grad_norm": 2.7352712154388428, "learning_rate": 9.883647341986032e-06, "loss": 0.3763, "step": 4980 }, { "epoch": 1.6603333333333334, "grad_norm": 2.0071091651916504, "learning_rate": 9.879769103929804e-06, "loss": 0.3518, "step": 4981 }, { "epoch": 1.6606666666666667, "grad_norm": 2.5309622287750244, "learning_rate": 9.875890883959714e-06, "loss": 0.3756, "step": 4982 }, { "epoch": 1.661, "grad_norm": 2.3521878719329834, "learning_rate": 9.87201268265915e-06, "loss": 0.3747, "step": 4983 }, { "epoch": 1.6613333333333333, "grad_norm": 2.2282159328460693, "learning_rate": 9.868134500611514e-06, "loss": 0.4048, "step": 4984 }, { "epoch": 1.6616666666666666, "grad_norm": 2.713447093963623, "learning_rate": 9.864256338400182e-06, "loss": 0.3898, "step": 4985 }, { "epoch": 1.662, "grad_norm": 2.934696674346924, "learning_rate": 9.860378196608549e-06, "loss": 0.3881, "step": 4986 }, { "epoch": 1.6623333333333332, "grad_norm": 2.2195093631744385, "learning_rate": 9.856500075819994e-06, "loss": 0.389, "step": 4987 }, { "epoch": 1.6626666666666665, "grad_norm": 2.72175669670105, "learning_rate": 9.852621976617894e-06, "loss": 0.3743, "step": 4988 }, { "epoch": 1.663, "grad_norm": 2.570976734161377, "learning_rate": 9.848743899585628e-06, "loss": 0.3638, "step": 4989 }, { "epoch": 1.6633333333333333, "grad_norm": 3.048560380935669, "learning_rate": 9.844865845306568e-06, "loss": 0.3638, "step": 4990 }, { "epoch": 1.6636666666666666, "grad_norm": 2.8323118686676025, "learning_rate": 9.840987814364085e-06, "loss": 0.4189, "step": 4991 }, { "epoch": 1.6640000000000001, "grad_norm": 2.549638032913208, "learning_rate": 9.837109807341543e-06, "loss": 0.3529, "step": 4992 }, { "epoch": 1.6643333333333334, "grad_norm": 2.237649917602539, "learning_rate": 9.833231824822303e-06, "loss": 0.3947, "step": 4993 }, { "epoch": 1.6646666666666667, "grad_norm": 2.2162322998046875, "learning_rate": 9.829353867389728e-06, "loss": 0.3794, "step": 4994 }, { "epoch": 1.665, "grad_norm": 2.029552936553955, "learning_rate": 9.825475935627165e-06, "loss": 0.3718, "step": 4995 }, { "epoch": 1.6653333333333333, "grad_norm": 2.5049149990081787, "learning_rate": 9.821598030117973e-06, "loss": 0.3399, "step": 4996 }, { "epoch": 1.6656666666666666, "grad_norm": 3.829625129699707, "learning_rate": 9.817720151445495e-06, "loss": 0.3623, "step": 4997 }, { "epoch": 1.666, "grad_norm": 1.9380640983581543, "learning_rate": 9.813842300193077e-06, "loss": 0.4117, "step": 4998 }, { "epoch": 1.6663333333333332, "grad_norm": 2.3208489418029785, "learning_rate": 9.80996447694405e-06, "loss": 0.3989, "step": 4999 }, { "epoch": 1.6666666666666665, "grad_norm": 2.2219128608703613, "learning_rate": 9.806086682281759e-06, "loss": 0.3902, "step": 5000 }, { "epoch": 1.667, "grad_norm": 2.7912545204162598, "learning_rate": 9.802208916789528e-06, "loss": 0.379, "step": 5001 }, { "epoch": 1.6673333333333333, "grad_norm": 1.888846516609192, "learning_rate": 9.79833118105068e-06, "loss": 0.3429, "step": 5002 }, { "epoch": 1.6676666666666666, "grad_norm": 2.3864665031433105, "learning_rate": 9.794453475648542e-06, "loss": 0.414, "step": 5003 }, { "epoch": 1.6680000000000001, "grad_norm": 3.4496917724609375, "learning_rate": 9.790575801166432e-06, "loss": 0.3664, "step": 5004 }, { "epoch": 1.6683333333333334, "grad_norm": 2.594925880432129, "learning_rate": 9.786698158187657e-06, "loss": 0.3988, "step": 5005 }, { "epoch": 1.6686666666666667, "grad_norm": 2.378037929534912, "learning_rate": 9.78282054729553e-06, "loss": 0.4049, "step": 5006 }, { "epoch": 1.669, "grad_norm": 2.562091588973999, "learning_rate": 9.778942969073345e-06, "loss": 0.3965, "step": 5007 }, { "epoch": 1.6693333333333333, "grad_norm": 2.068887710571289, "learning_rate": 9.775065424104413e-06, "loss": 0.3739, "step": 5008 }, { "epoch": 1.6696666666666666, "grad_norm": 1.7505497932434082, "learning_rate": 9.771187912972011e-06, "loss": 0.3936, "step": 5009 }, { "epoch": 1.67, "grad_norm": 2.3070061206817627, "learning_rate": 9.767310436259438e-06, "loss": 0.3954, "step": 5010 }, { "epoch": 1.6703333333333332, "grad_norm": 2.2969107627868652, "learning_rate": 9.763432994549972e-06, "loss": 0.4103, "step": 5011 }, { "epoch": 1.6706666666666665, "grad_norm": 2.05610728263855, "learning_rate": 9.759555588426894e-06, "loss": 0.3767, "step": 5012 }, { "epoch": 1.671, "grad_norm": 3.2617416381835938, "learning_rate": 9.75567821847347e-06, "loss": 0.4113, "step": 5013 }, { "epoch": 1.6713333333333333, "grad_norm": 2.557739019393921, "learning_rate": 9.75180088527297e-06, "loss": 0.343, "step": 5014 }, { "epoch": 1.6716666666666666, "grad_norm": 2.0348896980285645, "learning_rate": 9.747923589408655e-06, "loss": 0.4082, "step": 5015 }, { "epoch": 1.6720000000000002, "grad_norm": 1.8544715642929077, "learning_rate": 9.74404633146378e-06, "loss": 0.3551, "step": 5016 }, { "epoch": 1.6723333333333334, "grad_norm": 2.4801321029663086, "learning_rate": 9.74016911202159e-06, "loss": 0.3726, "step": 5017 }, { "epoch": 1.6726666666666667, "grad_norm": 3.076768398284912, "learning_rate": 9.736291931665334e-06, "loss": 0.4155, "step": 5018 }, { "epoch": 1.673, "grad_norm": 2.480668783187866, "learning_rate": 9.732414790978253e-06, "loss": 0.4093, "step": 5019 }, { "epoch": 1.6733333333333333, "grad_norm": 2.280982255935669, "learning_rate": 9.728537690543573e-06, "loss": 0.397, "step": 5020 }, { "epoch": 1.6736666666666666, "grad_norm": 2.496459722518921, "learning_rate": 9.724660630944516e-06, "loss": 0.3313, "step": 5021 }, { "epoch": 1.674, "grad_norm": 2.6173815727233887, "learning_rate": 9.720783612764314e-06, "loss": 0.4066, "step": 5022 }, { "epoch": 1.6743333333333332, "grad_norm": 2.127870559692383, "learning_rate": 9.716906636586168e-06, "loss": 0.3944, "step": 5023 }, { "epoch": 1.6746666666666665, "grad_norm": 2.5555052757263184, "learning_rate": 9.713029702993295e-06, "loss": 0.3784, "step": 5024 }, { "epoch": 1.675, "grad_norm": 2.0755112171173096, "learning_rate": 9.709152812568886e-06, "loss": 0.3944, "step": 5025 }, { "epoch": 1.6753333333333333, "grad_norm": 2.371626138687134, "learning_rate": 9.705275965896146e-06, "loss": 0.3926, "step": 5026 }, { "epoch": 1.6756666666666666, "grad_norm": 2.4466378688812256, "learning_rate": 9.701399163558254e-06, "loss": 0.3825, "step": 5027 }, { "epoch": 1.6760000000000002, "grad_norm": 2.710641860961914, "learning_rate": 9.697522406138395e-06, "loss": 0.3933, "step": 5028 }, { "epoch": 1.6763333333333335, "grad_norm": 2.3133363723754883, "learning_rate": 9.693645694219741e-06, "loss": 0.3702, "step": 5029 }, { "epoch": 1.6766666666666667, "grad_norm": 2.8435323238372803, "learning_rate": 9.689769028385463e-06, "loss": 0.4292, "step": 5030 }, { "epoch": 1.677, "grad_norm": 3.1649467945098877, "learning_rate": 9.685892409218718e-06, "loss": 0.3823, "step": 5031 }, { "epoch": 1.6773333333333333, "grad_norm": 2.912868022918701, "learning_rate": 9.682015837302659e-06, "loss": 0.3868, "step": 5032 }, { "epoch": 1.6776666666666666, "grad_norm": 1.9627151489257812, "learning_rate": 9.678139313220439e-06, "loss": 0.3649, "step": 5033 }, { "epoch": 1.678, "grad_norm": 1.948817253112793, "learning_rate": 9.67426283755519e-06, "loss": 0.3418, "step": 5034 }, { "epoch": 1.6783333333333332, "grad_norm": 2.2295267581939697, "learning_rate": 9.670386410890043e-06, "loss": 0.3772, "step": 5035 }, { "epoch": 1.6786666666666665, "grad_norm": 2.441718339920044, "learning_rate": 9.666510033808131e-06, "loss": 0.3661, "step": 5036 }, { "epoch": 1.679, "grad_norm": 2.2611043453216553, "learning_rate": 9.66263370689256e-06, "loss": 0.3738, "step": 5037 }, { "epoch": 1.6793333333333333, "grad_norm": 3.520847797393799, "learning_rate": 9.658757430726449e-06, "loss": 0.3989, "step": 5038 }, { "epoch": 1.6796666666666666, "grad_norm": 2.8122475147247314, "learning_rate": 9.654881205892894e-06, "loss": 0.3545, "step": 5039 }, { "epoch": 1.6800000000000002, "grad_norm": 3.442500591278076, "learning_rate": 9.651005032974994e-06, "loss": 0.3884, "step": 5040 }, { "epoch": 1.6803333333333335, "grad_norm": 2.116173028945923, "learning_rate": 9.647128912555827e-06, "loss": 0.3866, "step": 5041 }, { "epoch": 1.6806666666666668, "grad_norm": 1.9766980409622192, "learning_rate": 9.643252845218477e-06, "loss": 0.3448, "step": 5042 }, { "epoch": 1.681, "grad_norm": 3.243069887161255, "learning_rate": 9.639376831546018e-06, "loss": 0.3851, "step": 5043 }, { "epoch": 1.6813333333333333, "grad_norm": 2.321885108947754, "learning_rate": 9.635500872121509e-06, "loss": 0.3687, "step": 5044 }, { "epoch": 1.6816666666666666, "grad_norm": 1.9190640449523926, "learning_rate": 9.631624967528e-06, "loss": 0.3981, "step": 5045 }, { "epoch": 1.682, "grad_norm": 2.2264339923858643, "learning_rate": 9.627749118348541e-06, "loss": 0.3826, "step": 5046 }, { "epoch": 1.6823333333333332, "grad_norm": 2.2703545093536377, "learning_rate": 9.623873325166173e-06, "loss": 0.387, "step": 5047 }, { "epoch": 1.6826666666666665, "grad_norm": 2.5621445178985596, "learning_rate": 9.61999758856392e-06, "loss": 0.3415, "step": 5048 }, { "epoch": 1.683, "grad_norm": 1.8794641494750977, "learning_rate": 9.616121909124801e-06, "loss": 0.373, "step": 5049 }, { "epoch": 1.6833333333333333, "grad_norm": 2.9223968982696533, "learning_rate": 9.612246287431832e-06, "loss": 0.387, "step": 5050 }, { "epoch": 1.6836666666666666, "grad_norm": 2.9868319034576416, "learning_rate": 9.60837072406802e-06, "loss": 0.3769, "step": 5051 }, { "epoch": 1.6840000000000002, "grad_norm": 2.180448293685913, "learning_rate": 9.60449521961635e-06, "loss": 0.3624, "step": 5052 }, { "epoch": 1.6843333333333335, "grad_norm": 2.1136667728424072, "learning_rate": 9.600619774659816e-06, "loss": 0.3707, "step": 5053 }, { "epoch": 1.6846666666666668, "grad_norm": 3.2567765712738037, "learning_rate": 9.596744389781392e-06, "loss": 0.4006, "step": 5054 }, { "epoch": 1.685, "grad_norm": 2.6187610626220703, "learning_rate": 9.592869065564043e-06, "loss": 0.3545, "step": 5055 }, { "epoch": 1.6853333333333333, "grad_norm": 2.6208784580230713, "learning_rate": 9.588993802590731e-06, "loss": 0.3624, "step": 5056 }, { "epoch": 1.6856666666666666, "grad_norm": 2.4526824951171875, "learning_rate": 9.585118601444404e-06, "loss": 0.3713, "step": 5057 }, { "epoch": 1.686, "grad_norm": 2.0681235790252686, "learning_rate": 9.581243462708007e-06, "loss": 0.3513, "step": 5058 }, { "epoch": 1.6863333333333332, "grad_norm": 2.2504427433013916, "learning_rate": 9.57736838696446e-06, "loss": 0.3602, "step": 5059 }, { "epoch": 1.6866666666666665, "grad_norm": 3.6342787742614746, "learning_rate": 9.573493374796694e-06, "loss": 0.3878, "step": 5060 }, { "epoch": 1.687, "grad_norm": 2.4253907203674316, "learning_rate": 9.56961842678762e-06, "loss": 0.3904, "step": 5061 }, { "epoch": 1.6873333333333334, "grad_norm": 2.334533214569092, "learning_rate": 9.565743543520134e-06, "loss": 0.3643, "step": 5062 }, { "epoch": 1.6876666666666666, "grad_norm": 2.5953047275543213, "learning_rate": 9.561868725577132e-06, "loss": 0.382, "step": 5063 }, { "epoch": 1.688, "grad_norm": 2.968580722808838, "learning_rate": 9.557993973541494e-06, "loss": 0.4055, "step": 5064 }, { "epoch": 1.6883333333333335, "grad_norm": 2.0313236713409424, "learning_rate": 9.5541192879961e-06, "loss": 0.3764, "step": 5065 }, { "epoch": 1.6886666666666668, "grad_norm": 3.4067413806915283, "learning_rate": 9.550244669523804e-06, "loss": 0.3922, "step": 5066 }, { "epoch": 1.689, "grad_norm": 2.2015573978424072, "learning_rate": 9.546370118707463e-06, "loss": 0.3657, "step": 5067 }, { "epoch": 1.6893333333333334, "grad_norm": 2.2501180171966553, "learning_rate": 9.54249563612992e-06, "loss": 0.3705, "step": 5068 }, { "epoch": 1.6896666666666667, "grad_norm": 2.0535707473754883, "learning_rate": 9.538621222374002e-06, "loss": 0.3558, "step": 5069 }, { "epoch": 1.69, "grad_norm": 2.42559814453125, "learning_rate": 9.534746878022533e-06, "loss": 0.3515, "step": 5070 }, { "epoch": 1.6903333333333332, "grad_norm": 2.1289608478546143, "learning_rate": 9.530872603658327e-06, "loss": 0.3336, "step": 5071 }, { "epoch": 1.6906666666666665, "grad_norm": 2.27459454536438, "learning_rate": 9.526998399864186e-06, "loss": 0.3825, "step": 5072 }, { "epoch": 1.6909999999999998, "grad_norm": 2.003516674041748, "learning_rate": 9.523124267222894e-06, "loss": 0.3727, "step": 5073 }, { "epoch": 1.6913333333333334, "grad_norm": 2.634650707244873, "learning_rate": 9.519250206317231e-06, "loss": 0.3594, "step": 5074 }, { "epoch": 1.6916666666666667, "grad_norm": 2.378114938735962, "learning_rate": 9.515376217729973e-06, "loss": 0.4061, "step": 5075 }, { "epoch": 1.692, "grad_norm": 2.8676862716674805, "learning_rate": 9.511502302043867e-06, "loss": 0.3829, "step": 5076 }, { "epoch": 1.6923333333333335, "grad_norm": 2.032747268676758, "learning_rate": 9.50762845984167e-06, "loss": 0.3877, "step": 5077 }, { "epoch": 1.6926666666666668, "grad_norm": 2.402486801147461, "learning_rate": 9.50375469170611e-06, "loss": 0.4288, "step": 5078 }, { "epoch": 1.693, "grad_norm": 1.89150071144104, "learning_rate": 9.49988099821992e-06, "loss": 0.3732, "step": 5079 }, { "epoch": 1.6933333333333334, "grad_norm": 3.3360366821289062, "learning_rate": 9.496007379965801e-06, "loss": 0.4118, "step": 5080 }, { "epoch": 1.6936666666666667, "grad_norm": 3.025247573852539, "learning_rate": 9.492133837526467e-06, "loss": 0.3945, "step": 5081 }, { "epoch": 1.694, "grad_norm": 2.426227331161499, "learning_rate": 9.488260371484603e-06, "loss": 0.3998, "step": 5082 }, { "epoch": 1.6943333333333332, "grad_norm": 2.5539047718048096, "learning_rate": 9.484386982422887e-06, "loss": 0.4221, "step": 5083 }, { "epoch": 1.6946666666666665, "grad_norm": 2.33144474029541, "learning_rate": 9.480513670923987e-06, "loss": 0.3748, "step": 5084 }, { "epoch": 1.6949999999999998, "grad_norm": 2.77890682220459, "learning_rate": 9.476640437570562e-06, "loss": 0.3557, "step": 5085 }, { "epoch": 1.6953333333333334, "grad_norm": 2.210439682006836, "learning_rate": 9.472767282945257e-06, "loss": 0.3894, "step": 5086 }, { "epoch": 1.6956666666666667, "grad_norm": 2.330188274383545, "learning_rate": 9.468894207630698e-06, "loss": 0.3953, "step": 5087 }, { "epoch": 1.696, "grad_norm": 2.7238917350769043, "learning_rate": 9.465021212209508e-06, "loss": 0.4455, "step": 5088 }, { "epoch": 1.6963333333333335, "grad_norm": 2.3207950592041016, "learning_rate": 9.461148297264301e-06, "loss": 0.4258, "step": 5089 }, { "epoch": 1.6966666666666668, "grad_norm": 2.1796934604644775, "learning_rate": 9.457275463377665e-06, "loss": 0.3664, "step": 5090 }, { "epoch": 1.697, "grad_norm": 2.7596852779388428, "learning_rate": 9.453402711132188e-06, "loss": 0.3403, "step": 5091 }, { "epoch": 1.6973333333333334, "grad_norm": 2.365678310394287, "learning_rate": 9.44953004111044e-06, "loss": 0.3542, "step": 5092 }, { "epoch": 1.6976666666666667, "grad_norm": 3.5693178176879883, "learning_rate": 9.445657453894986e-06, "loss": 0.3751, "step": 5093 }, { "epoch": 1.698, "grad_norm": 2.3466246128082275, "learning_rate": 9.441784950068362e-06, "loss": 0.404, "step": 5094 }, { "epoch": 1.6983333333333333, "grad_norm": 3.5652823448181152, "learning_rate": 9.437912530213114e-06, "loss": 0.3838, "step": 5095 }, { "epoch": 1.6986666666666665, "grad_norm": 2.710354804992676, "learning_rate": 9.434040194911759e-06, "loss": 0.3488, "step": 5096 }, { "epoch": 1.6989999999999998, "grad_norm": 2.069540500640869, "learning_rate": 9.430167944746802e-06, "loss": 0.3885, "step": 5097 }, { "epoch": 1.6993333333333334, "grad_norm": 2.1608428955078125, "learning_rate": 9.426295780300744e-06, "loss": 0.3901, "step": 5098 }, { "epoch": 1.6996666666666667, "grad_norm": 3.6131575107574463, "learning_rate": 9.422423702156067e-06, "loss": 0.3476, "step": 5099 }, { "epoch": 1.7, "grad_norm": 2.7963411808013916, "learning_rate": 9.418551710895243e-06, "loss": 0.3794, "step": 5100 }, { "epoch": 1.7003333333333335, "grad_norm": 2.801400661468506, "learning_rate": 9.414679807100727e-06, "loss": 0.3828, "step": 5101 }, { "epoch": 1.7006666666666668, "grad_norm": 2.4873359203338623, "learning_rate": 9.410807991354963e-06, "loss": 0.364, "step": 5102 }, { "epoch": 1.701, "grad_norm": 2.823265314102173, "learning_rate": 9.406936264240386e-06, "loss": 0.4164, "step": 5103 }, { "epoch": 1.7013333333333334, "grad_norm": 2.701188325881958, "learning_rate": 9.403064626339407e-06, "loss": 0.3835, "step": 5104 }, { "epoch": 1.7016666666666667, "grad_norm": 1.9052032232284546, "learning_rate": 9.399193078234435e-06, "loss": 0.3618, "step": 5105 }, { "epoch": 1.702, "grad_norm": 2.4113705158233643, "learning_rate": 9.395321620507857e-06, "loss": 0.3943, "step": 5106 }, { "epoch": 1.7023333333333333, "grad_norm": 1.8386569023132324, "learning_rate": 9.391450253742056e-06, "loss": 0.378, "step": 5107 }, { "epoch": 1.7026666666666666, "grad_norm": 2.041626214981079, "learning_rate": 9.387578978519389e-06, "loss": 0.3878, "step": 5108 }, { "epoch": 1.7029999999999998, "grad_norm": 2.271043062210083, "learning_rate": 9.383707795422207e-06, "loss": 0.3772, "step": 5109 }, { "epoch": 1.7033333333333334, "grad_norm": 2.9856436252593994, "learning_rate": 9.379836705032849e-06, "loss": 0.3623, "step": 5110 }, { "epoch": 1.7036666666666667, "grad_norm": 2.913928985595703, "learning_rate": 9.375965707933633e-06, "loss": 0.3704, "step": 5111 }, { "epoch": 1.704, "grad_norm": 2.730884075164795, "learning_rate": 9.372094804706867e-06, "loss": 0.3532, "step": 5112 }, { "epoch": 1.7043333333333335, "grad_norm": 3.8744094371795654, "learning_rate": 9.368223995934845e-06, "loss": 0.4172, "step": 5113 }, { "epoch": 1.7046666666666668, "grad_norm": 2.080631971359253, "learning_rate": 9.364353282199853e-06, "loss": 0.3522, "step": 5114 }, { "epoch": 1.705, "grad_norm": 2.251356840133667, "learning_rate": 9.360482664084144e-06, "loss": 0.4144, "step": 5115 }, { "epoch": 1.7053333333333334, "grad_norm": 2.7896530628204346, "learning_rate": 9.356612142169978e-06, "loss": 0.3798, "step": 5116 }, { "epoch": 1.7056666666666667, "grad_norm": 2.5360658168792725, "learning_rate": 9.35274171703959e-06, "loss": 0.3768, "step": 5117 }, { "epoch": 1.706, "grad_norm": 2.449821710586548, "learning_rate": 9.348871389275194e-06, "loss": 0.3698, "step": 5118 }, { "epoch": 1.7063333333333333, "grad_norm": 3.3387138843536377, "learning_rate": 9.345001159459008e-06, "loss": 0.3764, "step": 5119 }, { "epoch": 1.7066666666666666, "grad_norm": 2.5201878547668457, "learning_rate": 9.341131028173215e-06, "loss": 0.3908, "step": 5120 }, { "epoch": 1.7069999999999999, "grad_norm": 2.0505270957946777, "learning_rate": 9.337260996000002e-06, "loss": 0.4056, "step": 5121 }, { "epoch": 1.7073333333333334, "grad_norm": 2.652522563934326, "learning_rate": 9.333391063521521e-06, "loss": 0.4097, "step": 5122 }, { "epoch": 1.7076666666666667, "grad_norm": 1.8782075643539429, "learning_rate": 9.329521231319928e-06, "loss": 0.367, "step": 5123 }, { "epoch": 1.708, "grad_norm": 2.5181286334991455, "learning_rate": 9.32565149997735e-06, "loss": 0.3803, "step": 5124 }, { "epoch": 1.7083333333333335, "grad_norm": 3.6602602005004883, "learning_rate": 9.321781870075908e-06, "loss": 0.3457, "step": 5125 }, { "epoch": 1.7086666666666668, "grad_norm": 2.0763251781463623, "learning_rate": 9.317912342197701e-06, "loss": 0.3547, "step": 5126 }, { "epoch": 1.709, "grad_norm": 2.2905311584472656, "learning_rate": 9.314042916924816e-06, "loss": 0.3666, "step": 5127 }, { "epoch": 1.7093333333333334, "grad_norm": 2.7608392238616943, "learning_rate": 9.310173594839332e-06, "loss": 0.3765, "step": 5128 }, { "epoch": 1.7096666666666667, "grad_norm": 2.9790542125701904, "learning_rate": 9.306304376523296e-06, "loss": 0.4061, "step": 5129 }, { "epoch": 1.71, "grad_norm": 2.042633533477783, "learning_rate": 9.302435262558748e-06, "loss": 0.3551, "step": 5130 }, { "epoch": 1.7103333333333333, "grad_norm": 3.2220234870910645, "learning_rate": 9.298566253527718e-06, "loss": 0.3341, "step": 5131 }, { "epoch": 1.7106666666666666, "grad_norm": 3.3072354793548584, "learning_rate": 9.29469735001221e-06, "loss": 0.4128, "step": 5132 }, { "epoch": 1.7109999999999999, "grad_norm": 2.376716375350952, "learning_rate": 9.290828552594218e-06, "loss": 0.4186, "step": 5133 }, { "epoch": 1.7113333333333334, "grad_norm": 3.030332088470459, "learning_rate": 9.286959861855716e-06, "loss": 0.3427, "step": 5134 }, { "epoch": 1.7116666666666667, "grad_norm": 2.7364237308502197, "learning_rate": 9.283091278378675e-06, "loss": 0.3733, "step": 5135 }, { "epoch": 1.712, "grad_norm": 2.2935068607330322, "learning_rate": 9.279222802745028e-06, "loss": 0.3757, "step": 5136 }, { "epoch": 1.7123333333333335, "grad_norm": 2.5655527114868164, "learning_rate": 9.275354435536706e-06, "loss": 0.3932, "step": 5137 }, { "epoch": 1.7126666666666668, "grad_norm": 2.2205827236175537, "learning_rate": 9.27148617733563e-06, "loss": 0.3849, "step": 5138 }, { "epoch": 1.713, "grad_norm": 2.296111583709717, "learning_rate": 9.267618028723687e-06, "loss": 0.3563, "step": 5139 }, { "epoch": 1.7133333333333334, "grad_norm": 2.226588726043701, "learning_rate": 9.263749990282753e-06, "loss": 0.389, "step": 5140 }, { "epoch": 1.7136666666666667, "grad_norm": 2.781053066253662, "learning_rate": 9.259882062594698e-06, "loss": 0.3417, "step": 5141 }, { "epoch": 1.714, "grad_norm": 2.333702564239502, "learning_rate": 9.256014246241369e-06, "loss": 0.3642, "step": 5142 }, { "epoch": 1.7143333333333333, "grad_norm": 2.2762386798858643, "learning_rate": 9.25214654180459e-06, "loss": 0.3701, "step": 5143 }, { "epoch": 1.7146666666666666, "grad_norm": 2.670630693435669, "learning_rate": 9.248278949866175e-06, "loss": 0.3288, "step": 5144 }, { "epoch": 1.7149999999999999, "grad_norm": 2.162947654724121, "learning_rate": 9.244411471007923e-06, "loss": 0.357, "step": 5145 }, { "epoch": 1.7153333333333334, "grad_norm": 2.3029918670654297, "learning_rate": 9.240544105811604e-06, "loss": 0.3966, "step": 5146 }, { "epoch": 1.7156666666666667, "grad_norm": 3.06973934173584, "learning_rate": 9.236676854858986e-06, "loss": 0.3716, "step": 5147 }, { "epoch": 1.716, "grad_norm": 2.9807803630828857, "learning_rate": 9.232809718731815e-06, "loss": 0.3688, "step": 5148 }, { "epoch": 1.7163333333333335, "grad_norm": 2.119098663330078, "learning_rate": 9.228942698011814e-06, "loss": 0.417, "step": 5149 }, { "epoch": 1.7166666666666668, "grad_norm": 2.2442538738250732, "learning_rate": 9.225075793280693e-06, "loss": 0.3789, "step": 5150 }, { "epoch": 1.717, "grad_norm": 2.7909839153289795, "learning_rate": 9.221209005120142e-06, "loss": 0.395, "step": 5151 }, { "epoch": 1.7173333333333334, "grad_norm": 2.986013650894165, "learning_rate": 9.217342334111843e-06, "loss": 0.3714, "step": 5152 }, { "epoch": 1.7176666666666667, "grad_norm": 2.901939630508423, "learning_rate": 9.213475780837445e-06, "loss": 0.4024, "step": 5153 }, { "epoch": 1.718, "grad_norm": 2.4435768127441406, "learning_rate": 9.20960934587859e-06, "loss": 0.3822, "step": 5154 }, { "epoch": 1.7183333333333333, "grad_norm": 2.202850341796875, "learning_rate": 9.205743029816898e-06, "loss": 0.3852, "step": 5155 }, { "epoch": 1.7186666666666666, "grad_norm": 2.317484140396118, "learning_rate": 9.201876833233981e-06, "loss": 0.4102, "step": 5156 }, { "epoch": 1.7189999999999999, "grad_norm": 1.878745436668396, "learning_rate": 9.198010756711413e-06, "loss": 0.3705, "step": 5157 }, { "epoch": 1.7193333333333334, "grad_norm": 1.7375705242156982, "learning_rate": 9.194144800830765e-06, "loss": 0.3859, "step": 5158 }, { "epoch": 1.7196666666666667, "grad_norm": 2.004394769668579, "learning_rate": 9.190278966173594e-06, "loss": 0.3335, "step": 5159 }, { "epoch": 1.72, "grad_norm": 2.1038453578948975, "learning_rate": 9.18641325332142e-06, "loss": 0.3875, "step": 5160 }, { "epoch": 1.7203333333333335, "grad_norm": 2.0144495964050293, "learning_rate": 9.182547662855759e-06, "loss": 0.3763, "step": 5161 }, { "epoch": 1.7206666666666668, "grad_norm": 2.782109260559082, "learning_rate": 9.17868219535811e-06, "loss": 0.4065, "step": 5162 }, { "epoch": 1.721, "grad_norm": 2.59626841545105, "learning_rate": 9.174816851409949e-06, "loss": 0.3953, "step": 5163 }, { "epoch": 1.7213333333333334, "grad_norm": 2.0883145332336426, "learning_rate": 9.170951631592726e-06, "loss": 0.4137, "step": 5164 }, { "epoch": 1.7216666666666667, "grad_norm": 2.1571037769317627, "learning_rate": 9.167086536487884e-06, "loss": 0.388, "step": 5165 }, { "epoch": 1.722, "grad_norm": 2.2948813438415527, "learning_rate": 9.163221566676847e-06, "loss": 0.3912, "step": 5166 }, { "epoch": 1.7223333333333333, "grad_norm": 2.561216354370117, "learning_rate": 9.15935672274101e-06, "loss": 0.3505, "step": 5167 }, { "epoch": 1.7226666666666666, "grad_norm": 2.3675310611724854, "learning_rate": 9.155492005261756e-06, "loss": 0.3699, "step": 5168 }, { "epoch": 1.7229999999999999, "grad_norm": 1.9843590259552002, "learning_rate": 9.151627414820448e-06, "loss": 0.3624, "step": 5169 }, { "epoch": 1.7233333333333334, "grad_norm": 2.147515296936035, "learning_rate": 9.147762951998436e-06, "loss": 0.3697, "step": 5170 }, { "epoch": 1.7236666666666667, "grad_norm": 2.709007501602173, "learning_rate": 9.143898617377035e-06, "loss": 0.4324, "step": 5171 }, { "epoch": 1.724, "grad_norm": 2.244258165359497, "learning_rate": 9.140034411537558e-06, "loss": 0.3826, "step": 5172 }, { "epoch": 1.7243333333333335, "grad_norm": 2.4196972846984863, "learning_rate": 9.136170335061293e-06, "loss": 0.3373, "step": 5173 }, { "epoch": 1.7246666666666668, "grad_norm": 2.056774377822876, "learning_rate": 9.132306388529494e-06, "loss": 0.3476, "step": 5174 }, { "epoch": 1.725, "grad_norm": 2.657819986343384, "learning_rate": 9.128442572523418e-06, "loss": 0.3701, "step": 5175 }, { "epoch": 1.7253333333333334, "grad_norm": 2.826077461242676, "learning_rate": 9.124578887624293e-06, "loss": 0.389, "step": 5176 }, { "epoch": 1.7256666666666667, "grad_norm": 2.128185272216797, "learning_rate": 9.120715334413329e-06, "loss": 0.3933, "step": 5177 }, { "epoch": 1.726, "grad_norm": 2.2916769981384277, "learning_rate": 9.116851913471701e-06, "loss": 0.392, "step": 5178 }, { "epoch": 1.7263333333333333, "grad_norm": 1.946853518486023, "learning_rate": 9.11298862538059e-06, "loss": 0.3829, "step": 5179 }, { "epoch": 1.7266666666666666, "grad_norm": 2.439119338989258, "learning_rate": 9.109125470721141e-06, "loss": 0.4077, "step": 5180 }, { "epoch": 1.7269999999999999, "grad_norm": 2.971374750137329, "learning_rate": 9.105262450074479e-06, "loss": 0.4023, "step": 5181 }, { "epoch": 1.7273333333333334, "grad_norm": 3.7289726734161377, "learning_rate": 9.10139956402171e-06, "loss": 0.3544, "step": 5182 }, { "epoch": 1.7276666666666667, "grad_norm": 2.7020418643951416, "learning_rate": 9.097536813143927e-06, "loss": 0.3953, "step": 5183 }, { "epoch": 1.728, "grad_norm": 1.950249195098877, "learning_rate": 9.093674198022201e-06, "loss": 0.3857, "step": 5184 }, { "epoch": 1.7283333333333335, "grad_norm": 2.761533737182617, "learning_rate": 9.089811719237567e-06, "loss": 0.3905, "step": 5185 }, { "epoch": 1.7286666666666668, "grad_norm": 3.0800583362579346, "learning_rate": 9.08594937737106e-06, "loss": 0.3977, "step": 5186 }, { "epoch": 1.729, "grad_norm": 2.463881492614746, "learning_rate": 9.082087173003686e-06, "loss": 0.3595, "step": 5187 }, { "epoch": 1.7293333333333334, "grad_norm": 2.5622663497924805, "learning_rate": 9.078225106716421e-06, "loss": 0.3839, "step": 5188 }, { "epoch": 1.7296666666666667, "grad_norm": 2.313080310821533, "learning_rate": 9.074363179090237e-06, "loss": 0.3846, "step": 5189 }, { "epoch": 1.73, "grad_norm": 3.299686908721924, "learning_rate": 9.07050139070608e-06, "loss": 0.3927, "step": 5190 }, { "epoch": 1.7303333333333333, "grad_norm": 2.2481729984283447, "learning_rate": 9.066639742144866e-06, "loss": 0.3795, "step": 5191 }, { "epoch": 1.7306666666666666, "grad_norm": 2.080122709274292, "learning_rate": 9.062778233987499e-06, "loss": 0.3818, "step": 5192 }, { "epoch": 1.7309999999999999, "grad_norm": 2.1994292736053467, "learning_rate": 9.058916866814857e-06, "loss": 0.351, "step": 5193 }, { "epoch": 1.7313333333333332, "grad_norm": 2.2775111198425293, "learning_rate": 9.055055641207806e-06, "loss": 0.3678, "step": 5194 }, { "epoch": 1.7316666666666667, "grad_norm": 2.719740867614746, "learning_rate": 9.051194557747175e-06, "loss": 0.3944, "step": 5195 }, { "epoch": 1.732, "grad_norm": 2.3289966583251953, "learning_rate": 9.047333617013786e-06, "loss": 0.4066, "step": 5196 }, { "epoch": 1.7323333333333333, "grad_norm": 2.003002882003784, "learning_rate": 9.04347281958843e-06, "loss": 0.3651, "step": 5197 }, { "epoch": 1.7326666666666668, "grad_norm": 3.045464277267456, "learning_rate": 9.039612166051889e-06, "loss": 0.4128, "step": 5198 }, { "epoch": 1.733, "grad_norm": 3.2326855659484863, "learning_rate": 9.035751656984904e-06, "loss": 0.3949, "step": 5199 }, { "epoch": 1.7333333333333334, "grad_norm": 2.4260425567626953, "learning_rate": 9.03189129296821e-06, "loss": 0.3715, "step": 5200 }, { "epoch": 1.7336666666666667, "grad_norm": 2.8002748489379883, "learning_rate": 9.028031074582519e-06, "loss": 0.3825, "step": 5201 }, { "epoch": 1.734, "grad_norm": 2.6394522190093994, "learning_rate": 9.024171002408507e-06, "loss": 0.3744, "step": 5202 }, { "epoch": 1.7343333333333333, "grad_norm": 2.3996529579162598, "learning_rate": 9.020311077026846e-06, "loss": 0.3885, "step": 5203 }, { "epoch": 1.7346666666666666, "grad_norm": 2.3751330375671387, "learning_rate": 9.016451299018179e-06, "loss": 0.3645, "step": 5204 }, { "epoch": 1.7349999999999999, "grad_norm": 3.731998920440674, "learning_rate": 9.012591668963123e-06, "loss": 0.3889, "step": 5205 }, { "epoch": 1.7353333333333332, "grad_norm": 2.044649839401245, "learning_rate": 9.008732187442276e-06, "loss": 0.3565, "step": 5206 }, { "epoch": 1.7356666666666667, "grad_norm": 2.287670373916626, "learning_rate": 9.004872855036212e-06, "loss": 0.3689, "step": 5207 }, { "epoch": 1.736, "grad_norm": 2.4104654788970947, "learning_rate": 9.001013672325491e-06, "loss": 0.3856, "step": 5208 }, { "epoch": 1.7363333333333333, "grad_norm": 2.0945770740509033, "learning_rate": 8.997154639890633e-06, "loss": 0.3755, "step": 5209 }, { "epoch": 1.7366666666666668, "grad_norm": 2.4133594036102295, "learning_rate": 8.993295758312155e-06, "loss": 0.3794, "step": 5210 }, { "epoch": 1.737, "grad_norm": 2.3266549110412598, "learning_rate": 8.989437028170537e-06, "loss": 0.3312, "step": 5211 }, { "epoch": 1.7373333333333334, "grad_norm": 2.348606586456299, "learning_rate": 8.985578450046246e-06, "loss": 0.3617, "step": 5212 }, { "epoch": 1.7376666666666667, "grad_norm": 2.424304485321045, "learning_rate": 8.981720024519714e-06, "loss": 0.3679, "step": 5213 }, { "epoch": 1.738, "grad_norm": 2.2763776779174805, "learning_rate": 8.977861752171365e-06, "loss": 0.3688, "step": 5214 }, { "epoch": 1.7383333333333333, "grad_norm": 2.635798931121826, "learning_rate": 8.974003633581592e-06, "loss": 0.384, "step": 5215 }, { "epoch": 1.7386666666666666, "grad_norm": 2.4573752880096436, "learning_rate": 8.970145669330758e-06, "loss": 0.3533, "step": 5216 }, { "epoch": 1.7389999999999999, "grad_norm": 3.086747646331787, "learning_rate": 8.966287859999216e-06, "loss": 0.4074, "step": 5217 }, { "epoch": 1.7393333333333332, "grad_norm": 2.5433876514434814, "learning_rate": 8.962430206167292e-06, "loss": 0.3919, "step": 5218 }, { "epoch": 1.7396666666666667, "grad_norm": 2.2118029594421387, "learning_rate": 8.958572708415283e-06, "loss": 0.3302, "step": 5219 }, { "epoch": 1.74, "grad_norm": 2.648317575454712, "learning_rate": 8.954715367323468e-06, "loss": 0.362, "step": 5220 }, { "epoch": 1.7403333333333333, "grad_norm": 1.923326015472412, "learning_rate": 8.950858183472096e-06, "loss": 0.36, "step": 5221 }, { "epoch": 1.7406666666666668, "grad_norm": 2.4813389778137207, "learning_rate": 8.947001157441404e-06, "loss": 0.348, "step": 5222 }, { "epoch": 1.741, "grad_norm": 2.4247236251831055, "learning_rate": 8.94314428981159e-06, "loss": 0.3586, "step": 5223 }, { "epoch": 1.7413333333333334, "grad_norm": 2.377544641494751, "learning_rate": 8.939287581162844e-06, "loss": 0.4254, "step": 5224 }, { "epoch": 1.7416666666666667, "grad_norm": 2.1041038036346436, "learning_rate": 8.935431032075317e-06, "loss": 0.3747, "step": 5225 }, { "epoch": 1.742, "grad_norm": 2.9485561847686768, "learning_rate": 8.931574643129152e-06, "loss": 0.3835, "step": 5226 }, { "epoch": 1.7423333333333333, "grad_norm": 2.651953935623169, "learning_rate": 8.927718414904451e-06, "loss": 0.3804, "step": 5227 }, { "epoch": 1.7426666666666666, "grad_norm": 2.230396270751953, "learning_rate": 8.923862347981305e-06, "loss": 0.3658, "step": 5228 }, { "epoch": 1.7429999999999999, "grad_norm": 2.2071592807769775, "learning_rate": 8.920006442939772e-06, "loss": 0.3674, "step": 5229 }, { "epoch": 1.7433333333333332, "grad_norm": 2.3431363105773926, "learning_rate": 8.916150700359896e-06, "loss": 0.376, "step": 5230 }, { "epoch": 1.7436666666666667, "grad_norm": 2.0892233848571777, "learning_rate": 8.91229512082168e-06, "loss": 0.3484, "step": 5231 }, { "epoch": 1.744, "grad_norm": 2.847841501235962, "learning_rate": 8.90843970490512e-06, "loss": 0.3766, "step": 5232 }, { "epoch": 1.7443333333333333, "grad_norm": 2.967644691467285, "learning_rate": 8.904584453190181e-06, "loss": 0.4042, "step": 5233 }, { "epoch": 1.7446666666666668, "grad_norm": 2.0068893432617188, "learning_rate": 8.900729366256798e-06, "loss": 0.337, "step": 5234 }, { "epoch": 1.745, "grad_norm": 2.0116653442382812, "learning_rate": 8.896874444684882e-06, "loss": 0.3591, "step": 5235 }, { "epoch": 1.7453333333333334, "grad_norm": 2.4195032119750977, "learning_rate": 8.893019689054331e-06, "loss": 0.3718, "step": 5236 }, { "epoch": 1.7456666666666667, "grad_norm": 2.173764944076538, "learning_rate": 8.889165099945008e-06, "loss": 0.355, "step": 5237 }, { "epoch": 1.746, "grad_norm": 2.3379435539245605, "learning_rate": 8.885310677936746e-06, "loss": 0.3665, "step": 5238 }, { "epoch": 1.7463333333333333, "grad_norm": 1.9895784854888916, "learning_rate": 8.881456423609365e-06, "loss": 0.3158, "step": 5239 }, { "epoch": 1.7466666666666666, "grad_norm": 1.9865703582763672, "learning_rate": 8.877602337542655e-06, "loss": 0.3884, "step": 5240 }, { "epoch": 1.7469999999999999, "grad_norm": 2.184357166290283, "learning_rate": 8.873748420316372e-06, "loss": 0.4281, "step": 5241 }, { "epoch": 1.7473333333333332, "grad_norm": 2.2074928283691406, "learning_rate": 8.869894672510263e-06, "loss": 0.3334, "step": 5242 }, { "epoch": 1.7476666666666667, "grad_norm": 1.820659875869751, "learning_rate": 8.866041094704037e-06, "loss": 0.3743, "step": 5243 }, { "epoch": 1.748, "grad_norm": 2.405888080596924, "learning_rate": 8.862187687477386e-06, "loss": 0.3706, "step": 5244 }, { "epoch": 1.7483333333333333, "grad_norm": 2.0148534774780273, "learning_rate": 8.85833445140996e-06, "loss": 0.3398, "step": 5245 }, { "epoch": 1.7486666666666668, "grad_norm": 2.143540620803833, "learning_rate": 8.854481387081407e-06, "loss": 0.3918, "step": 5246 }, { "epoch": 1.749, "grad_norm": 5.493214130401611, "learning_rate": 8.850628495071336e-06, "loss": 0.3655, "step": 5247 }, { "epoch": 1.7493333333333334, "grad_norm": 2.6839330196380615, "learning_rate": 8.846775775959325e-06, "loss": 0.3813, "step": 5248 }, { "epoch": 1.7496666666666667, "grad_norm": 2.3490705490112305, "learning_rate": 8.842923230324934e-06, "loss": 0.3375, "step": 5249 }, { "epoch": 1.75, "grad_norm": 2.8785390853881836, "learning_rate": 8.839070858747697e-06, "loss": 0.3959, "step": 5250 }, { "epoch": 1.7503333333333333, "grad_norm": 2.4787137508392334, "learning_rate": 8.835218661807122e-06, "loss": 0.356, "step": 5251 }, { "epoch": 1.7506666666666666, "grad_norm": 2.6119916439056396, "learning_rate": 8.831366640082686e-06, "loss": 0.3279, "step": 5252 }, { "epoch": 1.751, "grad_norm": 3.0670406818389893, "learning_rate": 8.827514794153839e-06, "loss": 0.4294, "step": 5253 }, { "epoch": 1.7513333333333332, "grad_norm": 2.0611681938171387, "learning_rate": 8.823663124600016e-06, "loss": 0.3731, "step": 5254 }, { "epoch": 1.7516666666666667, "grad_norm": 2.3248164653778076, "learning_rate": 8.819811632000606e-06, "loss": 0.3687, "step": 5255 }, { "epoch": 1.752, "grad_norm": 2.828484535217285, "learning_rate": 8.815960316934991e-06, "loss": 0.3948, "step": 5256 }, { "epoch": 1.7523333333333333, "grad_norm": 2.0826475620269775, "learning_rate": 8.812109179982517e-06, "loss": 0.3568, "step": 5257 }, { "epoch": 1.7526666666666668, "grad_norm": 2.8356964588165283, "learning_rate": 8.808258221722507e-06, "loss": 0.3694, "step": 5258 }, { "epoch": 1.7530000000000001, "grad_norm": 2.4468371868133545, "learning_rate": 8.804407442734244e-06, "loss": 0.3551, "step": 5259 }, { "epoch": 1.7533333333333334, "grad_norm": 2.586949348449707, "learning_rate": 8.800556843597002e-06, "loss": 0.4022, "step": 5260 }, { "epoch": 1.7536666666666667, "grad_norm": 2.891343593597412, "learning_rate": 8.796706424890025e-06, "loss": 0.3828, "step": 5261 }, { "epoch": 1.754, "grad_norm": 3.078901529312134, "learning_rate": 8.792856187192516e-06, "loss": 0.3564, "step": 5262 }, { "epoch": 1.7543333333333333, "grad_norm": 2.089284896850586, "learning_rate": 8.789006131083661e-06, "loss": 0.3589, "step": 5263 }, { "epoch": 1.7546666666666666, "grad_norm": 2.163081169128418, "learning_rate": 8.78515625714262e-06, "loss": 0.381, "step": 5264 }, { "epoch": 1.755, "grad_norm": 2.151970148086548, "learning_rate": 8.781306565948528e-06, "loss": 0.3741, "step": 5265 }, { "epoch": 1.7553333333333332, "grad_norm": 2.7031476497650146, "learning_rate": 8.777457058080476e-06, "loss": 0.3717, "step": 5266 }, { "epoch": 1.7556666666666667, "grad_norm": 2.4392731189727783, "learning_rate": 8.773607734117551e-06, "loss": 0.3816, "step": 5267 }, { "epoch": 1.756, "grad_norm": 2.1644980907440186, "learning_rate": 8.769758594638796e-06, "loss": 0.3637, "step": 5268 }, { "epoch": 1.7563333333333333, "grad_norm": 2.86175799369812, "learning_rate": 8.765909640223228e-06, "loss": 0.3995, "step": 5269 }, { "epoch": 1.7566666666666668, "grad_norm": 2.2576770782470703, "learning_rate": 8.762060871449838e-06, "loss": 0.3715, "step": 5270 }, { "epoch": 1.7570000000000001, "grad_norm": 1.8314756155014038, "learning_rate": 8.758212288897597e-06, "loss": 0.3697, "step": 5271 }, { "epoch": 1.7573333333333334, "grad_norm": 1.9456430673599243, "learning_rate": 8.754363893145437e-06, "loss": 0.3764, "step": 5272 }, { "epoch": 1.7576666666666667, "grad_norm": 2.301055669784546, "learning_rate": 8.750515684772263e-06, "loss": 0.3636, "step": 5273 }, { "epoch": 1.758, "grad_norm": 2.862175941467285, "learning_rate": 8.746667664356957e-06, "loss": 0.3185, "step": 5274 }, { "epoch": 1.7583333333333333, "grad_norm": 2.12833309173584, "learning_rate": 8.742819832478376e-06, "loss": 0.3781, "step": 5275 }, { "epoch": 1.7586666666666666, "grad_norm": 2.3194851875305176, "learning_rate": 8.738972189715333e-06, "loss": 0.3714, "step": 5276 }, { "epoch": 1.759, "grad_norm": 2.2675223350524902, "learning_rate": 8.735124736646627e-06, "loss": 0.3405, "step": 5277 }, { "epoch": 1.7593333333333332, "grad_norm": 4.028599262237549, "learning_rate": 8.731277473851025e-06, "loss": 0.3353, "step": 5278 }, { "epoch": 1.7596666666666667, "grad_norm": 2.544346332550049, "learning_rate": 8.727430401907266e-06, "loss": 0.3887, "step": 5279 }, { "epoch": 1.76, "grad_norm": 3.4397928714752197, "learning_rate": 8.723583521394054e-06, "loss": 0.3925, "step": 5280 }, { "epoch": 1.7603333333333333, "grad_norm": 2.598506450653076, "learning_rate": 8.719736832890073e-06, "loss": 0.3736, "step": 5281 }, { "epoch": 1.7606666666666668, "grad_norm": 2.0712671279907227, "learning_rate": 8.715890336973974e-06, "loss": 0.3746, "step": 5282 }, { "epoch": 1.7610000000000001, "grad_norm": 3.15639328956604, "learning_rate": 8.712044034224374e-06, "loss": 0.3728, "step": 5283 }, { "epoch": 1.7613333333333334, "grad_norm": 2.1073312759399414, "learning_rate": 8.70819792521987e-06, "loss": 0.3658, "step": 5284 }, { "epoch": 1.7616666666666667, "grad_norm": 2.2145590782165527, "learning_rate": 8.704352010539026e-06, "loss": 0.3672, "step": 5285 }, { "epoch": 1.762, "grad_norm": 3.279059648513794, "learning_rate": 8.700506290760377e-06, "loss": 0.406, "step": 5286 }, { "epoch": 1.7623333333333333, "grad_norm": 2.823753595352173, "learning_rate": 8.696660766462424e-06, "loss": 0.4152, "step": 5287 }, { "epoch": 1.7626666666666666, "grad_norm": 2.397030830383301, "learning_rate": 8.692815438223646e-06, "loss": 0.3915, "step": 5288 }, { "epoch": 1.763, "grad_norm": 2.6316795349121094, "learning_rate": 8.688970306622494e-06, "loss": 0.3776, "step": 5289 }, { "epoch": 1.7633333333333332, "grad_norm": 2.1493914127349854, "learning_rate": 8.685125372237374e-06, "loss": 0.3767, "step": 5290 }, { "epoch": 1.7636666666666667, "grad_norm": 2.2359750270843506, "learning_rate": 8.681280635646685e-06, "loss": 0.3619, "step": 5291 }, { "epoch": 1.764, "grad_norm": 1.8109965324401855, "learning_rate": 8.677436097428775e-06, "loss": 0.363, "step": 5292 }, { "epoch": 1.7643333333333333, "grad_norm": 2.892040252685547, "learning_rate": 8.67359175816198e-06, "loss": 0.3771, "step": 5293 }, { "epoch": 1.7646666666666668, "grad_norm": 2.072190046310425, "learning_rate": 8.669747618424587e-06, "loss": 0.3538, "step": 5294 }, { "epoch": 1.7650000000000001, "grad_norm": 2.205911159515381, "learning_rate": 8.665903678794873e-06, "loss": 0.3808, "step": 5295 }, { "epoch": 1.7653333333333334, "grad_norm": 2.0868875980377197, "learning_rate": 8.662059939851076e-06, "loss": 0.385, "step": 5296 }, { "epoch": 1.7656666666666667, "grad_norm": 2.281784772872925, "learning_rate": 8.658216402171392e-06, "loss": 0.4147, "step": 5297 }, { "epoch": 1.766, "grad_norm": 2.3989357948303223, "learning_rate": 8.654373066334007e-06, "loss": 0.3328, "step": 5298 }, { "epoch": 1.7663333333333333, "grad_norm": 2.230523109436035, "learning_rate": 8.65052993291707e-06, "loss": 0.381, "step": 5299 }, { "epoch": 1.7666666666666666, "grad_norm": 2.744215965270996, "learning_rate": 8.646687002498692e-06, "loss": 0.389, "step": 5300 }, { "epoch": 1.767, "grad_norm": 2.794107675552368, "learning_rate": 8.642844275656957e-06, "loss": 0.4047, "step": 5301 }, { "epoch": 1.7673333333333332, "grad_norm": 2.328735828399658, "learning_rate": 8.639001752969924e-06, "loss": 0.3603, "step": 5302 }, { "epoch": 1.7676666666666667, "grad_norm": 2.1093459129333496, "learning_rate": 8.635159435015621e-06, "loss": 0.3383, "step": 5303 }, { "epoch": 1.768, "grad_norm": 2.859316349029541, "learning_rate": 8.631317322372032e-06, "loss": 0.4017, "step": 5304 }, { "epoch": 1.7683333333333333, "grad_norm": 2.238375186920166, "learning_rate": 8.627475415617127e-06, "loss": 0.3911, "step": 5305 }, { "epoch": 1.7686666666666668, "grad_norm": 2.1103832721710205, "learning_rate": 8.623633715328833e-06, "loss": 0.3206, "step": 5306 }, { "epoch": 1.7690000000000001, "grad_norm": 2.9180855751037598, "learning_rate": 8.619792222085059e-06, "loss": 0.3894, "step": 5307 }, { "epoch": 1.7693333333333334, "grad_norm": 1.929516315460205, "learning_rate": 8.615950936463662e-06, "loss": 0.3427, "step": 5308 }, { "epoch": 1.7696666666666667, "grad_norm": 2.7390401363372803, "learning_rate": 8.61210985904249e-06, "loss": 0.3635, "step": 5309 }, { "epoch": 1.77, "grad_norm": 2.265267848968506, "learning_rate": 8.60826899039935e-06, "loss": 0.3355, "step": 5310 }, { "epoch": 1.7703333333333333, "grad_norm": 2.5322136878967285, "learning_rate": 8.60442833111201e-06, "loss": 0.402, "step": 5311 }, { "epoch": 1.7706666666666666, "grad_norm": 2.2316811084747314, "learning_rate": 8.600587881758216e-06, "loss": 0.3812, "step": 5312 }, { "epoch": 1.771, "grad_norm": 2.7555599212646484, "learning_rate": 8.596747642915687e-06, "loss": 0.2988, "step": 5313 }, { "epoch": 1.7713333333333332, "grad_norm": 1.8979309797286987, "learning_rate": 8.592907615162099e-06, "loss": 0.3462, "step": 5314 }, { "epoch": 1.7716666666666665, "grad_norm": 1.647798776626587, "learning_rate": 8.589067799075102e-06, "loss": 0.3339, "step": 5315 }, { "epoch": 1.772, "grad_norm": 2.5185980796813965, "learning_rate": 8.585228195232311e-06, "loss": 0.4122, "step": 5316 }, { "epoch": 1.7723333333333333, "grad_norm": 2.4933671951293945, "learning_rate": 8.581388804211318e-06, "loss": 0.3963, "step": 5317 }, { "epoch": 1.7726666666666666, "grad_norm": 2.920473575592041, "learning_rate": 8.577549626589666e-06, "loss": 0.3843, "step": 5318 }, { "epoch": 1.7730000000000001, "grad_norm": 2.2596988677978516, "learning_rate": 8.573710662944884e-06, "loss": 0.3051, "step": 5319 }, { "epoch": 1.7733333333333334, "grad_norm": 2.245378017425537, "learning_rate": 8.569871913854458e-06, "loss": 0.3414, "step": 5320 }, { "epoch": 1.7736666666666667, "grad_norm": 1.9246572256088257, "learning_rate": 8.566033379895848e-06, "loss": 0.3557, "step": 5321 }, { "epoch": 1.774, "grad_norm": 2.593600273132324, "learning_rate": 8.562195061646474e-06, "loss": 0.3315, "step": 5322 }, { "epoch": 1.7743333333333333, "grad_norm": 2.461127281188965, "learning_rate": 8.558356959683729e-06, "loss": 0.3433, "step": 5323 }, { "epoch": 1.7746666666666666, "grad_norm": 2.2521796226501465, "learning_rate": 8.554519074584974e-06, "loss": 0.3772, "step": 5324 }, { "epoch": 1.775, "grad_norm": 2.519683837890625, "learning_rate": 8.550681406927534e-06, "loss": 0.3508, "step": 5325 }, { "epoch": 1.7753333333333332, "grad_norm": 2.256483554840088, "learning_rate": 8.546843957288704e-06, "loss": 0.353, "step": 5326 }, { "epoch": 1.7756666666666665, "grad_norm": 2.1790640354156494, "learning_rate": 8.543006726245743e-06, "loss": 0.3885, "step": 5327 }, { "epoch": 1.776, "grad_norm": 1.7241216897964478, "learning_rate": 8.539169714375885e-06, "loss": 0.3604, "step": 5328 }, { "epoch": 1.7763333333333333, "grad_norm": 2.429671049118042, "learning_rate": 8.53533292225632e-06, "loss": 0.3573, "step": 5329 }, { "epoch": 1.7766666666666666, "grad_norm": 1.9336366653442383, "learning_rate": 8.53149635046421e-06, "loss": 0.3723, "step": 5330 }, { "epoch": 1.7770000000000001, "grad_norm": 1.9970588684082031, "learning_rate": 8.527659999576692e-06, "loss": 0.3702, "step": 5331 }, { "epoch": 1.7773333333333334, "grad_norm": 2.4210636615753174, "learning_rate": 8.52382387017085e-06, "loss": 0.3505, "step": 5332 }, { "epoch": 1.7776666666666667, "grad_norm": 3.1627867221832275, "learning_rate": 8.519987962823756e-06, "loss": 0.4039, "step": 5333 }, { "epoch": 1.778, "grad_norm": 2.5705161094665527, "learning_rate": 8.516152278112433e-06, "loss": 0.3616, "step": 5334 }, { "epoch": 1.7783333333333333, "grad_norm": 2.9969100952148438, "learning_rate": 8.512316816613885e-06, "loss": 0.384, "step": 5335 }, { "epoch": 1.7786666666666666, "grad_norm": 3.5169713497161865, "learning_rate": 8.508481578905064e-06, "loss": 0.3424, "step": 5336 }, { "epoch": 1.779, "grad_norm": 2.127121686935425, "learning_rate": 8.504646565562907e-06, "loss": 0.3482, "step": 5337 }, { "epoch": 1.7793333333333332, "grad_norm": 2.9168031215667725, "learning_rate": 8.500811777164303e-06, "loss": 0.3857, "step": 5338 }, { "epoch": 1.7796666666666665, "grad_norm": 2.517439842224121, "learning_rate": 8.496977214286116e-06, "loss": 0.3567, "step": 5339 }, { "epoch": 1.78, "grad_norm": 2.2605862617492676, "learning_rate": 8.49314287750517e-06, "loss": 0.3517, "step": 5340 }, { "epoch": 1.7803333333333333, "grad_norm": 2.775373935699463, "learning_rate": 8.489308767398259e-06, "loss": 0.3844, "step": 5341 }, { "epoch": 1.7806666666666666, "grad_norm": 2.8198471069335938, "learning_rate": 8.485474884542149e-06, "loss": 0.3632, "step": 5342 }, { "epoch": 1.7810000000000001, "grad_norm": 2.3662514686584473, "learning_rate": 8.481641229513554e-06, "loss": 0.337, "step": 5343 }, { "epoch": 1.7813333333333334, "grad_norm": 2.9349942207336426, "learning_rate": 8.477807802889169e-06, "loss": 0.3756, "step": 5344 }, { "epoch": 1.7816666666666667, "grad_norm": 2.7736525535583496, "learning_rate": 8.473974605245652e-06, "loss": 0.384, "step": 5345 }, { "epoch": 1.782, "grad_norm": 2.4834377765655518, "learning_rate": 8.47014163715962e-06, "loss": 0.3512, "step": 5346 }, { "epoch": 1.7823333333333333, "grad_norm": 2.5502874851226807, "learning_rate": 8.466308899207665e-06, "loss": 0.3445, "step": 5347 }, { "epoch": 1.7826666666666666, "grad_norm": 2.9331412315368652, "learning_rate": 8.462476391966334e-06, "loss": 0.3394, "step": 5348 }, { "epoch": 1.783, "grad_norm": 2.0848731994628906, "learning_rate": 8.458644116012154e-06, "loss": 0.3863, "step": 5349 }, { "epoch": 1.7833333333333332, "grad_norm": 2.8035008907318115, "learning_rate": 8.454812071921597e-06, "loss": 0.3701, "step": 5350 }, { "epoch": 1.7836666666666665, "grad_norm": 2.712843418121338, "learning_rate": 8.450980260271115e-06, "loss": 0.3527, "step": 5351 }, { "epoch": 1.784, "grad_norm": 3.1563847064971924, "learning_rate": 8.447148681637127e-06, "loss": 0.3719, "step": 5352 }, { "epoch": 1.7843333333333333, "grad_norm": 2.739694356918335, "learning_rate": 8.443317336596003e-06, "loss": 0.3753, "step": 5353 }, { "epoch": 1.7846666666666666, "grad_norm": 2.028402090072632, "learning_rate": 8.439486225724088e-06, "loss": 0.3796, "step": 5354 }, { "epoch": 1.7850000000000001, "grad_norm": 2.9310131072998047, "learning_rate": 8.43565534959769e-06, "loss": 0.3525, "step": 5355 }, { "epoch": 1.7853333333333334, "grad_norm": 3.119868278503418, "learning_rate": 8.431824708793088e-06, "loss": 0.3804, "step": 5356 }, { "epoch": 1.7856666666666667, "grad_norm": 3.9267079830169678, "learning_rate": 8.42799430388651e-06, "loss": 0.3787, "step": 5357 }, { "epoch": 1.786, "grad_norm": 2.371084213256836, "learning_rate": 8.424164135454158e-06, "loss": 0.3965, "step": 5358 }, { "epoch": 1.7863333333333333, "grad_norm": 2.4693548679351807, "learning_rate": 8.420334204072205e-06, "loss": 0.3934, "step": 5359 }, { "epoch": 1.7866666666666666, "grad_norm": 2.0154976844787598, "learning_rate": 8.416504510316774e-06, "loss": 0.3582, "step": 5360 }, { "epoch": 1.787, "grad_norm": 3.097656726837158, "learning_rate": 8.412675054763963e-06, "loss": 0.4233, "step": 5361 }, { "epoch": 1.7873333333333332, "grad_norm": 2.3662753105163574, "learning_rate": 8.408845837989828e-06, "loss": 0.3673, "step": 5362 }, { "epoch": 1.7876666666666665, "grad_norm": 2.7975540161132812, "learning_rate": 8.4050168605704e-06, "loss": 0.3456, "step": 5363 }, { "epoch": 1.788, "grad_norm": 2.1157279014587402, "learning_rate": 8.401188123081653e-06, "loss": 0.3813, "step": 5364 }, { "epoch": 1.7883333333333333, "grad_norm": 2.159705400466919, "learning_rate": 8.397359626099544e-06, "loss": 0.4, "step": 5365 }, { "epoch": 1.7886666666666666, "grad_norm": 2.094238042831421, "learning_rate": 8.393531370199995e-06, "loss": 0.3279, "step": 5366 }, { "epoch": 1.7890000000000001, "grad_norm": 2.532374382019043, "learning_rate": 8.389703355958873e-06, "loss": 0.3754, "step": 5367 }, { "epoch": 1.7893333333333334, "grad_norm": 2.217909574508667, "learning_rate": 8.38587558395202e-06, "loss": 0.4028, "step": 5368 }, { "epoch": 1.7896666666666667, "grad_norm": 3.1114413738250732, "learning_rate": 8.382048054755249e-06, "loss": 0.3767, "step": 5369 }, { "epoch": 1.79, "grad_norm": 3.719454288482666, "learning_rate": 8.378220768944328e-06, "loss": 0.4058, "step": 5370 }, { "epoch": 1.7903333333333333, "grad_norm": 3.3040771484375, "learning_rate": 8.374393727094984e-06, "loss": 0.3686, "step": 5371 }, { "epoch": 1.7906666666666666, "grad_norm": 2.143054723739624, "learning_rate": 8.370566929782912e-06, "loss": 0.3636, "step": 5372 }, { "epoch": 1.791, "grad_norm": 2.3527774810791016, "learning_rate": 8.366740377583781e-06, "loss": 0.3835, "step": 5373 }, { "epoch": 1.7913333333333332, "grad_norm": 1.8353407382965088, "learning_rate": 8.3629140710732e-06, "loss": 0.3158, "step": 5374 }, { "epoch": 1.7916666666666665, "grad_norm": 2.264157295227051, "learning_rate": 8.35908801082676e-06, "loss": 0.3921, "step": 5375 }, { "epoch": 1.792, "grad_norm": 2.5551371574401855, "learning_rate": 8.355262197420011e-06, "loss": 0.3703, "step": 5376 }, { "epoch": 1.7923333333333333, "grad_norm": 2.338632822036743, "learning_rate": 8.351436631428464e-06, "loss": 0.4023, "step": 5377 }, { "epoch": 1.7926666666666666, "grad_norm": 2.638227939605713, "learning_rate": 8.347611313427586e-06, "loss": 0.3615, "step": 5378 }, { "epoch": 1.7930000000000001, "grad_norm": 3.248967409133911, "learning_rate": 8.343786243992819e-06, "loss": 0.3734, "step": 5379 }, { "epoch": 1.7933333333333334, "grad_norm": 2.148685932159424, "learning_rate": 8.339961423699563e-06, "loss": 0.3553, "step": 5380 }, { "epoch": 1.7936666666666667, "grad_norm": 1.8442659378051758, "learning_rate": 8.336136853123175e-06, "loss": 0.3524, "step": 5381 }, { "epoch": 1.794, "grad_norm": 3.5756301879882812, "learning_rate": 8.332312532838978e-06, "loss": 0.3577, "step": 5382 }, { "epoch": 1.7943333333333333, "grad_norm": 3.024296998977661, "learning_rate": 8.328488463422261e-06, "loss": 0.363, "step": 5383 }, { "epoch": 1.7946666666666666, "grad_norm": 2.1696012020111084, "learning_rate": 8.324664645448277e-06, "loss": 0.3551, "step": 5384 }, { "epoch": 1.795, "grad_norm": 3.1377241611480713, "learning_rate": 8.32084107949223e-06, "loss": 0.3893, "step": 5385 }, { "epoch": 1.7953333333333332, "grad_norm": 2.1317851543426514, "learning_rate": 8.317017766129295e-06, "loss": 0.3791, "step": 5386 }, { "epoch": 1.7956666666666665, "grad_norm": 2.2976009845733643, "learning_rate": 8.313194705934608e-06, "loss": 0.3808, "step": 5387 }, { "epoch": 1.796, "grad_norm": 4.229997158050537, "learning_rate": 8.309371899483261e-06, "loss": 0.3255, "step": 5388 }, { "epoch": 1.7963333333333333, "grad_norm": 2.5205891132354736, "learning_rate": 8.305549347350315e-06, "loss": 0.3471, "step": 5389 }, { "epoch": 1.7966666666666666, "grad_norm": 2.4710819721221924, "learning_rate": 8.301727050110794e-06, "loss": 0.352, "step": 5390 }, { "epoch": 1.7970000000000002, "grad_norm": 1.8797929286956787, "learning_rate": 8.297905008339677e-06, "loss": 0.355, "step": 5391 }, { "epoch": 1.7973333333333334, "grad_norm": 2.6008102893829346, "learning_rate": 8.294083222611904e-06, "loss": 0.3737, "step": 5392 }, { "epoch": 1.7976666666666667, "grad_norm": 3.3063559532165527, "learning_rate": 8.290261693502384e-06, "loss": 0.401, "step": 5393 }, { "epoch": 1.798, "grad_norm": 2.0809543132781982, "learning_rate": 8.286440421585986e-06, "loss": 0.365, "step": 5394 }, { "epoch": 1.7983333333333333, "grad_norm": 2.619013786315918, "learning_rate": 8.282619407437531e-06, "loss": 0.3488, "step": 5395 }, { "epoch": 1.7986666666666666, "grad_norm": 2.1401407718658447, "learning_rate": 8.27879865163181e-06, "loss": 0.3652, "step": 5396 }, { "epoch": 1.799, "grad_norm": 2.765852451324463, "learning_rate": 8.274978154743574e-06, "loss": 0.3577, "step": 5397 }, { "epoch": 1.7993333333333332, "grad_norm": 2.3988256454467773, "learning_rate": 8.27115791734754e-06, "loss": 0.3433, "step": 5398 }, { "epoch": 1.7996666666666665, "grad_norm": 2.432441234588623, "learning_rate": 8.267337940018367e-06, "loss": 0.3285, "step": 5399 }, { "epoch": 1.8, "grad_norm": 2.7725160121917725, "learning_rate": 8.263518223330698e-06, "loss": 0.3616, "step": 5400 }, { "epoch": 1.8003333333333333, "grad_norm": 3.0689473152160645, "learning_rate": 8.259698767859125e-06, "loss": 0.3314, "step": 5401 }, { "epoch": 1.8006666666666666, "grad_norm": 2.154219150543213, "learning_rate": 8.255879574178198e-06, "loss": 0.3828, "step": 5402 }, { "epoch": 1.8010000000000002, "grad_norm": 2.1715598106384277, "learning_rate": 8.252060642862436e-06, "loss": 0.3645, "step": 5403 }, { "epoch": 1.8013333333333335, "grad_norm": 2.5091381072998047, "learning_rate": 8.248241974486312e-06, "loss": 0.3671, "step": 5404 }, { "epoch": 1.8016666666666667, "grad_norm": 2.2891128063201904, "learning_rate": 8.24442356962427e-06, "loss": 0.3872, "step": 5405 }, { "epoch": 1.802, "grad_norm": 2.628812313079834, "learning_rate": 8.240605428850693e-06, "loss": 0.3843, "step": 5406 }, { "epoch": 1.8023333333333333, "grad_norm": 2.638728618621826, "learning_rate": 8.236787552739945e-06, "loss": 0.4071, "step": 5407 }, { "epoch": 1.8026666666666666, "grad_norm": 2.655045509338379, "learning_rate": 8.232969941866349e-06, "loss": 0.3984, "step": 5408 }, { "epoch": 1.803, "grad_norm": 3.109473705291748, "learning_rate": 8.22915259680417e-06, "loss": 0.3693, "step": 5409 }, { "epoch": 1.8033333333333332, "grad_norm": 2.710890531539917, "learning_rate": 8.22533551812765e-06, "loss": 0.3698, "step": 5410 }, { "epoch": 1.8036666666666665, "grad_norm": 2.1857151985168457, "learning_rate": 8.221518706410985e-06, "loss": 0.3433, "step": 5411 }, { "epoch": 1.804, "grad_norm": 2.081925868988037, "learning_rate": 8.217702162228337e-06, "loss": 0.3776, "step": 5412 }, { "epoch": 1.8043333333333333, "grad_norm": 2.1225204467773438, "learning_rate": 8.213885886153816e-06, "loss": 0.3646, "step": 5413 }, { "epoch": 1.8046666666666666, "grad_norm": 2.2899110317230225, "learning_rate": 8.210069878761502e-06, "loss": 0.3671, "step": 5414 }, { "epoch": 1.8050000000000002, "grad_norm": 2.7650771141052246, "learning_rate": 8.206254140625425e-06, "loss": 0.3681, "step": 5415 }, { "epoch": 1.8053333333333335, "grad_norm": 2.312861204147339, "learning_rate": 8.20243867231959e-06, "loss": 0.3839, "step": 5416 }, { "epoch": 1.8056666666666668, "grad_norm": 2.3486545085906982, "learning_rate": 8.198623474417942e-06, "loss": 0.3463, "step": 5417 }, { "epoch": 1.806, "grad_norm": 2.899407386779785, "learning_rate": 8.194808547494401e-06, "loss": 0.362, "step": 5418 }, { "epoch": 1.8063333333333333, "grad_norm": 3.1218314170837402, "learning_rate": 8.190993892122841e-06, "loss": 0.3396, "step": 5419 }, { "epoch": 1.8066666666666666, "grad_norm": 1.9150714874267578, "learning_rate": 8.187179508877086e-06, "loss": 0.3941, "step": 5420 }, { "epoch": 1.807, "grad_norm": 3.27451491355896, "learning_rate": 8.183365398330931e-06, "loss": 0.4119, "step": 5421 }, { "epoch": 1.8073333333333332, "grad_norm": 2.178478479385376, "learning_rate": 8.179551561058134e-06, "loss": 0.3522, "step": 5422 }, { "epoch": 1.8076666666666665, "grad_norm": 2.4835970401763916, "learning_rate": 8.175737997632396e-06, "loss": 0.3714, "step": 5423 }, { "epoch": 1.808, "grad_norm": 2.4324076175689697, "learning_rate": 8.171924708627387e-06, "loss": 0.3478, "step": 5424 }, { "epoch": 1.8083333333333333, "grad_norm": 2.336601495742798, "learning_rate": 8.168111694616733e-06, "loss": 0.3508, "step": 5425 }, { "epoch": 1.8086666666666666, "grad_norm": 2.229922294616699, "learning_rate": 8.164298956174025e-06, "loss": 0.3604, "step": 5426 }, { "epoch": 1.8090000000000002, "grad_norm": 2.7695398330688477, "learning_rate": 8.1604864938728e-06, "loss": 0.3573, "step": 5427 }, { "epoch": 1.8093333333333335, "grad_norm": 2.4285361766815186, "learning_rate": 8.156674308286564e-06, "loss": 0.3794, "step": 5428 }, { "epoch": 1.8096666666666668, "grad_norm": 2.1725447177886963, "learning_rate": 8.152862399988774e-06, "loss": 0.3473, "step": 5429 }, { "epoch": 1.81, "grad_norm": 3.591898202896118, "learning_rate": 8.149050769552856e-06, "loss": 0.354, "step": 5430 }, { "epoch": 1.8103333333333333, "grad_norm": 2.498190402984619, "learning_rate": 8.14523941755218e-06, "loss": 0.3725, "step": 5431 }, { "epoch": 1.8106666666666666, "grad_norm": 2.516977071762085, "learning_rate": 8.141428344560085e-06, "loss": 0.3644, "step": 5432 }, { "epoch": 1.811, "grad_norm": 2.311023235321045, "learning_rate": 8.137617551149868e-06, "loss": 0.3607, "step": 5433 }, { "epoch": 1.8113333333333332, "grad_norm": 2.600330114364624, "learning_rate": 8.133807037894773e-06, "loss": 0.3637, "step": 5434 }, { "epoch": 1.8116666666666665, "grad_norm": 2.2878880500793457, "learning_rate": 8.129996805368012e-06, "loss": 0.3238, "step": 5435 }, { "epoch": 1.812, "grad_norm": 2.067725419998169, "learning_rate": 8.126186854142752e-06, "loss": 0.3601, "step": 5436 }, { "epoch": 1.8123333333333334, "grad_norm": 2.507697582244873, "learning_rate": 8.122377184792124e-06, "loss": 0.3445, "step": 5437 }, { "epoch": 1.8126666666666666, "grad_norm": 4.175189971923828, "learning_rate": 8.1185677978892e-06, "loss": 0.3679, "step": 5438 }, { "epoch": 1.813, "grad_norm": 2.637550115585327, "learning_rate": 8.114758694007025e-06, "loss": 0.3611, "step": 5439 }, { "epoch": 1.8133333333333335, "grad_norm": 2.022696018218994, "learning_rate": 8.1109498737186e-06, "loss": 0.3353, "step": 5440 }, { "epoch": 1.8136666666666668, "grad_norm": 2.853543281555176, "learning_rate": 8.10714133759687e-06, "loss": 0.3805, "step": 5441 }, { "epoch": 1.814, "grad_norm": 2.366594076156616, "learning_rate": 8.103333086214753e-06, "loss": 0.3554, "step": 5442 }, { "epoch": 1.8143333333333334, "grad_norm": 2.926645040512085, "learning_rate": 8.099525120145118e-06, "loss": 0.3659, "step": 5443 }, { "epoch": 1.8146666666666667, "grad_norm": 2.763331890106201, "learning_rate": 8.095717439960793e-06, "loss": 0.3625, "step": 5444 }, { "epoch": 1.815, "grad_norm": 2.526215076446533, "learning_rate": 8.091910046234552e-06, "loss": 0.3152, "step": 5445 }, { "epoch": 1.8153333333333332, "grad_norm": 2.7198991775512695, "learning_rate": 8.088102939539144e-06, "loss": 0.3552, "step": 5446 }, { "epoch": 1.8156666666666665, "grad_norm": 2.0951318740844727, "learning_rate": 8.084296120447266e-06, "loss": 0.3774, "step": 5447 }, { "epoch": 1.8159999999999998, "grad_norm": 1.8909368515014648, "learning_rate": 8.080489589531567e-06, "loss": 0.3313, "step": 5448 }, { "epoch": 1.8163333333333334, "grad_norm": 2.1012096405029297, "learning_rate": 8.076683347364656e-06, "loss": 0.3501, "step": 5449 }, { "epoch": 1.8166666666666667, "grad_norm": 2.2138054370880127, "learning_rate": 8.072877394519103e-06, "loss": 0.3515, "step": 5450 }, { "epoch": 1.817, "grad_norm": 2.9433929920196533, "learning_rate": 8.069071731567435e-06, "loss": 0.4149, "step": 5451 }, { "epoch": 1.8173333333333335, "grad_norm": 1.8352386951446533, "learning_rate": 8.065266359082124e-06, "loss": 0.3602, "step": 5452 }, { "epoch": 1.8176666666666668, "grad_norm": 2.890646457672119, "learning_rate": 8.061461277635607e-06, "loss": 0.3996, "step": 5453 }, { "epoch": 1.818, "grad_norm": 3.024275541305542, "learning_rate": 8.057656487800283e-06, "loss": 0.3565, "step": 5454 }, { "epoch": 1.8183333333333334, "grad_norm": 4.020020008087158, "learning_rate": 8.053851990148491e-06, "loss": 0.3421, "step": 5455 }, { "epoch": 1.8186666666666667, "grad_norm": 2.311554431915283, "learning_rate": 8.050047785252544e-06, "loss": 0.363, "step": 5456 }, { "epoch": 1.819, "grad_norm": 3.2435085773468018, "learning_rate": 8.046243873684694e-06, "loss": 0.3784, "step": 5457 }, { "epoch": 1.8193333333333332, "grad_norm": 2.7340290546417236, "learning_rate": 8.042440256017167e-06, "loss": 0.3897, "step": 5458 }, { "epoch": 1.8196666666666665, "grad_norm": 3.186596632003784, "learning_rate": 8.038636932822124e-06, "loss": 0.3786, "step": 5459 }, { "epoch": 1.8199999999999998, "grad_norm": 2.76076078414917, "learning_rate": 8.034833904671698e-06, "loss": 0.3898, "step": 5460 }, { "epoch": 1.8203333333333334, "grad_norm": 2.1885719299316406, "learning_rate": 8.031031172137977e-06, "loss": 0.3654, "step": 5461 }, { "epoch": 1.8206666666666667, "grad_norm": 2.058173179626465, "learning_rate": 8.027228735792993e-06, "loss": 0.3141, "step": 5462 }, { "epoch": 1.821, "grad_norm": 2.628751516342163, "learning_rate": 8.023426596208739e-06, "loss": 0.393, "step": 5463 }, { "epoch": 1.8213333333333335, "grad_norm": 3.7102136611938477, "learning_rate": 8.01962475395717e-06, "loss": 0.4072, "step": 5464 }, { "epoch": 1.8216666666666668, "grad_norm": 2.878371000289917, "learning_rate": 8.01582320961019e-06, "loss": 0.3893, "step": 5465 }, { "epoch": 1.822, "grad_norm": 2.335231065750122, "learning_rate": 8.012021963739659e-06, "loss": 0.3391, "step": 5466 }, { "epoch": 1.8223333333333334, "grad_norm": 2.5994858741760254, "learning_rate": 8.008221016917386e-06, "loss": 0.3673, "step": 5467 }, { "epoch": 1.8226666666666667, "grad_norm": 2.3225367069244385, "learning_rate": 8.00442036971515e-06, "loss": 0.3796, "step": 5468 }, { "epoch": 1.823, "grad_norm": 2.945516586303711, "learning_rate": 8.00062002270467e-06, "loss": 0.3645, "step": 5469 }, { "epoch": 1.8233333333333333, "grad_norm": 2.7687911987304688, "learning_rate": 7.996819976457626e-06, "loss": 0.3465, "step": 5470 }, { "epoch": 1.8236666666666665, "grad_norm": 2.6591625213623047, "learning_rate": 7.99302023154566e-06, "loss": 0.3499, "step": 5471 }, { "epoch": 1.8239999999999998, "grad_norm": 2.9979231357574463, "learning_rate": 7.989220788540356e-06, "loss": 0.3994, "step": 5472 }, { "epoch": 1.8243333333333334, "grad_norm": 2.3876395225524902, "learning_rate": 7.985421648013255e-06, "loss": 0.3785, "step": 5473 }, { "epoch": 1.8246666666666667, "grad_norm": 2.889697551727295, "learning_rate": 7.981622810535858e-06, "loss": 0.3959, "step": 5474 }, { "epoch": 1.825, "grad_norm": 2.435112714767456, "learning_rate": 7.977824276679623e-06, "loss": 0.3592, "step": 5475 }, { "epoch": 1.8253333333333335, "grad_norm": 2.2293660640716553, "learning_rate": 7.974026047015951e-06, "loss": 0.3604, "step": 5476 }, { "epoch": 1.8256666666666668, "grad_norm": 3.118772268295288, "learning_rate": 7.970228122116202e-06, "loss": 0.3295, "step": 5477 }, { "epoch": 1.826, "grad_norm": 2.4431405067443848, "learning_rate": 7.966430502551694e-06, "loss": 0.3388, "step": 5478 }, { "epoch": 1.8263333333333334, "grad_norm": 2.4034037590026855, "learning_rate": 7.962633188893703e-06, "loss": 0.3457, "step": 5479 }, { "epoch": 1.8266666666666667, "grad_norm": 2.2752480506896973, "learning_rate": 7.958836181713445e-06, "loss": 0.3821, "step": 5480 }, { "epoch": 1.827, "grad_norm": 2.7604024410247803, "learning_rate": 7.955039481582098e-06, "loss": 0.4052, "step": 5481 }, { "epoch": 1.8273333333333333, "grad_norm": 2.44389271736145, "learning_rate": 7.951243089070797e-06, "loss": 0.3633, "step": 5482 }, { "epoch": 1.8276666666666666, "grad_norm": 3.1873605251312256, "learning_rate": 7.947447004750623e-06, "loss": 0.3739, "step": 5483 }, { "epoch": 1.8279999999999998, "grad_norm": 2.293501377105713, "learning_rate": 7.943651229192615e-06, "loss": 0.3445, "step": 5484 }, { "epoch": 1.8283333333333334, "grad_norm": 2.8560314178466797, "learning_rate": 7.93985576296777e-06, "loss": 0.387, "step": 5485 }, { "epoch": 1.8286666666666667, "grad_norm": 2.037147283554077, "learning_rate": 7.936060606647032e-06, "loss": 0.3687, "step": 5486 }, { "epoch": 1.829, "grad_norm": 2.022843599319458, "learning_rate": 7.932265760801295e-06, "loss": 0.3663, "step": 5487 }, { "epoch": 1.8293333333333335, "grad_norm": 2.165550470352173, "learning_rate": 7.928471226001415e-06, "loss": 0.3626, "step": 5488 }, { "epoch": 1.8296666666666668, "grad_norm": 2.420119047164917, "learning_rate": 7.924677002818203e-06, "loss": 0.3776, "step": 5489 }, { "epoch": 1.83, "grad_norm": 2.2368967533111572, "learning_rate": 7.92088309182241e-06, "loss": 0.3659, "step": 5490 }, { "epoch": 1.8303333333333334, "grad_norm": 2.001519203186035, "learning_rate": 7.917089493584747e-06, "loss": 0.3625, "step": 5491 }, { "epoch": 1.8306666666666667, "grad_norm": 2.3049464225769043, "learning_rate": 7.913296208675884e-06, "loss": 0.3752, "step": 5492 }, { "epoch": 1.831, "grad_norm": 4.061065673828125, "learning_rate": 7.90950323766644e-06, "loss": 0.3901, "step": 5493 }, { "epoch": 1.8313333333333333, "grad_norm": 2.2317042350769043, "learning_rate": 7.905710581126978e-06, "loss": 0.3523, "step": 5494 }, { "epoch": 1.8316666666666666, "grad_norm": 2.6167449951171875, "learning_rate": 7.901918239628027e-06, "loss": 0.3391, "step": 5495 }, { "epoch": 1.8319999999999999, "grad_norm": 2.8901095390319824, "learning_rate": 7.898126213740063e-06, "loss": 0.3382, "step": 5496 }, { "epoch": 1.8323333333333334, "grad_norm": 2.5121517181396484, "learning_rate": 7.894334504033508e-06, "loss": 0.3618, "step": 5497 }, { "epoch": 1.8326666666666667, "grad_norm": 2.68487286567688, "learning_rate": 7.890543111078746e-06, "loss": 0.3804, "step": 5498 }, { "epoch": 1.833, "grad_norm": 2.7520952224731445, "learning_rate": 7.886752035446116e-06, "loss": 0.3226, "step": 5499 }, { "epoch": 1.8333333333333335, "grad_norm": 2.487419843673706, "learning_rate": 7.882961277705897e-06, "loss": 0.3545, "step": 5500 }, { "epoch": 1.8336666666666668, "grad_norm": 2.546741008758545, "learning_rate": 7.879170838428323e-06, "loss": 0.3692, "step": 5501 }, { "epoch": 1.834, "grad_norm": 2.8901634216308594, "learning_rate": 7.875380718183589e-06, "loss": 0.3775, "step": 5502 }, { "epoch": 1.8343333333333334, "grad_norm": 3.516281843185425, "learning_rate": 7.871590917541839e-06, "loss": 0.3557, "step": 5503 }, { "epoch": 1.8346666666666667, "grad_norm": 2.1186773777008057, "learning_rate": 7.867801437073159e-06, "loss": 0.3376, "step": 5504 }, { "epoch": 1.835, "grad_norm": 3.1027071475982666, "learning_rate": 7.864012277347602e-06, "loss": 0.3285, "step": 5505 }, { "epoch": 1.8353333333333333, "grad_norm": 2.6262598037719727, "learning_rate": 7.860223438935158e-06, "loss": 0.3418, "step": 5506 }, { "epoch": 1.8356666666666666, "grad_norm": 3.4294626712799072, "learning_rate": 7.856434922405782e-06, "loss": 0.3517, "step": 5507 }, { "epoch": 1.8359999999999999, "grad_norm": 2.4505629539489746, "learning_rate": 7.852646728329368e-06, "loss": 0.3689, "step": 5508 }, { "epoch": 1.8363333333333334, "grad_norm": 2.350208282470703, "learning_rate": 7.848858857275773e-06, "loss": 0.3344, "step": 5509 }, { "epoch": 1.8366666666666667, "grad_norm": 2.744863510131836, "learning_rate": 7.845071309814802e-06, "loss": 0.3644, "step": 5510 }, { "epoch": 1.837, "grad_norm": 2.8499512672424316, "learning_rate": 7.841284086516201e-06, "loss": 0.375, "step": 5511 }, { "epoch": 1.8373333333333335, "grad_norm": 3.954984188079834, "learning_rate": 7.837497187949681e-06, "loss": 0.3524, "step": 5512 }, { "epoch": 1.8376666666666668, "grad_norm": 3.381503105163574, "learning_rate": 7.8337106146849e-06, "loss": 0.3372, "step": 5513 }, { "epoch": 1.838, "grad_norm": 2.2495436668395996, "learning_rate": 7.829924367291467e-06, "loss": 0.3449, "step": 5514 }, { "epoch": 1.8383333333333334, "grad_norm": 3.513482093811035, "learning_rate": 7.826138446338935e-06, "loss": 0.327, "step": 5515 }, { "epoch": 1.8386666666666667, "grad_norm": 2.5298540592193604, "learning_rate": 7.822352852396816e-06, "loss": 0.3577, "step": 5516 }, { "epoch": 1.839, "grad_norm": 2.489560127258301, "learning_rate": 7.818567586034578e-06, "loss": 0.3586, "step": 5517 }, { "epoch": 1.8393333333333333, "grad_norm": 2.1225008964538574, "learning_rate": 7.81478264782162e-06, "loss": 0.3409, "step": 5518 }, { "epoch": 1.8396666666666666, "grad_norm": 3.310192108154297, "learning_rate": 7.810998038327314e-06, "loss": 0.3684, "step": 5519 }, { "epoch": 1.8399999999999999, "grad_norm": 2.920771837234497, "learning_rate": 7.807213758120965e-06, "loss": 0.321, "step": 5520 }, { "epoch": 1.8403333333333334, "grad_norm": 2.432680606842041, "learning_rate": 7.803429807771847e-06, "loss": 0.3422, "step": 5521 }, { "epoch": 1.8406666666666667, "grad_norm": 2.4585859775543213, "learning_rate": 7.799646187849161e-06, "loss": 0.3434, "step": 5522 }, { "epoch": 1.841, "grad_norm": 2.4910244941711426, "learning_rate": 7.79586289892208e-06, "loss": 0.3841, "step": 5523 }, { "epoch": 1.8413333333333335, "grad_norm": 2.419058084487915, "learning_rate": 7.792079941559715e-06, "loss": 0.3837, "step": 5524 }, { "epoch": 1.8416666666666668, "grad_norm": 2.4057562351226807, "learning_rate": 7.788297316331123e-06, "loss": 0.3745, "step": 5525 }, { "epoch": 1.842, "grad_norm": 2.5938632488250732, "learning_rate": 7.784515023805328e-06, "loss": 0.3436, "step": 5526 }, { "epoch": 1.8423333333333334, "grad_norm": 5.335912704467773, "learning_rate": 7.78073306455129e-06, "loss": 0.3591, "step": 5527 }, { "epoch": 1.8426666666666667, "grad_norm": 2.666966438293457, "learning_rate": 7.776951439137922e-06, "loss": 0.3951, "step": 5528 }, { "epoch": 1.843, "grad_norm": 2.3032803535461426, "learning_rate": 7.773170148134092e-06, "loss": 0.3995, "step": 5529 }, { "epoch": 1.8433333333333333, "grad_norm": 3.1119368076324463, "learning_rate": 7.769389192108608e-06, "loss": 0.3739, "step": 5530 }, { "epoch": 1.8436666666666666, "grad_norm": 2.0270910263061523, "learning_rate": 7.765608571630238e-06, "loss": 0.3102, "step": 5531 }, { "epoch": 1.8439999999999999, "grad_norm": 2.3446521759033203, "learning_rate": 7.761828287267688e-06, "loss": 0.3538, "step": 5532 }, { "epoch": 1.8443333333333334, "grad_norm": 2.2060301303863525, "learning_rate": 7.758048339589626e-06, "loss": 0.3821, "step": 5533 }, { "epoch": 1.8446666666666667, "grad_norm": 2.1543655395507812, "learning_rate": 7.754268729164657e-06, "loss": 0.3421, "step": 5534 }, { "epoch": 1.845, "grad_norm": 2.71929669380188, "learning_rate": 7.750489456561351e-06, "loss": 0.3699, "step": 5535 }, { "epoch": 1.8453333333333335, "grad_norm": 2.160336494445801, "learning_rate": 7.74671052234821e-06, "loss": 0.339, "step": 5536 }, { "epoch": 1.8456666666666668, "grad_norm": 1.7148994207382202, "learning_rate": 7.742931927093697e-06, "loss": 0.3621, "step": 5537 }, { "epoch": 1.846, "grad_norm": 2.9316744804382324, "learning_rate": 7.739153671366219e-06, "loss": 0.3612, "step": 5538 }, { "epoch": 1.8463333333333334, "grad_norm": 2.78823184967041, "learning_rate": 7.735375755734128e-06, "loss": 0.3692, "step": 5539 }, { "epoch": 1.8466666666666667, "grad_norm": 2.6292128562927246, "learning_rate": 7.731598180765732e-06, "loss": 0.3886, "step": 5540 }, { "epoch": 1.847, "grad_norm": 2.6697487831115723, "learning_rate": 7.727820947029289e-06, "loss": 0.3811, "step": 5541 }, { "epoch": 1.8473333333333333, "grad_norm": 2.787865400314331, "learning_rate": 7.724044055093003e-06, "loss": 0.3618, "step": 5542 }, { "epoch": 1.8476666666666666, "grad_norm": 2.71844482421875, "learning_rate": 7.72026750552502e-06, "loss": 0.3585, "step": 5543 }, { "epoch": 1.8479999999999999, "grad_norm": 2.5425424575805664, "learning_rate": 7.716491298893443e-06, "loss": 0.401, "step": 5544 }, { "epoch": 1.8483333333333334, "grad_norm": 2.1570277214050293, "learning_rate": 7.712715435766323e-06, "loss": 0.3582, "step": 5545 }, { "epoch": 1.8486666666666667, "grad_norm": 2.1015241146087646, "learning_rate": 7.70893991671165e-06, "loss": 0.3751, "step": 5546 }, { "epoch": 1.849, "grad_norm": 2.1866703033447266, "learning_rate": 7.705164742297376e-06, "loss": 0.3606, "step": 5547 }, { "epoch": 1.8493333333333335, "grad_norm": 2.1186156272888184, "learning_rate": 7.701389913091389e-06, "loss": 0.3565, "step": 5548 }, { "epoch": 1.8496666666666668, "grad_norm": 2.038564682006836, "learning_rate": 7.697615429661535e-06, "loss": 0.3379, "step": 5549 }, { "epoch": 1.85, "grad_norm": 2.348875045776367, "learning_rate": 7.6938412925756e-06, "loss": 0.3814, "step": 5550 }, { "epoch": 1.8503333333333334, "grad_norm": 2.6962778568267822, "learning_rate": 7.690067502401322e-06, "loss": 0.3738, "step": 5551 }, { "epoch": 1.8506666666666667, "grad_norm": 2.5452351570129395, "learning_rate": 7.686294059706388e-06, "loss": 0.3348, "step": 5552 }, { "epoch": 1.851, "grad_norm": 2.153430938720703, "learning_rate": 7.68252096505843e-06, "loss": 0.3174, "step": 5553 }, { "epoch": 1.8513333333333333, "grad_norm": 3.5707480907440186, "learning_rate": 7.678748219025023e-06, "loss": 0.3358, "step": 5554 }, { "epoch": 1.8516666666666666, "grad_norm": 2.105642080307007, "learning_rate": 7.674975822173701e-06, "loss": 0.3639, "step": 5555 }, { "epoch": 1.8519999999999999, "grad_norm": 1.920292854309082, "learning_rate": 7.671203775071942e-06, "loss": 0.3603, "step": 5556 }, { "epoch": 1.8523333333333334, "grad_norm": 2.6239304542541504, "learning_rate": 7.667432078287166e-06, "loss": 0.3493, "step": 5557 }, { "epoch": 1.8526666666666667, "grad_norm": 2.4241654872894287, "learning_rate": 7.663660732386734e-06, "loss": 0.3383, "step": 5558 }, { "epoch": 1.853, "grad_norm": 2.068380355834961, "learning_rate": 7.65988973793798e-06, "loss": 0.3284, "step": 5559 }, { "epoch": 1.8533333333333335, "grad_norm": 2.2281296253204346, "learning_rate": 7.656119095508155e-06, "loss": 0.3878, "step": 5560 }, { "epoch": 1.8536666666666668, "grad_norm": 2.298295259475708, "learning_rate": 7.652348805664476e-06, "loss": 0.3378, "step": 5561 }, { "epoch": 1.854, "grad_norm": 2.6974668502807617, "learning_rate": 7.6485788689741e-06, "loss": 0.3559, "step": 5562 }, { "epoch": 1.8543333333333334, "grad_norm": 3.1653544902801514, "learning_rate": 7.644809286004139e-06, "loss": 0.3652, "step": 5563 }, { "epoch": 1.8546666666666667, "grad_norm": 2.799814462661743, "learning_rate": 7.641040057321631e-06, "loss": 0.3431, "step": 5564 }, { "epoch": 1.855, "grad_norm": 3.0475449562072754, "learning_rate": 7.637271183493587e-06, "loss": 0.3578, "step": 5565 }, { "epoch": 1.8553333333333333, "grad_norm": 2.502711534500122, "learning_rate": 7.633502665086951e-06, "loss": 0.3188, "step": 5566 }, { "epoch": 1.8556666666666666, "grad_norm": 2.084550142288208, "learning_rate": 7.629734502668611e-06, "loss": 0.3644, "step": 5567 }, { "epoch": 1.8559999999999999, "grad_norm": 2.103053569793701, "learning_rate": 7.625966696805406e-06, "loss": 0.4029, "step": 5568 }, { "epoch": 1.8563333333333332, "grad_norm": 2.4026424884796143, "learning_rate": 7.6221992480641215e-06, "loss": 0.3871, "step": 5569 }, { "epoch": 1.8566666666666667, "grad_norm": 2.890148878097534, "learning_rate": 7.618432157011494e-06, "loss": 0.3529, "step": 5570 }, { "epoch": 1.857, "grad_norm": 4.341788291931152, "learning_rate": 7.6146654242141935e-06, "loss": 0.3584, "step": 5571 }, { "epoch": 1.8573333333333333, "grad_norm": 2.323730945587158, "learning_rate": 7.610899050238844e-06, "loss": 0.3643, "step": 5572 }, { "epoch": 1.8576666666666668, "grad_norm": 2.326608180999756, "learning_rate": 7.6071330356520215e-06, "loss": 0.3573, "step": 5573 }, { "epoch": 1.858, "grad_norm": 2.27469801902771, "learning_rate": 7.6033673810202314e-06, "loss": 0.3631, "step": 5574 }, { "epoch": 1.8583333333333334, "grad_norm": 2.304471492767334, "learning_rate": 7.599602086909943e-06, "loss": 0.3612, "step": 5575 }, { "epoch": 1.8586666666666667, "grad_norm": 2.2589409351348877, "learning_rate": 7.595837153887559e-06, "loss": 0.3401, "step": 5576 }, { "epoch": 1.859, "grad_norm": 2.223318099975586, "learning_rate": 7.592072582519437e-06, "loss": 0.3345, "step": 5577 }, { "epoch": 1.8593333333333333, "grad_norm": 2.855982780456543, "learning_rate": 7.588308373371867e-06, "loss": 0.4006, "step": 5578 }, { "epoch": 1.8596666666666666, "grad_norm": 2.206834316253662, "learning_rate": 7.5845445270111e-06, "loss": 0.3962, "step": 5579 }, { "epoch": 1.8599999999999999, "grad_norm": 2.895549774169922, "learning_rate": 7.580781044003324e-06, "loss": 0.3326, "step": 5580 }, { "epoch": 1.8603333333333332, "grad_norm": 2.140850782394409, "learning_rate": 7.5770179249146735e-06, "loss": 0.3404, "step": 5581 }, { "epoch": 1.8606666666666667, "grad_norm": 3.9837803840637207, "learning_rate": 7.573255170311223e-06, "loss": 0.3557, "step": 5582 }, { "epoch": 1.861, "grad_norm": 2.132540225982666, "learning_rate": 7.569492780759002e-06, "loss": 0.3758, "step": 5583 }, { "epoch": 1.8613333333333333, "grad_norm": 2.2377231121063232, "learning_rate": 7.565730756823986e-06, "loss": 0.3632, "step": 5584 }, { "epoch": 1.8616666666666668, "grad_norm": 2.1047213077545166, "learning_rate": 7.561969099072082e-06, "loss": 0.3825, "step": 5585 }, { "epoch": 1.862, "grad_norm": 2.571810007095337, "learning_rate": 7.558207808069149e-06, "loss": 0.3779, "step": 5586 }, { "epoch": 1.8623333333333334, "grad_norm": 1.9571603536605835, "learning_rate": 7.554446884381001e-06, "loss": 0.3554, "step": 5587 }, { "epoch": 1.8626666666666667, "grad_norm": 1.7177859544754028, "learning_rate": 7.550686328573375e-06, "loss": 0.3485, "step": 5588 }, { "epoch": 1.863, "grad_norm": 2.6288998126983643, "learning_rate": 7.546926141211975e-06, "loss": 0.3775, "step": 5589 }, { "epoch": 1.8633333333333333, "grad_norm": 2.320122718811035, "learning_rate": 7.543166322862437e-06, "loss": 0.3355, "step": 5590 }, { "epoch": 1.8636666666666666, "grad_norm": 2.723085880279541, "learning_rate": 7.539406874090346e-06, "loss": 0.3887, "step": 5591 }, { "epoch": 1.8639999999999999, "grad_norm": 2.0701844692230225, "learning_rate": 7.535647795461224e-06, "loss": 0.3184, "step": 5592 }, { "epoch": 1.8643333333333332, "grad_norm": 2.948953628540039, "learning_rate": 7.531889087540547e-06, "loss": 0.4099, "step": 5593 }, { "epoch": 1.8646666666666667, "grad_norm": 2.0604450702667236, "learning_rate": 7.528130750893735e-06, "loss": 0.3404, "step": 5594 }, { "epoch": 1.865, "grad_norm": 4.413976192474365, "learning_rate": 7.524372786086143e-06, "loss": 0.3967, "step": 5595 }, { "epoch": 1.8653333333333333, "grad_norm": 2.195340633392334, "learning_rate": 7.520615193683073e-06, "loss": 0.3297, "step": 5596 }, { "epoch": 1.8656666666666668, "grad_norm": 2.575200319290161, "learning_rate": 7.516857974249778e-06, "loss": 0.3272, "step": 5597 }, { "epoch": 1.866, "grad_norm": 2.063181161880493, "learning_rate": 7.513101128351454e-06, "loss": 0.366, "step": 5598 }, { "epoch": 1.8663333333333334, "grad_norm": 2.4569249153137207, "learning_rate": 7.509344656553229e-06, "loss": 0.3304, "step": 5599 }, { "epoch": 1.8666666666666667, "grad_norm": 3.9508330821990967, "learning_rate": 7.505588559420188e-06, "loss": 0.3651, "step": 5600 }, { "epoch": 1.867, "grad_norm": 2.3632638454437256, "learning_rate": 7.501832837517351e-06, "loss": 0.3903, "step": 5601 }, { "epoch": 1.8673333333333333, "grad_norm": 2.450829267501831, "learning_rate": 7.498077491409692e-06, "loss": 0.3694, "step": 5602 }, { "epoch": 1.8676666666666666, "grad_norm": 3.8215951919555664, "learning_rate": 7.4943225216621115e-06, "loss": 0.3596, "step": 5603 }, { "epoch": 1.8679999999999999, "grad_norm": 3.662102460861206, "learning_rate": 7.490567928839472e-06, "loss": 0.3395, "step": 5604 }, { "epoch": 1.8683333333333332, "grad_norm": 2.2592427730560303, "learning_rate": 7.486813713506569e-06, "loss": 0.3703, "step": 5605 }, { "epoch": 1.8686666666666667, "grad_norm": 2.9237070083618164, "learning_rate": 7.4830598762281374e-06, "loss": 0.3504, "step": 5606 }, { "epoch": 1.869, "grad_norm": 2.7443244457244873, "learning_rate": 7.4793064175688635e-06, "loss": 0.3529, "step": 5607 }, { "epoch": 1.8693333333333333, "grad_norm": 2.3109564781188965, "learning_rate": 7.475553338093378e-06, "loss": 0.3587, "step": 5608 }, { "epoch": 1.8696666666666668, "grad_norm": 2.473395586013794, "learning_rate": 7.471800638366249e-06, "loss": 0.3839, "step": 5609 }, { "epoch": 1.87, "grad_norm": 3.1130292415618896, "learning_rate": 7.468048318951983e-06, "loss": 0.3842, "step": 5610 }, { "epoch": 1.8703333333333334, "grad_norm": 2.4232375621795654, "learning_rate": 7.464296380415042e-06, "loss": 0.369, "step": 5611 }, { "epoch": 1.8706666666666667, "grad_norm": 1.895370364189148, "learning_rate": 7.460544823319824e-06, "loss": 0.3437, "step": 5612 }, { "epoch": 1.871, "grad_norm": 2.0233829021453857, "learning_rate": 7.4567936482306625e-06, "loss": 0.3242, "step": 5613 }, { "epoch": 1.8713333333333333, "grad_norm": 2.1459553241729736, "learning_rate": 7.453042855711849e-06, "loss": 0.3865, "step": 5614 }, { "epoch": 1.8716666666666666, "grad_norm": 2.3009824752807617, "learning_rate": 7.449292446327601e-06, "loss": 0.3609, "step": 5615 }, { "epoch": 1.8719999999999999, "grad_norm": 2.539860486984253, "learning_rate": 7.445542420642097e-06, "loss": 0.3816, "step": 5616 }, { "epoch": 1.8723333333333332, "grad_norm": 2.836951971054077, "learning_rate": 7.4417927792194355e-06, "loss": 0.3462, "step": 5617 }, { "epoch": 1.8726666666666667, "grad_norm": 2.2585196495056152, "learning_rate": 7.438043522623677e-06, "loss": 0.3512, "step": 5618 }, { "epoch": 1.873, "grad_norm": 2.1281747817993164, "learning_rate": 7.434294651418815e-06, "loss": 0.3386, "step": 5619 }, { "epoch": 1.8733333333333333, "grad_norm": 2.6932356357574463, "learning_rate": 7.430546166168781e-06, "loss": 0.3726, "step": 5620 }, { "epoch": 1.8736666666666668, "grad_norm": 2.2237560749053955, "learning_rate": 7.426798067437455e-06, "loss": 0.3482, "step": 5621 }, { "epoch": 1.874, "grad_norm": 5.45789909362793, "learning_rate": 7.423050355788663e-06, "loss": 0.3722, "step": 5622 }, { "epoch": 1.8743333333333334, "grad_norm": 2.303879976272583, "learning_rate": 7.4193030317861626e-06, "loss": 0.3603, "step": 5623 }, { "epoch": 1.8746666666666667, "grad_norm": 2.0355474948883057, "learning_rate": 7.415556095993657e-06, "loss": 0.37, "step": 5624 }, { "epoch": 1.875, "grad_norm": 1.9796501398086548, "learning_rate": 7.411809548974792e-06, "loss": 0.3547, "step": 5625 }, { "epoch": 1.8753333333333333, "grad_norm": 2.690549612045288, "learning_rate": 7.408063391293159e-06, "loss": 0.3762, "step": 5626 }, { "epoch": 1.8756666666666666, "grad_norm": 2.8241889476776123, "learning_rate": 7.404317623512278e-06, "loss": 0.3774, "step": 5627 }, { "epoch": 1.876, "grad_norm": 1.9984806776046753, "learning_rate": 7.400572246195628e-06, "loss": 0.33, "step": 5628 }, { "epoch": 1.8763333333333332, "grad_norm": 1.9575400352478027, "learning_rate": 7.396827259906609e-06, "loss": 0.3276, "step": 5629 }, { "epoch": 1.8766666666666667, "grad_norm": 2.1533749103546143, "learning_rate": 7.393082665208587e-06, "loss": 0.3561, "step": 5630 }, { "epoch": 1.877, "grad_norm": 2.681577205657959, "learning_rate": 7.389338462664841e-06, "loss": 0.3483, "step": 5631 }, { "epoch": 1.8773333333333333, "grad_norm": 2.5522592067718506, "learning_rate": 7.385594652838615e-06, "loss": 0.3559, "step": 5632 }, { "epoch": 1.8776666666666668, "grad_norm": 2.537431478500366, "learning_rate": 7.381851236293083e-06, "loss": 0.3417, "step": 5633 }, { "epoch": 1.8780000000000001, "grad_norm": 2.9262051582336426, "learning_rate": 7.378108213591355e-06, "loss": 0.3631, "step": 5634 }, { "epoch": 1.8783333333333334, "grad_norm": 3.03083872795105, "learning_rate": 7.37436558529649e-06, "loss": 0.3926, "step": 5635 }, { "epoch": 1.8786666666666667, "grad_norm": 3.338308334350586, "learning_rate": 7.370623351971491e-06, "loss": 0.3527, "step": 5636 }, { "epoch": 1.879, "grad_norm": 2.696983575820923, "learning_rate": 7.366881514179292e-06, "loss": 0.3783, "step": 5637 }, { "epoch": 1.8793333333333333, "grad_norm": 2.339334487915039, "learning_rate": 7.363140072482771e-06, "loss": 0.36, "step": 5638 }, { "epoch": 1.8796666666666666, "grad_norm": 2.7117860317230225, "learning_rate": 7.359399027444745e-06, "loss": 0.3595, "step": 5639 }, { "epoch": 1.88, "grad_norm": 3.61712384223938, "learning_rate": 7.355658379627981e-06, "loss": 0.3505, "step": 5640 }, { "epoch": 1.8803333333333332, "grad_norm": 2.5746281147003174, "learning_rate": 7.351918129595168e-06, "loss": 0.3206, "step": 5641 }, { "epoch": 1.8806666666666667, "grad_norm": 3.2910239696502686, "learning_rate": 7.348178277908953e-06, "loss": 0.3922, "step": 5642 }, { "epoch": 1.881, "grad_norm": 2.7973098754882812, "learning_rate": 7.344438825131912e-06, "loss": 0.3109, "step": 5643 }, { "epoch": 1.8813333333333333, "grad_norm": 3.062346935272217, "learning_rate": 7.3406997718265695e-06, "loss": 0.3487, "step": 5644 }, { "epoch": 1.8816666666666668, "grad_norm": 2.5321319103240967, "learning_rate": 7.336961118555379e-06, "loss": 0.3515, "step": 5645 }, { "epoch": 1.8820000000000001, "grad_norm": 2.15105938911438, "learning_rate": 7.333222865880745e-06, "loss": 0.3636, "step": 5646 }, { "epoch": 1.8823333333333334, "grad_norm": 2.0366482734680176, "learning_rate": 7.329485014365003e-06, "loss": 0.3443, "step": 5647 }, { "epoch": 1.8826666666666667, "grad_norm": 2.13942551612854, "learning_rate": 7.325747564570435e-06, "loss": 0.3436, "step": 5648 }, { "epoch": 1.883, "grad_norm": 3.106720447540283, "learning_rate": 7.322010517059256e-06, "loss": 0.3923, "step": 5649 }, { "epoch": 1.8833333333333333, "grad_norm": 2.657942533493042, "learning_rate": 7.3182738723936255e-06, "loss": 0.3732, "step": 5650 }, { "epoch": 1.8836666666666666, "grad_norm": 3.108591318130493, "learning_rate": 7.314537631135645e-06, "loss": 0.3474, "step": 5651 }, { "epoch": 1.884, "grad_norm": 3.3175048828125, "learning_rate": 7.310801793847344e-06, "loss": 0.3742, "step": 5652 }, { "epoch": 1.8843333333333332, "grad_norm": 2.53395938873291, "learning_rate": 7.307066361090701e-06, "loss": 0.3895, "step": 5653 }, { "epoch": 1.8846666666666667, "grad_norm": 2.148625135421753, "learning_rate": 7.303331333427636e-06, "loss": 0.35, "step": 5654 }, { "epoch": 1.885, "grad_norm": 2.598776340484619, "learning_rate": 7.299596711419994e-06, "loss": 0.3626, "step": 5655 }, { "epoch": 1.8853333333333333, "grad_norm": 2.8579158782958984, "learning_rate": 7.295862495629573e-06, "loss": 0.3412, "step": 5656 }, { "epoch": 1.8856666666666668, "grad_norm": 2.5845701694488525, "learning_rate": 7.2921286866181055e-06, "loss": 0.3748, "step": 5657 }, { "epoch": 1.8860000000000001, "grad_norm": 2.1433675289154053, "learning_rate": 7.288395284947263e-06, "loss": 0.3713, "step": 5658 }, { "epoch": 1.8863333333333334, "grad_norm": 2.7975287437438965, "learning_rate": 7.28466229117865e-06, "loss": 0.3523, "step": 5659 }, { "epoch": 1.8866666666666667, "grad_norm": 2.5286097526550293, "learning_rate": 7.280929705873818e-06, "loss": 0.3556, "step": 5660 }, { "epoch": 1.887, "grad_norm": 2.550220251083374, "learning_rate": 7.277197529594257e-06, "loss": 0.3771, "step": 5661 }, { "epoch": 1.8873333333333333, "grad_norm": 2.5434036254882812, "learning_rate": 7.273465762901388e-06, "loss": 0.3401, "step": 5662 }, { "epoch": 1.8876666666666666, "grad_norm": 3.277407169342041, "learning_rate": 7.2697344063565735e-06, "loss": 0.3602, "step": 5663 }, { "epoch": 1.888, "grad_norm": 2.9335501194000244, "learning_rate": 7.266003460521116e-06, "loss": 0.3848, "step": 5664 }, { "epoch": 1.8883333333333332, "grad_norm": 2.260789155960083, "learning_rate": 7.262272925956261e-06, "loss": 0.3032, "step": 5665 }, { "epoch": 1.8886666666666667, "grad_norm": 2.3754985332489014, "learning_rate": 7.25854280322318e-06, "loss": 0.3606, "step": 5666 }, { "epoch": 1.889, "grad_norm": 3.9038517475128174, "learning_rate": 7.254813092882989e-06, "loss": 0.3552, "step": 5667 }, { "epoch": 1.8893333333333333, "grad_norm": 2.4489963054656982, "learning_rate": 7.25108379549675e-06, "loss": 0.3529, "step": 5668 }, { "epoch": 1.8896666666666668, "grad_norm": 2.612478017807007, "learning_rate": 7.247354911625444e-06, "loss": 0.3995, "step": 5669 }, { "epoch": 1.8900000000000001, "grad_norm": 2.5309178829193115, "learning_rate": 7.243626441830009e-06, "loss": 0.3919, "step": 5670 }, { "epoch": 1.8903333333333334, "grad_norm": 2.2909252643585205, "learning_rate": 7.239898386671309e-06, "loss": 0.3517, "step": 5671 }, { "epoch": 1.8906666666666667, "grad_norm": 3.085480213165283, "learning_rate": 7.236170746710154e-06, "loss": 0.3912, "step": 5672 }, { "epoch": 1.891, "grad_norm": 2.521397829055786, "learning_rate": 7.23244352250728e-06, "loss": 0.3687, "step": 5673 }, { "epoch": 1.8913333333333333, "grad_norm": 2.8532445430755615, "learning_rate": 7.228716714623369e-06, "loss": 0.3464, "step": 5674 }, { "epoch": 1.8916666666666666, "grad_norm": 4.360434055328369, "learning_rate": 7.224990323619045e-06, "loss": 0.3866, "step": 5675 }, { "epoch": 1.892, "grad_norm": 4.016312599182129, "learning_rate": 7.221264350054855e-06, "loss": 0.3483, "step": 5676 }, { "epoch": 1.8923333333333332, "grad_norm": 2.220210313796997, "learning_rate": 7.217538794491291e-06, "loss": 0.3727, "step": 5677 }, { "epoch": 1.8926666666666667, "grad_norm": 2.585583448410034, "learning_rate": 7.2138136574887865e-06, "loss": 0.384, "step": 5678 }, { "epoch": 1.893, "grad_norm": 2.3215315341949463, "learning_rate": 7.210088939607709e-06, "loss": 0.3698, "step": 5679 }, { "epoch": 1.8933333333333333, "grad_norm": 2.724557638168335, "learning_rate": 7.206364641408358e-06, "loss": 0.3483, "step": 5680 }, { "epoch": 1.8936666666666668, "grad_norm": 2.6974687576293945, "learning_rate": 7.202640763450972e-06, "loss": 0.3844, "step": 5681 }, { "epoch": 1.8940000000000001, "grad_norm": 2.453516721725464, "learning_rate": 7.1989173062957345e-06, "loss": 0.3635, "step": 5682 }, { "epoch": 1.8943333333333334, "grad_norm": 2.4289650917053223, "learning_rate": 7.19519427050275e-06, "loss": 0.3395, "step": 5683 }, { "epoch": 1.8946666666666667, "grad_norm": 2.6942451000213623, "learning_rate": 7.191471656632074e-06, "loss": 0.4006, "step": 5684 }, { "epoch": 1.895, "grad_norm": 2.953718900680542, "learning_rate": 7.187749465243694e-06, "loss": 0.3634, "step": 5685 }, { "epoch": 1.8953333333333333, "grad_norm": 3.006122350692749, "learning_rate": 7.1840276968975354e-06, "loss": 0.376, "step": 5686 }, { "epoch": 1.8956666666666666, "grad_norm": 2.662825584411621, "learning_rate": 7.1803063521534475e-06, "loss": 0.3434, "step": 5687 }, { "epoch": 1.896, "grad_norm": 2.3257219791412354, "learning_rate": 7.176585431571235e-06, "loss": 0.4037, "step": 5688 }, { "epoch": 1.8963333333333332, "grad_norm": 4.085545063018799, "learning_rate": 7.172864935710631e-06, "loss": 0.3562, "step": 5689 }, { "epoch": 1.8966666666666665, "grad_norm": 2.634225368499756, "learning_rate": 7.169144865131297e-06, "loss": 0.3423, "step": 5690 }, { "epoch": 1.897, "grad_norm": 2.5591659545898438, "learning_rate": 7.165425220392839e-06, "loss": 0.3102, "step": 5691 }, { "epoch": 1.8973333333333333, "grad_norm": 2.5355305671691895, "learning_rate": 7.161706002054798e-06, "loss": 0.3707, "step": 5692 }, { "epoch": 1.8976666666666666, "grad_norm": 3.1589560508728027, "learning_rate": 7.157987210676654e-06, "loss": 0.329, "step": 5693 }, { "epoch": 1.8980000000000001, "grad_norm": 2.428018093109131, "learning_rate": 7.154268846817812e-06, "loss": 0.348, "step": 5694 }, { "epoch": 1.8983333333333334, "grad_norm": 2.4587135314941406, "learning_rate": 7.150550911037621e-06, "loss": 0.298, "step": 5695 }, { "epoch": 1.8986666666666667, "grad_norm": 2.2226791381835938, "learning_rate": 7.146833403895369e-06, "loss": 0.3507, "step": 5696 }, { "epoch": 1.899, "grad_norm": 2.312396764755249, "learning_rate": 7.143116325950266e-06, "loss": 0.3768, "step": 5697 }, { "epoch": 1.8993333333333333, "grad_norm": 2.5852174758911133, "learning_rate": 7.13939967776147e-06, "loss": 0.3474, "step": 5698 }, { "epoch": 1.8996666666666666, "grad_norm": 2.4203360080718994, "learning_rate": 7.135683459888075e-06, "loss": 0.3899, "step": 5699 }, { "epoch": 1.9, "grad_norm": 2.5629043579101562, "learning_rate": 7.131967672889101e-06, "loss": 0.3253, "step": 5700 }, { "epoch": 1.9003333333333332, "grad_norm": 2.2700021266937256, "learning_rate": 7.1282523173235045e-06, "loss": 0.3696, "step": 5701 }, { "epoch": 1.9006666666666665, "grad_norm": 3.3049516677856445, "learning_rate": 7.124537393750183e-06, "loss": 0.3575, "step": 5702 }, { "epoch": 1.901, "grad_norm": 2.5164084434509277, "learning_rate": 7.120822902727972e-06, "loss": 0.362, "step": 5703 }, { "epoch": 1.9013333333333333, "grad_norm": 3.204995632171631, "learning_rate": 7.117108844815629e-06, "loss": 0.3952, "step": 5704 }, { "epoch": 1.9016666666666666, "grad_norm": 2.4103150367736816, "learning_rate": 7.113395220571855e-06, "loss": 0.3602, "step": 5705 }, { "epoch": 1.9020000000000001, "grad_norm": 2.9959304332733154, "learning_rate": 7.109682030555283e-06, "loss": 0.3845, "step": 5706 }, { "epoch": 1.9023333333333334, "grad_norm": 2.154757499694824, "learning_rate": 7.105969275324491e-06, "loss": 0.3188, "step": 5707 }, { "epoch": 1.9026666666666667, "grad_norm": 2.6827030181884766, "learning_rate": 7.102256955437971e-06, "loss": 0.3093, "step": 5708 }, { "epoch": 1.903, "grad_norm": 2.2081615924835205, "learning_rate": 7.0985450714541685e-06, "loss": 0.3572, "step": 5709 }, { "epoch": 1.9033333333333333, "grad_norm": 2.3348007202148438, "learning_rate": 7.094833623931455e-06, "loss": 0.3437, "step": 5710 }, { "epoch": 1.9036666666666666, "grad_norm": 2.3725807666778564, "learning_rate": 7.091122613428133e-06, "loss": 0.3819, "step": 5711 }, { "epoch": 1.904, "grad_norm": 2.2757186889648438, "learning_rate": 7.087412040502446e-06, "loss": 0.355, "step": 5712 }, { "epoch": 1.9043333333333332, "grad_norm": 2.366138458251953, "learning_rate": 7.083701905712574e-06, "loss": 0.3867, "step": 5713 }, { "epoch": 1.9046666666666665, "grad_norm": 2.1577188968658447, "learning_rate": 7.079992209616624e-06, "loss": 0.3226, "step": 5714 }, { "epoch": 1.905, "grad_norm": 2.259312629699707, "learning_rate": 7.076282952772634e-06, "loss": 0.3107, "step": 5715 }, { "epoch": 1.9053333333333333, "grad_norm": 2.329374074935913, "learning_rate": 7.072574135738585e-06, "loss": 0.3427, "step": 5716 }, { "epoch": 1.9056666666666666, "grad_norm": 2.1741394996643066, "learning_rate": 7.068865759072395e-06, "loss": 0.3801, "step": 5717 }, { "epoch": 1.9060000000000001, "grad_norm": 2.3127496242523193, "learning_rate": 7.0651578233318986e-06, "loss": 0.3389, "step": 5718 }, { "epoch": 1.9063333333333334, "grad_norm": 2.1988625526428223, "learning_rate": 7.061450329074879e-06, "loss": 0.3578, "step": 5719 }, { "epoch": 1.9066666666666667, "grad_norm": 2.142458438873291, "learning_rate": 7.057743276859048e-06, "loss": 0.3795, "step": 5720 }, { "epoch": 1.907, "grad_norm": 2.295443534851074, "learning_rate": 7.054036667242055e-06, "loss": 0.3429, "step": 5721 }, { "epoch": 1.9073333333333333, "grad_norm": 3.0462260246276855, "learning_rate": 7.050330500781473e-06, "loss": 0.3717, "step": 5722 }, { "epoch": 1.9076666666666666, "grad_norm": 2.120497465133667, "learning_rate": 7.046624778034818e-06, "loss": 0.3581, "step": 5723 }, { "epoch": 1.908, "grad_norm": 3.4639394283294678, "learning_rate": 7.042919499559538e-06, "loss": 0.3237, "step": 5724 }, { "epoch": 1.9083333333333332, "grad_norm": 2.0872864723205566, "learning_rate": 7.039214665913004e-06, "loss": 0.3335, "step": 5725 }, { "epoch": 1.9086666666666665, "grad_norm": 2.4642648696899414, "learning_rate": 7.035510277652532e-06, "loss": 0.3586, "step": 5726 }, { "epoch": 1.909, "grad_norm": 2.288789987564087, "learning_rate": 7.031806335335372e-06, "loss": 0.3785, "step": 5727 }, { "epoch": 1.9093333333333333, "grad_norm": 2.8712351322174072, "learning_rate": 7.028102839518699e-06, "loss": 0.3368, "step": 5728 }, { "epoch": 1.9096666666666666, "grad_norm": 2.5093040466308594, "learning_rate": 7.0243997907596195e-06, "loss": 0.3514, "step": 5729 }, { "epoch": 1.9100000000000001, "grad_norm": 2.3562777042388916, "learning_rate": 7.02069718961518e-06, "loss": 0.3373, "step": 5730 }, { "epoch": 1.9103333333333334, "grad_norm": 2.995589256286621, "learning_rate": 7.016995036642361e-06, "loss": 0.3799, "step": 5731 }, { "epoch": 1.9106666666666667, "grad_norm": 2.932391881942749, "learning_rate": 7.013293332398063e-06, "loss": 0.3496, "step": 5732 }, { "epoch": 1.911, "grad_norm": 2.2538344860076904, "learning_rate": 7.009592077439135e-06, "loss": 0.3206, "step": 5733 }, { "epoch": 1.9113333333333333, "grad_norm": 2.786163330078125, "learning_rate": 7.005891272322344e-06, "loss": 0.3282, "step": 5734 }, { "epoch": 1.9116666666666666, "grad_norm": 2.8812358379364014, "learning_rate": 7.002190917604403e-06, "loss": 0.353, "step": 5735 }, { "epoch": 1.912, "grad_norm": 2.7760026454925537, "learning_rate": 6.9984910138419434e-06, "loss": 0.3308, "step": 5736 }, { "epoch": 1.9123333333333332, "grad_norm": 2.8519070148468018, "learning_rate": 6.99479156159154e-06, "loss": 0.3632, "step": 5737 }, { "epoch": 1.9126666666666665, "grad_norm": 2.3918356895446777, "learning_rate": 6.991092561409698e-06, "loss": 0.3639, "step": 5738 }, { "epoch": 1.913, "grad_norm": 2.6699576377868652, "learning_rate": 6.987394013852843e-06, "loss": 0.3878, "step": 5739 }, { "epoch": 1.9133333333333333, "grad_norm": 3.075443744659424, "learning_rate": 6.983695919477346e-06, "loss": 0.3922, "step": 5740 }, { "epoch": 1.9136666666666666, "grad_norm": 3.17342472076416, "learning_rate": 6.979998278839508e-06, "loss": 0.3637, "step": 5741 }, { "epoch": 1.9140000000000001, "grad_norm": 2.5242278575897217, "learning_rate": 6.976301092495556e-06, "loss": 0.3382, "step": 5742 }, { "epoch": 1.9143333333333334, "grad_norm": 2.1365127563476562, "learning_rate": 6.972604361001653e-06, "loss": 0.3567, "step": 5743 }, { "epoch": 1.9146666666666667, "grad_norm": 2.3185627460479736, "learning_rate": 6.9689080849138905e-06, "loss": 0.3562, "step": 5744 }, { "epoch": 1.915, "grad_norm": 2.7823305130004883, "learning_rate": 6.9652122647882966e-06, "loss": 0.3524, "step": 5745 }, { "epoch": 1.9153333333333333, "grad_norm": 2.20747971534729, "learning_rate": 6.961516901180822e-06, "loss": 0.3547, "step": 5746 }, { "epoch": 1.9156666666666666, "grad_norm": 2.3405673503875732, "learning_rate": 6.957821994647358e-06, "loss": 0.3165, "step": 5747 }, { "epoch": 1.916, "grad_norm": 2.1743435859680176, "learning_rate": 6.9541275457437215e-06, "loss": 0.3594, "step": 5748 }, { "epoch": 1.9163333333333332, "grad_norm": 2.1818981170654297, "learning_rate": 6.950433555025669e-06, "loss": 0.3665, "step": 5749 }, { "epoch": 1.9166666666666665, "grad_norm": 2.029953956604004, "learning_rate": 6.94674002304887e-06, "loss": 0.3398, "step": 5750 }, { "epoch": 1.917, "grad_norm": 2.670579195022583, "learning_rate": 6.943046950368944e-06, "loss": 0.3322, "step": 5751 }, { "epoch": 1.9173333333333333, "grad_norm": 2.5549123287200928, "learning_rate": 6.939354337541435e-06, "loss": 0.3752, "step": 5752 }, { "epoch": 1.9176666666666666, "grad_norm": 2.2916295528411865, "learning_rate": 6.93566218512181e-06, "loss": 0.3616, "step": 5753 }, { "epoch": 1.9180000000000001, "grad_norm": 2.436678647994995, "learning_rate": 6.931970493665478e-06, "loss": 0.3678, "step": 5754 }, { "epoch": 1.9183333333333334, "grad_norm": 2.4081265926361084, "learning_rate": 6.928279263727774e-06, "loss": 0.345, "step": 5755 }, { "epoch": 1.9186666666666667, "grad_norm": 2.6001691818237305, "learning_rate": 6.924588495863964e-06, "loss": 0.347, "step": 5756 }, { "epoch": 1.919, "grad_norm": 2.005338668823242, "learning_rate": 6.920898190629242e-06, "loss": 0.3671, "step": 5757 }, { "epoch": 1.9193333333333333, "grad_norm": 3.0546939373016357, "learning_rate": 6.917208348578734e-06, "loss": 0.4, "step": 5758 }, { "epoch": 1.9196666666666666, "grad_norm": 2.4877896308898926, "learning_rate": 6.913518970267503e-06, "loss": 0.3475, "step": 5759 }, { "epoch": 1.92, "grad_norm": 2.6258435249328613, "learning_rate": 6.909830056250527e-06, "loss": 0.3383, "step": 5760 }, { "epoch": 1.9203333333333332, "grad_norm": 2.267446994781494, "learning_rate": 6.90614160708273e-06, "loss": 0.3532, "step": 5761 }, { "epoch": 1.9206666666666665, "grad_norm": 2.689154863357544, "learning_rate": 6.902453623318956e-06, "loss": 0.3294, "step": 5762 }, { "epoch": 1.921, "grad_norm": 1.985040545463562, "learning_rate": 6.8987661055139865e-06, "loss": 0.3283, "step": 5763 }, { "epoch": 1.9213333333333333, "grad_norm": 2.670128345489502, "learning_rate": 6.895079054222522e-06, "loss": 0.3444, "step": 5764 }, { "epoch": 1.9216666666666666, "grad_norm": 2.471184015274048, "learning_rate": 6.891392469999205e-06, "loss": 0.3375, "step": 5765 }, { "epoch": 1.9220000000000002, "grad_norm": 3.115675926208496, "learning_rate": 6.8877063533986025e-06, "loss": 0.3474, "step": 5766 }, { "epoch": 1.9223333333333334, "grad_norm": 2.634183168411255, "learning_rate": 6.884020704975207e-06, "loss": 0.3425, "step": 5767 }, { "epoch": 1.9226666666666667, "grad_norm": 2.7141897678375244, "learning_rate": 6.880335525283444e-06, "loss": 0.3606, "step": 5768 }, { "epoch": 1.923, "grad_norm": 2.6407101154327393, "learning_rate": 6.876650814877675e-06, "loss": 0.3419, "step": 5769 }, { "epoch": 1.9233333333333333, "grad_norm": 2.5004429817199707, "learning_rate": 6.872966574312182e-06, "loss": 0.3411, "step": 5770 }, { "epoch": 1.9236666666666666, "grad_norm": 2.655996561050415, "learning_rate": 6.869282804141179e-06, "loss": 0.3572, "step": 5771 }, { "epoch": 1.924, "grad_norm": 2.213456392288208, "learning_rate": 6.865599504918805e-06, "loss": 0.3702, "step": 5772 }, { "epoch": 1.9243333333333332, "grad_norm": 2.8703689575195312, "learning_rate": 6.861916677199143e-06, "loss": 0.3905, "step": 5773 }, { "epoch": 1.9246666666666665, "grad_norm": 2.141258478164673, "learning_rate": 6.858234321536184e-06, "loss": 0.331, "step": 5774 }, { "epoch": 1.925, "grad_norm": 2.937593936920166, "learning_rate": 6.854552438483866e-06, "loss": 0.3752, "step": 5775 }, { "epoch": 1.9253333333333333, "grad_norm": 2.2262301445007324, "learning_rate": 6.850871028596042e-06, "loss": 0.3375, "step": 5776 }, { "epoch": 1.9256666666666666, "grad_norm": 2.195676326751709, "learning_rate": 6.84719009242651e-06, "loss": 0.3327, "step": 5777 }, { "epoch": 1.9260000000000002, "grad_norm": 2.608597993850708, "learning_rate": 6.843509630528977e-06, "loss": 0.3764, "step": 5778 }, { "epoch": 1.9263333333333335, "grad_norm": 2.261298418045044, "learning_rate": 6.839829643457092e-06, "loss": 0.3484, "step": 5779 }, { "epoch": 1.9266666666666667, "grad_norm": 2.2317662239074707, "learning_rate": 6.836150131764434e-06, "loss": 0.3446, "step": 5780 }, { "epoch": 1.927, "grad_norm": 2.4526567459106445, "learning_rate": 6.832471096004505e-06, "loss": 0.3535, "step": 5781 }, { "epoch": 1.9273333333333333, "grad_norm": 2.594057559967041, "learning_rate": 6.828792536730729e-06, "loss": 0.341, "step": 5782 }, { "epoch": 1.9276666666666666, "grad_norm": 2.667989492416382, "learning_rate": 6.825114454496471e-06, "loss": 0.2971, "step": 5783 }, { "epoch": 1.928, "grad_norm": 2.776954412460327, "learning_rate": 6.821436849855023e-06, "loss": 0.3255, "step": 5784 }, { "epoch": 1.9283333333333332, "grad_norm": 2.2365376949310303, "learning_rate": 6.817759723359594e-06, "loss": 0.3826, "step": 5785 }, { "epoch": 1.9286666666666665, "grad_norm": 2.431884288787842, "learning_rate": 6.814083075563328e-06, "loss": 0.3569, "step": 5786 }, { "epoch": 1.929, "grad_norm": 2.3628296852111816, "learning_rate": 6.8104069070193e-06, "loss": 0.3699, "step": 5787 }, { "epoch": 1.9293333333333333, "grad_norm": 2.440586805343628, "learning_rate": 6.8067312182805135e-06, "loss": 0.3563, "step": 5788 }, { "epoch": 1.9296666666666666, "grad_norm": 3.352154493331909, "learning_rate": 6.803056009899889e-06, "loss": 0.3373, "step": 5789 }, { "epoch": 1.9300000000000002, "grad_norm": 2.4407565593719482, "learning_rate": 6.799381282430284e-06, "loss": 0.4137, "step": 5790 }, { "epoch": 1.9303333333333335, "grad_norm": 2.055032730102539, "learning_rate": 6.7957070364244886e-06, "loss": 0.3569, "step": 5791 }, { "epoch": 1.9306666666666668, "grad_norm": 2.318357229232788, "learning_rate": 6.792033272435202e-06, "loss": 0.3654, "step": 5792 }, { "epoch": 1.931, "grad_norm": 2.698575258255005, "learning_rate": 6.78835999101507e-06, "loss": 0.3523, "step": 5793 }, { "epoch": 1.9313333333333333, "grad_norm": 3.935476541519165, "learning_rate": 6.784687192716658e-06, "loss": 0.3655, "step": 5794 }, { "epoch": 1.9316666666666666, "grad_norm": 3.457667112350464, "learning_rate": 6.78101487809246e-06, "loss": 0.3461, "step": 5795 }, { "epoch": 1.932, "grad_norm": 3.8804173469543457, "learning_rate": 6.777343047694891e-06, "loss": 0.3469, "step": 5796 }, { "epoch": 1.9323333333333332, "grad_norm": 2.8910529613494873, "learning_rate": 6.7736717020763e-06, "loss": 0.3524, "step": 5797 }, { "epoch": 1.9326666666666665, "grad_norm": 3.4441072940826416, "learning_rate": 6.7700008417889675e-06, "loss": 0.3149, "step": 5798 }, { "epoch": 1.933, "grad_norm": 2.8124029636383057, "learning_rate": 6.766330467385088e-06, "loss": 0.3556, "step": 5799 }, { "epoch": 1.9333333333333333, "grad_norm": 3.2082011699676514, "learning_rate": 6.762660579416791e-06, "loss": 0.3694, "step": 5800 }, { "epoch": 1.9336666666666666, "grad_norm": 4.192351818084717, "learning_rate": 6.758991178436131e-06, "loss": 0.3563, "step": 5801 }, { "epoch": 1.9340000000000002, "grad_norm": 2.6875901222229004, "learning_rate": 6.755322264995099e-06, "loss": 0.3269, "step": 5802 }, { "epoch": 1.9343333333333335, "grad_norm": 2.2189953327178955, "learning_rate": 6.751653839645591e-06, "loss": 0.3732, "step": 5803 }, { "epoch": 1.9346666666666668, "grad_norm": 2.72359037399292, "learning_rate": 6.747985902939449e-06, "loss": 0.3506, "step": 5804 }, { "epoch": 1.935, "grad_norm": 2.701676368713379, "learning_rate": 6.744318455428436e-06, "loss": 0.341, "step": 5805 }, { "epoch": 1.9353333333333333, "grad_norm": 3.380495071411133, "learning_rate": 6.740651497664234e-06, "loss": 0.3556, "step": 5806 }, { "epoch": 1.9356666666666666, "grad_norm": 3.382206678390503, "learning_rate": 6.73698503019846e-06, "loss": 0.362, "step": 5807 }, { "epoch": 1.936, "grad_norm": 2.6506052017211914, "learning_rate": 6.733319053582659e-06, "loss": 0.3669, "step": 5808 }, { "epoch": 1.9363333333333332, "grad_norm": 2.3430004119873047, "learning_rate": 6.729653568368295e-06, "loss": 0.3779, "step": 5809 }, { "epoch": 1.9366666666666665, "grad_norm": 2.2559378147125244, "learning_rate": 6.725988575106757e-06, "loss": 0.329, "step": 5810 }, { "epoch": 1.937, "grad_norm": 2.073637008666992, "learning_rate": 6.722324074349367e-06, "loss": 0.3246, "step": 5811 }, { "epoch": 1.9373333333333334, "grad_norm": 1.9249424934387207, "learning_rate": 6.718660066647373e-06, "loss": 0.3226, "step": 5812 }, { "epoch": 1.9376666666666666, "grad_norm": 2.134880304336548, "learning_rate": 6.714996552551942e-06, "loss": 0.3751, "step": 5813 }, { "epoch": 1.938, "grad_norm": 2.062938928604126, "learning_rate": 6.711333532614168e-06, "loss": 0.3304, "step": 5814 }, { "epoch": 1.9383333333333335, "grad_norm": 2.2330198287963867, "learning_rate": 6.707671007385077e-06, "loss": 0.307, "step": 5815 }, { "epoch": 1.9386666666666668, "grad_norm": 1.9641848802566528, "learning_rate": 6.704008977415619e-06, "loss": 0.3431, "step": 5816 }, { "epoch": 1.939, "grad_norm": 2.465345859527588, "learning_rate": 6.700347443256661e-06, "loss": 0.3581, "step": 5817 }, { "epoch": 1.9393333333333334, "grad_norm": 2.477250814437866, "learning_rate": 6.696686405459005e-06, "loss": 0.3789, "step": 5818 }, { "epoch": 1.9396666666666667, "grad_norm": 2.923757791519165, "learning_rate": 6.693025864573378e-06, "loss": 0.3864, "step": 5819 }, { "epoch": 1.94, "grad_norm": 2.4117093086242676, "learning_rate": 6.689365821150421e-06, "loss": 0.345, "step": 5820 }, { "epoch": 1.9403333333333332, "grad_norm": 2.3126533031463623, "learning_rate": 6.685706275740712e-06, "loss": 0.3798, "step": 5821 }, { "epoch": 1.9406666666666665, "grad_norm": 2.312392234802246, "learning_rate": 6.6820472288947535e-06, "loss": 0.3606, "step": 5822 }, { "epoch": 1.9409999999999998, "grad_norm": 2.0296742916107178, "learning_rate": 6.67838868116297e-06, "loss": 0.3333, "step": 5823 }, { "epoch": 1.9413333333333334, "grad_norm": 2.7048451900482178, "learning_rate": 6.674730633095704e-06, "loss": 0.3826, "step": 5824 }, { "epoch": 1.9416666666666667, "grad_norm": 2.8276937007904053, "learning_rate": 6.671073085243234e-06, "loss": 0.3783, "step": 5825 }, { "epoch": 1.942, "grad_norm": 2.440068244934082, "learning_rate": 6.667416038155763e-06, "loss": 0.3487, "step": 5826 }, { "epoch": 1.9423333333333335, "grad_norm": 2.2971785068511963, "learning_rate": 6.663759492383406e-06, "loss": 0.3572, "step": 5827 }, { "epoch": 1.9426666666666668, "grad_norm": 2.0987141132354736, "learning_rate": 6.660103448476219e-06, "loss": 0.364, "step": 5828 }, { "epoch": 1.943, "grad_norm": 2.038602113723755, "learning_rate": 6.656447906984168e-06, "loss": 0.3414, "step": 5829 }, { "epoch": 1.9433333333333334, "grad_norm": 2.2090373039245605, "learning_rate": 6.652792868457159e-06, "loss": 0.315, "step": 5830 }, { "epoch": 1.9436666666666667, "grad_norm": 4.8220906257629395, "learning_rate": 6.649138333445002e-06, "loss": 0.3497, "step": 5831 }, { "epoch": 1.944, "grad_norm": 1.739748239517212, "learning_rate": 6.645484302497452e-06, "loss": 0.3455, "step": 5832 }, { "epoch": 1.9443333333333332, "grad_norm": 2.1643965244293213, "learning_rate": 6.641830776164176e-06, "loss": 0.3622, "step": 5833 }, { "epoch": 1.9446666666666665, "grad_norm": 1.891984224319458, "learning_rate": 6.638177754994764e-06, "loss": 0.3083, "step": 5834 }, { "epoch": 1.9449999999999998, "grad_norm": 1.99345064163208, "learning_rate": 6.634525239538736e-06, "loss": 0.3255, "step": 5835 }, { "epoch": 1.9453333333333334, "grad_norm": 2.6533031463623047, "learning_rate": 6.630873230345538e-06, "loss": 0.3469, "step": 5836 }, { "epoch": 1.9456666666666667, "grad_norm": 3.5561089515686035, "learning_rate": 6.627221727964535e-06, "loss": 0.3733, "step": 5837 }, { "epoch": 1.946, "grad_norm": 3.1993114948272705, "learning_rate": 6.623570732945012e-06, "loss": 0.3115, "step": 5838 }, { "epoch": 1.9463333333333335, "grad_norm": 2.0058836936950684, "learning_rate": 6.619920245836184e-06, "loss": 0.3182, "step": 5839 }, { "epoch": 1.9466666666666668, "grad_norm": 2.180893659591675, "learning_rate": 6.61627026718719e-06, "loss": 0.3739, "step": 5840 }, { "epoch": 1.947, "grad_norm": 2.2358274459838867, "learning_rate": 6.612620797547087e-06, "loss": 0.3529, "step": 5841 }, { "epoch": 1.9473333333333334, "grad_norm": 2.114553928375244, "learning_rate": 6.608971837464862e-06, "loss": 0.3286, "step": 5842 }, { "epoch": 1.9476666666666667, "grad_norm": 3.3894195556640625, "learning_rate": 6.605323387489418e-06, "loss": 0.3319, "step": 5843 }, { "epoch": 1.948, "grad_norm": 2.04754376411438, "learning_rate": 6.601675448169591e-06, "loss": 0.3454, "step": 5844 }, { "epoch": 1.9483333333333333, "grad_norm": 2.672422170639038, "learning_rate": 6.598028020054128e-06, "loss": 0.2948, "step": 5845 }, { "epoch": 1.9486666666666665, "grad_norm": 3.0317258834838867, "learning_rate": 6.5943811036917105e-06, "loss": 0.357, "step": 5846 }, { "epoch": 1.9489999999999998, "grad_norm": 2.5176339149475098, "learning_rate": 6.590734699630939e-06, "loss": 0.3238, "step": 5847 }, { "epoch": 1.9493333333333334, "grad_norm": 2.6966826915740967, "learning_rate": 6.587088808420329e-06, "loss": 0.3485, "step": 5848 }, { "epoch": 1.9496666666666667, "grad_norm": 3.249274730682373, "learning_rate": 6.58344343060833e-06, "loss": 0.3357, "step": 5849 }, { "epoch": 1.95, "grad_norm": 2.6325292587280273, "learning_rate": 6.579798566743314e-06, "loss": 0.3806, "step": 5850 }, { "epoch": 1.9503333333333335, "grad_norm": 2.552860975265503, "learning_rate": 6.576154217373567e-06, "loss": 0.3858, "step": 5851 }, { "epoch": 1.9506666666666668, "grad_norm": 2.4684619903564453, "learning_rate": 6.5725103830473045e-06, "loss": 0.3679, "step": 5852 }, { "epoch": 1.951, "grad_norm": 1.9556649923324585, "learning_rate": 6.568867064312661e-06, "loss": 0.3366, "step": 5853 }, { "epoch": 1.9513333333333334, "grad_norm": 2.292102813720703, "learning_rate": 6.565224261717698e-06, "loss": 0.3359, "step": 5854 }, { "epoch": 1.9516666666666667, "grad_norm": 3.6507461071014404, "learning_rate": 6.5615819758103915e-06, "loss": 0.3742, "step": 5855 }, { "epoch": 1.952, "grad_norm": 2.194676160812378, "learning_rate": 6.5579402071386485e-06, "loss": 0.3617, "step": 5856 }, { "epoch": 1.9523333333333333, "grad_norm": 4.133101463317871, "learning_rate": 6.5542989562502916e-06, "loss": 0.3689, "step": 5857 }, { "epoch": 1.9526666666666666, "grad_norm": 2.873497724533081, "learning_rate": 6.550658223693072e-06, "loss": 0.3567, "step": 5858 }, { "epoch": 1.9529999999999998, "grad_norm": 2.3436362743377686, "learning_rate": 6.547018010014654e-06, "loss": 0.2857, "step": 5859 }, { "epoch": 1.9533333333333334, "grad_norm": 2.301193952560425, "learning_rate": 6.543378315762634e-06, "loss": 0.3832, "step": 5860 }, { "epoch": 1.9536666666666667, "grad_norm": 3.2620182037353516, "learning_rate": 6.539739141484522e-06, "loss": 0.3628, "step": 5861 }, { "epoch": 1.954, "grad_norm": 2.773494005203247, "learning_rate": 6.536100487727754e-06, "loss": 0.2909, "step": 5862 }, { "epoch": 1.9543333333333335, "grad_norm": 2.58152437210083, "learning_rate": 6.532462355039686e-06, "loss": 0.3044, "step": 5863 }, { "epoch": 1.9546666666666668, "grad_norm": 2.1788947582244873, "learning_rate": 6.528824743967594e-06, "loss": 0.3785, "step": 5864 }, { "epoch": 1.955, "grad_norm": 2.999427318572998, "learning_rate": 6.525187655058687e-06, "loss": 0.3332, "step": 5865 }, { "epoch": 1.9553333333333334, "grad_norm": 2.078556537628174, "learning_rate": 6.521551088860079e-06, "loss": 0.3696, "step": 5866 }, { "epoch": 1.9556666666666667, "grad_norm": 3.666177749633789, "learning_rate": 6.517915045918809e-06, "loss": 0.3581, "step": 5867 }, { "epoch": 1.956, "grad_norm": 2.8111963272094727, "learning_rate": 6.5142795267818505e-06, "loss": 0.3327, "step": 5868 }, { "epoch": 1.9563333333333333, "grad_norm": 2.5158159732818604, "learning_rate": 6.51064453199608e-06, "loss": 0.3911, "step": 5869 }, { "epoch": 1.9566666666666666, "grad_norm": 2.8075640201568604, "learning_rate": 6.50701006210831e-06, "loss": 0.3413, "step": 5870 }, { "epoch": 1.9569999999999999, "grad_norm": 2.304605722427368, "learning_rate": 6.503376117665262e-06, "loss": 0.3415, "step": 5871 }, { "epoch": 1.9573333333333334, "grad_norm": 2.472468137741089, "learning_rate": 6.499742699213593e-06, "loss": 0.3446, "step": 5872 }, { "epoch": 1.9576666666666667, "grad_norm": 2.7798993587493896, "learning_rate": 6.4961098072998616e-06, "loss": 0.3458, "step": 5873 }, { "epoch": 1.958, "grad_norm": 3.222255229949951, "learning_rate": 6.492477442470566e-06, "loss": 0.3544, "step": 5874 }, { "epoch": 1.9583333333333335, "grad_norm": 2.1333017349243164, "learning_rate": 6.488845605272114e-06, "loss": 0.3818, "step": 5875 }, { "epoch": 1.9586666666666668, "grad_norm": 2.6546308994293213, "learning_rate": 6.485214296250836e-06, "loss": 0.3584, "step": 5876 }, { "epoch": 1.959, "grad_norm": 2.096511125564575, "learning_rate": 6.481583515952983e-06, "loss": 0.3386, "step": 5877 }, { "epoch": 1.9593333333333334, "grad_norm": 2.100632429122925, "learning_rate": 6.477953264924728e-06, "loss": 0.3833, "step": 5878 }, { "epoch": 1.9596666666666667, "grad_norm": 2.9546351432800293, "learning_rate": 6.474323543712169e-06, "loss": 0.4083, "step": 5879 }, { "epoch": 1.96, "grad_norm": 3.056872606277466, "learning_rate": 6.4706943528613135e-06, "loss": 0.3351, "step": 5880 }, { "epoch": 1.9603333333333333, "grad_norm": 2.6093571186065674, "learning_rate": 6.467065692918093e-06, "loss": 0.3426, "step": 5881 }, { "epoch": 1.9606666666666666, "grad_norm": 2.0812106132507324, "learning_rate": 6.4634375644283676e-06, "loss": 0.3175, "step": 5882 }, { "epoch": 1.9609999999999999, "grad_norm": 2.4505748748779297, "learning_rate": 6.4598099679379024e-06, "loss": 0.3837, "step": 5883 }, { "epoch": 1.9613333333333334, "grad_norm": 3.171400785446167, "learning_rate": 6.456182903992396e-06, "loss": 0.3258, "step": 5884 }, { "epoch": 1.9616666666666667, "grad_norm": 2.558333396911621, "learning_rate": 6.45255637313746e-06, "loss": 0.4078, "step": 5885 }, { "epoch": 1.962, "grad_norm": 2.4060287475585938, "learning_rate": 6.448930375918632e-06, "loss": 0.3388, "step": 5886 }, { "epoch": 1.9623333333333335, "grad_norm": 2.4234659671783447, "learning_rate": 6.445304912881357e-06, "loss": 0.3631, "step": 5887 }, { "epoch": 1.9626666666666668, "grad_norm": 2.452002763748169, "learning_rate": 6.441679984571011e-06, "loss": 0.3423, "step": 5888 }, { "epoch": 1.963, "grad_norm": 3.016340970993042, "learning_rate": 6.43805559153289e-06, "loss": 0.3858, "step": 5889 }, { "epoch": 1.9633333333333334, "grad_norm": 3.7162222862243652, "learning_rate": 6.434431734312201e-06, "loss": 0.3668, "step": 5890 }, { "epoch": 1.9636666666666667, "grad_norm": 2.7475056648254395, "learning_rate": 6.4308084134540734e-06, "loss": 0.3547, "step": 5891 }, { "epoch": 1.964, "grad_norm": 2.4359426498413086, "learning_rate": 6.427185629503561e-06, "loss": 0.3469, "step": 5892 }, { "epoch": 1.9643333333333333, "grad_norm": 2.251882553100586, "learning_rate": 6.423563383005633e-06, "loss": 0.383, "step": 5893 }, { "epoch": 1.9646666666666666, "grad_norm": 2.15497088432312, "learning_rate": 6.419941674505177e-06, "loss": 0.371, "step": 5894 }, { "epoch": 1.9649999999999999, "grad_norm": 2.1273350715637207, "learning_rate": 6.4163205045469975e-06, "loss": 0.362, "step": 5895 }, { "epoch": 1.9653333333333334, "grad_norm": 2.533719778060913, "learning_rate": 6.412699873675829e-06, "loss": 0.3177, "step": 5896 }, { "epoch": 1.9656666666666667, "grad_norm": 2.3301639556884766, "learning_rate": 6.409079782436308e-06, "loss": 0.3458, "step": 5897 }, { "epoch": 1.966, "grad_norm": 3.004455327987671, "learning_rate": 6.405460231373003e-06, "loss": 0.3348, "step": 5898 }, { "epoch": 1.9663333333333335, "grad_norm": 2.790844202041626, "learning_rate": 6.401841221030399e-06, "loss": 0.3561, "step": 5899 }, { "epoch": 1.9666666666666668, "grad_norm": 2.4993414878845215, "learning_rate": 6.3982227519528986e-06, "loss": 0.3734, "step": 5900 }, { "epoch": 1.967, "grad_norm": 3.104717254638672, "learning_rate": 6.394604824684815e-06, "loss": 0.3358, "step": 5901 }, { "epoch": 1.9673333333333334, "grad_norm": 2.601370334625244, "learning_rate": 6.390987439770392e-06, "loss": 0.3799, "step": 5902 }, { "epoch": 1.9676666666666667, "grad_norm": 2.982483386993408, "learning_rate": 6.387370597753791e-06, "loss": 0.3616, "step": 5903 }, { "epoch": 1.968, "grad_norm": 2.9781408309936523, "learning_rate": 6.383754299179079e-06, "loss": 0.3414, "step": 5904 }, { "epoch": 1.9683333333333333, "grad_norm": 2.4388253688812256, "learning_rate": 6.380138544590253e-06, "loss": 0.3612, "step": 5905 }, { "epoch": 1.9686666666666666, "grad_norm": 2.6805317401885986, "learning_rate": 6.376523334531226e-06, "loss": 0.3057, "step": 5906 }, { "epoch": 1.9689999999999999, "grad_norm": 2.9432685375213623, "learning_rate": 6.372908669545832e-06, "loss": 0.3318, "step": 5907 }, { "epoch": 1.9693333333333334, "grad_norm": 2.1496458053588867, "learning_rate": 6.3692945501778135e-06, "loss": 0.3319, "step": 5908 }, { "epoch": 1.9696666666666667, "grad_norm": 2.1557250022888184, "learning_rate": 6.3656809769708365e-06, "loss": 0.3122, "step": 5909 }, { "epoch": 1.97, "grad_norm": 2.7627058029174805, "learning_rate": 6.362067950468489e-06, "loss": 0.3294, "step": 5910 }, { "epoch": 1.9703333333333335, "grad_norm": 2.457094669342041, "learning_rate": 6.3584554712142664e-06, "loss": 0.3635, "step": 5911 }, { "epoch": 1.9706666666666668, "grad_norm": 2.816606283187866, "learning_rate": 6.354843539751592e-06, "loss": 0.3198, "step": 5912 }, { "epoch": 1.971, "grad_norm": 2.053891181945801, "learning_rate": 6.351232156623803e-06, "loss": 0.3335, "step": 5913 }, { "epoch": 1.9713333333333334, "grad_norm": 2.5404162406921387, "learning_rate": 6.347621322374158e-06, "loss": 0.3494, "step": 5914 }, { "epoch": 1.9716666666666667, "grad_norm": 2.7754709720611572, "learning_rate": 6.3440110375458186e-06, "loss": 0.3715, "step": 5915 }, { "epoch": 1.972, "grad_norm": 2.7079274654388428, "learning_rate": 6.340401302681879e-06, "loss": 0.3251, "step": 5916 }, { "epoch": 1.9723333333333333, "grad_norm": 2.731116533279419, "learning_rate": 6.33679211832535e-06, "loss": 0.3415, "step": 5917 }, { "epoch": 1.9726666666666666, "grad_norm": 2.433122396469116, "learning_rate": 6.33318348501915e-06, "loss": 0.3738, "step": 5918 }, { "epoch": 1.9729999999999999, "grad_norm": 2.695558547973633, "learning_rate": 6.3295754033061196e-06, "loss": 0.3642, "step": 5919 }, { "epoch": 1.9733333333333334, "grad_norm": 2.707301378250122, "learning_rate": 6.3259678737290174e-06, "loss": 0.3561, "step": 5920 }, { "epoch": 1.9736666666666667, "grad_norm": 2.424834728240967, "learning_rate": 6.322360896830524e-06, "loss": 0.3556, "step": 5921 }, { "epoch": 1.974, "grad_norm": 3.031911611557007, "learning_rate": 6.318754473153221e-06, "loss": 0.3011, "step": 5922 }, { "epoch": 1.9743333333333335, "grad_norm": 2.5191776752471924, "learning_rate": 6.315148603239624e-06, "loss": 0.3448, "step": 5923 }, { "epoch": 1.9746666666666668, "grad_norm": 2.708308219909668, "learning_rate": 6.311543287632158e-06, "loss": 0.388, "step": 5924 }, { "epoch": 1.975, "grad_norm": 2.127868890762329, "learning_rate": 6.3079385268731575e-06, "loss": 0.3608, "step": 5925 }, { "epoch": 1.9753333333333334, "grad_norm": 2.4747610092163086, "learning_rate": 6.304334321504886e-06, "loss": 0.3033, "step": 5926 }, { "epoch": 1.9756666666666667, "grad_norm": 2.6710593700408936, "learning_rate": 6.300730672069519e-06, "loss": 0.365, "step": 5927 }, { "epoch": 1.976, "grad_norm": 3.52089524269104, "learning_rate": 6.29712757910915e-06, "loss": 0.3165, "step": 5928 }, { "epoch": 1.9763333333333333, "grad_norm": 2.5838401317596436, "learning_rate": 6.293525043165778e-06, "loss": 0.3185, "step": 5929 }, { "epoch": 1.9766666666666666, "grad_norm": 2.2758851051330566, "learning_rate": 6.2899230647813315e-06, "loss": 0.3651, "step": 5930 }, { "epoch": 1.9769999999999999, "grad_norm": 3.5719001293182373, "learning_rate": 6.286321644497655e-06, "loss": 0.3582, "step": 5931 }, { "epoch": 1.9773333333333334, "grad_norm": 2.579975128173828, "learning_rate": 6.282720782856495e-06, "loss": 0.2921, "step": 5932 }, { "epoch": 1.9776666666666667, "grad_norm": 2.159362316131592, "learning_rate": 6.279120480399526e-06, "loss": 0.3333, "step": 5933 }, { "epoch": 1.978, "grad_norm": 1.9006069898605347, "learning_rate": 6.275520737668338e-06, "loss": 0.3405, "step": 5934 }, { "epoch": 1.9783333333333335, "grad_norm": 2.0546061992645264, "learning_rate": 6.271921555204437e-06, "loss": 0.3216, "step": 5935 }, { "epoch": 1.9786666666666668, "grad_norm": 2.1718521118164062, "learning_rate": 6.268322933549234e-06, "loss": 0.3425, "step": 5936 }, { "epoch": 1.979, "grad_norm": 2.762294292449951, "learning_rate": 6.26472487324407e-06, "loss": 0.3515, "step": 5937 }, { "epoch": 1.9793333333333334, "grad_norm": 2.420114755630493, "learning_rate": 6.261127374830196e-06, "loss": 0.3522, "step": 5938 }, { "epoch": 1.9796666666666667, "grad_norm": 2.2018496990203857, "learning_rate": 6.257530438848771e-06, "loss": 0.3421, "step": 5939 }, { "epoch": 1.98, "grad_norm": 2.1334493160247803, "learning_rate": 6.25393406584088e-06, "loss": 0.3617, "step": 5940 }, { "epoch": 1.9803333333333333, "grad_norm": 2.491694688796997, "learning_rate": 6.2503382563475215e-06, "loss": 0.3566, "step": 5941 }, { "epoch": 1.9806666666666666, "grad_norm": 2.4020979404449463, "learning_rate": 6.246743010909608e-06, "loss": 0.3523, "step": 5942 }, { "epoch": 1.9809999999999999, "grad_norm": 2.7803735733032227, "learning_rate": 6.243148330067961e-06, "loss": 0.376, "step": 5943 }, { "epoch": 1.9813333333333332, "grad_norm": 2.6631743907928467, "learning_rate": 6.2395542143633234e-06, "loss": 0.3748, "step": 5944 }, { "epoch": 1.9816666666666667, "grad_norm": 3.5306789875030518, "learning_rate": 6.235960664336359e-06, "loss": 0.3424, "step": 5945 }, { "epoch": 1.982, "grad_norm": 2.696218252182007, "learning_rate": 6.2323676805276315e-06, "loss": 0.3789, "step": 5946 }, { "epoch": 1.9823333333333333, "grad_norm": 2.426495313644409, "learning_rate": 6.228775263477631e-06, "loss": 0.3687, "step": 5947 }, { "epoch": 1.9826666666666668, "grad_norm": 2.7003653049468994, "learning_rate": 6.225183413726757e-06, "loss": 0.3778, "step": 5948 }, { "epoch": 1.983, "grad_norm": 2.0808939933776855, "learning_rate": 6.22159213181533e-06, "loss": 0.3482, "step": 5949 }, { "epoch": 1.9833333333333334, "grad_norm": 2.1382596492767334, "learning_rate": 6.218001418283577e-06, "loss": 0.3372, "step": 5950 }, { "epoch": 1.9836666666666667, "grad_norm": 2.3212313652038574, "learning_rate": 6.214411273671644e-06, "loss": 0.3293, "step": 5951 }, { "epoch": 1.984, "grad_norm": 2.716639518737793, "learning_rate": 6.210821698519592e-06, "loss": 0.348, "step": 5952 }, { "epoch": 1.9843333333333333, "grad_norm": 2.9665324687957764, "learning_rate": 6.207232693367389e-06, "loss": 0.3729, "step": 5953 }, { "epoch": 1.9846666666666666, "grad_norm": 3.0113003253936768, "learning_rate": 6.203644258754927e-06, "loss": 0.3521, "step": 5954 }, { "epoch": 1.9849999999999999, "grad_norm": 2.347224473953247, "learning_rate": 6.200056395222012e-06, "loss": 0.3207, "step": 5955 }, { "epoch": 1.9853333333333332, "grad_norm": 2.148651361465454, "learning_rate": 6.196469103308356e-06, "loss": 0.3292, "step": 5956 }, { "epoch": 1.9856666666666667, "grad_norm": 2.3516297340393066, "learning_rate": 6.192882383553591e-06, "loss": 0.3739, "step": 5957 }, { "epoch": 1.986, "grad_norm": 2.5816526412963867, "learning_rate": 6.18929623649726e-06, "loss": 0.3646, "step": 5958 }, { "epoch": 1.9863333333333333, "grad_norm": 2.359983444213867, "learning_rate": 6.185710662678825e-06, "loss": 0.3359, "step": 5959 }, { "epoch": 1.9866666666666668, "grad_norm": 2.322126626968384, "learning_rate": 6.18212566263765e-06, "loss": 0.3319, "step": 5960 }, { "epoch": 1.987, "grad_norm": 2.2193031311035156, "learning_rate": 6.178541236913029e-06, "loss": 0.3523, "step": 5961 }, { "epoch": 1.9873333333333334, "grad_norm": 3.1382534503936768, "learning_rate": 6.174957386044156e-06, "loss": 0.3375, "step": 5962 }, { "epoch": 1.9876666666666667, "grad_norm": 2.4181604385375977, "learning_rate": 6.17137411057015e-06, "loss": 0.3556, "step": 5963 }, { "epoch": 1.988, "grad_norm": 2.4461052417755127, "learning_rate": 6.167791411030027e-06, "loss": 0.3485, "step": 5964 }, { "epoch": 1.9883333333333333, "grad_norm": 2.926201820373535, "learning_rate": 6.1642092879627365e-06, "loss": 0.3243, "step": 5965 }, { "epoch": 1.9886666666666666, "grad_norm": 2.350299596786499, "learning_rate": 6.1606277419071245e-06, "loss": 0.3426, "step": 5966 }, { "epoch": 1.9889999999999999, "grad_norm": 2.692614793777466, "learning_rate": 6.157046773401964e-06, "loss": 0.3376, "step": 5967 }, { "epoch": 1.9893333333333332, "grad_norm": 2.069979429244995, "learning_rate": 6.1534663829859276e-06, "loss": 0.3736, "step": 5968 }, { "epoch": 1.9896666666666667, "grad_norm": 2.7170569896698, "learning_rate": 6.149886571197611e-06, "loss": 0.3669, "step": 5969 }, { "epoch": 1.99, "grad_norm": 3.154858112335205, "learning_rate": 6.146307338575519e-06, "loss": 0.3372, "step": 5970 }, { "epoch": 1.9903333333333333, "grad_norm": 3.5226638317108154, "learning_rate": 6.142728685658068e-06, "loss": 0.347, "step": 5971 }, { "epoch": 1.9906666666666668, "grad_norm": 2.6311912536621094, "learning_rate": 6.139150612983589e-06, "loss": 0.3376, "step": 5972 }, { "epoch": 1.991, "grad_norm": 2.340747117996216, "learning_rate": 6.135573121090327e-06, "loss": 0.3334, "step": 5973 }, { "epoch": 1.9913333333333334, "grad_norm": 2.2838735580444336, "learning_rate": 6.131996210516442e-06, "loss": 0.3038, "step": 5974 }, { "epoch": 1.9916666666666667, "grad_norm": 3.0832877159118652, "learning_rate": 6.1284198817999964e-06, "loss": 0.3478, "step": 5975 }, { "epoch": 1.992, "grad_norm": 2.433070659637451, "learning_rate": 6.124844135478971e-06, "loss": 0.3435, "step": 5976 }, { "epoch": 1.9923333333333333, "grad_norm": 2.9942479133605957, "learning_rate": 6.121268972091265e-06, "loss": 0.3462, "step": 5977 }, { "epoch": 1.9926666666666666, "grad_norm": 2.344801902770996, "learning_rate": 6.11769439217468e-06, "loss": 0.3245, "step": 5978 }, { "epoch": 1.9929999999999999, "grad_norm": 2.4848790168762207, "learning_rate": 6.114120396266936e-06, "loss": 0.2936, "step": 5979 }, { "epoch": 1.9933333333333332, "grad_norm": 2.257791042327881, "learning_rate": 6.110546984905661e-06, "loss": 0.3528, "step": 5980 }, { "epoch": 1.9936666666666667, "grad_norm": 2.405048370361328, "learning_rate": 6.106974158628405e-06, "loss": 0.3385, "step": 5981 }, { "epoch": 1.994, "grad_norm": 3.139634847640991, "learning_rate": 6.1034019179726115e-06, "loss": 0.3398, "step": 5982 }, { "epoch": 1.9943333333333333, "grad_norm": 2.574254035949707, "learning_rate": 6.099830263475651e-06, "loss": 0.3411, "step": 5983 }, { "epoch": 1.9946666666666668, "grad_norm": 3.464691638946533, "learning_rate": 6.096259195674807e-06, "loss": 0.3192, "step": 5984 }, { "epoch": 1.995, "grad_norm": 3.0301592350006104, "learning_rate": 6.092688715107265e-06, "loss": 0.3709, "step": 5985 }, { "epoch": 1.9953333333333334, "grad_norm": 2.7343966960906982, "learning_rate": 6.089118822310123e-06, "loss": 0.3233, "step": 5986 }, { "epoch": 1.9956666666666667, "grad_norm": 2.7787511348724365, "learning_rate": 6.0855495178203975e-06, "loss": 0.345, "step": 5987 }, { "epoch": 1.996, "grad_norm": 2.4025421142578125, "learning_rate": 6.081980802175016e-06, "loss": 0.3449, "step": 5988 }, { "epoch": 1.9963333333333333, "grad_norm": 2.515866756439209, "learning_rate": 6.078412675910812e-06, "loss": 0.3352, "step": 5989 }, { "epoch": 1.9966666666666666, "grad_norm": 2.1986351013183594, "learning_rate": 6.074845139564529e-06, "loss": 0.328, "step": 5990 }, { "epoch": 1.9969999999999999, "grad_norm": 2.552824020385742, "learning_rate": 6.071278193672834e-06, "loss": 0.318, "step": 5991 }, { "epoch": 1.9973333333333332, "grad_norm": 2.4577560424804688, "learning_rate": 6.067711838772287e-06, "loss": 0.3184, "step": 5992 }, { "epoch": 1.9976666666666667, "grad_norm": 2.576903820037842, "learning_rate": 6.064146075399373e-06, "loss": 0.3387, "step": 5993 }, { "epoch": 1.998, "grad_norm": 2.1293296813964844, "learning_rate": 6.06058090409049e-06, "loss": 0.3245, "step": 5994 }, { "epoch": 1.9983333333333333, "grad_norm": 2.9006781578063965, "learning_rate": 6.057016325381934e-06, "loss": 0.3728, "step": 5995 }, { "epoch": 1.9986666666666668, "grad_norm": 3.1404426097869873, "learning_rate": 6.053452339809917e-06, "loss": 0.3542, "step": 5996 }, { "epoch": 1.999, "grad_norm": 2.634274482727051, "learning_rate": 6.049888947910569e-06, "loss": 0.3365, "step": 5997 }, { "epoch": 1.9993333333333334, "grad_norm": 2.930957317352295, "learning_rate": 6.0463261502199256e-06, "loss": 0.3979, "step": 5998 }, { "epoch": 1.9996666666666667, "grad_norm": 2.5582244396209717, "learning_rate": 6.0427639472739285e-06, "loss": 0.3656, "step": 5999 }, { "epoch": 2.0, "grad_norm": 2.6003642082214355, "learning_rate": 6.039202339608432e-06, "loss": 0.3392, "step": 6000 }, { "epoch": 2.0003333333333333, "grad_norm": 1.9653325080871582, "learning_rate": 6.0356413277592074e-06, "loss": 0.3082, "step": 6001 }, { "epoch": 2.0006666666666666, "grad_norm": 2.128626585006714, "learning_rate": 6.032080912261935e-06, "loss": 0.3481, "step": 6002 }, { "epoch": 2.001, "grad_norm": 2.0981175899505615, "learning_rate": 6.028521093652195e-06, "loss": 0.3405, "step": 6003 }, { "epoch": 2.001333333333333, "grad_norm": 2.2308778762817383, "learning_rate": 6.024961872465488e-06, "loss": 0.3631, "step": 6004 }, { "epoch": 2.0016666666666665, "grad_norm": 2.5678203105926514, "learning_rate": 6.021403249237224e-06, "loss": 0.3662, "step": 6005 }, { "epoch": 2.002, "grad_norm": 2.4903883934020996, "learning_rate": 6.0178452245027165e-06, "loss": 0.3602, "step": 6006 }, { "epoch": 2.0023333333333335, "grad_norm": 2.1321327686309814, "learning_rate": 6.014287798797194e-06, "loss": 0.3004, "step": 6007 }, { "epoch": 2.002666666666667, "grad_norm": 2.450126886367798, "learning_rate": 6.010730972655798e-06, "loss": 0.3134, "step": 6008 }, { "epoch": 2.003, "grad_norm": 2.32597279548645, "learning_rate": 6.007174746613576e-06, "loss": 0.3124, "step": 6009 }, { "epoch": 2.0033333333333334, "grad_norm": 2.254140615463257, "learning_rate": 6.00361912120548e-06, "loss": 0.3153, "step": 6010 }, { "epoch": 2.0036666666666667, "grad_norm": 2.040235757827759, "learning_rate": 6.000064096966378e-06, "loss": 0.3194, "step": 6011 }, { "epoch": 2.004, "grad_norm": 2.065810203552246, "learning_rate": 5.996509674431053e-06, "loss": 0.3573, "step": 6012 }, { "epoch": 2.0043333333333333, "grad_norm": 2.146749496459961, "learning_rate": 5.992955854134184e-06, "loss": 0.2908, "step": 6013 }, { "epoch": 2.0046666666666666, "grad_norm": 2.232659339904785, "learning_rate": 5.9894026366103665e-06, "loss": 0.3353, "step": 6014 }, { "epoch": 2.005, "grad_norm": 3.1567883491516113, "learning_rate": 5.9858500223941066e-06, "loss": 0.3573, "step": 6015 }, { "epoch": 2.005333333333333, "grad_norm": 2.5326383113861084, "learning_rate": 5.982298012019823e-06, "loss": 0.359, "step": 6016 }, { "epoch": 2.0056666666666665, "grad_norm": 2.9069182872772217, "learning_rate": 5.978746606021832e-06, "loss": 0.35, "step": 6017 }, { "epoch": 2.006, "grad_norm": 2.782893657684326, "learning_rate": 5.975195804934369e-06, "loss": 0.3431, "step": 6018 }, { "epoch": 2.0063333333333335, "grad_norm": 2.9325196743011475, "learning_rate": 5.971645609291576e-06, "loss": 0.3307, "step": 6019 }, { "epoch": 2.006666666666667, "grad_norm": 2.009209632873535, "learning_rate": 5.9680960196274995e-06, "loss": 0.3123, "step": 6020 }, { "epoch": 2.007, "grad_norm": 2.621558666229248, "learning_rate": 5.9645470364761e-06, "loss": 0.3196, "step": 6021 }, { "epoch": 2.0073333333333334, "grad_norm": 2.4929628372192383, "learning_rate": 5.960998660371247e-06, "loss": 0.365, "step": 6022 }, { "epoch": 2.0076666666666667, "grad_norm": 2.6164944171905518, "learning_rate": 5.957450891846717e-06, "loss": 0.3312, "step": 6023 }, { "epoch": 2.008, "grad_norm": 2.6786680221557617, "learning_rate": 5.953903731436191e-06, "loss": 0.339, "step": 6024 }, { "epoch": 2.0083333333333333, "grad_norm": 2.7226386070251465, "learning_rate": 5.950357179673264e-06, "loss": 0.357, "step": 6025 }, { "epoch": 2.0086666666666666, "grad_norm": 2.563469409942627, "learning_rate": 5.9468112370914435e-06, "loss": 0.3304, "step": 6026 }, { "epoch": 2.009, "grad_norm": 4.447580814361572, "learning_rate": 5.943265904224133e-06, "loss": 0.3727, "step": 6027 }, { "epoch": 2.009333333333333, "grad_norm": 2.3838109970092773, "learning_rate": 5.939721181604652e-06, "loss": 0.3596, "step": 6028 }, { "epoch": 2.0096666666666665, "grad_norm": 3.261134147644043, "learning_rate": 5.936177069766227e-06, "loss": 0.3233, "step": 6029 }, { "epoch": 2.01, "grad_norm": 2.826007604598999, "learning_rate": 5.932633569242e-06, "loss": 0.3502, "step": 6030 }, { "epoch": 2.0103333333333335, "grad_norm": 2.8273608684539795, "learning_rate": 5.929090680565004e-06, "loss": 0.3186, "step": 6031 }, { "epoch": 2.010666666666667, "grad_norm": 3.4125325679779053, "learning_rate": 5.925548404268196e-06, "loss": 0.3346, "step": 6032 }, { "epoch": 2.011, "grad_norm": 2.2861411571502686, "learning_rate": 5.922006740884436e-06, "loss": 0.2952, "step": 6033 }, { "epoch": 2.0113333333333334, "grad_norm": 2.4974043369293213, "learning_rate": 5.918465690946485e-06, "loss": 0.3167, "step": 6034 }, { "epoch": 2.0116666666666667, "grad_norm": 2.6506288051605225, "learning_rate": 5.914925254987018e-06, "loss": 0.3441, "step": 6035 }, { "epoch": 2.012, "grad_norm": 3.2917091846466064, "learning_rate": 5.911385433538621e-06, "loss": 0.3424, "step": 6036 }, { "epoch": 2.0123333333333333, "grad_norm": 2.057335138320923, "learning_rate": 5.907846227133784e-06, "loss": 0.2865, "step": 6037 }, { "epoch": 2.0126666666666666, "grad_norm": 2.148505449295044, "learning_rate": 5.904307636304899e-06, "loss": 0.3378, "step": 6038 }, { "epoch": 2.013, "grad_norm": 2.2483792304992676, "learning_rate": 5.900769661584273e-06, "loss": 0.3006, "step": 6039 }, { "epoch": 2.013333333333333, "grad_norm": 2.474740982055664, "learning_rate": 5.89723230350412e-06, "loss": 0.3558, "step": 6040 }, { "epoch": 2.0136666666666665, "grad_norm": 2.4406161308288574, "learning_rate": 5.893695562596553e-06, "loss": 0.2945, "step": 6041 }, { "epoch": 2.014, "grad_norm": 2.1670875549316406, "learning_rate": 5.890159439393604e-06, "loss": 0.3199, "step": 6042 }, { "epoch": 2.0143333333333335, "grad_norm": 2.634962797164917, "learning_rate": 5.886623934427202e-06, "loss": 0.2926, "step": 6043 }, { "epoch": 2.014666666666667, "grad_norm": 2.5571203231811523, "learning_rate": 5.883089048229193e-06, "loss": 0.3261, "step": 6044 }, { "epoch": 2.015, "grad_norm": 2.2582294940948486, "learning_rate": 5.879554781331317e-06, "loss": 0.3586, "step": 6045 }, { "epoch": 2.0153333333333334, "grad_norm": 2.621598958969116, "learning_rate": 5.876021134265233e-06, "loss": 0.2792, "step": 6046 }, { "epoch": 2.0156666666666667, "grad_norm": 3.6122004985809326, "learning_rate": 5.872488107562502e-06, "loss": 0.3187, "step": 6047 }, { "epoch": 2.016, "grad_norm": 2.5740182399749756, "learning_rate": 5.868955701754584e-06, "loss": 0.3521, "step": 6048 }, { "epoch": 2.0163333333333333, "grad_norm": 2.510537624359131, "learning_rate": 5.865423917372859e-06, "loss": 0.3305, "step": 6049 }, { "epoch": 2.0166666666666666, "grad_norm": 2.5031583309173584, "learning_rate": 5.8618927549486095e-06, "loss": 0.3178, "step": 6050 }, { "epoch": 2.017, "grad_norm": 2.0058562755584717, "learning_rate": 5.858362215013018e-06, "loss": 0.2916, "step": 6051 }, { "epoch": 2.017333333333333, "grad_norm": 4.246352672576904, "learning_rate": 5.854832298097182e-06, "loss": 0.3285, "step": 6052 }, { "epoch": 2.0176666666666665, "grad_norm": 3.6149561405181885, "learning_rate": 5.851303004732095e-06, "loss": 0.3616, "step": 6053 }, { "epoch": 2.018, "grad_norm": 2.958402633666992, "learning_rate": 5.847774335448671e-06, "loss": 0.3437, "step": 6054 }, { "epoch": 2.0183333333333335, "grad_norm": 2.3972725868225098, "learning_rate": 5.844246290777713e-06, "loss": 0.2891, "step": 6055 }, { "epoch": 2.018666666666667, "grad_norm": 2.284438133239746, "learning_rate": 5.840718871249945e-06, "loss": 0.3314, "step": 6056 }, { "epoch": 2.019, "grad_norm": 3.445800542831421, "learning_rate": 5.83719207739599e-06, "loss": 0.3216, "step": 6057 }, { "epoch": 2.0193333333333334, "grad_norm": 7.027379989624023, "learning_rate": 5.8336659097463746e-06, "loss": 0.3336, "step": 6058 }, { "epoch": 2.0196666666666667, "grad_norm": 2.3160400390625, "learning_rate": 5.830140368831541e-06, "loss": 0.3256, "step": 6059 }, { "epoch": 2.02, "grad_norm": 2.57999324798584, "learning_rate": 5.8266154551818225e-06, "loss": 0.3373, "step": 6060 }, { "epoch": 2.0203333333333333, "grad_norm": 3.021900177001953, "learning_rate": 5.823091169327473e-06, "loss": 0.3104, "step": 6061 }, { "epoch": 2.0206666666666666, "grad_norm": 2.2501189708709717, "learning_rate": 5.819567511798638e-06, "loss": 0.3349, "step": 6062 }, { "epoch": 2.021, "grad_norm": 3.7525484561920166, "learning_rate": 5.816044483125381e-06, "loss": 0.3266, "step": 6063 }, { "epoch": 2.021333333333333, "grad_norm": 3.0531656742095947, "learning_rate": 5.812522083837662e-06, "loss": 0.3319, "step": 6064 }, { "epoch": 2.0216666666666665, "grad_norm": 2.390275239944458, "learning_rate": 5.809000314465356e-06, "loss": 0.3512, "step": 6065 }, { "epoch": 2.022, "grad_norm": 2.885456085205078, "learning_rate": 5.8054791755382286e-06, "loss": 0.325, "step": 6066 }, { "epoch": 2.0223333333333335, "grad_norm": 2.8243706226348877, "learning_rate": 5.801958667585967e-06, "loss": 0.3539, "step": 6067 }, { "epoch": 2.022666666666667, "grad_norm": 3.527907609939575, "learning_rate": 5.79843879113815e-06, "loss": 0.3455, "step": 6068 }, { "epoch": 2.023, "grad_norm": 2.8548030853271484, "learning_rate": 5.7949195467242654e-06, "loss": 0.3279, "step": 6069 }, { "epoch": 2.0233333333333334, "grad_norm": 2.478156566619873, "learning_rate": 5.79140093487371e-06, "loss": 0.3214, "step": 6070 }, { "epoch": 2.0236666666666667, "grad_norm": 2.2862958908081055, "learning_rate": 5.787882956115782e-06, "loss": 0.3241, "step": 6071 }, { "epoch": 2.024, "grad_norm": 2.500647783279419, "learning_rate": 5.784365610979692e-06, "loss": 0.3166, "step": 6072 }, { "epoch": 2.0243333333333333, "grad_norm": 2.798034191131592, "learning_rate": 5.7808488999945355e-06, "loss": 0.3306, "step": 6073 }, { "epoch": 2.0246666666666666, "grad_norm": 2.6084976196289062, "learning_rate": 5.777332823689335e-06, "loss": 0.3027, "step": 6074 }, { "epoch": 2.025, "grad_norm": 2.7252748012542725, "learning_rate": 5.773817382593008e-06, "loss": 0.3589, "step": 6075 }, { "epoch": 2.025333333333333, "grad_norm": 2.816976308822632, "learning_rate": 5.77030257723437e-06, "loss": 0.3181, "step": 6076 }, { "epoch": 2.0256666666666665, "grad_norm": 2.59092116355896, "learning_rate": 5.766788408142154e-06, "loss": 0.3275, "step": 6077 }, { "epoch": 2.026, "grad_norm": 2.8538198471069336, "learning_rate": 5.7632748758449865e-06, "loss": 0.3007, "step": 6078 }, { "epoch": 2.0263333333333335, "grad_norm": 2.597588300704956, "learning_rate": 5.759761980871408e-06, "loss": 0.3073, "step": 6079 }, { "epoch": 2.026666666666667, "grad_norm": 2.595020055770874, "learning_rate": 5.756249723749847e-06, "loss": 0.325, "step": 6080 }, { "epoch": 2.027, "grad_norm": 2.4097518920898438, "learning_rate": 5.7527381050086555e-06, "loss": 0.3323, "step": 6081 }, { "epoch": 2.0273333333333334, "grad_norm": 3.732606887817383, "learning_rate": 5.74922712517608e-06, "loss": 0.3289, "step": 6082 }, { "epoch": 2.0276666666666667, "grad_norm": 2.7880923748016357, "learning_rate": 5.745716784780266e-06, "loss": 0.3417, "step": 6083 }, { "epoch": 2.028, "grad_norm": 3.785658836364746, "learning_rate": 5.742207084349274e-06, "loss": 0.3234, "step": 6084 }, { "epoch": 2.0283333333333333, "grad_norm": 2.552564859390259, "learning_rate": 5.738698024411058e-06, "loss": 0.3106, "step": 6085 }, { "epoch": 2.0286666666666666, "grad_norm": 3.0271782875061035, "learning_rate": 5.735189605493485e-06, "loss": 0.3036, "step": 6086 }, { "epoch": 2.029, "grad_norm": 2.1585464477539062, "learning_rate": 5.73168182812432e-06, "loss": 0.3529, "step": 6087 }, { "epoch": 2.029333333333333, "grad_norm": 2.451132297515869, "learning_rate": 5.728174692831225e-06, "loss": 0.3236, "step": 6088 }, { "epoch": 2.0296666666666665, "grad_norm": 2.568779230117798, "learning_rate": 5.7246682001417834e-06, "loss": 0.308, "step": 6089 }, { "epoch": 2.03, "grad_norm": 2.302239418029785, "learning_rate": 5.72116235058346e-06, "loss": 0.3188, "step": 6090 }, { "epoch": 2.0303333333333335, "grad_norm": 3.2420897483825684, "learning_rate": 5.717657144683639e-06, "loss": 0.3252, "step": 6091 }, { "epoch": 2.030666666666667, "grad_norm": 2.649864912033081, "learning_rate": 5.714152582969603e-06, "loss": 0.3356, "step": 6092 }, { "epoch": 2.031, "grad_norm": 2.9431254863739014, "learning_rate": 5.710648665968543e-06, "loss": 0.323, "step": 6093 }, { "epoch": 2.0313333333333334, "grad_norm": 2.4522502422332764, "learning_rate": 5.707145394207536e-06, "loss": 0.2813, "step": 6094 }, { "epoch": 2.0316666666666667, "grad_norm": 2.7831146717071533, "learning_rate": 5.703642768213582e-06, "loss": 0.2996, "step": 6095 }, { "epoch": 2.032, "grad_norm": 2.2545511722564697, "learning_rate": 5.700140788513575e-06, "loss": 0.3088, "step": 6096 }, { "epoch": 2.0323333333333333, "grad_norm": 3.2877602577209473, "learning_rate": 5.696639455634309e-06, "loss": 0.2912, "step": 6097 }, { "epoch": 2.0326666666666666, "grad_norm": 3.4716713428497314, "learning_rate": 5.693138770102482e-06, "loss": 0.3096, "step": 6098 }, { "epoch": 2.033, "grad_norm": 2.6216604709625244, "learning_rate": 5.689638732444699e-06, "loss": 0.3165, "step": 6099 }, { "epoch": 2.033333333333333, "grad_norm": 3.015882968902588, "learning_rate": 5.686139343187468e-06, "loss": 0.2971, "step": 6100 }, { "epoch": 2.0336666666666665, "grad_norm": 2.512134313583374, "learning_rate": 5.68264060285719e-06, "loss": 0.3068, "step": 6101 }, { "epoch": 2.034, "grad_norm": 2.555518627166748, "learning_rate": 5.679142511980176e-06, "loss": 0.3609, "step": 6102 }, { "epoch": 2.0343333333333335, "grad_norm": 3.1716244220733643, "learning_rate": 5.675645071082645e-06, "loss": 0.3184, "step": 6103 }, { "epoch": 2.034666666666667, "grad_norm": 2.117358684539795, "learning_rate": 5.672148280690704e-06, "loss": 0.3204, "step": 6104 }, { "epoch": 2.035, "grad_norm": 2.90661883354187, "learning_rate": 5.668652141330373e-06, "loss": 0.3013, "step": 6105 }, { "epoch": 2.0353333333333334, "grad_norm": 2.6680469512939453, "learning_rate": 5.665156653527566e-06, "loss": 0.3323, "step": 6106 }, { "epoch": 2.0356666666666667, "grad_norm": 2.551981210708618, "learning_rate": 5.66166181780811e-06, "loss": 0.3309, "step": 6107 }, { "epoch": 2.036, "grad_norm": 2.2630560398101807, "learning_rate": 5.65816763469772e-06, "loss": 0.3409, "step": 6108 }, { "epoch": 2.0363333333333333, "grad_norm": 2.4976844787597656, "learning_rate": 5.654674104722025e-06, "loss": 0.3416, "step": 6109 }, { "epoch": 2.0366666666666666, "grad_norm": 3.3602728843688965, "learning_rate": 5.651181228406554e-06, "loss": 0.3152, "step": 6110 }, { "epoch": 2.037, "grad_norm": 2.2757818698883057, "learning_rate": 5.647689006276727e-06, "loss": 0.3448, "step": 6111 }, { "epoch": 2.037333333333333, "grad_norm": 2.5396766662597656, "learning_rate": 5.644197438857876e-06, "loss": 0.3218, "step": 6112 }, { "epoch": 2.0376666666666665, "grad_norm": 2.14754581451416, "learning_rate": 5.640706526675233e-06, "loss": 0.3324, "step": 6113 }, { "epoch": 2.038, "grad_norm": 2.41329026222229, "learning_rate": 5.637216270253934e-06, "loss": 0.3223, "step": 6114 }, { "epoch": 2.038333333333333, "grad_norm": 3.107128381729126, "learning_rate": 5.6337266701190085e-06, "loss": 0.3049, "step": 6115 }, { "epoch": 2.038666666666667, "grad_norm": 2.3924670219421387, "learning_rate": 5.630237726795388e-06, "loss": 0.3016, "step": 6116 }, { "epoch": 2.039, "grad_norm": 2.6602976322174072, "learning_rate": 5.626749440807915e-06, "loss": 0.3152, "step": 6117 }, { "epoch": 2.0393333333333334, "grad_norm": 2.4897022247314453, "learning_rate": 5.6232618126813186e-06, "loss": 0.3066, "step": 6118 }, { "epoch": 2.0396666666666667, "grad_norm": 2.8147408962249756, "learning_rate": 5.619774842940242e-06, "loss": 0.321, "step": 6119 }, { "epoch": 2.04, "grad_norm": 2.453002452850342, "learning_rate": 5.616288532109225e-06, "loss": 0.3143, "step": 6120 }, { "epoch": 2.0403333333333333, "grad_norm": 2.6327831745147705, "learning_rate": 5.6128028807127115e-06, "loss": 0.2863, "step": 6121 }, { "epoch": 2.0406666666666666, "grad_norm": 3.3700568675994873, "learning_rate": 5.609317889275031e-06, "loss": 0.3407, "step": 6122 }, { "epoch": 2.041, "grad_norm": 2.153897762298584, "learning_rate": 5.605833558320432e-06, "loss": 0.3034, "step": 6123 }, { "epoch": 2.041333333333333, "grad_norm": 2.481820821762085, "learning_rate": 5.602349888373061e-06, "loss": 0.3171, "step": 6124 }, { "epoch": 2.0416666666666665, "grad_norm": 3.5033156871795654, "learning_rate": 5.598866879956955e-06, "loss": 0.3122, "step": 6125 }, { "epoch": 2.042, "grad_norm": 2.446000337600708, "learning_rate": 5.595384533596054e-06, "loss": 0.3238, "step": 6126 }, { "epoch": 2.0423333333333336, "grad_norm": 2.5074031352996826, "learning_rate": 5.591902849814207e-06, "loss": 0.319, "step": 6127 }, { "epoch": 2.042666666666667, "grad_norm": 2.152041435241699, "learning_rate": 5.58842182913516e-06, "loss": 0.3207, "step": 6128 }, { "epoch": 2.043, "grad_norm": 2.89815092086792, "learning_rate": 5.584941472082549e-06, "loss": 0.3272, "step": 6129 }, { "epoch": 2.0433333333333334, "grad_norm": 3.0084445476531982, "learning_rate": 5.581461779179924e-06, "loss": 0.295, "step": 6130 }, { "epoch": 2.0436666666666667, "grad_norm": 2.402047872543335, "learning_rate": 5.577982750950732e-06, "loss": 0.3042, "step": 6131 }, { "epoch": 2.044, "grad_norm": 1.9831451177597046, "learning_rate": 5.574504387918311e-06, "loss": 0.3195, "step": 6132 }, { "epoch": 2.0443333333333333, "grad_norm": 2.620384693145752, "learning_rate": 5.5710266906059095e-06, "loss": 0.3281, "step": 6133 }, { "epoch": 2.0446666666666666, "grad_norm": 2.1750409603118896, "learning_rate": 5.567549659536673e-06, "loss": 0.329, "step": 6134 }, { "epoch": 2.045, "grad_norm": 2.565276622772217, "learning_rate": 5.564073295233645e-06, "loss": 0.3584, "step": 6135 }, { "epoch": 2.0453333333333332, "grad_norm": 2.629345178604126, "learning_rate": 5.560597598219763e-06, "loss": 0.3416, "step": 6136 }, { "epoch": 2.0456666666666665, "grad_norm": 2.8064544200897217, "learning_rate": 5.5571225690178755e-06, "loss": 0.2998, "step": 6137 }, { "epoch": 2.046, "grad_norm": 2.3707797527313232, "learning_rate": 5.553648208150728e-06, "loss": 0.3396, "step": 6138 }, { "epoch": 2.046333333333333, "grad_norm": 2.6438393592834473, "learning_rate": 5.550174516140957e-06, "loss": 0.3315, "step": 6139 }, { "epoch": 2.046666666666667, "grad_norm": 2.3429114818573, "learning_rate": 5.5467014935111065e-06, "loss": 0.3059, "step": 6140 }, { "epoch": 2.047, "grad_norm": 2.434035539627075, "learning_rate": 5.543229140783619e-06, "loss": 0.33, "step": 6141 }, { "epoch": 2.0473333333333334, "grad_norm": 2.5735418796539307, "learning_rate": 5.539757458480838e-06, "loss": 0.3085, "step": 6142 }, { "epoch": 2.0476666666666667, "grad_norm": 2.2985358238220215, "learning_rate": 5.5362864471249944e-06, "loss": 0.3188, "step": 6143 }, { "epoch": 2.048, "grad_norm": 2.7335574626922607, "learning_rate": 5.5328161072382355e-06, "loss": 0.2885, "step": 6144 }, { "epoch": 2.0483333333333333, "grad_norm": 2.6843416690826416, "learning_rate": 5.529346439342595e-06, "loss": 0.3374, "step": 6145 }, { "epoch": 2.0486666666666666, "grad_norm": 2.570805072784424, "learning_rate": 5.525877443960005e-06, "loss": 0.2972, "step": 6146 }, { "epoch": 2.049, "grad_norm": 2.1981990337371826, "learning_rate": 5.522409121612304e-06, "loss": 0.2944, "step": 6147 }, { "epoch": 2.0493333333333332, "grad_norm": 2.345489501953125, "learning_rate": 5.5189414728212276e-06, "loss": 0.3242, "step": 6148 }, { "epoch": 2.0496666666666665, "grad_norm": 2.2646913528442383, "learning_rate": 5.5154744981084105e-06, "loss": 0.2896, "step": 6149 }, { "epoch": 2.05, "grad_norm": 2.3068690299987793, "learning_rate": 5.512008197995379e-06, "loss": 0.3194, "step": 6150 }, { "epoch": 2.050333333333333, "grad_norm": 2.0241074562072754, "learning_rate": 5.5085425730035635e-06, "loss": 0.2967, "step": 6151 }, { "epoch": 2.050666666666667, "grad_norm": 2.5335581302642822, "learning_rate": 5.505077623654299e-06, "loss": 0.3433, "step": 6152 }, { "epoch": 2.051, "grad_norm": 3.0909156799316406, "learning_rate": 5.501613350468802e-06, "loss": 0.3253, "step": 6153 }, { "epoch": 2.0513333333333335, "grad_norm": 2.241699695587158, "learning_rate": 5.498149753968207e-06, "loss": 0.3188, "step": 6154 }, { "epoch": 2.0516666666666667, "grad_norm": 2.280463933944702, "learning_rate": 5.494686834673528e-06, "loss": 0.3074, "step": 6155 }, { "epoch": 2.052, "grad_norm": 2.146502733230591, "learning_rate": 5.491224593105695e-06, "loss": 0.3117, "step": 6156 }, { "epoch": 2.0523333333333333, "grad_norm": 2.5165038108825684, "learning_rate": 5.48776302978552e-06, "loss": 0.2972, "step": 6157 }, { "epoch": 2.0526666666666666, "grad_norm": 1.9152976274490356, "learning_rate": 5.484302145233722e-06, "loss": 0.3162, "step": 6158 }, { "epoch": 2.053, "grad_norm": 2.472301483154297, "learning_rate": 5.480841939970918e-06, "loss": 0.2854, "step": 6159 }, { "epoch": 2.0533333333333332, "grad_norm": 2.845468759536743, "learning_rate": 5.477382414517625e-06, "loss": 0.3377, "step": 6160 }, { "epoch": 2.0536666666666665, "grad_norm": 2.743675708770752, "learning_rate": 5.4739235693942435e-06, "loss": 0.3097, "step": 6161 }, { "epoch": 2.054, "grad_norm": 3.4722912311553955, "learning_rate": 5.470465405121093e-06, "loss": 0.2835, "step": 6162 }, { "epoch": 2.054333333333333, "grad_norm": 2.3001787662506104, "learning_rate": 5.4670079222183745e-06, "loss": 0.3406, "step": 6163 }, { "epoch": 2.054666666666667, "grad_norm": 2.8098785877227783, "learning_rate": 5.463551121206185e-06, "loss": 0.339, "step": 6164 }, { "epoch": 2.055, "grad_norm": 2.9299886226654053, "learning_rate": 5.460095002604533e-06, "loss": 0.3248, "step": 6165 }, { "epoch": 2.0553333333333335, "grad_norm": 2.8143749237060547, "learning_rate": 5.456639566933315e-06, "loss": 0.3621, "step": 6166 }, { "epoch": 2.0556666666666668, "grad_norm": 2.9754905700683594, "learning_rate": 5.45318481471233e-06, "loss": 0.3473, "step": 6167 }, { "epoch": 2.056, "grad_norm": 2.551044225692749, "learning_rate": 5.449730746461264e-06, "loss": 0.31, "step": 6168 }, { "epoch": 2.0563333333333333, "grad_norm": 2.3214120864868164, "learning_rate": 5.446277362699709e-06, "loss": 0.321, "step": 6169 }, { "epoch": 2.0566666666666666, "grad_norm": 2.5298879146575928, "learning_rate": 5.442824663947157e-06, "loss": 0.3356, "step": 6170 }, { "epoch": 2.057, "grad_norm": 2.7912819385528564, "learning_rate": 5.439372650722985e-06, "loss": 0.2874, "step": 6171 }, { "epoch": 2.0573333333333332, "grad_norm": 3.6469500064849854, "learning_rate": 5.4359213235464805e-06, "loss": 0.3604, "step": 6172 }, { "epoch": 2.0576666666666665, "grad_norm": 3.273893356323242, "learning_rate": 5.432470682936811e-06, "loss": 0.3464, "step": 6173 }, { "epoch": 2.058, "grad_norm": 3.340852737426758, "learning_rate": 5.429020729413062e-06, "loss": 0.3063, "step": 6174 }, { "epoch": 2.058333333333333, "grad_norm": 3.6824076175689697, "learning_rate": 5.4255714634941934e-06, "loss": 0.3442, "step": 6175 }, { "epoch": 2.058666666666667, "grad_norm": 2.61885142326355, "learning_rate": 5.422122885699079e-06, "loss": 0.305, "step": 6176 }, { "epoch": 2.059, "grad_norm": 2.7394213676452637, "learning_rate": 5.418674996546486e-06, "loss": 0.3298, "step": 6177 }, { "epoch": 2.0593333333333335, "grad_norm": 3.4821736812591553, "learning_rate": 5.415227796555066e-06, "loss": 0.2878, "step": 6178 }, { "epoch": 2.0596666666666668, "grad_norm": 3.524080991744995, "learning_rate": 5.41178128624338e-06, "loss": 0.3033, "step": 6179 }, { "epoch": 2.06, "grad_norm": 3.0011868476867676, "learning_rate": 5.4083354661298816e-06, "loss": 0.2869, "step": 6180 }, { "epoch": 2.0603333333333333, "grad_norm": 3.373601198196411, "learning_rate": 5.404890336732922e-06, "loss": 0.3872, "step": 6181 }, { "epoch": 2.0606666666666666, "grad_norm": 2.754730463027954, "learning_rate": 5.401445898570744e-06, "loss": 0.3122, "step": 6182 }, { "epoch": 2.061, "grad_norm": 2.9448819160461426, "learning_rate": 5.398002152161484e-06, "loss": 0.3544, "step": 6183 }, { "epoch": 2.0613333333333332, "grad_norm": 2.2486331462860107, "learning_rate": 5.394559098023189e-06, "loss": 0.3405, "step": 6184 }, { "epoch": 2.0616666666666665, "grad_norm": 2.287644863128662, "learning_rate": 5.3911167366737805e-06, "loss": 0.3041, "step": 6185 }, { "epoch": 2.062, "grad_norm": 2.7041282653808594, "learning_rate": 5.387675068631093e-06, "loss": 0.3275, "step": 6186 }, { "epoch": 2.062333333333333, "grad_norm": 3.834388256072998, "learning_rate": 5.384234094412853e-06, "loss": 0.3571, "step": 6187 }, { "epoch": 2.062666666666667, "grad_norm": 2.548356294631958, "learning_rate": 5.38079381453668e-06, "loss": 0.2955, "step": 6188 }, { "epoch": 2.063, "grad_norm": 2.545342206954956, "learning_rate": 5.377354229520086e-06, "loss": 0.3559, "step": 6189 }, { "epoch": 2.0633333333333335, "grad_norm": 2.103670835494995, "learning_rate": 5.373915339880484e-06, "loss": 0.28, "step": 6190 }, { "epoch": 2.0636666666666668, "grad_norm": 2.1799471378326416, "learning_rate": 5.370477146135184e-06, "loss": 0.2966, "step": 6191 }, { "epoch": 2.064, "grad_norm": 2.2084903717041016, "learning_rate": 5.367039648801386e-06, "loss": 0.3045, "step": 6192 }, { "epoch": 2.0643333333333334, "grad_norm": 3.0607824325561523, "learning_rate": 5.363602848396181e-06, "loss": 0.3272, "step": 6193 }, { "epoch": 2.0646666666666667, "grad_norm": 2.1967411041259766, "learning_rate": 5.360166745436566e-06, "loss": 0.3187, "step": 6194 }, { "epoch": 2.065, "grad_norm": 3.2152602672576904, "learning_rate": 5.356731340439432e-06, "loss": 0.3269, "step": 6195 }, { "epoch": 2.0653333333333332, "grad_norm": 2.1769416332244873, "learning_rate": 5.353296633921554e-06, "loss": 0.3068, "step": 6196 }, { "epoch": 2.0656666666666665, "grad_norm": 2.4070887565612793, "learning_rate": 5.349862626399613e-06, "loss": 0.3199, "step": 6197 }, { "epoch": 2.066, "grad_norm": 2.935253143310547, "learning_rate": 5.346429318390185e-06, "loss": 0.354, "step": 6198 }, { "epoch": 2.066333333333333, "grad_norm": 2.569606065750122, "learning_rate": 5.342996710409729e-06, "loss": 0.3592, "step": 6199 }, { "epoch": 2.066666666666667, "grad_norm": 2.176741361618042, "learning_rate": 5.339564802974615e-06, "loss": 0.3205, "step": 6200 }, { "epoch": 2.067, "grad_norm": 3.143571138381958, "learning_rate": 5.336133596601089e-06, "loss": 0.2965, "step": 6201 }, { "epoch": 2.0673333333333335, "grad_norm": 2.0994491577148438, "learning_rate": 5.332703091805312e-06, "loss": 0.2735, "step": 6202 }, { "epoch": 2.0676666666666668, "grad_norm": 2.4660696983337402, "learning_rate": 5.32927328910332e-06, "loss": 0.3736, "step": 6203 }, { "epoch": 2.068, "grad_norm": 2.303964376449585, "learning_rate": 5.325844189011058e-06, "loss": 0.3162, "step": 6204 }, { "epoch": 2.0683333333333334, "grad_norm": 2.13151478767395, "learning_rate": 5.322415792044362e-06, "loss": 0.3207, "step": 6205 }, { "epoch": 2.0686666666666667, "grad_norm": 2.151017665863037, "learning_rate": 5.318988098718953e-06, "loss": 0.3225, "step": 6206 }, { "epoch": 2.069, "grad_norm": 3.325901508331299, "learning_rate": 5.31556110955046e-06, "loss": 0.3252, "step": 6207 }, { "epoch": 2.0693333333333332, "grad_norm": 2.7646615505218506, "learning_rate": 5.312134825054394e-06, "loss": 0.3526, "step": 6208 }, { "epoch": 2.0696666666666665, "grad_norm": 2.990515947341919, "learning_rate": 5.308709245746173e-06, "loss": 0.3155, "step": 6209 }, { "epoch": 2.07, "grad_norm": 3.2323131561279297, "learning_rate": 5.305284372141095e-06, "loss": 0.335, "step": 6210 }, { "epoch": 2.070333333333333, "grad_norm": 2.607255697250366, "learning_rate": 5.301860204754357e-06, "loss": 0.3203, "step": 6211 }, { "epoch": 2.070666666666667, "grad_norm": 2.4757702350616455, "learning_rate": 5.298436744101056e-06, "loss": 0.331, "step": 6212 }, { "epoch": 2.071, "grad_norm": 2.5803215503692627, "learning_rate": 5.2950139906961716e-06, "loss": 0.3336, "step": 6213 }, { "epoch": 2.0713333333333335, "grad_norm": 2.314643621444702, "learning_rate": 5.291591945054585e-06, "loss": 0.2722, "step": 6214 }, { "epoch": 2.0716666666666668, "grad_norm": 3.2877047061920166, "learning_rate": 5.288170607691071e-06, "loss": 0.3248, "step": 6215 }, { "epoch": 2.072, "grad_norm": 2.6827054023742676, "learning_rate": 5.284749979120299e-06, "loss": 0.325, "step": 6216 }, { "epoch": 2.0723333333333334, "grad_norm": 2.212336301803589, "learning_rate": 5.281330059856819e-06, "loss": 0.2894, "step": 6217 }, { "epoch": 2.0726666666666667, "grad_norm": 2.564934253692627, "learning_rate": 5.27791085041509e-06, "loss": 0.3422, "step": 6218 }, { "epoch": 2.073, "grad_norm": 2.5209286212921143, "learning_rate": 5.274492351309462e-06, "loss": 0.329, "step": 6219 }, { "epoch": 2.0733333333333333, "grad_norm": 3.2892212867736816, "learning_rate": 5.271074563054167e-06, "loss": 0.3126, "step": 6220 }, { "epoch": 2.0736666666666665, "grad_norm": 2.449331283569336, "learning_rate": 5.267657486163338e-06, "loss": 0.3031, "step": 6221 }, { "epoch": 2.074, "grad_norm": 2.1999692916870117, "learning_rate": 5.2642411211510005e-06, "loss": 0.3076, "step": 6222 }, { "epoch": 2.074333333333333, "grad_norm": 3.5210654735565186, "learning_rate": 5.260825468531078e-06, "loss": 0.3242, "step": 6223 }, { "epoch": 2.074666666666667, "grad_norm": 2.482654333114624, "learning_rate": 5.257410528817374e-06, "loss": 0.3121, "step": 6224 }, { "epoch": 2.075, "grad_norm": 2.7237393856048584, "learning_rate": 5.253996302523596e-06, "loss": 0.3093, "step": 6225 }, { "epoch": 2.0753333333333335, "grad_norm": 2.9210352897644043, "learning_rate": 5.250582790163343e-06, "loss": 0.2879, "step": 6226 }, { "epoch": 2.0756666666666668, "grad_norm": 2.1622142791748047, "learning_rate": 5.247169992250098e-06, "loss": 0.3311, "step": 6227 }, { "epoch": 2.076, "grad_norm": 2.8024792671203613, "learning_rate": 5.243757909297247e-06, "loss": 0.3411, "step": 6228 }, { "epoch": 2.0763333333333334, "grad_norm": 2.368364095687866, "learning_rate": 5.240346541818065e-06, "loss": 0.3283, "step": 6229 }, { "epoch": 2.0766666666666667, "grad_norm": 2.953193187713623, "learning_rate": 5.236935890325717e-06, "loss": 0.3194, "step": 6230 }, { "epoch": 2.077, "grad_norm": 1.9007736444473267, "learning_rate": 5.233525955333258e-06, "loss": 0.3199, "step": 6231 }, { "epoch": 2.0773333333333333, "grad_norm": 2.103919267654419, "learning_rate": 5.230116737353641e-06, "loss": 0.3133, "step": 6232 }, { "epoch": 2.0776666666666666, "grad_norm": 3.0197134017944336, "learning_rate": 5.226708236899713e-06, "loss": 0.3054, "step": 6233 }, { "epoch": 2.078, "grad_norm": 2.670353412628174, "learning_rate": 5.223300454484204e-06, "loss": 0.3471, "step": 6234 }, { "epoch": 2.078333333333333, "grad_norm": 3.191392183303833, "learning_rate": 5.2198933906197415e-06, "loss": 0.3152, "step": 6235 }, { "epoch": 2.078666666666667, "grad_norm": 2.4235382080078125, "learning_rate": 5.216487045818846e-06, "loss": 0.2887, "step": 6236 }, { "epoch": 2.079, "grad_norm": 2.5153355598449707, "learning_rate": 5.213081420593933e-06, "loss": 0.3122, "step": 6237 }, { "epoch": 2.0793333333333335, "grad_norm": 2.8520445823669434, "learning_rate": 5.209676515457296e-06, "loss": 0.3351, "step": 6238 }, { "epoch": 2.0796666666666668, "grad_norm": 2.05683970451355, "learning_rate": 5.206272330921138e-06, "loss": 0.2997, "step": 6239 }, { "epoch": 2.08, "grad_norm": 2.8200230598449707, "learning_rate": 5.202868867497542e-06, "loss": 0.3294, "step": 6240 }, { "epoch": 2.0803333333333334, "grad_norm": 2.118157148361206, "learning_rate": 5.199466125698479e-06, "loss": 0.3282, "step": 6241 }, { "epoch": 2.0806666666666667, "grad_norm": 3.588630199432373, "learning_rate": 5.196064106035823e-06, "loss": 0.3619, "step": 6242 }, { "epoch": 2.081, "grad_norm": 2.8380064964294434, "learning_rate": 5.192662809021334e-06, "loss": 0.3186, "step": 6243 }, { "epoch": 2.0813333333333333, "grad_norm": 3.034698009490967, "learning_rate": 5.189262235166668e-06, "loss": 0.311, "step": 6244 }, { "epoch": 2.0816666666666666, "grad_norm": 3.179243326187134, "learning_rate": 5.18586238498336e-06, "loss": 0.3739, "step": 6245 }, { "epoch": 2.082, "grad_norm": 3.0352232456207275, "learning_rate": 5.1824632589828465e-06, "loss": 0.3212, "step": 6246 }, { "epoch": 2.082333333333333, "grad_norm": 2.8880679607391357, "learning_rate": 5.179064857676457e-06, "loss": 0.3423, "step": 6247 }, { "epoch": 2.0826666666666664, "grad_norm": 2.5146987438201904, "learning_rate": 5.175667181575399e-06, "loss": 0.3301, "step": 6248 }, { "epoch": 2.083, "grad_norm": 2.8032002449035645, "learning_rate": 5.172270231190789e-06, "loss": 0.3278, "step": 6249 }, { "epoch": 2.0833333333333335, "grad_norm": 2.788817882537842, "learning_rate": 5.168874007033615e-06, "loss": 0.3411, "step": 6250 }, { "epoch": 2.083666666666667, "grad_norm": 4.151683330535889, "learning_rate": 5.165478509614774e-06, "loss": 0.3373, "step": 6251 }, { "epoch": 2.084, "grad_norm": 2.709195137023926, "learning_rate": 5.162083739445038e-06, "loss": 0.3368, "step": 6252 }, { "epoch": 2.0843333333333334, "grad_norm": 3.1015360355377197, "learning_rate": 5.1586896970350795e-06, "loss": 0.3283, "step": 6253 }, { "epoch": 2.0846666666666667, "grad_norm": 3.001744031906128, "learning_rate": 5.155296382895463e-06, "loss": 0.3218, "step": 6254 }, { "epoch": 2.085, "grad_norm": 2.6440987586975098, "learning_rate": 5.151903797536631e-06, "loss": 0.3195, "step": 6255 }, { "epoch": 2.0853333333333333, "grad_norm": 3.3993494510650635, "learning_rate": 5.1485119414689275e-06, "loss": 0.3157, "step": 6256 }, { "epoch": 2.0856666666666666, "grad_norm": 2.4680490493774414, "learning_rate": 5.14512081520259e-06, "loss": 0.2839, "step": 6257 }, { "epoch": 2.086, "grad_norm": 2.3781275749206543, "learning_rate": 5.141730419247735e-06, "loss": 0.2832, "step": 6258 }, { "epoch": 2.086333333333333, "grad_norm": 2.234412431716919, "learning_rate": 5.1383407541143704e-06, "loss": 0.3007, "step": 6259 }, { "epoch": 2.086666666666667, "grad_norm": 2.614278793334961, "learning_rate": 5.134951820312402e-06, "loss": 0.3193, "step": 6260 }, { "epoch": 2.087, "grad_norm": 2.6304104328155518, "learning_rate": 5.131563618351624e-06, "loss": 0.3059, "step": 6261 }, { "epoch": 2.0873333333333335, "grad_norm": 2.5398552417755127, "learning_rate": 5.128176148741713e-06, "loss": 0.3286, "step": 6262 }, { "epoch": 2.087666666666667, "grad_norm": 2.9977335929870605, "learning_rate": 5.124789411992242e-06, "loss": 0.3566, "step": 6263 }, { "epoch": 2.088, "grad_norm": 2.0559234619140625, "learning_rate": 5.121403408612672e-06, "loss": 0.316, "step": 6264 }, { "epoch": 2.0883333333333334, "grad_norm": 2.3756625652313232, "learning_rate": 5.1180181391123596e-06, "loss": 0.293, "step": 6265 }, { "epoch": 2.0886666666666667, "grad_norm": 1.9948419332504272, "learning_rate": 5.1146336040005375e-06, "loss": 0.3229, "step": 6266 }, { "epoch": 2.089, "grad_norm": 2.569420099258423, "learning_rate": 5.111249803786342e-06, "loss": 0.2994, "step": 6267 }, { "epoch": 2.0893333333333333, "grad_norm": 2.3437325954437256, "learning_rate": 5.10786673897879e-06, "loss": 0.3315, "step": 6268 }, { "epoch": 2.0896666666666666, "grad_norm": 1.9536700248718262, "learning_rate": 5.104484410086785e-06, "loss": 0.3312, "step": 6269 }, { "epoch": 2.09, "grad_norm": 2.841278553009033, "learning_rate": 5.101102817619132e-06, "loss": 0.3204, "step": 6270 }, { "epoch": 2.090333333333333, "grad_norm": 2.1327764987945557, "learning_rate": 5.097721962084515e-06, "loss": 0.3127, "step": 6271 }, { "epoch": 2.0906666666666665, "grad_norm": 2.0786893367767334, "learning_rate": 5.094341843991515e-06, "loss": 0.2715, "step": 6272 }, { "epoch": 2.091, "grad_norm": 2.1749775409698486, "learning_rate": 5.090962463848592e-06, "loss": 0.3054, "step": 6273 }, { "epoch": 2.0913333333333335, "grad_norm": 4.003320217132568, "learning_rate": 5.0875838221641035e-06, "loss": 0.3189, "step": 6274 }, { "epoch": 2.091666666666667, "grad_norm": 2.022723913192749, "learning_rate": 5.084205919446295e-06, "loss": 0.3404, "step": 6275 }, { "epoch": 2.092, "grad_norm": 2.413268566131592, "learning_rate": 5.080828756203294e-06, "loss": 0.3479, "step": 6276 }, { "epoch": 2.0923333333333334, "grad_norm": 2.9589133262634277, "learning_rate": 5.077452332943127e-06, "loss": 0.3477, "step": 6277 }, { "epoch": 2.0926666666666667, "grad_norm": 2.7169978618621826, "learning_rate": 5.0740766501736986e-06, "loss": 0.292, "step": 6278 }, { "epoch": 2.093, "grad_norm": 2.3114676475524902, "learning_rate": 5.070701708402812e-06, "loss": 0.3079, "step": 6279 }, { "epoch": 2.0933333333333333, "grad_norm": 2.286555051803589, "learning_rate": 5.067327508138148e-06, "loss": 0.3173, "step": 6280 }, { "epoch": 2.0936666666666666, "grad_norm": 2.2941179275512695, "learning_rate": 5.0639540498872854e-06, "loss": 0.2898, "step": 6281 }, { "epoch": 2.094, "grad_norm": 3.792891025543213, "learning_rate": 5.060581334157693e-06, "loss": 0.3307, "step": 6282 }, { "epoch": 2.094333333333333, "grad_norm": 2.5574796199798584, "learning_rate": 5.057209361456714e-06, "loss": 0.3443, "step": 6283 }, { "epoch": 2.0946666666666665, "grad_norm": 3.53375506401062, "learning_rate": 5.0538381322915916e-06, "loss": 0.3461, "step": 6284 }, { "epoch": 2.095, "grad_norm": 2.335524797439575, "learning_rate": 5.05046764716946e-06, "loss": 0.3416, "step": 6285 }, { "epoch": 2.0953333333333335, "grad_norm": 2.1341631412506104, "learning_rate": 5.047097906597327e-06, "loss": 0.3174, "step": 6286 }, { "epoch": 2.095666666666667, "grad_norm": 2.2133727073669434, "learning_rate": 5.043728911082106e-06, "loss": 0.3153, "step": 6287 }, { "epoch": 2.096, "grad_norm": 3.4925882816314697, "learning_rate": 5.04036066113058e-06, "loss": 0.2881, "step": 6288 }, { "epoch": 2.0963333333333334, "grad_norm": 3.2005693912506104, "learning_rate": 5.036993157249439e-06, "loss": 0.3657, "step": 6289 }, { "epoch": 2.0966666666666667, "grad_norm": 2.971694231033325, "learning_rate": 5.033626399945241e-06, "loss": 0.3226, "step": 6290 }, { "epoch": 2.097, "grad_norm": 2.527589797973633, "learning_rate": 5.030260389724447e-06, "loss": 0.2843, "step": 6291 }, { "epoch": 2.0973333333333333, "grad_norm": 2.749095916748047, "learning_rate": 5.0268951270934005e-06, "loss": 0.2903, "step": 6292 }, { "epoch": 2.0976666666666666, "grad_norm": 2.7922682762145996, "learning_rate": 5.023530612558336e-06, "loss": 0.3221, "step": 6293 }, { "epoch": 2.098, "grad_norm": 2.126664161682129, "learning_rate": 5.020166846625365e-06, "loss": 0.3228, "step": 6294 }, { "epoch": 2.098333333333333, "grad_norm": 2.305917978286743, "learning_rate": 5.016803829800498e-06, "loss": 0.2924, "step": 6295 }, { "epoch": 2.0986666666666665, "grad_norm": 2.6359219551086426, "learning_rate": 5.013441562589625e-06, "loss": 0.3014, "step": 6296 }, { "epoch": 2.099, "grad_norm": 2.0113234519958496, "learning_rate": 5.01008004549853e-06, "loss": 0.3105, "step": 6297 }, { "epoch": 2.0993333333333335, "grad_norm": 1.896327018737793, "learning_rate": 5.006719279032874e-06, "loss": 0.3003, "step": 6298 }, { "epoch": 2.099666666666667, "grad_norm": 2.160270929336548, "learning_rate": 5.003359263698217e-06, "loss": 0.2877, "step": 6299 }, { "epoch": 2.1, "grad_norm": 2.026189088821411, "learning_rate": 5.000000000000003e-06, "loss": 0.3209, "step": 6300 }, { "epoch": 2.1003333333333334, "grad_norm": 2.2345926761627197, "learning_rate": 4.9966414884435525e-06, "loss": 0.3162, "step": 6301 }, { "epoch": 2.1006666666666667, "grad_norm": 2.1201624870300293, "learning_rate": 4.9932837295340855e-06, "loss": 0.2879, "step": 6302 }, { "epoch": 2.101, "grad_norm": 2.6921138763427734, "learning_rate": 4.989926723776707e-06, "loss": 0.339, "step": 6303 }, { "epoch": 2.1013333333333333, "grad_norm": 2.304050922393799, "learning_rate": 4.986570471676398e-06, "loss": 0.3, "step": 6304 }, { "epoch": 2.1016666666666666, "grad_norm": 2.643129825592041, "learning_rate": 4.983214973738044e-06, "loss": 0.3278, "step": 6305 }, { "epoch": 2.102, "grad_norm": 2.9113776683807373, "learning_rate": 4.979860230466398e-06, "loss": 0.3247, "step": 6306 }, { "epoch": 2.102333333333333, "grad_norm": 2.3314480781555176, "learning_rate": 4.976506242366116e-06, "loss": 0.3169, "step": 6307 }, { "epoch": 2.1026666666666665, "grad_norm": 2.5487260818481445, "learning_rate": 4.973153009941725e-06, "loss": 0.3351, "step": 6308 }, { "epoch": 2.103, "grad_norm": 2.604585647583008, "learning_rate": 4.96980053369765e-06, "loss": 0.2872, "step": 6309 }, { "epoch": 2.1033333333333335, "grad_norm": 2.6548476219177246, "learning_rate": 4.9664488141382026e-06, "loss": 0.3216, "step": 6310 }, { "epoch": 2.103666666666667, "grad_norm": 2.986034870147705, "learning_rate": 4.96309785176757e-06, "loss": 0.3214, "step": 6311 }, { "epoch": 2.104, "grad_norm": 2.422689437866211, "learning_rate": 4.959747647089833e-06, "loss": 0.3235, "step": 6312 }, { "epoch": 2.1043333333333334, "grad_norm": 2.3332948684692383, "learning_rate": 4.95639820060896e-06, "loss": 0.2947, "step": 6313 }, { "epoch": 2.1046666666666667, "grad_norm": 2.4683632850646973, "learning_rate": 4.953049512828805e-06, "loss": 0.2718, "step": 6314 }, { "epoch": 2.105, "grad_norm": 2.3680028915405273, "learning_rate": 4.949701584253103e-06, "loss": 0.328, "step": 6315 }, { "epoch": 2.1053333333333333, "grad_norm": 2.364886999130249, "learning_rate": 4.946354415385473e-06, "loss": 0.3383, "step": 6316 }, { "epoch": 2.1056666666666666, "grad_norm": 2.739124059677124, "learning_rate": 4.9430080067294304e-06, "loss": 0.3069, "step": 6317 }, { "epoch": 2.106, "grad_norm": 2.94464111328125, "learning_rate": 4.939662358788364e-06, "loss": 0.2919, "step": 6318 }, { "epoch": 2.106333333333333, "grad_norm": 3.362185478210449, "learning_rate": 4.936317472065558e-06, "loss": 0.3528, "step": 6319 }, { "epoch": 2.1066666666666665, "grad_norm": 2.570154905319214, "learning_rate": 4.932973347064177e-06, "loss": 0.3183, "step": 6320 }, { "epoch": 2.107, "grad_norm": 2.7527458667755127, "learning_rate": 4.929629984287278e-06, "loss": 0.3231, "step": 6321 }, { "epoch": 2.1073333333333335, "grad_norm": 2.1947598457336426, "learning_rate": 4.9262873842377864e-06, "loss": 0.3434, "step": 6322 }, { "epoch": 2.107666666666667, "grad_norm": 2.163933038711548, "learning_rate": 4.922945547418532e-06, "loss": 0.307, "step": 6323 }, { "epoch": 2.108, "grad_norm": 1.8410886526107788, "learning_rate": 4.919604474332223e-06, "loss": 0.2979, "step": 6324 }, { "epoch": 2.1083333333333334, "grad_norm": 2.807276725769043, "learning_rate": 4.916264165481448e-06, "loss": 0.2972, "step": 6325 }, { "epoch": 2.1086666666666667, "grad_norm": 2.6824023723602295, "learning_rate": 4.912924621368681e-06, "loss": 0.3333, "step": 6326 }, { "epoch": 2.109, "grad_norm": 3.091144323348999, "learning_rate": 4.909585842496287e-06, "loss": 0.3225, "step": 6327 }, { "epoch": 2.1093333333333333, "grad_norm": 2.1670563220977783, "learning_rate": 4.906247829366518e-06, "loss": 0.3061, "step": 6328 }, { "epoch": 2.1096666666666666, "grad_norm": 2.1971840858459473, "learning_rate": 4.902910582481498e-06, "loss": 0.336, "step": 6329 }, { "epoch": 2.11, "grad_norm": 2.856015205383301, "learning_rate": 4.899574102343247e-06, "loss": 0.3239, "step": 6330 }, { "epoch": 2.110333333333333, "grad_norm": 2.918257713317871, "learning_rate": 4.896238389453667e-06, "loss": 0.309, "step": 6331 }, { "epoch": 2.1106666666666665, "grad_norm": 2.8346004486083984, "learning_rate": 4.892903444314545e-06, "loss": 0.3252, "step": 6332 }, { "epoch": 2.111, "grad_norm": 2.5084023475646973, "learning_rate": 4.889569267427548e-06, "loss": 0.2877, "step": 6333 }, { "epoch": 2.1113333333333335, "grad_norm": 2.560919761657715, "learning_rate": 4.8862358592942335e-06, "loss": 0.3307, "step": 6334 }, { "epoch": 2.111666666666667, "grad_norm": 2.5323984622955322, "learning_rate": 4.882903220416039e-06, "loss": 0.3044, "step": 6335 }, { "epoch": 2.112, "grad_norm": 2.9862582683563232, "learning_rate": 4.879571351294287e-06, "loss": 0.3557, "step": 6336 }, { "epoch": 2.1123333333333334, "grad_norm": 2.6003856658935547, "learning_rate": 4.876240252430184e-06, "loss": 0.3115, "step": 6337 }, { "epoch": 2.1126666666666667, "grad_norm": 3.981738328933716, "learning_rate": 4.872909924324825e-06, "loss": 0.3539, "step": 6338 }, { "epoch": 2.113, "grad_norm": 3.668489694595337, "learning_rate": 4.869580367479187e-06, "loss": 0.3367, "step": 6339 }, { "epoch": 2.1133333333333333, "grad_norm": 3.219730854034424, "learning_rate": 4.8662515823941255e-06, "loss": 0.3058, "step": 6340 }, { "epoch": 2.1136666666666666, "grad_norm": 2.692105531692505, "learning_rate": 4.862923569570386e-06, "loss": 0.3395, "step": 6341 }, { "epoch": 2.114, "grad_norm": 2.4298386573791504, "learning_rate": 4.859596329508598e-06, "loss": 0.321, "step": 6342 }, { "epoch": 2.114333333333333, "grad_norm": 2.397754669189453, "learning_rate": 4.856269862709272e-06, "loss": 0.3289, "step": 6343 }, { "epoch": 2.1146666666666665, "grad_norm": 2.5986311435699463, "learning_rate": 4.8529441696727985e-06, "loss": 0.2936, "step": 6344 }, { "epoch": 2.115, "grad_norm": 2.3459010124206543, "learning_rate": 4.849619250899458e-06, "loss": 0.286, "step": 6345 }, { "epoch": 2.1153333333333335, "grad_norm": 2.6987390518188477, "learning_rate": 4.846295106889418e-06, "loss": 0.3095, "step": 6346 }, { "epoch": 2.115666666666667, "grad_norm": 2.4894697666168213, "learning_rate": 4.842971738142716e-06, "loss": 0.2645, "step": 6347 }, { "epoch": 2.116, "grad_norm": 2.688589096069336, "learning_rate": 4.8396491451592855e-06, "loss": 0.2914, "step": 6348 }, { "epoch": 2.1163333333333334, "grad_norm": 2.429633378982544, "learning_rate": 4.836327328438941e-06, "loss": 0.3075, "step": 6349 }, { "epoch": 2.1166666666666667, "grad_norm": 2.5467545986175537, "learning_rate": 4.8330062884813714e-06, "loss": 0.2936, "step": 6350 }, { "epoch": 2.117, "grad_norm": 2.981050968170166, "learning_rate": 4.8296860257861585e-06, "loss": 0.2962, "step": 6351 }, { "epoch": 2.1173333333333333, "grad_norm": 2.3433773517608643, "learning_rate": 4.8263665408527685e-06, "loss": 0.2662, "step": 6352 }, { "epoch": 2.1176666666666666, "grad_norm": 3.0894832611083984, "learning_rate": 4.823047834180541e-06, "loss": 0.3808, "step": 6353 }, { "epoch": 2.118, "grad_norm": 2.709752321243286, "learning_rate": 4.8197299062687e-06, "loss": 0.2897, "step": 6354 }, { "epoch": 2.118333333333333, "grad_norm": 2.2213313579559326, "learning_rate": 4.816412757616361e-06, "loss": 0.2887, "step": 6355 }, { "epoch": 2.1186666666666665, "grad_norm": 3.145595073699951, "learning_rate": 4.8130963887225205e-06, "loss": 0.3147, "step": 6356 }, { "epoch": 2.1189999999999998, "grad_norm": 3.2162957191467285, "learning_rate": 4.809780800086046e-06, "loss": 0.3059, "step": 6357 }, { "epoch": 2.1193333333333335, "grad_norm": 3.365649700164795, "learning_rate": 4.8064659922057e-06, "loss": 0.2973, "step": 6358 }, { "epoch": 2.119666666666667, "grad_norm": 2.6793429851531982, "learning_rate": 4.803151965580124e-06, "loss": 0.3384, "step": 6359 }, { "epoch": 2.12, "grad_norm": 3.0028250217437744, "learning_rate": 4.799838720707847e-06, "loss": 0.3088, "step": 6360 }, { "epoch": 2.1203333333333334, "grad_norm": 2.4321722984313965, "learning_rate": 4.796526258087264e-06, "loss": 0.3244, "step": 6361 }, { "epoch": 2.1206666666666667, "grad_norm": 3.7089648246765137, "learning_rate": 4.793214578216673e-06, "loss": 0.3302, "step": 6362 }, { "epoch": 2.121, "grad_norm": 2.7312204837799072, "learning_rate": 4.78990368159424e-06, "loss": 0.3235, "step": 6363 }, { "epoch": 2.1213333333333333, "grad_norm": 3.2069785594940186, "learning_rate": 4.786593568718015e-06, "loss": 0.3487, "step": 6364 }, { "epoch": 2.1216666666666666, "grad_norm": 2.6082873344421387, "learning_rate": 4.783284240085936e-06, "loss": 0.312, "step": 6365 }, { "epoch": 2.122, "grad_norm": 1.8880831003189087, "learning_rate": 4.7799756961958195e-06, "loss": 0.3214, "step": 6366 }, { "epoch": 2.122333333333333, "grad_norm": 2.237048387527466, "learning_rate": 4.7766679375453685e-06, "loss": 0.3083, "step": 6367 }, { "epoch": 2.1226666666666665, "grad_norm": 2.2853009700775146, "learning_rate": 4.773360964632155e-06, "loss": 0.3259, "step": 6368 }, { "epoch": 2.123, "grad_norm": 2.425917148590088, "learning_rate": 4.770054777953647e-06, "loss": 0.2729, "step": 6369 }, { "epoch": 2.1233333333333335, "grad_norm": 2.9128873348236084, "learning_rate": 4.766749378007193e-06, "loss": 0.3172, "step": 6370 }, { "epoch": 2.123666666666667, "grad_norm": 2.6433751583099365, "learning_rate": 4.7634447652900085e-06, "loss": 0.3146, "step": 6371 }, { "epoch": 2.124, "grad_norm": 2.673581123352051, "learning_rate": 4.76014094029921e-06, "loss": 0.2891, "step": 6372 }, { "epoch": 2.1243333333333334, "grad_norm": 3.6565418243408203, "learning_rate": 4.75683790353178e-06, "loss": 0.3075, "step": 6373 }, { "epoch": 2.1246666666666667, "grad_norm": 2.89543080329895, "learning_rate": 4.753535655484595e-06, "loss": 0.3149, "step": 6374 }, { "epoch": 2.125, "grad_norm": 2.808878183364868, "learning_rate": 4.7502341966544e-06, "loss": 0.3241, "step": 6375 }, { "epoch": 2.1253333333333333, "grad_norm": 2.5995099544525146, "learning_rate": 4.74693352753783e-06, "loss": 0.2811, "step": 6376 }, { "epoch": 2.1256666666666666, "grad_norm": 2.1840286254882812, "learning_rate": 4.743633648631406e-06, "loss": 0.2662, "step": 6377 }, { "epoch": 2.126, "grad_norm": 2.4371511936187744, "learning_rate": 4.7403345604315135e-06, "loss": 0.3358, "step": 6378 }, { "epoch": 2.126333333333333, "grad_norm": 2.123777151107788, "learning_rate": 4.7370362634344335e-06, "loss": 0.2879, "step": 6379 }, { "epoch": 2.1266666666666665, "grad_norm": 3.653169631958008, "learning_rate": 4.733738758136327e-06, "loss": 0.354, "step": 6380 }, { "epoch": 2.127, "grad_norm": 2.5866377353668213, "learning_rate": 4.7304420450332244e-06, "loss": 0.3476, "step": 6381 }, { "epoch": 2.1273333333333335, "grad_norm": 2.750919818878174, "learning_rate": 4.727146124621054e-06, "loss": 0.3315, "step": 6382 }, { "epoch": 2.127666666666667, "grad_norm": 2.253031015396118, "learning_rate": 4.723850997395605e-06, "loss": 0.3582, "step": 6383 }, { "epoch": 2.128, "grad_norm": 3.733321189880371, "learning_rate": 4.720556663852569e-06, "loss": 0.3069, "step": 6384 }, { "epoch": 2.1283333333333334, "grad_norm": 2.9074156284332275, "learning_rate": 4.7172631244874965e-06, "loss": 0.2932, "step": 6385 }, { "epoch": 2.1286666666666667, "grad_norm": 2.6236379146575928, "learning_rate": 4.713970379795836e-06, "loss": 0.3165, "step": 6386 }, { "epoch": 2.129, "grad_norm": 2.345994710922241, "learning_rate": 4.710678430272907e-06, "loss": 0.328, "step": 6387 }, { "epoch": 2.1293333333333333, "grad_norm": 2.3997106552124023, "learning_rate": 4.707387276413918e-06, "loss": 0.3145, "step": 6388 }, { "epoch": 2.1296666666666666, "grad_norm": 2.786710739135742, "learning_rate": 4.7040969187139425e-06, "loss": 0.3102, "step": 6389 }, { "epoch": 2.13, "grad_norm": 2.718306064605713, "learning_rate": 4.700807357667953e-06, "loss": 0.3087, "step": 6390 }, { "epoch": 2.130333333333333, "grad_norm": 2.9089651107788086, "learning_rate": 4.6975185937707825e-06, "loss": 0.3442, "step": 6391 }, { "epoch": 2.1306666666666665, "grad_norm": 2.491276979446411, "learning_rate": 4.6942306275171646e-06, "loss": 0.3355, "step": 6392 }, { "epoch": 2.1310000000000002, "grad_norm": 3.9609174728393555, "learning_rate": 4.690943459401693e-06, "loss": 0.321, "step": 6393 }, { "epoch": 2.1313333333333335, "grad_norm": 2.381281852722168, "learning_rate": 4.687657089918858e-06, "loss": 0.3124, "step": 6394 }, { "epoch": 2.131666666666667, "grad_norm": 2.2917628288269043, "learning_rate": 4.684371519563022e-06, "loss": 0.3241, "step": 6395 }, { "epoch": 2.132, "grad_norm": 2.3022918701171875, "learning_rate": 4.681086748828424e-06, "loss": 0.3336, "step": 6396 }, { "epoch": 2.1323333333333334, "grad_norm": 2.23095440864563, "learning_rate": 4.677802778209188e-06, "loss": 0.3104, "step": 6397 }, { "epoch": 2.1326666666666667, "grad_norm": 2.566776990890503, "learning_rate": 4.674519608199323e-06, "loss": 0.3369, "step": 6398 }, { "epoch": 2.133, "grad_norm": 2.613136053085327, "learning_rate": 4.671237239292699e-06, "loss": 0.3406, "step": 6399 }, { "epoch": 2.1333333333333333, "grad_norm": 2.4464359283447266, "learning_rate": 4.66795567198309e-06, "loss": 0.3177, "step": 6400 }, { "epoch": 2.1336666666666666, "grad_norm": 2.601344108581543, "learning_rate": 4.664674906764125e-06, "loss": 0.3251, "step": 6401 }, { "epoch": 2.134, "grad_norm": 3.079507350921631, "learning_rate": 4.661394944129334e-06, "loss": 0.2877, "step": 6402 }, { "epoch": 2.134333333333333, "grad_norm": 2.2503788471221924, "learning_rate": 4.658115784572108e-06, "loss": 0.3399, "step": 6403 }, { "epoch": 2.1346666666666665, "grad_norm": 3.302725076675415, "learning_rate": 4.654837428585729e-06, "loss": 0.3127, "step": 6404 }, { "epoch": 2.135, "grad_norm": 4.661499977111816, "learning_rate": 4.65155987666336e-06, "loss": 0.3475, "step": 6405 }, { "epoch": 2.1353333333333335, "grad_norm": 2.3793954849243164, "learning_rate": 4.648283129298028e-06, "loss": 0.3123, "step": 6406 }, { "epoch": 2.135666666666667, "grad_norm": 2.9585206508636475, "learning_rate": 4.645007186982654e-06, "loss": 0.3303, "step": 6407 }, { "epoch": 2.136, "grad_norm": 2.7871804237365723, "learning_rate": 4.641732050210032e-06, "loss": 0.3102, "step": 6408 }, { "epoch": 2.1363333333333334, "grad_norm": 1.983106255531311, "learning_rate": 4.638457719472839e-06, "loss": 0.3437, "step": 6409 }, { "epoch": 2.1366666666666667, "grad_norm": 2.6880764961242676, "learning_rate": 4.635184195263624e-06, "loss": 0.3109, "step": 6410 }, { "epoch": 2.137, "grad_norm": 3.153519630432129, "learning_rate": 4.631911478074815e-06, "loss": 0.3434, "step": 6411 }, { "epoch": 2.1373333333333333, "grad_norm": 3.532078504562378, "learning_rate": 4.628639568398728e-06, "loss": 0.2977, "step": 6412 }, { "epoch": 2.1376666666666666, "grad_norm": 2.05910325050354, "learning_rate": 4.625368466727542e-06, "loss": 0.2838, "step": 6413 }, { "epoch": 2.138, "grad_norm": 2.3909687995910645, "learning_rate": 4.622098173553329e-06, "loss": 0.3141, "step": 6414 }, { "epoch": 2.138333333333333, "grad_norm": 2.5101168155670166, "learning_rate": 4.618828689368033e-06, "loss": 0.3149, "step": 6415 }, { "epoch": 2.1386666666666665, "grad_norm": 2.957582950592041, "learning_rate": 4.615560014663483e-06, "loss": 0.3204, "step": 6416 }, { "epoch": 2.1390000000000002, "grad_norm": 2.9396700859069824, "learning_rate": 4.612292149931369e-06, "loss": 0.3476, "step": 6417 }, { "epoch": 2.1393333333333335, "grad_norm": 3.8331844806671143, "learning_rate": 4.609025095663278e-06, "loss": 0.3082, "step": 6418 }, { "epoch": 2.139666666666667, "grad_norm": 3.37829852104187, "learning_rate": 4.605758852350669e-06, "loss": 0.331, "step": 6419 }, { "epoch": 2.14, "grad_norm": 3.2010891437530518, "learning_rate": 4.6024934204848745e-06, "loss": 0.3609, "step": 6420 }, { "epoch": 2.1403333333333334, "grad_norm": 2.740877628326416, "learning_rate": 4.599228800557104e-06, "loss": 0.3048, "step": 6421 }, { "epoch": 2.1406666666666667, "grad_norm": 2.689948797225952, "learning_rate": 4.595964993058454e-06, "loss": 0.3467, "step": 6422 }, { "epoch": 2.141, "grad_norm": 2.824436664581299, "learning_rate": 4.592701998479896e-06, "loss": 0.3177, "step": 6423 }, { "epoch": 2.1413333333333333, "grad_norm": 2.258425235748291, "learning_rate": 4.589439817312269e-06, "loss": 0.302, "step": 6424 }, { "epoch": 2.1416666666666666, "grad_norm": 2.863478183746338, "learning_rate": 4.586178450046304e-06, "loss": 0.3159, "step": 6425 }, { "epoch": 2.142, "grad_norm": 2.393861770629883, "learning_rate": 4.582917897172603e-06, "loss": 0.3187, "step": 6426 }, { "epoch": 2.142333333333333, "grad_norm": 2.897693157196045, "learning_rate": 4.579658159181641e-06, "loss": 0.3056, "step": 6427 }, { "epoch": 2.1426666666666665, "grad_norm": 3.358215093612671, "learning_rate": 4.576399236563778e-06, "loss": 0.3263, "step": 6428 }, { "epoch": 2.143, "grad_norm": 2.3861770629882812, "learning_rate": 4.573141129809252e-06, "loss": 0.2946, "step": 6429 }, { "epoch": 2.1433333333333335, "grad_norm": 2.387828826904297, "learning_rate": 4.56988383940817e-06, "loss": 0.3169, "step": 6430 }, { "epoch": 2.143666666666667, "grad_norm": 2.6957077980041504, "learning_rate": 4.566627365850519e-06, "loss": 0.3321, "step": 6431 }, { "epoch": 2.144, "grad_norm": 2.1304328441619873, "learning_rate": 4.563371709626167e-06, "loss": 0.3263, "step": 6432 }, { "epoch": 2.1443333333333334, "grad_norm": 2.8230037689208984, "learning_rate": 4.560116871224862e-06, "loss": 0.3008, "step": 6433 }, { "epoch": 2.1446666666666667, "grad_norm": 3.0186874866485596, "learning_rate": 4.556862851136216e-06, "loss": 0.3305, "step": 6434 }, { "epoch": 2.145, "grad_norm": 2.553173065185547, "learning_rate": 4.5536096498497295e-06, "loss": 0.3037, "step": 6435 }, { "epoch": 2.1453333333333333, "grad_norm": 2.6542038917541504, "learning_rate": 4.5503572678547754e-06, "loss": 0.3466, "step": 6436 }, { "epoch": 2.1456666666666666, "grad_norm": 2.2195358276367188, "learning_rate": 4.54710570564061e-06, "loss": 0.3505, "step": 6437 }, { "epoch": 2.146, "grad_norm": 2.7498979568481445, "learning_rate": 4.5438549636963534e-06, "loss": 0.2971, "step": 6438 }, { "epoch": 2.146333333333333, "grad_norm": 2.257662773132324, "learning_rate": 4.5406050425110095e-06, "loss": 0.2786, "step": 6439 }, { "epoch": 2.1466666666666665, "grad_norm": 3.400212049484253, "learning_rate": 4.537355942573464e-06, "loss": 0.3473, "step": 6440 }, { "epoch": 2.147, "grad_norm": 2.387885570526123, "learning_rate": 4.534107664372466e-06, "loss": 0.3192, "step": 6441 }, { "epoch": 2.1473333333333335, "grad_norm": 2.3865063190460205, "learning_rate": 4.5308602083966534e-06, "loss": 0.3208, "step": 6442 }, { "epoch": 2.147666666666667, "grad_norm": 2.8084890842437744, "learning_rate": 4.527613575134534e-06, "loss": 0.3131, "step": 6443 }, { "epoch": 2.148, "grad_norm": 2.425896644592285, "learning_rate": 4.524367765074499e-06, "loss": 0.3428, "step": 6444 }, { "epoch": 2.1483333333333334, "grad_norm": 2.8742897510528564, "learning_rate": 4.521122778704802e-06, "loss": 0.3352, "step": 6445 }, { "epoch": 2.1486666666666667, "grad_norm": 2.30307936668396, "learning_rate": 4.517878616513585e-06, "loss": 0.3264, "step": 6446 }, { "epoch": 2.149, "grad_norm": 2.642223596572876, "learning_rate": 4.514635278988866e-06, "loss": 0.3352, "step": 6447 }, { "epoch": 2.1493333333333333, "grad_norm": 2.3251383304595947, "learning_rate": 4.51139276661853e-06, "loss": 0.3274, "step": 6448 }, { "epoch": 2.1496666666666666, "grad_norm": 2.1730093955993652, "learning_rate": 4.50815107989034e-06, "loss": 0.3119, "step": 6449 }, { "epoch": 2.15, "grad_norm": 2.6208269596099854, "learning_rate": 4.504910219291941e-06, "loss": 0.3197, "step": 6450 }, { "epoch": 2.150333333333333, "grad_norm": 2.4784791469573975, "learning_rate": 4.501670185310853e-06, "loss": 0.2986, "step": 6451 }, { "epoch": 2.1506666666666665, "grad_norm": 2.5759637355804443, "learning_rate": 4.498430978434464e-06, "loss": 0.3355, "step": 6452 }, { "epoch": 2.151, "grad_norm": 2.7811195850372314, "learning_rate": 4.495192599150045e-06, "loss": 0.309, "step": 6453 }, { "epoch": 2.1513333333333335, "grad_norm": 3.125481128692627, "learning_rate": 4.491955047944743e-06, "loss": 0.295, "step": 6454 }, { "epoch": 2.151666666666667, "grad_norm": 2.7365047931671143, "learning_rate": 4.48871832530557e-06, "loss": 0.3125, "step": 6455 }, { "epoch": 2.152, "grad_norm": 2.0694382190704346, "learning_rate": 4.4854824317194266e-06, "loss": 0.2748, "step": 6456 }, { "epoch": 2.1523333333333334, "grad_norm": 3.0090038776397705, "learning_rate": 4.482247367673086e-06, "loss": 0.3102, "step": 6457 }, { "epoch": 2.1526666666666667, "grad_norm": 3.19936203956604, "learning_rate": 4.4790131336531885e-06, "loss": 0.3036, "step": 6458 }, { "epoch": 2.153, "grad_norm": 2.3554399013519287, "learning_rate": 4.475779730146252e-06, "loss": 0.3065, "step": 6459 }, { "epoch": 2.1533333333333333, "grad_norm": 2.5382132530212402, "learning_rate": 4.472547157638674e-06, "loss": 0.3255, "step": 6460 }, { "epoch": 2.1536666666666666, "grad_norm": 2.6401994228363037, "learning_rate": 4.469315416616732e-06, "loss": 0.3028, "step": 6461 }, { "epoch": 2.154, "grad_norm": 2.219165802001953, "learning_rate": 4.46608450756656e-06, "loss": 0.3015, "step": 6462 }, { "epoch": 2.154333333333333, "grad_norm": 3.1542959213256836, "learning_rate": 4.462854430974186e-06, "loss": 0.3319, "step": 6463 }, { "epoch": 2.1546666666666665, "grad_norm": 3.563854932785034, "learning_rate": 4.459625187325503e-06, "loss": 0.3227, "step": 6464 }, { "epoch": 2.155, "grad_norm": 2.1474051475524902, "learning_rate": 4.4563967771062856e-06, "loss": 0.276, "step": 6465 }, { "epoch": 2.155333333333333, "grad_norm": 3.197709321975708, "learning_rate": 4.45316920080217e-06, "loss": 0.3509, "step": 6466 }, { "epoch": 2.155666666666667, "grad_norm": 2.623553514480591, "learning_rate": 4.449942458898682e-06, "loss": 0.3406, "step": 6467 }, { "epoch": 2.156, "grad_norm": 3.747795581817627, "learning_rate": 4.446716551881213e-06, "loss": 0.3522, "step": 6468 }, { "epoch": 2.1563333333333334, "grad_norm": 2.347576379776001, "learning_rate": 4.443491480235025e-06, "loss": 0.3093, "step": 6469 }, { "epoch": 2.1566666666666667, "grad_norm": 2.2209601402282715, "learning_rate": 4.4402672444452664e-06, "loss": 0.3085, "step": 6470 }, { "epoch": 2.157, "grad_norm": 2.733924388885498, "learning_rate": 4.437043844996952e-06, "loss": 0.2932, "step": 6471 }, { "epoch": 2.1573333333333333, "grad_norm": 3.4174883365631104, "learning_rate": 4.433821282374976e-06, "loss": 0.3249, "step": 6472 }, { "epoch": 2.1576666666666666, "grad_norm": 3.033153772354126, "learning_rate": 4.430599557064097e-06, "loss": 0.3543, "step": 6473 }, { "epoch": 2.158, "grad_norm": 2.3896214962005615, "learning_rate": 4.427378669548958e-06, "loss": 0.327, "step": 6474 }, { "epoch": 2.158333333333333, "grad_norm": 2.180675983428955, "learning_rate": 4.424158620314073e-06, "loss": 0.3, "step": 6475 }, { "epoch": 2.1586666666666665, "grad_norm": 2.4514684677124023, "learning_rate": 4.420939409843823e-06, "loss": 0.3168, "step": 6476 }, { "epoch": 2.159, "grad_norm": 2.5434436798095703, "learning_rate": 4.417721038622476e-06, "loss": 0.3314, "step": 6477 }, { "epoch": 2.1593333333333335, "grad_norm": 2.7006113529205322, "learning_rate": 4.414503507134159e-06, "loss": 0.3066, "step": 6478 }, { "epoch": 2.159666666666667, "grad_norm": 2.1610898971557617, "learning_rate": 4.411286815862887e-06, "loss": 0.3179, "step": 6479 }, { "epoch": 2.16, "grad_norm": 2.9276645183563232, "learning_rate": 4.408070965292534e-06, "loss": 0.2899, "step": 6480 }, { "epoch": 2.1603333333333334, "grad_norm": 2.4104154109954834, "learning_rate": 4.404855955906858e-06, "loss": 0.3221, "step": 6481 }, { "epoch": 2.1606666666666667, "grad_norm": 2.574270248413086, "learning_rate": 4.401641788189492e-06, "loss": 0.2953, "step": 6482 }, { "epoch": 2.161, "grad_norm": 3.585681200027466, "learning_rate": 4.398428462623932e-06, "loss": 0.3331, "step": 6483 }, { "epoch": 2.1613333333333333, "grad_norm": 2.8670530319213867, "learning_rate": 4.395215979693556e-06, "loss": 0.3483, "step": 6484 }, { "epoch": 2.1616666666666666, "grad_norm": 2.3947556018829346, "learning_rate": 4.392004339881615e-06, "loss": 0.3023, "step": 6485 }, { "epoch": 2.162, "grad_norm": 3.4425549507141113, "learning_rate": 4.388793543671225e-06, "loss": 0.2893, "step": 6486 }, { "epoch": 2.162333333333333, "grad_norm": 2.304880142211914, "learning_rate": 4.385583591545387e-06, "loss": 0.2915, "step": 6487 }, { "epoch": 2.1626666666666665, "grad_norm": 2.389173984527588, "learning_rate": 4.382374483986961e-06, "loss": 0.3146, "step": 6488 }, { "epoch": 2.163, "grad_norm": 2.833306312561035, "learning_rate": 4.379166221478697e-06, "loss": 0.2913, "step": 6489 }, { "epoch": 2.163333333333333, "grad_norm": 2.4034981727600098, "learning_rate": 4.375958804503201e-06, "loss": 0.3352, "step": 6490 }, { "epoch": 2.163666666666667, "grad_norm": 2.5737948417663574, "learning_rate": 4.3727522335429605e-06, "loss": 0.328, "step": 6491 }, { "epoch": 2.164, "grad_norm": 2.958028793334961, "learning_rate": 4.369546509080338e-06, "loss": 0.3198, "step": 6492 }, { "epoch": 2.1643333333333334, "grad_norm": 2.877260446548462, "learning_rate": 4.366341631597567e-06, "loss": 0.3097, "step": 6493 }, { "epoch": 2.1646666666666667, "grad_norm": 2.395108699798584, "learning_rate": 4.363137601576746e-06, "loss": 0.3393, "step": 6494 }, { "epoch": 2.165, "grad_norm": 3.332504987716675, "learning_rate": 4.359934419499859e-06, "loss": 0.3531, "step": 6495 }, { "epoch": 2.1653333333333333, "grad_norm": 2.676037549972534, "learning_rate": 4.356732085848749e-06, "loss": 0.3136, "step": 6496 }, { "epoch": 2.1656666666666666, "grad_norm": 3.3838629722595215, "learning_rate": 4.353530601105138e-06, "loss": 0.3267, "step": 6497 }, { "epoch": 2.166, "grad_norm": 2.6364121437072754, "learning_rate": 4.350329965750622e-06, "loss": 0.3014, "step": 6498 }, { "epoch": 2.166333333333333, "grad_norm": 2.7879154682159424, "learning_rate": 4.347130180266668e-06, "loss": 0.3294, "step": 6499 }, { "epoch": 2.1666666666666665, "grad_norm": 2.6425633430480957, "learning_rate": 4.343931245134616e-06, "loss": 0.2858, "step": 6500 }, { "epoch": 2.167, "grad_norm": 2.786630868911743, "learning_rate": 4.3407331608356715e-06, "loss": 0.2807, "step": 6501 }, { "epoch": 2.1673333333333336, "grad_norm": 2.3994219303131104, "learning_rate": 4.33753592785092e-06, "loss": 0.3182, "step": 6502 }, { "epoch": 2.167666666666667, "grad_norm": 2.6204426288604736, "learning_rate": 4.33433954666132e-06, "loss": 0.2989, "step": 6503 }, { "epoch": 2.168, "grad_norm": 2.6678853034973145, "learning_rate": 4.33114401774769e-06, "loss": 0.2828, "step": 6504 }, { "epoch": 2.1683333333333334, "grad_norm": 2.500805616378784, "learning_rate": 4.327949341590736e-06, "loss": 0.3199, "step": 6505 }, { "epoch": 2.1686666666666667, "grad_norm": 3.278581380844116, "learning_rate": 4.32475551867102e-06, "loss": 0.3361, "step": 6506 }, { "epoch": 2.169, "grad_norm": 3.8741471767425537, "learning_rate": 4.321562549468991e-06, "loss": 0.3351, "step": 6507 }, { "epoch": 2.1693333333333333, "grad_norm": 2.77289080619812, "learning_rate": 4.318370434464954e-06, "loss": 0.2985, "step": 6508 }, { "epoch": 2.1696666666666666, "grad_norm": 2.5797863006591797, "learning_rate": 4.315179174139099e-06, "loss": 0.2539, "step": 6509 }, { "epoch": 2.17, "grad_norm": 2.679236650466919, "learning_rate": 4.311988768971484e-06, "loss": 0.3279, "step": 6510 }, { "epoch": 2.1703333333333332, "grad_norm": 3.1864631175994873, "learning_rate": 4.308799219442032e-06, "loss": 0.3298, "step": 6511 }, { "epoch": 2.1706666666666665, "grad_norm": 3.460164785385132, "learning_rate": 4.305610526030542e-06, "loss": 0.3045, "step": 6512 }, { "epoch": 2.171, "grad_norm": 3.0894851684570312, "learning_rate": 4.302422689216684e-06, "loss": 0.2872, "step": 6513 }, { "epoch": 2.171333333333333, "grad_norm": 2.38299298286438, "learning_rate": 4.299235709480004e-06, "loss": 0.3157, "step": 6514 }, { "epoch": 2.171666666666667, "grad_norm": 2.6571707725524902, "learning_rate": 4.296049587299912e-06, "loss": 0.3195, "step": 6515 }, { "epoch": 2.172, "grad_norm": 2.4700543880462646, "learning_rate": 4.292864323155684e-06, "loss": 0.2896, "step": 6516 }, { "epoch": 2.1723333333333334, "grad_norm": 2.3314902782440186, "learning_rate": 4.289679917526481e-06, "loss": 0.2935, "step": 6517 }, { "epoch": 2.1726666666666667, "grad_norm": 2.5525712966918945, "learning_rate": 4.286496370891329e-06, "loss": 0.2863, "step": 6518 }, { "epoch": 2.173, "grad_norm": 2.5366389751434326, "learning_rate": 4.2833136837291165e-06, "loss": 0.3034, "step": 6519 }, { "epoch": 2.1733333333333333, "grad_norm": 2.847135305404663, "learning_rate": 4.2801318565186165e-06, "loss": 0.3004, "step": 6520 }, { "epoch": 2.1736666666666666, "grad_norm": 2.4701356887817383, "learning_rate": 4.276950889738466e-06, "loss": 0.3273, "step": 6521 }, { "epoch": 2.174, "grad_norm": 2.36368465423584, "learning_rate": 4.273770783867167e-06, "loss": 0.3138, "step": 6522 }, { "epoch": 2.1743333333333332, "grad_norm": 3.014298915863037, "learning_rate": 4.2705915393831055e-06, "loss": 0.2993, "step": 6523 }, { "epoch": 2.1746666666666665, "grad_norm": 3.254816770553589, "learning_rate": 4.267413156764522e-06, "loss": 0.3397, "step": 6524 }, { "epoch": 2.175, "grad_norm": 3.5447475910186768, "learning_rate": 4.264235636489542e-06, "loss": 0.3436, "step": 6525 }, { "epoch": 2.1753333333333336, "grad_norm": 2.621342897415161, "learning_rate": 4.261058979036148e-06, "loss": 0.3197, "step": 6526 }, { "epoch": 2.175666666666667, "grad_norm": 2.4868052005767822, "learning_rate": 4.257883184882203e-06, "loss": 0.3007, "step": 6527 }, { "epoch": 2.176, "grad_norm": 2.2955691814422607, "learning_rate": 4.25470825450544e-06, "loss": 0.339, "step": 6528 }, { "epoch": 2.1763333333333335, "grad_norm": 2.7995834350585938, "learning_rate": 4.2515341883834525e-06, "loss": 0.3091, "step": 6529 }, { "epoch": 2.1766666666666667, "grad_norm": 2.5704565048217773, "learning_rate": 4.2483609869937115e-06, "loss": 0.3223, "step": 6530 }, { "epoch": 2.177, "grad_norm": 2.682403087615967, "learning_rate": 4.245188650813559e-06, "loss": 0.3028, "step": 6531 }, { "epoch": 2.1773333333333333, "grad_norm": 2.8559982776641846, "learning_rate": 4.242017180320205e-06, "loss": 0.3232, "step": 6532 }, { "epoch": 2.1776666666666666, "grad_norm": 2.015151262283325, "learning_rate": 4.238846575990726e-06, "loss": 0.3314, "step": 6533 }, { "epoch": 2.178, "grad_norm": 2.6281750202178955, "learning_rate": 4.235676838302069e-06, "loss": 0.3123, "step": 6534 }, { "epoch": 2.1783333333333332, "grad_norm": 4.265559673309326, "learning_rate": 4.2325079677310575e-06, "loss": 0.2884, "step": 6535 }, { "epoch": 2.1786666666666665, "grad_norm": 2.1238317489624023, "learning_rate": 4.2293399647543735e-06, "loss": 0.2798, "step": 6536 }, { "epoch": 2.179, "grad_norm": 2.995258092880249, "learning_rate": 4.226172829848576e-06, "loss": 0.3332, "step": 6537 }, { "epoch": 2.179333333333333, "grad_norm": 2.6831436157226562, "learning_rate": 4.223006563490095e-06, "loss": 0.3099, "step": 6538 }, { "epoch": 2.179666666666667, "grad_norm": 2.934586524963379, "learning_rate": 4.219841166155228e-06, "loss": 0.3422, "step": 6539 }, { "epoch": 2.18, "grad_norm": 2.4317617416381836, "learning_rate": 4.216676638320135e-06, "loss": 0.3101, "step": 6540 }, { "epoch": 2.1803333333333335, "grad_norm": 2.4213805198669434, "learning_rate": 4.213512980460853e-06, "loss": 0.2949, "step": 6541 }, { "epoch": 2.1806666666666668, "grad_norm": 2.647028923034668, "learning_rate": 4.21035019305329e-06, "loss": 0.3603, "step": 6542 }, { "epoch": 2.181, "grad_norm": 2.4198460578918457, "learning_rate": 4.207188276573214e-06, "loss": 0.3257, "step": 6543 }, { "epoch": 2.1813333333333333, "grad_norm": 2.1898529529571533, "learning_rate": 4.204027231496266e-06, "loss": 0.2961, "step": 6544 }, { "epoch": 2.1816666666666666, "grad_norm": 3.036764621734619, "learning_rate": 4.200867058297959e-06, "loss": 0.2841, "step": 6545 }, { "epoch": 2.182, "grad_norm": 2.7645070552825928, "learning_rate": 4.197707757453675e-06, "loss": 0.311, "step": 6546 }, { "epoch": 2.1823333333333332, "grad_norm": 2.6110777854919434, "learning_rate": 4.194549329438656e-06, "loss": 0.308, "step": 6547 }, { "epoch": 2.1826666666666665, "grad_norm": 2.8378894329071045, "learning_rate": 4.191391774728024e-06, "loss": 0.3253, "step": 6548 }, { "epoch": 2.183, "grad_norm": 2.401017427444458, "learning_rate": 4.188235093796768e-06, "loss": 0.3085, "step": 6549 }, { "epoch": 2.183333333333333, "grad_norm": 2.902221202850342, "learning_rate": 4.185079287119733e-06, "loss": 0.3152, "step": 6550 }, { "epoch": 2.183666666666667, "grad_norm": 2.416741371154785, "learning_rate": 4.181924355171648e-06, "loss": 0.3011, "step": 6551 }, { "epoch": 2.184, "grad_norm": 3.6818127632141113, "learning_rate": 4.178770298427107e-06, "loss": 0.2877, "step": 6552 }, { "epoch": 2.1843333333333335, "grad_norm": 2.936256170272827, "learning_rate": 4.1756171173605654e-06, "loss": 0.3307, "step": 6553 }, { "epoch": 2.1846666666666668, "grad_norm": 2.4013822078704834, "learning_rate": 4.1724648124463475e-06, "loss": 0.3233, "step": 6554 }, { "epoch": 2.185, "grad_norm": 2.9239659309387207, "learning_rate": 4.169313384158653e-06, "loss": 0.2909, "step": 6555 }, { "epoch": 2.1853333333333333, "grad_norm": 4.050417900085449, "learning_rate": 4.166162832971551e-06, "loss": 0.3174, "step": 6556 }, { "epoch": 2.1856666666666666, "grad_norm": 3.6492979526519775, "learning_rate": 4.163013159358964e-06, "loss": 0.3177, "step": 6557 }, { "epoch": 2.186, "grad_norm": 2.4940311908721924, "learning_rate": 4.1598643637946975e-06, "loss": 0.3035, "step": 6558 }, { "epoch": 2.1863333333333332, "grad_norm": 2.3350915908813477, "learning_rate": 4.15671644675242e-06, "loss": 0.3397, "step": 6559 }, { "epoch": 2.1866666666666665, "grad_norm": 2.4398984909057617, "learning_rate": 4.15356940870567e-06, "loss": 0.3223, "step": 6560 }, { "epoch": 2.187, "grad_norm": 2.5527968406677246, "learning_rate": 4.150423250127846e-06, "loss": 0.3062, "step": 6561 }, { "epoch": 2.187333333333333, "grad_norm": 2.7459399700164795, "learning_rate": 4.147277971492223e-06, "loss": 0.3272, "step": 6562 }, { "epoch": 2.187666666666667, "grad_norm": 2.769986867904663, "learning_rate": 4.144133573271939e-06, "loss": 0.3184, "step": 6563 }, { "epoch": 2.188, "grad_norm": 2.6438143253326416, "learning_rate": 4.140990055939997e-06, "loss": 0.3225, "step": 6564 }, { "epoch": 2.1883333333333335, "grad_norm": 3.7676138877868652, "learning_rate": 4.137847419969274e-06, "loss": 0.3607, "step": 6565 }, { "epoch": 2.1886666666666668, "grad_norm": 2.586336374282837, "learning_rate": 4.134705665832512e-06, "loss": 0.3214, "step": 6566 }, { "epoch": 2.189, "grad_norm": 2.5067567825317383, "learning_rate": 4.131564794002324e-06, "loss": 0.3031, "step": 6567 }, { "epoch": 2.1893333333333334, "grad_norm": 2.6045923233032227, "learning_rate": 4.128424804951179e-06, "loss": 0.3193, "step": 6568 }, { "epoch": 2.1896666666666667, "grad_norm": 2.695772886276245, "learning_rate": 4.125285699151422e-06, "loss": 0.3136, "step": 6569 }, { "epoch": 2.19, "grad_norm": 2.3202786445617676, "learning_rate": 4.12214747707527e-06, "loss": 0.28, "step": 6570 }, { "epoch": 2.1903333333333332, "grad_norm": 2.34440541267395, "learning_rate": 4.119010139194791e-06, "loss": 0.2981, "step": 6571 }, { "epoch": 2.1906666666666665, "grad_norm": 4.138936996459961, "learning_rate": 4.115873685981938e-06, "loss": 0.3141, "step": 6572 }, { "epoch": 2.191, "grad_norm": 3.507793664932251, "learning_rate": 4.1127381179085145e-06, "loss": 0.2985, "step": 6573 }, { "epoch": 2.191333333333333, "grad_norm": 2.476323366165161, "learning_rate": 4.109603435446206e-06, "loss": 0.3397, "step": 6574 }, { "epoch": 2.191666666666667, "grad_norm": 2.3662362098693848, "learning_rate": 4.106469639066552e-06, "loss": 0.2851, "step": 6575 }, { "epoch": 2.192, "grad_norm": 2.378005027770996, "learning_rate": 4.103336729240967e-06, "loss": 0.3016, "step": 6576 }, { "epoch": 2.1923333333333335, "grad_norm": 3.193324327468872, "learning_rate": 4.1002047064407325e-06, "loss": 0.3184, "step": 6577 }, { "epoch": 2.1926666666666668, "grad_norm": 3.5931315422058105, "learning_rate": 4.0970735711369865e-06, "loss": 0.31, "step": 6578 }, { "epoch": 2.193, "grad_norm": 1.9470454454421997, "learning_rate": 4.093943323800746e-06, "loss": 0.2774, "step": 6579 }, { "epoch": 2.1933333333333334, "grad_norm": 2.4665746688842773, "learning_rate": 4.090813964902889e-06, "loss": 0.2958, "step": 6580 }, { "epoch": 2.1936666666666667, "grad_norm": 2.492048740386963, "learning_rate": 4.087685494914159e-06, "loss": 0.3047, "step": 6581 }, { "epoch": 2.194, "grad_norm": 3.040195941925049, "learning_rate": 4.0845579143051625e-06, "loss": 0.3338, "step": 6582 }, { "epoch": 2.1943333333333332, "grad_norm": 2.2642502784729004, "learning_rate": 4.081431223546379e-06, "loss": 0.3101, "step": 6583 }, { "epoch": 2.1946666666666665, "grad_norm": 2.451172351837158, "learning_rate": 4.078305423108155e-06, "loss": 0.2985, "step": 6584 }, { "epoch": 2.195, "grad_norm": 2.307185649871826, "learning_rate": 4.075180513460695e-06, "loss": 0.3015, "step": 6585 }, { "epoch": 2.195333333333333, "grad_norm": 3.2152156829833984, "learning_rate": 4.072056495074074e-06, "loss": 0.2848, "step": 6586 }, { "epoch": 2.195666666666667, "grad_norm": 2.2153711318969727, "learning_rate": 4.068933368418234e-06, "loss": 0.3416, "step": 6587 }, { "epoch": 2.196, "grad_norm": 3.2649621963500977, "learning_rate": 4.065811133962987e-06, "loss": 0.3061, "step": 6588 }, { "epoch": 2.1963333333333335, "grad_norm": 2.2559516429901123, "learning_rate": 4.062689792177996e-06, "loss": 0.3372, "step": 6589 }, { "epoch": 2.1966666666666668, "grad_norm": 2.849320650100708, "learning_rate": 4.059569343532809e-06, "loss": 0.3025, "step": 6590 }, { "epoch": 2.197, "grad_norm": 2.22568941116333, "learning_rate": 4.056449788496824e-06, "loss": 0.2667, "step": 6591 }, { "epoch": 2.1973333333333334, "grad_norm": 2.6100196838378906, "learning_rate": 4.05333112753931e-06, "loss": 0.3103, "step": 6592 }, { "epoch": 2.1976666666666667, "grad_norm": 2.2102999687194824, "learning_rate": 4.0502133611294015e-06, "loss": 0.3312, "step": 6593 }, { "epoch": 2.198, "grad_norm": 3.2255187034606934, "learning_rate": 4.047096489736102e-06, "loss": 0.3471, "step": 6594 }, { "epoch": 2.1983333333333333, "grad_norm": 2.3316709995269775, "learning_rate": 4.043980513828281e-06, "loss": 0.302, "step": 6595 }, { "epoch": 2.1986666666666665, "grad_norm": 2.663879871368408, "learning_rate": 4.04086543387466e-06, "loss": 0.2887, "step": 6596 }, { "epoch": 2.199, "grad_norm": 3.130620241165161, "learning_rate": 4.037751250343841e-06, "loss": 0.3285, "step": 6597 }, { "epoch": 2.199333333333333, "grad_norm": 2.6648120880126953, "learning_rate": 4.0346379637042885e-06, "loss": 0.2964, "step": 6598 }, { "epoch": 2.1996666666666664, "grad_norm": 2.931572675704956, "learning_rate": 4.031525574424322e-06, "loss": 0.2969, "step": 6599 }, { "epoch": 2.2, "grad_norm": 2.5110559463500977, "learning_rate": 4.028414082972141e-06, "loss": 0.3114, "step": 6600 }, { "epoch": 2.2003333333333335, "grad_norm": 2.6372337341308594, "learning_rate": 4.025303489815793e-06, "loss": 0.2935, "step": 6601 }, { "epoch": 2.2006666666666668, "grad_norm": 4.232251167297363, "learning_rate": 4.022193795423208e-06, "loss": 0.3484, "step": 6602 }, { "epoch": 2.201, "grad_norm": 2.424072027206421, "learning_rate": 4.019085000262164e-06, "loss": 0.3084, "step": 6603 }, { "epoch": 2.2013333333333334, "grad_norm": 2.6973705291748047, "learning_rate": 4.0159771048003175e-06, "loss": 0.3288, "step": 6604 }, { "epoch": 2.2016666666666667, "grad_norm": 2.9424688816070557, "learning_rate": 4.012870109505186e-06, "loss": 0.3095, "step": 6605 }, { "epoch": 2.202, "grad_norm": 2.678269624710083, "learning_rate": 4.009764014844143e-06, "loss": 0.3182, "step": 6606 }, { "epoch": 2.2023333333333333, "grad_norm": 2.8680262565612793, "learning_rate": 4.006658821284436e-06, "loss": 0.3152, "step": 6607 }, { "epoch": 2.2026666666666666, "grad_norm": 2.3107123374938965, "learning_rate": 4.003554529293176e-06, "loss": 0.3131, "step": 6608 }, { "epoch": 2.203, "grad_norm": 2.7227046489715576, "learning_rate": 4.000451139337338e-06, "loss": 0.308, "step": 6609 }, { "epoch": 2.203333333333333, "grad_norm": 2.4196319580078125, "learning_rate": 3.997348651883757e-06, "loss": 0.3011, "step": 6610 }, { "epoch": 2.203666666666667, "grad_norm": 2.7183797359466553, "learning_rate": 3.994247067399132e-06, "loss": 0.3033, "step": 6611 }, { "epoch": 2.204, "grad_norm": 2.541820526123047, "learning_rate": 3.9911463863500365e-06, "loss": 0.2906, "step": 6612 }, { "epoch": 2.2043333333333335, "grad_norm": 2.54455828666687, "learning_rate": 3.988046609202894e-06, "loss": 0.3032, "step": 6613 }, { "epoch": 2.2046666666666668, "grad_norm": 2.597684144973755, "learning_rate": 3.984947736424001e-06, "loss": 0.3133, "step": 6614 }, { "epoch": 2.205, "grad_norm": 3.711714506149292, "learning_rate": 3.981849768479516e-06, "loss": 0.3272, "step": 6615 }, { "epoch": 2.2053333333333334, "grad_norm": 2.9851181507110596, "learning_rate": 3.978752705835466e-06, "loss": 0.315, "step": 6616 }, { "epoch": 2.2056666666666667, "grad_norm": 2.8546648025512695, "learning_rate": 3.975656548957729e-06, "loss": 0.292, "step": 6617 }, { "epoch": 2.206, "grad_norm": 2.3444645404815674, "learning_rate": 3.972561298312063e-06, "loss": 0.3489, "step": 6618 }, { "epoch": 2.2063333333333333, "grad_norm": 3.020400285720825, "learning_rate": 3.969466954364073e-06, "loss": 0.3105, "step": 6619 }, { "epoch": 2.2066666666666666, "grad_norm": 2.6196837425231934, "learning_rate": 3.966373517579244e-06, "loss": 0.2963, "step": 6620 }, { "epoch": 2.207, "grad_norm": 2.596961736679077, "learning_rate": 3.96328098842291e-06, "loss": 0.3323, "step": 6621 }, { "epoch": 2.207333333333333, "grad_norm": 2.4690909385681152, "learning_rate": 3.960189367360277e-06, "loss": 0.2652, "step": 6622 }, { "epoch": 2.2076666666666664, "grad_norm": 2.7882115840911865, "learning_rate": 3.957098654856416e-06, "loss": 0.3154, "step": 6623 }, { "epoch": 2.208, "grad_norm": 2.592076301574707, "learning_rate": 3.954008851376252e-06, "loss": 0.2629, "step": 6624 }, { "epoch": 2.2083333333333335, "grad_norm": 2.433209180831909, "learning_rate": 3.950919957384583e-06, "loss": 0.286, "step": 6625 }, { "epoch": 2.208666666666667, "grad_norm": 2.6038060188293457, "learning_rate": 3.9478319733460676e-06, "loss": 0.2796, "step": 6626 }, { "epoch": 2.209, "grad_norm": 2.1002705097198486, "learning_rate": 3.944744899725221e-06, "loss": 0.304, "step": 6627 }, { "epoch": 2.2093333333333334, "grad_norm": 3.891993761062622, "learning_rate": 3.9416587369864335e-06, "loss": 0.3142, "step": 6628 }, { "epoch": 2.2096666666666667, "grad_norm": 3.496098279953003, "learning_rate": 3.938573485593944e-06, "loss": 0.3368, "step": 6629 }, { "epoch": 2.21, "grad_norm": 2.7398815155029297, "learning_rate": 3.9354891460118695e-06, "loss": 0.3159, "step": 6630 }, { "epoch": 2.2103333333333333, "grad_norm": 2.1396994590759277, "learning_rate": 3.932405718704173e-06, "loss": 0.2778, "step": 6631 }, { "epoch": 2.2106666666666666, "grad_norm": 2.7826449871063232, "learning_rate": 3.929323204134695e-06, "loss": 0.2801, "step": 6632 }, { "epoch": 2.211, "grad_norm": 2.3792030811309814, "learning_rate": 3.9262416027671354e-06, "loss": 0.2955, "step": 6633 }, { "epoch": 2.211333333333333, "grad_norm": 2.899524688720703, "learning_rate": 3.9231609150650485e-06, "loss": 0.3472, "step": 6634 }, { "epoch": 2.211666666666667, "grad_norm": 3.1884961128234863, "learning_rate": 3.92008114149186e-06, "loss": 0.3056, "step": 6635 }, { "epoch": 2.212, "grad_norm": 2.659237861633301, "learning_rate": 3.917002282510854e-06, "loss": 0.3292, "step": 6636 }, { "epoch": 2.2123333333333335, "grad_norm": 2.0496132373809814, "learning_rate": 3.9139243385851845e-06, "loss": 0.3015, "step": 6637 }, { "epoch": 2.212666666666667, "grad_norm": 3.1880338191986084, "learning_rate": 3.910847310177856e-06, "loss": 0.312, "step": 6638 }, { "epoch": 2.213, "grad_norm": 3.4589366912841797, "learning_rate": 3.907771197751737e-06, "loss": 0.3223, "step": 6639 }, { "epoch": 2.2133333333333334, "grad_norm": 3.1715667247772217, "learning_rate": 3.904696001769571e-06, "loss": 0.3019, "step": 6640 }, { "epoch": 2.2136666666666667, "grad_norm": 2.9132471084594727, "learning_rate": 3.901621722693946e-06, "loss": 0.3033, "step": 6641 }, { "epoch": 2.214, "grad_norm": 2.291792154312134, "learning_rate": 3.898548360987325e-06, "loss": 0.2977, "step": 6642 }, { "epoch": 2.2143333333333333, "grad_norm": 3.045686721801758, "learning_rate": 3.895475917112027e-06, "loss": 0.3059, "step": 6643 }, { "epoch": 2.2146666666666666, "grad_norm": 3.2356436252593994, "learning_rate": 3.8924043915302415e-06, "loss": 0.3388, "step": 6644 }, { "epoch": 2.215, "grad_norm": 5.786038875579834, "learning_rate": 3.889333784704003e-06, "loss": 0.3408, "step": 6645 }, { "epoch": 2.215333333333333, "grad_norm": 2.3418657779693604, "learning_rate": 3.886264097095222e-06, "loss": 0.2933, "step": 6646 }, { "epoch": 2.2156666666666665, "grad_norm": 2.9728403091430664, "learning_rate": 3.883195329165671e-06, "loss": 0.3206, "step": 6647 }, { "epoch": 2.216, "grad_norm": 3.0097579956054688, "learning_rate": 3.880127481376975e-06, "loss": 0.3305, "step": 6648 }, { "epoch": 2.2163333333333335, "grad_norm": 2.7563681602478027, "learning_rate": 3.8770605541906235e-06, "loss": 0.2934, "step": 6649 }, { "epoch": 2.216666666666667, "grad_norm": 2.5649211406707764, "learning_rate": 3.873994548067972e-06, "loss": 0.2465, "step": 6650 }, { "epoch": 2.217, "grad_norm": 2.496687173843384, "learning_rate": 3.8709294634702374e-06, "loss": 0.3337, "step": 6651 }, { "epoch": 2.2173333333333334, "grad_norm": 2.9856436252593994, "learning_rate": 3.867865300858489e-06, "loss": 0.3275, "step": 6652 }, { "epoch": 2.2176666666666667, "grad_norm": 2.2649550437927246, "learning_rate": 3.8648020606936676e-06, "loss": 0.2789, "step": 6653 }, { "epoch": 2.218, "grad_norm": 2.5028486251831055, "learning_rate": 3.861739743436575e-06, "loss": 0.3128, "step": 6654 }, { "epoch": 2.2183333333333333, "grad_norm": 2.4213452339172363, "learning_rate": 3.858678349547862e-06, "loss": 0.323, "step": 6655 }, { "epoch": 2.2186666666666666, "grad_norm": 2.59833025932312, "learning_rate": 3.855617879488054e-06, "loss": 0.3365, "step": 6656 }, { "epoch": 2.219, "grad_norm": 3.0114428997039795, "learning_rate": 3.852558333717536e-06, "loss": 0.3087, "step": 6657 }, { "epoch": 2.219333333333333, "grad_norm": 3.3359363079071045, "learning_rate": 3.849499712696545e-06, "loss": 0.3187, "step": 6658 }, { "epoch": 2.219666666666667, "grad_norm": 2.945455551147461, "learning_rate": 3.846442016885183e-06, "loss": 0.3081, "step": 6659 }, { "epoch": 2.22, "grad_norm": 3.587653398513794, "learning_rate": 3.8433852467434175e-06, "loss": 0.2914, "step": 6660 }, { "epoch": 2.2203333333333335, "grad_norm": 3.2927494049072266, "learning_rate": 3.840329402731077e-06, "loss": 0.2822, "step": 6661 }, { "epoch": 2.220666666666667, "grad_norm": 2.7695536613464355, "learning_rate": 3.837274485307838e-06, "loss": 0.2999, "step": 6662 }, { "epoch": 2.221, "grad_norm": 3.045480966567993, "learning_rate": 3.834220494933252e-06, "loss": 0.3419, "step": 6663 }, { "epoch": 2.2213333333333334, "grad_norm": 2.3415791988372803, "learning_rate": 3.831167432066726e-06, "loss": 0.2729, "step": 6664 }, { "epoch": 2.2216666666666667, "grad_norm": 3.6114466190338135, "learning_rate": 3.828115297167529e-06, "loss": 0.3219, "step": 6665 }, { "epoch": 2.222, "grad_norm": 2.808091402053833, "learning_rate": 3.825064090694785e-06, "loss": 0.3301, "step": 6666 }, { "epoch": 2.2223333333333333, "grad_norm": 2.8828938007354736, "learning_rate": 3.822013813107484e-06, "loss": 0.3045, "step": 6667 }, { "epoch": 2.2226666666666666, "grad_norm": 2.137385606765747, "learning_rate": 3.818964464864475e-06, "loss": 0.3034, "step": 6668 }, { "epoch": 2.223, "grad_norm": 2.857691764831543, "learning_rate": 3.81591604642446e-06, "loss": 0.3238, "step": 6669 }, { "epoch": 2.223333333333333, "grad_norm": 2.2954845428466797, "learning_rate": 3.8128685582460144e-06, "loss": 0.3117, "step": 6670 }, { "epoch": 2.2236666666666665, "grad_norm": 3.5412025451660156, "learning_rate": 3.809822000787564e-06, "loss": 0.3324, "step": 6671 }, { "epoch": 2.224, "grad_norm": 3.2278387546539307, "learning_rate": 3.8067763745074017e-06, "loss": 0.3006, "step": 6672 }, { "epoch": 2.2243333333333335, "grad_norm": 2.9415321350097656, "learning_rate": 3.803731679863669e-06, "loss": 0.3293, "step": 6673 }, { "epoch": 2.224666666666667, "grad_norm": 4.433736801147461, "learning_rate": 3.8006879173143784e-06, "loss": 0.3253, "step": 6674 }, { "epoch": 2.225, "grad_norm": 2.2546796798706055, "learning_rate": 3.797645087317401e-06, "loss": 0.2974, "step": 6675 }, { "epoch": 2.2253333333333334, "grad_norm": 2.6168253421783447, "learning_rate": 3.79460319033046e-06, "loss": 0.3129, "step": 6676 }, { "epoch": 2.2256666666666667, "grad_norm": 2.67207670211792, "learning_rate": 3.791562226811143e-06, "loss": 0.3043, "step": 6677 }, { "epoch": 2.226, "grad_norm": 3.178563117980957, "learning_rate": 3.7885221972168974e-06, "loss": 0.3038, "step": 6678 }, { "epoch": 2.2263333333333333, "grad_norm": 2.750715970993042, "learning_rate": 3.7854831020050343e-06, "loss": 0.2973, "step": 6679 }, { "epoch": 2.2266666666666666, "grad_norm": 5.833286285400391, "learning_rate": 3.7824449416327123e-06, "loss": 0.2961, "step": 6680 }, { "epoch": 2.227, "grad_norm": 3.725026845932007, "learning_rate": 3.779407716556962e-06, "loss": 0.3156, "step": 6681 }, { "epoch": 2.227333333333333, "grad_norm": 3.508746862411499, "learning_rate": 3.77637142723467e-06, "loss": 0.3002, "step": 6682 }, { "epoch": 2.2276666666666665, "grad_norm": 2.3252222537994385, "learning_rate": 3.7733360741225734e-06, "loss": 0.3212, "step": 6683 }, { "epoch": 2.228, "grad_norm": 2.8248581886291504, "learning_rate": 3.77030165767728e-06, "loss": 0.3236, "step": 6684 }, { "epoch": 2.2283333333333335, "grad_norm": 3.071352481842041, "learning_rate": 3.7672681783552557e-06, "loss": 0.2803, "step": 6685 }, { "epoch": 2.228666666666667, "grad_norm": 2.671156167984009, "learning_rate": 3.7642356366128165e-06, "loss": 0.3425, "step": 6686 }, { "epoch": 2.229, "grad_norm": 3.0220119953155518, "learning_rate": 3.7612040329061405e-06, "loss": 0.3299, "step": 6687 }, { "epoch": 2.2293333333333334, "grad_norm": 2.6258933544158936, "learning_rate": 3.7581733676912703e-06, "loss": 0.2781, "step": 6688 }, { "epoch": 2.2296666666666667, "grad_norm": 3.689681053161621, "learning_rate": 3.755143641424106e-06, "loss": 0.3188, "step": 6689 }, { "epoch": 2.23, "grad_norm": 3.5383760929107666, "learning_rate": 3.7521148545604003e-06, "loss": 0.3302, "step": 6690 }, { "epoch": 2.2303333333333333, "grad_norm": 2.782818555831909, "learning_rate": 3.749087007555768e-06, "loss": 0.3059, "step": 6691 }, { "epoch": 2.2306666666666666, "grad_norm": 2.8716835975646973, "learning_rate": 3.7460601008656873e-06, "loss": 0.3086, "step": 6692 }, { "epoch": 2.231, "grad_norm": 2.9410579204559326, "learning_rate": 3.7430341349454924e-06, "loss": 0.3154, "step": 6693 }, { "epoch": 2.231333333333333, "grad_norm": 4.441892147064209, "learning_rate": 3.7400091102503664e-06, "loss": 0.2931, "step": 6694 }, { "epoch": 2.2316666666666665, "grad_norm": 2.490243673324585, "learning_rate": 3.736985027235367e-06, "loss": 0.2723, "step": 6695 }, { "epoch": 2.232, "grad_norm": 2.449953556060791, "learning_rate": 3.7339618863553983e-06, "loss": 0.2954, "step": 6696 }, { "epoch": 2.2323333333333335, "grad_norm": 2.438344955444336, "learning_rate": 3.7309396880652238e-06, "loss": 0.3238, "step": 6697 }, { "epoch": 2.232666666666667, "grad_norm": 2.4569931030273438, "learning_rate": 3.7279184328194695e-06, "loss": 0.2977, "step": 6698 }, { "epoch": 2.233, "grad_norm": 3.0252320766448975, "learning_rate": 3.7248981210726186e-06, "loss": 0.2718, "step": 6699 }, { "epoch": 2.2333333333333334, "grad_norm": 3.107860803604126, "learning_rate": 3.7218787532790167e-06, "loss": 0.3122, "step": 6700 }, { "epoch": 2.2336666666666667, "grad_norm": 4.343075275421143, "learning_rate": 3.718860329892853e-06, "loss": 0.3273, "step": 6701 }, { "epoch": 2.234, "grad_norm": 2.456477642059326, "learning_rate": 3.7158428513681876e-06, "loss": 0.3282, "step": 6702 }, { "epoch": 2.2343333333333333, "grad_norm": 2.7611258029937744, "learning_rate": 3.7128263181589362e-06, "loss": 0.308, "step": 6703 }, { "epoch": 2.2346666666666666, "grad_norm": 3.6079659461975098, "learning_rate": 3.7098107307188745e-06, "loss": 0.3321, "step": 6704 }, { "epoch": 2.235, "grad_norm": 3.098569869995117, "learning_rate": 3.7067960895016277e-06, "loss": 0.3529, "step": 6705 }, { "epoch": 2.235333333333333, "grad_norm": 2.9094669818878174, "learning_rate": 3.70378239496068e-06, "loss": 0.3127, "step": 6706 }, { "epoch": 2.2356666666666665, "grad_norm": 2.7120769023895264, "learning_rate": 3.7007696475493838e-06, "loss": 0.2956, "step": 6707 }, { "epoch": 2.2359999999999998, "grad_norm": 2.2773547172546387, "learning_rate": 3.6977578477209352e-06, "loss": 0.2978, "step": 6708 }, { "epoch": 2.2363333333333335, "grad_norm": 2.146476984024048, "learning_rate": 3.6947469959283975e-06, "loss": 0.3173, "step": 6709 }, { "epoch": 2.236666666666667, "grad_norm": 3.2220048904418945, "learning_rate": 3.6917370926246877e-06, "loss": 0.3342, "step": 6710 }, { "epoch": 2.237, "grad_norm": 2.4846010208129883, "learning_rate": 3.6887281382625838e-06, "loss": 0.3184, "step": 6711 }, { "epoch": 2.2373333333333334, "grad_norm": 3.208467483520508, "learning_rate": 3.685720133294712e-06, "loss": 0.3181, "step": 6712 }, { "epoch": 2.2376666666666667, "grad_norm": 2.8994905948638916, "learning_rate": 3.6827130781735686e-06, "loss": 0.2944, "step": 6713 }, { "epoch": 2.238, "grad_norm": 2.587427854537964, "learning_rate": 3.679706973351491e-06, "loss": 0.3298, "step": 6714 }, { "epoch": 2.2383333333333333, "grad_norm": 2.192960023880005, "learning_rate": 3.6767018192806926e-06, "loss": 0.2673, "step": 6715 }, { "epoch": 2.2386666666666666, "grad_norm": 2.0718741416931152, "learning_rate": 3.6736976164132245e-06, "loss": 0.3337, "step": 6716 }, { "epoch": 2.239, "grad_norm": 3.171464681625366, "learning_rate": 3.6706943652010073e-06, "loss": 0.3155, "step": 6717 }, { "epoch": 2.239333333333333, "grad_norm": 2.978466749191284, "learning_rate": 3.6676920660958205e-06, "loss": 0.2817, "step": 6718 }, { "epoch": 2.2396666666666665, "grad_norm": 2.936885356903076, "learning_rate": 3.6646907195492866e-06, "loss": 0.3404, "step": 6719 }, { "epoch": 2.24, "grad_norm": 3.26621675491333, "learning_rate": 3.661690326012897e-06, "loss": 0.3098, "step": 6720 }, { "epoch": 2.2403333333333335, "grad_norm": 2.4500772953033447, "learning_rate": 3.658690885937999e-06, "loss": 0.3014, "step": 6721 }, { "epoch": 2.240666666666667, "grad_norm": 2.4058239459991455, "learning_rate": 3.655692399775788e-06, "loss": 0.3224, "step": 6722 }, { "epoch": 2.241, "grad_norm": 3.6463937759399414, "learning_rate": 3.6526948679773256e-06, "loss": 0.3329, "step": 6723 }, { "epoch": 2.2413333333333334, "grad_norm": 2.1723949909210205, "learning_rate": 3.6496982909935217e-06, "loss": 0.3143, "step": 6724 }, { "epoch": 2.2416666666666667, "grad_norm": 2.585686206817627, "learning_rate": 3.646702669275152e-06, "loss": 0.323, "step": 6725 }, { "epoch": 2.242, "grad_norm": 3.0546059608459473, "learning_rate": 3.6437080032728355e-06, "loss": 0.321, "step": 6726 }, { "epoch": 2.2423333333333333, "grad_norm": 4.546361446380615, "learning_rate": 3.6407142934370586e-06, "loss": 0.3611, "step": 6727 }, { "epoch": 2.2426666666666666, "grad_norm": 2.876508951187134, "learning_rate": 3.6377215402181653e-06, "loss": 0.3023, "step": 6728 }, { "epoch": 2.243, "grad_norm": 2.4084911346435547, "learning_rate": 3.634729744066341e-06, "loss": 0.2951, "step": 6729 }, { "epoch": 2.243333333333333, "grad_norm": 2.650728225708008, "learning_rate": 3.631738905431641e-06, "loss": 0.2895, "step": 6730 }, { "epoch": 2.2436666666666665, "grad_norm": 4.078126430511475, "learning_rate": 3.6287490247639734e-06, "loss": 0.3162, "step": 6731 }, { "epoch": 2.2439999999999998, "grad_norm": 3.161071300506592, "learning_rate": 3.625760102513103e-06, "loss": 0.3067, "step": 6732 }, { "epoch": 2.2443333333333335, "grad_norm": 2.5871946811676025, "learning_rate": 3.622772139128646e-06, "loss": 0.3207, "step": 6733 }, { "epoch": 2.244666666666667, "grad_norm": 2.192671537399292, "learning_rate": 3.6197851350600733e-06, "loss": 0.3161, "step": 6734 }, { "epoch": 2.245, "grad_norm": 2.809631586074829, "learning_rate": 3.6167990907567207e-06, "loss": 0.3338, "step": 6735 }, { "epoch": 2.2453333333333334, "grad_norm": 2.0807671546936035, "learning_rate": 3.6138140066677684e-06, "loss": 0.2662, "step": 6736 }, { "epoch": 2.2456666666666667, "grad_norm": 2.6048583984375, "learning_rate": 3.6108298832422606e-06, "loss": 0.3169, "step": 6737 }, { "epoch": 2.246, "grad_norm": 2.7043063640594482, "learning_rate": 3.6078467209290936e-06, "loss": 0.2854, "step": 6738 }, { "epoch": 2.2463333333333333, "grad_norm": 2.4115827083587646, "learning_rate": 3.604864520177024e-06, "loss": 0.3265, "step": 6739 }, { "epoch": 2.2466666666666666, "grad_norm": 2.684056043624878, "learning_rate": 3.6018832814346516e-06, "loss": 0.3531, "step": 6740 }, { "epoch": 2.247, "grad_norm": 2.3703837394714355, "learning_rate": 3.598903005150444e-06, "loss": 0.2631, "step": 6741 }, { "epoch": 2.247333333333333, "grad_norm": 3.5121865272521973, "learning_rate": 3.5959236917727213e-06, "loss": 0.3258, "step": 6742 }, { "epoch": 2.2476666666666665, "grad_norm": 2.227701187133789, "learning_rate": 3.592945341749653e-06, "loss": 0.3218, "step": 6743 }, { "epoch": 2.248, "grad_norm": 2.2316582202911377, "learning_rate": 3.5899679555292654e-06, "loss": 0.3147, "step": 6744 }, { "epoch": 2.2483333333333335, "grad_norm": 3.006098985671997, "learning_rate": 3.586991533559445e-06, "loss": 0.3072, "step": 6745 }, { "epoch": 2.248666666666667, "grad_norm": 2.643861770629883, "learning_rate": 3.584016076287933e-06, "loss": 0.343, "step": 6746 }, { "epoch": 2.249, "grad_norm": 2.3770487308502197, "learning_rate": 3.5810415841623146e-06, "loss": 0.3284, "step": 6747 }, { "epoch": 2.2493333333333334, "grad_norm": 3.547746419906616, "learning_rate": 3.578068057630043e-06, "loss": 0.3191, "step": 6748 }, { "epoch": 2.2496666666666667, "grad_norm": 2.6753885746002197, "learning_rate": 3.5750954971384233e-06, "loss": 0.2938, "step": 6749 }, { "epoch": 2.25, "grad_norm": 2.330566644668579, "learning_rate": 3.5721239031346067e-06, "loss": 0.3419, "step": 6750 }, { "epoch": 2.2503333333333333, "grad_norm": 2.3958606719970703, "learning_rate": 3.569153276065609e-06, "loss": 0.3019, "step": 6751 }, { "epoch": 2.2506666666666666, "grad_norm": 2.306229829788208, "learning_rate": 3.566183616378298e-06, "loss": 0.3011, "step": 6752 }, { "epoch": 2.251, "grad_norm": 3.316742181777954, "learning_rate": 3.563214924519394e-06, "loss": 0.2805, "step": 6753 }, { "epoch": 2.251333333333333, "grad_norm": 3.8145294189453125, "learning_rate": 3.560247200935466e-06, "loss": 0.2931, "step": 6754 }, { "epoch": 2.2516666666666665, "grad_norm": 2.514345169067383, "learning_rate": 3.5572804460729505e-06, "loss": 0.3092, "step": 6755 }, { "epoch": 2.252, "grad_norm": 3.1563832759857178, "learning_rate": 3.554314660378133e-06, "loss": 0.3132, "step": 6756 }, { "epoch": 2.2523333333333335, "grad_norm": 3.1058907508850098, "learning_rate": 3.551349844297145e-06, "loss": 0.2989, "step": 6757 }, { "epoch": 2.252666666666667, "grad_norm": 2.825812578201294, "learning_rate": 3.548385998275983e-06, "loss": 0.3282, "step": 6758 }, { "epoch": 2.253, "grad_norm": 2.5203042030334473, "learning_rate": 3.545423122760493e-06, "loss": 0.324, "step": 6759 }, { "epoch": 2.2533333333333334, "grad_norm": 3.103494644165039, "learning_rate": 3.542461218196379e-06, "loss": 0.322, "step": 6760 }, { "epoch": 2.2536666666666667, "grad_norm": 2.1711745262145996, "learning_rate": 3.539500285029188e-06, "loss": 0.3067, "step": 6761 }, { "epoch": 2.254, "grad_norm": 2.614548444747925, "learning_rate": 3.5365403237043373e-06, "loss": 0.3158, "step": 6762 }, { "epoch": 2.2543333333333333, "grad_norm": 3.09328556060791, "learning_rate": 3.5335813346670823e-06, "loss": 0.3286, "step": 6763 }, { "epoch": 2.2546666666666666, "grad_norm": 2.9532129764556885, "learning_rate": 3.5306233183625384e-06, "loss": 0.3316, "step": 6764 }, { "epoch": 2.255, "grad_norm": 2.718792200088501, "learning_rate": 3.527666275235677e-06, "loss": 0.3333, "step": 6765 }, { "epoch": 2.255333333333333, "grad_norm": 3.0884170532226562, "learning_rate": 3.524710205731321e-06, "loss": 0.3279, "step": 6766 }, { "epoch": 2.2556666666666665, "grad_norm": 2.277388572692871, "learning_rate": 3.5217551102941516e-06, "loss": 0.3162, "step": 6767 }, { "epoch": 2.2560000000000002, "grad_norm": 3.054852247238159, "learning_rate": 3.5188009893686916e-06, "loss": 0.318, "step": 6768 }, { "epoch": 2.2563333333333335, "grad_norm": 2.338610887527466, "learning_rate": 3.515847843399327e-06, "loss": 0.2766, "step": 6769 }, { "epoch": 2.256666666666667, "grad_norm": 2.819277286529541, "learning_rate": 3.5128956728303e-06, "loss": 0.2994, "step": 6770 }, { "epoch": 2.257, "grad_norm": 2.7023627758026123, "learning_rate": 3.5099444781056956e-06, "loss": 0.3214, "step": 6771 }, { "epoch": 2.2573333333333334, "grad_norm": 2.528679847717285, "learning_rate": 3.506994259669455e-06, "loss": 0.314, "step": 6772 }, { "epoch": 2.2576666666666667, "grad_norm": 2.3192050457000732, "learning_rate": 3.5040450179653774e-06, "loss": 0.2871, "step": 6773 }, { "epoch": 2.258, "grad_norm": 2.611470937728882, "learning_rate": 3.5010967534371167e-06, "loss": 0.3419, "step": 6774 }, { "epoch": 2.2583333333333333, "grad_norm": 2.537414312362671, "learning_rate": 3.4981494665281666e-06, "loss": 0.3119, "step": 6775 }, { "epoch": 2.2586666666666666, "grad_norm": 2.4684865474700928, "learning_rate": 3.4952031576818877e-06, "loss": 0.3267, "step": 6776 }, { "epoch": 2.259, "grad_norm": 2.3377537727355957, "learning_rate": 3.492257827341492e-06, "loss": 0.2896, "step": 6777 }, { "epoch": 2.259333333333333, "grad_norm": 2.9534332752227783, "learning_rate": 3.4893134759500335e-06, "loss": 0.3103, "step": 6778 }, { "epoch": 2.2596666666666665, "grad_norm": 2.7164156436920166, "learning_rate": 3.4863701039504293e-06, "loss": 0.2883, "step": 6779 }, { "epoch": 2.26, "grad_norm": 2.8613710403442383, "learning_rate": 3.483427711785449e-06, "loss": 0.3079, "step": 6780 }, { "epoch": 2.2603333333333335, "grad_norm": 2.6882922649383545, "learning_rate": 3.4804862998977096e-06, "loss": 0.3139, "step": 6781 }, { "epoch": 2.260666666666667, "grad_norm": 2.610339879989624, "learning_rate": 3.4775458687296783e-06, "loss": 0.31, "step": 6782 }, { "epoch": 2.261, "grad_norm": 2.736382484436035, "learning_rate": 3.474606418723683e-06, "loss": 0.2968, "step": 6783 }, { "epoch": 2.2613333333333334, "grad_norm": 2.8446872234344482, "learning_rate": 3.471667950321904e-06, "loss": 0.2986, "step": 6784 }, { "epoch": 2.2616666666666667, "grad_norm": 3.425736427307129, "learning_rate": 3.4687304639663634e-06, "loss": 0.2832, "step": 6785 }, { "epoch": 2.262, "grad_norm": 3.323076009750366, "learning_rate": 3.4657939600989453e-06, "loss": 0.3272, "step": 6786 }, { "epoch": 2.2623333333333333, "grad_norm": 2.274257183074951, "learning_rate": 3.4628584391613852e-06, "loss": 0.2941, "step": 6787 }, { "epoch": 2.2626666666666666, "grad_norm": 2.460505962371826, "learning_rate": 3.4599239015952692e-06, "loss": 0.3306, "step": 6788 }, { "epoch": 2.263, "grad_norm": 2.823204517364502, "learning_rate": 3.45699034784203e-06, "loss": 0.3368, "step": 6789 }, { "epoch": 2.263333333333333, "grad_norm": 3.0486226081848145, "learning_rate": 3.454057778342963e-06, "loss": 0.3047, "step": 6790 }, { "epoch": 2.2636666666666665, "grad_norm": 2.262373685836792, "learning_rate": 3.451126193539207e-06, "loss": 0.2588, "step": 6791 }, { "epoch": 2.2640000000000002, "grad_norm": 2.5864408016204834, "learning_rate": 3.4481955938717514e-06, "loss": 0.3142, "step": 6792 }, { "epoch": 2.264333333333333, "grad_norm": 2.863354206085205, "learning_rate": 3.445265979781447e-06, "loss": 0.3097, "step": 6793 }, { "epoch": 2.264666666666667, "grad_norm": 2.5583205223083496, "learning_rate": 3.4423373517089887e-06, "loss": 0.2934, "step": 6794 }, { "epoch": 2.265, "grad_norm": 2.8699965476989746, "learning_rate": 3.4394097100949286e-06, "loss": 0.3037, "step": 6795 }, { "epoch": 2.2653333333333334, "grad_norm": 3.7535433769226074, "learning_rate": 3.4364830553796614e-06, "loss": 0.3238, "step": 6796 }, { "epoch": 2.2656666666666667, "grad_norm": 2.3676323890686035, "learning_rate": 3.4335573880034424e-06, "loss": 0.2899, "step": 6797 }, { "epoch": 2.266, "grad_norm": 3.002953290939331, "learning_rate": 3.4306327084063762e-06, "loss": 0.311, "step": 6798 }, { "epoch": 2.2663333333333333, "grad_norm": 2.678706169128418, "learning_rate": 3.427709017028413e-06, "loss": 0.3188, "step": 6799 }, { "epoch": 2.2666666666666666, "grad_norm": 3.2556445598602295, "learning_rate": 3.424786314309365e-06, "loss": 0.2856, "step": 6800 }, { "epoch": 2.267, "grad_norm": 2.820913314819336, "learning_rate": 3.4218646006888836e-06, "loss": 0.282, "step": 6801 }, { "epoch": 2.267333333333333, "grad_norm": 2.776272773742676, "learning_rate": 3.418943876606482e-06, "loss": 0.2981, "step": 6802 }, { "epoch": 2.2676666666666665, "grad_norm": 2.6000730991363525, "learning_rate": 3.416024142501514e-06, "loss": 0.3007, "step": 6803 }, { "epoch": 2.268, "grad_norm": 3.1941165924072266, "learning_rate": 3.4131053988131947e-06, "loss": 0.3087, "step": 6804 }, { "epoch": 2.2683333333333335, "grad_norm": 2.4755945205688477, "learning_rate": 3.4101876459805892e-06, "loss": 0.2816, "step": 6805 }, { "epoch": 2.268666666666667, "grad_norm": 4.5087080001831055, "learning_rate": 3.407270884442603e-06, "loss": 0.2902, "step": 6806 }, { "epoch": 2.269, "grad_norm": 2.766005277633667, "learning_rate": 3.4043551146380026e-06, "loss": 0.3428, "step": 6807 }, { "epoch": 2.2693333333333334, "grad_norm": 2.4697422981262207, "learning_rate": 3.401440337005406e-06, "loss": 0.3127, "step": 6808 }, { "epoch": 2.2696666666666667, "grad_norm": 2.3318581581115723, "learning_rate": 3.398526551983273e-06, "loss": 0.2986, "step": 6809 }, { "epoch": 2.27, "grad_norm": 4.22735071182251, "learning_rate": 3.3956137600099248e-06, "loss": 0.3083, "step": 6810 }, { "epoch": 2.2703333333333333, "grad_norm": 3.069761037826538, "learning_rate": 3.3927019615235222e-06, "loss": 0.3199, "step": 6811 }, { "epoch": 2.2706666666666666, "grad_norm": 3.7384755611419678, "learning_rate": 3.389791156962088e-06, "loss": 0.2927, "step": 6812 }, { "epoch": 2.271, "grad_norm": 2.230895519256592, "learning_rate": 3.3868813467634833e-06, "loss": 0.2951, "step": 6813 }, { "epoch": 2.271333333333333, "grad_norm": 2.795734167098999, "learning_rate": 3.383972531365429e-06, "loss": 0.2692, "step": 6814 }, { "epoch": 2.2716666666666665, "grad_norm": 2.940797805786133, "learning_rate": 3.381064711205495e-06, "loss": 0.2909, "step": 6815 }, { "epoch": 2.2720000000000002, "grad_norm": 3.016238212585449, "learning_rate": 3.3781578867211016e-06, "loss": 0.3005, "step": 6816 }, { "epoch": 2.272333333333333, "grad_norm": 3.077134609222412, "learning_rate": 3.375252058349511e-06, "loss": 0.3307, "step": 6817 }, { "epoch": 2.272666666666667, "grad_norm": 2.6083004474639893, "learning_rate": 3.37234722652785e-06, "loss": 0.3305, "step": 6818 }, { "epoch": 2.273, "grad_norm": 2.4174234867095947, "learning_rate": 3.3694433916930803e-06, "loss": 0.2923, "step": 6819 }, { "epoch": 2.2733333333333334, "grad_norm": 3.327345609664917, "learning_rate": 3.3665405542820283e-06, "loss": 0.3222, "step": 6820 }, { "epoch": 2.2736666666666667, "grad_norm": 4.187863826751709, "learning_rate": 3.3636387147313553e-06, "loss": 0.31, "step": 6821 }, { "epoch": 2.274, "grad_norm": 2.9633631706237793, "learning_rate": 3.360737873477584e-06, "loss": 0.3459, "step": 6822 }, { "epoch": 2.2743333333333333, "grad_norm": 2.7503280639648438, "learning_rate": 3.3578380309570866e-06, "loss": 0.2892, "step": 6823 }, { "epoch": 2.2746666666666666, "grad_norm": 2.6781487464904785, "learning_rate": 3.3549391876060756e-06, "loss": 0.33, "step": 6824 }, { "epoch": 2.275, "grad_norm": 2.933464527130127, "learning_rate": 3.3520413438606215e-06, "loss": 0.3182, "step": 6825 }, { "epoch": 2.275333333333333, "grad_norm": 2.9607434272766113, "learning_rate": 3.349144500156646e-06, "loss": 0.3205, "step": 6826 }, { "epoch": 2.2756666666666665, "grad_norm": 2.299171209335327, "learning_rate": 3.346248656929909e-06, "loss": 0.2924, "step": 6827 }, { "epoch": 2.276, "grad_norm": 2.339345932006836, "learning_rate": 3.343353814616036e-06, "loss": 0.2972, "step": 6828 }, { "epoch": 2.2763333333333335, "grad_norm": 3.3758294582366943, "learning_rate": 3.340459973650485e-06, "loss": 0.3028, "step": 6829 }, { "epoch": 2.276666666666667, "grad_norm": 2.8642418384552, "learning_rate": 3.337567134468579e-06, "loss": 0.2956, "step": 6830 }, { "epoch": 2.277, "grad_norm": 2.528581380844116, "learning_rate": 3.3346752975054763e-06, "loss": 0.3088, "step": 6831 }, { "epoch": 2.2773333333333334, "grad_norm": 2.425318956375122, "learning_rate": 3.331784463196195e-06, "loss": 0.2997, "step": 6832 }, { "epoch": 2.2776666666666667, "grad_norm": 2.382843494415283, "learning_rate": 3.3288946319756012e-06, "loss": 0.2859, "step": 6833 }, { "epoch": 2.278, "grad_norm": 2.308413505554199, "learning_rate": 3.3260058042784014e-06, "loss": 0.2967, "step": 6834 }, { "epoch": 2.2783333333333333, "grad_norm": 2.748220443725586, "learning_rate": 3.32311798053916e-06, "loss": 0.3045, "step": 6835 }, { "epoch": 2.2786666666666666, "grad_norm": 2.4382998943328857, "learning_rate": 3.3202311611922878e-06, "loss": 0.2819, "step": 6836 }, { "epoch": 2.279, "grad_norm": 2.1153926849365234, "learning_rate": 3.3173453466720473e-06, "loss": 0.2532, "step": 6837 }, { "epoch": 2.279333333333333, "grad_norm": 2.6180083751678467, "learning_rate": 3.3144605374125437e-06, "loss": 0.3278, "step": 6838 }, { "epoch": 2.2796666666666665, "grad_norm": 2.3891682624816895, "learning_rate": 3.3115767338477313e-06, "loss": 0.3056, "step": 6839 }, { "epoch": 2.2800000000000002, "grad_norm": 2.8131840229034424, "learning_rate": 3.308693936411421e-06, "loss": 0.3207, "step": 6840 }, { "epoch": 2.280333333333333, "grad_norm": 2.6188840866088867, "learning_rate": 3.3058121455372625e-06, "loss": 0.3258, "step": 6841 }, { "epoch": 2.280666666666667, "grad_norm": 2.302368402481079, "learning_rate": 3.302931361658761e-06, "loss": 0.2969, "step": 6842 }, { "epoch": 2.281, "grad_norm": 3.307961940765381, "learning_rate": 3.3000515852092684e-06, "loss": 0.3101, "step": 6843 }, { "epoch": 2.2813333333333334, "grad_norm": 2.176194667816162, "learning_rate": 3.2971728166219894e-06, "loss": 0.3199, "step": 6844 }, { "epoch": 2.2816666666666667, "grad_norm": 3.395460844039917, "learning_rate": 3.2942950563299636e-06, "loss": 0.3092, "step": 6845 }, { "epoch": 2.282, "grad_norm": 2.92580509185791, "learning_rate": 3.291418304766092e-06, "loss": 0.3077, "step": 6846 }, { "epoch": 2.2823333333333333, "grad_norm": 2.2706339359283447, "learning_rate": 3.288542562363123e-06, "loss": 0.2833, "step": 6847 }, { "epoch": 2.2826666666666666, "grad_norm": 3.7567710876464844, "learning_rate": 3.285667829553646e-06, "loss": 0.2802, "step": 6848 }, { "epoch": 2.283, "grad_norm": 3.1334192752838135, "learning_rate": 3.2827941067700996e-06, "loss": 0.3275, "step": 6849 }, { "epoch": 2.283333333333333, "grad_norm": 2.515042543411255, "learning_rate": 3.279921394444776e-06, "loss": 0.2608, "step": 6850 }, { "epoch": 2.2836666666666665, "grad_norm": 2.9491562843322754, "learning_rate": 3.277049693009816e-06, "loss": 0.3209, "step": 6851 }, { "epoch": 2.284, "grad_norm": 2.7624781131744385, "learning_rate": 3.2741790028972e-06, "loss": 0.3142, "step": 6852 }, { "epoch": 2.2843333333333335, "grad_norm": 2.824052333831787, "learning_rate": 3.2713093245387615e-06, "loss": 0.3332, "step": 6853 }, { "epoch": 2.284666666666667, "grad_norm": 3.23064923286438, "learning_rate": 3.2684406583661865e-06, "loss": 0.2681, "step": 6854 }, { "epoch": 2.285, "grad_norm": 2.577172040939331, "learning_rate": 3.265573004810997e-06, "loss": 0.2734, "step": 6855 }, { "epoch": 2.2853333333333334, "grad_norm": 2.6760857105255127, "learning_rate": 3.262706364304575e-06, "loss": 0.2753, "step": 6856 }, { "epoch": 2.2856666666666667, "grad_norm": 2.907047986984253, "learning_rate": 3.2598407372781406e-06, "loss": 0.3125, "step": 6857 }, { "epoch": 2.286, "grad_norm": 2.4280457496643066, "learning_rate": 3.2569761241627694e-06, "loss": 0.3211, "step": 6858 }, { "epoch": 2.2863333333333333, "grad_norm": 2.3351261615753174, "learning_rate": 3.2541125253893746e-06, "loss": 0.3086, "step": 6859 }, { "epoch": 2.2866666666666666, "grad_norm": 2.3746354579925537, "learning_rate": 3.2512499413887255e-06, "loss": 0.2655, "step": 6860 }, { "epoch": 2.287, "grad_norm": 2.6818039417266846, "learning_rate": 3.24838837259144e-06, "loss": 0.3176, "step": 6861 }, { "epoch": 2.287333333333333, "grad_norm": 2.4004108905792236, "learning_rate": 3.2455278194279718e-06, "loss": 0.3078, "step": 6862 }, { "epoch": 2.2876666666666665, "grad_norm": 3.397630214691162, "learning_rate": 3.2426682823286338e-06, "loss": 0.3184, "step": 6863 }, { "epoch": 2.288, "grad_norm": 4.159147262573242, "learning_rate": 3.239809761723579e-06, "loss": 0.2981, "step": 6864 }, { "epoch": 2.288333333333333, "grad_norm": 3.225677728652954, "learning_rate": 3.2369522580428157e-06, "loss": 0.3175, "step": 6865 }, { "epoch": 2.288666666666667, "grad_norm": 2.3308305740356445, "learning_rate": 3.23409577171619e-06, "loss": 0.3004, "step": 6866 }, { "epoch": 2.289, "grad_norm": 2.848614454269409, "learning_rate": 3.2312403031733943e-06, "loss": 0.3345, "step": 6867 }, { "epoch": 2.2893333333333334, "grad_norm": 2.830826997756958, "learning_rate": 3.2283858528439783e-06, "loss": 0.3178, "step": 6868 }, { "epoch": 2.2896666666666667, "grad_norm": 2.6296017169952393, "learning_rate": 3.225532421157326e-06, "loss": 0.316, "step": 6869 }, { "epoch": 2.29, "grad_norm": 3.3206212520599365, "learning_rate": 3.222680008542678e-06, "loss": 0.2731, "step": 6870 }, { "epoch": 2.2903333333333333, "grad_norm": 2.4796102046966553, "learning_rate": 3.219828615429118e-06, "loss": 0.2688, "step": 6871 }, { "epoch": 2.2906666666666666, "grad_norm": 2.65812349319458, "learning_rate": 3.2169782422455798e-06, "loss": 0.3369, "step": 6872 }, { "epoch": 2.291, "grad_norm": 2.8637261390686035, "learning_rate": 3.2141288894208334e-06, "loss": 0.2945, "step": 6873 }, { "epoch": 2.291333333333333, "grad_norm": 2.139503002166748, "learning_rate": 3.211280557383505e-06, "loss": 0.2521, "step": 6874 }, { "epoch": 2.2916666666666665, "grad_norm": 2.737610101699829, "learning_rate": 3.2084332465620692e-06, "loss": 0.3053, "step": 6875 }, { "epoch": 2.292, "grad_norm": 2.5544679164886475, "learning_rate": 3.2055869573848374e-06, "loss": 0.3163, "step": 6876 }, { "epoch": 2.2923333333333336, "grad_norm": 2.521758556365967, "learning_rate": 3.2027416902799703e-06, "loss": 0.3093, "step": 6877 }, { "epoch": 2.292666666666667, "grad_norm": 2.3860630989074707, "learning_rate": 3.1998974456754796e-06, "loss": 0.3008, "step": 6878 }, { "epoch": 2.293, "grad_norm": 3.0502893924713135, "learning_rate": 3.1970542239992244e-06, "loss": 0.2956, "step": 6879 }, { "epoch": 2.2933333333333334, "grad_norm": 2.4822258949279785, "learning_rate": 3.1942120256788966e-06, "loss": 0.2705, "step": 6880 }, { "epoch": 2.2936666666666667, "grad_norm": 3.3118841648101807, "learning_rate": 3.1913708511420494e-06, "loss": 0.3367, "step": 6881 }, { "epoch": 2.294, "grad_norm": 2.413350820541382, "learning_rate": 3.188530700816078e-06, "loss": 0.3158, "step": 6882 }, { "epoch": 2.2943333333333333, "grad_norm": 2.3158397674560547, "learning_rate": 3.1856915751282157e-06, "loss": 0.3162, "step": 6883 }, { "epoch": 2.2946666666666666, "grad_norm": 4.365043640136719, "learning_rate": 3.1828534745055504e-06, "loss": 0.3225, "step": 6884 }, { "epoch": 2.295, "grad_norm": 2.5120856761932373, "learning_rate": 3.1800163993750166e-06, "loss": 0.3129, "step": 6885 }, { "epoch": 2.2953333333333332, "grad_norm": 2.4657318592071533, "learning_rate": 3.177180350163387e-06, "loss": 0.3363, "step": 6886 }, { "epoch": 2.2956666666666665, "grad_norm": 2.8968122005462646, "learning_rate": 3.1743453272972802e-06, "loss": 0.3207, "step": 6887 }, { "epoch": 2.296, "grad_norm": 3.5952649116516113, "learning_rate": 3.1715113312031674e-06, "loss": 0.3269, "step": 6888 }, { "epoch": 2.296333333333333, "grad_norm": 2.8532211780548096, "learning_rate": 3.1686783623073636e-06, "loss": 0.3053, "step": 6889 }, { "epoch": 2.296666666666667, "grad_norm": 2.9649903774261475, "learning_rate": 3.1658464210360285e-06, "loss": 0.3059, "step": 6890 }, { "epoch": 2.297, "grad_norm": 2.5795485973358154, "learning_rate": 3.1630155078151626e-06, "loss": 0.3083, "step": 6891 }, { "epoch": 2.2973333333333334, "grad_norm": 3.2571935653686523, "learning_rate": 3.160185623070616e-06, "loss": 0.3378, "step": 6892 }, { "epoch": 2.2976666666666667, "grad_norm": 2.244967460632324, "learning_rate": 3.157356767228088e-06, "loss": 0.2857, "step": 6893 }, { "epoch": 2.298, "grad_norm": 4.009808540344238, "learning_rate": 3.1545289407131128e-06, "loss": 0.297, "step": 6894 }, { "epoch": 2.2983333333333333, "grad_norm": 2.4451117515563965, "learning_rate": 3.151702143951082e-06, "loss": 0.3005, "step": 6895 }, { "epoch": 2.2986666666666666, "grad_norm": 2.529841899871826, "learning_rate": 3.1488763773672182e-06, "loss": 0.3122, "step": 6896 }, { "epoch": 2.299, "grad_norm": 3.4300012588500977, "learning_rate": 3.146051641386605e-06, "loss": 0.3126, "step": 6897 }, { "epoch": 2.2993333333333332, "grad_norm": 3.7080392837524414, "learning_rate": 3.1432279364341556e-06, "loss": 0.3282, "step": 6898 }, { "epoch": 2.2996666666666665, "grad_norm": 3.356011152267456, "learning_rate": 3.140405262934638e-06, "loss": 0.306, "step": 6899 }, { "epoch": 2.3, "grad_norm": 2.5845823287963867, "learning_rate": 3.1375836213126653e-06, "loss": 0.3217, "step": 6900 }, { "epoch": 2.3003333333333336, "grad_norm": 2.4755091667175293, "learning_rate": 3.1347630119926885e-06, "loss": 0.3, "step": 6901 }, { "epoch": 2.300666666666667, "grad_norm": 2.554642677307129, "learning_rate": 3.1319434353990073e-06, "loss": 0.3379, "step": 6902 }, { "epoch": 2.301, "grad_norm": 2.6383919715881348, "learning_rate": 3.1291248919557717e-06, "loss": 0.3341, "step": 6903 }, { "epoch": 2.3013333333333335, "grad_norm": 2.4850571155548096, "learning_rate": 3.1263073820869614e-06, "loss": 0.3318, "step": 6904 }, { "epoch": 2.3016666666666667, "grad_norm": 2.6201577186584473, "learning_rate": 3.1234909062164187e-06, "loss": 0.2593, "step": 6905 }, { "epoch": 2.302, "grad_norm": 3.4612877368927, "learning_rate": 3.1206754647678137e-06, "loss": 0.2937, "step": 6906 }, { "epoch": 2.3023333333333333, "grad_norm": 3.3667445182800293, "learning_rate": 3.117861058164676e-06, "loss": 0.3445, "step": 6907 }, { "epoch": 2.3026666666666666, "grad_norm": 2.3198397159576416, "learning_rate": 3.115047686830365e-06, "loss": 0.317, "step": 6908 }, { "epoch": 2.303, "grad_norm": 2.3976964950561523, "learning_rate": 3.1122353511880943e-06, "loss": 0.2415, "step": 6909 }, { "epoch": 2.3033333333333332, "grad_norm": 3.0523228645324707, "learning_rate": 3.10942405166092e-06, "loss": 0.3105, "step": 6910 }, { "epoch": 2.3036666666666665, "grad_norm": 3.3714916706085205, "learning_rate": 3.106613788671743e-06, "loss": 0.3136, "step": 6911 }, { "epoch": 2.304, "grad_norm": 2.616513729095459, "learning_rate": 3.103804562643302e-06, "loss": 0.3021, "step": 6912 }, { "epoch": 2.304333333333333, "grad_norm": 3.1974258422851562, "learning_rate": 3.1009963739981884e-06, "loss": 0.3278, "step": 6913 }, { "epoch": 2.304666666666667, "grad_norm": 2.466256618499756, "learning_rate": 3.098189223158833e-06, "loss": 0.3199, "step": 6914 }, { "epoch": 2.305, "grad_norm": 3.883256673812866, "learning_rate": 3.0953831105475064e-06, "loss": 0.2772, "step": 6915 }, { "epoch": 2.3053333333333335, "grad_norm": 2.501699447631836, "learning_rate": 3.092578036586329e-06, "loss": 0.3098, "step": 6916 }, { "epoch": 2.3056666666666668, "grad_norm": 2.443871259689331, "learning_rate": 3.0897740016972653e-06, "loss": 0.3151, "step": 6917 }, { "epoch": 2.306, "grad_norm": 2.6518959999084473, "learning_rate": 3.086971006302125e-06, "loss": 0.2868, "step": 6918 }, { "epoch": 2.3063333333333333, "grad_norm": 2.1978132724761963, "learning_rate": 3.084169050822551e-06, "loss": 0.2817, "step": 6919 }, { "epoch": 2.3066666666666666, "grad_norm": 2.8731696605682373, "learning_rate": 3.081368135680041e-06, "loss": 0.3382, "step": 6920 }, { "epoch": 2.307, "grad_norm": 2.508331537246704, "learning_rate": 3.0785682612959334e-06, "loss": 0.2533, "step": 6921 }, { "epoch": 2.3073333333333332, "grad_norm": 2.5841879844665527, "learning_rate": 3.075769428091403e-06, "loss": 0.3053, "step": 6922 }, { "epoch": 2.3076666666666665, "grad_norm": 2.817939519882202, "learning_rate": 3.072971636487482e-06, "loss": 0.3532, "step": 6923 }, { "epoch": 2.308, "grad_norm": 2.8299567699432373, "learning_rate": 3.0701748869050285e-06, "loss": 0.3083, "step": 6924 }, { "epoch": 2.3083333333333336, "grad_norm": 2.388416290283203, "learning_rate": 3.0673791797647602e-06, "loss": 0.2801, "step": 6925 }, { "epoch": 2.3086666666666664, "grad_norm": 2.2634236812591553, "learning_rate": 3.0645845154872245e-06, "loss": 0.2934, "step": 6926 }, { "epoch": 2.309, "grad_norm": 3.5662200450897217, "learning_rate": 3.0617908944928223e-06, "loss": 0.3106, "step": 6927 }, { "epoch": 2.3093333333333335, "grad_norm": 2.2848622798919678, "learning_rate": 3.0589983172017954e-06, "loss": 0.3481, "step": 6928 }, { "epoch": 2.3096666666666668, "grad_norm": 2.5648131370544434, "learning_rate": 3.0562067840342202e-06, "loss": 0.3168, "step": 6929 }, { "epoch": 2.31, "grad_norm": 2.432100534439087, "learning_rate": 3.0534162954100264e-06, "loss": 0.3015, "step": 6930 }, { "epoch": 2.3103333333333333, "grad_norm": 2.5909132957458496, "learning_rate": 3.0506268517489823e-06, "loss": 0.3065, "step": 6931 }, { "epoch": 2.3106666666666666, "grad_norm": 2.5086257457733154, "learning_rate": 3.0478384534707016e-06, "loss": 0.2928, "step": 6932 }, { "epoch": 2.311, "grad_norm": 2.52023983001709, "learning_rate": 3.0450511009946373e-06, "loss": 0.3102, "step": 6933 }, { "epoch": 2.3113333333333332, "grad_norm": 2.1481661796569824, "learning_rate": 3.0422647947400807e-06, "loss": 0.2914, "step": 6934 }, { "epoch": 2.3116666666666665, "grad_norm": 2.586413860321045, "learning_rate": 3.03947953512618e-06, "loss": 0.3464, "step": 6935 }, { "epoch": 2.312, "grad_norm": 2.70509934425354, "learning_rate": 3.0366953225719076e-06, "loss": 0.3126, "step": 6936 }, { "epoch": 2.312333333333333, "grad_norm": 2.4773757457733154, "learning_rate": 3.033912157496095e-06, "loss": 0.2643, "step": 6937 }, { "epoch": 2.312666666666667, "grad_norm": 2.436375141143799, "learning_rate": 3.031130040317406e-06, "loss": 0.3203, "step": 6938 }, { "epoch": 2.313, "grad_norm": 3.083599090576172, "learning_rate": 3.028348971454356e-06, "loss": 0.3204, "step": 6939 }, { "epoch": 2.3133333333333335, "grad_norm": 2.2388877868652344, "learning_rate": 3.0255689513252873e-06, "loss": 0.2959, "step": 6940 }, { "epoch": 2.3136666666666668, "grad_norm": 2.9548981189727783, "learning_rate": 3.0227899803483984e-06, "loss": 0.3203, "step": 6941 }, { "epoch": 2.314, "grad_norm": 2.6259536743164062, "learning_rate": 3.0200120589417293e-06, "loss": 0.3411, "step": 6942 }, { "epoch": 2.3143333333333334, "grad_norm": 2.440157413482666, "learning_rate": 3.0172351875231533e-06, "loss": 0.2973, "step": 6943 }, { "epoch": 2.3146666666666667, "grad_norm": 2.8167598247528076, "learning_rate": 3.0144593665103885e-06, "loss": 0.2922, "step": 6944 }, { "epoch": 2.315, "grad_norm": 2.607630968093872, "learning_rate": 3.0116845963209996e-06, "loss": 0.3064, "step": 6945 }, { "epoch": 2.3153333333333332, "grad_norm": 3.233583688735962, "learning_rate": 3.008910877372395e-06, "loss": 0.2983, "step": 6946 }, { "epoch": 2.3156666666666665, "grad_norm": 2.4617326259613037, "learning_rate": 3.0061382100818126e-06, "loss": 0.2559, "step": 6947 }, { "epoch": 2.316, "grad_norm": 3.3474810123443604, "learning_rate": 3.003366594866345e-06, "loss": 0.294, "step": 6948 }, { "epoch": 2.3163333333333336, "grad_norm": 2.9585494995117188, "learning_rate": 3.000596032142924e-06, "loss": 0.2774, "step": 6949 }, { "epoch": 2.3166666666666664, "grad_norm": 3.339731454849243, "learning_rate": 2.9978265223283152e-06, "loss": 0.3325, "step": 6950 }, { "epoch": 2.317, "grad_norm": 2.8689427375793457, "learning_rate": 2.995058065839136e-06, "loss": 0.3228, "step": 6951 }, { "epoch": 2.3173333333333335, "grad_norm": 3.3707120418548584, "learning_rate": 2.992290663091837e-06, "loss": 0.3018, "step": 6952 }, { "epoch": 2.3176666666666668, "grad_norm": 2.7263782024383545, "learning_rate": 2.9895243145027177e-06, "loss": 0.3067, "step": 6953 }, { "epoch": 2.318, "grad_norm": 3.5826966762542725, "learning_rate": 2.9867590204879117e-06, "loss": 0.3163, "step": 6954 }, { "epoch": 2.3183333333333334, "grad_norm": 3.611495018005371, "learning_rate": 2.9839947814633975e-06, "loss": 0.3101, "step": 6955 }, { "epoch": 2.3186666666666667, "grad_norm": 2.965139389038086, "learning_rate": 2.9812315978450014e-06, "loss": 0.3191, "step": 6956 }, { "epoch": 2.319, "grad_norm": 2.8494620323181152, "learning_rate": 2.978469470048376e-06, "loss": 0.3252, "step": 6957 }, { "epoch": 2.3193333333333332, "grad_norm": 3.3255326747894287, "learning_rate": 2.975708398489029e-06, "loss": 0.2924, "step": 6958 }, { "epoch": 2.3196666666666665, "grad_norm": 2.6619040966033936, "learning_rate": 2.9729483835823023e-06, "loss": 0.3222, "step": 6959 }, { "epoch": 2.32, "grad_norm": 2.5788841247558594, "learning_rate": 2.970189425743383e-06, "loss": 0.3057, "step": 6960 }, { "epoch": 2.320333333333333, "grad_norm": 2.6829235553741455, "learning_rate": 2.9674315253872953e-06, "loss": 0.3122, "step": 6961 }, { "epoch": 2.320666666666667, "grad_norm": 3.865774631500244, "learning_rate": 2.964674682928901e-06, "loss": 0.3209, "step": 6962 }, { "epoch": 2.321, "grad_norm": 4.617473602294922, "learning_rate": 2.961918898782914e-06, "loss": 0.2964, "step": 6963 }, { "epoch": 2.3213333333333335, "grad_norm": 3.0480356216430664, "learning_rate": 2.9591641733638755e-06, "loss": 0.2548, "step": 6964 }, { "epoch": 2.3216666666666668, "grad_norm": 3.5345394611358643, "learning_rate": 2.956410507086179e-06, "loss": 0.3386, "step": 6965 }, { "epoch": 2.322, "grad_norm": 3.0868122577667236, "learning_rate": 2.953657900364053e-06, "loss": 0.29, "step": 6966 }, { "epoch": 2.3223333333333334, "grad_norm": 2.8451783657073975, "learning_rate": 2.95090635361157e-06, "loss": 0.2905, "step": 6967 }, { "epoch": 2.3226666666666667, "grad_norm": 2.6706087589263916, "learning_rate": 2.9481558672426357e-06, "loss": 0.3055, "step": 6968 }, { "epoch": 2.323, "grad_norm": 3.089456796646118, "learning_rate": 2.945406441671005e-06, "loss": 0.2682, "step": 6969 }, { "epoch": 2.3233333333333333, "grad_norm": 2.8561649322509766, "learning_rate": 2.94265807731027e-06, "loss": 0.2882, "step": 6970 }, { "epoch": 2.3236666666666665, "grad_norm": 3.101252317428589, "learning_rate": 2.9399107745738618e-06, "loss": 0.3162, "step": 6971 }, { "epoch": 2.324, "grad_norm": 2.3395400047302246, "learning_rate": 2.9371645338750477e-06, "loss": 0.2657, "step": 6972 }, { "epoch": 2.324333333333333, "grad_norm": 2.968208074569702, "learning_rate": 2.9344193556269452e-06, "loss": 0.3304, "step": 6973 }, { "epoch": 2.3246666666666664, "grad_norm": 3.0284972190856934, "learning_rate": 2.9316752402425087e-06, "loss": 0.2997, "step": 6974 }, { "epoch": 2.325, "grad_norm": 3.039580821990967, "learning_rate": 2.9289321881345257e-06, "loss": 0.2481, "step": 6975 }, { "epoch": 2.3253333333333335, "grad_norm": 2.565239191055298, "learning_rate": 2.9261901997156316e-06, "loss": 0.2791, "step": 6976 }, { "epoch": 2.3256666666666668, "grad_norm": 2.8499579429626465, "learning_rate": 2.923449275398301e-06, "loss": 0.3243, "step": 6977 }, { "epoch": 2.326, "grad_norm": 3.126342535018921, "learning_rate": 2.9207094155948435e-06, "loss": 0.3068, "step": 6978 }, { "epoch": 2.3263333333333334, "grad_norm": 2.9374396800994873, "learning_rate": 2.917970620717412e-06, "loss": 0.2586, "step": 6979 }, { "epoch": 2.3266666666666667, "grad_norm": 2.9289662837982178, "learning_rate": 2.9152328911780027e-06, "loss": 0.2764, "step": 6980 }, { "epoch": 2.327, "grad_norm": 2.4564356803894043, "learning_rate": 2.912496227388446e-06, "loss": 0.3241, "step": 6981 }, { "epoch": 2.3273333333333333, "grad_norm": 2.8455450534820557, "learning_rate": 2.9097606297604085e-06, "loss": 0.3385, "step": 6982 }, { "epoch": 2.3276666666666666, "grad_norm": 3.1326472759246826, "learning_rate": 2.907026098705407e-06, "loss": 0.3321, "step": 6983 }, { "epoch": 2.328, "grad_norm": 2.5239384174346924, "learning_rate": 2.9042926346347932e-06, "loss": 0.2934, "step": 6984 }, { "epoch": 2.328333333333333, "grad_norm": 2.5926766395568848, "learning_rate": 2.901560237959753e-06, "loss": 0.3227, "step": 6985 }, { "epoch": 2.328666666666667, "grad_norm": 3.242730140686035, "learning_rate": 2.8988289090913193e-06, "loss": 0.2984, "step": 6986 }, { "epoch": 2.329, "grad_norm": 2.6281797885894775, "learning_rate": 2.896098648440362e-06, "loss": 0.3202, "step": 6987 }, { "epoch": 2.3293333333333335, "grad_norm": 2.585160970687866, "learning_rate": 2.893369456417591e-06, "loss": 0.3001, "step": 6988 }, { "epoch": 2.3296666666666668, "grad_norm": 2.4126124382019043, "learning_rate": 2.8906413334335494e-06, "loss": 0.3037, "step": 6989 }, { "epoch": 2.33, "grad_norm": 2.558471918106079, "learning_rate": 2.8879142798986293e-06, "loss": 0.3374, "step": 6990 }, { "epoch": 2.3303333333333334, "grad_norm": 2.761241912841797, "learning_rate": 2.885188296223055e-06, "loss": 0.3214, "step": 6991 }, { "epoch": 2.3306666666666667, "grad_norm": 3.6639699935913086, "learning_rate": 2.882463382816888e-06, "loss": 0.3067, "step": 6992 }, { "epoch": 2.331, "grad_norm": 5.796244144439697, "learning_rate": 2.8797395400900362e-06, "loss": 0.3119, "step": 6993 }, { "epoch": 2.3313333333333333, "grad_norm": 3.796786308288574, "learning_rate": 2.877016768452242e-06, "loss": 0.3316, "step": 6994 }, { "epoch": 2.3316666666666666, "grad_norm": 2.7846195697784424, "learning_rate": 2.874295068313091e-06, "loss": 0.3279, "step": 6995 }, { "epoch": 2.332, "grad_norm": 2.7076377868652344, "learning_rate": 2.8715744400819976e-06, "loss": 0.3057, "step": 6996 }, { "epoch": 2.332333333333333, "grad_norm": 2.608649492263794, "learning_rate": 2.868854884168224e-06, "loss": 0.2732, "step": 6997 }, { "epoch": 2.3326666666666664, "grad_norm": 2.8557772636413574, "learning_rate": 2.8661364009808733e-06, "loss": 0.3241, "step": 6998 }, { "epoch": 2.333, "grad_norm": 3.2420451641082764, "learning_rate": 2.863418990928876e-06, "loss": 0.2794, "step": 6999 }, { "epoch": 2.3333333333333335, "grad_norm": 4.098542213439941, "learning_rate": 2.8607026544210115e-06, "loss": 0.323, "step": 7000 }, { "epoch": 2.333666666666667, "grad_norm": 3.028869390487671, "learning_rate": 2.8579873918658897e-06, "loss": 0.3193, "step": 7001 }, { "epoch": 2.334, "grad_norm": 2.7839953899383545, "learning_rate": 2.855273203671969e-06, "loss": 0.3033, "step": 7002 }, { "epoch": 2.3343333333333334, "grad_norm": 2.529395818710327, "learning_rate": 2.852560090247534e-06, "loss": 0.3106, "step": 7003 }, { "epoch": 2.3346666666666667, "grad_norm": 2.346578359603882, "learning_rate": 2.8498480520007154e-06, "loss": 0.2704, "step": 7004 }, { "epoch": 2.335, "grad_norm": 2.7991607189178467, "learning_rate": 2.8471370893394866e-06, "loss": 0.3045, "step": 7005 }, { "epoch": 2.3353333333333333, "grad_norm": 3.684208869934082, "learning_rate": 2.844427202671646e-06, "loss": 0.313, "step": 7006 }, { "epoch": 2.3356666666666666, "grad_norm": 3.138253688812256, "learning_rate": 2.8417183924048386e-06, "loss": 0.3221, "step": 7007 }, { "epoch": 2.336, "grad_norm": 3.272111654281616, "learning_rate": 2.8390106589465514e-06, "loss": 0.2891, "step": 7008 }, { "epoch": 2.336333333333333, "grad_norm": 2.564790725708008, "learning_rate": 2.836304002704101e-06, "loss": 0.3174, "step": 7009 }, { "epoch": 2.336666666666667, "grad_norm": 2.4252350330352783, "learning_rate": 2.8335984240846424e-06, "loss": 0.2748, "step": 7010 }, { "epoch": 2.337, "grad_norm": 2.5481138229370117, "learning_rate": 2.830893923495173e-06, "loss": 0.3004, "step": 7011 }, { "epoch": 2.3373333333333335, "grad_norm": 2.113537549972534, "learning_rate": 2.8281905013425304e-06, "loss": 0.3115, "step": 7012 }, { "epoch": 2.337666666666667, "grad_norm": 2.7126219272613525, "learning_rate": 2.82548815803338e-06, "loss": 0.2905, "step": 7013 }, { "epoch": 2.338, "grad_norm": 2.4368584156036377, "learning_rate": 2.8227868939742333e-06, "loss": 0.3276, "step": 7014 }, { "epoch": 2.3383333333333334, "grad_norm": 3.1532435417175293, "learning_rate": 2.820086709571438e-06, "loss": 0.2906, "step": 7015 }, { "epoch": 2.3386666666666667, "grad_norm": 2.6041338443756104, "learning_rate": 2.81738760523118e-06, "loss": 0.3321, "step": 7016 }, { "epoch": 2.339, "grad_norm": 2.5073437690734863, "learning_rate": 2.8146895813594754e-06, "loss": 0.3184, "step": 7017 }, { "epoch": 2.3393333333333333, "grad_norm": 3.095491886138916, "learning_rate": 2.811992638362191e-06, "loss": 0.2878, "step": 7018 }, { "epoch": 2.3396666666666666, "grad_norm": 2.69838285446167, "learning_rate": 2.8092967766450187e-06, "loss": 0.3272, "step": 7019 }, { "epoch": 2.34, "grad_norm": 2.682349920272827, "learning_rate": 2.8066019966134907e-06, "loss": 0.2865, "step": 7020 }, { "epoch": 2.340333333333333, "grad_norm": 2.4442007541656494, "learning_rate": 2.8039082986729806e-06, "loss": 0.3084, "step": 7021 }, { "epoch": 2.3406666666666665, "grad_norm": 3.1262431144714355, "learning_rate": 2.8012156832286974e-06, "loss": 0.2974, "step": 7022 }, { "epoch": 2.341, "grad_norm": 2.661864757537842, "learning_rate": 2.79852415068569e-06, "loss": 0.2846, "step": 7023 }, { "epoch": 2.3413333333333335, "grad_norm": 2.206928014755249, "learning_rate": 2.7958337014488344e-06, "loss": 0.2933, "step": 7024 }, { "epoch": 2.341666666666667, "grad_norm": 2.291693925857544, "learning_rate": 2.793144335922854e-06, "loss": 0.2964, "step": 7025 }, { "epoch": 2.342, "grad_norm": 2.8012518882751465, "learning_rate": 2.7904560545123082e-06, "loss": 0.3148, "step": 7026 }, { "epoch": 2.3423333333333334, "grad_norm": 2.316598415374756, "learning_rate": 2.7877688576215856e-06, "loss": 0.3144, "step": 7027 }, { "epoch": 2.3426666666666667, "grad_norm": 3.087052583694458, "learning_rate": 2.785082745654921e-06, "loss": 0.321, "step": 7028 }, { "epoch": 2.343, "grad_norm": 2.6582157611846924, "learning_rate": 2.7823977190163788e-06, "loss": 0.2668, "step": 7029 }, { "epoch": 2.3433333333333333, "grad_norm": 2.470142126083374, "learning_rate": 2.779713778109867e-06, "loss": 0.2883, "step": 7030 }, { "epoch": 2.3436666666666666, "grad_norm": 2.7500898838043213, "learning_rate": 2.77703092333912e-06, "loss": 0.2799, "step": 7031 }, { "epoch": 2.344, "grad_norm": 3.243502616882324, "learning_rate": 2.7743491551077197e-06, "loss": 0.3195, "step": 7032 }, { "epoch": 2.344333333333333, "grad_norm": 3.971062660217285, "learning_rate": 2.7716684738190825e-06, "loss": 0.329, "step": 7033 }, { "epoch": 2.344666666666667, "grad_norm": 2.8213918209075928, "learning_rate": 2.7689888798764518e-06, "loss": 0.3051, "step": 7034 }, { "epoch": 2.3449999999999998, "grad_norm": 3.638998508453369, "learning_rate": 2.76631037368292e-06, "loss": 0.2869, "step": 7035 }, { "epoch": 2.3453333333333335, "grad_norm": 2.840176582336426, "learning_rate": 2.7636329556414076e-06, "loss": 0.2997, "step": 7036 }, { "epoch": 2.345666666666667, "grad_norm": 2.068112850189209, "learning_rate": 2.7609566261546796e-06, "loss": 0.325, "step": 7037 }, { "epoch": 2.346, "grad_norm": 3.526184558868408, "learning_rate": 2.7582813856253276e-06, "loss": 0.3265, "step": 7038 }, { "epoch": 2.3463333333333334, "grad_norm": 2.9452829360961914, "learning_rate": 2.7556072344557792e-06, "loss": 0.3244, "step": 7039 }, { "epoch": 2.3466666666666667, "grad_norm": 2.2053613662719727, "learning_rate": 2.7529341730483115e-06, "loss": 0.3048, "step": 7040 }, { "epoch": 2.347, "grad_norm": 3.111375093460083, "learning_rate": 2.750262201805022e-06, "loss": 0.3317, "step": 7041 }, { "epoch": 2.3473333333333333, "grad_norm": 2.2073044776916504, "learning_rate": 2.7475913211278515e-06, "loss": 0.2713, "step": 7042 }, { "epoch": 2.3476666666666666, "grad_norm": 3.0490405559539795, "learning_rate": 2.7449215314185783e-06, "loss": 0.2979, "step": 7043 }, { "epoch": 2.348, "grad_norm": 3.7788150310516357, "learning_rate": 2.742252833078818e-06, "loss": 0.3177, "step": 7044 }, { "epoch": 2.348333333333333, "grad_norm": 2.9705588817596436, "learning_rate": 2.739585226510011e-06, "loss": 0.3122, "step": 7045 }, { "epoch": 2.3486666666666665, "grad_norm": 2.689835786819458, "learning_rate": 2.736918712113448e-06, "loss": 0.2626, "step": 7046 }, { "epoch": 2.349, "grad_norm": 2.6932735443115234, "learning_rate": 2.7342532902902418e-06, "loss": 0.3057, "step": 7047 }, { "epoch": 2.3493333333333335, "grad_norm": 2.601367473602295, "learning_rate": 2.7315889614413528e-06, "loss": 0.2769, "step": 7048 }, { "epoch": 2.349666666666667, "grad_norm": 2.5997581481933594, "learning_rate": 2.7289257259675673e-06, "loss": 0.2925, "step": 7049 }, { "epoch": 2.35, "grad_norm": 2.758462905883789, "learning_rate": 2.726263584269513e-06, "loss": 0.3259, "step": 7050 }, { "epoch": 2.3503333333333334, "grad_norm": 2.3252272605895996, "learning_rate": 2.7236025367476548e-06, "loss": 0.3053, "step": 7051 }, { "epoch": 2.3506666666666667, "grad_norm": 2.594114065170288, "learning_rate": 2.720942583802285e-06, "loss": 0.2784, "step": 7052 }, { "epoch": 2.351, "grad_norm": 2.5840327739715576, "learning_rate": 2.718283725833537e-06, "loss": 0.3015, "step": 7053 }, { "epoch": 2.3513333333333333, "grad_norm": 3.6565163135528564, "learning_rate": 2.7156259632413817e-06, "loss": 0.3266, "step": 7054 }, { "epoch": 2.3516666666666666, "grad_norm": 2.578655958175659, "learning_rate": 2.7129692964256172e-06, "loss": 0.3004, "step": 7055 }, { "epoch": 2.352, "grad_norm": 2.985089063644409, "learning_rate": 2.7103137257858867e-06, "loss": 0.2994, "step": 7056 }, { "epoch": 2.352333333333333, "grad_norm": 4.4290876388549805, "learning_rate": 2.7076592517216573e-06, "loss": 0.3091, "step": 7057 }, { "epoch": 2.352666666666667, "grad_norm": 2.858790159225464, "learning_rate": 2.705005874632244e-06, "loss": 0.342, "step": 7058 }, { "epoch": 2.3529999999999998, "grad_norm": 3.365795612335205, "learning_rate": 2.7023535949167825e-06, "loss": 0.3348, "step": 7059 }, { "epoch": 2.3533333333333335, "grad_norm": 2.818418025970459, "learning_rate": 2.6997024129742544e-06, "loss": 0.3115, "step": 7060 }, { "epoch": 2.353666666666667, "grad_norm": 2.570826530456543, "learning_rate": 2.6970523292034765e-06, "loss": 0.2693, "step": 7061 }, { "epoch": 2.354, "grad_norm": 2.458930492401123, "learning_rate": 2.6944033440030894e-06, "loss": 0.3001, "step": 7062 }, { "epoch": 2.3543333333333334, "grad_norm": 3.4618027210235596, "learning_rate": 2.69175545777158e-06, "loss": 0.3102, "step": 7063 }, { "epoch": 2.3546666666666667, "grad_norm": 2.629751443862915, "learning_rate": 2.6891086709072635e-06, "loss": 0.298, "step": 7064 }, { "epoch": 2.355, "grad_norm": 3.229904890060425, "learning_rate": 2.6864629838082957e-06, "loss": 0.3252, "step": 7065 }, { "epoch": 2.3553333333333333, "grad_norm": 2.4711081981658936, "learning_rate": 2.6838183968726606e-06, "loss": 0.2851, "step": 7066 }, { "epoch": 2.3556666666666666, "grad_norm": 2.180884599685669, "learning_rate": 2.6811749104981745e-06, "loss": 0.2666, "step": 7067 }, { "epoch": 2.356, "grad_norm": 3.067017078399658, "learning_rate": 2.678532525082498e-06, "loss": 0.3101, "step": 7068 }, { "epoch": 2.356333333333333, "grad_norm": 2.1712493896484375, "learning_rate": 2.675891241023121e-06, "loss": 0.3021, "step": 7069 }, { "epoch": 2.3566666666666665, "grad_norm": 3.005570888519287, "learning_rate": 2.6732510587173645e-06, "loss": 0.3198, "step": 7070 }, { "epoch": 2.357, "grad_norm": 2.920266628265381, "learning_rate": 2.670611978562386e-06, "loss": 0.3062, "step": 7071 }, { "epoch": 2.3573333333333335, "grad_norm": 2.78281569480896, "learning_rate": 2.6679740009551858e-06, "loss": 0.3172, "step": 7072 }, { "epoch": 2.357666666666667, "grad_norm": 3.527970314025879, "learning_rate": 2.66533712629258e-06, "loss": 0.2953, "step": 7073 }, { "epoch": 2.358, "grad_norm": 3.0607223510742188, "learning_rate": 2.6627013549712355e-06, "loss": 0.2841, "step": 7074 }, { "epoch": 2.3583333333333334, "grad_norm": 3.1211655139923096, "learning_rate": 2.660066687387648e-06, "loss": 0.3289, "step": 7075 }, { "epoch": 2.3586666666666667, "grad_norm": 2.9265010356903076, "learning_rate": 2.6574331239381446e-06, "loss": 0.2812, "step": 7076 }, { "epoch": 2.359, "grad_norm": 2.0132009983062744, "learning_rate": 2.654800665018884e-06, "loss": 0.2206, "step": 7077 }, { "epoch": 2.3593333333333333, "grad_norm": 2.5768675804138184, "learning_rate": 2.652169311025865e-06, "loss": 0.3239, "step": 7078 }, { "epoch": 2.3596666666666666, "grad_norm": 2.2979650497436523, "learning_rate": 2.649539062354923e-06, "loss": 0.3143, "step": 7079 }, { "epoch": 2.36, "grad_norm": 2.8934521675109863, "learning_rate": 2.6469099194017144e-06, "loss": 0.3255, "step": 7080 }, { "epoch": 2.360333333333333, "grad_norm": 2.4565157890319824, "learning_rate": 2.64428188256174e-06, "loss": 0.3233, "step": 7081 }, { "epoch": 2.360666666666667, "grad_norm": 2.8589086532592773, "learning_rate": 2.6416549522303325e-06, "loss": 0.2775, "step": 7082 }, { "epoch": 2.3609999999999998, "grad_norm": 2.1831398010253906, "learning_rate": 2.639029128802657e-06, "loss": 0.3249, "step": 7083 }, { "epoch": 2.3613333333333335, "grad_norm": 3.281899929046631, "learning_rate": 2.6364044126737078e-06, "loss": 0.295, "step": 7084 }, { "epoch": 2.361666666666667, "grad_norm": 2.318155527114868, "learning_rate": 2.633780804238323e-06, "loss": 0.264, "step": 7085 }, { "epoch": 2.362, "grad_norm": 3.2216455936431885, "learning_rate": 2.6311583038911625e-06, "loss": 0.316, "step": 7086 }, { "epoch": 2.3623333333333334, "grad_norm": 3.2409987449645996, "learning_rate": 2.6285369120267234e-06, "loss": 0.2891, "step": 7087 }, { "epoch": 2.3626666666666667, "grad_norm": 2.0675101280212402, "learning_rate": 2.6259166290393402e-06, "loss": 0.2684, "step": 7088 }, { "epoch": 2.363, "grad_norm": 3.058917760848999, "learning_rate": 2.623297455323177e-06, "loss": 0.334, "step": 7089 }, { "epoch": 2.3633333333333333, "grad_norm": 2.9440927505493164, "learning_rate": 2.620679391272236e-06, "loss": 0.3069, "step": 7090 }, { "epoch": 2.3636666666666666, "grad_norm": 3.2672197818756104, "learning_rate": 2.618062437280342e-06, "loss": 0.2825, "step": 7091 }, { "epoch": 2.364, "grad_norm": 2.323634147644043, "learning_rate": 2.615446593741161e-06, "loss": 0.2757, "step": 7092 }, { "epoch": 2.364333333333333, "grad_norm": 2.6274681091308594, "learning_rate": 2.612831861048194e-06, "loss": 0.3245, "step": 7093 }, { "epoch": 2.3646666666666665, "grad_norm": 3.223745584487915, "learning_rate": 2.610218239594764e-06, "loss": 0.2967, "step": 7094 }, { "epoch": 2.365, "grad_norm": 2.499011516571045, "learning_rate": 2.607605729774041e-06, "loss": 0.3098, "step": 7095 }, { "epoch": 2.3653333333333335, "grad_norm": 2.698788642883301, "learning_rate": 2.6049943319790137e-06, "loss": 0.3309, "step": 7096 }, { "epoch": 2.365666666666667, "grad_norm": 2.5406413078308105, "learning_rate": 2.6023840466025163e-06, "loss": 0.3093, "step": 7097 }, { "epoch": 2.366, "grad_norm": 3.3667359352111816, "learning_rate": 2.5997748740372053e-06, "loss": 0.3344, "step": 7098 }, { "epoch": 2.3663333333333334, "grad_norm": 2.522556781768799, "learning_rate": 2.597166814675575e-06, "loss": 0.2796, "step": 7099 }, { "epoch": 2.3666666666666667, "grad_norm": 2.859372615814209, "learning_rate": 2.594559868909956e-06, "loss": 0.2916, "step": 7100 }, { "epoch": 2.367, "grad_norm": 2.1660244464874268, "learning_rate": 2.5919540371325005e-06, "loss": 0.3131, "step": 7101 }, { "epoch": 2.3673333333333333, "grad_norm": 3.8161208629608154, "learning_rate": 2.5893493197352015e-06, "loss": 0.327, "step": 7102 }, { "epoch": 2.3676666666666666, "grad_norm": 3.8001012802124023, "learning_rate": 2.5867457171098863e-06, "loss": 0.2926, "step": 7103 }, { "epoch": 2.368, "grad_norm": 2.941291093826294, "learning_rate": 2.584143229648207e-06, "loss": 0.2967, "step": 7104 }, { "epoch": 2.368333333333333, "grad_norm": 2.536086082458496, "learning_rate": 2.5815418577416505e-06, "loss": 0.2862, "step": 7105 }, { "epoch": 2.3686666666666665, "grad_norm": 2.6304543018341064, "learning_rate": 2.578941601781537e-06, "loss": 0.2912, "step": 7106 }, { "epoch": 2.3689999999999998, "grad_norm": 3.301116466522217, "learning_rate": 2.576342462159024e-06, "loss": 0.2942, "step": 7107 }, { "epoch": 2.3693333333333335, "grad_norm": 3.466665029525757, "learning_rate": 2.573744439265088e-06, "loss": 0.2833, "step": 7108 }, { "epoch": 2.369666666666667, "grad_norm": 3.7441372871398926, "learning_rate": 2.57114753349055e-06, "loss": 0.2835, "step": 7109 }, { "epoch": 2.37, "grad_norm": 2.266385555267334, "learning_rate": 2.5685517452260566e-06, "loss": 0.2591, "step": 7110 }, { "epoch": 2.3703333333333334, "grad_norm": 2.84891414642334, "learning_rate": 2.565957074862092e-06, "loss": 0.3139, "step": 7111 }, { "epoch": 2.3706666666666667, "grad_norm": 2.63565731048584, "learning_rate": 2.563363522788962e-06, "loss": 0.2845, "step": 7112 }, { "epoch": 2.371, "grad_norm": 2.4121127128601074, "learning_rate": 2.5607710893968165e-06, "loss": 0.3262, "step": 7113 }, { "epoch": 2.3713333333333333, "grad_norm": 3.203521966934204, "learning_rate": 2.5581797750756277e-06, "loss": 0.3289, "step": 7114 }, { "epoch": 2.3716666666666666, "grad_norm": 3.310600996017456, "learning_rate": 2.5555895802151998e-06, "loss": 0.285, "step": 7115 }, { "epoch": 2.372, "grad_norm": 2.4511654376983643, "learning_rate": 2.5530005052051742e-06, "loss": 0.2777, "step": 7116 }, { "epoch": 2.372333333333333, "grad_norm": 3.1477224826812744, "learning_rate": 2.550412550435022e-06, "loss": 0.2922, "step": 7117 }, { "epoch": 2.3726666666666665, "grad_norm": 2.4488942623138428, "learning_rate": 2.547825716294048e-06, "loss": 0.3109, "step": 7118 }, { "epoch": 2.373, "grad_norm": 2.9452764987945557, "learning_rate": 2.5452400031713786e-06, "loss": 0.3148, "step": 7119 }, { "epoch": 2.3733333333333335, "grad_norm": 2.3401284217834473, "learning_rate": 2.542655411455982e-06, "loss": 0.2806, "step": 7120 }, { "epoch": 2.373666666666667, "grad_norm": 2.4771413803100586, "learning_rate": 2.5400719415366557e-06, "loss": 0.2805, "step": 7121 }, { "epoch": 2.374, "grad_norm": 2.47989821434021, "learning_rate": 2.5374895938020226e-06, "loss": 0.249, "step": 7122 }, { "epoch": 2.3743333333333334, "grad_norm": 3.1743290424346924, "learning_rate": 2.5349083686405474e-06, "loss": 0.2995, "step": 7123 }, { "epoch": 2.3746666666666667, "grad_norm": 2.0569989681243896, "learning_rate": 2.5323282664405115e-06, "loss": 0.2505, "step": 7124 }, { "epoch": 2.375, "grad_norm": 2.7813515663146973, "learning_rate": 2.529749287590042e-06, "loss": 0.2964, "step": 7125 }, { "epoch": 2.3753333333333333, "grad_norm": 2.44150447845459, "learning_rate": 2.5271714324770856e-06, "loss": 0.3429, "step": 7126 }, { "epoch": 2.3756666666666666, "grad_norm": 2.8892617225646973, "learning_rate": 2.524594701489428e-06, "loss": 0.2665, "step": 7127 }, { "epoch": 2.376, "grad_norm": 2.735934257507324, "learning_rate": 2.522019095014683e-06, "loss": 0.2893, "step": 7128 }, { "epoch": 2.376333333333333, "grad_norm": 3.1037955284118652, "learning_rate": 2.519444613440292e-06, "loss": 0.3116, "step": 7129 }, { "epoch": 2.3766666666666665, "grad_norm": 3.3824245929718018, "learning_rate": 2.5168712571535305e-06, "loss": 0.3102, "step": 7130 }, { "epoch": 2.377, "grad_norm": 2.751040458679199, "learning_rate": 2.514299026541508e-06, "loss": 0.3442, "step": 7131 }, { "epoch": 2.3773333333333335, "grad_norm": 2.670257329940796, "learning_rate": 2.511727921991156e-06, "loss": 0.2915, "step": 7132 }, { "epoch": 2.377666666666667, "grad_norm": 2.356731653213501, "learning_rate": 2.5091579438892453e-06, "loss": 0.2968, "step": 7133 }, { "epoch": 2.378, "grad_norm": 2.4614527225494385, "learning_rate": 2.506589092622371e-06, "loss": 0.309, "step": 7134 }, { "epoch": 2.3783333333333334, "grad_norm": 2.7510950565338135, "learning_rate": 2.504021368576964e-06, "loss": 0.3069, "step": 7135 }, { "epoch": 2.3786666666666667, "grad_norm": 2.547051191329956, "learning_rate": 2.501454772139278e-06, "loss": 0.3193, "step": 7136 }, { "epoch": 2.379, "grad_norm": 3.2365121841430664, "learning_rate": 2.4988893036954045e-06, "loss": 0.2873, "step": 7137 }, { "epoch": 2.3793333333333333, "grad_norm": 3.2105588912963867, "learning_rate": 2.4963249636312638e-06, "loss": 0.328, "step": 7138 }, { "epoch": 2.3796666666666666, "grad_norm": 2.7665016651153564, "learning_rate": 2.4937617523326065e-06, "loss": 0.3069, "step": 7139 }, { "epoch": 2.38, "grad_norm": 2.516023874282837, "learning_rate": 2.4911996701850083e-06, "loss": 0.289, "step": 7140 }, { "epoch": 2.380333333333333, "grad_norm": 2.530240535736084, "learning_rate": 2.4886387175738825e-06, "loss": 0.328, "step": 7141 }, { "epoch": 2.3806666666666665, "grad_norm": 2.6790547370910645, "learning_rate": 2.486078894884466e-06, "loss": 0.273, "step": 7142 }, { "epoch": 2.3810000000000002, "grad_norm": 3.2912518978118896, "learning_rate": 2.4835202025018325e-06, "loss": 0.2818, "step": 7143 }, { "epoch": 2.3813333333333335, "grad_norm": 2.518925905227661, "learning_rate": 2.4809626408108765e-06, "loss": 0.3001, "step": 7144 }, { "epoch": 2.381666666666667, "grad_norm": 3.395097255706787, "learning_rate": 2.47840621019633e-06, "loss": 0.2588, "step": 7145 }, { "epoch": 2.382, "grad_norm": 2.43558931350708, "learning_rate": 2.4758509110427576e-06, "loss": 0.2989, "step": 7146 }, { "epoch": 2.3823333333333334, "grad_norm": 2.5202226638793945, "learning_rate": 2.4732967437345413e-06, "loss": 0.3016, "step": 7147 }, { "epoch": 2.3826666666666667, "grad_norm": 3.4066529273986816, "learning_rate": 2.470743708655904e-06, "loss": 0.3206, "step": 7148 }, { "epoch": 2.383, "grad_norm": 2.71431565284729, "learning_rate": 2.468191806190897e-06, "loss": 0.2873, "step": 7149 }, { "epoch": 2.3833333333333333, "grad_norm": 3.11814546585083, "learning_rate": 2.4656410367233928e-06, "loss": 0.2675, "step": 7150 }, { "epoch": 2.3836666666666666, "grad_norm": 2.285327434539795, "learning_rate": 2.4630914006371055e-06, "loss": 0.3026, "step": 7151 }, { "epoch": 2.384, "grad_norm": 2.4830777645111084, "learning_rate": 2.4605428983155667e-06, "loss": 0.3276, "step": 7152 }, { "epoch": 2.384333333333333, "grad_norm": 2.808631181716919, "learning_rate": 2.45799553014215e-06, "loss": 0.3358, "step": 7153 }, { "epoch": 2.3846666666666665, "grad_norm": 2.8352437019348145, "learning_rate": 2.455449296500044e-06, "loss": 0.2701, "step": 7154 }, { "epoch": 2.385, "grad_norm": 2.3749828338623047, "learning_rate": 2.45290419777228e-06, "loss": 0.3226, "step": 7155 }, { "epoch": 2.3853333333333335, "grad_norm": 2.639422655105591, "learning_rate": 2.4503602343417145e-06, "loss": 0.3031, "step": 7156 }, { "epoch": 2.385666666666667, "grad_norm": 3.286510467529297, "learning_rate": 2.447817406591025e-06, "loss": 0.3187, "step": 7157 }, { "epoch": 2.386, "grad_norm": 3.141603946685791, "learning_rate": 2.4452757149027308e-06, "loss": 0.3189, "step": 7158 }, { "epoch": 2.3863333333333334, "grad_norm": 2.194103240966797, "learning_rate": 2.442735159659171e-06, "loss": 0.2515, "step": 7159 }, { "epoch": 2.3866666666666667, "grad_norm": 3.1722946166992188, "learning_rate": 2.4401957412425213e-06, "loss": 0.3308, "step": 7160 }, { "epoch": 2.387, "grad_norm": 2.823155164718628, "learning_rate": 2.4376574600347803e-06, "loss": 0.3121, "step": 7161 }, { "epoch": 2.3873333333333333, "grad_norm": 2.5317986011505127, "learning_rate": 2.435120316417774e-06, "loss": 0.2509, "step": 7162 }, { "epoch": 2.3876666666666666, "grad_norm": 2.6369261741638184, "learning_rate": 2.432584310773165e-06, "loss": 0.3178, "step": 7163 }, { "epoch": 2.388, "grad_norm": 4.163784980773926, "learning_rate": 2.4300494434824373e-06, "loss": 0.2997, "step": 7164 }, { "epoch": 2.388333333333333, "grad_norm": 3.808035373687744, "learning_rate": 2.427515714926908e-06, "loss": 0.3227, "step": 7165 }, { "epoch": 2.3886666666666665, "grad_norm": 3.97178316116333, "learning_rate": 2.424983125487722e-06, "loss": 0.3233, "step": 7166 }, { "epoch": 2.3890000000000002, "grad_norm": 2.626030206680298, "learning_rate": 2.422451675545855e-06, "loss": 0.2989, "step": 7167 }, { "epoch": 2.389333333333333, "grad_norm": 3.111065626144409, "learning_rate": 2.4199213654821043e-06, "loss": 0.2866, "step": 7168 }, { "epoch": 2.389666666666667, "grad_norm": 4.832404136657715, "learning_rate": 2.417392195677103e-06, "loss": 0.2945, "step": 7169 }, { "epoch": 2.39, "grad_norm": 2.8116917610168457, "learning_rate": 2.4148641665113116e-06, "loss": 0.2906, "step": 7170 }, { "epoch": 2.3903333333333334, "grad_norm": 2.384880781173706, "learning_rate": 2.4123372783650145e-06, "loss": 0.261, "step": 7171 }, { "epoch": 2.3906666666666667, "grad_norm": 2.476303815841675, "learning_rate": 2.409811531618326e-06, "loss": 0.3186, "step": 7172 }, { "epoch": 2.391, "grad_norm": 2.075578212738037, "learning_rate": 2.407286926651192e-06, "loss": 0.2895, "step": 7173 }, { "epoch": 2.3913333333333333, "grad_norm": 2.2478787899017334, "learning_rate": 2.404763463843387e-06, "loss": 0.305, "step": 7174 }, { "epoch": 2.3916666666666666, "grad_norm": 2.6798582077026367, "learning_rate": 2.4022411435745076e-06, "loss": 0.3005, "step": 7175 }, { "epoch": 2.392, "grad_norm": 2.784327507019043, "learning_rate": 2.3997199662239825e-06, "loss": 0.299, "step": 7176 }, { "epoch": 2.392333333333333, "grad_norm": 3.5687124729156494, "learning_rate": 2.3971999321710726e-06, "loss": 0.2808, "step": 7177 }, { "epoch": 2.3926666666666665, "grad_norm": 3.155942916870117, "learning_rate": 2.3946810417948564e-06, "loss": 0.303, "step": 7178 }, { "epoch": 2.393, "grad_norm": 3.700751304626465, "learning_rate": 2.39216329547425e-06, "loss": 0.3132, "step": 7179 }, { "epoch": 2.3933333333333335, "grad_norm": 2.4967222213745117, "learning_rate": 2.3896466935879957e-06, "loss": 0.3188, "step": 7180 }, { "epoch": 2.393666666666667, "grad_norm": 2.9350104331970215, "learning_rate": 2.387131236514659e-06, "loss": 0.2773, "step": 7181 }, { "epoch": 2.394, "grad_norm": 2.6352379322052, "learning_rate": 2.3846169246326345e-06, "loss": 0.309, "step": 7182 }, { "epoch": 2.3943333333333334, "grad_norm": 2.610579490661621, "learning_rate": 2.3821037583201466e-06, "loss": 0.3052, "step": 7183 }, { "epoch": 2.3946666666666667, "grad_norm": 3.8792648315429688, "learning_rate": 2.379591737955251e-06, "loss": 0.2929, "step": 7184 }, { "epoch": 2.395, "grad_norm": 3.354741334915161, "learning_rate": 2.3770808639158216e-06, "loss": 0.2742, "step": 7185 }, { "epoch": 2.3953333333333333, "grad_norm": 2.735137462615967, "learning_rate": 2.3745711365795666e-06, "loss": 0.3183, "step": 7186 }, { "epoch": 2.3956666666666666, "grad_norm": 2.1340689659118652, "learning_rate": 2.372062556324021e-06, "loss": 0.2769, "step": 7187 }, { "epoch": 2.396, "grad_norm": 3.311321973800659, "learning_rate": 2.3695551235265492e-06, "loss": 0.2948, "step": 7188 }, { "epoch": 2.396333333333333, "grad_norm": 3.0048625469207764, "learning_rate": 2.3670488385643364e-06, "loss": 0.3211, "step": 7189 }, { "epoch": 2.3966666666666665, "grad_norm": 2.6487934589385986, "learning_rate": 2.364543701814398e-06, "loss": 0.2736, "step": 7190 }, { "epoch": 2.3970000000000002, "grad_norm": 2.6501944065093994, "learning_rate": 2.362039713653581e-06, "loss": 0.3069, "step": 7191 }, { "epoch": 2.397333333333333, "grad_norm": 3.3963353633880615, "learning_rate": 2.3595368744585525e-06, "loss": 0.3049, "step": 7192 }, { "epoch": 2.397666666666667, "grad_norm": 3.1539111137390137, "learning_rate": 2.3570351846058113e-06, "loss": 0.3121, "step": 7193 }, { "epoch": 2.398, "grad_norm": 3.019906997680664, "learning_rate": 2.3545346444716842e-06, "loss": 0.2837, "step": 7194 }, { "epoch": 2.3983333333333334, "grad_norm": 3.2206943035125732, "learning_rate": 2.3520352544323255e-06, "loss": 0.2932, "step": 7195 }, { "epoch": 2.3986666666666667, "grad_norm": 2.5814554691314697, "learning_rate": 2.3495370148637097e-06, "loss": 0.291, "step": 7196 }, { "epoch": 2.399, "grad_norm": 3.4505081176757812, "learning_rate": 2.347039926141644e-06, "loss": 0.3233, "step": 7197 }, { "epoch": 2.3993333333333333, "grad_norm": 2.420337200164795, "learning_rate": 2.3445439886417643e-06, "loss": 0.2988, "step": 7198 }, { "epoch": 2.3996666666666666, "grad_norm": 2.6010477542877197, "learning_rate": 2.3420492027395294e-06, "loss": 0.2903, "step": 7199 }, { "epoch": 2.4, "grad_norm": 3.4776113033294678, "learning_rate": 2.339555568810221e-06, "loss": 0.3075, "step": 7200 }, { "epoch": 2.400333333333333, "grad_norm": 2.8335328102111816, "learning_rate": 2.3370630872289556e-06, "loss": 0.3083, "step": 7201 }, { "epoch": 2.4006666666666665, "grad_norm": 2.4426052570343018, "learning_rate": 2.334571758370677e-06, "loss": 0.2923, "step": 7202 }, { "epoch": 2.401, "grad_norm": 2.7309556007385254, "learning_rate": 2.332081582610146e-06, "loss": 0.27, "step": 7203 }, { "epoch": 2.4013333333333335, "grad_norm": 2.4740517139434814, "learning_rate": 2.329592560321957e-06, "loss": 0.3003, "step": 7204 }, { "epoch": 2.401666666666667, "grad_norm": 2.4257559776306152, "learning_rate": 2.327104691880533e-06, "loss": 0.248, "step": 7205 }, { "epoch": 2.402, "grad_norm": 2.4801368713378906, "learning_rate": 2.324617977660114e-06, "loss": 0.2868, "step": 7206 }, { "epoch": 2.4023333333333334, "grad_norm": 3.8637731075286865, "learning_rate": 2.322132418034776e-06, "loss": 0.3163, "step": 7207 }, { "epoch": 2.4026666666666667, "grad_norm": 2.7973811626434326, "learning_rate": 2.3196480133784206e-06, "loss": 0.2662, "step": 7208 }, { "epoch": 2.403, "grad_norm": 2.8951363563537598, "learning_rate": 2.317164764064769e-06, "loss": 0.3041, "step": 7209 }, { "epoch": 2.4033333333333333, "grad_norm": 2.8806838989257812, "learning_rate": 2.3146826704673696e-06, "loss": 0.3237, "step": 7210 }, { "epoch": 2.4036666666666666, "grad_norm": 2.646822929382324, "learning_rate": 2.3122017329596036e-06, "loss": 0.2999, "step": 7211 }, { "epoch": 2.404, "grad_norm": 2.8374626636505127, "learning_rate": 2.309721951914675e-06, "loss": 0.2645, "step": 7212 }, { "epoch": 2.404333333333333, "grad_norm": 2.4537055492401123, "learning_rate": 2.3072433277056096e-06, "loss": 0.3367, "step": 7213 }, { "epoch": 2.4046666666666665, "grad_norm": 3.0185744762420654, "learning_rate": 2.304765860705265e-06, "loss": 0.3165, "step": 7214 }, { "epoch": 2.4050000000000002, "grad_norm": 2.698152542114258, "learning_rate": 2.3022895512863207e-06, "loss": 0.2767, "step": 7215 }, { "epoch": 2.405333333333333, "grad_norm": 3.4583852291107178, "learning_rate": 2.2998143998212897e-06, "loss": 0.3054, "step": 7216 }, { "epoch": 2.405666666666667, "grad_norm": 2.6933987140655518, "learning_rate": 2.297340406682498e-06, "loss": 0.2921, "step": 7217 }, { "epoch": 2.406, "grad_norm": 2.726011037826538, "learning_rate": 2.2948675722421086e-06, "loss": 0.3248, "step": 7218 }, { "epoch": 2.4063333333333334, "grad_norm": 2.5240275859832764, "learning_rate": 2.292395896872105e-06, "loss": 0.2858, "step": 7219 }, { "epoch": 2.4066666666666667, "grad_norm": 2.5917303562164307, "learning_rate": 2.2899253809442944e-06, "loss": 0.3135, "step": 7220 }, { "epoch": 2.407, "grad_norm": 3.036437511444092, "learning_rate": 2.2874560248303136e-06, "loss": 0.284, "step": 7221 }, { "epoch": 2.4073333333333333, "grad_norm": 2.91733717918396, "learning_rate": 2.284987828901626e-06, "loss": 0.3311, "step": 7222 }, { "epoch": 2.4076666666666666, "grad_norm": 2.8448901176452637, "learning_rate": 2.282520793529518e-06, "loss": 0.2904, "step": 7223 }, { "epoch": 2.408, "grad_norm": 2.8797008991241455, "learning_rate": 2.2800549190850997e-06, "loss": 0.2741, "step": 7224 }, { "epoch": 2.408333333333333, "grad_norm": 2.916515827178955, "learning_rate": 2.2775902059393087e-06, "loss": 0.298, "step": 7225 }, { "epoch": 2.4086666666666665, "grad_norm": 2.6020255088806152, "learning_rate": 2.2751266544629115e-06, "loss": 0.3109, "step": 7226 }, { "epoch": 2.409, "grad_norm": 3.3977744579315186, "learning_rate": 2.27266426502649e-06, "loss": 0.295, "step": 7227 }, { "epoch": 2.4093333333333335, "grad_norm": 2.4537878036499023, "learning_rate": 2.2702030380004634e-06, "loss": 0.2839, "step": 7228 }, { "epoch": 2.409666666666667, "grad_norm": 2.813225030899048, "learning_rate": 2.267742973755065e-06, "loss": 0.3245, "step": 7229 }, { "epoch": 2.41, "grad_norm": 3.1588187217712402, "learning_rate": 2.265284072660362e-06, "loss": 0.2951, "step": 7230 }, { "epoch": 2.4103333333333334, "grad_norm": 2.09277606010437, "learning_rate": 2.26282633508624e-06, "loss": 0.269, "step": 7231 }, { "epoch": 2.4106666666666667, "grad_norm": 3.0752274990081787, "learning_rate": 2.260369761402412e-06, "loss": 0.3167, "step": 7232 }, { "epoch": 2.411, "grad_norm": 3.608771324157715, "learning_rate": 2.257914351978422e-06, "loss": 0.3346, "step": 7233 }, { "epoch": 2.4113333333333333, "grad_norm": 2.353536367416382, "learning_rate": 2.255460107183626e-06, "loss": 0.2733, "step": 7234 }, { "epoch": 2.4116666666666666, "grad_norm": 2.6872811317443848, "learning_rate": 2.2530070273872152e-06, "loss": 0.3137, "step": 7235 }, { "epoch": 2.412, "grad_norm": 2.5348258018493652, "learning_rate": 2.2505551129582047e-06, "loss": 0.3067, "step": 7236 }, { "epoch": 2.412333333333333, "grad_norm": 3.075601100921631, "learning_rate": 2.248104364265428e-06, "loss": 0.2973, "step": 7237 }, { "epoch": 2.4126666666666665, "grad_norm": 3.0936546325683594, "learning_rate": 2.245654781677551e-06, "loss": 0.3034, "step": 7238 }, { "epoch": 2.413, "grad_norm": 2.847402334213257, "learning_rate": 2.2432063655630555e-06, "loss": 0.3183, "step": 7239 }, { "epoch": 2.413333333333333, "grad_norm": 2.597684144973755, "learning_rate": 2.2407591162902576e-06, "loss": 0.2835, "step": 7240 }, { "epoch": 2.413666666666667, "grad_norm": 3.1966774463653564, "learning_rate": 2.2383130342272885e-06, "loss": 0.3023, "step": 7241 }, { "epoch": 2.414, "grad_norm": 2.859802007675171, "learning_rate": 2.2358681197421094e-06, "loss": 0.3034, "step": 7242 }, { "epoch": 2.4143333333333334, "grad_norm": 3.214012622833252, "learning_rate": 2.2334243732025072e-06, "loss": 0.2606, "step": 7243 }, { "epoch": 2.4146666666666667, "grad_norm": 2.7207932472229004, "learning_rate": 2.2309817949760913e-06, "loss": 0.3152, "step": 7244 }, { "epoch": 2.415, "grad_norm": 2.769484281539917, "learning_rate": 2.2285403854302912e-06, "loss": 0.3206, "step": 7245 }, { "epoch": 2.4153333333333333, "grad_norm": 2.1837685108184814, "learning_rate": 2.226100144932367e-06, "loss": 0.2882, "step": 7246 }, { "epoch": 2.4156666666666666, "grad_norm": 3.144054412841797, "learning_rate": 2.2236610738494e-06, "loss": 0.2777, "step": 7247 }, { "epoch": 2.416, "grad_norm": 2.703704595565796, "learning_rate": 2.2212231725482914e-06, "loss": 0.2801, "step": 7248 }, { "epoch": 2.416333333333333, "grad_norm": 2.6534664630889893, "learning_rate": 2.2187864413957737e-06, "loss": 0.3019, "step": 7249 }, { "epoch": 2.4166666666666665, "grad_norm": 3.807685375213623, "learning_rate": 2.2163508807584e-06, "loss": 0.2693, "step": 7250 }, { "epoch": 2.417, "grad_norm": 2.367309093475342, "learning_rate": 2.213916491002551e-06, "loss": 0.2943, "step": 7251 }, { "epoch": 2.4173333333333336, "grad_norm": 4.10254430770874, "learning_rate": 2.2114832724944222e-06, "loss": 0.3199, "step": 7252 }, { "epoch": 2.417666666666667, "grad_norm": 2.7902109622955322, "learning_rate": 2.209051225600041e-06, "loss": 0.3371, "step": 7253 }, { "epoch": 2.418, "grad_norm": 2.682985782623291, "learning_rate": 2.206620350685257e-06, "loss": 0.3136, "step": 7254 }, { "epoch": 2.4183333333333334, "grad_norm": 2.626624584197998, "learning_rate": 2.204190648115745e-06, "loss": 0.3235, "step": 7255 }, { "epoch": 2.4186666666666667, "grad_norm": 3.0706939697265625, "learning_rate": 2.2017621182569994e-06, "loss": 0.3191, "step": 7256 }, { "epoch": 2.419, "grad_norm": 2.958723545074463, "learning_rate": 2.1993347614743355e-06, "loss": 0.2714, "step": 7257 }, { "epoch": 2.4193333333333333, "grad_norm": 2.9116599559783936, "learning_rate": 2.1969085781329025e-06, "loss": 0.3012, "step": 7258 }, { "epoch": 2.4196666666666666, "grad_norm": 2.486243963241577, "learning_rate": 2.194483568597663e-06, "loss": 0.2593, "step": 7259 }, { "epoch": 2.42, "grad_norm": 2.71213436126709, "learning_rate": 2.192059733233408e-06, "loss": 0.3038, "step": 7260 }, { "epoch": 2.4203333333333332, "grad_norm": 2.533473491668701, "learning_rate": 2.189637072404752e-06, "loss": 0.3299, "step": 7261 }, { "epoch": 2.4206666666666665, "grad_norm": 2.703916549682617, "learning_rate": 2.187215586476136e-06, "loss": 0.2957, "step": 7262 }, { "epoch": 2.421, "grad_norm": 3.1464595794677734, "learning_rate": 2.1847952758118118e-06, "loss": 0.2773, "step": 7263 }, { "epoch": 2.421333333333333, "grad_norm": 2.947481870651245, "learning_rate": 2.182376140775868e-06, "loss": 0.3121, "step": 7264 }, { "epoch": 2.421666666666667, "grad_norm": 2.8817203044891357, "learning_rate": 2.1799581817322122e-06, "loss": 0.3299, "step": 7265 }, { "epoch": 2.422, "grad_norm": 3.1938836574554443, "learning_rate": 2.177541399044573e-06, "loss": 0.3017, "step": 7266 }, { "epoch": 2.4223333333333334, "grad_norm": 3.5968146324157715, "learning_rate": 2.175125793076499e-06, "loss": 0.3098, "step": 7267 }, { "epoch": 2.4226666666666667, "grad_norm": 2.4812402725219727, "learning_rate": 2.1727113641913677e-06, "loss": 0.3444, "step": 7268 }, { "epoch": 2.423, "grad_norm": 2.939417839050293, "learning_rate": 2.1702981127523827e-06, "loss": 0.3219, "step": 7269 }, { "epoch": 2.4233333333333333, "grad_norm": 3.677833080291748, "learning_rate": 2.1678860391225588e-06, "loss": 0.3373, "step": 7270 }, { "epoch": 2.4236666666666666, "grad_norm": 2.32536244392395, "learning_rate": 2.1654751436647413e-06, "loss": 0.2693, "step": 7271 }, { "epoch": 2.424, "grad_norm": 2.6664891242980957, "learning_rate": 2.163065426741603e-06, "loss": 0.2998, "step": 7272 }, { "epoch": 2.4243333333333332, "grad_norm": 2.872523069381714, "learning_rate": 2.1606568887156266e-06, "loss": 0.2986, "step": 7273 }, { "epoch": 2.4246666666666665, "grad_norm": 3.659282684326172, "learning_rate": 2.158249529949128e-06, "loss": 0.3056, "step": 7274 }, { "epoch": 2.425, "grad_norm": 2.6312737464904785, "learning_rate": 2.155843350804243e-06, "loss": 0.3053, "step": 7275 }, { "epoch": 2.4253333333333336, "grad_norm": 3.066748857498169, "learning_rate": 2.1534383516429292e-06, "loss": 0.3395, "step": 7276 }, { "epoch": 2.425666666666667, "grad_norm": 3.2865328788757324, "learning_rate": 2.1510345328269622e-06, "loss": 0.3064, "step": 7277 }, { "epoch": 2.426, "grad_norm": 2.7941579818725586, "learning_rate": 2.1486318947179476e-06, "loss": 0.3074, "step": 7278 }, { "epoch": 2.4263333333333335, "grad_norm": 2.7714242935180664, "learning_rate": 2.1462304376773126e-06, "loss": 0.2608, "step": 7279 }, { "epoch": 2.4266666666666667, "grad_norm": 2.9921061992645264, "learning_rate": 2.1438301620662994e-06, "loss": 0.3055, "step": 7280 }, { "epoch": 2.427, "grad_norm": 2.3780527114868164, "learning_rate": 2.1414310682459805e-06, "loss": 0.2747, "step": 7281 }, { "epoch": 2.4273333333333333, "grad_norm": 2.8056108951568604, "learning_rate": 2.139033156577248e-06, "loss": 0.3196, "step": 7282 }, { "epoch": 2.4276666666666666, "grad_norm": 2.8550174236297607, "learning_rate": 2.1366364274208175e-06, "loss": 0.2863, "step": 7283 }, { "epoch": 2.428, "grad_norm": 2.65433669090271, "learning_rate": 2.1342408811372217e-06, "loss": 0.3075, "step": 7284 }, { "epoch": 2.4283333333333332, "grad_norm": 2.7227063179016113, "learning_rate": 2.131846518086819e-06, "loss": 0.285, "step": 7285 }, { "epoch": 2.4286666666666665, "grad_norm": 2.4950923919677734, "learning_rate": 2.129453338629791e-06, "loss": 0.3511, "step": 7286 }, { "epoch": 2.429, "grad_norm": 2.3921403884887695, "learning_rate": 2.1270613431261367e-06, "loss": 0.3019, "step": 7287 }, { "epoch": 2.429333333333333, "grad_norm": 2.238983631134033, "learning_rate": 2.124670531935683e-06, "loss": 0.2941, "step": 7288 }, { "epoch": 2.429666666666667, "grad_norm": 2.9735782146453857, "learning_rate": 2.122280905418074e-06, "loss": 0.3119, "step": 7289 }, { "epoch": 2.43, "grad_norm": 2.600041151046753, "learning_rate": 2.119892463932781e-06, "loss": 0.3209, "step": 7290 }, { "epoch": 2.4303333333333335, "grad_norm": 2.7843635082244873, "learning_rate": 2.117505207839089e-06, "loss": 0.2619, "step": 7291 }, { "epoch": 2.4306666666666668, "grad_norm": 3.039130210876465, "learning_rate": 2.11511913749611e-06, "loss": 0.3242, "step": 7292 }, { "epoch": 2.431, "grad_norm": 2.594546318054199, "learning_rate": 2.1127342532627794e-06, "loss": 0.2983, "step": 7293 }, { "epoch": 2.4313333333333333, "grad_norm": 4.259345531463623, "learning_rate": 2.11035055549785e-06, "loss": 0.3149, "step": 7294 }, { "epoch": 2.4316666666666666, "grad_norm": 3.2399039268493652, "learning_rate": 2.1079680445598927e-06, "loss": 0.3114, "step": 7295 }, { "epoch": 2.432, "grad_norm": 3.1057846546173096, "learning_rate": 2.10558672080731e-06, "loss": 0.3219, "step": 7296 }, { "epoch": 2.4323333333333332, "grad_norm": 3.0431265830993652, "learning_rate": 2.103206584598322e-06, "loss": 0.313, "step": 7297 }, { "epoch": 2.4326666666666665, "grad_norm": 3.2289774417877197, "learning_rate": 2.100827636290962e-06, "loss": 0.3089, "step": 7298 }, { "epoch": 2.433, "grad_norm": 2.809534788131714, "learning_rate": 2.098449876243096e-06, "loss": 0.3283, "step": 7299 }, { "epoch": 2.4333333333333336, "grad_norm": 2.636012315750122, "learning_rate": 2.0960733048124082e-06, "loss": 0.3161, "step": 7300 }, { "epoch": 2.4336666666666664, "grad_norm": 3.4619665145874023, "learning_rate": 2.093697922356398e-06, "loss": 0.2958, "step": 7301 }, { "epoch": 2.434, "grad_norm": 2.927351236343384, "learning_rate": 2.091323729232391e-06, "loss": 0.2979, "step": 7302 }, { "epoch": 2.4343333333333335, "grad_norm": 3.9345264434814453, "learning_rate": 2.088950725797537e-06, "loss": 0.3197, "step": 7303 }, { "epoch": 2.4346666666666668, "grad_norm": 2.801462411880493, "learning_rate": 2.0865789124088008e-06, "loss": 0.2772, "step": 7304 }, { "epoch": 2.435, "grad_norm": 2.364384889602661, "learning_rate": 2.084208289422968e-06, "loss": 0.3182, "step": 7305 }, { "epoch": 2.4353333333333333, "grad_norm": 2.726172924041748, "learning_rate": 2.0818388571966475e-06, "loss": 0.3217, "step": 7306 }, { "epoch": 2.4356666666666666, "grad_norm": 2.532719612121582, "learning_rate": 2.0794706160862753e-06, "loss": 0.3079, "step": 7307 }, { "epoch": 2.436, "grad_norm": 2.3838138580322266, "learning_rate": 2.0771035664480944e-06, "loss": 0.3082, "step": 7308 }, { "epoch": 2.4363333333333332, "grad_norm": 2.9430456161499023, "learning_rate": 2.0747377086381794e-06, "loss": 0.268, "step": 7309 }, { "epoch": 2.4366666666666665, "grad_norm": 2.89615535736084, "learning_rate": 2.072373043012422e-06, "loss": 0.2795, "step": 7310 }, { "epoch": 2.437, "grad_norm": 3.0264511108398438, "learning_rate": 2.070009569926539e-06, "loss": 0.2894, "step": 7311 }, { "epoch": 2.437333333333333, "grad_norm": 3.3427557945251465, "learning_rate": 2.0676472897360566e-06, "loss": 0.3181, "step": 7312 }, { "epoch": 2.437666666666667, "grad_norm": 3.138129711151123, "learning_rate": 2.065286202796335e-06, "loss": 0.2973, "step": 7313 }, { "epoch": 2.438, "grad_norm": 2.731382131576538, "learning_rate": 2.0629263094625476e-06, "loss": 0.3067, "step": 7314 }, { "epoch": 2.4383333333333335, "grad_norm": 2.6436715126037598, "learning_rate": 2.0605676100896833e-06, "loss": 0.2877, "step": 7315 }, { "epoch": 2.4386666666666668, "grad_norm": 3.3919413089752197, "learning_rate": 2.058210105032562e-06, "loss": 0.3298, "step": 7316 }, { "epoch": 2.439, "grad_norm": 2.6825127601623535, "learning_rate": 2.0558537946458177e-06, "loss": 0.3074, "step": 7317 }, { "epoch": 2.4393333333333334, "grad_norm": 2.678011417388916, "learning_rate": 2.0534986792839118e-06, "loss": 0.2992, "step": 7318 }, { "epoch": 2.4396666666666667, "grad_norm": 2.6682822704315186, "learning_rate": 2.0511447593011134e-06, "loss": 0.3267, "step": 7319 }, { "epoch": 2.44, "grad_norm": 2.8922672271728516, "learning_rate": 2.048792035051521e-06, "loss": 0.3357, "step": 7320 }, { "epoch": 2.4403333333333332, "grad_norm": 2.331206798553467, "learning_rate": 2.046440506889055e-06, "loss": 0.311, "step": 7321 }, { "epoch": 2.4406666666666665, "grad_norm": 2.592134475708008, "learning_rate": 2.044090175167446e-06, "loss": 0.3344, "step": 7322 }, { "epoch": 2.441, "grad_norm": 2.3125243186950684, "learning_rate": 2.041741040240255e-06, "loss": 0.3092, "step": 7323 }, { "epoch": 2.4413333333333336, "grad_norm": 4.212915420532227, "learning_rate": 2.0393931024608538e-06, "loss": 0.3011, "step": 7324 }, { "epoch": 2.4416666666666664, "grad_norm": 3.478038787841797, "learning_rate": 2.0370463621824445e-06, "loss": 0.2698, "step": 7325 }, { "epoch": 2.442, "grad_norm": 3.2080273628234863, "learning_rate": 2.0347008197580376e-06, "loss": 0.3025, "step": 7326 }, { "epoch": 2.4423333333333335, "grad_norm": 2.899885416030884, "learning_rate": 2.0323564755404722e-06, "loss": 0.2697, "step": 7327 }, { "epoch": 2.4426666666666668, "grad_norm": 2.1701560020446777, "learning_rate": 2.0300133298824076e-06, "loss": 0.2733, "step": 7328 }, { "epoch": 2.443, "grad_norm": 2.9527509212493896, "learning_rate": 2.0276713831363115e-06, "loss": 0.272, "step": 7329 }, { "epoch": 2.4433333333333334, "grad_norm": 3.707146644592285, "learning_rate": 2.0253306356544843e-06, "loss": 0.2629, "step": 7330 }, { "epoch": 2.4436666666666667, "grad_norm": 2.381448984146118, "learning_rate": 2.0229910877890424e-06, "loss": 0.3284, "step": 7331 }, { "epoch": 2.444, "grad_norm": 4.964235782623291, "learning_rate": 2.020652739891914e-06, "loss": 0.3302, "step": 7332 }, { "epoch": 2.4443333333333332, "grad_norm": 3.673957109451294, "learning_rate": 2.01831559231486e-06, "loss": 0.2379, "step": 7333 }, { "epoch": 2.4446666666666665, "grad_norm": 4.934240818023682, "learning_rate": 2.0159796454094473e-06, "loss": 0.2901, "step": 7334 }, { "epoch": 2.445, "grad_norm": 2.4997243881225586, "learning_rate": 2.013644899527074e-06, "loss": 0.2664, "step": 7335 }, { "epoch": 2.445333333333333, "grad_norm": 2.4161384105682373, "learning_rate": 2.0113113550189468e-06, "loss": 0.2604, "step": 7336 }, { "epoch": 2.445666666666667, "grad_norm": 2.4897000789642334, "learning_rate": 2.0089790122360984e-06, "loss": 0.3295, "step": 7337 }, { "epoch": 2.446, "grad_norm": 2.4399359226226807, "learning_rate": 2.0066478715293826e-06, "loss": 0.2714, "step": 7338 }, { "epoch": 2.4463333333333335, "grad_norm": 2.8267159461975098, "learning_rate": 2.004317933249468e-06, "loss": 0.3212, "step": 7339 }, { "epoch": 2.4466666666666668, "grad_norm": 2.8686881065368652, "learning_rate": 2.001989197746841e-06, "loss": 0.2915, "step": 7340 }, { "epoch": 2.447, "grad_norm": 3.495464324951172, "learning_rate": 1.9996616653718126e-06, "loss": 0.2907, "step": 7341 }, { "epoch": 2.4473333333333334, "grad_norm": 3.225327730178833, "learning_rate": 1.997335336474507e-06, "loss": 0.3296, "step": 7342 }, { "epoch": 2.4476666666666667, "grad_norm": 2.6183700561523438, "learning_rate": 1.9950102114048697e-06, "loss": 0.2863, "step": 7343 }, { "epoch": 2.448, "grad_norm": 2.3525333404541016, "learning_rate": 1.9926862905126663e-06, "loss": 0.2967, "step": 7344 }, { "epoch": 2.4483333333333333, "grad_norm": 2.6848318576812744, "learning_rate": 1.99036357414748e-06, "loss": 0.2925, "step": 7345 }, { "epoch": 2.4486666666666665, "grad_norm": 3.9721310138702393, "learning_rate": 1.988042062658717e-06, "loss": 0.281, "step": 7346 }, { "epoch": 2.449, "grad_norm": 3.714787244796753, "learning_rate": 1.9857217563955932e-06, "loss": 0.3124, "step": 7347 }, { "epoch": 2.449333333333333, "grad_norm": 2.041552782058716, "learning_rate": 1.9834026557071496e-06, "loss": 0.3063, "step": 7348 }, { "epoch": 2.4496666666666664, "grad_norm": 2.033034086227417, "learning_rate": 1.981084760942249e-06, "loss": 0.2757, "step": 7349 }, { "epoch": 2.45, "grad_norm": 3.281817674636841, "learning_rate": 1.9787680724495617e-06, "loss": 0.3364, "step": 7350 }, { "epoch": 2.4503333333333335, "grad_norm": 3.365591526031494, "learning_rate": 1.97645259057759e-06, "loss": 0.3126, "step": 7351 }, { "epoch": 2.4506666666666668, "grad_norm": 2.3549225330352783, "learning_rate": 1.974138315674643e-06, "loss": 0.3153, "step": 7352 }, { "epoch": 2.451, "grad_norm": 2.805263042449951, "learning_rate": 1.9718252480888567e-06, "loss": 0.2978, "step": 7353 }, { "epoch": 2.4513333333333334, "grad_norm": 3.013880968093872, "learning_rate": 1.969513388168178e-06, "loss": 0.2858, "step": 7354 }, { "epoch": 2.4516666666666667, "grad_norm": 3.078777313232422, "learning_rate": 1.96720273626038e-06, "loss": 0.2998, "step": 7355 }, { "epoch": 2.452, "grad_norm": 3.115241527557373, "learning_rate": 1.964893292713049e-06, "loss": 0.3239, "step": 7356 }, { "epoch": 2.4523333333333333, "grad_norm": 2.431058645248413, "learning_rate": 1.9625850578735895e-06, "loss": 0.304, "step": 7357 }, { "epoch": 2.4526666666666666, "grad_norm": 2.9819812774658203, "learning_rate": 1.960278032089227e-06, "loss": 0.3183, "step": 7358 }, { "epoch": 2.453, "grad_norm": 3.724032402038574, "learning_rate": 1.9579722157070026e-06, "loss": 0.3229, "step": 7359 }, { "epoch": 2.453333333333333, "grad_norm": 2.1397314071655273, "learning_rate": 1.9556676090737803e-06, "loss": 0.3023, "step": 7360 }, { "epoch": 2.453666666666667, "grad_norm": 2.835476875305176, "learning_rate": 1.953364212536234e-06, "loss": 0.2942, "step": 7361 }, { "epoch": 2.454, "grad_norm": 2.759303569793701, "learning_rate": 1.95106202644086e-06, "loss": 0.3098, "step": 7362 }, { "epoch": 2.4543333333333335, "grad_norm": 2.9353535175323486, "learning_rate": 1.948761051133975e-06, "loss": 0.311, "step": 7363 }, { "epoch": 2.4546666666666668, "grad_norm": 2.7929131984710693, "learning_rate": 1.9464612869617063e-06, "loss": 0.2811, "step": 7364 }, { "epoch": 2.455, "grad_norm": 2.4095873832702637, "learning_rate": 1.9441627342700067e-06, "loss": 0.2902, "step": 7365 }, { "epoch": 2.4553333333333334, "grad_norm": 2.4307773113250732, "learning_rate": 1.941865393404644e-06, "loss": 0.3029, "step": 7366 }, { "epoch": 2.4556666666666667, "grad_norm": 2.312849760055542, "learning_rate": 1.939569264711205e-06, "loss": 0.3127, "step": 7367 }, { "epoch": 2.456, "grad_norm": 2.6249020099639893, "learning_rate": 1.9372743485350887e-06, "loss": 0.3111, "step": 7368 }, { "epoch": 2.4563333333333333, "grad_norm": 2.442824602127075, "learning_rate": 1.934980645221517e-06, "loss": 0.2705, "step": 7369 }, { "epoch": 2.4566666666666666, "grad_norm": 3.911240577697754, "learning_rate": 1.9326881551155307e-06, "loss": 0.2948, "step": 7370 }, { "epoch": 2.457, "grad_norm": 2.6046454906463623, "learning_rate": 1.930396878561983e-06, "loss": 0.3084, "step": 7371 }, { "epoch": 2.457333333333333, "grad_norm": 2.5104382038116455, "learning_rate": 1.928106815905544e-06, "loss": 0.2839, "step": 7372 }, { "epoch": 2.4576666666666664, "grad_norm": 2.200408697128296, "learning_rate": 1.9258179674907073e-06, "loss": 0.2868, "step": 7373 }, { "epoch": 2.458, "grad_norm": 2.4048287868499756, "learning_rate": 1.9235303336617827e-06, "loss": 0.2863, "step": 7374 }, { "epoch": 2.4583333333333335, "grad_norm": 3.404822587966919, "learning_rate": 1.9212439147628893e-06, "loss": 0.3045, "step": 7375 }, { "epoch": 2.458666666666667, "grad_norm": 2.6213865280151367, "learning_rate": 1.9189587111379736e-06, "loss": 0.2662, "step": 7376 }, { "epoch": 2.459, "grad_norm": 2.81974458694458, "learning_rate": 1.916674723130796e-06, "loss": 0.3158, "step": 7377 }, { "epoch": 2.4593333333333334, "grad_norm": 3.382305860519409, "learning_rate": 1.9143919510849286e-06, "loss": 0.2714, "step": 7378 }, { "epoch": 2.4596666666666667, "grad_norm": 3.7135214805603027, "learning_rate": 1.9121103953437704e-06, "loss": 0.3246, "step": 7379 }, { "epoch": 2.46, "grad_norm": 2.7320363521575928, "learning_rate": 1.9098300562505266e-06, "loss": 0.3028, "step": 7380 }, { "epoch": 2.4603333333333333, "grad_norm": 2.742896556854248, "learning_rate": 1.90755093414823e-06, "loss": 0.2658, "step": 7381 }, { "epoch": 2.4606666666666666, "grad_norm": 2.892254114151001, "learning_rate": 1.9052730293797205e-06, "loss": 0.277, "step": 7382 }, { "epoch": 2.461, "grad_norm": 2.8538689613342285, "learning_rate": 1.9029963422876608e-06, "loss": 0.3126, "step": 7383 }, { "epoch": 2.461333333333333, "grad_norm": 2.9144930839538574, "learning_rate": 1.9007208732145332e-06, "loss": 0.3279, "step": 7384 }, { "epoch": 2.461666666666667, "grad_norm": 2.507556438446045, "learning_rate": 1.8984466225026277e-06, "loss": 0.2784, "step": 7385 }, { "epoch": 2.462, "grad_norm": 2.489651918411255, "learning_rate": 1.896173590494057e-06, "loss": 0.2653, "step": 7386 }, { "epoch": 2.4623333333333335, "grad_norm": 2.9978487491607666, "learning_rate": 1.8939017775307523e-06, "loss": 0.3505, "step": 7387 }, { "epoch": 2.462666666666667, "grad_norm": 2.8830208778381348, "learning_rate": 1.8916311839544576e-06, "loss": 0.2912, "step": 7388 }, { "epoch": 2.463, "grad_norm": 2.6874587535858154, "learning_rate": 1.8893618101067357e-06, "loss": 0.2837, "step": 7389 }, { "epoch": 2.4633333333333334, "grad_norm": 2.7285499572753906, "learning_rate": 1.8870936563289598e-06, "loss": 0.3005, "step": 7390 }, { "epoch": 2.4636666666666667, "grad_norm": 2.5447473526000977, "learning_rate": 1.8848267229623297e-06, "loss": 0.3034, "step": 7391 }, { "epoch": 2.464, "grad_norm": 2.9925944805145264, "learning_rate": 1.8825610103478531e-06, "loss": 0.2763, "step": 7392 }, { "epoch": 2.4643333333333333, "grad_norm": 3.142911672592163, "learning_rate": 1.8802965188263578e-06, "loss": 0.2989, "step": 7393 }, { "epoch": 2.4646666666666666, "grad_norm": 2.156649112701416, "learning_rate": 1.87803324873849e-06, "loss": 0.304, "step": 7394 }, { "epoch": 2.465, "grad_norm": 2.782987356185913, "learning_rate": 1.8757712004247098e-06, "loss": 0.3237, "step": 7395 }, { "epoch": 2.465333333333333, "grad_norm": 2.855100631713867, "learning_rate": 1.873510374225289e-06, "loss": 0.2848, "step": 7396 }, { "epoch": 2.4656666666666665, "grad_norm": 3.1256697177886963, "learning_rate": 1.871250770480324e-06, "loss": 0.3241, "step": 7397 }, { "epoch": 2.466, "grad_norm": 3.503434896469116, "learning_rate": 1.8689923895297247e-06, "loss": 0.2941, "step": 7398 }, { "epoch": 2.4663333333333335, "grad_norm": 2.5431454181671143, "learning_rate": 1.8667352317132126e-06, "loss": 0.2805, "step": 7399 }, { "epoch": 2.466666666666667, "grad_norm": 3.0099997520446777, "learning_rate": 1.8644792973703252e-06, "loss": 0.325, "step": 7400 }, { "epoch": 2.467, "grad_norm": 2.9574995040893555, "learning_rate": 1.8622245868404244e-06, "loss": 0.3104, "step": 7401 }, { "epoch": 2.4673333333333334, "grad_norm": 3.340526819229126, "learning_rate": 1.859971100462682e-06, "loss": 0.2903, "step": 7402 }, { "epoch": 2.4676666666666667, "grad_norm": 2.7523107528686523, "learning_rate": 1.8577188385760825e-06, "loss": 0.3202, "step": 7403 }, { "epoch": 2.468, "grad_norm": 2.7132468223571777, "learning_rate": 1.8554678015194316e-06, "loss": 0.3075, "step": 7404 }, { "epoch": 2.4683333333333333, "grad_norm": 2.7879979610443115, "learning_rate": 1.853217989631354e-06, "loss": 0.3109, "step": 7405 }, { "epoch": 2.4686666666666666, "grad_norm": 3.4957048892974854, "learning_rate": 1.850969403250278e-06, "loss": 0.3201, "step": 7406 }, { "epoch": 2.469, "grad_norm": 3.146224021911621, "learning_rate": 1.848722042714457e-06, "loss": 0.3114, "step": 7407 }, { "epoch": 2.469333333333333, "grad_norm": 2.7141151428222656, "learning_rate": 1.846475908361962e-06, "loss": 0.2892, "step": 7408 }, { "epoch": 2.469666666666667, "grad_norm": 2.882035255432129, "learning_rate": 1.844231000530672e-06, "loss": 0.3058, "step": 7409 }, { "epoch": 2.4699999999999998, "grad_norm": 2.5640065670013428, "learning_rate": 1.8419873195582815e-06, "loss": 0.3167, "step": 7410 }, { "epoch": 2.4703333333333335, "grad_norm": 2.8590874671936035, "learning_rate": 1.8397448657823069e-06, "loss": 0.3251, "step": 7411 }, { "epoch": 2.470666666666667, "grad_norm": 3.0119149684906006, "learning_rate": 1.8375036395400792e-06, "loss": 0.3296, "step": 7412 }, { "epoch": 2.471, "grad_norm": 2.9289252758026123, "learning_rate": 1.8352636411687374e-06, "loss": 0.281, "step": 7413 }, { "epoch": 2.4713333333333334, "grad_norm": 2.505774974822998, "learning_rate": 1.8330248710052446e-06, "loss": 0.3061, "step": 7414 }, { "epoch": 2.4716666666666667, "grad_norm": 2.6620631217956543, "learning_rate": 1.830787329386372e-06, "loss": 0.3134, "step": 7415 }, { "epoch": 2.472, "grad_norm": 2.747887134552002, "learning_rate": 1.8285510166487154e-06, "loss": 0.2954, "step": 7416 }, { "epoch": 2.4723333333333333, "grad_norm": 2.89931321144104, "learning_rate": 1.8263159331286729e-06, "loss": 0.314, "step": 7417 }, { "epoch": 2.4726666666666666, "grad_norm": 3.500314712524414, "learning_rate": 1.8240820791624691e-06, "loss": 0.2887, "step": 7418 }, { "epoch": 2.473, "grad_norm": 3.301457643508911, "learning_rate": 1.8218494550861375e-06, "loss": 0.3142, "step": 7419 }, { "epoch": 2.473333333333333, "grad_norm": 3.165440797805786, "learning_rate": 1.8196180612355252e-06, "loss": 0.3179, "step": 7420 }, { "epoch": 2.4736666666666665, "grad_norm": 3.1596803665161133, "learning_rate": 1.8173878979462988e-06, "loss": 0.3072, "step": 7421 }, { "epoch": 2.474, "grad_norm": 2.9107000827789307, "learning_rate": 1.8151589655539391e-06, "loss": 0.3097, "step": 7422 }, { "epoch": 2.4743333333333335, "grad_norm": 2.6037213802337646, "learning_rate": 1.8129312643937436e-06, "loss": 0.2702, "step": 7423 }, { "epoch": 2.474666666666667, "grad_norm": 5.306561470031738, "learning_rate": 1.810704794800815e-06, "loss": 0.2885, "step": 7424 }, { "epoch": 2.475, "grad_norm": 2.4994053840637207, "learning_rate": 1.808479557110081e-06, "loss": 0.2902, "step": 7425 }, { "epoch": 2.4753333333333334, "grad_norm": 2.256744384765625, "learning_rate": 1.806255551656284e-06, "loss": 0.2934, "step": 7426 }, { "epoch": 2.4756666666666667, "grad_norm": 2.5408172607421875, "learning_rate": 1.804032778773971e-06, "loss": 0.2749, "step": 7427 }, { "epoch": 2.476, "grad_norm": 2.2113802433013916, "learning_rate": 1.8018112387975139e-06, "loss": 0.2561, "step": 7428 }, { "epoch": 2.4763333333333333, "grad_norm": 2.759995698928833, "learning_rate": 1.7995909320610938e-06, "loss": 0.313, "step": 7429 }, { "epoch": 2.4766666666666666, "grad_norm": 2.319744348526001, "learning_rate": 1.79737185889871e-06, "loss": 0.3067, "step": 7430 }, { "epoch": 2.477, "grad_norm": 2.9502949714660645, "learning_rate": 1.7951540196441698e-06, "loss": 0.2761, "step": 7431 }, { "epoch": 2.477333333333333, "grad_norm": 4.621431350708008, "learning_rate": 1.7929374146311018e-06, "loss": 0.2889, "step": 7432 }, { "epoch": 2.477666666666667, "grad_norm": 2.4216866493225098, "learning_rate": 1.7907220441929486e-06, "loss": 0.3072, "step": 7433 }, { "epoch": 2.4779999999999998, "grad_norm": 2.336599826812744, "learning_rate": 1.7885079086629598e-06, "loss": 0.2742, "step": 7434 }, { "epoch": 2.4783333333333335, "grad_norm": 2.6180596351623535, "learning_rate": 1.786295008374207e-06, "loss": 0.2636, "step": 7435 }, { "epoch": 2.478666666666667, "grad_norm": 2.7863550186157227, "learning_rate": 1.784083343659575e-06, "loss": 0.3525, "step": 7436 }, { "epoch": 2.479, "grad_norm": 2.8816802501678467, "learning_rate": 1.7818729148517588e-06, "loss": 0.2822, "step": 7437 }, { "epoch": 2.4793333333333334, "grad_norm": 2.8065497875213623, "learning_rate": 1.7796637222832658e-06, "loss": 0.3138, "step": 7438 }, { "epoch": 2.4796666666666667, "grad_norm": 4.420965194702148, "learning_rate": 1.7774557662864256e-06, "loss": 0.2898, "step": 7439 }, { "epoch": 2.48, "grad_norm": 3.536608934402466, "learning_rate": 1.7752490471933769e-06, "loss": 0.3278, "step": 7440 }, { "epoch": 2.4803333333333333, "grad_norm": 3.3855960369110107, "learning_rate": 1.7730435653360745e-06, "loss": 0.3074, "step": 7441 }, { "epoch": 2.4806666666666666, "grad_norm": 2.452148199081421, "learning_rate": 1.7708393210462815e-06, "loss": 0.3178, "step": 7442 }, { "epoch": 2.481, "grad_norm": 3.4270195960998535, "learning_rate": 1.7686363146555807e-06, "loss": 0.3017, "step": 7443 }, { "epoch": 2.481333333333333, "grad_norm": 2.5406172275543213, "learning_rate": 1.766434546495368e-06, "loss": 0.2966, "step": 7444 }, { "epoch": 2.4816666666666665, "grad_norm": 2.647055149078369, "learning_rate": 1.7642340168968496e-06, "loss": 0.2742, "step": 7445 }, { "epoch": 2.482, "grad_norm": 3.565432071685791, "learning_rate": 1.7620347261910498e-06, "loss": 0.3011, "step": 7446 }, { "epoch": 2.4823333333333335, "grad_norm": 2.3273818492889404, "learning_rate": 1.7598366747088003e-06, "loss": 0.2509, "step": 7447 }, { "epoch": 2.482666666666667, "grad_norm": 2.813174247741699, "learning_rate": 1.7576398627807557e-06, "loss": 0.3153, "step": 7448 }, { "epoch": 2.483, "grad_norm": 3.0450854301452637, "learning_rate": 1.7554442907373736e-06, "loss": 0.3077, "step": 7449 }, { "epoch": 2.4833333333333334, "grad_norm": 2.8583052158355713, "learning_rate": 1.7532499589089324e-06, "loss": 0.3237, "step": 7450 }, { "epoch": 2.4836666666666667, "grad_norm": 2.9382503032684326, "learning_rate": 1.7510568676255247e-06, "loss": 0.2934, "step": 7451 }, { "epoch": 2.484, "grad_norm": 2.808800220489502, "learning_rate": 1.7488650172170496e-06, "loss": 0.2935, "step": 7452 }, { "epoch": 2.4843333333333333, "grad_norm": 2.3345248699188232, "learning_rate": 1.7466744080132237e-06, "loss": 0.2776, "step": 7453 }, { "epoch": 2.4846666666666666, "grad_norm": 3.021794557571411, "learning_rate": 1.7444850403435787e-06, "loss": 0.249, "step": 7454 }, { "epoch": 2.485, "grad_norm": 2.836205244064331, "learning_rate": 1.742296914537459e-06, "loss": 0.2852, "step": 7455 }, { "epoch": 2.485333333333333, "grad_norm": 3.205829381942749, "learning_rate": 1.7401100309240181e-06, "loss": 0.3221, "step": 7456 }, { "epoch": 2.485666666666667, "grad_norm": 2.4070444107055664, "learning_rate": 1.737924389832225e-06, "loss": 0.2955, "step": 7457 }, { "epoch": 2.4859999999999998, "grad_norm": 3.0840492248535156, "learning_rate": 1.7357399915908646e-06, "loss": 0.3161, "step": 7458 }, { "epoch": 2.4863333333333335, "grad_norm": 2.7492377758026123, "learning_rate": 1.7335568365285282e-06, "loss": 0.276, "step": 7459 }, { "epoch": 2.486666666666667, "grad_norm": 3.0989131927490234, "learning_rate": 1.7313749249736266e-06, "loss": 0.3074, "step": 7460 }, { "epoch": 2.487, "grad_norm": 3.188478469848633, "learning_rate": 1.7291942572543806e-06, "loss": 0.2866, "step": 7461 }, { "epoch": 2.4873333333333334, "grad_norm": 3.437845468521118, "learning_rate": 1.7270148336988291e-06, "loss": 0.3003, "step": 7462 }, { "epoch": 2.4876666666666667, "grad_norm": 2.3643386363983154, "learning_rate": 1.7248366546348116e-06, "loss": 0.2853, "step": 7463 }, { "epoch": 2.488, "grad_norm": 2.925191640853882, "learning_rate": 1.7226597203899941e-06, "loss": 0.308, "step": 7464 }, { "epoch": 2.4883333333333333, "grad_norm": 2.4499800205230713, "learning_rate": 1.7204840312918446e-06, "loss": 0.2683, "step": 7465 }, { "epoch": 2.4886666666666666, "grad_norm": 2.2260048389434814, "learning_rate": 1.7183095876676537e-06, "loss": 0.2898, "step": 7466 }, { "epoch": 2.489, "grad_norm": 2.634348154067993, "learning_rate": 1.7161363898445138e-06, "loss": 0.3154, "step": 7467 }, { "epoch": 2.489333333333333, "grad_norm": 3.1046736240386963, "learning_rate": 1.713964438149337e-06, "loss": 0.311, "step": 7468 }, { "epoch": 2.4896666666666665, "grad_norm": 2.6937127113342285, "learning_rate": 1.7117937329088496e-06, "loss": 0.2814, "step": 7469 }, { "epoch": 2.49, "grad_norm": 2.806619882583618, "learning_rate": 1.709624274449584e-06, "loss": 0.2798, "step": 7470 }, { "epoch": 2.4903333333333335, "grad_norm": 2.8392844200134277, "learning_rate": 1.7074560630978875e-06, "loss": 0.3223, "step": 7471 }, { "epoch": 2.490666666666667, "grad_norm": 2.9206418991088867, "learning_rate": 1.7052890991799254e-06, "loss": 0.2885, "step": 7472 }, { "epoch": 2.491, "grad_norm": 3.405830144882202, "learning_rate": 1.7031233830216653e-06, "loss": 0.3025, "step": 7473 }, { "epoch": 2.4913333333333334, "grad_norm": 2.232421398162842, "learning_rate": 1.700958914948897e-06, "loss": 0.3193, "step": 7474 }, { "epoch": 2.4916666666666667, "grad_norm": 3.310753107070923, "learning_rate": 1.698795695287212e-06, "loss": 0.312, "step": 7475 }, { "epoch": 2.492, "grad_norm": 2.6960411071777344, "learning_rate": 1.6966337243620267e-06, "loss": 0.3181, "step": 7476 }, { "epoch": 2.4923333333333333, "grad_norm": 2.6235809326171875, "learning_rate": 1.6944730024985557e-06, "loss": 0.3047, "step": 7477 }, { "epoch": 2.4926666666666666, "grad_norm": 2.460399866104126, "learning_rate": 1.6923135300218374e-06, "loss": 0.2929, "step": 7478 }, { "epoch": 2.493, "grad_norm": 2.420064926147461, "learning_rate": 1.6901553072567189e-06, "loss": 0.3084, "step": 7479 }, { "epoch": 2.493333333333333, "grad_norm": 2.9659030437469482, "learning_rate": 1.6879983345278528e-06, "loss": 0.2992, "step": 7480 }, { "epoch": 2.4936666666666665, "grad_norm": 4.371343612670898, "learning_rate": 1.6858426121597127e-06, "loss": 0.2917, "step": 7481 }, { "epoch": 2.4939999999999998, "grad_norm": 2.7147443294525146, "learning_rate": 1.6836881404765793e-06, "loss": 0.3019, "step": 7482 }, { "epoch": 2.4943333333333335, "grad_norm": 2.4643540382385254, "learning_rate": 1.68153491980255e-06, "loss": 0.317, "step": 7483 }, { "epoch": 2.494666666666667, "grad_norm": 2.8038249015808105, "learning_rate": 1.6793829504615266e-06, "loss": 0.3001, "step": 7484 }, { "epoch": 2.495, "grad_norm": 2.737630844116211, "learning_rate": 1.677232232777224e-06, "loss": 0.2759, "step": 7485 }, { "epoch": 2.4953333333333334, "grad_norm": 3.3320391178131104, "learning_rate": 1.675082767073175e-06, "loss": 0.2838, "step": 7486 }, { "epoch": 2.4956666666666667, "grad_norm": 2.4116697311401367, "learning_rate": 1.6729345536727182e-06, "loss": 0.2914, "step": 7487 }, { "epoch": 2.496, "grad_norm": 2.859489679336548, "learning_rate": 1.6707875928990059e-06, "loss": 0.3036, "step": 7488 }, { "epoch": 2.4963333333333333, "grad_norm": 2.9535369873046875, "learning_rate": 1.668641885075002e-06, "loss": 0.2971, "step": 7489 }, { "epoch": 2.4966666666666666, "grad_norm": 2.89005708694458, "learning_rate": 1.6664974305234848e-06, "loss": 0.2762, "step": 7490 }, { "epoch": 2.497, "grad_norm": 2.831688642501831, "learning_rate": 1.6643542295670367e-06, "loss": 0.2939, "step": 7491 }, { "epoch": 2.497333333333333, "grad_norm": 2.7341761589050293, "learning_rate": 1.6622122825280573e-06, "loss": 0.2957, "step": 7492 }, { "epoch": 2.4976666666666665, "grad_norm": 2.3564910888671875, "learning_rate": 1.660071589728759e-06, "loss": 0.3013, "step": 7493 }, { "epoch": 2.498, "grad_norm": 2.5628931522369385, "learning_rate": 1.6579321514911606e-06, "loss": 0.271, "step": 7494 }, { "epoch": 2.4983333333333335, "grad_norm": 3.0737509727478027, "learning_rate": 1.6557939681370917e-06, "loss": 0.3398, "step": 7495 }, { "epoch": 2.498666666666667, "grad_norm": 2.439171075820923, "learning_rate": 1.653657039988198e-06, "loss": 0.3097, "step": 7496 }, { "epoch": 2.499, "grad_norm": 2.88142466545105, "learning_rate": 1.651521367365936e-06, "loss": 0.3164, "step": 7497 }, { "epoch": 2.4993333333333334, "grad_norm": 2.6114025115966797, "learning_rate": 1.649386950591567e-06, "loss": 0.3015, "step": 7498 }, { "epoch": 2.4996666666666667, "grad_norm": 2.2824699878692627, "learning_rate": 1.6472537899861707e-06, "loss": 0.263, "step": 7499 }, { "epoch": 2.5, "grad_norm": 2.438488245010376, "learning_rate": 1.6451218858706374e-06, "loss": 0.2949, "step": 7500 }, { "epoch": 2.5003333333333333, "grad_norm": 2.9876651763916016, "learning_rate": 1.64299123856566e-06, "loss": 0.3137, "step": 7501 }, { "epoch": 2.5006666666666666, "grad_norm": 3.003549098968506, "learning_rate": 1.6408618483917505e-06, "loss": 0.2835, "step": 7502 }, { "epoch": 2.501, "grad_norm": 3.516364812850952, "learning_rate": 1.638733715669234e-06, "loss": 0.2924, "step": 7503 }, { "epoch": 2.501333333333333, "grad_norm": 3.0934956073760986, "learning_rate": 1.6366068407182377e-06, "loss": 0.2947, "step": 7504 }, { "epoch": 2.501666666666667, "grad_norm": 2.718108654022217, "learning_rate": 1.6344812238587027e-06, "loss": 0.2757, "step": 7505 }, { "epoch": 2.502, "grad_norm": 2.329038619995117, "learning_rate": 1.6323568654103838e-06, "loss": 0.2854, "step": 7506 }, { "epoch": 2.5023333333333335, "grad_norm": 2.6776175498962402, "learning_rate": 1.630233765692847e-06, "loss": 0.2542, "step": 7507 }, { "epoch": 2.502666666666667, "grad_norm": 2.6490097045898438, "learning_rate": 1.6281119250254617e-06, "loss": 0.2869, "step": 7508 }, { "epoch": 2.503, "grad_norm": 3.5962860584259033, "learning_rate": 1.6259913437274167e-06, "loss": 0.2952, "step": 7509 }, { "epoch": 2.5033333333333334, "grad_norm": 2.505333662033081, "learning_rate": 1.6238720221177062e-06, "loss": 0.2814, "step": 7510 }, { "epoch": 2.5036666666666667, "grad_norm": 2.7229692935943604, "learning_rate": 1.621753960515139e-06, "loss": 0.2982, "step": 7511 }, { "epoch": 2.504, "grad_norm": 2.342390775680542, "learning_rate": 1.6196371592383264e-06, "loss": 0.3183, "step": 7512 }, { "epoch": 2.5043333333333333, "grad_norm": 3.003654718399048, "learning_rate": 1.6175216186057019e-06, "loss": 0.336, "step": 7513 }, { "epoch": 2.5046666666666666, "grad_norm": 2.7104058265686035, "learning_rate": 1.6154073389354975e-06, "loss": 0.3007, "step": 7514 }, { "epoch": 2.505, "grad_norm": 3.474459409713745, "learning_rate": 1.6132943205457607e-06, "loss": 0.2963, "step": 7515 }, { "epoch": 2.505333333333333, "grad_norm": 3.1219472885131836, "learning_rate": 1.6111825637543522e-06, "loss": 0.2733, "step": 7516 }, { "epoch": 2.5056666666666665, "grad_norm": 3.2000226974487305, "learning_rate": 1.6090720688789374e-06, "loss": 0.279, "step": 7517 }, { "epoch": 2.5060000000000002, "grad_norm": 2.825284957885742, "learning_rate": 1.6069628362369993e-06, "loss": 0.3058, "step": 7518 }, { "epoch": 2.506333333333333, "grad_norm": 3.558326244354248, "learning_rate": 1.6048548661458208e-06, "loss": 0.2914, "step": 7519 }, { "epoch": 2.506666666666667, "grad_norm": 3.055861711502075, "learning_rate": 1.6027481589225024e-06, "loss": 0.3142, "step": 7520 }, { "epoch": 2.507, "grad_norm": 2.9150686264038086, "learning_rate": 1.6006427148839554e-06, "loss": 0.2827, "step": 7521 }, { "epoch": 2.5073333333333334, "grad_norm": 2.3808350563049316, "learning_rate": 1.5985385343468963e-06, "loss": 0.3004, "step": 7522 }, { "epoch": 2.5076666666666667, "grad_norm": 2.584216594696045, "learning_rate": 1.5964356176278494e-06, "loss": 0.2779, "step": 7523 }, { "epoch": 2.508, "grad_norm": 2.1314399242401123, "learning_rate": 1.5943339650431578e-06, "loss": 0.256, "step": 7524 }, { "epoch": 2.5083333333333333, "grad_norm": 3.1278533935546875, "learning_rate": 1.5922335769089703e-06, "loss": 0.2611, "step": 7525 }, { "epoch": 2.5086666666666666, "grad_norm": 2.309805393218994, "learning_rate": 1.590134453541241e-06, "loss": 0.2679, "step": 7526 }, { "epoch": 2.509, "grad_norm": 4.214395046234131, "learning_rate": 1.5880365952557387e-06, "loss": 0.3337, "step": 7527 }, { "epoch": 2.509333333333333, "grad_norm": 2.479384660720825, "learning_rate": 1.585940002368045e-06, "loss": 0.3075, "step": 7528 }, { "epoch": 2.509666666666667, "grad_norm": 2.377089500427246, "learning_rate": 1.583844675193541e-06, "loss": 0.3194, "step": 7529 }, { "epoch": 2.51, "grad_norm": 3.2215781211853027, "learning_rate": 1.5817506140474248e-06, "loss": 0.3353, "step": 7530 }, { "epoch": 2.5103333333333335, "grad_norm": 2.8572516441345215, "learning_rate": 1.5796578192447077e-06, "loss": 0.2801, "step": 7531 }, { "epoch": 2.510666666666667, "grad_norm": 2.1440248489379883, "learning_rate": 1.5775662911002e-06, "loss": 0.2856, "step": 7532 }, { "epoch": 2.511, "grad_norm": 3.3272862434387207, "learning_rate": 1.5754760299285255e-06, "loss": 0.3008, "step": 7533 }, { "epoch": 2.5113333333333334, "grad_norm": 2.726762056350708, "learning_rate": 1.5733870360441228e-06, "loss": 0.2866, "step": 7534 }, { "epoch": 2.5116666666666667, "grad_norm": 3.087095260620117, "learning_rate": 1.5712993097612362e-06, "loss": 0.3275, "step": 7535 }, { "epoch": 2.512, "grad_norm": 2.7676339149475098, "learning_rate": 1.5692128513939142e-06, "loss": 0.2822, "step": 7536 }, { "epoch": 2.5123333333333333, "grad_norm": 2.3451311588287354, "learning_rate": 1.5671276612560228e-06, "loss": 0.288, "step": 7537 }, { "epoch": 2.5126666666666666, "grad_norm": 3.193934202194214, "learning_rate": 1.5650437396612329e-06, "loss": 0.3038, "step": 7538 }, { "epoch": 2.513, "grad_norm": 2.116558074951172, "learning_rate": 1.5629610869230272e-06, "loss": 0.2822, "step": 7539 }, { "epoch": 2.513333333333333, "grad_norm": 3.6081230640411377, "learning_rate": 1.560879703354693e-06, "loss": 0.302, "step": 7540 }, { "epoch": 2.5136666666666665, "grad_norm": 2.2865631580352783, "learning_rate": 1.558799589269332e-06, "loss": 0.2362, "step": 7541 }, { "epoch": 2.5140000000000002, "grad_norm": 2.361433982849121, "learning_rate": 1.5567207449798517e-06, "loss": 0.288, "step": 7542 }, { "epoch": 2.514333333333333, "grad_norm": 3.5775418281555176, "learning_rate": 1.5546431707989662e-06, "loss": 0.3261, "step": 7543 }, { "epoch": 2.514666666666667, "grad_norm": 2.4546866416931152, "learning_rate": 1.5525668670392025e-06, "loss": 0.2943, "step": 7544 }, { "epoch": 2.515, "grad_norm": 3.5866153240203857, "learning_rate": 1.5504918340128982e-06, "loss": 0.2802, "step": 7545 }, { "epoch": 2.5153333333333334, "grad_norm": 3.6816954612731934, "learning_rate": 1.5484180720321972e-06, "loss": 0.2921, "step": 7546 }, { "epoch": 2.5156666666666667, "grad_norm": 2.5864334106445312, "learning_rate": 1.546345581409049e-06, "loss": 0.265, "step": 7547 }, { "epoch": 2.516, "grad_norm": 2.394838809967041, "learning_rate": 1.544274362455216e-06, "loss": 0.2795, "step": 7548 }, { "epoch": 2.5163333333333333, "grad_norm": 3.7924492359161377, "learning_rate": 1.5422044154822712e-06, "loss": 0.2948, "step": 7549 }, { "epoch": 2.5166666666666666, "grad_norm": 2.8681771755218506, "learning_rate": 1.5401357408015893e-06, "loss": 0.3139, "step": 7550 }, { "epoch": 2.517, "grad_norm": 2.654428243637085, "learning_rate": 1.538068338724361e-06, "loss": 0.2859, "step": 7551 }, { "epoch": 2.517333333333333, "grad_norm": 3.263608932495117, "learning_rate": 1.5360022095615789e-06, "loss": 0.3051, "step": 7552 }, { "epoch": 2.517666666666667, "grad_norm": 2.9942362308502197, "learning_rate": 1.533937353624051e-06, "loss": 0.2998, "step": 7553 }, { "epoch": 2.518, "grad_norm": 2.2440099716186523, "learning_rate": 1.5318737712223853e-06, "loss": 0.2589, "step": 7554 }, { "epoch": 2.5183333333333335, "grad_norm": 2.7262113094329834, "learning_rate": 1.5298114626670059e-06, "loss": 0.299, "step": 7555 }, { "epoch": 2.518666666666667, "grad_norm": 2.1750195026397705, "learning_rate": 1.5277504282681454e-06, "loss": 0.2828, "step": 7556 }, { "epoch": 2.519, "grad_norm": 2.7797372341156006, "learning_rate": 1.5256906683358364e-06, "loss": 0.3152, "step": 7557 }, { "epoch": 2.5193333333333334, "grad_norm": 3.0045740604400635, "learning_rate": 1.5236321831799283e-06, "loss": 0.2555, "step": 7558 }, { "epoch": 2.5196666666666667, "grad_norm": 2.749695301055908, "learning_rate": 1.5215749731100759e-06, "loss": 0.2867, "step": 7559 }, { "epoch": 2.52, "grad_norm": 3.231891632080078, "learning_rate": 1.5195190384357405e-06, "loss": 0.2742, "step": 7560 }, { "epoch": 2.5203333333333333, "grad_norm": 2.5651142597198486, "learning_rate": 1.5174643794661948e-06, "loss": 0.3051, "step": 7561 }, { "epoch": 2.5206666666666666, "grad_norm": 2.7616500854492188, "learning_rate": 1.5154109965105146e-06, "loss": 0.2264, "step": 7562 }, { "epoch": 2.521, "grad_norm": 2.8365964889526367, "learning_rate": 1.513358889877592e-06, "loss": 0.2834, "step": 7563 }, { "epoch": 2.521333333333333, "grad_norm": 3.749256134033203, "learning_rate": 1.5113080598761153e-06, "loss": 0.3101, "step": 7564 }, { "epoch": 2.5216666666666665, "grad_norm": 2.433476686477661, "learning_rate": 1.5092585068145915e-06, "loss": 0.2895, "step": 7565 }, { "epoch": 2.5220000000000002, "grad_norm": 2.9071412086486816, "learning_rate": 1.5072102310013314e-06, "loss": 0.2945, "step": 7566 }, { "epoch": 2.522333333333333, "grad_norm": 2.6344316005706787, "learning_rate": 1.5051632327444554e-06, "loss": 0.2981, "step": 7567 }, { "epoch": 2.522666666666667, "grad_norm": 2.992142915725708, "learning_rate": 1.503117512351886e-06, "loss": 0.2735, "step": 7568 }, { "epoch": 2.523, "grad_norm": 2.2556614875793457, "learning_rate": 1.5010730701313626e-06, "loss": 0.2723, "step": 7569 }, { "epoch": 2.5233333333333334, "grad_norm": 2.655505895614624, "learning_rate": 1.4990299063904202e-06, "loss": 0.2795, "step": 7570 }, { "epoch": 2.5236666666666667, "grad_norm": 4.061888217926025, "learning_rate": 1.4969880214364162e-06, "loss": 0.2906, "step": 7571 }, { "epoch": 2.524, "grad_norm": 2.479121446609497, "learning_rate": 1.494947415576502e-06, "loss": 0.3164, "step": 7572 }, { "epoch": 2.5243333333333333, "grad_norm": 3.33154296875, "learning_rate": 1.492908089117645e-06, "loss": 0.3077, "step": 7573 }, { "epoch": 2.5246666666666666, "grad_norm": 3.399118423461914, "learning_rate": 1.4908700423666212e-06, "loss": 0.2621, "step": 7574 }, { "epoch": 2.525, "grad_norm": 2.6605913639068604, "learning_rate": 1.4888332756300027e-06, "loss": 0.3426, "step": 7575 }, { "epoch": 2.525333333333333, "grad_norm": 3.0387871265411377, "learning_rate": 1.4867977892141827e-06, "loss": 0.2832, "step": 7576 }, { "epoch": 2.5256666666666665, "grad_norm": 2.8037679195404053, "learning_rate": 1.4847635834253572e-06, "loss": 0.3056, "step": 7577 }, { "epoch": 2.526, "grad_norm": 3.1568846702575684, "learning_rate": 1.4827306585695234e-06, "loss": 0.2945, "step": 7578 }, { "epoch": 2.5263333333333335, "grad_norm": 2.7609355449676514, "learning_rate": 1.480699014952497e-06, "loss": 0.2902, "step": 7579 }, { "epoch": 2.5266666666666664, "grad_norm": 2.404301643371582, "learning_rate": 1.4786686528798878e-06, "loss": 0.2869, "step": 7580 }, { "epoch": 2.527, "grad_norm": 3.2755377292633057, "learning_rate": 1.4766395726571258e-06, "loss": 0.3008, "step": 7581 }, { "epoch": 2.5273333333333334, "grad_norm": 2.37939453125, "learning_rate": 1.4746117745894373e-06, "loss": 0.3168, "step": 7582 }, { "epoch": 2.5276666666666667, "grad_norm": 2.4441945552825928, "learning_rate": 1.4725852589818634e-06, "loss": 0.2936, "step": 7583 }, { "epoch": 2.528, "grad_norm": 2.5889501571655273, "learning_rate": 1.4705600261392505e-06, "loss": 0.3025, "step": 7584 }, { "epoch": 2.5283333333333333, "grad_norm": 2.3305344581604004, "learning_rate": 1.4685360763662482e-06, "loss": 0.2949, "step": 7585 }, { "epoch": 2.5286666666666666, "grad_norm": 3.477499485015869, "learning_rate": 1.4665134099673172e-06, "loss": 0.2909, "step": 7586 }, { "epoch": 2.529, "grad_norm": 2.7558906078338623, "learning_rate": 1.4644920272467245e-06, "loss": 0.3109, "step": 7587 }, { "epoch": 2.529333333333333, "grad_norm": 2.403623580932617, "learning_rate": 1.4624719285085455e-06, "loss": 0.3073, "step": 7588 }, { "epoch": 2.5296666666666665, "grad_norm": 3.165252208709717, "learning_rate": 1.460453114056657e-06, "loss": 0.3026, "step": 7589 }, { "epoch": 2.5300000000000002, "grad_norm": 2.152492046356201, "learning_rate": 1.4584355841947452e-06, "loss": 0.2695, "step": 7590 }, { "epoch": 2.530333333333333, "grad_norm": 3.381622314453125, "learning_rate": 1.456419339226307e-06, "loss": 0.2857, "step": 7591 }, { "epoch": 2.530666666666667, "grad_norm": 2.5539228916168213, "learning_rate": 1.4544043794546391e-06, "loss": 0.2855, "step": 7592 }, { "epoch": 2.531, "grad_norm": 3.532883882522583, "learning_rate": 1.4523907051828502e-06, "loss": 0.2984, "step": 7593 }, { "epoch": 2.5313333333333334, "grad_norm": 3.2919743061065674, "learning_rate": 1.4503783167138553e-06, "loss": 0.3157, "step": 7594 }, { "epoch": 2.5316666666666667, "grad_norm": 2.43896746635437, "learning_rate": 1.4483672143503757e-06, "loss": 0.2913, "step": 7595 }, { "epoch": 2.532, "grad_norm": 3.1652724742889404, "learning_rate": 1.446357398394934e-06, "loss": 0.306, "step": 7596 }, { "epoch": 2.5323333333333333, "grad_norm": 3.189689874649048, "learning_rate": 1.4443488691498653e-06, "loss": 0.2888, "step": 7597 }, { "epoch": 2.5326666666666666, "grad_norm": 3.7007012367248535, "learning_rate": 1.442341626917313e-06, "loss": 0.2754, "step": 7598 }, { "epoch": 2.533, "grad_norm": 3.6963305473327637, "learning_rate": 1.4403356719992201e-06, "loss": 0.2927, "step": 7599 }, { "epoch": 2.533333333333333, "grad_norm": 3.222442626953125, "learning_rate": 1.4383310046973365e-06, "loss": 0.2771, "step": 7600 }, { "epoch": 2.5336666666666665, "grad_norm": 3.2765915393829346, "learning_rate": 1.4363276253132231e-06, "loss": 0.2946, "step": 7601 }, { "epoch": 2.534, "grad_norm": 2.5456249713897705, "learning_rate": 1.4343255341482486e-06, "loss": 0.2719, "step": 7602 }, { "epoch": 2.5343333333333335, "grad_norm": 2.4321680068969727, "learning_rate": 1.4323247315035794e-06, "loss": 0.2897, "step": 7603 }, { "epoch": 2.5346666666666664, "grad_norm": 2.6080658435821533, "learning_rate": 1.4303252176801929e-06, "loss": 0.293, "step": 7604 }, { "epoch": 2.535, "grad_norm": 2.354440927505493, "learning_rate": 1.4283269929788779e-06, "loss": 0.2892, "step": 7605 }, { "epoch": 2.5353333333333334, "grad_norm": 3.0502867698669434, "learning_rate": 1.426330057700218e-06, "loss": 0.2851, "step": 7606 }, { "epoch": 2.5356666666666667, "grad_norm": 2.6640095710754395, "learning_rate": 1.4243344121446124e-06, "loss": 0.3089, "step": 7607 }, { "epoch": 2.536, "grad_norm": 3.257962465286255, "learning_rate": 1.4223400566122635e-06, "loss": 0.2511, "step": 7608 }, { "epoch": 2.5363333333333333, "grad_norm": 3.338174343109131, "learning_rate": 1.4203469914031776e-06, "loss": 0.3432, "step": 7609 }, { "epoch": 2.5366666666666666, "grad_norm": 4.692502498626709, "learning_rate": 1.4183552168171655e-06, "loss": 0.3138, "step": 7610 }, { "epoch": 2.537, "grad_norm": 3.1668097972869873, "learning_rate": 1.416364733153849e-06, "loss": 0.3164, "step": 7611 }, { "epoch": 2.537333333333333, "grad_norm": 2.4008116722106934, "learning_rate": 1.4143755407126558e-06, "loss": 0.2753, "step": 7612 }, { "epoch": 2.5376666666666665, "grad_norm": 2.47976016998291, "learning_rate": 1.4123876397928116e-06, "loss": 0.2592, "step": 7613 }, { "epoch": 2.5380000000000003, "grad_norm": 2.9966912269592285, "learning_rate": 1.4104010306933558e-06, "loss": 0.3131, "step": 7614 }, { "epoch": 2.538333333333333, "grad_norm": 2.424589157104492, "learning_rate": 1.4084157137131315e-06, "loss": 0.3018, "step": 7615 }, { "epoch": 2.538666666666667, "grad_norm": 3.26900315284729, "learning_rate": 1.4064316891507868e-06, "loss": 0.3039, "step": 7616 }, { "epoch": 2.539, "grad_norm": 4.3919806480407715, "learning_rate": 1.4044489573047759e-06, "loss": 0.2848, "step": 7617 }, { "epoch": 2.5393333333333334, "grad_norm": 2.348020315170288, "learning_rate": 1.4024675184733527e-06, "loss": 0.2767, "step": 7618 }, { "epoch": 2.5396666666666667, "grad_norm": 2.3360252380371094, "learning_rate": 1.4004873729545887e-06, "loss": 0.2879, "step": 7619 }, { "epoch": 2.54, "grad_norm": 3.1388018131256104, "learning_rate": 1.3985085210463479e-06, "loss": 0.281, "step": 7620 }, { "epoch": 2.5403333333333333, "grad_norm": 3.1846978664398193, "learning_rate": 1.3965309630463086e-06, "loss": 0.2846, "step": 7621 }, { "epoch": 2.5406666666666666, "grad_norm": 2.404775857925415, "learning_rate": 1.394554699251951e-06, "loss": 0.3393, "step": 7622 }, { "epoch": 2.541, "grad_norm": 2.4636614322662354, "learning_rate": 1.3925797299605649e-06, "loss": 0.2873, "step": 7623 }, { "epoch": 2.541333333333333, "grad_norm": 3.436798334121704, "learning_rate": 1.3906060554692358e-06, "loss": 0.27, "step": 7624 }, { "epoch": 2.5416666666666665, "grad_norm": 2.484792947769165, "learning_rate": 1.388633676074862e-06, "loss": 0.2741, "step": 7625 }, { "epoch": 2.542, "grad_norm": 3.027975082397461, "learning_rate": 1.3866625920741495e-06, "loss": 0.3178, "step": 7626 }, { "epoch": 2.5423333333333336, "grad_norm": 2.70737624168396, "learning_rate": 1.384692803763602e-06, "loss": 0.3105, "step": 7627 }, { "epoch": 2.5426666666666664, "grad_norm": 2.337726354598999, "learning_rate": 1.3827243114395295e-06, "loss": 0.2798, "step": 7628 }, { "epoch": 2.543, "grad_norm": 2.8567240238189697, "learning_rate": 1.3807571153980504e-06, "loss": 0.3269, "step": 7629 }, { "epoch": 2.5433333333333334, "grad_norm": 2.461121082305908, "learning_rate": 1.3787912159350903e-06, "loss": 0.2738, "step": 7630 }, { "epoch": 2.5436666666666667, "grad_norm": 2.4368045330047607, "learning_rate": 1.3768266133463704e-06, "loss": 0.279, "step": 7631 }, { "epoch": 2.544, "grad_norm": 2.893181085586548, "learning_rate": 1.3748633079274254e-06, "loss": 0.2804, "step": 7632 }, { "epoch": 2.5443333333333333, "grad_norm": 2.5406131744384766, "learning_rate": 1.3729012999735926e-06, "loss": 0.3078, "step": 7633 }, { "epoch": 2.5446666666666666, "grad_norm": 2.518601655960083, "learning_rate": 1.3709405897800155e-06, "loss": 0.2998, "step": 7634 }, { "epoch": 2.545, "grad_norm": 2.6756560802459717, "learning_rate": 1.368981177641636e-06, "loss": 0.2916, "step": 7635 }, { "epoch": 2.5453333333333332, "grad_norm": 2.0285556316375732, "learning_rate": 1.36702306385321e-06, "loss": 0.2607, "step": 7636 }, { "epoch": 2.5456666666666665, "grad_norm": 2.410465717315674, "learning_rate": 1.3650662487092902e-06, "loss": 0.2741, "step": 7637 }, { "epoch": 2.5460000000000003, "grad_norm": 2.4751505851745605, "learning_rate": 1.363110732504237e-06, "loss": 0.3181, "step": 7638 }, { "epoch": 2.546333333333333, "grad_norm": 2.931241989135742, "learning_rate": 1.3611565155322148e-06, "loss": 0.2838, "step": 7639 }, { "epoch": 2.546666666666667, "grad_norm": 2.7743775844573975, "learning_rate": 1.3592035980871954e-06, "loss": 0.3003, "step": 7640 }, { "epoch": 2.547, "grad_norm": 2.875983715057373, "learning_rate": 1.3572519804629537e-06, "loss": 0.2579, "step": 7641 }, { "epoch": 2.5473333333333334, "grad_norm": 2.3258116245269775, "learning_rate": 1.3553016629530657e-06, "loss": 0.2731, "step": 7642 }, { "epoch": 2.5476666666666667, "grad_norm": 2.6615397930145264, "learning_rate": 1.353352645850915e-06, "loss": 0.305, "step": 7643 }, { "epoch": 2.548, "grad_norm": 2.9277143478393555, "learning_rate": 1.3514049294496911e-06, "loss": 0.2656, "step": 7644 }, { "epoch": 2.5483333333333333, "grad_norm": 3.3267464637756348, "learning_rate": 1.3494585140423832e-06, "loss": 0.2915, "step": 7645 }, { "epoch": 2.5486666666666666, "grad_norm": 2.6687119007110596, "learning_rate": 1.3475133999217904e-06, "loss": 0.2944, "step": 7646 }, { "epoch": 2.549, "grad_norm": 3.3744680881500244, "learning_rate": 1.3455695873805086e-06, "loss": 0.2809, "step": 7647 }, { "epoch": 2.5493333333333332, "grad_norm": 2.760787010192871, "learning_rate": 1.3436270767109473e-06, "loss": 0.2882, "step": 7648 }, { "epoch": 2.5496666666666665, "grad_norm": 3.4657034873962402, "learning_rate": 1.3416858682053112e-06, "loss": 0.2819, "step": 7649 }, { "epoch": 2.55, "grad_norm": 2.826751708984375, "learning_rate": 1.339745962155613e-06, "loss": 0.3057, "step": 7650 }, { "epoch": 2.5503333333333336, "grad_norm": 2.4455044269561768, "learning_rate": 1.3378073588536745e-06, "loss": 0.2932, "step": 7651 }, { "epoch": 2.5506666666666664, "grad_norm": 2.190653085708618, "learning_rate": 1.335870058591111e-06, "loss": 0.3157, "step": 7652 }, { "epoch": 2.551, "grad_norm": 2.756134510040283, "learning_rate": 1.3339340616593487e-06, "loss": 0.2931, "step": 7653 }, { "epoch": 2.5513333333333335, "grad_norm": 2.47198486328125, "learning_rate": 1.3319993683496213e-06, "loss": 0.3283, "step": 7654 }, { "epoch": 2.5516666666666667, "grad_norm": 3.3683223724365234, "learning_rate": 1.3300659789529536e-06, "loss": 0.3032, "step": 7655 }, { "epoch": 2.552, "grad_norm": 2.729390859603882, "learning_rate": 1.3281338937601895e-06, "loss": 0.2909, "step": 7656 }, { "epoch": 2.5523333333333333, "grad_norm": 2.9624979496002197, "learning_rate": 1.3262031130619635e-06, "loss": 0.3107, "step": 7657 }, { "epoch": 2.5526666666666666, "grad_norm": 2.3590710163116455, "learning_rate": 1.3242736371487252e-06, "loss": 0.2981, "step": 7658 }, { "epoch": 2.553, "grad_norm": 3.71771240234375, "learning_rate": 1.322345466310717e-06, "loss": 0.3159, "step": 7659 }, { "epoch": 2.5533333333333332, "grad_norm": 2.2469818592071533, "learning_rate": 1.3204186008379926e-06, "loss": 0.2762, "step": 7660 }, { "epoch": 2.5536666666666665, "grad_norm": 2.8828859329223633, "learning_rate": 1.3184930410204078e-06, "loss": 0.2919, "step": 7661 }, { "epoch": 2.5540000000000003, "grad_norm": 2.732987880706787, "learning_rate": 1.316568787147624e-06, "loss": 0.3593, "step": 7662 }, { "epoch": 2.554333333333333, "grad_norm": 2.8016281127929688, "learning_rate": 1.3146458395090988e-06, "loss": 0.2888, "step": 7663 }, { "epoch": 2.554666666666667, "grad_norm": 3.518786668777466, "learning_rate": 1.3127241983941018e-06, "loss": 0.3222, "step": 7664 }, { "epoch": 2.555, "grad_norm": 3.3817384243011475, "learning_rate": 1.3108038640916988e-06, "loss": 0.2998, "step": 7665 }, { "epoch": 2.5553333333333335, "grad_norm": 3.298736810684204, "learning_rate": 1.3088848368907658e-06, "loss": 0.28, "step": 7666 }, { "epoch": 2.5556666666666668, "grad_norm": 2.4905214309692383, "learning_rate": 1.3069671170799758e-06, "loss": 0.2946, "step": 7667 }, { "epoch": 2.556, "grad_norm": 2.656951904296875, "learning_rate": 1.30505070494781e-06, "loss": 0.2934, "step": 7668 }, { "epoch": 2.5563333333333333, "grad_norm": 2.3621628284454346, "learning_rate": 1.3031356007825524e-06, "loss": 0.2566, "step": 7669 }, { "epoch": 2.5566666666666666, "grad_norm": 2.5969772338867188, "learning_rate": 1.3012218048722858e-06, "loss": 0.2902, "step": 7670 }, { "epoch": 2.557, "grad_norm": 3.2278661727905273, "learning_rate": 1.2993093175049022e-06, "loss": 0.3229, "step": 7671 }, { "epoch": 2.5573333333333332, "grad_norm": 2.77213191986084, "learning_rate": 1.2973981389680933e-06, "loss": 0.3082, "step": 7672 }, { "epoch": 2.5576666666666665, "grad_norm": 2.864454984664917, "learning_rate": 1.2954882695493532e-06, "loss": 0.2947, "step": 7673 }, { "epoch": 2.558, "grad_norm": 3.2214391231536865, "learning_rate": 1.2935797095359825e-06, "loss": 0.299, "step": 7674 }, { "epoch": 2.5583333333333336, "grad_norm": 2.3727097511291504, "learning_rate": 1.2916724592150799e-06, "loss": 0.2934, "step": 7675 }, { "epoch": 2.5586666666666664, "grad_norm": 3.5929183959960938, "learning_rate": 1.2897665188735531e-06, "loss": 0.3048, "step": 7676 }, { "epoch": 2.559, "grad_norm": 2.8572475910186768, "learning_rate": 1.2878618887981064e-06, "loss": 0.2841, "step": 7677 }, { "epoch": 2.5593333333333335, "grad_norm": 2.295408010482788, "learning_rate": 1.2859585692752518e-06, "loss": 0.29, "step": 7678 }, { "epoch": 2.5596666666666668, "grad_norm": 2.6395132541656494, "learning_rate": 1.2840565605913047e-06, "loss": 0.3172, "step": 7679 }, { "epoch": 2.56, "grad_norm": 3.1945102214813232, "learning_rate": 1.282155863032377e-06, "loss": 0.2937, "step": 7680 }, { "epoch": 2.5603333333333333, "grad_norm": 2.486575126647949, "learning_rate": 1.2802564768843896e-06, "loss": 0.3087, "step": 7681 }, { "epoch": 2.5606666666666666, "grad_norm": 2.7475156784057617, "learning_rate": 1.2783584024330632e-06, "loss": 0.2861, "step": 7682 }, { "epoch": 2.561, "grad_norm": 2.705315113067627, "learning_rate": 1.2764616399639252e-06, "loss": 0.2996, "step": 7683 }, { "epoch": 2.5613333333333332, "grad_norm": 2.5201306343078613, "learning_rate": 1.2745661897622997e-06, "loss": 0.2276, "step": 7684 }, { "epoch": 2.5616666666666665, "grad_norm": 2.5784788131713867, "learning_rate": 1.2726720521133141e-06, "loss": 0.3041, "step": 7685 }, { "epoch": 2.5620000000000003, "grad_norm": 2.5306451320648193, "learning_rate": 1.2707792273019049e-06, "loss": 0.2892, "step": 7686 }, { "epoch": 2.562333333333333, "grad_norm": 3.585679769515991, "learning_rate": 1.2688877156128032e-06, "loss": 0.3108, "step": 7687 }, { "epoch": 2.562666666666667, "grad_norm": 3.0233728885650635, "learning_rate": 1.266997517330546e-06, "loss": 0.3125, "step": 7688 }, { "epoch": 2.5629999999999997, "grad_norm": 2.871957302093506, "learning_rate": 1.2651086327394745e-06, "loss": 0.2472, "step": 7689 }, { "epoch": 2.5633333333333335, "grad_norm": 2.6412925720214844, "learning_rate": 1.2632210621237329e-06, "loss": 0.2986, "step": 7690 }, { "epoch": 2.5636666666666668, "grad_norm": 2.75136137008667, "learning_rate": 1.2613348057672592e-06, "loss": 0.3049, "step": 7691 }, { "epoch": 2.564, "grad_norm": 2.4757766723632812, "learning_rate": 1.2594498639538032e-06, "loss": 0.2954, "step": 7692 }, { "epoch": 2.5643333333333334, "grad_norm": 3.3992435932159424, "learning_rate": 1.2575662369669162e-06, "loss": 0.3109, "step": 7693 }, { "epoch": 2.5646666666666667, "grad_norm": 2.6673965454101562, "learning_rate": 1.2556839250899455e-06, "loss": 0.2947, "step": 7694 }, { "epoch": 2.565, "grad_norm": 2.8628811836242676, "learning_rate": 1.2538029286060428e-06, "loss": 0.3206, "step": 7695 }, { "epoch": 2.5653333333333332, "grad_norm": 3.580720901489258, "learning_rate": 1.2519232477981657e-06, "loss": 0.265, "step": 7696 }, { "epoch": 2.5656666666666665, "grad_norm": 2.4323365688323975, "learning_rate": 1.250044882949074e-06, "loss": 0.2959, "step": 7697 }, { "epoch": 2.566, "grad_norm": 2.6552393436431885, "learning_rate": 1.2481678343413216e-06, "loss": 0.2772, "step": 7698 }, { "epoch": 2.5663333333333336, "grad_norm": 2.4574248790740967, "learning_rate": 1.2462921022572727e-06, "loss": 0.2753, "step": 7699 }, { "epoch": 2.5666666666666664, "grad_norm": 2.7031948566436768, "learning_rate": 1.2444176869790925e-06, "loss": 0.279, "step": 7700 }, { "epoch": 2.567, "grad_norm": 3.425593614578247, "learning_rate": 1.2425445887887422e-06, "loss": 0.2888, "step": 7701 }, { "epoch": 2.5673333333333335, "grad_norm": 2.8685173988342285, "learning_rate": 1.240672807967993e-06, "loss": 0.308, "step": 7702 }, { "epoch": 2.5676666666666668, "grad_norm": 2.417104959487915, "learning_rate": 1.2388023447984087e-06, "loss": 0.297, "step": 7703 }, { "epoch": 2.568, "grad_norm": 2.5269219875335693, "learning_rate": 1.2369331995613664e-06, "loss": 0.291, "step": 7704 }, { "epoch": 2.5683333333333334, "grad_norm": 2.427731513977051, "learning_rate": 1.2350653725380324e-06, "loss": 0.3131, "step": 7705 }, { "epoch": 2.5686666666666667, "grad_norm": 2.8447954654693604, "learning_rate": 1.2331988640093828e-06, "loss": 0.292, "step": 7706 }, { "epoch": 2.569, "grad_norm": 2.55076003074646, "learning_rate": 1.2313336742561965e-06, "loss": 0.3094, "step": 7707 }, { "epoch": 2.5693333333333332, "grad_norm": 2.427455425262451, "learning_rate": 1.229469803559047e-06, "loss": 0.2931, "step": 7708 }, { "epoch": 2.5696666666666665, "grad_norm": 2.5285773277282715, "learning_rate": 1.227607252198314e-06, "loss": 0.3015, "step": 7709 }, { "epoch": 2.57, "grad_norm": 2.653846502304077, "learning_rate": 1.2257460204541793e-06, "loss": 0.2526, "step": 7710 }, { "epoch": 2.570333333333333, "grad_norm": 2.8905200958251953, "learning_rate": 1.223886108606628e-06, "loss": 0.3005, "step": 7711 }, { "epoch": 2.570666666666667, "grad_norm": 2.236391067504883, "learning_rate": 1.222027516935438e-06, "loss": 0.3079, "step": 7712 }, { "epoch": 2.5709999999999997, "grad_norm": 2.5238828659057617, "learning_rate": 1.2201702457201948e-06, "loss": 0.2888, "step": 7713 }, { "epoch": 2.5713333333333335, "grad_norm": 2.854789972305298, "learning_rate": 1.2183142952402881e-06, "loss": 0.2997, "step": 7714 }, { "epoch": 2.5716666666666668, "grad_norm": 2.562145471572876, "learning_rate": 1.2164596657749018e-06, "loss": 0.3355, "step": 7715 }, { "epoch": 2.572, "grad_norm": 2.768786907196045, "learning_rate": 1.2146063576030265e-06, "loss": 0.3007, "step": 7716 }, { "epoch": 2.5723333333333334, "grad_norm": 3.7235517501831055, "learning_rate": 1.2127543710034517e-06, "loss": 0.2913, "step": 7717 }, { "epoch": 2.5726666666666667, "grad_norm": 2.6846437454223633, "learning_rate": 1.2109037062547723e-06, "loss": 0.308, "step": 7718 }, { "epoch": 2.573, "grad_norm": 2.3755106925964355, "learning_rate": 1.2090543636353746e-06, "loss": 0.3064, "step": 7719 }, { "epoch": 2.5733333333333333, "grad_norm": 3.29241681098938, "learning_rate": 1.207206343423456e-06, "loss": 0.3079, "step": 7720 }, { "epoch": 2.5736666666666665, "grad_norm": 2.728071928024292, "learning_rate": 1.2053596458970119e-06, "loss": 0.2738, "step": 7721 }, { "epoch": 2.574, "grad_norm": 2.867316722869873, "learning_rate": 1.2035142713338366e-06, "loss": 0.3115, "step": 7722 }, { "epoch": 2.5743333333333336, "grad_norm": 2.9067935943603516, "learning_rate": 1.201670220011525e-06, "loss": 0.2758, "step": 7723 }, { "epoch": 2.5746666666666664, "grad_norm": 2.7677924633026123, "learning_rate": 1.199827492207476e-06, "loss": 0.2967, "step": 7724 }, { "epoch": 2.575, "grad_norm": 2.5792782306671143, "learning_rate": 1.1979860881988903e-06, "loss": 0.3061, "step": 7725 }, { "epoch": 2.5753333333333335, "grad_norm": 2.9243459701538086, "learning_rate": 1.1961460082627629e-06, "loss": 0.3013, "step": 7726 }, { "epoch": 2.5756666666666668, "grad_norm": 2.2417333126068115, "learning_rate": 1.194307252675897e-06, "loss": 0.2586, "step": 7727 }, { "epoch": 2.576, "grad_norm": 3.2463412284851074, "learning_rate": 1.1924698217148955e-06, "loss": 0.2943, "step": 7728 }, { "epoch": 2.5763333333333334, "grad_norm": 2.3192594051361084, "learning_rate": 1.1906337156561554e-06, "loss": 0.2663, "step": 7729 }, { "epoch": 2.5766666666666667, "grad_norm": 2.300661563873291, "learning_rate": 1.188798934775881e-06, "loss": 0.302, "step": 7730 }, { "epoch": 2.577, "grad_norm": 2.5998260974884033, "learning_rate": 1.1869654793500784e-06, "loss": 0.2606, "step": 7731 }, { "epoch": 2.5773333333333333, "grad_norm": 3.1710567474365234, "learning_rate": 1.1851333496545481e-06, "loss": 0.2894, "step": 7732 }, { "epoch": 2.5776666666666666, "grad_norm": 2.976457118988037, "learning_rate": 1.183302545964894e-06, "loss": 0.2821, "step": 7733 }, { "epoch": 2.578, "grad_norm": 2.934839963912964, "learning_rate": 1.18147306855652e-06, "loss": 0.3251, "step": 7734 }, { "epoch": 2.578333333333333, "grad_norm": 2.3439509868621826, "learning_rate": 1.1796449177046364e-06, "loss": 0.3155, "step": 7735 }, { "epoch": 2.578666666666667, "grad_norm": 2.332442283630371, "learning_rate": 1.1778180936842432e-06, "loss": 0.2775, "step": 7736 }, { "epoch": 2.5789999999999997, "grad_norm": 2.6721415519714355, "learning_rate": 1.1759925967701491e-06, "loss": 0.2743, "step": 7737 }, { "epoch": 2.5793333333333335, "grad_norm": 2.636671304702759, "learning_rate": 1.1741684272369613e-06, "loss": 0.2613, "step": 7738 }, { "epoch": 2.5796666666666668, "grad_norm": 2.8385021686553955, "learning_rate": 1.172345585359087e-06, "loss": 0.2869, "step": 7739 }, { "epoch": 2.58, "grad_norm": 2.612285614013672, "learning_rate": 1.1705240714107301e-06, "loss": 0.3306, "step": 7740 }, { "epoch": 2.5803333333333334, "grad_norm": 2.4180829524993896, "learning_rate": 1.1687038856659027e-06, "loss": 0.2766, "step": 7741 }, { "epoch": 2.5806666666666667, "grad_norm": 2.613036870956421, "learning_rate": 1.166885028398409e-06, "loss": 0.2684, "step": 7742 }, { "epoch": 2.581, "grad_norm": 2.9533064365386963, "learning_rate": 1.1650674998818556e-06, "loss": 0.3107, "step": 7743 }, { "epoch": 2.5813333333333333, "grad_norm": 2.3441665172576904, "learning_rate": 1.1632513003896518e-06, "loss": 0.2802, "step": 7744 }, { "epoch": 2.5816666666666666, "grad_norm": 2.8357529640197754, "learning_rate": 1.1614364301950054e-06, "loss": 0.2918, "step": 7745 }, { "epoch": 2.582, "grad_norm": 2.5306949615478516, "learning_rate": 1.159622889570927e-06, "loss": 0.2627, "step": 7746 }, { "epoch": 2.5823333333333336, "grad_norm": 2.1005711555480957, "learning_rate": 1.1578106787902198e-06, "loss": 0.2502, "step": 7747 }, { "epoch": 2.5826666666666664, "grad_norm": 3.9616878032684326, "learning_rate": 1.1559997981254955e-06, "loss": 0.2753, "step": 7748 }, { "epoch": 2.583, "grad_norm": 2.2775681018829346, "learning_rate": 1.1541902478491607e-06, "loss": 0.265, "step": 7749 }, { "epoch": 2.5833333333333335, "grad_norm": 2.763643741607666, "learning_rate": 1.152382028233422e-06, "loss": 0.2798, "step": 7750 }, { "epoch": 2.583666666666667, "grad_norm": 2.526620388031006, "learning_rate": 1.1505751395502895e-06, "loss": 0.2824, "step": 7751 }, { "epoch": 2.584, "grad_norm": 2.854163646697998, "learning_rate": 1.1487695820715672e-06, "loss": 0.2911, "step": 7752 }, { "epoch": 2.5843333333333334, "grad_norm": 3.0252552032470703, "learning_rate": 1.1469653560688654e-06, "loss": 0.3238, "step": 7753 }, { "epoch": 2.5846666666666667, "grad_norm": 3.1238150596618652, "learning_rate": 1.145162461813587e-06, "loss": 0.2722, "step": 7754 }, { "epoch": 2.585, "grad_norm": 2.704733371734619, "learning_rate": 1.1433608995769396e-06, "loss": 0.3033, "step": 7755 }, { "epoch": 2.5853333333333333, "grad_norm": 2.7911500930786133, "learning_rate": 1.141560669629933e-06, "loss": 0.2692, "step": 7756 }, { "epoch": 2.5856666666666666, "grad_norm": 3.919131278991699, "learning_rate": 1.1397617722433686e-06, "loss": 0.2611, "step": 7757 }, { "epoch": 2.586, "grad_norm": 2.68719482421875, "learning_rate": 1.1379642076878528e-06, "loss": 0.3006, "step": 7758 }, { "epoch": 2.586333333333333, "grad_norm": 2.6864988803863525, "learning_rate": 1.1361679762337918e-06, "loss": 0.2765, "step": 7759 }, { "epoch": 2.586666666666667, "grad_norm": 2.7896759510040283, "learning_rate": 1.1343730781513896e-06, "loss": 0.3079, "step": 7760 }, { "epoch": 2.5869999999999997, "grad_norm": 2.935793876647949, "learning_rate": 1.1325795137106455e-06, "loss": 0.278, "step": 7761 }, { "epoch": 2.5873333333333335, "grad_norm": 2.6499907970428467, "learning_rate": 1.130787283181365e-06, "loss": 0.273, "step": 7762 }, { "epoch": 2.587666666666667, "grad_norm": 2.8781588077545166, "learning_rate": 1.1289963868331544e-06, "loss": 0.2859, "step": 7763 }, { "epoch": 2.588, "grad_norm": 3.092653274536133, "learning_rate": 1.1272068249354085e-06, "loss": 0.3264, "step": 7764 }, { "epoch": 2.5883333333333334, "grad_norm": 3.5249640941619873, "learning_rate": 1.1254185977573318e-06, "loss": 0.2741, "step": 7765 }, { "epoch": 2.5886666666666667, "grad_norm": 2.8581247329711914, "learning_rate": 1.1236317055679246e-06, "loss": 0.3027, "step": 7766 }, { "epoch": 2.589, "grad_norm": 2.954998016357422, "learning_rate": 1.1218461486359878e-06, "loss": 0.2928, "step": 7767 }, { "epoch": 2.5893333333333333, "grad_norm": 3.5122883319854736, "learning_rate": 1.120061927230115e-06, "loss": 0.3126, "step": 7768 }, { "epoch": 2.5896666666666666, "grad_norm": 3.3495049476623535, "learning_rate": 1.1182790416187072e-06, "loss": 0.2857, "step": 7769 }, { "epoch": 2.59, "grad_norm": 2.6256279945373535, "learning_rate": 1.1164974920699611e-06, "loss": 0.2706, "step": 7770 }, { "epoch": 2.5903333333333336, "grad_norm": 2.93045711517334, "learning_rate": 1.114717278851869e-06, "loss": 0.3192, "step": 7771 }, { "epoch": 2.5906666666666665, "grad_norm": 3.3348119258880615, "learning_rate": 1.1129384022322276e-06, "loss": 0.2714, "step": 7772 }, { "epoch": 2.591, "grad_norm": 2.4522552490234375, "learning_rate": 1.1111608624786307e-06, "loss": 0.301, "step": 7773 }, { "epoch": 2.5913333333333335, "grad_norm": 3.1601526737213135, "learning_rate": 1.1093846598584724e-06, "loss": 0.2573, "step": 7774 }, { "epoch": 2.591666666666667, "grad_norm": 2.683466672897339, "learning_rate": 1.1076097946389398e-06, "loss": 0.3309, "step": 7775 }, { "epoch": 2.592, "grad_norm": 2.5594232082366943, "learning_rate": 1.1058362670870248e-06, "loss": 0.2562, "step": 7776 }, { "epoch": 2.5923333333333334, "grad_norm": 3.094381093978882, "learning_rate": 1.1040640774695177e-06, "loss": 0.3013, "step": 7777 }, { "epoch": 2.5926666666666667, "grad_norm": 3.0584664344787598, "learning_rate": 1.102293226053004e-06, "loss": 0.2671, "step": 7778 }, { "epoch": 2.593, "grad_norm": 3.4287381172180176, "learning_rate": 1.1005237131038725e-06, "loss": 0.3424, "step": 7779 }, { "epoch": 2.5933333333333333, "grad_norm": 2.716312885284424, "learning_rate": 1.0987555388883042e-06, "loss": 0.2791, "step": 7780 }, { "epoch": 2.5936666666666666, "grad_norm": 3.1827785968780518, "learning_rate": 1.0969887036722871e-06, "loss": 0.2899, "step": 7781 }, { "epoch": 2.594, "grad_norm": 3.027702569961548, "learning_rate": 1.0952232077215985e-06, "loss": 0.2831, "step": 7782 }, { "epoch": 2.594333333333333, "grad_norm": 4.793591499328613, "learning_rate": 1.0934590513018228e-06, "loss": 0.3135, "step": 7783 }, { "epoch": 2.594666666666667, "grad_norm": 3.400628089904785, "learning_rate": 1.0916962346783389e-06, "loss": 0.2651, "step": 7784 }, { "epoch": 2.5949999999999998, "grad_norm": 3.698305130004883, "learning_rate": 1.0899347581163222e-06, "loss": 0.3059, "step": 7785 }, { "epoch": 2.5953333333333335, "grad_norm": 2.8900864124298096, "learning_rate": 1.08817462188075e-06, "loss": 0.2588, "step": 7786 }, { "epoch": 2.595666666666667, "grad_norm": 2.2967114448547363, "learning_rate": 1.0864158262363956e-06, "loss": 0.2734, "step": 7787 }, { "epoch": 2.596, "grad_norm": 3.5335521697998047, "learning_rate": 1.0846583714478355e-06, "loss": 0.2809, "step": 7788 }, { "epoch": 2.5963333333333334, "grad_norm": 2.574917793273926, "learning_rate": 1.0829022577794379e-06, "loss": 0.2968, "step": 7789 }, { "epoch": 2.5966666666666667, "grad_norm": 2.518972158432007, "learning_rate": 1.0811474854953708e-06, "loss": 0.2833, "step": 7790 }, { "epoch": 2.597, "grad_norm": 2.654956340789795, "learning_rate": 1.0793940548596048e-06, "loss": 0.2743, "step": 7791 }, { "epoch": 2.5973333333333333, "grad_norm": 2.3561878204345703, "learning_rate": 1.0776419661359016e-06, "loss": 0.2885, "step": 7792 }, { "epoch": 2.5976666666666666, "grad_norm": 2.772552490234375, "learning_rate": 1.075891219587828e-06, "loss": 0.314, "step": 7793 }, { "epoch": 2.598, "grad_norm": 2.5789859294891357, "learning_rate": 1.0741418154787443e-06, "loss": 0.3134, "step": 7794 }, { "epoch": 2.5983333333333336, "grad_norm": 2.8702950477600098, "learning_rate": 1.0723937540718143e-06, "loss": 0.2328, "step": 7795 }, { "epoch": 2.5986666666666665, "grad_norm": 4.174161911010742, "learning_rate": 1.0706470356299914e-06, "loss": 0.2958, "step": 7796 }, { "epoch": 2.599, "grad_norm": 2.4403676986694336, "learning_rate": 1.0689016604160341e-06, "loss": 0.3061, "step": 7797 }, { "epoch": 2.5993333333333335, "grad_norm": 4.770160675048828, "learning_rate": 1.0671576286924945e-06, "loss": 0.283, "step": 7798 }, { "epoch": 2.599666666666667, "grad_norm": 2.608494520187378, "learning_rate": 1.0654149407217273e-06, "loss": 0.2815, "step": 7799 }, { "epoch": 2.6, "grad_norm": 3.4968106746673584, "learning_rate": 1.0636735967658785e-06, "loss": 0.3195, "step": 7800 }, { "epoch": 2.6003333333333334, "grad_norm": 2.5876924991607666, "learning_rate": 1.061933597086897e-06, "loss": 0.3247, "step": 7801 }, { "epoch": 2.6006666666666667, "grad_norm": 3.02807879447937, "learning_rate": 1.0601949419465307e-06, "loss": 0.3112, "step": 7802 }, { "epoch": 2.601, "grad_norm": 2.689680576324463, "learning_rate": 1.058457631606319e-06, "loss": 0.2828, "step": 7803 }, { "epoch": 2.6013333333333333, "grad_norm": 2.9111881256103516, "learning_rate": 1.0567216663276036e-06, "loss": 0.2756, "step": 7804 }, { "epoch": 2.6016666666666666, "grad_norm": 2.6013739109039307, "learning_rate": 1.054987046371523e-06, "loss": 0.2956, "step": 7805 }, { "epoch": 2.602, "grad_norm": 2.340409517288208, "learning_rate": 1.0532537719990166e-06, "loss": 0.2898, "step": 7806 }, { "epoch": 2.602333333333333, "grad_norm": 2.7028701305389404, "learning_rate": 1.051521843470814e-06, "loss": 0.3024, "step": 7807 }, { "epoch": 2.602666666666667, "grad_norm": 2.8223674297332764, "learning_rate": 1.049791261047446e-06, "loss": 0.2731, "step": 7808 }, { "epoch": 2.6029999999999998, "grad_norm": 2.41530442237854, "learning_rate": 1.0480620249892448e-06, "loss": 0.2705, "step": 7809 }, { "epoch": 2.6033333333333335, "grad_norm": 4.427567958831787, "learning_rate": 1.0463341355563318e-06, "loss": 0.3034, "step": 7810 }, { "epoch": 2.603666666666667, "grad_norm": 2.5253710746765137, "learning_rate": 1.044607593008634e-06, "loss": 0.2799, "step": 7811 }, { "epoch": 2.604, "grad_norm": 3.2370378971099854, "learning_rate": 1.042882397605871e-06, "loss": 0.2591, "step": 7812 }, { "epoch": 2.6043333333333334, "grad_norm": 2.734379768371582, "learning_rate": 1.0411585496075638e-06, "loss": 0.302, "step": 7813 }, { "epoch": 2.6046666666666667, "grad_norm": 3.1721575260162354, "learning_rate": 1.0394360492730239e-06, "loss": 0.2507, "step": 7814 }, { "epoch": 2.605, "grad_norm": 3.3204994201660156, "learning_rate": 1.0377148968613659e-06, "loss": 0.2953, "step": 7815 }, { "epoch": 2.6053333333333333, "grad_norm": 2.9465508460998535, "learning_rate": 1.0359950926315021e-06, "loss": 0.2906, "step": 7816 }, { "epoch": 2.6056666666666666, "grad_norm": 2.787815570831299, "learning_rate": 1.0342766368421375e-06, "loss": 0.3065, "step": 7817 }, { "epoch": 2.606, "grad_norm": 3.2645177841186523, "learning_rate": 1.0325595297517753e-06, "loss": 0.3054, "step": 7818 }, { "epoch": 2.606333333333333, "grad_norm": 3.0643248558044434, "learning_rate": 1.0308437716187192e-06, "loss": 0.2943, "step": 7819 }, { "epoch": 2.6066666666666665, "grad_norm": 4.48061990737915, "learning_rate": 1.0291293627010678e-06, "loss": 0.2799, "step": 7820 }, { "epoch": 2.607, "grad_norm": 3.308910846710205, "learning_rate": 1.0274163032567165e-06, "loss": 0.3216, "step": 7821 }, { "epoch": 2.607333333333333, "grad_norm": 2.9528825283050537, "learning_rate": 1.0257045935433562e-06, "loss": 0.3005, "step": 7822 }, { "epoch": 2.607666666666667, "grad_norm": 2.520998001098633, "learning_rate": 1.0239942338184816e-06, "loss": 0.2905, "step": 7823 }, { "epoch": 2.608, "grad_norm": 4.973930835723877, "learning_rate": 1.0222852243393732e-06, "loss": 0.3131, "step": 7824 }, { "epoch": 2.6083333333333334, "grad_norm": 3.068180561065674, "learning_rate": 1.0205775653631178e-06, "loss": 0.2991, "step": 7825 }, { "epoch": 2.6086666666666667, "grad_norm": 3.0730361938476562, "learning_rate": 1.0188712571465963e-06, "loss": 0.2996, "step": 7826 }, { "epoch": 2.609, "grad_norm": 3.4949772357940674, "learning_rate": 1.017166299946486e-06, "loss": 0.3002, "step": 7827 }, { "epoch": 2.6093333333333333, "grad_norm": 3.0253329277038574, "learning_rate": 1.015462694019257e-06, "loss": 0.2581, "step": 7828 }, { "epoch": 2.6096666666666666, "grad_norm": 3.1421396732330322, "learning_rate": 1.0137604396211819e-06, "loss": 0.3056, "step": 7829 }, { "epoch": 2.61, "grad_norm": 3.036174774169922, "learning_rate": 1.012059537008332e-06, "loss": 0.3151, "step": 7830 }, { "epoch": 2.610333333333333, "grad_norm": 3.854926586151123, "learning_rate": 1.0103599864365644e-06, "loss": 0.2822, "step": 7831 }, { "epoch": 2.610666666666667, "grad_norm": 3.0595664978027344, "learning_rate": 1.0086617881615434e-06, "loss": 0.2763, "step": 7832 }, { "epoch": 2.6109999999999998, "grad_norm": 2.832935333251953, "learning_rate": 1.0069649424387274e-06, "loss": 0.3064, "step": 7833 }, { "epoch": 2.6113333333333335, "grad_norm": 2.484344959259033, "learning_rate": 1.0052694495233695e-06, "loss": 0.2795, "step": 7834 }, { "epoch": 2.611666666666667, "grad_norm": 2.604543924331665, "learning_rate": 1.003575309670517e-06, "loss": 0.2908, "step": 7835 }, { "epoch": 2.612, "grad_norm": 2.2743754386901855, "learning_rate": 1.0018825231350203e-06, "loss": 0.3041, "step": 7836 }, { "epoch": 2.6123333333333334, "grad_norm": 3.1418581008911133, "learning_rate": 1.0001910901715217e-06, "loss": 0.2858, "step": 7837 }, { "epoch": 2.6126666666666667, "grad_norm": 2.9482204914093018, "learning_rate": 9.985010110344573e-07, "loss": 0.3003, "step": 7838 }, { "epoch": 2.613, "grad_norm": 2.6574981212615967, "learning_rate": 9.968122859780648e-07, "loss": 0.2645, "step": 7839 }, { "epoch": 2.6133333333333333, "grad_norm": 2.616323471069336, "learning_rate": 9.95124915256378e-07, "loss": 0.2864, "step": 7840 }, { "epoch": 2.6136666666666666, "grad_norm": 2.5495452880859375, "learning_rate": 9.934388991232258e-07, "loss": 0.2673, "step": 7841 }, { "epoch": 2.614, "grad_norm": 2.5334744453430176, "learning_rate": 9.917542378322299e-07, "loss": 0.3266, "step": 7842 }, { "epoch": 2.614333333333333, "grad_norm": 3.3217546939849854, "learning_rate": 9.900709316368118e-07, "loss": 0.2829, "step": 7843 }, { "epoch": 2.6146666666666665, "grad_norm": 3.2069077491760254, "learning_rate": 9.883889807901915e-07, "loss": 0.2937, "step": 7844 }, { "epoch": 2.615, "grad_norm": 2.676090955734253, "learning_rate": 9.867083855453775e-07, "loss": 0.2677, "step": 7845 }, { "epoch": 2.615333333333333, "grad_norm": 3.1839988231658936, "learning_rate": 9.850291461551832e-07, "loss": 0.301, "step": 7846 }, { "epoch": 2.615666666666667, "grad_norm": 2.317126512527466, "learning_rate": 9.833512628722108e-07, "loss": 0.315, "step": 7847 }, { "epoch": 2.616, "grad_norm": 3.296854257583618, "learning_rate": 9.816747359488632e-07, "loss": 0.2956, "step": 7848 }, { "epoch": 2.6163333333333334, "grad_norm": 3.532747983932495, "learning_rate": 9.799995656373361e-07, "loss": 0.3161, "step": 7849 }, { "epoch": 2.6166666666666667, "grad_norm": 3.3355531692504883, "learning_rate": 9.783257521896228e-07, "loss": 0.303, "step": 7850 }, { "epoch": 2.617, "grad_norm": 3.5525100231170654, "learning_rate": 9.766532958575158e-07, "loss": 0.2868, "step": 7851 }, { "epoch": 2.6173333333333333, "grad_norm": 2.3692522048950195, "learning_rate": 9.749821968925944e-07, "loss": 0.3058, "step": 7852 }, { "epoch": 2.6176666666666666, "grad_norm": 2.6080069541931152, "learning_rate": 9.733124555462425e-07, "loss": 0.3085, "step": 7853 }, { "epoch": 2.618, "grad_norm": 2.225297212600708, "learning_rate": 9.716440720696375e-07, "loss": 0.2835, "step": 7854 }, { "epoch": 2.618333333333333, "grad_norm": 2.360689163208008, "learning_rate": 9.699770467137504e-07, "loss": 0.2393, "step": 7855 }, { "epoch": 2.618666666666667, "grad_norm": 2.553684711456299, "learning_rate": 9.683113797293464e-07, "loss": 0.2684, "step": 7856 }, { "epoch": 2.6189999999999998, "grad_norm": 3.229279041290283, "learning_rate": 9.666470713669918e-07, "loss": 0.2828, "step": 7857 }, { "epoch": 2.6193333333333335, "grad_norm": 2.948660135269165, "learning_rate": 9.649841218770484e-07, "loss": 0.2909, "step": 7858 }, { "epoch": 2.619666666666667, "grad_norm": 3.2256553173065186, "learning_rate": 9.63322531509665e-07, "loss": 0.3241, "step": 7859 }, { "epoch": 2.62, "grad_norm": 3.0730321407318115, "learning_rate": 9.616623005147952e-07, "loss": 0.3304, "step": 7860 }, { "epoch": 2.6203333333333334, "grad_norm": 2.571718692779541, "learning_rate": 9.600034291421833e-07, "loss": 0.2687, "step": 7861 }, { "epoch": 2.6206666666666667, "grad_norm": 2.8324337005615234, "learning_rate": 9.583459176413757e-07, "loss": 0.3085, "step": 7862 }, { "epoch": 2.621, "grad_norm": 3.4036104679107666, "learning_rate": 9.566897662617014e-07, "loss": 0.3127, "step": 7863 }, { "epoch": 2.6213333333333333, "grad_norm": 2.669243812561035, "learning_rate": 9.550349752522992e-07, "loss": 0.2862, "step": 7864 }, { "epoch": 2.6216666666666666, "grad_norm": 3.026312828063965, "learning_rate": 9.533815448620943e-07, "loss": 0.289, "step": 7865 }, { "epoch": 2.622, "grad_norm": 2.9548237323760986, "learning_rate": 9.517294753398066e-07, "loss": 0.304, "step": 7866 }, { "epoch": 2.622333333333333, "grad_norm": 2.8225045204162598, "learning_rate": 9.500787669339562e-07, "loss": 0.3219, "step": 7867 }, { "epoch": 2.6226666666666665, "grad_norm": 2.7573540210723877, "learning_rate": 9.484294198928568e-07, "loss": 0.2539, "step": 7868 }, { "epoch": 2.623, "grad_norm": 2.41284441947937, "learning_rate": 9.467814344646187e-07, "loss": 0.3038, "step": 7869 }, { "epoch": 2.623333333333333, "grad_norm": 2.95981764793396, "learning_rate": 9.451348108971425e-07, "loss": 0.2847, "step": 7870 }, { "epoch": 2.623666666666667, "grad_norm": 2.4731104373931885, "learning_rate": 9.434895494381279e-07, "loss": 0.2655, "step": 7871 }, { "epoch": 2.624, "grad_norm": 2.8105416297912598, "learning_rate": 9.418456503350714e-07, "loss": 0.3011, "step": 7872 }, { "epoch": 2.6243333333333334, "grad_norm": 2.4859094619750977, "learning_rate": 9.402031138352585e-07, "loss": 0.3003, "step": 7873 }, { "epoch": 2.6246666666666667, "grad_norm": 3.221104145050049, "learning_rate": 9.385619401857759e-07, "loss": 0.2905, "step": 7874 }, { "epoch": 2.625, "grad_norm": 3.114262104034424, "learning_rate": 9.369221296335007e-07, "loss": 0.2936, "step": 7875 }, { "epoch": 2.6253333333333333, "grad_norm": 2.580780029296875, "learning_rate": 9.352836824251089e-07, "loss": 0.2843, "step": 7876 }, { "epoch": 2.6256666666666666, "grad_norm": 2.987912178039551, "learning_rate": 9.336465988070675e-07, "loss": 0.31, "step": 7877 }, { "epoch": 2.626, "grad_norm": 2.595102548599243, "learning_rate": 9.320108790256399e-07, "loss": 0.2815, "step": 7878 }, { "epoch": 2.626333333333333, "grad_norm": 3.1431736946105957, "learning_rate": 9.30376523326888e-07, "loss": 0.271, "step": 7879 }, { "epoch": 2.626666666666667, "grad_norm": 2.7394936084747314, "learning_rate": 9.287435319566618e-07, "loss": 0.2951, "step": 7880 }, { "epoch": 2.627, "grad_norm": 3.191117763519287, "learning_rate": 9.271119051606103e-07, "loss": 0.2886, "step": 7881 }, { "epoch": 2.6273333333333335, "grad_norm": 3.722203254699707, "learning_rate": 9.254816431841773e-07, "loss": 0.3051, "step": 7882 }, { "epoch": 2.627666666666667, "grad_norm": 2.7562553882598877, "learning_rate": 9.238527462726022e-07, "loss": 0.3135, "step": 7883 }, { "epoch": 2.628, "grad_norm": 2.5712130069732666, "learning_rate": 9.222252146709143e-07, "loss": 0.2977, "step": 7884 }, { "epoch": 2.6283333333333334, "grad_norm": 3.3154232501983643, "learning_rate": 9.205990486239402e-07, "loss": 0.3205, "step": 7885 }, { "epoch": 2.6286666666666667, "grad_norm": 3.963366746902466, "learning_rate": 9.189742483763042e-07, "loss": 0.2744, "step": 7886 }, { "epoch": 2.629, "grad_norm": 2.840317487716675, "learning_rate": 9.173508141724197e-07, "loss": 0.3023, "step": 7887 }, { "epoch": 2.6293333333333333, "grad_norm": 2.4493062496185303, "learning_rate": 9.157287462564968e-07, "loss": 0.2952, "step": 7888 }, { "epoch": 2.6296666666666666, "grad_norm": 2.777540683746338, "learning_rate": 9.141080448725425e-07, "loss": 0.3301, "step": 7889 }, { "epoch": 2.63, "grad_norm": 2.5694968700408936, "learning_rate": 9.124887102643576e-07, "loss": 0.2758, "step": 7890 }, { "epoch": 2.630333333333333, "grad_norm": 3.5670413970947266, "learning_rate": 9.108707426755326e-07, "loss": 0.2857, "step": 7891 }, { "epoch": 2.6306666666666665, "grad_norm": 3.0002386569976807, "learning_rate": 9.092541423494583e-07, "loss": 0.3043, "step": 7892 }, { "epoch": 2.6310000000000002, "grad_norm": 2.723546266555786, "learning_rate": 9.076389095293148e-07, "loss": 0.284, "step": 7893 }, { "epoch": 2.631333333333333, "grad_norm": 5.921991348266602, "learning_rate": 9.060250444580821e-07, "loss": 0.2979, "step": 7894 }, { "epoch": 2.631666666666667, "grad_norm": 2.700873613357544, "learning_rate": 9.04412547378527e-07, "loss": 0.2628, "step": 7895 }, { "epoch": 2.632, "grad_norm": 3.2424778938293457, "learning_rate": 9.028014185332168e-07, "loss": 0.293, "step": 7896 }, { "epoch": 2.6323333333333334, "grad_norm": 3.307832717895508, "learning_rate": 9.01191658164513e-07, "loss": 0.3118, "step": 7897 }, { "epoch": 2.6326666666666667, "grad_norm": 2.7368922233581543, "learning_rate": 8.995832665145665e-07, "loss": 0.2578, "step": 7898 }, { "epoch": 2.633, "grad_norm": 2.2548229694366455, "learning_rate": 8.979762438253259e-07, "loss": 0.2774, "step": 7899 }, { "epoch": 2.6333333333333333, "grad_norm": 2.9348855018615723, "learning_rate": 8.963705903385344e-07, "loss": 0.2923, "step": 7900 }, { "epoch": 2.6336666666666666, "grad_norm": 2.936077833175659, "learning_rate": 8.947663062957246e-07, "loss": 0.2906, "step": 7901 }, { "epoch": 2.634, "grad_norm": 2.877096176147461, "learning_rate": 8.931633919382299e-07, "loss": 0.2927, "step": 7902 }, { "epoch": 2.634333333333333, "grad_norm": 3.2230167388916016, "learning_rate": 8.915618475071708e-07, "loss": 0.2948, "step": 7903 }, { "epoch": 2.634666666666667, "grad_norm": 2.2057318687438965, "learning_rate": 8.899616732434679e-07, "loss": 0.3092, "step": 7904 }, { "epoch": 2.635, "grad_norm": 2.920811176300049, "learning_rate": 8.883628693878299e-07, "loss": 0.3183, "step": 7905 }, { "epoch": 2.6353333333333335, "grad_norm": 3.192018747329712, "learning_rate": 8.867654361807642e-07, "loss": 0.2829, "step": 7906 }, { "epoch": 2.635666666666667, "grad_norm": 3.2456676959991455, "learning_rate": 8.851693738625711e-07, "loss": 0.2772, "step": 7907 }, { "epoch": 2.636, "grad_norm": 2.7324488162994385, "learning_rate": 8.835746826733404e-07, "loss": 0.2875, "step": 7908 }, { "epoch": 2.6363333333333334, "grad_norm": 2.557786703109741, "learning_rate": 8.819813628529605e-07, "loss": 0.3118, "step": 7909 }, { "epoch": 2.6366666666666667, "grad_norm": 2.692068576812744, "learning_rate": 8.803894146411118e-07, "loss": 0.3253, "step": 7910 }, { "epoch": 2.637, "grad_norm": 2.2659225463867188, "learning_rate": 8.787988382772705e-07, "loss": 0.2761, "step": 7911 }, { "epoch": 2.6373333333333333, "grad_norm": 2.4685802459716797, "learning_rate": 8.772096340007019e-07, "loss": 0.2899, "step": 7912 }, { "epoch": 2.6376666666666666, "grad_norm": 2.1791133880615234, "learning_rate": 8.75621802050467e-07, "loss": 0.2924, "step": 7913 }, { "epoch": 2.638, "grad_norm": 3.1243226528167725, "learning_rate": 8.740353426654236e-07, "loss": 0.2951, "step": 7914 }, { "epoch": 2.638333333333333, "grad_norm": 3.3426427841186523, "learning_rate": 8.724502560842152e-07, "loss": 0.2857, "step": 7915 }, { "epoch": 2.6386666666666665, "grad_norm": 3.2895541191101074, "learning_rate": 8.708665425452878e-07, "loss": 0.3236, "step": 7916 }, { "epoch": 2.6390000000000002, "grad_norm": 3.7899842262268066, "learning_rate": 8.692842022868764e-07, "loss": 0.2679, "step": 7917 }, { "epoch": 2.639333333333333, "grad_norm": 2.4008235931396484, "learning_rate": 8.677032355470105e-07, "loss": 0.271, "step": 7918 }, { "epoch": 2.639666666666667, "grad_norm": 2.552074909210205, "learning_rate": 8.661236425635088e-07, "loss": 0.3023, "step": 7919 }, { "epoch": 2.64, "grad_norm": 2.6755754947662354, "learning_rate": 8.645454235739903e-07, "loss": 0.2762, "step": 7920 }, { "epoch": 2.6403333333333334, "grad_norm": 2.577805519104004, "learning_rate": 8.629685788158637e-07, "loss": 0.277, "step": 7921 }, { "epoch": 2.6406666666666667, "grad_norm": 2.265946388244629, "learning_rate": 8.613931085263317e-07, "loss": 0.2759, "step": 7922 }, { "epoch": 2.641, "grad_norm": 3.6004958152770996, "learning_rate": 8.598190129423844e-07, "loss": 0.3068, "step": 7923 }, { "epoch": 2.6413333333333333, "grad_norm": 3.5666022300720215, "learning_rate": 8.582462923008161e-07, "loss": 0.2895, "step": 7924 }, { "epoch": 2.6416666666666666, "grad_norm": 3.5685782432556152, "learning_rate": 8.566749468382074e-07, "loss": 0.2679, "step": 7925 }, { "epoch": 2.642, "grad_norm": 2.965179443359375, "learning_rate": 8.551049767909314e-07, "loss": 0.2851, "step": 7926 }, { "epoch": 2.642333333333333, "grad_norm": 3.427018404006958, "learning_rate": 8.53536382395157e-07, "loss": 0.3197, "step": 7927 }, { "epoch": 2.642666666666667, "grad_norm": 3.5267698764801025, "learning_rate": 8.519691638868466e-07, "loss": 0.2926, "step": 7928 }, { "epoch": 2.643, "grad_norm": 2.3407108783721924, "learning_rate": 8.504033215017527e-07, "loss": 0.2769, "step": 7929 }, { "epoch": 2.6433333333333335, "grad_norm": 2.750122308731079, "learning_rate": 8.488388554754223e-07, "loss": 0.2808, "step": 7930 }, { "epoch": 2.643666666666667, "grad_norm": 3.4185566902160645, "learning_rate": 8.472757660431974e-07, "loss": 0.2939, "step": 7931 }, { "epoch": 2.644, "grad_norm": 3.0794312953948975, "learning_rate": 8.457140534402098e-07, "loss": 0.3174, "step": 7932 }, { "epoch": 2.6443333333333334, "grad_norm": 2.9342403411865234, "learning_rate": 8.441537179013848e-07, "loss": 0.2713, "step": 7933 }, { "epoch": 2.6446666666666667, "grad_norm": 3.4946937561035156, "learning_rate": 8.425947596614403e-07, "loss": 0.3062, "step": 7934 }, { "epoch": 2.645, "grad_norm": 3.0123140811920166, "learning_rate": 8.41037178954891e-07, "loss": 0.3056, "step": 7935 }, { "epoch": 2.6453333333333333, "grad_norm": 2.5406010150909424, "learning_rate": 8.394809760160372e-07, "loss": 0.3033, "step": 7936 }, { "epoch": 2.6456666666666666, "grad_norm": 2.287569999694824, "learning_rate": 8.379261510789783e-07, "loss": 0.2837, "step": 7937 }, { "epoch": 2.646, "grad_norm": 4.246318340301514, "learning_rate": 8.363727043776037e-07, "loss": 0.2898, "step": 7938 }, { "epoch": 2.646333333333333, "grad_norm": 2.511523485183716, "learning_rate": 8.348206361455968e-07, "loss": 0.2965, "step": 7939 }, { "epoch": 2.6466666666666665, "grad_norm": 2.8277230262756348, "learning_rate": 8.332699466164307e-07, "loss": 0.3024, "step": 7940 }, { "epoch": 2.6470000000000002, "grad_norm": 2.9182465076446533, "learning_rate": 8.317206360233765e-07, "loss": 0.2693, "step": 7941 }, { "epoch": 2.647333333333333, "grad_norm": 3.194309711456299, "learning_rate": 8.301727045994912e-07, "loss": 0.3199, "step": 7942 }, { "epoch": 2.647666666666667, "grad_norm": 2.953249931335449, "learning_rate": 8.286261525776273e-07, "loss": 0.3153, "step": 7943 }, { "epoch": 2.648, "grad_norm": 3.1743757724761963, "learning_rate": 8.270809801904301e-07, "loss": 0.2941, "step": 7944 }, { "epoch": 2.6483333333333334, "grad_norm": 2.6455655097961426, "learning_rate": 8.255371876703389e-07, "loss": 0.3237, "step": 7945 }, { "epoch": 2.6486666666666667, "grad_norm": 2.4867265224456787, "learning_rate": 8.239947752495858e-07, "loss": 0.3009, "step": 7946 }, { "epoch": 2.649, "grad_norm": 2.252866506576538, "learning_rate": 8.224537431601886e-07, "loss": 0.2588, "step": 7947 }, { "epoch": 2.6493333333333333, "grad_norm": 2.616615056991577, "learning_rate": 8.209140916339653e-07, "loss": 0.2886, "step": 7948 }, { "epoch": 2.6496666666666666, "grad_norm": 2.1526601314544678, "learning_rate": 8.193758209025226e-07, "loss": 0.2862, "step": 7949 }, { "epoch": 2.65, "grad_norm": 2.5619492530822754, "learning_rate": 8.178389311972612e-07, "loss": 0.2832, "step": 7950 }, { "epoch": 2.650333333333333, "grad_norm": 2.413572311401367, "learning_rate": 8.163034227493694e-07, "loss": 0.3016, "step": 7951 }, { "epoch": 2.6506666666666665, "grad_norm": 2.5092456340789795, "learning_rate": 8.147692957898335e-07, "loss": 0.2775, "step": 7952 }, { "epoch": 2.651, "grad_norm": 2.5366051197052, "learning_rate": 8.13236550549431e-07, "loss": 0.3086, "step": 7953 }, { "epoch": 2.6513333333333335, "grad_norm": 2.2332611083984375, "learning_rate": 8.117051872587279e-07, "loss": 0.2627, "step": 7954 }, { "epoch": 2.6516666666666664, "grad_norm": 2.438918352127075, "learning_rate": 8.10175206148085e-07, "loss": 0.3268, "step": 7955 }, { "epoch": 2.652, "grad_norm": 3.1947667598724365, "learning_rate": 8.086466074476562e-07, "loss": 0.2924, "step": 7956 }, { "epoch": 2.6523333333333334, "grad_norm": 3.056612730026245, "learning_rate": 8.071193913873853e-07, "loss": 0.2949, "step": 7957 }, { "epoch": 2.6526666666666667, "grad_norm": 2.744744300842285, "learning_rate": 8.055935581970076e-07, "loss": 0.2672, "step": 7958 }, { "epoch": 2.653, "grad_norm": 2.121406316757202, "learning_rate": 8.040691081060548e-07, "loss": 0.3056, "step": 7959 }, { "epoch": 2.6533333333333333, "grad_norm": 4.319448471069336, "learning_rate": 8.025460413438457e-07, "loss": 0.2966, "step": 7960 }, { "epoch": 2.6536666666666666, "grad_norm": 2.4616808891296387, "learning_rate": 8.010243581394905e-07, "loss": 0.2616, "step": 7961 }, { "epoch": 2.654, "grad_norm": 2.4888741970062256, "learning_rate": 7.99504058721896e-07, "loss": 0.2994, "step": 7962 }, { "epoch": 2.654333333333333, "grad_norm": 2.7245829105377197, "learning_rate": 7.979851433197605e-07, "loss": 0.3076, "step": 7963 }, { "epoch": 2.6546666666666665, "grad_norm": 2.597423791885376, "learning_rate": 7.964676121615666e-07, "loss": 0.3254, "step": 7964 }, { "epoch": 2.6550000000000002, "grad_norm": 2.526106119155884, "learning_rate": 7.949514654755963e-07, "loss": 0.2917, "step": 7965 }, { "epoch": 2.655333333333333, "grad_norm": 2.7606849670410156, "learning_rate": 7.934367034899226e-07, "loss": 0.3011, "step": 7966 }, { "epoch": 2.655666666666667, "grad_norm": 2.8581933975219727, "learning_rate": 7.919233264324088e-07, "loss": 0.263, "step": 7967 }, { "epoch": 2.656, "grad_norm": 2.8971405029296875, "learning_rate": 7.904113345307073e-07, "loss": 0.288, "step": 7968 }, { "epoch": 2.6563333333333334, "grad_norm": 3.2502756118774414, "learning_rate": 7.889007280122673e-07, "loss": 0.2939, "step": 7969 }, { "epoch": 2.6566666666666667, "grad_norm": 2.024228572845459, "learning_rate": 7.873915071043248e-07, "loss": 0.2949, "step": 7970 }, { "epoch": 2.657, "grad_norm": 2.725252389907837, "learning_rate": 7.85883672033908e-07, "loss": 0.2636, "step": 7971 }, { "epoch": 2.6573333333333333, "grad_norm": 2.3168373107910156, "learning_rate": 7.843772230278413e-07, "loss": 0.2798, "step": 7972 }, { "epoch": 2.6576666666666666, "grad_norm": 2.393939971923828, "learning_rate": 7.828721603127343e-07, "loss": 0.3048, "step": 7973 }, { "epoch": 2.658, "grad_norm": 2.6163830757141113, "learning_rate": 7.81368484114996e-07, "loss": 0.2733, "step": 7974 }, { "epoch": 2.658333333333333, "grad_norm": 2.5375897884368896, "learning_rate": 7.798661946608166e-07, "loss": 0.2874, "step": 7975 }, { "epoch": 2.6586666666666665, "grad_norm": 3.0902819633483887, "learning_rate": 7.783652921761841e-07, "loss": 0.2978, "step": 7976 }, { "epoch": 2.659, "grad_norm": 2.570409059524536, "learning_rate": 7.768657768868803e-07, "loss": 0.3007, "step": 7977 }, { "epoch": 2.6593333333333335, "grad_norm": 2.643612861633301, "learning_rate": 7.753676490184714e-07, "loss": 0.2791, "step": 7978 }, { "epoch": 2.6596666666666664, "grad_norm": 2.940955877304077, "learning_rate": 7.738709087963203e-07, "loss": 0.3154, "step": 7979 }, { "epoch": 2.66, "grad_norm": 2.7141470909118652, "learning_rate": 7.723755564455771e-07, "loss": 0.2754, "step": 7980 }, { "epoch": 2.6603333333333334, "grad_norm": 2.5051958560943604, "learning_rate": 7.708815921911872e-07, "loss": 0.2729, "step": 7981 }, { "epoch": 2.6606666666666667, "grad_norm": 2.3151209354400635, "learning_rate": 7.693890162578832e-07, "loss": 0.2686, "step": 7982 }, { "epoch": 2.661, "grad_norm": 2.7592618465423584, "learning_rate": 7.678978288701911e-07, "loss": 0.3136, "step": 7983 }, { "epoch": 2.6613333333333333, "grad_norm": 2.542621612548828, "learning_rate": 7.664080302524301e-07, "loss": 0.2467, "step": 7984 }, { "epoch": 2.6616666666666666, "grad_norm": 2.938387870788574, "learning_rate": 7.649196206287058e-07, "loss": 0.2868, "step": 7985 }, { "epoch": 2.662, "grad_norm": 2.5220892429351807, "learning_rate": 7.634326002229175e-07, "loss": 0.2733, "step": 7986 }, { "epoch": 2.662333333333333, "grad_norm": 3.2958967685699463, "learning_rate": 7.619469692587577e-07, "loss": 0.3448, "step": 7987 }, { "epoch": 2.6626666666666665, "grad_norm": 2.4169232845306396, "learning_rate": 7.604627279597032e-07, "loss": 0.2915, "step": 7988 }, { "epoch": 2.6630000000000003, "grad_norm": 2.9934334754943848, "learning_rate": 7.589798765490308e-07, "loss": 0.3203, "step": 7989 }, { "epoch": 2.663333333333333, "grad_norm": 2.4257428646087646, "learning_rate": 7.574984152497988e-07, "loss": 0.2681, "step": 7990 }, { "epoch": 2.663666666666667, "grad_norm": 2.459242105484009, "learning_rate": 7.560183442848624e-07, "loss": 0.2938, "step": 7991 }, { "epoch": 2.664, "grad_norm": 3.1551530361175537, "learning_rate": 7.545396638768698e-07, "loss": 0.2845, "step": 7992 }, { "epoch": 2.6643333333333334, "grad_norm": 2.920494794845581, "learning_rate": 7.530623742482512e-07, "loss": 0.3235, "step": 7993 }, { "epoch": 2.6646666666666667, "grad_norm": 2.9259328842163086, "learning_rate": 7.515864756212343e-07, "loss": 0.3341, "step": 7994 }, { "epoch": 2.665, "grad_norm": 3.5271739959716797, "learning_rate": 7.501119682178392e-07, "loss": 0.2963, "step": 7995 }, { "epoch": 2.6653333333333333, "grad_norm": 3.022096633911133, "learning_rate": 7.486388522598697e-07, "loss": 0.2748, "step": 7996 }, { "epoch": 2.6656666666666666, "grad_norm": 3.5370736122131348, "learning_rate": 7.471671279689285e-07, "loss": 0.2969, "step": 7997 }, { "epoch": 2.666, "grad_norm": 3.2972331047058105, "learning_rate": 7.456967955663996e-07, "loss": 0.289, "step": 7998 }, { "epoch": 2.666333333333333, "grad_norm": 2.9641451835632324, "learning_rate": 7.442278552734661e-07, "loss": 0.2965, "step": 7999 }, { "epoch": 2.6666666666666665, "grad_norm": 2.317978620529175, "learning_rate": 7.427603073110967e-07, "loss": 0.2736, "step": 8000 }, { "epoch": 2.667, "grad_norm": 2.7062456607818604, "learning_rate": 7.412941519000527e-07, "loss": 0.2914, "step": 8001 }, { "epoch": 2.6673333333333336, "grad_norm": 2.495617628097534, "learning_rate": 7.398293892608866e-07, "loss": 0.2808, "step": 8002 }, { "epoch": 2.6676666666666664, "grad_norm": 2.6176416873931885, "learning_rate": 7.383660196139387e-07, "loss": 0.2651, "step": 8003 }, { "epoch": 2.668, "grad_norm": 3.0973801612854004, "learning_rate": 7.369040431793406e-07, "loss": 0.3048, "step": 8004 }, { "epoch": 2.6683333333333334, "grad_norm": 2.3867318630218506, "learning_rate": 7.354434601770166e-07, "loss": 0.2922, "step": 8005 }, { "epoch": 2.6686666666666667, "grad_norm": 2.6488444805145264, "learning_rate": 7.339842708266809e-07, "loss": 0.2786, "step": 8006 }, { "epoch": 2.669, "grad_norm": 3.2505340576171875, "learning_rate": 7.325264753478356e-07, "loss": 0.2799, "step": 8007 }, { "epoch": 2.6693333333333333, "grad_norm": 3.169722080230713, "learning_rate": 7.31070073959772e-07, "loss": 0.2837, "step": 8008 }, { "epoch": 2.6696666666666666, "grad_norm": 2.599670886993408, "learning_rate": 7.296150668815794e-07, "loss": 0.3097, "step": 8009 }, { "epoch": 2.67, "grad_norm": 2.515232563018799, "learning_rate": 7.281614543321269e-07, "loss": 0.2619, "step": 8010 }, { "epoch": 2.6703333333333332, "grad_norm": 2.8797667026519775, "learning_rate": 7.26709236530081e-07, "loss": 0.2696, "step": 8011 }, { "epoch": 2.6706666666666665, "grad_norm": 3.1497790813446045, "learning_rate": 7.252584136938978e-07, "loss": 0.2969, "step": 8012 }, { "epoch": 2.6710000000000003, "grad_norm": 3.278698682785034, "learning_rate": 7.238089860418218e-07, "loss": 0.2947, "step": 8013 }, { "epoch": 2.671333333333333, "grad_norm": 2.6279778480529785, "learning_rate": 7.223609537918863e-07, "loss": 0.2868, "step": 8014 }, { "epoch": 2.671666666666667, "grad_norm": 2.8256893157958984, "learning_rate": 7.20914317161917e-07, "loss": 0.285, "step": 8015 }, { "epoch": 2.672, "grad_norm": 3.08843994140625, "learning_rate": 7.194690763695312e-07, "loss": 0.2728, "step": 8016 }, { "epoch": 2.6723333333333334, "grad_norm": 2.4702117443084717, "learning_rate": 7.180252316321335e-07, "loss": 0.2861, "step": 8017 }, { "epoch": 2.6726666666666667, "grad_norm": 2.7128124237060547, "learning_rate": 7.165827831669148e-07, "loss": 0.2645, "step": 8018 }, { "epoch": 2.673, "grad_norm": 3.0651330947875977, "learning_rate": 7.151417311908648e-07, "loss": 0.3053, "step": 8019 }, { "epoch": 2.6733333333333333, "grad_norm": 3.1061673164367676, "learning_rate": 7.13702075920758e-07, "loss": 0.3201, "step": 8020 }, { "epoch": 2.6736666666666666, "grad_norm": 3.099729537963867, "learning_rate": 7.122638175731577e-07, "loss": 0.3047, "step": 8021 }, { "epoch": 2.674, "grad_norm": 3.47462797164917, "learning_rate": 7.108269563644188e-07, "loss": 0.2849, "step": 8022 }, { "epoch": 2.6743333333333332, "grad_norm": 2.9895131587982178, "learning_rate": 7.093914925106893e-07, "loss": 0.3051, "step": 8023 }, { "epoch": 2.6746666666666665, "grad_norm": 2.467071056365967, "learning_rate": 7.079574262278987e-07, "loss": 0.2932, "step": 8024 }, { "epoch": 2.675, "grad_norm": 2.6194217205047607, "learning_rate": 7.065247577317747e-07, "loss": 0.3038, "step": 8025 }, { "epoch": 2.6753333333333336, "grad_norm": 3.088073968887329, "learning_rate": 7.050934872378312e-07, "loss": 0.2899, "step": 8026 }, { "epoch": 2.6756666666666664, "grad_norm": 3.023054599761963, "learning_rate": 7.036636149613718e-07, "loss": 0.2737, "step": 8027 }, { "epoch": 2.676, "grad_norm": 2.6340932846069336, "learning_rate": 7.022351411174866e-07, "loss": 0.283, "step": 8028 }, { "epoch": 2.6763333333333335, "grad_norm": 3.808915615081787, "learning_rate": 7.008080659210615e-07, "loss": 0.2849, "step": 8029 }, { "epoch": 2.6766666666666667, "grad_norm": 2.756784439086914, "learning_rate": 6.99382389586769e-07, "loss": 0.309, "step": 8030 }, { "epoch": 2.677, "grad_norm": 2.975337266921997, "learning_rate": 6.979581123290702e-07, "loss": 0.304, "step": 8031 }, { "epoch": 2.6773333333333333, "grad_norm": 2.619255781173706, "learning_rate": 6.965352343622178e-07, "loss": 0.279, "step": 8032 }, { "epoch": 2.6776666666666666, "grad_norm": 3.88834810256958, "learning_rate": 6.951137559002519e-07, "loss": 0.3279, "step": 8033 }, { "epoch": 2.678, "grad_norm": 2.7895596027374268, "learning_rate": 6.936936771570046e-07, "loss": 0.3311, "step": 8034 }, { "epoch": 2.6783333333333332, "grad_norm": 3.0124709606170654, "learning_rate": 6.922749983460964e-07, "loss": 0.3149, "step": 8035 }, { "epoch": 2.6786666666666665, "grad_norm": 2.3664257526397705, "learning_rate": 6.908577196809341e-07, "loss": 0.2948, "step": 8036 }, { "epoch": 2.6790000000000003, "grad_norm": 4.95714807510376, "learning_rate": 6.894418413747183e-07, "loss": 0.2826, "step": 8037 }, { "epoch": 2.679333333333333, "grad_norm": 3.0150389671325684, "learning_rate": 6.880273636404366e-07, "loss": 0.3186, "step": 8038 }, { "epoch": 2.679666666666667, "grad_norm": 3.2520055770874023, "learning_rate": 6.866142866908665e-07, "loss": 0.2834, "step": 8039 }, { "epoch": 2.68, "grad_norm": 2.7727625370025635, "learning_rate": 6.852026107385756e-07, "loss": 0.2836, "step": 8040 }, { "epoch": 2.6803333333333335, "grad_norm": 2.7034528255462646, "learning_rate": 6.83792335995922e-07, "loss": 0.3181, "step": 8041 }, { "epoch": 2.6806666666666668, "grad_norm": 2.4652047157287598, "learning_rate": 6.82383462675047e-07, "loss": 0.322, "step": 8042 }, { "epoch": 2.681, "grad_norm": 3.7572343349456787, "learning_rate": 6.809759909878855e-07, "loss": 0.2881, "step": 8043 }, { "epoch": 2.6813333333333333, "grad_norm": 5.312226295471191, "learning_rate": 6.79569921146166e-07, "loss": 0.311, "step": 8044 }, { "epoch": 2.6816666666666666, "grad_norm": 2.4860072135925293, "learning_rate": 6.78165253361397e-07, "loss": 0.2713, "step": 8045 }, { "epoch": 2.682, "grad_norm": 2.6886072158813477, "learning_rate": 6.767619878448783e-07, "loss": 0.2758, "step": 8046 }, { "epoch": 2.6823333333333332, "grad_norm": 3.1110990047454834, "learning_rate": 6.753601248077046e-07, "loss": 0.2404, "step": 8047 }, { "epoch": 2.6826666666666665, "grad_norm": 2.936660051345825, "learning_rate": 6.739596644607572e-07, "loss": 0.3107, "step": 8048 }, { "epoch": 2.683, "grad_norm": 3.3197672367095947, "learning_rate": 6.725606070147006e-07, "loss": 0.2945, "step": 8049 }, { "epoch": 2.6833333333333336, "grad_norm": 2.931934118270874, "learning_rate": 6.711629526799946e-07, "loss": 0.3049, "step": 8050 }, { "epoch": 2.6836666666666664, "grad_norm": 2.4981026649475098, "learning_rate": 6.697667016668885e-07, "loss": 0.2937, "step": 8051 }, { "epoch": 2.684, "grad_norm": 2.3756513595581055, "learning_rate": 6.683718541854134e-07, "loss": 0.2637, "step": 8052 }, { "epoch": 2.6843333333333335, "grad_norm": 2.757161855697632, "learning_rate": 6.669784104453969e-07, "loss": 0.3399, "step": 8053 }, { "epoch": 2.6846666666666668, "grad_norm": 5.9362969398498535, "learning_rate": 6.655863706564536e-07, "loss": 0.2643, "step": 8054 }, { "epoch": 2.685, "grad_norm": 2.3124589920043945, "learning_rate": 6.641957350279838e-07, "loss": 0.2709, "step": 8055 }, { "epoch": 2.6853333333333333, "grad_norm": 2.5949532985687256, "learning_rate": 6.628065037691778e-07, "loss": 0.2851, "step": 8056 }, { "epoch": 2.6856666666666666, "grad_norm": 2.718888759613037, "learning_rate": 6.614186770890152e-07, "loss": 0.2992, "step": 8057 }, { "epoch": 2.686, "grad_norm": 2.473707914352417, "learning_rate": 6.60032255196268e-07, "loss": 0.2609, "step": 8058 }, { "epoch": 2.6863333333333332, "grad_norm": 2.621225595474243, "learning_rate": 6.586472382994891e-07, "loss": 0.3122, "step": 8059 }, { "epoch": 2.6866666666666665, "grad_norm": 2.5799474716186523, "learning_rate": 6.572636266070265e-07, "loss": 0.292, "step": 8060 }, { "epoch": 2.6870000000000003, "grad_norm": 2.68801212310791, "learning_rate": 6.558814203270147e-07, "loss": 0.235, "step": 8061 }, { "epoch": 2.687333333333333, "grad_norm": 2.8810768127441406, "learning_rate": 6.545006196673775e-07, "loss": 0.3125, "step": 8062 }, { "epoch": 2.687666666666667, "grad_norm": 2.6494827270507812, "learning_rate": 6.531212248358232e-07, "loss": 0.2891, "step": 8063 }, { "epoch": 2.6879999999999997, "grad_norm": 2.3927714824676514, "learning_rate": 6.517432360398556e-07, "loss": 0.271, "step": 8064 }, { "epoch": 2.6883333333333335, "grad_norm": 3.1112377643585205, "learning_rate": 6.503666534867625e-07, "loss": 0.2953, "step": 8065 }, { "epoch": 2.6886666666666668, "grad_norm": 2.439601182937622, "learning_rate": 6.489914773836181e-07, "loss": 0.2831, "step": 8066 }, { "epoch": 2.689, "grad_norm": 2.703061819076538, "learning_rate": 6.476177079372903e-07, "loss": 0.3377, "step": 8067 }, { "epoch": 2.6893333333333334, "grad_norm": 2.5866384506225586, "learning_rate": 6.462453453544326e-07, "loss": 0.2702, "step": 8068 }, { "epoch": 2.6896666666666667, "grad_norm": 4.04400110244751, "learning_rate": 6.448743898414889e-07, "loss": 0.3131, "step": 8069 }, { "epoch": 2.69, "grad_norm": 2.171093702316284, "learning_rate": 6.435048416046863e-07, "loss": 0.2883, "step": 8070 }, { "epoch": 2.6903333333333332, "grad_norm": 2.386676073074341, "learning_rate": 6.421367008500446e-07, "loss": 0.255, "step": 8071 }, { "epoch": 2.6906666666666665, "grad_norm": 2.8065197467803955, "learning_rate": 6.407699677833745e-07, "loss": 0.2624, "step": 8072 }, { "epoch": 2.691, "grad_norm": 2.704284191131592, "learning_rate": 6.394046426102673e-07, "loss": 0.2654, "step": 8073 }, { "epoch": 2.6913333333333336, "grad_norm": 2.3286499977111816, "learning_rate": 6.380407255361087e-07, "loss": 0.2867, "step": 8074 }, { "epoch": 2.6916666666666664, "grad_norm": 2.743469715118408, "learning_rate": 6.36678216766069e-07, "loss": 0.3014, "step": 8075 }, { "epoch": 2.692, "grad_norm": 3.2456037998199463, "learning_rate": 6.353171165051109e-07, "loss": 0.2643, "step": 8076 }, { "epoch": 2.6923333333333335, "grad_norm": 2.4170992374420166, "learning_rate": 6.339574249579794e-07, "loss": 0.2659, "step": 8077 }, { "epoch": 2.6926666666666668, "grad_norm": 2.8254897594451904, "learning_rate": 6.32599142329211e-07, "loss": 0.2867, "step": 8078 }, { "epoch": 2.693, "grad_norm": 2.8862757682800293, "learning_rate": 6.312422688231323e-07, "loss": 0.2998, "step": 8079 }, { "epoch": 2.6933333333333334, "grad_norm": 2.956007480621338, "learning_rate": 6.298868046438533e-07, "loss": 0.2941, "step": 8080 }, { "epoch": 2.6936666666666667, "grad_norm": 2.6919424533843994, "learning_rate": 6.285327499952743e-07, "loss": 0.3271, "step": 8081 }, { "epoch": 2.694, "grad_norm": 5.813856601715088, "learning_rate": 6.271801050810856e-07, "loss": 0.2743, "step": 8082 }, { "epoch": 2.6943333333333332, "grad_norm": 2.833360433578491, "learning_rate": 6.25828870104761e-07, "loss": 0.3045, "step": 8083 }, { "epoch": 2.6946666666666665, "grad_norm": 2.576897144317627, "learning_rate": 6.244790452695671e-07, "loss": 0.2519, "step": 8084 }, { "epoch": 2.695, "grad_norm": 2.6817898750305176, "learning_rate": 6.231306307785523e-07, "loss": 0.3059, "step": 8085 }, { "epoch": 2.695333333333333, "grad_norm": 2.7671895027160645, "learning_rate": 6.217836268345589e-07, "loss": 0.2931, "step": 8086 }, { "epoch": 2.695666666666667, "grad_norm": 3.1971027851104736, "learning_rate": 6.204380336402138e-07, "loss": 0.2906, "step": 8087 }, { "epoch": 2.6959999999999997, "grad_norm": 2.7344563007354736, "learning_rate": 6.190938513979317e-07, "loss": 0.2853, "step": 8088 }, { "epoch": 2.6963333333333335, "grad_norm": 2.8844099044799805, "learning_rate": 6.177510803099173e-07, "loss": 0.2859, "step": 8089 }, { "epoch": 2.6966666666666668, "grad_norm": 2.467151641845703, "learning_rate": 6.164097205781616e-07, "loss": 0.2598, "step": 8090 }, { "epoch": 2.697, "grad_norm": 3.033132791519165, "learning_rate": 6.150697724044407e-07, "loss": 0.2686, "step": 8091 }, { "epoch": 2.6973333333333334, "grad_norm": 3.1855309009552, "learning_rate": 6.137312359903236e-07, "loss": 0.2662, "step": 8092 }, { "epoch": 2.6976666666666667, "grad_norm": 4.2837300300598145, "learning_rate": 6.123941115371634e-07, "loss": 0.2973, "step": 8093 }, { "epoch": 2.698, "grad_norm": 3.427680253982544, "learning_rate": 6.110583992460984e-07, "loss": 0.3237, "step": 8094 }, { "epoch": 2.6983333333333333, "grad_norm": 2.78481388092041, "learning_rate": 6.097240993180609e-07, "loss": 0.2954, "step": 8095 }, { "epoch": 2.6986666666666665, "grad_norm": 2.406728744506836, "learning_rate": 6.08391211953766e-07, "loss": 0.2566, "step": 8096 }, { "epoch": 2.699, "grad_norm": 2.606947422027588, "learning_rate": 6.070597373537201e-07, "loss": 0.2735, "step": 8097 }, { "epoch": 2.6993333333333336, "grad_norm": 2.7610466480255127, "learning_rate": 6.057296757182119e-07, "loss": 0.2403, "step": 8098 }, { "epoch": 2.6996666666666664, "grad_norm": 3.1632742881774902, "learning_rate": 6.044010272473211e-07, "loss": 0.2957, "step": 8099 }, { "epoch": 2.7, "grad_norm": 2.8418898582458496, "learning_rate": 6.030737921409169e-07, "loss": 0.2784, "step": 8100 }, { "epoch": 2.7003333333333335, "grad_norm": 2.90604567527771, "learning_rate": 6.017479705986484e-07, "loss": 0.2819, "step": 8101 }, { "epoch": 2.7006666666666668, "grad_norm": 2.266342878341675, "learning_rate": 6.004235628199606e-07, "loss": 0.296, "step": 8102 }, { "epoch": 2.701, "grad_norm": 3.345339298248291, "learning_rate": 5.991005690040797e-07, "loss": 0.2888, "step": 8103 }, { "epoch": 2.7013333333333334, "grad_norm": 2.3354055881500244, "learning_rate": 5.97778989350023e-07, "loss": 0.276, "step": 8104 }, { "epoch": 2.7016666666666667, "grad_norm": 2.9275906085968018, "learning_rate": 5.964588240565916e-07, "loss": 0.2949, "step": 8105 }, { "epoch": 2.702, "grad_norm": 3.308002471923828, "learning_rate": 5.951400733223766e-07, "loss": 0.2797, "step": 8106 }, { "epoch": 2.7023333333333333, "grad_norm": 2.4143576622009277, "learning_rate": 5.938227373457572e-07, "loss": 0.296, "step": 8107 }, { "epoch": 2.7026666666666666, "grad_norm": 2.4076452255249023, "learning_rate": 5.925068163248959e-07, "loss": 0.2868, "step": 8108 }, { "epoch": 2.703, "grad_norm": 3.5640738010406494, "learning_rate": 5.911923104577455e-07, "loss": 0.2667, "step": 8109 }, { "epoch": 2.703333333333333, "grad_norm": 2.906230926513672, "learning_rate": 5.898792199420445e-07, "loss": 0.2861, "step": 8110 }, { "epoch": 2.703666666666667, "grad_norm": 2.529390811920166, "learning_rate": 5.885675449753203e-07, "loss": 0.2661, "step": 8111 }, { "epoch": 2.7039999999999997, "grad_norm": 2.7467503547668457, "learning_rate": 5.872572857548853e-07, "loss": 0.321, "step": 8112 }, { "epoch": 2.7043333333333335, "grad_norm": 2.741156578063965, "learning_rate": 5.859484424778383e-07, "loss": 0.2864, "step": 8113 }, { "epoch": 2.7046666666666668, "grad_norm": 2.7503082752227783, "learning_rate": 5.846410153410686e-07, "loss": 0.2869, "step": 8114 }, { "epoch": 2.705, "grad_norm": 3.6231515407562256, "learning_rate": 5.833350045412478e-07, "loss": 0.3013, "step": 8115 }, { "epoch": 2.7053333333333334, "grad_norm": 3.5827908515930176, "learning_rate": 5.820304102748387e-07, "loss": 0.3055, "step": 8116 }, { "epoch": 2.7056666666666667, "grad_norm": 2.7289466857910156, "learning_rate": 5.807272327380875e-07, "loss": 0.2852, "step": 8117 }, { "epoch": 2.706, "grad_norm": 2.995553493499756, "learning_rate": 5.794254721270331e-07, "loss": 0.3406, "step": 8118 }, { "epoch": 2.7063333333333333, "grad_norm": 3.1052167415618896, "learning_rate": 5.781251286374934e-07, "loss": 0.2687, "step": 8119 }, { "epoch": 2.7066666666666666, "grad_norm": 2.752525806427002, "learning_rate": 5.768262024650773e-07, "loss": 0.2879, "step": 8120 }, { "epoch": 2.707, "grad_norm": 2.6436920166015625, "learning_rate": 5.75528693805183e-07, "loss": 0.3119, "step": 8121 }, { "epoch": 2.7073333333333336, "grad_norm": 2.92834210395813, "learning_rate": 5.742326028529899e-07, "loss": 0.3067, "step": 8122 }, { "epoch": 2.7076666666666664, "grad_norm": 4.428025722503662, "learning_rate": 5.729379298034665e-07, "loss": 0.2969, "step": 8123 }, { "epoch": 2.708, "grad_norm": 2.7248072624206543, "learning_rate": 5.716446748513682e-07, "loss": 0.3096, "step": 8124 }, { "epoch": 2.7083333333333335, "grad_norm": 2.9412412643432617, "learning_rate": 5.703528381912415e-07, "loss": 0.2882, "step": 8125 }, { "epoch": 2.708666666666667, "grad_norm": 2.5059690475463867, "learning_rate": 5.690624200174089e-07, "loss": 0.2742, "step": 8126 }, { "epoch": 2.709, "grad_norm": 2.589437484741211, "learning_rate": 5.677734205239904e-07, "loss": 0.3138, "step": 8127 }, { "epoch": 2.7093333333333334, "grad_norm": 2.8509864807128906, "learning_rate": 5.664858399048867e-07, "loss": 0.2949, "step": 8128 }, { "epoch": 2.7096666666666667, "grad_norm": 2.9260993003845215, "learning_rate": 5.651996783537861e-07, "loss": 0.2878, "step": 8129 }, { "epoch": 2.71, "grad_norm": 2.8541975021362305, "learning_rate": 5.63914936064165e-07, "loss": 0.2942, "step": 8130 }, { "epoch": 2.7103333333333333, "grad_norm": 3.0832436084747314, "learning_rate": 5.626316132292831e-07, "loss": 0.2707, "step": 8131 }, { "epoch": 2.7106666666666666, "grad_norm": 2.648529529571533, "learning_rate": 5.613497100421916e-07, "loss": 0.2758, "step": 8132 }, { "epoch": 2.711, "grad_norm": 2.6636571884155273, "learning_rate": 5.600692266957208e-07, "loss": 0.3044, "step": 8133 }, { "epoch": 2.711333333333333, "grad_norm": 2.896296977996826, "learning_rate": 5.587901633824944e-07, "loss": 0.3094, "step": 8134 }, { "epoch": 2.711666666666667, "grad_norm": 2.781886577606201, "learning_rate": 5.575125202949205e-07, "loss": 0.2723, "step": 8135 }, { "epoch": 2.7119999999999997, "grad_norm": 3.6738739013671875, "learning_rate": 5.562362976251901e-07, "loss": 0.264, "step": 8136 }, { "epoch": 2.7123333333333335, "grad_norm": 2.7685649394989014, "learning_rate": 5.549614955652849e-07, "loss": 0.313, "step": 8137 }, { "epoch": 2.712666666666667, "grad_norm": 2.7178525924682617, "learning_rate": 5.536881143069717e-07, "loss": 0.2371, "step": 8138 }, { "epoch": 2.713, "grad_norm": 2.6969189643859863, "learning_rate": 5.524161540418039e-07, "loss": 0.2851, "step": 8139 }, { "epoch": 2.7133333333333334, "grad_norm": 3.561340570449829, "learning_rate": 5.511456149611194e-07, "loss": 0.2907, "step": 8140 }, { "epoch": 2.7136666666666667, "grad_norm": 2.7143056392669678, "learning_rate": 5.498764972560411e-07, "loss": 0.3203, "step": 8141 }, { "epoch": 2.714, "grad_norm": 2.8436503410339355, "learning_rate": 5.48608801117485e-07, "loss": 0.2631, "step": 8142 }, { "epoch": 2.7143333333333333, "grad_norm": 2.9860684871673584, "learning_rate": 5.473425267361432e-07, "loss": 0.2781, "step": 8143 }, { "epoch": 2.7146666666666666, "grad_norm": 2.562709331512451, "learning_rate": 5.46077674302502e-07, "loss": 0.2664, "step": 8144 }, { "epoch": 2.715, "grad_norm": 2.778010368347168, "learning_rate": 5.448142440068316e-07, "loss": 0.2712, "step": 8145 }, { "epoch": 2.7153333333333336, "grad_norm": 2.8555397987365723, "learning_rate": 5.435522360391888e-07, "loss": 0.3121, "step": 8146 }, { "epoch": 2.7156666666666665, "grad_norm": 2.3286070823669434, "learning_rate": 5.422916505894116e-07, "loss": 0.2722, "step": 8147 }, { "epoch": 2.716, "grad_norm": 3.2023565769195557, "learning_rate": 5.410324878471296e-07, "loss": 0.3218, "step": 8148 }, { "epoch": 2.7163333333333335, "grad_norm": 2.7799575328826904, "learning_rate": 5.39774748001759e-07, "loss": 0.2676, "step": 8149 }, { "epoch": 2.716666666666667, "grad_norm": 2.2755014896392822, "learning_rate": 5.385184312424973e-07, "loss": 0.2708, "step": 8150 }, { "epoch": 2.717, "grad_norm": 2.5976617336273193, "learning_rate": 5.37263537758328e-07, "loss": 0.3024, "step": 8151 }, { "epoch": 2.7173333333333334, "grad_norm": 2.9026801586151123, "learning_rate": 5.360100677380264e-07, "loss": 0.2693, "step": 8152 }, { "epoch": 2.7176666666666667, "grad_norm": 2.6958651542663574, "learning_rate": 5.347580213701487e-07, "loss": 0.2731, "step": 8153 }, { "epoch": 2.718, "grad_norm": 3.3037586212158203, "learning_rate": 5.335073988430373e-07, "loss": 0.2612, "step": 8154 }, { "epoch": 2.7183333333333333, "grad_norm": 2.609511613845825, "learning_rate": 5.322582003448207e-07, "loss": 0.2647, "step": 8155 }, { "epoch": 2.7186666666666666, "grad_norm": 3.3498127460479736, "learning_rate": 5.310104260634175e-07, "loss": 0.2923, "step": 8156 }, { "epoch": 2.719, "grad_norm": 3.6064248085021973, "learning_rate": 5.297640761865242e-07, "loss": 0.2814, "step": 8157 }, { "epoch": 2.719333333333333, "grad_norm": 2.7585549354553223, "learning_rate": 5.285191509016286e-07, "loss": 0.3201, "step": 8158 }, { "epoch": 2.719666666666667, "grad_norm": 2.8734922409057617, "learning_rate": 5.272756503960053e-07, "loss": 0.3038, "step": 8159 }, { "epoch": 2.7199999999999998, "grad_norm": 3.1108546257019043, "learning_rate": 5.26033574856708e-07, "loss": 0.2691, "step": 8160 }, { "epoch": 2.7203333333333335, "grad_norm": 4.812491416931152, "learning_rate": 5.247929244705819e-07, "loss": 0.3377, "step": 8161 }, { "epoch": 2.720666666666667, "grad_norm": 3.1074414253234863, "learning_rate": 5.235536994242551e-07, "loss": 0.2919, "step": 8162 }, { "epoch": 2.721, "grad_norm": 3.7312471866607666, "learning_rate": 5.223158999041444e-07, "loss": 0.2803, "step": 8163 }, { "epoch": 2.7213333333333334, "grad_norm": 3.1724867820739746, "learning_rate": 5.210795260964474e-07, "loss": 0.2952, "step": 8164 }, { "epoch": 2.7216666666666667, "grad_norm": 2.8068900108337402, "learning_rate": 5.198445781871497e-07, "loss": 0.2628, "step": 8165 }, { "epoch": 2.722, "grad_norm": 2.7933881282806396, "learning_rate": 5.18611056362025e-07, "loss": 0.282, "step": 8166 }, { "epoch": 2.7223333333333333, "grad_norm": 2.5652828216552734, "learning_rate": 5.173789608066293e-07, "loss": 0.2867, "step": 8167 }, { "epoch": 2.7226666666666666, "grad_norm": 2.87735915184021, "learning_rate": 5.161482917063032e-07, "loss": 0.2871, "step": 8168 }, { "epoch": 2.723, "grad_norm": 2.839130163192749, "learning_rate": 5.149190492461753e-07, "loss": 0.2993, "step": 8169 }, { "epoch": 2.7233333333333336, "grad_norm": 2.1825642585754395, "learning_rate": 5.136912336111599e-07, "loss": 0.2809, "step": 8170 }, { "epoch": 2.7236666666666665, "grad_norm": 3.2428596019744873, "learning_rate": 5.124648449859504e-07, "loss": 0.2807, "step": 8171 }, { "epoch": 2.724, "grad_norm": 2.962338447570801, "learning_rate": 5.112398835550348e-07, "loss": 0.2835, "step": 8172 }, { "epoch": 2.7243333333333335, "grad_norm": 2.5663371086120605, "learning_rate": 5.100163495026811e-07, "loss": 0.2913, "step": 8173 }, { "epoch": 2.724666666666667, "grad_norm": 4.058217525482178, "learning_rate": 5.087942430129444e-07, "loss": 0.3164, "step": 8174 }, { "epoch": 2.725, "grad_norm": 2.2977871894836426, "learning_rate": 5.075735642696611e-07, "loss": 0.2551, "step": 8175 }, { "epoch": 2.7253333333333334, "grad_norm": 3.193894624710083, "learning_rate": 5.063543134564585e-07, "loss": 0.3027, "step": 8176 }, { "epoch": 2.7256666666666667, "grad_norm": 2.884296417236328, "learning_rate": 5.051364907567469e-07, "loss": 0.2767, "step": 8177 }, { "epoch": 2.726, "grad_norm": 3.169909715652466, "learning_rate": 5.039200963537194e-07, "loss": 0.2803, "step": 8178 }, { "epoch": 2.7263333333333333, "grad_norm": 3.562605857849121, "learning_rate": 5.027051304303576e-07, "loss": 0.2683, "step": 8179 }, { "epoch": 2.7266666666666666, "grad_norm": 2.885401725769043, "learning_rate": 5.014915931694253e-07, "loss": 0.3206, "step": 8180 }, { "epoch": 2.727, "grad_norm": 2.932124376296997, "learning_rate": 5.002794847534765e-07, "loss": 0.2921, "step": 8181 }, { "epoch": 2.727333333333333, "grad_norm": 3.318258285522461, "learning_rate": 4.990688053648407e-07, "loss": 0.3243, "step": 8182 }, { "epoch": 2.727666666666667, "grad_norm": 3.0043084621429443, "learning_rate": 4.978595551856435e-07, "loss": 0.2627, "step": 8183 }, { "epoch": 2.7279999999999998, "grad_norm": 2.6818530559539795, "learning_rate": 4.966517343977884e-07, "loss": 0.2932, "step": 8184 }, { "epoch": 2.7283333333333335, "grad_norm": 3.1020348072052, "learning_rate": 4.954453431829676e-07, "loss": 0.2913, "step": 8185 }, { "epoch": 2.728666666666667, "grad_norm": 2.678964138031006, "learning_rate": 4.942403817226538e-07, "loss": 0.2894, "step": 8186 }, { "epoch": 2.729, "grad_norm": 2.8396105766296387, "learning_rate": 4.930368501981097e-07, "loss": 0.2923, "step": 8187 }, { "epoch": 2.7293333333333334, "grad_norm": 3.090949058532715, "learning_rate": 4.918347487903796e-07, "loss": 0.305, "step": 8188 }, { "epoch": 2.7296666666666667, "grad_norm": 2.8010752201080322, "learning_rate": 4.90634077680292e-07, "loss": 0.2936, "step": 8189 }, { "epoch": 2.73, "grad_norm": 2.4435834884643555, "learning_rate": 4.894348370484648e-07, "loss": 0.2741, "step": 8190 }, { "epoch": 2.7303333333333333, "grad_norm": 3.0332305431365967, "learning_rate": 4.882370270752956e-07, "loss": 0.2928, "step": 8191 }, { "epoch": 2.7306666666666666, "grad_norm": 3.3391661643981934, "learning_rate": 4.870406479409717e-07, "loss": 0.2891, "step": 8192 }, { "epoch": 2.731, "grad_norm": 2.639899969100952, "learning_rate": 4.858456998254591e-07, "loss": 0.3289, "step": 8193 }, { "epoch": 2.731333333333333, "grad_norm": 2.5315754413604736, "learning_rate": 4.846521829085137e-07, "loss": 0.2995, "step": 8194 }, { "epoch": 2.7316666666666665, "grad_norm": 2.8827576637268066, "learning_rate": 4.834600973696746e-07, "loss": 0.2829, "step": 8195 }, { "epoch": 2.732, "grad_norm": 3.058138370513916, "learning_rate": 4.822694433882635e-07, "loss": 0.2801, "step": 8196 }, { "epoch": 2.732333333333333, "grad_norm": 3.1319587230682373, "learning_rate": 4.810802211433919e-07, "loss": 0.2827, "step": 8197 }, { "epoch": 2.732666666666667, "grad_norm": 2.656076669692993, "learning_rate": 4.798924308139485e-07, "loss": 0.2629, "step": 8198 }, { "epoch": 2.733, "grad_norm": 3.0955915451049805, "learning_rate": 4.787060725786141e-07, "loss": 0.2914, "step": 8199 }, { "epoch": 2.7333333333333334, "grad_norm": 2.704190492630005, "learning_rate": 4.775211466158469e-07, "loss": 0.3098, "step": 8200 }, { "epoch": 2.7336666666666667, "grad_norm": 2.669894218444824, "learning_rate": 4.763376531038966e-07, "loss": 0.2885, "step": 8201 }, { "epoch": 2.734, "grad_norm": 4.303991794586182, "learning_rate": 4.75155592220794e-07, "loss": 0.2879, "step": 8202 }, { "epoch": 2.7343333333333333, "grad_norm": 3.656367301940918, "learning_rate": 4.739749641443514e-07, "loss": 0.3098, "step": 8203 }, { "epoch": 2.7346666666666666, "grad_norm": 3.2324678897857666, "learning_rate": 4.727957690521712e-07, "loss": 0.2629, "step": 8204 }, { "epoch": 2.735, "grad_norm": 3.540238618850708, "learning_rate": 4.7161800712163807e-07, "loss": 0.2679, "step": 8205 }, { "epoch": 2.735333333333333, "grad_norm": 2.424093723297119, "learning_rate": 4.704416785299215e-07, "loss": 0.2733, "step": 8206 }, { "epoch": 2.735666666666667, "grad_norm": 2.6857786178588867, "learning_rate": 4.6926678345397323e-07, "loss": 0.2856, "step": 8207 }, { "epoch": 2.7359999999999998, "grad_norm": 2.275736093521118, "learning_rate": 4.6809332207053083e-07, "loss": 0.2541, "step": 8208 }, { "epoch": 2.7363333333333335, "grad_norm": 2.8482348918914795, "learning_rate": 4.6692129455611634e-07, "loss": 0.2797, "step": 8209 }, { "epoch": 2.736666666666667, "grad_norm": 2.612337350845337, "learning_rate": 4.6575070108703433e-07, "loss": 0.2989, "step": 8210 }, { "epoch": 2.737, "grad_norm": 3.513686418533325, "learning_rate": 4.6458154183937733e-07, "loss": 0.3034, "step": 8211 }, { "epoch": 2.7373333333333334, "grad_norm": 2.7993502616882324, "learning_rate": 4.634138169890201e-07, "loss": 0.2526, "step": 8212 }, { "epoch": 2.7376666666666667, "grad_norm": 2.9213268756866455, "learning_rate": 4.622475267116222e-07, "loss": 0.293, "step": 8213 }, { "epoch": 2.738, "grad_norm": 4.09928560256958, "learning_rate": 4.6108267118262327e-07, "loss": 0.2891, "step": 8214 }, { "epoch": 2.7383333333333333, "grad_norm": 2.7296643257141113, "learning_rate": 4.5991925057725315e-07, "loss": 0.2764, "step": 8215 }, { "epoch": 2.7386666666666666, "grad_norm": 2.8817291259765625, "learning_rate": 4.587572650705252e-07, "loss": 0.303, "step": 8216 }, { "epoch": 2.739, "grad_norm": 3.027303695678711, "learning_rate": 4.575967148372318e-07, "loss": 0.3149, "step": 8217 }, { "epoch": 2.739333333333333, "grad_norm": 2.760770082473755, "learning_rate": 4.5643760005195325e-07, "loss": 0.3135, "step": 8218 }, { "epoch": 2.7396666666666665, "grad_norm": 2.893425703048706, "learning_rate": 4.5527992088905347e-07, "loss": 0.2654, "step": 8219 }, { "epoch": 2.74, "grad_norm": 2.7863118648529053, "learning_rate": 4.5412367752268094e-07, "loss": 0.2507, "step": 8220 }, { "epoch": 2.740333333333333, "grad_norm": 3.479896068572998, "learning_rate": 4.529688701267665e-07, "loss": 0.3013, "step": 8221 }, { "epoch": 2.740666666666667, "grad_norm": 2.6018197536468506, "learning_rate": 4.5181549887502565e-07, "loss": 0.2811, "step": 8222 }, { "epoch": 2.741, "grad_norm": 2.9542720317840576, "learning_rate": 4.506635639409607e-07, "loss": 0.2898, "step": 8223 }, { "epoch": 2.7413333333333334, "grad_norm": 2.4582488536834717, "learning_rate": 4.495130654978519e-07, "loss": 0.2677, "step": 8224 }, { "epoch": 2.7416666666666667, "grad_norm": 3.0032622814178467, "learning_rate": 4.4836400371876975e-07, "loss": 0.2919, "step": 8225 }, { "epoch": 2.742, "grad_norm": 2.7459893226623535, "learning_rate": 4.4721637877656377e-07, "loss": 0.314, "step": 8226 }, { "epoch": 2.7423333333333333, "grad_norm": 2.5096497535705566, "learning_rate": 4.4607019084387026e-07, "loss": 0.2929, "step": 8227 }, { "epoch": 2.7426666666666666, "grad_norm": 2.569204330444336, "learning_rate": 4.449254400931069e-07, "loss": 0.2774, "step": 8228 }, { "epoch": 2.743, "grad_norm": 2.6355929374694824, "learning_rate": 4.4378212669647814e-07, "loss": 0.3172, "step": 8229 }, { "epoch": 2.743333333333333, "grad_norm": 2.9104645252227783, "learning_rate": 4.4264025082597084e-07, "loss": 0.2757, "step": 8230 }, { "epoch": 2.743666666666667, "grad_norm": 3.407271385192871, "learning_rate": 4.414998126533543e-07, "loss": 0.2911, "step": 8231 }, { "epoch": 2.7439999999999998, "grad_norm": 2.4043073654174805, "learning_rate": 4.4036081235018347e-07, "loss": 0.3103, "step": 8232 }, { "epoch": 2.7443333333333335, "grad_norm": 3.119615077972412, "learning_rate": 4.392232500877969e-07, "loss": 0.2832, "step": 8233 }, { "epoch": 2.744666666666667, "grad_norm": 3.1768205165863037, "learning_rate": 4.380871260373165e-07, "loss": 0.3002, "step": 8234 }, { "epoch": 2.745, "grad_norm": 3.053187847137451, "learning_rate": 4.3695244036964567e-07, "loss": 0.3039, "step": 8235 }, { "epoch": 2.7453333333333334, "grad_norm": 2.8954148292541504, "learning_rate": 4.358191932554745e-07, "loss": 0.2987, "step": 8236 }, { "epoch": 2.7456666666666667, "grad_norm": 3.972426652908325, "learning_rate": 4.346873848652755e-07, "loss": 0.319, "step": 8237 }, { "epoch": 2.746, "grad_norm": 2.7532029151916504, "learning_rate": 4.335570153693036e-07, "loss": 0.2993, "step": 8238 }, { "epoch": 2.7463333333333333, "grad_norm": 4.300678730010986, "learning_rate": 4.3242808493759946e-07, "loss": 0.2699, "step": 8239 }, { "epoch": 2.7466666666666666, "grad_norm": 3.726842164993286, "learning_rate": 4.313005937399861e-07, "loss": 0.3211, "step": 8240 }, { "epoch": 2.747, "grad_norm": 2.9419164657592773, "learning_rate": 4.301745419460712e-07, "loss": 0.289, "step": 8241 }, { "epoch": 2.747333333333333, "grad_norm": 3.2858188152313232, "learning_rate": 4.2904992972524263e-07, "loss": 0.2937, "step": 8242 }, { "epoch": 2.7476666666666665, "grad_norm": 3.460175037384033, "learning_rate": 4.279267572466761e-07, "loss": 0.2922, "step": 8243 }, { "epoch": 2.748, "grad_norm": 2.640324115753174, "learning_rate": 4.268050246793276e-07, "loss": 0.2957, "step": 8244 }, { "epoch": 2.748333333333333, "grad_norm": 3.0779740810394287, "learning_rate": 4.256847321919377e-07, "loss": 0.2789, "step": 8245 }, { "epoch": 2.748666666666667, "grad_norm": 2.6613733768463135, "learning_rate": 4.2456587995302946e-07, "loss": 0.2848, "step": 8246 }, { "epoch": 2.749, "grad_norm": 2.501960515975952, "learning_rate": 4.234484681309103e-07, "loss": 0.2577, "step": 8247 }, { "epoch": 2.7493333333333334, "grad_norm": 3.4142940044403076, "learning_rate": 4.223324968936726e-07, "loss": 0.2798, "step": 8248 }, { "epoch": 2.7496666666666667, "grad_norm": 2.6245505809783936, "learning_rate": 4.2121796640918647e-07, "loss": 0.2872, "step": 8249 }, { "epoch": 2.75, "grad_norm": 3.144728660583496, "learning_rate": 4.2010487684511105e-07, "loss": 0.3126, "step": 8250 }, { "epoch": 2.7503333333333333, "grad_norm": 2.992037296295166, "learning_rate": 4.18993228368888e-07, "loss": 0.2663, "step": 8251 }, { "epoch": 2.7506666666666666, "grad_norm": 2.7898473739624023, "learning_rate": 4.178830211477369e-07, "loss": 0.2947, "step": 8252 }, { "epoch": 2.751, "grad_norm": 3.1812782287597656, "learning_rate": 4.167742553486676e-07, "loss": 0.2757, "step": 8253 }, { "epoch": 2.751333333333333, "grad_norm": 2.4108684062957764, "learning_rate": 4.1566693113846977e-07, "loss": 0.3115, "step": 8254 }, { "epoch": 2.751666666666667, "grad_norm": 2.8463587760925293, "learning_rate": 4.1456104868371485e-07, "loss": 0.2846, "step": 8255 }, { "epoch": 2.752, "grad_norm": 2.9270060062408447, "learning_rate": 4.134566081507585e-07, "loss": 0.2563, "step": 8256 }, { "epoch": 2.7523333333333335, "grad_norm": 4.852255344390869, "learning_rate": 4.123536097057423e-07, "loss": 0.2664, "step": 8257 }, { "epoch": 2.752666666666667, "grad_norm": 2.681750774383545, "learning_rate": 4.11252053514587e-07, "loss": 0.2878, "step": 8258 }, { "epoch": 2.753, "grad_norm": 3.9287922382354736, "learning_rate": 4.101519397429976e-07, "loss": 0.3083, "step": 8259 }, { "epoch": 2.7533333333333334, "grad_norm": 2.602975606918335, "learning_rate": 4.0905326855646186e-07, "loss": 0.2892, "step": 8260 }, { "epoch": 2.7536666666666667, "grad_norm": 3.2666029930114746, "learning_rate": 4.0795604012025315e-07, "loss": 0.2878, "step": 8261 }, { "epoch": 2.754, "grad_norm": 3.2088170051574707, "learning_rate": 4.068602545994249e-07, "loss": 0.302, "step": 8262 }, { "epoch": 2.7543333333333333, "grad_norm": 2.932034969329834, "learning_rate": 4.057659121588131e-07, "loss": 0.3004, "step": 8263 }, { "epoch": 2.7546666666666666, "grad_norm": 2.349742889404297, "learning_rate": 4.046730129630405e-07, "loss": 0.2545, "step": 8264 }, { "epoch": 2.755, "grad_norm": 3.1407721042633057, "learning_rate": 4.035815571765089e-07, "loss": 0.265, "step": 8265 }, { "epoch": 2.755333333333333, "grad_norm": 2.444340944290161, "learning_rate": 4.024915449634015e-07, "loss": 0.2738, "step": 8266 }, { "epoch": 2.7556666666666665, "grad_norm": 2.7407593727111816, "learning_rate": 4.014029764876892e-07, "loss": 0.31, "step": 8267 }, { "epoch": 2.7560000000000002, "grad_norm": 2.7417469024658203, "learning_rate": 4.003158519131245e-07, "loss": 0.2719, "step": 8268 }, { "epoch": 2.756333333333333, "grad_norm": 2.633418083190918, "learning_rate": 3.9923017140324205e-07, "loss": 0.3313, "step": 8269 }, { "epoch": 2.756666666666667, "grad_norm": 2.318181037902832, "learning_rate": 3.981459351213568e-07, "loss": 0.3141, "step": 8270 }, { "epoch": 2.757, "grad_norm": 2.9161200523376465, "learning_rate": 3.9706314323056936e-07, "loss": 0.2803, "step": 8271 }, { "epoch": 2.7573333333333334, "grad_norm": 2.9562814235687256, "learning_rate": 3.9598179589376394e-07, "loss": 0.2978, "step": 8272 }, { "epoch": 2.7576666666666667, "grad_norm": 2.6770455837249756, "learning_rate": 3.949018932736026e-07, "loss": 0.3051, "step": 8273 }, { "epoch": 2.758, "grad_norm": 2.551750898361206, "learning_rate": 3.9382343553253764e-07, "loss": 0.2789, "step": 8274 }, { "epoch": 2.7583333333333333, "grad_norm": 2.6886515617370605, "learning_rate": 3.9274642283279486e-07, "loss": 0.3319, "step": 8275 }, { "epoch": 2.7586666666666666, "grad_norm": 2.6076862812042236, "learning_rate": 3.9167085533639235e-07, "loss": 0.2812, "step": 8276 }, { "epoch": 2.759, "grad_norm": 2.740692377090454, "learning_rate": 3.905967332051219e-07, "loss": 0.2779, "step": 8277 }, { "epoch": 2.759333333333333, "grad_norm": 2.9046261310577393, "learning_rate": 3.8952405660056426e-07, "loss": 0.2974, "step": 8278 }, { "epoch": 2.759666666666667, "grad_norm": 3.0075533390045166, "learning_rate": 3.8845282568408026e-07, "loss": 0.2884, "step": 8279 }, { "epoch": 2.76, "grad_norm": 2.4122958183288574, "learning_rate": 3.8738304061681107e-07, "loss": 0.2862, "step": 8280 }, { "epoch": 2.7603333333333335, "grad_norm": 2.7210488319396973, "learning_rate": 3.8631470155968573e-07, "loss": 0.2796, "step": 8281 }, { "epoch": 2.760666666666667, "grad_norm": 2.898036479949951, "learning_rate": 3.852478086734124e-07, "loss": 0.2681, "step": 8282 }, { "epoch": 2.761, "grad_norm": 2.3101954460144043, "learning_rate": 3.8418236211848147e-07, "loss": 0.3077, "step": 8283 }, { "epoch": 2.7613333333333334, "grad_norm": 2.18481183052063, "learning_rate": 3.8311836205516375e-07, "loss": 0.3171, "step": 8284 }, { "epoch": 2.7616666666666667, "grad_norm": 2.6932859420776367, "learning_rate": 3.820558086435178e-07, "loss": 0.2662, "step": 8285 }, { "epoch": 2.762, "grad_norm": 4.331463813781738, "learning_rate": 3.809947020433824e-07, "loss": 0.2716, "step": 8286 }, { "epoch": 2.7623333333333333, "grad_norm": 3.12318754196167, "learning_rate": 3.799350424143755e-07, "loss": 0.2631, "step": 8287 }, { "epoch": 2.7626666666666666, "grad_norm": 2.332709312438965, "learning_rate": 3.788768299159018e-07, "loss": 0.2901, "step": 8288 }, { "epoch": 2.763, "grad_norm": 2.485495090484619, "learning_rate": 3.7782006470714614e-07, "loss": 0.2673, "step": 8289 }, { "epoch": 2.763333333333333, "grad_norm": 2.9975481033325195, "learning_rate": 3.7676474694707697e-07, "loss": 0.3096, "step": 8290 }, { "epoch": 2.7636666666666665, "grad_norm": 2.5842647552490234, "learning_rate": 3.7571087679444175e-07, "loss": 0.3238, "step": 8291 }, { "epoch": 2.7640000000000002, "grad_norm": 2.6800312995910645, "learning_rate": 3.746584544077736e-07, "loss": 0.287, "step": 8292 }, { "epoch": 2.764333333333333, "grad_norm": 3.7209300994873047, "learning_rate": 3.7360747994538817e-07, "loss": 0.3002, "step": 8293 }, { "epoch": 2.764666666666667, "grad_norm": 2.969743013381958, "learning_rate": 3.7255795356537785e-07, "loss": 0.2962, "step": 8294 }, { "epoch": 2.765, "grad_norm": 2.6447927951812744, "learning_rate": 3.715098754256241e-07, "loss": 0.2998, "step": 8295 }, { "epoch": 2.7653333333333334, "grad_norm": 2.3308377265930176, "learning_rate": 3.7046324568378753e-07, "loss": 0.2766, "step": 8296 }, { "epoch": 2.7656666666666667, "grad_norm": 2.1100735664367676, "learning_rate": 3.694180644973111e-07, "loss": 0.2415, "step": 8297 }, { "epoch": 2.766, "grad_norm": 2.3802237510681152, "learning_rate": 3.68374332023419e-07, "loss": 0.3094, "step": 8298 }, { "epoch": 2.7663333333333333, "grad_norm": 2.500188112258911, "learning_rate": 3.6733204841911673e-07, "loss": 0.2828, "step": 8299 }, { "epoch": 2.7666666666666666, "grad_norm": 2.9888691902160645, "learning_rate": 3.662912138411967e-07, "loss": 0.3038, "step": 8300 }, { "epoch": 2.767, "grad_norm": 2.7287168502807617, "learning_rate": 3.65251828446227e-07, "loss": 0.2819, "step": 8301 }, { "epoch": 2.767333333333333, "grad_norm": 2.282538890838623, "learning_rate": 3.642138923905636e-07, "loss": 0.2804, "step": 8302 }, { "epoch": 2.767666666666667, "grad_norm": 2.8950889110565186, "learning_rate": 3.6317740583033725e-07, "loss": 0.2734, "step": 8303 }, { "epoch": 2.768, "grad_norm": 2.331665515899658, "learning_rate": 3.6214236892146983e-07, "loss": 0.3017, "step": 8304 }, { "epoch": 2.7683333333333335, "grad_norm": 2.856309175491333, "learning_rate": 3.611087818196557e-07, "loss": 0.2947, "step": 8305 }, { "epoch": 2.768666666666667, "grad_norm": 3.5441088676452637, "learning_rate": 3.600766446803772e-07, "loss": 0.3122, "step": 8306 }, { "epoch": 2.769, "grad_norm": 2.2566158771514893, "learning_rate": 3.590459576589e-07, "loss": 0.2864, "step": 8307 }, { "epoch": 2.7693333333333334, "grad_norm": 2.7907137870788574, "learning_rate": 3.580167209102636e-07, "loss": 0.3145, "step": 8308 }, { "epoch": 2.7696666666666667, "grad_norm": 2.545116424560547, "learning_rate": 3.569889345892974e-07, "loss": 0.2789, "step": 8309 }, { "epoch": 2.77, "grad_norm": 2.6652028560638428, "learning_rate": 3.55962598850611e-07, "loss": 0.2911, "step": 8310 }, { "epoch": 2.7703333333333333, "grad_norm": 3.396650552749634, "learning_rate": 3.54937713848591e-07, "loss": 0.3049, "step": 8311 }, { "epoch": 2.7706666666666666, "grad_norm": 2.510657787322998, "learning_rate": 3.539142797374118e-07, "loss": 0.2775, "step": 8312 }, { "epoch": 2.771, "grad_norm": 2.973170280456543, "learning_rate": 3.5289229667102463e-07, "loss": 0.2867, "step": 8313 }, { "epoch": 2.771333333333333, "grad_norm": 2.588359832763672, "learning_rate": 3.5187176480316774e-07, "loss": 0.2785, "step": 8314 }, { "epoch": 2.7716666666666665, "grad_norm": 2.760294198989868, "learning_rate": 3.5085268428735496e-07, "loss": 0.2841, "step": 8315 }, { "epoch": 2.7720000000000002, "grad_norm": 4.128082275390625, "learning_rate": 3.498350552768859e-07, "loss": 0.2965, "step": 8316 }, { "epoch": 2.772333333333333, "grad_norm": 2.902878522872925, "learning_rate": 3.4881887792484025e-07, "loss": 0.29, "step": 8317 }, { "epoch": 2.772666666666667, "grad_norm": 3.160085439682007, "learning_rate": 3.478041523840836e-07, "loss": 0.305, "step": 8318 }, { "epoch": 2.773, "grad_norm": 2.994489908218384, "learning_rate": 3.467908788072538e-07, "loss": 0.3021, "step": 8319 }, { "epoch": 2.7733333333333334, "grad_norm": 2.608375072479248, "learning_rate": 3.457790573467812e-07, "loss": 0.2715, "step": 8320 }, { "epoch": 2.7736666666666667, "grad_norm": 3.680436372756958, "learning_rate": 3.447686881548684e-07, "loss": 0.2808, "step": 8321 }, { "epoch": 2.774, "grad_norm": 3.0870473384857178, "learning_rate": 3.4375977138350615e-07, "loss": 0.2544, "step": 8322 }, { "epoch": 2.7743333333333333, "grad_norm": 3.942054271697998, "learning_rate": 3.4275230718446183e-07, "loss": 0.2968, "step": 8323 }, { "epoch": 2.7746666666666666, "grad_norm": 2.8740293979644775, "learning_rate": 3.417462957092876e-07, "loss": 0.3116, "step": 8324 }, { "epoch": 2.775, "grad_norm": 2.8450169563293457, "learning_rate": 3.4074173710931804e-07, "loss": 0.2699, "step": 8325 }, { "epoch": 2.775333333333333, "grad_norm": 3.3770201206207275, "learning_rate": 3.3973863153566433e-07, "loss": 0.2706, "step": 8326 }, { "epoch": 2.7756666666666665, "grad_norm": 2.660689115524292, "learning_rate": 3.3873697913922366e-07, "loss": 0.316, "step": 8327 }, { "epoch": 2.776, "grad_norm": 2.431788206100464, "learning_rate": 3.377367800706732e-07, "loss": 0.2858, "step": 8328 }, { "epoch": 2.7763333333333335, "grad_norm": 2.437127113342285, "learning_rate": 3.367380344804694e-07, "loss": 0.2734, "step": 8329 }, { "epoch": 2.7766666666666664, "grad_norm": 2.8788132667541504, "learning_rate": 3.357407425188541e-07, "loss": 0.2697, "step": 8330 }, { "epoch": 2.777, "grad_norm": 3.278536081314087, "learning_rate": 3.347449043358475e-07, "loss": 0.2731, "step": 8331 }, { "epoch": 2.7773333333333334, "grad_norm": 2.6594839096069336, "learning_rate": 3.3375052008125186e-07, "loss": 0.2865, "step": 8332 }, { "epoch": 2.7776666666666667, "grad_norm": 3.3717551231384277, "learning_rate": 3.3275758990464867e-07, "loss": 0.292, "step": 8333 }, { "epoch": 2.778, "grad_norm": 3.3321738243103027, "learning_rate": 3.3176611395540625e-07, "loss": 0.2833, "step": 8334 }, { "epoch": 2.7783333333333333, "grad_norm": 2.4653139114379883, "learning_rate": 3.307760923826697e-07, "loss": 0.2663, "step": 8335 }, { "epoch": 2.7786666666666666, "grad_norm": 2.817575454711914, "learning_rate": 3.297875253353644e-07, "loss": 0.3231, "step": 8336 }, { "epoch": 2.779, "grad_norm": 3.1358635425567627, "learning_rate": 3.288004129622013e-07, "loss": 0.3248, "step": 8337 }, { "epoch": 2.779333333333333, "grad_norm": 3.234344005584717, "learning_rate": 3.278147554116684e-07, "loss": 0.3167, "step": 8338 }, { "epoch": 2.7796666666666665, "grad_norm": 2.5493152141571045, "learning_rate": 3.2683055283203815e-07, "loss": 0.3077, "step": 8339 }, { "epoch": 2.7800000000000002, "grad_norm": 2.9313910007476807, "learning_rate": 3.2584780537136206e-07, "loss": 0.311, "step": 8340 }, { "epoch": 2.780333333333333, "grad_norm": 2.8644235134124756, "learning_rate": 3.2486651317747085e-07, "loss": 0.2973, "step": 8341 }, { "epoch": 2.780666666666667, "grad_norm": 2.598295211791992, "learning_rate": 3.23886676397982e-07, "loss": 0.2879, "step": 8342 }, { "epoch": 2.781, "grad_norm": 3.976288080215454, "learning_rate": 3.2290829518028867e-07, "loss": 0.2884, "step": 8343 }, { "epoch": 2.7813333333333334, "grad_norm": 2.7721927165985107, "learning_rate": 3.219313696715676e-07, "loss": 0.2921, "step": 8344 }, { "epoch": 2.7816666666666667, "grad_norm": 2.715937376022339, "learning_rate": 3.2095590001877564e-07, "loss": 0.2405, "step": 8345 }, { "epoch": 2.782, "grad_norm": 3.539644479751587, "learning_rate": 3.1998188636865325e-07, "loss": 0.2848, "step": 8346 }, { "epoch": 2.7823333333333333, "grad_norm": 2.649953603744507, "learning_rate": 3.1900932886771764e-07, "loss": 0.2805, "step": 8347 }, { "epoch": 2.7826666666666666, "grad_norm": 2.951448440551758, "learning_rate": 3.180382276622684e-07, "loss": 0.2813, "step": 8348 }, { "epoch": 2.783, "grad_norm": 3.040776252746582, "learning_rate": 3.1706858289838994e-07, "loss": 0.3, "step": 8349 }, { "epoch": 2.783333333333333, "grad_norm": 2.4763333797454834, "learning_rate": 3.161003947219421e-07, "loss": 0.2895, "step": 8350 }, { "epoch": 2.7836666666666665, "grad_norm": 2.5979883670806885, "learning_rate": 3.151336632785673e-07, "loss": 0.2816, "step": 8351 }, { "epoch": 2.784, "grad_norm": 3.443901300430298, "learning_rate": 3.1416838871368925e-07, "loss": 0.312, "step": 8352 }, { "epoch": 2.7843333333333335, "grad_norm": 2.418480157852173, "learning_rate": 3.13204571172514e-07, "loss": 0.278, "step": 8353 }, { "epoch": 2.7846666666666664, "grad_norm": 2.5125505924224854, "learning_rate": 3.122422108000267e-07, "loss": 0.2655, "step": 8354 }, { "epoch": 2.785, "grad_norm": 3.0965936183929443, "learning_rate": 3.112813077409926e-07, "loss": 0.3324, "step": 8355 }, { "epoch": 2.7853333333333334, "grad_norm": 3.1326746940612793, "learning_rate": 3.103218621399595e-07, "loss": 0.2816, "step": 8356 }, { "epoch": 2.7856666666666667, "grad_norm": 2.745272397994995, "learning_rate": 3.0936387414125633e-07, "loss": 0.3076, "step": 8357 }, { "epoch": 2.786, "grad_norm": 3.288262128829956, "learning_rate": 3.0840734388898897e-07, "loss": 0.3326, "step": 8358 }, { "epoch": 2.7863333333333333, "grad_norm": 2.8471245765686035, "learning_rate": 3.0745227152705005e-07, "loss": 0.2885, "step": 8359 }, { "epoch": 2.7866666666666666, "grad_norm": 2.851456642150879, "learning_rate": 3.06498657199108e-07, "loss": 0.2975, "step": 8360 }, { "epoch": 2.787, "grad_norm": 2.5998659133911133, "learning_rate": 3.0554650104861137e-07, "loss": 0.2643, "step": 8361 }, { "epoch": 2.787333333333333, "grad_norm": 3.817035436630249, "learning_rate": 3.045958032187946e-07, "loss": 0.3005, "step": 8362 }, { "epoch": 2.7876666666666665, "grad_norm": 2.9516615867614746, "learning_rate": 3.0364656385266754e-07, "loss": 0.3055, "step": 8363 }, { "epoch": 2.7880000000000003, "grad_norm": 2.5929133892059326, "learning_rate": 3.026987830930239e-07, "loss": 0.2484, "step": 8364 }, { "epoch": 2.788333333333333, "grad_norm": 3.3542673587799072, "learning_rate": 3.0175246108243626e-07, "loss": 0.2664, "step": 8365 }, { "epoch": 2.788666666666667, "grad_norm": 2.6222829818725586, "learning_rate": 3.0080759796325743e-07, "loss": 0.3191, "step": 8366 }, { "epoch": 2.789, "grad_norm": 2.5384199619293213, "learning_rate": 2.9986419387762365e-07, "loss": 0.2904, "step": 8367 }, { "epoch": 2.7893333333333334, "grad_norm": 3.448272466659546, "learning_rate": 2.9892224896744925e-07, "loss": 0.3087, "step": 8368 }, { "epoch": 2.7896666666666667, "grad_norm": 2.823786735534668, "learning_rate": 2.9798176337442754e-07, "loss": 0.3211, "step": 8369 }, { "epoch": 2.79, "grad_norm": 3.022573471069336, "learning_rate": 2.970427372400353e-07, "loss": 0.2635, "step": 8370 }, { "epoch": 2.7903333333333333, "grad_norm": 2.6387434005737305, "learning_rate": 2.9610517070552955e-07, "loss": 0.2914, "step": 8371 }, { "epoch": 2.7906666666666666, "grad_norm": 2.8093576431274414, "learning_rate": 2.951690639119453e-07, "loss": 0.3007, "step": 8372 }, { "epoch": 2.791, "grad_norm": 2.8747739791870117, "learning_rate": 2.94234417000101e-07, "loss": 0.2976, "step": 8373 }, { "epoch": 2.791333333333333, "grad_norm": 2.706172466278076, "learning_rate": 2.933012301105942e-07, "loss": 0.261, "step": 8374 }, { "epoch": 2.7916666666666665, "grad_norm": 3.0327141284942627, "learning_rate": 2.9236950338380033e-07, "loss": 0.2751, "step": 8375 }, { "epoch": 2.792, "grad_norm": 2.5305159091949463, "learning_rate": 2.9143923695987955e-07, "loss": 0.2836, "step": 8376 }, { "epoch": 2.7923333333333336, "grad_norm": 2.8407046794891357, "learning_rate": 2.9051043097876986e-07, "loss": 0.3002, "step": 8377 }, { "epoch": 2.7926666666666664, "grad_norm": 2.3326306343078613, "learning_rate": 2.895830855801918e-07, "loss": 0.3004, "step": 8378 }, { "epoch": 2.793, "grad_norm": 2.712982416152954, "learning_rate": 2.8865720090364037e-07, "loss": 0.2605, "step": 8379 }, { "epoch": 2.7933333333333334, "grad_norm": 2.3632571697235107, "learning_rate": 2.877327770883964e-07, "loss": 0.2748, "step": 8380 }, { "epoch": 2.7936666666666667, "grad_norm": 2.4094154834747314, "learning_rate": 2.8680981427352316e-07, "loss": 0.2993, "step": 8381 }, { "epoch": 2.794, "grad_norm": 3.1774280071258545, "learning_rate": 2.858883125978551e-07, "loss": 0.2871, "step": 8382 }, { "epoch": 2.7943333333333333, "grad_norm": 2.8914592266082764, "learning_rate": 2.849682722000147e-07, "loss": 0.2714, "step": 8383 }, { "epoch": 2.7946666666666666, "grad_norm": 2.341986894607544, "learning_rate": 2.8404969321840115e-07, "loss": 0.2797, "step": 8384 }, { "epoch": 2.795, "grad_norm": 2.994255304336548, "learning_rate": 2.831325757911985e-07, "loss": 0.2919, "step": 8385 }, { "epoch": 2.7953333333333332, "grad_norm": 4.448974609375, "learning_rate": 2.8221692005636183e-07, "loss": 0.2951, "step": 8386 }, { "epoch": 2.7956666666666665, "grad_norm": 2.8788137435913086, "learning_rate": 2.8130272615163547e-07, "loss": 0.2657, "step": 8387 }, { "epoch": 2.7960000000000003, "grad_norm": 3.8139407634735107, "learning_rate": 2.8038999421453827e-07, "loss": 0.2838, "step": 8388 }, { "epoch": 2.796333333333333, "grad_norm": 3.071338653564453, "learning_rate": 2.7947872438237157e-07, "loss": 0.2962, "step": 8389 }, { "epoch": 2.796666666666667, "grad_norm": 3.1540286540985107, "learning_rate": 2.7856891679221565e-07, "loss": 0.3035, "step": 8390 }, { "epoch": 2.797, "grad_norm": 2.699110269546509, "learning_rate": 2.7766057158093217e-07, "loss": 0.3148, "step": 8391 }, { "epoch": 2.7973333333333334, "grad_norm": 2.532961130142212, "learning_rate": 2.7675368888516184e-07, "loss": 0.2941, "step": 8392 }, { "epoch": 2.7976666666666667, "grad_norm": 3.1456587314605713, "learning_rate": 2.758482688413255e-07, "loss": 0.2665, "step": 8393 }, { "epoch": 2.798, "grad_norm": 3.1405959129333496, "learning_rate": 2.749443115856232e-07, "loss": 0.2683, "step": 8394 }, { "epoch": 2.7983333333333333, "grad_norm": 2.95401930809021, "learning_rate": 2.740418172540371e-07, "loss": 0.2926, "step": 8395 }, { "epoch": 2.7986666666666666, "grad_norm": 2.611203908920288, "learning_rate": 2.731407859823276e-07, "loss": 0.307, "step": 8396 }, { "epoch": 2.799, "grad_norm": 2.1524250507354736, "learning_rate": 2.7224121790603517e-07, "loss": 0.2698, "step": 8397 }, { "epoch": 2.7993333333333332, "grad_norm": 4.488427639007568, "learning_rate": 2.7134311316047935e-07, "loss": 0.3147, "step": 8398 }, { "epoch": 2.7996666666666665, "grad_norm": 2.905827045440674, "learning_rate": 2.70446471880762e-07, "loss": 0.2759, "step": 8399 }, { "epoch": 2.8, "grad_norm": 2.860366106033325, "learning_rate": 2.6955129420176193e-07, "loss": 0.3001, "step": 8400 }, { "epoch": 2.8003333333333336, "grad_norm": 3.0491132736206055, "learning_rate": 2.6865758025814037e-07, "loss": 0.3206, "step": 8401 }, { "epoch": 2.8006666666666664, "grad_norm": 3.2939507961273193, "learning_rate": 2.6776533018433747e-07, "loss": 0.2844, "step": 8402 }, { "epoch": 2.801, "grad_norm": 2.425539493560791, "learning_rate": 2.6687454411457256e-07, "loss": 0.2808, "step": 8403 }, { "epoch": 2.8013333333333335, "grad_norm": 5.012125015258789, "learning_rate": 2.6598522218284407e-07, "loss": 0.2927, "step": 8404 }, { "epoch": 2.8016666666666667, "grad_norm": 2.699690103530884, "learning_rate": 2.6509736452293377e-07, "loss": 0.296, "step": 8405 }, { "epoch": 2.802, "grad_norm": 2.456812858581543, "learning_rate": 2.6421097126839714e-07, "loss": 0.2745, "step": 8406 }, { "epoch": 2.8023333333333333, "grad_norm": 3.752807140350342, "learning_rate": 2.6332604255257635e-07, "loss": 0.2782, "step": 8407 }, { "epoch": 2.8026666666666666, "grad_norm": 2.7810094356536865, "learning_rate": 2.624425785085871e-07, "loss": 0.3028, "step": 8408 }, { "epoch": 2.803, "grad_norm": 2.681950807571411, "learning_rate": 2.6156057926932985e-07, "loss": 0.2921, "step": 8409 }, { "epoch": 2.8033333333333332, "grad_norm": 2.2608962059020996, "learning_rate": 2.606800449674796e-07, "loss": 0.2947, "step": 8410 }, { "epoch": 2.8036666666666665, "grad_norm": 2.8029303550720215, "learning_rate": 2.5980097573549467e-07, "loss": 0.3095, "step": 8411 }, { "epoch": 2.8040000000000003, "grad_norm": 2.9607086181640625, "learning_rate": 2.589233717056128e-07, "loss": 0.313, "step": 8412 }, { "epoch": 2.804333333333333, "grad_norm": 2.906371593475342, "learning_rate": 2.5804723300985155e-07, "loss": 0.2987, "step": 8413 }, { "epoch": 2.804666666666667, "grad_norm": 2.915825605392456, "learning_rate": 2.5717255978000346e-07, "loss": 0.2449, "step": 8414 }, { "epoch": 2.805, "grad_norm": 2.648829221725464, "learning_rate": 2.5629935214764866e-07, "loss": 0.3116, "step": 8415 }, { "epoch": 2.8053333333333335, "grad_norm": 3.0232741832733154, "learning_rate": 2.554276102441378e-07, "loss": 0.2972, "step": 8416 }, { "epoch": 2.8056666666666668, "grad_norm": 2.4777352809906006, "learning_rate": 2.5455733420060915e-07, "loss": 0.3173, "step": 8417 }, { "epoch": 2.806, "grad_norm": 2.656214714050293, "learning_rate": 2.536885241479736e-07, "loss": 0.2953, "step": 8418 }, { "epoch": 2.8063333333333333, "grad_norm": 2.530681610107422, "learning_rate": 2.528211802169278e-07, "loss": 0.2837, "step": 8419 }, { "epoch": 2.8066666666666666, "grad_norm": 2.0758183002471924, "learning_rate": 2.51955302537944e-07, "loss": 0.2553, "step": 8420 }, { "epoch": 2.807, "grad_norm": 3.539945125579834, "learning_rate": 2.510908912412746e-07, "loss": 0.3032, "step": 8421 }, { "epoch": 2.8073333333333332, "grad_norm": 3.508857250213623, "learning_rate": 2.5022794645695013e-07, "loss": 0.295, "step": 8422 }, { "epoch": 2.8076666666666665, "grad_norm": 2.223451614379883, "learning_rate": 2.493664683147856e-07, "loss": 0.2637, "step": 8423 }, { "epoch": 2.808, "grad_norm": 2.953603982925415, "learning_rate": 2.4850645694436736e-07, "loss": 0.318, "step": 8424 }, { "epoch": 2.8083333333333336, "grad_norm": 4.312937259674072, "learning_rate": 2.4764791247506967e-07, "loss": 0.2722, "step": 8425 }, { "epoch": 2.8086666666666664, "grad_norm": 2.402523994445801, "learning_rate": 2.467908350360382e-07, "loss": 0.277, "step": 8426 }, { "epoch": 2.809, "grad_norm": 3.911569356918335, "learning_rate": 2.4593522475620415e-07, "loss": 0.2786, "step": 8427 }, { "epoch": 2.8093333333333335, "grad_norm": 2.9819140434265137, "learning_rate": 2.4508108176427457e-07, "loss": 0.3134, "step": 8428 }, { "epoch": 2.8096666666666668, "grad_norm": 3.08777117729187, "learning_rate": 2.4422840618873567e-07, "loss": 0.2979, "step": 8429 }, { "epoch": 2.81, "grad_norm": 3.422130823135376, "learning_rate": 2.433771981578581e-07, "loss": 0.2619, "step": 8430 }, { "epoch": 2.8103333333333333, "grad_norm": 3.185152292251587, "learning_rate": 2.425274577996828e-07, "loss": 0.282, "step": 8431 }, { "epoch": 2.8106666666666666, "grad_norm": 3.0830440521240234, "learning_rate": 2.416791852420375e-07, "loss": 0.305, "step": 8432 }, { "epoch": 2.811, "grad_norm": 2.2484328746795654, "learning_rate": 2.4083238061252565e-07, "loss": 0.2607, "step": 8433 }, { "epoch": 2.8113333333333332, "grad_norm": 2.3600494861602783, "learning_rate": 2.399870440385321e-07, "loss": 0.2738, "step": 8434 }, { "epoch": 2.8116666666666665, "grad_norm": 3.782472848892212, "learning_rate": 2.3914317564721844e-07, "loss": 0.3165, "step": 8435 }, { "epoch": 2.8120000000000003, "grad_norm": 3.3818156719207764, "learning_rate": 2.3830077556552424e-07, "loss": 0.2796, "step": 8436 }, { "epoch": 2.812333333333333, "grad_norm": 3.0425972938537598, "learning_rate": 2.3745984392017474e-07, "loss": 0.2791, "step": 8437 }, { "epoch": 2.812666666666667, "grad_norm": 2.509596586227417, "learning_rate": 2.3662038083766546e-07, "loss": 0.2795, "step": 8438 }, { "epoch": 2.8129999999999997, "grad_norm": 2.6219322681427, "learning_rate": 2.3578238644427763e-07, "loss": 0.3135, "step": 8439 }, { "epoch": 2.8133333333333335, "grad_norm": 2.8753087520599365, "learning_rate": 2.349458608660704e-07, "loss": 0.2853, "step": 8440 }, { "epoch": 2.8136666666666668, "grad_norm": 2.8073949813842773, "learning_rate": 2.3411080422887977e-07, "loss": 0.2813, "step": 8441 }, { "epoch": 2.814, "grad_norm": 3.280215263366699, "learning_rate": 2.332772166583208e-07, "loss": 0.2909, "step": 8442 }, { "epoch": 2.8143333333333334, "grad_norm": 2.90751576423645, "learning_rate": 2.3244509827978988e-07, "loss": 0.2888, "step": 8443 }, { "epoch": 2.8146666666666667, "grad_norm": 2.7478692531585693, "learning_rate": 2.3161444921846355e-07, "loss": 0.2755, "step": 8444 }, { "epoch": 2.815, "grad_norm": 2.4054925441741943, "learning_rate": 2.307852695992907e-07, "loss": 0.2768, "step": 8445 }, { "epoch": 2.8153333333333332, "grad_norm": 2.7683300971984863, "learning_rate": 2.2995755954700606e-07, "loss": 0.2894, "step": 8446 }, { "epoch": 2.8156666666666665, "grad_norm": 3.000392198562622, "learning_rate": 2.2913131918611885e-07, "loss": 0.2987, "step": 8447 }, { "epoch": 2.816, "grad_norm": 2.1608238220214844, "learning_rate": 2.2830654864092083e-07, "loss": 0.2489, "step": 8448 }, { "epoch": 2.8163333333333336, "grad_norm": 2.704861640930176, "learning_rate": 2.274832480354805e-07, "loss": 0.3068, "step": 8449 }, { "epoch": 2.8166666666666664, "grad_norm": 2.8382112979888916, "learning_rate": 2.2666141749364434e-07, "loss": 0.2876, "step": 8450 }, { "epoch": 2.817, "grad_norm": 2.3914103507995605, "learning_rate": 2.2584105713904126e-07, "loss": 0.3297, "step": 8451 }, { "epoch": 2.8173333333333335, "grad_norm": 3.6517393589019775, "learning_rate": 2.2502216709507475e-07, "loss": 0.3024, "step": 8452 }, { "epoch": 2.8176666666666668, "grad_norm": 2.358386278152466, "learning_rate": 2.242047474849296e-07, "loss": 0.2805, "step": 8453 }, { "epoch": 2.818, "grad_norm": 2.3645098209381104, "learning_rate": 2.233887984315697e-07, "loss": 0.2519, "step": 8454 }, { "epoch": 2.8183333333333334, "grad_norm": 3.2705883979797363, "learning_rate": 2.2257432005773682e-07, "loss": 0.28, "step": 8455 }, { "epoch": 2.8186666666666667, "grad_norm": 2.872833490371704, "learning_rate": 2.2176131248594967e-07, "loss": 0.2585, "step": 8456 }, { "epoch": 2.819, "grad_norm": 2.457120180130005, "learning_rate": 2.209497758385104e-07, "loss": 0.3296, "step": 8457 }, { "epoch": 2.8193333333333332, "grad_norm": 3.1402790546417236, "learning_rate": 2.201397102374947e-07, "loss": 0.2772, "step": 8458 }, { "epoch": 2.8196666666666665, "grad_norm": 2.6197307109832764, "learning_rate": 2.1933111580476062e-07, "loss": 0.2888, "step": 8459 }, { "epoch": 2.82, "grad_norm": 2.627915382385254, "learning_rate": 2.1852399266194312e-07, "loss": 0.3093, "step": 8460 }, { "epoch": 2.820333333333333, "grad_norm": 2.363823413848877, "learning_rate": 2.1771834093045728e-07, "loss": 0.2774, "step": 8461 }, { "epoch": 2.820666666666667, "grad_norm": 2.478853702545166, "learning_rate": 2.1691416073149617e-07, "loss": 0.2858, "step": 8462 }, { "epoch": 2.8209999999999997, "grad_norm": 2.5034079551696777, "learning_rate": 2.161114521860308e-07, "loss": 0.302, "step": 8463 }, { "epoch": 2.8213333333333335, "grad_norm": 2.9135031700134277, "learning_rate": 2.153102154148101e-07, "loss": 0.2957, "step": 8464 }, { "epoch": 2.8216666666666668, "grad_norm": 2.8313584327697754, "learning_rate": 2.145104505383655e-07, "loss": 0.2834, "step": 8465 }, { "epoch": 2.822, "grad_norm": 2.791099786758423, "learning_rate": 2.137121576770007e-07, "loss": 0.2933, "step": 8466 }, { "epoch": 2.8223333333333334, "grad_norm": 3.119708299636841, "learning_rate": 2.1291533695080412e-07, "loss": 0.3324, "step": 8467 }, { "epoch": 2.8226666666666667, "grad_norm": 3.24271821975708, "learning_rate": 2.1211998847963876e-07, "loss": 0.2883, "step": 8468 }, { "epoch": 2.823, "grad_norm": 2.8883538246154785, "learning_rate": 2.1132611238315004e-07, "loss": 0.3032, "step": 8469 }, { "epoch": 2.8233333333333333, "grad_norm": 2.7810299396514893, "learning_rate": 2.1053370878075685e-07, "loss": 0.3261, "step": 8470 }, { "epoch": 2.8236666666666665, "grad_norm": 3.9223506450653076, "learning_rate": 2.0974277779166054e-07, "loss": 0.3296, "step": 8471 }, { "epoch": 2.824, "grad_norm": 2.3617172241210938, "learning_rate": 2.089533195348392e-07, "loss": 0.3021, "step": 8472 }, { "epoch": 2.8243333333333336, "grad_norm": 2.8661937713623047, "learning_rate": 2.0816533412905016e-07, "loss": 0.2999, "step": 8473 }, { "epoch": 2.8246666666666664, "grad_norm": 2.608950614929199, "learning_rate": 2.073788216928274e-07, "loss": 0.3011, "step": 8474 }, { "epoch": 2.825, "grad_norm": 2.713059186935425, "learning_rate": 2.0659378234448524e-07, "loss": 0.289, "step": 8475 }, { "epoch": 2.8253333333333335, "grad_norm": 3.3453612327575684, "learning_rate": 2.0581021620211694e-07, "loss": 0.284, "step": 8476 }, { "epoch": 2.8256666666666668, "grad_norm": 2.5697922706604004, "learning_rate": 2.0502812338359157e-07, "loss": 0.2835, "step": 8477 }, { "epoch": 2.826, "grad_norm": 2.98109769821167, "learning_rate": 2.0424750400655947e-07, "loss": 0.3014, "step": 8478 }, { "epoch": 2.8263333333333334, "grad_norm": 2.8311524391174316, "learning_rate": 2.034683581884478e-07, "loss": 0.2729, "step": 8479 }, { "epoch": 2.8266666666666667, "grad_norm": 3.1724915504455566, "learning_rate": 2.0269068604646058e-07, "loss": 0.2817, "step": 8480 }, { "epoch": 2.827, "grad_norm": 3.736510992050171, "learning_rate": 2.0191448769758315e-07, "loss": 0.3222, "step": 8481 }, { "epoch": 2.8273333333333333, "grad_norm": 2.757519006729126, "learning_rate": 2.0113976325857764e-07, "loss": 0.3098, "step": 8482 }, { "epoch": 2.8276666666666666, "grad_norm": 2.486894130706787, "learning_rate": 2.0036651284598417e-07, "loss": 0.2662, "step": 8483 }, { "epoch": 2.828, "grad_norm": 2.6784121990203857, "learning_rate": 1.9959473657612193e-07, "loss": 0.294, "step": 8484 }, { "epoch": 2.828333333333333, "grad_norm": 2.648362159729004, "learning_rate": 1.9882443456508693e-07, "loss": 0.2469, "step": 8485 }, { "epoch": 2.828666666666667, "grad_norm": 2.2542364597320557, "learning_rate": 1.9805560692875647e-07, "loss": 0.2825, "step": 8486 }, { "epoch": 2.8289999999999997, "grad_norm": 2.3619558811187744, "learning_rate": 1.9728825378278248e-07, "loss": 0.3024, "step": 8487 }, { "epoch": 2.8293333333333335, "grad_norm": 3.103562831878662, "learning_rate": 1.9652237524259598e-07, "loss": 0.2686, "step": 8488 }, { "epoch": 2.8296666666666668, "grad_norm": 3.172369956970215, "learning_rate": 1.9575797142340813e-07, "loss": 0.2751, "step": 8489 }, { "epoch": 2.83, "grad_norm": 2.4482405185699463, "learning_rate": 1.9499504244020694e-07, "loss": 0.2269, "step": 8490 }, { "epoch": 2.8303333333333334, "grad_norm": 2.7619004249572754, "learning_rate": 1.942335884077584e-07, "loss": 0.2765, "step": 8491 }, { "epoch": 2.8306666666666667, "grad_norm": 2.269702434539795, "learning_rate": 1.9347360944060644e-07, "loss": 0.2762, "step": 8492 }, { "epoch": 2.831, "grad_norm": 2.3082826137542725, "learning_rate": 1.9271510565307405e-07, "loss": 0.2891, "step": 8493 }, { "epoch": 2.8313333333333333, "grad_norm": 3.228372573852539, "learning_rate": 1.9195807715925995e-07, "loss": 0.2703, "step": 8494 }, { "epoch": 2.8316666666666666, "grad_norm": 2.672389030456543, "learning_rate": 1.912025240730453e-07, "loss": 0.2172, "step": 8495 }, { "epoch": 2.832, "grad_norm": 2.6006531715393066, "learning_rate": 1.9044844650808468e-07, "loss": 0.2689, "step": 8496 }, { "epoch": 2.8323333333333336, "grad_norm": 3.3203585147857666, "learning_rate": 1.8969584457781408e-07, "loss": 0.3243, "step": 8497 }, { "epoch": 2.8326666666666664, "grad_norm": 3.0694737434387207, "learning_rate": 1.8894471839544404e-07, "loss": 0.2636, "step": 8498 }, { "epoch": 2.833, "grad_norm": 2.698992967605591, "learning_rate": 1.8819506807396748e-07, "loss": 0.2758, "step": 8499 }, { "epoch": 2.8333333333333335, "grad_norm": 3.0152175426483154, "learning_rate": 1.874468937261531e-07, "loss": 0.2604, "step": 8500 }, { "epoch": 2.833666666666667, "grad_norm": 2.3380043506622314, "learning_rate": 1.8670019546454642e-07, "loss": 0.2695, "step": 8501 }, { "epoch": 2.834, "grad_norm": 2.711803674697876, "learning_rate": 1.8595497340147316e-07, "loss": 0.2756, "step": 8502 }, { "epoch": 2.8343333333333334, "grad_norm": 2.7590878009796143, "learning_rate": 1.8521122764903366e-07, "loss": 0.2765, "step": 8503 }, { "epoch": 2.8346666666666667, "grad_norm": 3.684164524078369, "learning_rate": 1.844689583191106e-07, "loss": 0.2876, "step": 8504 }, { "epoch": 2.835, "grad_norm": 3.112046957015991, "learning_rate": 1.8372816552336025e-07, "loss": 0.3146, "step": 8505 }, { "epoch": 2.8353333333333333, "grad_norm": 2.813977003097534, "learning_rate": 1.8298884937322125e-07, "loss": 0.2902, "step": 8506 }, { "epoch": 2.8356666666666666, "grad_norm": 3.0428693294525146, "learning_rate": 1.8225100997990686e-07, "loss": 0.2673, "step": 8507 }, { "epoch": 2.836, "grad_norm": 2.5091631412506104, "learning_rate": 1.8151464745440828e-07, "loss": 0.2724, "step": 8508 }, { "epoch": 2.836333333333333, "grad_norm": 2.6484665870666504, "learning_rate": 1.8077976190749468e-07, "loss": 0.2814, "step": 8509 }, { "epoch": 2.836666666666667, "grad_norm": 3.3117446899414062, "learning_rate": 1.8004635344971656e-07, "loss": 0.295, "step": 8510 }, { "epoch": 2.8369999999999997, "grad_norm": 3.0556540489196777, "learning_rate": 1.793144221913967e-07, "loss": 0.2869, "step": 8511 }, { "epoch": 2.8373333333333335, "grad_norm": 2.703782320022583, "learning_rate": 1.7858396824263936e-07, "loss": 0.3164, "step": 8512 }, { "epoch": 2.837666666666667, "grad_norm": 3.283433675765991, "learning_rate": 1.7785499171332543e-07, "loss": 0.2749, "step": 8513 }, { "epoch": 2.838, "grad_norm": 2.753570795059204, "learning_rate": 1.7712749271311392e-07, "loss": 0.2875, "step": 8514 }, { "epoch": 2.8383333333333334, "grad_norm": 2.2979373931884766, "learning_rate": 1.764014713514406e-07, "loss": 0.2848, "step": 8515 }, { "epoch": 2.8386666666666667, "grad_norm": 3.252068281173706, "learning_rate": 1.756769277375192e-07, "loss": 0.2538, "step": 8516 }, { "epoch": 2.839, "grad_norm": 2.3271217346191406, "learning_rate": 1.7495386198034258e-07, "loss": 0.3027, "step": 8517 }, { "epoch": 2.8393333333333333, "grad_norm": 3.358750343322754, "learning_rate": 1.742322741886815e-07, "loss": 0.2574, "step": 8518 }, { "epoch": 2.8396666666666666, "grad_norm": 2.2151944637298584, "learning_rate": 1.7351216447108133e-07, "loss": 0.2609, "step": 8519 }, { "epoch": 2.84, "grad_norm": 3.010938882827759, "learning_rate": 1.7279353293586765e-07, "loss": 0.2776, "step": 8520 }, { "epoch": 2.8403333333333336, "grad_norm": 2.812903881072998, "learning_rate": 1.7207637969114287e-07, "loss": 0.2636, "step": 8521 }, { "epoch": 2.8406666666666665, "grad_norm": 2.3950698375701904, "learning_rate": 1.713607048447874e-07, "loss": 0.3133, "step": 8522 }, { "epoch": 2.841, "grad_norm": 2.5339038372039795, "learning_rate": 1.706465085044584e-07, "loss": 0.2543, "step": 8523 }, { "epoch": 2.8413333333333335, "grad_norm": 2.9434051513671875, "learning_rate": 1.699337907775911e-07, "loss": 0.2737, "step": 8524 }, { "epoch": 2.841666666666667, "grad_norm": 3.3173794746398926, "learning_rate": 1.6922255177140078e-07, "loss": 0.263, "step": 8525 }, { "epoch": 2.842, "grad_norm": 3.9074652194976807, "learning_rate": 1.6851279159287526e-07, "loss": 0.3157, "step": 8526 }, { "epoch": 2.8423333333333334, "grad_norm": 2.7345125675201416, "learning_rate": 1.6780451034878242e-07, "loss": 0.2833, "step": 8527 }, { "epoch": 2.8426666666666667, "grad_norm": 2.685469388961792, "learning_rate": 1.670977081456715e-07, "loss": 0.2921, "step": 8528 }, { "epoch": 2.843, "grad_norm": 2.3565609455108643, "learning_rate": 1.6639238508986188e-07, "loss": 0.2495, "step": 8529 }, { "epoch": 2.8433333333333333, "grad_norm": 2.86283802986145, "learning_rate": 1.6568854128745537e-07, "loss": 0.2843, "step": 8530 }, { "epoch": 2.8436666666666666, "grad_norm": 2.883310317993164, "learning_rate": 1.649861768443295e-07, "loss": 0.2813, "step": 8531 }, { "epoch": 2.844, "grad_norm": 3.3201358318328857, "learning_rate": 1.6428529186614195e-07, "loss": 0.2881, "step": 8532 }, { "epoch": 2.844333333333333, "grad_norm": 2.5310287475585938, "learning_rate": 1.6358588645832286e-07, "loss": 0.2723, "step": 8533 }, { "epoch": 2.844666666666667, "grad_norm": 2.7296600341796875, "learning_rate": 1.628879607260836e-07, "loss": 0.2657, "step": 8534 }, { "epoch": 2.8449999999999998, "grad_norm": 2.5368003845214844, "learning_rate": 1.6219151477441243e-07, "loss": 0.2696, "step": 8535 }, { "epoch": 2.8453333333333335, "grad_norm": 2.6569907665252686, "learning_rate": 1.614965487080744e-07, "loss": 0.2731, "step": 8536 }, { "epoch": 2.845666666666667, "grad_norm": 2.967137336730957, "learning_rate": 1.6080306263161262e-07, "loss": 0.2899, "step": 8537 }, { "epoch": 2.846, "grad_norm": 2.837069511413574, "learning_rate": 1.601110566493458e-07, "loss": 0.2687, "step": 8538 }, { "epoch": 2.8463333333333334, "grad_norm": 2.973479747772217, "learning_rate": 1.594205308653729e-07, "loss": 0.2897, "step": 8539 }, { "epoch": 2.8466666666666667, "grad_norm": 2.749483823776245, "learning_rate": 1.5873148538356752e-07, "loss": 0.3098, "step": 8540 }, { "epoch": 2.847, "grad_norm": 3.7464888095855713, "learning_rate": 1.580439203075812e-07, "loss": 0.2996, "step": 8541 }, { "epoch": 2.8473333333333333, "grad_norm": 2.921483039855957, "learning_rate": 1.573578357408434e-07, "loss": 0.2802, "step": 8542 }, { "epoch": 2.8476666666666666, "grad_norm": 3.1894638538360596, "learning_rate": 1.566732317865627e-07, "loss": 0.3002, "step": 8543 }, { "epoch": 2.848, "grad_norm": 2.5340383052825928, "learning_rate": 1.5599010854772002e-07, "loss": 0.2404, "step": 8544 }, { "epoch": 2.8483333333333336, "grad_norm": 3.830690383911133, "learning_rate": 1.5530846612707763e-07, "loss": 0.2697, "step": 8545 }, { "epoch": 2.8486666666666665, "grad_norm": 2.644911289215088, "learning_rate": 1.546283046271746e-07, "loss": 0.2961, "step": 8546 }, { "epoch": 2.849, "grad_norm": 2.1910223960876465, "learning_rate": 1.5394962415032578e-07, "loss": 0.2632, "step": 8547 }, { "epoch": 2.8493333333333335, "grad_norm": 2.679380416870117, "learning_rate": 1.5327242479862504e-07, "loss": 0.2821, "step": 8548 }, { "epoch": 2.849666666666667, "grad_norm": 3.0758249759674072, "learning_rate": 1.5259670667393977e-07, "loss": 0.2727, "step": 8549 }, { "epoch": 2.85, "grad_norm": 2.958756446838379, "learning_rate": 1.519224698779198e-07, "loss": 0.2993, "step": 8550 }, { "epoch": 2.8503333333333334, "grad_norm": 2.622465133666992, "learning_rate": 1.5124971451198843e-07, "loss": 0.2762, "step": 8551 }, { "epoch": 2.8506666666666667, "grad_norm": 3.394974946975708, "learning_rate": 1.5057844067734694e-07, "loss": 0.2432, "step": 8552 }, { "epoch": 2.851, "grad_norm": 2.9089713096618652, "learning_rate": 1.4990864847497456e-07, "loss": 0.2973, "step": 8553 }, { "epoch": 2.8513333333333333, "grad_norm": 2.5407602787017822, "learning_rate": 1.4924033800562622e-07, "loss": 0.3046, "step": 8554 }, { "epoch": 2.8516666666666666, "grad_norm": 2.6311750411987305, "learning_rate": 1.4857350936983484e-07, "loss": 0.2929, "step": 8555 }, { "epoch": 2.852, "grad_norm": 2.5765271186828613, "learning_rate": 1.4790816266791018e-07, "loss": 0.283, "step": 8556 }, { "epoch": 2.852333333333333, "grad_norm": 3.7187862396240234, "learning_rate": 1.4724429799994112e-07, "loss": 0.2641, "step": 8557 }, { "epoch": 2.852666666666667, "grad_norm": 2.308349370956421, "learning_rate": 1.4658191546579103e-07, "loss": 0.279, "step": 8558 }, { "epoch": 2.8529999999999998, "grad_norm": 2.6314029693603516, "learning_rate": 1.4592101516509916e-07, "loss": 0.2939, "step": 8559 }, { "epoch": 2.8533333333333335, "grad_norm": 3.081660270690918, "learning_rate": 1.4526159719728595e-07, "loss": 0.3147, "step": 8560 }, { "epoch": 2.853666666666667, "grad_norm": 3.1490097045898438, "learning_rate": 1.4460366166154428e-07, "loss": 0.3253, "step": 8561 }, { "epoch": 2.854, "grad_norm": 2.228541851043701, "learning_rate": 1.4394720865684718e-07, "loss": 0.2863, "step": 8562 }, { "epoch": 2.8543333333333334, "grad_norm": 2.9330060482025146, "learning_rate": 1.432922382819446e-07, "loss": 0.3038, "step": 8563 }, { "epoch": 2.8546666666666667, "grad_norm": 2.6426005363464355, "learning_rate": 1.4263875063536326e-07, "loss": 0.2999, "step": 8564 }, { "epoch": 2.855, "grad_norm": 3.000373601913452, "learning_rate": 1.419867458154034e-07, "loss": 0.2847, "step": 8565 }, { "epoch": 2.8553333333333333, "grad_norm": 2.588479995727539, "learning_rate": 1.4133622392014767e-07, "loss": 0.3009, "step": 8566 }, { "epoch": 2.8556666666666666, "grad_norm": 2.515491008758545, "learning_rate": 1.4068718504745227e-07, "loss": 0.2847, "step": 8567 }, { "epoch": 2.856, "grad_norm": 3.3895888328552246, "learning_rate": 1.400396292949513e-07, "loss": 0.3056, "step": 8568 }, { "epoch": 2.856333333333333, "grad_norm": 2.396423578262329, "learning_rate": 1.3939355676005462e-07, "loss": 0.3173, "step": 8569 }, { "epoch": 2.8566666666666665, "grad_norm": 2.9205594062805176, "learning_rate": 1.3874896753995005e-07, "loss": 0.3138, "step": 8570 }, { "epoch": 2.857, "grad_norm": 2.431055784225464, "learning_rate": 1.3810586173160224e-07, "loss": 0.2541, "step": 8571 }, { "epoch": 2.857333333333333, "grad_norm": 2.777193546295166, "learning_rate": 1.374642394317527e-07, "loss": 0.2995, "step": 8572 }, { "epoch": 2.857666666666667, "grad_norm": 2.688917875289917, "learning_rate": 1.3682410073691975e-07, "loss": 0.2983, "step": 8573 }, { "epoch": 2.858, "grad_norm": 2.7495930194854736, "learning_rate": 1.3618544574339976e-07, "loss": 0.2593, "step": 8574 }, { "epoch": 2.8583333333333334, "grad_norm": 2.9353652000427246, "learning_rate": 1.3554827454726137e-07, "loss": 0.2838, "step": 8575 }, { "epoch": 2.8586666666666667, "grad_norm": 2.637629270553589, "learning_rate": 1.3491258724435463e-07, "loss": 0.3, "step": 8576 }, { "epoch": 2.859, "grad_norm": 3.0940937995910645, "learning_rate": 1.3427838393030634e-07, "loss": 0.3165, "step": 8577 }, { "epoch": 2.8593333333333333, "grad_norm": 2.792898654937744, "learning_rate": 1.3364566470051687e-07, "loss": 0.2666, "step": 8578 }, { "epoch": 2.8596666666666666, "grad_norm": 2.9466781616210938, "learning_rate": 1.3301442965016565e-07, "loss": 0.2916, "step": 8579 }, { "epoch": 2.86, "grad_norm": 2.9730241298675537, "learning_rate": 1.323846788742078e-07, "loss": 0.3183, "step": 8580 }, { "epoch": 2.860333333333333, "grad_norm": 3.0455360412597656, "learning_rate": 1.3175641246737758e-07, "loss": 0.2659, "step": 8581 }, { "epoch": 2.860666666666667, "grad_norm": 2.9992494583129883, "learning_rate": 1.311296305241827e-07, "loss": 0.2937, "step": 8582 }, { "epoch": 2.8609999999999998, "grad_norm": 3.180490493774414, "learning_rate": 1.3050433313890774e-07, "loss": 0.282, "step": 8583 }, { "epoch": 2.8613333333333335, "grad_norm": 2.379277467727661, "learning_rate": 1.298805204056175e-07, "loss": 0.2687, "step": 8584 }, { "epoch": 2.861666666666667, "grad_norm": 2.8777103424072266, "learning_rate": 1.292581924181502e-07, "loss": 0.2892, "step": 8585 }, { "epoch": 2.862, "grad_norm": 2.534475564956665, "learning_rate": 1.2863734927012094e-07, "loss": 0.2732, "step": 8586 }, { "epoch": 2.8623333333333334, "grad_norm": 2.5848443508148193, "learning_rate": 1.2801799105492286e-07, "loss": 0.2728, "step": 8587 }, { "epoch": 2.8626666666666667, "grad_norm": 2.463024139404297, "learning_rate": 1.2740011786572582e-07, "loss": 0.2943, "step": 8588 }, { "epoch": 2.863, "grad_norm": 2.9870657920837402, "learning_rate": 1.2678372979547326e-07, "loss": 0.2884, "step": 8589 }, { "epoch": 2.8633333333333333, "grad_norm": 2.8964221477508545, "learning_rate": 1.261688269368877e-07, "loss": 0.2981, "step": 8590 }, { "epoch": 2.8636666666666666, "grad_norm": 2.9635372161865234, "learning_rate": 1.2555540938246956e-07, "loss": 0.2758, "step": 8591 }, { "epoch": 2.864, "grad_norm": 2.5816407203674316, "learning_rate": 1.2494347722449506e-07, "loss": 0.2847, "step": 8592 }, { "epoch": 2.864333333333333, "grad_norm": 2.6957786083221436, "learning_rate": 1.243330305550128e-07, "loss": 0.2878, "step": 8593 }, { "epoch": 2.8646666666666665, "grad_norm": 2.51493501663208, "learning_rate": 1.2372406946585368e-07, "loss": 0.3107, "step": 8594 }, { "epoch": 2.865, "grad_norm": 2.604076623916626, "learning_rate": 1.231165940486234e-07, "loss": 0.2541, "step": 8595 }, { "epoch": 2.865333333333333, "grad_norm": 3.4970085620880127, "learning_rate": 1.2251060439469996e-07, "loss": 0.2821, "step": 8596 }, { "epoch": 2.865666666666667, "grad_norm": 2.5994515419006348, "learning_rate": 1.21906100595246e-07, "loss": 0.2919, "step": 8597 }, { "epoch": 2.866, "grad_norm": 2.7311511039733887, "learning_rate": 1.2130308274119207e-07, "loss": 0.2709, "step": 8598 }, { "epoch": 2.8663333333333334, "grad_norm": 3.2737510204315186, "learning_rate": 1.207015509232512e-07, "loss": 0.2913, "step": 8599 }, { "epoch": 2.8666666666666667, "grad_norm": 2.9339077472686768, "learning_rate": 1.201015052319099e-07, "loss": 0.2786, "step": 8600 }, { "epoch": 2.867, "grad_norm": 3.3256022930145264, "learning_rate": 1.1950294575743372e-07, "loss": 0.2883, "step": 8601 }, { "epoch": 2.8673333333333333, "grad_norm": 2.86430287361145, "learning_rate": 1.1890587258986063e-07, "loss": 0.3163, "step": 8602 }, { "epoch": 2.8676666666666666, "grad_norm": 2.835360527038574, "learning_rate": 1.1831028581900883e-07, "loss": 0.3062, "step": 8603 }, { "epoch": 2.868, "grad_norm": 2.2867603302001953, "learning_rate": 1.1771618553447217e-07, "loss": 0.2567, "step": 8604 }, { "epoch": 2.868333333333333, "grad_norm": 2.808540105819702, "learning_rate": 1.1712357182561806e-07, "loss": 0.3175, "step": 8605 }, { "epoch": 2.868666666666667, "grad_norm": 2.8501803874969482, "learning_rate": 1.1653244478159409e-07, "loss": 0.2975, "step": 8606 }, { "epoch": 2.8689999999999998, "grad_norm": 2.7435030937194824, "learning_rate": 1.1594280449132245e-07, "loss": 0.2968, "step": 8607 }, { "epoch": 2.8693333333333335, "grad_norm": 2.929011106491089, "learning_rate": 1.1535465104349997e-07, "loss": 0.2931, "step": 8608 }, { "epoch": 2.869666666666667, "grad_norm": 2.618600368499756, "learning_rate": 1.1476798452660365e-07, "loss": 0.2588, "step": 8609 }, { "epoch": 2.87, "grad_norm": 2.8008804321289062, "learning_rate": 1.1418280502888401e-07, "loss": 0.2738, "step": 8610 }, { "epoch": 2.8703333333333334, "grad_norm": 2.572878122329712, "learning_rate": 1.1359911263836731e-07, "loss": 0.2917, "step": 8611 }, { "epoch": 2.8706666666666667, "grad_norm": 2.9795801639556885, "learning_rate": 1.1301690744285999e-07, "loss": 0.2837, "step": 8612 }, { "epoch": 2.871, "grad_norm": 2.5878429412841797, "learning_rate": 1.1243618952994195e-07, "loss": 0.3098, "step": 8613 }, { "epoch": 2.8713333333333333, "grad_norm": 2.4171504974365234, "learning_rate": 1.118569589869667e-07, "loss": 0.308, "step": 8614 }, { "epoch": 2.8716666666666666, "grad_norm": 4.084155559539795, "learning_rate": 1.1127921590107116e-07, "loss": 0.2871, "step": 8615 }, { "epoch": 2.872, "grad_norm": 3.252408266067505, "learning_rate": 1.1070296035916028e-07, "loss": 0.2799, "step": 8616 }, { "epoch": 2.872333333333333, "grad_norm": 2.4763107299804688, "learning_rate": 1.1012819244792139e-07, "loss": 0.2622, "step": 8617 }, { "epoch": 2.8726666666666665, "grad_norm": 2.6447033882141113, "learning_rate": 1.0955491225381532e-07, "loss": 0.2709, "step": 8618 }, { "epoch": 2.873, "grad_norm": 2.57774019241333, "learning_rate": 1.0898311986307975e-07, "loss": 0.2814, "step": 8619 }, { "epoch": 2.873333333333333, "grad_norm": 2.626086711883545, "learning_rate": 1.084128153617292e-07, "loss": 0.2822, "step": 8620 }, { "epoch": 2.873666666666667, "grad_norm": 2.822120189666748, "learning_rate": 1.0784399883555286e-07, "loss": 0.2772, "step": 8621 }, { "epoch": 2.874, "grad_norm": 2.3211913108825684, "learning_rate": 1.0727667037011668e-07, "loss": 0.2705, "step": 8622 }, { "epoch": 2.8743333333333334, "grad_norm": 2.6747591495513916, "learning_rate": 1.0671083005076355e-07, "loss": 0.2783, "step": 8623 }, { "epoch": 2.8746666666666667, "grad_norm": 2.312924861907959, "learning_rate": 1.0614647796261091e-07, "loss": 0.2862, "step": 8624 }, { "epoch": 2.875, "grad_norm": 2.885512351989746, "learning_rate": 1.055836141905553e-07, "loss": 0.2855, "step": 8625 }, { "epoch": 2.8753333333333333, "grad_norm": 2.5062198638916016, "learning_rate": 1.0502223881926455e-07, "loss": 0.2846, "step": 8626 }, { "epoch": 2.8756666666666666, "grad_norm": 2.5081191062927246, "learning_rate": 1.0446235193318888e-07, "loss": 0.2646, "step": 8627 }, { "epoch": 2.876, "grad_norm": 3.0488548278808594, "learning_rate": 1.039039536165476e-07, "loss": 0.2366, "step": 8628 }, { "epoch": 2.876333333333333, "grad_norm": 2.926452398300171, "learning_rate": 1.0334704395334128e-07, "loss": 0.3012, "step": 8629 }, { "epoch": 2.876666666666667, "grad_norm": 2.5537853240966797, "learning_rate": 1.0279162302734624e-07, "loss": 0.2843, "step": 8630 }, { "epoch": 2.877, "grad_norm": 2.5672736167907715, "learning_rate": 1.0223769092211012e-07, "loss": 0.2954, "step": 8631 }, { "epoch": 2.8773333333333335, "grad_norm": 3.199566125869751, "learning_rate": 1.01685247720964e-07, "loss": 0.2681, "step": 8632 }, { "epoch": 2.877666666666667, "grad_norm": 3.187988519668579, "learning_rate": 1.011342935070081e-07, "loss": 0.278, "step": 8633 }, { "epoch": 2.878, "grad_norm": 3.052889108657837, "learning_rate": 1.0058482836312278e-07, "loss": 0.2688, "step": 8634 }, { "epoch": 2.8783333333333334, "grad_norm": 3.350341558456421, "learning_rate": 1.0003685237196415e-07, "loss": 0.2877, "step": 8635 }, { "epoch": 2.8786666666666667, "grad_norm": 2.588665008544922, "learning_rate": 9.94903656159607e-08, "loss": 0.2842, "step": 8636 }, { "epoch": 2.879, "grad_norm": 2.5513756275177, "learning_rate": 9.894536817732226e-08, "loss": 0.314, "step": 8637 }, { "epoch": 2.8793333333333333, "grad_norm": 2.8403027057647705, "learning_rate": 9.840186013802989e-08, "loss": 0.2797, "step": 8638 }, { "epoch": 2.8796666666666666, "grad_norm": 3.5188074111938477, "learning_rate": 9.785984157984263e-08, "loss": 0.2546, "step": 8639 }, { "epoch": 2.88, "grad_norm": 2.9582231044769287, "learning_rate": 9.731931258429638e-08, "loss": 0.2977, "step": 8640 }, { "epoch": 2.880333333333333, "grad_norm": 2.9949629306793213, "learning_rate": 9.678027323270278e-08, "loss": 0.3079, "step": 8641 }, { "epoch": 2.8806666666666665, "grad_norm": 2.568183660507202, "learning_rate": 9.624272360614695e-08, "loss": 0.3122, "step": 8642 }, { "epoch": 2.8810000000000002, "grad_norm": 3.9623780250549316, "learning_rate": 9.57066637854931e-08, "loss": 0.3027, "step": 8643 }, { "epoch": 2.881333333333333, "grad_norm": 2.8063290119171143, "learning_rate": 9.517209385137893e-08, "loss": 0.3017, "step": 8644 }, { "epoch": 2.881666666666667, "grad_norm": 3.093501329421997, "learning_rate": 9.463901388421792e-08, "loss": 0.3118, "step": 8645 }, { "epoch": 2.882, "grad_norm": 2.3434338569641113, "learning_rate": 9.410742396420259e-08, "loss": 0.2975, "step": 8646 }, { "epoch": 2.8823333333333334, "grad_norm": 4.060275077819824, "learning_rate": 9.357732417129783e-08, "loss": 0.2986, "step": 8647 }, { "epoch": 2.8826666666666667, "grad_norm": 2.4547958374023438, "learning_rate": 9.304871458524545e-08, "loss": 0.2738, "step": 8648 }, { "epoch": 2.883, "grad_norm": 3.056788206100464, "learning_rate": 9.252159528556404e-08, "loss": 0.2595, "step": 8649 }, { "epoch": 2.8833333333333333, "grad_norm": 2.6070902347564697, "learning_rate": 9.199596635154684e-08, "loss": 0.3009, "step": 8650 }, { "epoch": 2.8836666666666666, "grad_norm": 2.5117597579956055, "learning_rate": 9.147182786226394e-08, "loss": 0.2907, "step": 8651 }, { "epoch": 2.884, "grad_norm": 2.9919381141662598, "learning_rate": 9.094917989656005e-08, "loss": 0.292, "step": 8652 }, { "epoch": 2.884333333333333, "grad_norm": 2.8909149169921875, "learning_rate": 9.042802253305671e-08, "loss": 0.3017, "step": 8653 }, { "epoch": 2.884666666666667, "grad_norm": 2.456644296646118, "learning_rate": 8.990835585015013e-08, "loss": 0.3121, "step": 8654 }, { "epoch": 2.885, "grad_norm": 2.683159351348877, "learning_rate": 8.939017992601329e-08, "loss": 0.2733, "step": 8655 }, { "epoch": 2.8853333333333335, "grad_norm": 3.0864675045013428, "learning_rate": 8.887349483859386e-08, "loss": 0.2872, "step": 8656 }, { "epoch": 2.885666666666667, "grad_norm": 3.1093039512634277, "learning_rate": 8.835830066561746e-08, "loss": 0.2746, "step": 8657 }, { "epoch": 2.886, "grad_norm": 2.663114309310913, "learning_rate": 8.784459748458318e-08, "loss": 0.308, "step": 8658 }, { "epoch": 2.8863333333333334, "grad_norm": 2.219338893890381, "learning_rate": 8.73323853727659e-08, "loss": 0.2603, "step": 8659 }, { "epoch": 2.8866666666666667, "grad_norm": 2.3714027404785156, "learning_rate": 8.682166440721729e-08, "loss": 0.3054, "step": 8660 }, { "epoch": 2.887, "grad_norm": 3.459012269973755, "learning_rate": 8.631243466476368e-08, "loss": 0.2936, "step": 8661 }, { "epoch": 2.8873333333333333, "grad_norm": 2.820995569229126, "learning_rate": 8.580469622200938e-08, "loss": 0.277, "step": 8662 }, { "epoch": 2.8876666666666666, "grad_norm": 2.5826923847198486, "learning_rate": 8.529844915533215e-08, "loss": 0.2758, "step": 8663 }, { "epoch": 2.888, "grad_norm": 3.038926362991333, "learning_rate": 8.479369354088329e-08, "loss": 0.2899, "step": 8664 }, { "epoch": 2.888333333333333, "grad_norm": 2.8542802333831787, "learning_rate": 8.429042945459654e-08, "loss": 0.2943, "step": 8665 }, { "epoch": 2.8886666666666665, "grad_norm": 3.249519109725952, "learning_rate": 8.378865697217242e-08, "loss": 0.2998, "step": 8666 }, { "epoch": 2.8890000000000002, "grad_norm": 2.632782220840454, "learning_rate": 8.328837616909612e-08, "loss": 0.2837, "step": 8667 }, { "epoch": 2.889333333333333, "grad_norm": 2.7474493980407715, "learning_rate": 8.27895871206208e-08, "loss": 0.2783, "step": 8668 }, { "epoch": 2.889666666666667, "grad_norm": 2.579765796661377, "learning_rate": 8.229228990178084e-08, "loss": 0.2771, "step": 8669 }, { "epoch": 2.89, "grad_norm": 4.0948615074157715, "learning_rate": 8.179648458738309e-08, "loss": 0.285, "step": 8670 }, { "epoch": 2.8903333333333334, "grad_norm": 2.941701650619507, "learning_rate": 8.130217125201012e-08, "loss": 0.2728, "step": 8671 }, { "epoch": 2.8906666666666667, "grad_norm": 2.8783516883850098, "learning_rate": 8.080934997002021e-08, "loss": 0.2951, "step": 8672 }, { "epoch": 2.891, "grad_norm": 2.2977285385131836, "learning_rate": 8.031802081554963e-08, "loss": 0.2616, "step": 8673 }, { "epoch": 2.8913333333333333, "grad_norm": 2.577298164367676, "learning_rate": 7.982818386250702e-08, "loss": 0.2628, "step": 8674 }, { "epoch": 2.8916666666666666, "grad_norm": 2.2673115730285645, "learning_rate": 7.933983918457677e-08, "loss": 0.2601, "step": 8675 }, { "epoch": 2.892, "grad_norm": 2.7792129516601562, "learning_rate": 7.885298685522235e-08, "loss": 0.2938, "step": 8676 }, { "epoch": 2.892333333333333, "grad_norm": 2.1456246376037598, "learning_rate": 7.836762694767741e-08, "loss": 0.2436, "step": 8677 }, { "epoch": 2.892666666666667, "grad_norm": 2.5631468296051025, "learning_rate": 7.788375953495464e-08, "loss": 0.2519, "step": 8678 }, { "epoch": 2.893, "grad_norm": 2.4714083671569824, "learning_rate": 7.740138468984249e-08, "loss": 0.2811, "step": 8679 }, { "epoch": 2.8933333333333335, "grad_norm": 2.8304383754730225, "learning_rate": 7.692050248490291e-08, "loss": 0.2634, "step": 8680 }, { "epoch": 2.893666666666667, "grad_norm": 2.771399974822998, "learning_rate": 7.64411129924747e-08, "loss": 0.2859, "step": 8681 }, { "epoch": 2.894, "grad_norm": 2.435558319091797, "learning_rate": 7.596321628467129e-08, "loss": 0.3097, "step": 8682 }, { "epoch": 2.8943333333333334, "grad_norm": 2.764704942703247, "learning_rate": 7.548681243338296e-08, "loss": 0.2944, "step": 8683 }, { "epoch": 2.8946666666666667, "grad_norm": 2.3178088665008545, "learning_rate": 7.501190151027126e-08, "loss": 0.2625, "step": 8684 }, { "epoch": 2.895, "grad_norm": 2.8557047843933105, "learning_rate": 7.453848358678018e-08, "loss": 0.3188, "step": 8685 }, { "epoch": 2.8953333333333333, "grad_norm": 3.3933494091033936, "learning_rate": 7.406655873412272e-08, "loss": 0.2962, "step": 8686 }, { "epoch": 2.8956666666666666, "grad_norm": 2.018097400665283, "learning_rate": 7.359612702328989e-08, "loss": 0.2621, "step": 8687 }, { "epoch": 2.896, "grad_norm": 2.3590970039367676, "learning_rate": 7.31271885250484e-08, "loss": 0.29, "step": 8688 }, { "epoch": 2.896333333333333, "grad_norm": 2.8347654342651367, "learning_rate": 7.265974330994075e-08, "loss": 0.2811, "step": 8689 }, { "epoch": 2.8966666666666665, "grad_norm": 2.3130717277526855, "learning_rate": 7.219379144828287e-08, "loss": 0.2826, "step": 8690 }, { "epoch": 2.8970000000000002, "grad_norm": 3.1367485523223877, "learning_rate": 7.17293330101676e-08, "loss": 0.313, "step": 8691 }, { "epoch": 2.897333333333333, "grad_norm": 2.4173033237457275, "learning_rate": 7.126636806546238e-08, "loss": 0.2939, "step": 8692 }, { "epoch": 2.897666666666667, "grad_norm": 2.5935049057006836, "learning_rate": 7.080489668381152e-08, "loss": 0.2688, "step": 8693 }, { "epoch": 2.898, "grad_norm": 2.9548282623291016, "learning_rate": 7.034491893463059e-08, "loss": 0.2569, "step": 8694 }, { "epoch": 2.8983333333333334, "grad_norm": 2.4330408573150635, "learning_rate": 6.988643488711533e-08, "loss": 0.2571, "step": 8695 }, { "epoch": 2.8986666666666667, "grad_norm": 2.433934211730957, "learning_rate": 6.942944461023504e-08, "loss": 0.2768, "step": 8696 }, { "epoch": 2.899, "grad_norm": 2.9151954650878906, "learning_rate": 6.897394817273251e-08, "loss": 0.3007, "step": 8697 }, { "epoch": 2.8993333333333333, "grad_norm": 2.8167974948883057, "learning_rate": 6.851994564312847e-08, "loss": 0.3001, "step": 8698 }, { "epoch": 2.8996666666666666, "grad_norm": 3.5096216201782227, "learning_rate": 6.80674370897172e-08, "loss": 0.2541, "step": 8699 }, { "epoch": 2.9, "grad_norm": 3.1323959827423096, "learning_rate": 6.761642258056977e-08, "loss": 0.3108, "step": 8700 }, { "epoch": 2.900333333333333, "grad_norm": 2.5154380798339844, "learning_rate": 6.716690218353195e-08, "loss": 0.2934, "step": 8701 }, { "epoch": 2.9006666666666665, "grad_norm": 3.3961808681488037, "learning_rate": 6.671887596622073e-08, "loss": 0.2822, "step": 8702 }, { "epoch": 2.901, "grad_norm": 2.6347084045410156, "learning_rate": 6.627234399603554e-08, "loss": 0.2811, "step": 8703 }, { "epoch": 2.9013333333333335, "grad_norm": 2.823207139968872, "learning_rate": 6.58273063401471e-08, "loss": 0.2892, "step": 8704 }, { "epoch": 2.9016666666666664, "grad_norm": 2.211367607116699, "learning_rate": 6.538376306550077e-08, "loss": 0.2641, "step": 8705 }, { "epoch": 2.902, "grad_norm": 2.711620569229126, "learning_rate": 6.494171423881756e-08, "loss": 0.2971, "step": 8706 }, { "epoch": 2.9023333333333334, "grad_norm": 2.645296335220337, "learning_rate": 6.450115992659545e-08, "loss": 0.306, "step": 8707 }, { "epoch": 2.9026666666666667, "grad_norm": 2.6276307106018066, "learning_rate": 6.406210019510472e-08, "loss": 0.2747, "step": 8708 }, { "epoch": 2.903, "grad_norm": 3.259868860244751, "learning_rate": 6.362453511039368e-08, "loss": 0.3207, "step": 8709 }, { "epoch": 2.9033333333333333, "grad_norm": 2.2093374729156494, "learning_rate": 6.318846473828522e-08, "loss": 0.2516, "step": 8710 }, { "epoch": 2.9036666666666666, "grad_norm": 2.797450304031372, "learning_rate": 6.275388914437575e-08, "loss": 0.3128, "step": 8711 }, { "epoch": 2.904, "grad_norm": 2.223053216934204, "learning_rate": 6.232080839403631e-08, "loss": 0.2574, "step": 8712 }, { "epoch": 2.904333333333333, "grad_norm": 2.7993133068084717, "learning_rate": 6.188922255241702e-08, "loss": 0.2893, "step": 8713 }, { "epoch": 2.9046666666666665, "grad_norm": 2.213064670562744, "learning_rate": 6.145913168443929e-08, "loss": 0.2647, "step": 8714 }, { "epoch": 2.9050000000000002, "grad_norm": 2.6254260540008545, "learning_rate": 6.103053585480023e-08, "loss": 0.2943, "step": 8715 }, { "epoch": 2.905333333333333, "grad_norm": 2.5482828617095947, "learning_rate": 6.060343512797496e-08, "loss": 0.2726, "step": 8716 }, { "epoch": 2.905666666666667, "grad_norm": 2.579836845397949, "learning_rate": 6.017782956820983e-08, "loss": 0.2849, "step": 8717 }, { "epoch": 2.906, "grad_norm": 3.4337985515594482, "learning_rate": 5.975371923952921e-08, "loss": 0.2756, "step": 8718 }, { "epoch": 2.9063333333333334, "grad_norm": 2.3815255165100098, "learning_rate": 5.933110420572985e-08, "loss": 0.2453, "step": 8719 }, { "epoch": 2.9066666666666667, "grad_norm": 2.2529091835021973, "learning_rate": 5.890998453038643e-08, "loss": 0.2784, "step": 8720 }, { "epoch": 2.907, "grad_norm": 3.2191708087921143, "learning_rate": 5.849036027684607e-08, "loss": 0.2964, "step": 8721 }, { "epoch": 2.9073333333333333, "grad_norm": 2.830925703048706, "learning_rate": 5.807223150823382e-08, "loss": 0.3201, "step": 8722 }, { "epoch": 2.9076666666666666, "grad_norm": 4.152172565460205, "learning_rate": 5.7655598287446045e-08, "loss": 0.2951, "step": 8723 }, { "epoch": 2.908, "grad_norm": 3.089667558670044, "learning_rate": 5.724046067715705e-08, "loss": 0.2629, "step": 8724 }, { "epoch": 2.908333333333333, "grad_norm": 3.940415143966675, "learning_rate": 5.682681873981577e-08, "loss": 0.2824, "step": 8725 }, { "epoch": 2.9086666666666665, "grad_norm": 2.4523167610168457, "learning_rate": 5.6414672537645766e-08, "loss": 0.279, "step": 8726 }, { "epoch": 2.909, "grad_norm": 2.475099802017212, "learning_rate": 5.600402213264411e-08, "loss": 0.3172, "step": 8727 }, { "epoch": 2.9093333333333335, "grad_norm": 2.4840118885040283, "learning_rate": 5.559486758658583e-08, "loss": 0.2907, "step": 8728 }, { "epoch": 2.9096666666666664, "grad_norm": 2.2306032180786133, "learning_rate": 5.518720896101948e-08, "loss": 0.2858, "step": 8729 }, { "epoch": 2.91, "grad_norm": 2.5923538208007812, "learning_rate": 5.4781046317267103e-08, "loss": 0.2644, "step": 8730 }, { "epoch": 2.9103333333333334, "grad_norm": 2.6732447147369385, "learning_rate": 5.4376379716427615e-08, "loss": 0.2798, "step": 8731 }, { "epoch": 2.9106666666666667, "grad_norm": 2.654398202896118, "learning_rate": 5.3973209219374545e-08, "loss": 0.2617, "step": 8732 }, { "epoch": 2.911, "grad_norm": 2.7435035705566406, "learning_rate": 5.3571534886756035e-08, "loss": 0.2763, "step": 8733 }, { "epoch": 2.9113333333333333, "grad_norm": 3.2718257904052734, "learning_rate": 5.3171356778995986e-08, "loss": 0.2827, "step": 8734 }, { "epoch": 2.9116666666666666, "grad_norm": 3.0780375003814697, "learning_rate": 5.277267495629068e-08, "loss": 0.2682, "step": 8735 }, { "epoch": 2.912, "grad_norm": 3.5847854614257812, "learning_rate": 5.2375489478616593e-08, "loss": 0.284, "step": 8736 }, { "epoch": 2.912333333333333, "grad_norm": 2.686004638671875, "learning_rate": 5.197980040571704e-08, "loss": 0.2593, "step": 8737 }, { "epoch": 2.9126666666666665, "grad_norm": 2.9662938117980957, "learning_rate": 5.158560779711885e-08, "loss": 0.2646, "step": 8738 }, { "epoch": 2.9130000000000003, "grad_norm": 2.9581308364868164, "learning_rate": 5.119291171211793e-08, "loss": 0.2856, "step": 8739 }, { "epoch": 2.913333333333333, "grad_norm": 2.6465611457824707, "learning_rate": 5.080171220978813e-08, "loss": 0.2786, "step": 8740 }, { "epoch": 2.913666666666667, "grad_norm": 2.579058885574341, "learning_rate": 5.041200934897461e-08, "loss": 0.2961, "step": 8741 }, { "epoch": 2.914, "grad_norm": 2.862941265106201, "learning_rate": 5.002380318830158e-08, "loss": 0.2665, "step": 8742 }, { "epoch": 2.9143333333333334, "grad_norm": 3.193519115447998, "learning_rate": 4.963709378616566e-08, "loss": 0.2756, "step": 8743 }, { "epoch": 2.9146666666666667, "grad_norm": 2.583465576171875, "learning_rate": 4.925188120073921e-08, "loss": 0.2914, "step": 8744 }, { "epoch": 2.915, "grad_norm": 2.9718692302703857, "learning_rate": 4.88681654899692e-08, "loss": 0.3123, "step": 8745 }, { "epoch": 2.9153333333333333, "grad_norm": 2.5775790214538574, "learning_rate": 4.848594671157725e-08, "loss": 0.2824, "step": 8746 }, { "epoch": 2.9156666666666666, "grad_norm": 3.336226463317871, "learning_rate": 4.810522492305958e-08, "loss": 0.2712, "step": 8747 }, { "epoch": 2.916, "grad_norm": 2.254230499267578, "learning_rate": 4.772600018168816e-08, "loss": 0.2676, "step": 8748 }, { "epoch": 2.916333333333333, "grad_norm": 2.9934539794921875, "learning_rate": 4.734827254450847e-08, "loss": 0.2638, "step": 8749 }, { "epoch": 2.9166666666666665, "grad_norm": 2.529346466064453, "learning_rate": 4.6972042068341714e-08, "loss": 0.282, "step": 8750 }, { "epoch": 2.917, "grad_norm": 3.417599678039551, "learning_rate": 4.659730880978375e-08, "loss": 0.2578, "step": 8751 }, { "epoch": 2.9173333333333336, "grad_norm": 2.7847142219543457, "learning_rate": 4.622407282520502e-08, "loss": 0.2844, "step": 8752 }, { "epoch": 2.9176666666666664, "grad_norm": 3.2504172325134277, "learning_rate": 4.585233417075063e-08, "loss": 0.2982, "step": 8753 }, { "epoch": 2.918, "grad_norm": 2.972770929336548, "learning_rate": 4.54820929023414e-08, "loss": 0.3093, "step": 8754 }, { "epoch": 2.9183333333333334, "grad_norm": 3.161870002746582, "learning_rate": 4.511334907567055e-08, "loss": 0.2863, "step": 8755 }, { "epoch": 2.9186666666666667, "grad_norm": 2.561755895614624, "learning_rate": 4.474610274620816e-08, "loss": 0.2744, "step": 8756 }, { "epoch": 2.919, "grad_norm": 3.2696373462677, "learning_rate": 4.438035396920004e-08, "loss": 0.3154, "step": 8757 }, { "epoch": 2.9193333333333333, "grad_norm": 3.0520951747894287, "learning_rate": 4.4016102799663286e-08, "loss": 0.2659, "step": 8758 }, { "epoch": 2.9196666666666666, "grad_norm": 2.9163260459899902, "learning_rate": 4.365334929239296e-08, "loss": 0.3134, "step": 8759 }, { "epoch": 2.92, "grad_norm": 3.022108554840088, "learning_rate": 4.329209350195651e-08, "loss": 0.2665, "step": 8760 }, { "epoch": 2.9203333333333332, "grad_norm": 3.180701732635498, "learning_rate": 4.293233548269715e-08, "loss": 0.3091, "step": 8761 }, { "epoch": 2.9206666666666665, "grad_norm": 2.8335492610931396, "learning_rate": 4.2574075288732695e-08, "loss": 0.2853, "step": 8762 }, { "epoch": 2.9210000000000003, "grad_norm": 2.3235230445861816, "learning_rate": 4.2217312973955594e-08, "loss": 0.2538, "step": 8763 }, { "epoch": 2.921333333333333, "grad_norm": 3.0265040397644043, "learning_rate": 4.186204859203402e-08, "loss": 0.2802, "step": 8764 }, { "epoch": 2.921666666666667, "grad_norm": 2.692091226577759, "learning_rate": 4.1508282196408565e-08, "loss": 0.2981, "step": 8765 }, { "epoch": 2.922, "grad_norm": 2.9412105083465576, "learning_rate": 4.115601384029666e-08, "loss": 0.2751, "step": 8766 }, { "epoch": 2.9223333333333334, "grad_norm": 3.0869879722595215, "learning_rate": 4.0805243576688137e-08, "loss": 0.2657, "step": 8767 }, { "epoch": 2.9226666666666667, "grad_norm": 2.243602752685547, "learning_rate": 4.0455971458350785e-08, "loss": 0.2775, "step": 8768 }, { "epoch": 2.923, "grad_norm": 2.489879608154297, "learning_rate": 4.010819753782369e-08, "loss": 0.2646, "step": 8769 }, { "epoch": 2.9233333333333333, "grad_norm": 2.572216033935547, "learning_rate": 3.976192186742167e-08, "loss": 0.302, "step": 8770 }, { "epoch": 2.9236666666666666, "grad_norm": 2.6971819400787354, "learning_rate": 3.9417144499235284e-08, "loss": 0.2817, "step": 8771 }, { "epoch": 2.924, "grad_norm": 2.5727109909057617, "learning_rate": 3.907386548512748e-08, "loss": 0.2813, "step": 8772 }, { "epoch": 2.9243333333333332, "grad_norm": 2.8778440952301025, "learning_rate": 3.8732084876738074e-08, "loss": 0.3042, "step": 8773 }, { "epoch": 2.9246666666666665, "grad_norm": 2.5741162300109863, "learning_rate": 3.839180272548148e-08, "loss": 0.2999, "step": 8774 }, { "epoch": 2.925, "grad_norm": 3.396064519882202, "learning_rate": 3.805301908254455e-08, "loss": 0.2713, "step": 8775 }, { "epoch": 2.9253333333333336, "grad_norm": 3.2409653663635254, "learning_rate": 3.771573399888984e-08, "loss": 0.3003, "step": 8776 }, { "epoch": 2.9256666666666664, "grad_norm": 2.7642130851745605, "learning_rate": 3.7379947525255647e-08, "loss": 0.2752, "step": 8777 }, { "epoch": 2.926, "grad_norm": 3.3985610008239746, "learning_rate": 3.704565971215379e-08, "loss": 0.2668, "step": 8778 }, { "epoch": 2.9263333333333335, "grad_norm": 3.264233112335205, "learning_rate": 3.67128706098685e-08, "loss": 0.3252, "step": 8779 }, { "epoch": 2.9266666666666667, "grad_norm": 3.0166070461273193, "learning_rate": 3.6381580268463056e-08, "loss": 0.2828, "step": 8780 }, { "epoch": 2.927, "grad_norm": 2.9065961837768555, "learning_rate": 3.605178873777204e-08, "loss": 0.2941, "step": 8781 }, { "epoch": 2.9273333333333333, "grad_norm": 2.82804799079895, "learning_rate": 3.572349606740466e-08, "loss": 0.2415, "step": 8782 }, { "epoch": 2.9276666666666666, "grad_norm": 2.63553786277771, "learning_rate": 3.539670230674697e-08, "loss": 0.2872, "step": 8783 }, { "epoch": 2.928, "grad_norm": 2.5893568992614746, "learning_rate": 3.50714075049563e-08, "loss": 0.3009, "step": 8784 }, { "epoch": 2.9283333333333332, "grad_norm": 2.66629695892334, "learning_rate": 3.474761171096796e-08, "loss": 0.3355, "step": 8785 }, { "epoch": 2.9286666666666665, "grad_norm": 2.2407281398773193, "learning_rate": 3.4425314973489665e-08, "loss": 0.3102, "step": 8786 }, { "epoch": 2.9290000000000003, "grad_norm": 2.858229160308838, "learning_rate": 3.410451734100262e-08, "loss": 0.2884, "step": 8787 }, { "epoch": 2.929333333333333, "grad_norm": 3.0378124713897705, "learning_rate": 3.3785218861766e-08, "loss": 0.2755, "step": 8788 }, { "epoch": 2.929666666666667, "grad_norm": 2.704277276992798, "learning_rate": 3.346741958380917e-08, "loss": 0.2624, "step": 8789 }, { "epoch": 2.93, "grad_norm": 2.506983757019043, "learning_rate": 3.315111955493944e-08, "loss": 0.2755, "step": 8790 }, { "epoch": 2.9303333333333335, "grad_norm": 2.647427797317505, "learning_rate": 3.283631882273652e-08, "loss": 0.2836, "step": 8791 }, { "epoch": 2.9306666666666668, "grad_norm": 2.4448671340942383, "learning_rate": 3.2523017434556994e-08, "loss": 0.2941, "step": 8792 }, { "epoch": 2.931, "grad_norm": 2.5930871963500977, "learning_rate": 3.22112154375287e-08, "loss": 0.3206, "step": 8793 }, { "epoch": 2.9313333333333333, "grad_norm": 2.7853593826293945, "learning_rate": 3.190091287855523e-08, "loss": 0.2931, "step": 8794 }, { "epoch": 2.9316666666666666, "grad_norm": 2.471060276031494, "learning_rate": 3.159210980431593e-08, "loss": 0.2969, "step": 8795 }, { "epoch": 2.932, "grad_norm": 2.3829121589660645, "learning_rate": 3.1284806261264735e-08, "loss": 0.2588, "step": 8796 }, { "epoch": 2.9323333333333332, "grad_norm": 2.4202351570129395, "learning_rate": 3.0979002295625784e-08, "loss": 0.3011, "step": 8797 }, { "epoch": 2.9326666666666665, "grad_norm": 2.7784998416900635, "learning_rate": 3.0674697953402274e-08, "loss": 0.2689, "step": 8798 }, { "epoch": 2.933, "grad_norm": 2.941844940185547, "learning_rate": 3.037189328036982e-08, "loss": 0.2625, "step": 8799 }, { "epoch": 2.9333333333333336, "grad_norm": 3.1589627265930176, "learning_rate": 3.0070588322079765e-08, "loss": 0.293, "step": 8800 }, { "epoch": 2.9336666666666664, "grad_norm": 3.4796125888824463, "learning_rate": 2.977078312385584e-08, "loss": 0.2607, "step": 8801 }, { "epoch": 2.934, "grad_norm": 3.3186113834381104, "learning_rate": 2.947247773079753e-08, "loss": 0.3206, "step": 8802 }, { "epoch": 2.9343333333333335, "grad_norm": 4.450552463531494, "learning_rate": 2.9175672187778946e-08, "loss": 0.2621, "step": 8803 }, { "epoch": 2.9346666666666668, "grad_norm": 2.775857448577881, "learning_rate": 2.88803665394477e-08, "loss": 0.2972, "step": 8804 }, { "epoch": 2.935, "grad_norm": 3.283463716506958, "learning_rate": 2.858656083022604e-08, "loss": 0.281, "step": 8805 }, { "epoch": 2.9353333333333333, "grad_norm": 2.474742889404297, "learning_rate": 2.829425510431083e-08, "loss": 0.2536, "step": 8806 }, { "epoch": 2.9356666666666666, "grad_norm": 2.8042945861816406, "learning_rate": 2.8003449405672458e-08, "loss": 0.2712, "step": 8807 }, { "epoch": 2.936, "grad_norm": 2.6917357444763184, "learning_rate": 2.7714143778058146e-08, "loss": 0.2737, "step": 8808 }, { "epoch": 2.9363333333333332, "grad_norm": 2.4291574954986572, "learning_rate": 2.742633826498531e-08, "loss": 0.2657, "step": 8809 }, { "epoch": 2.9366666666666665, "grad_norm": 2.866091012954712, "learning_rate": 2.7140032909749315e-08, "loss": 0.2802, "step": 8810 }, { "epoch": 2.9370000000000003, "grad_norm": 2.4283194541931152, "learning_rate": 2.6855227755419046e-08, "loss": 0.3465, "step": 8811 }, { "epoch": 2.937333333333333, "grad_norm": 2.8568625450134277, "learning_rate": 2.6571922844835783e-08, "loss": 0.2679, "step": 8812 }, { "epoch": 2.937666666666667, "grad_norm": 2.929699659347534, "learning_rate": 2.6290118220618778e-08, "loss": 0.2962, "step": 8813 }, { "epoch": 2.9379999999999997, "grad_norm": 2.8102803230285645, "learning_rate": 2.6009813925157446e-08, "loss": 0.2914, "step": 8814 }, { "epoch": 2.9383333333333335, "grad_norm": 3.2309963703155518, "learning_rate": 2.573101000061917e-08, "loss": 0.2689, "step": 8815 }, { "epoch": 2.9386666666666668, "grad_norm": 2.7661852836608887, "learning_rate": 2.545370648894263e-08, "loss": 0.2973, "step": 8816 }, { "epoch": 2.939, "grad_norm": 2.7786664962768555, "learning_rate": 2.5177903431842233e-08, "loss": 0.3057, "step": 8817 }, { "epoch": 2.9393333333333334, "grad_norm": 2.7024149894714355, "learning_rate": 2.490360087080701e-08, "loss": 0.2977, "step": 8818 }, { "epoch": 2.9396666666666667, "grad_norm": 3.231914758682251, "learning_rate": 2.4630798847099515e-08, "loss": 0.2621, "step": 8819 }, { "epoch": 2.94, "grad_norm": 2.3871700763702393, "learning_rate": 2.4359497401758026e-08, "loss": 0.2808, "step": 8820 }, { "epoch": 2.9403333333333332, "grad_norm": 2.7489867210388184, "learning_rate": 2.4089696575592125e-08, "loss": 0.2952, "step": 8821 }, { "epoch": 2.9406666666666665, "grad_norm": 3.195674180984497, "learning_rate": 2.3821396409188236e-08, "loss": 0.2797, "step": 8822 }, { "epoch": 2.941, "grad_norm": 4.3281073570251465, "learning_rate": 2.3554596942907404e-08, "loss": 0.2589, "step": 8823 }, { "epoch": 2.9413333333333336, "grad_norm": 2.6051855087280273, "learning_rate": 2.3289298216883084e-08, "loss": 0.3005, "step": 8824 }, { "epoch": 2.9416666666666664, "grad_norm": 3.024935483932495, "learning_rate": 2.302550027102335e-08, "loss": 0.2852, "step": 8825 }, { "epoch": 2.942, "grad_norm": 2.41211199760437, "learning_rate": 2.2763203145010904e-08, "loss": 0.3205, "step": 8826 }, { "epoch": 2.9423333333333335, "grad_norm": 2.9102654457092285, "learning_rate": 2.2502406878303073e-08, "loss": 0.2795, "step": 8827 }, { "epoch": 2.9426666666666668, "grad_norm": 2.5675880908966064, "learning_rate": 2.22431115101307e-08, "loss": 0.2732, "step": 8828 }, { "epoch": 2.943, "grad_norm": 2.518281936645508, "learning_rate": 2.1985317079500358e-08, "loss": 0.271, "step": 8829 }, { "epoch": 2.9433333333333334, "grad_norm": 3.171485662460327, "learning_rate": 2.1729023625189916e-08, "loss": 0.2942, "step": 8830 }, { "epoch": 2.9436666666666667, "grad_norm": 3.5915727615356445, "learning_rate": 2.147423118575298e-08, "loss": 0.2642, "step": 8831 }, { "epoch": 2.944, "grad_norm": 2.457726240158081, "learning_rate": 2.1220939799520003e-08, "loss": 0.3209, "step": 8832 }, { "epoch": 2.9443333333333332, "grad_norm": 2.735922336578369, "learning_rate": 2.0969149504590502e-08, "loss": 0.3101, "step": 8833 }, { "epoch": 2.9446666666666665, "grad_norm": 2.3944036960601807, "learning_rate": 2.071886033884196e-08, "loss": 0.2734, "step": 8834 }, { "epoch": 2.945, "grad_norm": 3.4252655506134033, "learning_rate": 2.0470072339926482e-08, "loss": 0.3101, "step": 8835 }, { "epoch": 2.945333333333333, "grad_norm": 2.878242254257202, "learning_rate": 2.0222785545265243e-08, "loss": 0.3213, "step": 8836 }, { "epoch": 2.945666666666667, "grad_norm": 2.3861372470855713, "learning_rate": 1.9976999992060708e-08, "loss": 0.2721, "step": 8837 }, { "epoch": 2.9459999999999997, "grad_norm": 2.663137197494507, "learning_rate": 1.973271571728441e-08, "loss": 0.3085, "step": 8838 }, { "epoch": 2.9463333333333335, "grad_norm": 3.4429750442504883, "learning_rate": 1.9489932757683627e-08, "loss": 0.2984, "step": 8839 }, { "epoch": 2.9466666666666668, "grad_norm": 2.8472707271575928, "learning_rate": 1.924865114978025e-08, "loss": 0.3031, "step": 8840 }, { "epoch": 2.947, "grad_norm": 2.4982800483703613, "learning_rate": 1.9008870929869692e-08, "loss": 0.2934, "step": 8841 }, { "epoch": 2.9473333333333334, "grad_norm": 2.4274327754974365, "learning_rate": 1.877059213402088e-08, "loss": 0.2689, "step": 8842 }, { "epoch": 2.9476666666666667, "grad_norm": 2.837003231048584, "learning_rate": 1.8533814798079587e-08, "loss": 0.2516, "step": 8843 }, { "epoch": 2.948, "grad_norm": 3.1296074390411377, "learning_rate": 1.829853895766176e-08, "loss": 0.273, "step": 8844 }, { "epoch": 2.9483333333333333, "grad_norm": 3.437930107116699, "learning_rate": 1.8064764648160203e-08, "loss": 0.3061, "step": 8845 }, { "epoch": 2.9486666666666665, "grad_norm": 3.261267900466919, "learning_rate": 1.7832491904742342e-08, "loss": 0.2867, "step": 8846 }, { "epoch": 2.949, "grad_norm": 2.397674798965454, "learning_rate": 1.7601720762346895e-08, "loss": 0.3029, "step": 8847 }, { "epoch": 2.9493333333333336, "grad_norm": 2.654078483581543, "learning_rate": 1.7372451255690537e-08, "loss": 0.2687, "step": 8848 }, { "epoch": 2.9496666666666664, "grad_norm": 2.8793342113494873, "learning_rate": 1.7144683419259012e-08, "loss": 0.2922, "step": 8849 }, { "epoch": 2.95, "grad_norm": 2.7748007774353027, "learning_rate": 1.6918417287318245e-08, "loss": 0.3039, "step": 8850 }, { "epoch": 2.9503333333333335, "grad_norm": 2.31146240234375, "learning_rate": 1.6693652893902124e-08, "loss": 0.2417, "step": 8851 }, { "epoch": 2.9506666666666668, "grad_norm": 3.0326826572418213, "learning_rate": 1.64703902728236e-08, "loss": 0.3117, "step": 8852 }, { "epoch": 2.951, "grad_norm": 2.6084189414978027, "learning_rate": 1.624862945766692e-08, "loss": 0.2844, "step": 8853 }, { "epoch": 2.9513333333333334, "grad_norm": 2.9113714694976807, "learning_rate": 1.6028370481790956e-08, "loss": 0.304, "step": 8854 }, { "epoch": 2.9516666666666667, "grad_norm": 2.759969472885132, "learning_rate": 1.5809613378330313e-08, "loss": 0.2729, "step": 8855 }, { "epoch": 2.952, "grad_norm": 2.4822583198547363, "learning_rate": 1.5592358180189782e-08, "loss": 0.2942, "step": 8856 }, { "epoch": 2.9523333333333333, "grad_norm": 2.79122257232666, "learning_rate": 1.5376604920053218e-08, "loss": 0.2652, "step": 8857 }, { "epoch": 2.9526666666666666, "grad_norm": 2.5479581356048584, "learning_rate": 1.5162353630374658e-08, "loss": 0.2976, "step": 8858 }, { "epoch": 2.953, "grad_norm": 2.751365900039673, "learning_rate": 1.4949604343383882e-08, "loss": 0.2891, "step": 8859 }, { "epoch": 2.953333333333333, "grad_norm": 2.6232657432556152, "learning_rate": 1.4738357091084177e-08, "loss": 0.3119, "step": 8860 }, { "epoch": 2.953666666666667, "grad_norm": 3.1536614894866943, "learning_rate": 1.4528611905252343e-08, "loss": 0.2886, "step": 8861 }, { "epoch": 2.9539999999999997, "grad_norm": 3.200559616088867, "learning_rate": 1.4320368817443142e-08, "loss": 0.2706, "step": 8862 }, { "epoch": 2.9543333333333335, "grad_norm": 2.559936285018921, "learning_rate": 1.4113627858978185e-08, "loss": 0.2772, "step": 8863 }, { "epoch": 2.9546666666666668, "grad_norm": 2.522646188735962, "learning_rate": 1.390838906096037e-08, "loss": 0.2473, "step": 8864 }, { "epoch": 2.955, "grad_norm": 3.2070045471191406, "learning_rate": 1.370465245426167e-08, "loss": 0.2718, "step": 8865 }, { "epoch": 2.9553333333333334, "grad_norm": 2.79119610786438, "learning_rate": 1.3502418069529788e-08, "loss": 0.2734, "step": 8866 }, { "epoch": 2.9556666666666667, "grad_norm": 2.9469611644744873, "learning_rate": 1.3301685937187059e-08, "loss": 0.2851, "step": 8867 }, { "epoch": 2.956, "grad_norm": 2.522521734237671, "learning_rate": 1.3102456087430437e-08, "loss": 0.2718, "step": 8868 }, { "epoch": 2.9563333333333333, "grad_norm": 3.1588730812072754, "learning_rate": 1.2904728550227063e-08, "loss": 0.2931, "step": 8869 }, { "epoch": 2.9566666666666666, "grad_norm": 3.855165481567383, "learning_rate": 1.2708503355323143e-08, "loss": 0.2566, "step": 8870 }, { "epoch": 2.957, "grad_norm": 2.6898324489593506, "learning_rate": 1.2513780532236175e-08, "loss": 0.3057, "step": 8871 }, { "epoch": 2.9573333333333336, "grad_norm": 3.1755104064941406, "learning_rate": 1.2320560110256064e-08, "loss": 0.2652, "step": 8872 }, { "epoch": 2.9576666666666664, "grad_norm": 2.9274656772613525, "learning_rate": 1.2128842118451777e-08, "loss": 0.3087, "step": 8873 }, { "epoch": 2.958, "grad_norm": 2.385362148284912, "learning_rate": 1.1938626585660252e-08, "loss": 0.2502, "step": 8874 }, { "epoch": 2.9583333333333335, "grad_norm": 2.6086251735687256, "learning_rate": 1.1749913540496372e-08, "loss": 0.2968, "step": 8875 }, { "epoch": 2.958666666666667, "grad_norm": 2.782853841781616, "learning_rate": 1.1562703011347431e-08, "loss": 0.2965, "step": 8876 }, { "epoch": 2.959, "grad_norm": 2.461993932723999, "learning_rate": 1.1376995026376459e-08, "loss": 0.2733, "step": 8877 }, { "epoch": 2.9593333333333334, "grad_norm": 2.6650891304016113, "learning_rate": 1.1192789613518885e-08, "loss": 0.2665, "step": 8878 }, { "epoch": 2.9596666666666667, "grad_norm": 3.9393441677093506, "learning_rate": 1.1010086800483654e-08, "loss": 0.2921, "step": 8879 }, { "epoch": 2.96, "grad_norm": 2.4975881576538086, "learning_rate": 1.0828886614754342e-08, "loss": 0.3024, "step": 8880 }, { "epoch": 2.9603333333333333, "grad_norm": 3.9231061935424805, "learning_rate": 1.064918908359025e-08, "loss": 0.2637, "step": 8881 }, { "epoch": 2.9606666666666666, "grad_norm": 3.9010467529296875, "learning_rate": 1.047099423402087e-08, "loss": 0.3238, "step": 8882 }, { "epoch": 2.961, "grad_norm": 2.276367664337158, "learning_rate": 1.0294302092853647e-08, "loss": 0.3044, "step": 8883 }, { "epoch": 2.961333333333333, "grad_norm": 2.5993893146514893, "learning_rate": 1.011911268666621e-08, "loss": 0.3176, "step": 8884 }, { "epoch": 2.961666666666667, "grad_norm": 2.2738356590270996, "learning_rate": 9.945426041813033e-09, "loss": 0.289, "step": 8885 }, { "epoch": 2.9619999999999997, "grad_norm": 2.6553537845611572, "learning_rate": 9.773242184422105e-09, "loss": 0.3252, "step": 8886 }, { "epoch": 2.9623333333333335, "grad_norm": 3.0266149044036865, "learning_rate": 9.602561140392707e-09, "loss": 0.3202, "step": 8887 }, { "epoch": 2.962666666666667, "grad_norm": 2.6626222133636475, "learning_rate": 9.43338293540319e-09, "loss": 0.2938, "step": 8888 }, { "epoch": 2.963, "grad_norm": 2.998103380203247, "learning_rate": 9.265707594899864e-09, "loss": 0.2711, "step": 8889 }, { "epoch": 2.9633333333333334, "grad_norm": 2.5330536365509033, "learning_rate": 9.099535144108107e-09, "loss": 0.2977, "step": 8890 }, { "epoch": 2.9636666666666667, "grad_norm": 2.795412302017212, "learning_rate": 8.93486560802348e-09, "loss": 0.2998, "step": 8891 }, { "epoch": 2.964, "grad_norm": 2.3846960067749023, "learning_rate": 8.771699011416169e-09, "loss": 0.26, "step": 8892 }, { "epoch": 2.9643333333333333, "grad_norm": 2.4885759353637695, "learning_rate": 8.610035378834315e-09, "loss": 0.2976, "step": 8893 }, { "epoch": 2.9646666666666666, "grad_norm": 3.1964805126190186, "learning_rate": 8.449874734592911e-09, "loss": 0.2814, "step": 8894 }, { "epoch": 2.965, "grad_norm": 3.0799484252929688, "learning_rate": 8.29121710278713e-09, "loss": 0.2843, "step": 8895 }, { "epoch": 2.9653333333333336, "grad_norm": 2.47049617767334, "learning_rate": 8.134062507282325e-09, "loss": 0.2783, "step": 8896 }, { "epoch": 2.9656666666666665, "grad_norm": 2.791684150695801, "learning_rate": 7.978410971720696e-09, "loss": 0.2659, "step": 8897 }, { "epoch": 2.966, "grad_norm": 2.8459582328796387, "learning_rate": 7.824262519514625e-09, "loss": 0.3138, "step": 8898 }, { "epoch": 2.9663333333333335, "grad_norm": 2.905606508255005, "learning_rate": 7.671617173853342e-09, "loss": 0.2964, "step": 8899 }, { "epoch": 2.966666666666667, "grad_norm": 2.8241305351257324, "learning_rate": 7.520474957699586e-09, "loss": 0.2862, "step": 8900 }, { "epoch": 2.967, "grad_norm": 2.9655168056488037, "learning_rate": 7.370835893788508e-09, "loss": 0.2734, "step": 8901 }, { "epoch": 2.9673333333333334, "grad_norm": 2.6931378841400146, "learning_rate": 7.222700004629879e-09, "loss": 0.2774, "step": 8902 }, { "epoch": 2.9676666666666667, "grad_norm": 2.349241256713867, "learning_rate": 7.076067312508095e-09, "loss": 0.2494, "step": 8903 }, { "epoch": 2.968, "grad_norm": 2.342022180557251, "learning_rate": 6.930937839481067e-09, "loss": 0.2921, "step": 8904 }, { "epoch": 2.9683333333333333, "grad_norm": 2.623952627182007, "learning_rate": 6.78731160738022e-09, "loss": 0.2603, "step": 8905 }, { "epoch": 2.9686666666666666, "grad_norm": 3.3460211753845215, "learning_rate": 6.645188637810496e-09, "loss": 0.2664, "step": 8906 }, { "epoch": 2.969, "grad_norm": 3.1493172645568848, "learning_rate": 6.504568952152568e-09, "loss": 0.2839, "step": 8907 }, { "epoch": 2.969333333333333, "grad_norm": 4.228903293609619, "learning_rate": 6.365452571557296e-09, "loss": 0.3293, "step": 8908 }, { "epoch": 2.969666666666667, "grad_norm": 2.522197961807251, "learning_rate": 6.227839516954603e-09, "loss": 0.2875, "step": 8909 }, { "epoch": 2.9699999999999998, "grad_norm": 3.0093445777893066, "learning_rate": 6.091729809042379e-09, "loss": 0.2875, "step": 8910 }, { "epoch": 2.9703333333333335, "grad_norm": 2.496445417404175, "learning_rate": 5.9571234682986865e-09, "loss": 0.2694, "step": 8911 }, { "epoch": 2.970666666666667, "grad_norm": 2.8381736278533936, "learning_rate": 5.8240205149684425e-09, "loss": 0.2849, "step": 8912 }, { "epoch": 2.971, "grad_norm": 3.6021435260772705, "learning_rate": 5.6924209690767395e-09, "loss": 0.3105, "step": 8913 }, { "epoch": 2.9713333333333334, "grad_norm": 2.7306084632873535, "learning_rate": 5.562324850419964e-09, "loss": 0.2775, "step": 8914 }, { "epoch": 2.9716666666666667, "grad_norm": 2.7637147903442383, "learning_rate": 5.433732178566908e-09, "loss": 0.2823, "step": 8915 }, { "epoch": 2.972, "grad_norm": 2.674549102783203, "learning_rate": 5.306642972862097e-09, "loss": 0.2898, "step": 8916 }, { "epoch": 2.9723333333333333, "grad_norm": 2.948591947555542, "learning_rate": 5.181057252423572e-09, "loss": 0.2839, "step": 8917 }, { "epoch": 2.9726666666666666, "grad_norm": 2.808859348297119, "learning_rate": 5.0569750361417756e-09, "loss": 0.2757, "step": 8918 }, { "epoch": 2.973, "grad_norm": 3.442488193511963, "learning_rate": 4.9343963426840006e-09, "loss": 0.3167, "step": 8919 }, { "epoch": 2.9733333333333336, "grad_norm": 3.1572489738464355, "learning_rate": 4.813321190488829e-09, "loss": 0.3027, "step": 8920 }, { "epoch": 2.9736666666666665, "grad_norm": 2.6883466243743896, "learning_rate": 4.69374959776947e-09, "loss": 0.2756, "step": 8921 }, { "epoch": 2.974, "grad_norm": 2.9057698249816895, "learning_rate": 4.575681582512648e-09, "loss": 0.3128, "step": 8922 }, { "epoch": 2.9743333333333335, "grad_norm": 3.025264263153076, "learning_rate": 4.459117162478599e-09, "loss": 0.3089, "step": 8923 }, { "epoch": 2.974666666666667, "grad_norm": 2.6246628761291504, "learning_rate": 4.3440563552032966e-09, "loss": 0.2443, "step": 8924 }, { "epoch": 2.975, "grad_norm": 3.31408429145813, "learning_rate": 4.230499177994007e-09, "loss": 0.2951, "step": 8925 }, { "epoch": 2.9753333333333334, "grad_norm": 2.6302502155303955, "learning_rate": 4.118445647933733e-09, "loss": 0.2875, "step": 8926 }, { "epoch": 2.9756666666666667, "grad_norm": 2.6697728633880615, "learning_rate": 4.00789578187788e-09, "loss": 0.2878, "step": 8927 }, { "epoch": 2.976, "grad_norm": 3.1018121242523193, "learning_rate": 3.898849596456477e-09, "loss": 0.2975, "step": 8928 }, { "epoch": 2.9763333333333333, "grad_norm": 2.2324814796447754, "learning_rate": 3.791307108073072e-09, "loss": 0.2765, "step": 8929 }, { "epoch": 2.9766666666666666, "grad_norm": 2.4368484020233154, "learning_rate": 3.6852683329058336e-09, "loss": 0.2766, "step": 8930 }, { "epoch": 2.977, "grad_norm": 2.7341885566711426, "learning_rate": 3.5807332869042256e-09, "loss": 0.3114, "step": 8931 }, { "epoch": 2.977333333333333, "grad_norm": 2.7942795753479004, "learning_rate": 3.4777019857956673e-09, "loss": 0.3087, "step": 8932 }, { "epoch": 2.977666666666667, "grad_norm": 2.433323621749878, "learning_rate": 3.376174445076652e-09, "loss": 0.2629, "step": 8933 }, { "epoch": 2.9779999999999998, "grad_norm": 2.955286979675293, "learning_rate": 3.276150680021628e-09, "loss": 0.2536, "step": 8934 }, { "epoch": 2.9783333333333335, "grad_norm": 2.6128506660461426, "learning_rate": 3.1776307056763377e-09, "loss": 0.2775, "step": 8935 }, { "epoch": 2.978666666666667, "grad_norm": 2.509894847869873, "learning_rate": 3.0806145368600382e-09, "loss": 0.2979, "step": 8936 }, { "epoch": 2.979, "grad_norm": 2.4434146881103516, "learning_rate": 2.9851021881688314e-09, "loss": 0.2919, "step": 8937 }, { "epoch": 2.9793333333333334, "grad_norm": 2.941469669342041, "learning_rate": 2.891093673969003e-09, "loss": 0.2764, "step": 8938 }, { "epoch": 2.9796666666666667, "grad_norm": 3.115144729614258, "learning_rate": 2.7985890084014642e-09, "loss": 0.3089, "step": 8939 }, { "epoch": 2.98, "grad_norm": 2.6896135807037354, "learning_rate": 2.7075882053828605e-09, "loss": 0.2673, "step": 8940 }, { "epoch": 2.9803333333333333, "grad_norm": 2.709883689880371, "learning_rate": 2.6180912786022417e-09, "loss": 0.2962, "step": 8941 }, { "epoch": 2.9806666666666666, "grad_norm": 3.6445395946502686, "learning_rate": 2.530098241522172e-09, "loss": 0.2974, "step": 8942 }, { "epoch": 2.981, "grad_norm": 2.7211830615997314, "learning_rate": 2.4436091073787304e-09, "loss": 0.2744, "step": 8943 }, { "epoch": 2.981333333333333, "grad_norm": 3.26794695854187, "learning_rate": 2.358623889183731e-09, "loss": 0.3033, "step": 8944 }, { "epoch": 2.9816666666666665, "grad_norm": 2.5109708309173584, "learning_rate": 2.275142599719171e-09, "loss": 0.2935, "step": 8945 }, { "epoch": 2.982, "grad_norm": 2.9378714561462402, "learning_rate": 2.193165251545004e-09, "loss": 0.2845, "step": 8946 }, { "epoch": 2.982333333333333, "grad_norm": 2.8605775833129883, "learning_rate": 2.112691856992477e-09, "loss": 0.3267, "step": 8947 }, { "epoch": 2.982666666666667, "grad_norm": 2.4447317123413086, "learning_rate": 2.0337224281663513e-09, "loss": 0.2842, "step": 8948 }, { "epoch": 2.983, "grad_norm": 2.830991744995117, "learning_rate": 1.956256976947124e-09, "loss": 0.2863, "step": 8949 }, { "epoch": 2.9833333333333334, "grad_norm": 2.756805181503296, "learning_rate": 1.8802955149865854e-09, "loss": 0.2685, "step": 8950 }, { "epoch": 2.9836666666666667, "grad_norm": 2.4384047985076904, "learning_rate": 1.8058380537111508e-09, "loss": 0.2574, "step": 8951 }, { "epoch": 2.984, "grad_norm": 2.951902389526367, "learning_rate": 1.7328846043229707e-09, "loss": 0.2911, "step": 8952 }, { "epoch": 2.9843333333333333, "grad_norm": 2.308881998062134, "learning_rate": 1.6614351777954897e-09, "loss": 0.3056, "step": 8953 }, { "epoch": 2.9846666666666666, "grad_norm": 2.558119297027588, "learning_rate": 1.591489784875666e-09, "loss": 0.3095, "step": 8954 }, { "epoch": 2.985, "grad_norm": 2.842233657836914, "learning_rate": 1.5230484360873043e-09, "loss": 0.2791, "step": 8955 }, { "epoch": 2.985333333333333, "grad_norm": 2.9193780422210693, "learning_rate": 1.4561111417255024e-09, "loss": 0.2897, "step": 8956 }, { "epoch": 2.985666666666667, "grad_norm": 3.5237655639648438, "learning_rate": 1.3906779118577629e-09, "loss": 0.3124, "step": 8957 }, { "epoch": 2.9859999999999998, "grad_norm": 2.5139548778533936, "learning_rate": 1.3267487563284332e-09, "loss": 0.3149, "step": 8958 }, { "epoch": 2.9863333333333335, "grad_norm": 2.702016830444336, "learning_rate": 1.2643236847542651e-09, "loss": 0.2731, "step": 8959 }, { "epoch": 2.986666666666667, "grad_norm": 3.1258480548858643, "learning_rate": 1.203402706525525e-09, "loss": 0.2759, "step": 8960 }, { "epoch": 2.987, "grad_norm": 2.6991403102874756, "learning_rate": 1.1439858308071038e-09, "loss": 0.2904, "step": 8961 }, { "epoch": 2.9873333333333334, "grad_norm": 3.03519606590271, "learning_rate": 1.0860730665362974e-09, "loss": 0.2742, "step": 8962 }, { "epoch": 2.9876666666666667, "grad_norm": 2.721802234649658, "learning_rate": 1.0296644224250251e-09, "loss": 0.3163, "step": 8963 }, { "epoch": 2.988, "grad_norm": 2.404799222946167, "learning_rate": 9.74759906957612e-10, "loss": 0.2419, "step": 8964 }, { "epoch": 2.9883333333333333, "grad_norm": 3.1391725540161133, "learning_rate": 9.21359528395227e-10, "loss": 0.2997, "step": 8965 }, { "epoch": 2.9886666666666666, "grad_norm": 2.79765248298645, "learning_rate": 8.69463294770334e-10, "loss": 0.3074, "step": 8966 }, { "epoch": 2.989, "grad_norm": 3.0155506134033203, "learning_rate": 8.19071213887801e-10, "loss": 0.3102, "step": 8967 }, { "epoch": 2.989333333333333, "grad_norm": 4.02616548538208, "learning_rate": 7.701832933304509e-10, "loss": 0.3333, "step": 8968 }, { "epoch": 2.9896666666666665, "grad_norm": 2.4935452938079834, "learning_rate": 7.227995404512911e-10, "loss": 0.2845, "step": 8969 }, { "epoch": 2.99, "grad_norm": 2.7578625679016113, "learning_rate": 6.769199623779532e-10, "loss": 0.3078, "step": 8970 }, { "epoch": 2.990333333333333, "grad_norm": 2.7171835899353027, "learning_rate": 6.325445660115836e-10, "loss": 0.266, "step": 8971 }, { "epoch": 2.990666666666667, "grad_norm": 2.696808338165283, "learning_rate": 5.896733580290637e-10, "loss": 0.2768, "step": 8972 }, { "epoch": 2.991, "grad_norm": 2.5952298641204834, "learning_rate": 5.483063448785686e-10, "loss": 0.2654, "step": 8973 }, { "epoch": 2.9913333333333334, "grad_norm": 2.4489963054656982, "learning_rate": 5.084435327828985e-10, "loss": 0.2679, "step": 8974 }, { "epoch": 2.9916666666666667, "grad_norm": 2.8265292644500732, "learning_rate": 4.700849277383679e-10, "loss": 0.2911, "step": 8975 }, { "epoch": 2.992, "grad_norm": 2.450324058532715, "learning_rate": 4.332305355159161e-10, "loss": 0.2824, "step": 8976 }, { "epoch": 2.9923333333333333, "grad_norm": 3.007295846939087, "learning_rate": 3.978803616577764e-10, "loss": 0.3109, "step": 8977 }, { "epoch": 2.9926666666666666, "grad_norm": 3.0237977504730225, "learning_rate": 3.6403441148413767e-10, "loss": 0.2973, "step": 8978 }, { "epoch": 2.993, "grad_norm": 3.277015209197998, "learning_rate": 3.316926900842621e-10, "loss": 0.2846, "step": 8979 }, { "epoch": 2.993333333333333, "grad_norm": 3.370955228805542, "learning_rate": 3.008552023242572e-10, "loss": 0.2923, "step": 8980 }, { "epoch": 2.993666666666667, "grad_norm": 2.2583844661712646, "learning_rate": 2.7152195284263493e-10, "loss": 0.3092, "step": 8981 }, { "epoch": 2.9939999999999998, "grad_norm": 2.421344041824341, "learning_rate": 2.436929460525317e-10, "loss": 0.2609, "step": 8982 }, { "epoch": 2.9943333333333335, "grad_norm": 2.6891751289367676, "learning_rate": 2.1736818613837806e-10, "loss": 0.2741, "step": 8983 }, { "epoch": 2.994666666666667, "grad_norm": 2.565328598022461, "learning_rate": 1.9254767706256005e-10, "loss": 0.2975, "step": 8984 }, { "epoch": 2.995, "grad_norm": 2.990316390991211, "learning_rate": 1.6923142255764745e-10, "loss": 0.2762, "step": 8985 }, { "epoch": 2.9953333333333334, "grad_norm": 4.841221332550049, "learning_rate": 1.4741942613194504e-10, "loss": 0.2819, "step": 8986 }, { "epoch": 2.9956666666666667, "grad_norm": 2.6023638248443604, "learning_rate": 1.2711169106505162e-10, "loss": 0.2855, "step": 8987 }, { "epoch": 2.996, "grad_norm": 2.4182286262512207, "learning_rate": 1.0830822041230093e-10, "loss": 0.3069, "step": 8988 }, { "epoch": 2.9963333333333333, "grad_norm": 2.6943249702453613, "learning_rate": 9.100901700254128e-11, "loss": 0.2891, "step": 8989 }, { "epoch": 2.9966666666666666, "grad_norm": 2.745765209197998, "learning_rate": 7.521408343924564e-11, "loss": 0.2778, "step": 8990 }, { "epoch": 2.997, "grad_norm": 3.3236377239227295, "learning_rate": 6.092342209607083e-11, "loss": 0.3248, "step": 8991 }, { "epoch": 2.997333333333333, "grad_norm": 2.255974054336548, "learning_rate": 4.813703512462908e-11, "loss": 0.3085, "step": 8992 }, { "epoch": 2.9976666666666665, "grad_norm": 3.554243803024292, "learning_rate": 3.685492444671645e-11, "loss": 0.3102, "step": 8993 }, { "epoch": 2.998, "grad_norm": 2.609293222427368, "learning_rate": 2.7077091762084396e-11, "loss": 0.2936, "step": 8994 }, { "epoch": 2.998333333333333, "grad_norm": 3.143014430999756, "learning_rate": 1.8803538538447742e-11, "loss": 0.2903, "step": 8995 }, { "epoch": 2.998666666666667, "grad_norm": 2.6035523414611816, "learning_rate": 1.2034266022586948e-11, "loss": 0.2608, "step": 8996 }, { "epoch": 2.999, "grad_norm": 3.172943115234375, "learning_rate": 6.7692752314663104e-12, "loss": 0.2829, "step": 8997 }, { "epoch": 2.9993333333333334, "grad_norm": 2.511382818222046, "learning_rate": 3.008566957785064e-12, "loss": 0.2946, "step": 8998 }, { "epoch": 2.9996666666666667, "grad_norm": 2.7674763202667236, "learning_rate": 7.521417677569531e-13, "loss": 0.2524, "step": 8999 }, { "epoch": 3.0, "grad_norm": 2.613602638244629, "learning_rate": 0.0, "loss": 0.2402, "step": 9000 }, { "epoch": 3.0, "step": 9000, "total_flos": 2.36243460461219e+18, "train_loss": 0.49586538964509963, "train_runtime": 22968.9132, "train_samples_per_second": 6.269, "train_steps_per_second": 0.392 } ], "logging_steps": 1.0, "max_steps": 9000, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.36243460461219e+18, "train_batch_size": 4, "trial_name": null, "trial_params": null }