{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 2880, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0010416666666666667, "grad_norm": 47.51063833401513, "learning_rate": 0.0, "loss": 11.4415, "step": 1 }, { "epoch": 0.0020833333333333333, "grad_norm": 42.09055774842961, "learning_rate": 1.7361111111111112e-07, "loss": 11.5919, "step": 2 }, { "epoch": 0.003125, "grad_norm": 45.06831438546072, "learning_rate": 3.4722222222222224e-07, "loss": 11.4565, "step": 3 }, { "epoch": 0.004166666666666667, "grad_norm": 43.385769916486886, "learning_rate": 5.208333333333334e-07, "loss": 11.5933, "step": 4 }, { "epoch": 0.005208333333333333, "grad_norm": 48.731392870122704, "learning_rate": 6.944444444444445e-07, "loss": 11.3024, "step": 5 }, { "epoch": 0.00625, "grad_norm": 46.366017987561904, "learning_rate": 8.680555555555556e-07, "loss": 11.4799, "step": 6 }, { "epoch": 0.007291666666666667, "grad_norm": 47.38209085091345, "learning_rate": 1.0416666666666667e-06, "loss": 11.3736, "step": 7 }, { "epoch": 0.008333333333333333, "grad_norm": 47.74991206809669, "learning_rate": 1.2152777777777778e-06, "loss": 11.3442, "step": 8 }, { "epoch": 0.009375, "grad_norm": 52.46427339834147, "learning_rate": 1.388888888888889e-06, "loss": 11.0985, "step": 9 }, { "epoch": 0.010416666666666666, "grad_norm": 55.238140299362776, "learning_rate": 1.5625e-06, "loss": 10.9408, "step": 10 }, { "epoch": 0.011458333333333333, "grad_norm": 59.73667112177273, "learning_rate": 1.7361111111111112e-06, "loss": 10.35, "step": 11 }, { "epoch": 0.0125, "grad_norm": 67.37508619318844, "learning_rate": 1.9097222222222225e-06, "loss": 9.9609, "step": 12 }, { "epoch": 0.013541666666666667, "grad_norm": 75.80030160005208, "learning_rate": 2.0833333333333334e-06, "loss": 9.6663, "step": 13 }, { "epoch": 0.014583333333333334, "grad_norm": 67.94776232539726, "learning_rate": 2.2569444444444443e-06, "loss": 10.0362, "step": 14 }, { "epoch": 0.015625, "grad_norm": 92.27777847453068, "learning_rate": 2.4305555555555557e-06, "loss": 5.6795, "step": 15 }, { "epoch": 0.016666666666666666, "grad_norm": 71.48844826472879, "learning_rate": 2.604166666666667e-06, "loss": 4.5559, "step": 16 }, { "epoch": 0.017708333333333333, "grad_norm": 68.04512242489818, "learning_rate": 2.777777777777778e-06, "loss": 4.2929, "step": 17 }, { "epoch": 0.01875, "grad_norm": 50.36609504882094, "learning_rate": 2.951388888888889e-06, "loss": 3.3889, "step": 18 }, { "epoch": 0.019791666666666666, "grad_norm": 42.63232083682945, "learning_rate": 3.125e-06, "loss": 3.1213, "step": 19 }, { "epoch": 0.020833333333333332, "grad_norm": 16.965533804869466, "learning_rate": 3.2986111111111115e-06, "loss": 2.2269, "step": 20 }, { "epoch": 0.021875, "grad_norm": 6.859423658929802, "learning_rate": 3.4722222222222224e-06, "loss": 1.7194, "step": 21 }, { "epoch": 0.022916666666666665, "grad_norm": 10.44185636299968, "learning_rate": 3.6458333333333337e-06, "loss": 1.6451, "step": 22 }, { "epoch": 0.023958333333333335, "grad_norm": 5.4635719229934185, "learning_rate": 3.819444444444445e-06, "loss": 1.7022, "step": 23 }, { "epoch": 0.025, "grad_norm": 5.003429096130346, "learning_rate": 3.993055555555555e-06, "loss": 1.73, "step": 24 }, { "epoch": 0.026041666666666668, "grad_norm": 3.642484876225342, "learning_rate": 4.166666666666667e-06, "loss": 1.5093, "step": 25 }, { "epoch": 0.027083333333333334, "grad_norm": 2.9485416987567796, "learning_rate": 4.340277777777778e-06, "loss": 1.46, "step": 26 }, { "epoch": 0.028125, "grad_norm": 2.437206539106465, "learning_rate": 4.513888888888889e-06, "loss": 1.3768, "step": 27 }, { "epoch": 0.029166666666666667, "grad_norm": 1.6533406169233766, "learning_rate": 4.6875000000000004e-06, "loss": 1.0827, "step": 28 }, { "epoch": 0.030208333333333334, "grad_norm": 1.5822154252282077, "learning_rate": 4.861111111111111e-06, "loss": 1.3364, "step": 29 }, { "epoch": 0.03125, "grad_norm": 6.436880109625189, "learning_rate": 5.034722222222222e-06, "loss": 1.1623, "step": 30 }, { "epoch": 0.03229166666666667, "grad_norm": 2.3381239266326044, "learning_rate": 5.208333333333334e-06, "loss": 1.1905, "step": 31 }, { "epoch": 0.03333333333333333, "grad_norm": 1.233209299216589, "learning_rate": 5.381944444444445e-06, "loss": 1.1745, "step": 32 }, { "epoch": 0.034375, "grad_norm": 0.9559852205483442, "learning_rate": 5.555555555555556e-06, "loss": 0.9915, "step": 33 }, { "epoch": 0.035416666666666666, "grad_norm": 0.8467877077879129, "learning_rate": 5.729166666666667e-06, "loss": 1.0098, "step": 34 }, { "epoch": 0.036458333333333336, "grad_norm": 0.9019712521290414, "learning_rate": 5.902777777777778e-06, "loss": 1.1143, "step": 35 }, { "epoch": 0.0375, "grad_norm": 0.8227694050326709, "learning_rate": 6.076388888888889e-06, "loss": 1.0771, "step": 36 }, { "epoch": 0.03854166666666667, "grad_norm": 0.7696266599781397, "learning_rate": 6.25e-06, "loss": 1.1236, "step": 37 }, { "epoch": 0.03958333333333333, "grad_norm": 0.8002925201012998, "learning_rate": 6.423611111111111e-06, "loss": 1.0961, "step": 38 }, { "epoch": 0.040625, "grad_norm": 0.6568770890170827, "learning_rate": 6.597222222222223e-06, "loss": 1.0626, "step": 39 }, { "epoch": 0.041666666666666664, "grad_norm": 0.6173661129820681, "learning_rate": 6.770833333333333e-06, "loss": 0.9542, "step": 40 }, { "epoch": 0.042708333333333334, "grad_norm": 0.7087249557181576, "learning_rate": 6.944444444444445e-06, "loss": 1.1657, "step": 41 }, { "epoch": 0.04375, "grad_norm": 0.6000742689363139, "learning_rate": 7.118055555555556e-06, "loss": 1.022, "step": 42 }, { "epoch": 0.04479166666666667, "grad_norm": 0.5583189450390544, "learning_rate": 7.2916666666666674e-06, "loss": 0.9586, "step": 43 }, { "epoch": 0.04583333333333333, "grad_norm": 0.5135052186046967, "learning_rate": 7.465277777777778e-06, "loss": 0.8798, "step": 44 }, { "epoch": 0.046875, "grad_norm": 0.6091679806397249, "learning_rate": 7.63888888888889e-06, "loss": 0.9147, "step": 45 }, { "epoch": 0.04791666666666667, "grad_norm": 0.6102829885090832, "learning_rate": 7.8125e-06, "loss": 0.9143, "step": 46 }, { "epoch": 0.04895833333333333, "grad_norm": 0.5032941740192826, "learning_rate": 7.98611111111111e-06, "loss": 0.9935, "step": 47 }, { "epoch": 0.05, "grad_norm": 0.583831449268377, "learning_rate": 8.159722222222222e-06, "loss": 0.9915, "step": 48 }, { "epoch": 0.051041666666666666, "grad_norm": 0.5110314916374219, "learning_rate": 8.333333333333334e-06, "loss": 0.8852, "step": 49 }, { "epoch": 0.052083333333333336, "grad_norm": 0.494875331096757, "learning_rate": 8.506944444444445e-06, "loss": 0.8942, "step": 50 }, { "epoch": 0.053125, "grad_norm": 0.5021832249716842, "learning_rate": 8.680555555555556e-06, "loss": 1.0789, "step": 51 }, { "epoch": 0.05416666666666667, "grad_norm": 0.48106979732945987, "learning_rate": 8.854166666666667e-06, "loss": 0.8728, "step": 52 }, { "epoch": 0.05520833333333333, "grad_norm": 0.3841650609865476, "learning_rate": 9.027777777777777e-06, "loss": 0.9377, "step": 53 }, { "epoch": 0.05625, "grad_norm": 0.4161383680532397, "learning_rate": 9.201388888888889e-06, "loss": 0.9815, "step": 54 }, { "epoch": 0.057291666666666664, "grad_norm": 0.3980643749293236, "learning_rate": 9.375000000000001e-06, "loss": 0.8995, "step": 55 }, { "epoch": 0.058333333333333334, "grad_norm": 0.4536874659135985, "learning_rate": 9.548611111111111e-06, "loss": 1.0005, "step": 56 }, { "epoch": 0.059375, "grad_norm": 0.3689264392478275, "learning_rate": 9.722222222222223e-06, "loss": 0.9308, "step": 57 }, { "epoch": 0.06041666666666667, "grad_norm": 0.3917686323645782, "learning_rate": 9.895833333333333e-06, "loss": 0.8504, "step": 58 }, { "epoch": 0.06145833333333333, "grad_norm": 0.37969957521723724, "learning_rate": 1.0069444444444445e-05, "loss": 0.9689, "step": 59 }, { "epoch": 0.0625, "grad_norm": 0.3467656270169757, "learning_rate": 1.0243055555555556e-05, "loss": 0.746, "step": 60 }, { "epoch": 0.06354166666666666, "grad_norm": 0.3637994647730604, "learning_rate": 1.0416666666666668e-05, "loss": 0.7729, "step": 61 }, { "epoch": 0.06458333333333334, "grad_norm": 0.36513260862825936, "learning_rate": 1.0590277777777778e-05, "loss": 0.9164, "step": 62 }, { "epoch": 0.065625, "grad_norm": 0.3169963160016414, "learning_rate": 1.076388888888889e-05, "loss": 0.7299, "step": 63 }, { "epoch": 0.06666666666666667, "grad_norm": 0.3874653292102387, "learning_rate": 1.09375e-05, "loss": 0.9016, "step": 64 }, { "epoch": 0.06770833333333333, "grad_norm": 0.3387307295246198, "learning_rate": 1.1111111111111112e-05, "loss": 0.8001, "step": 65 }, { "epoch": 0.06875, "grad_norm": 0.35532821196664754, "learning_rate": 1.1284722222222223e-05, "loss": 0.8004, "step": 66 }, { "epoch": 0.06979166666666667, "grad_norm": 0.35472953620267644, "learning_rate": 1.1458333333333333e-05, "loss": 0.8041, "step": 67 }, { "epoch": 0.07083333333333333, "grad_norm": 0.31587564105918453, "learning_rate": 1.1631944444444445e-05, "loss": 0.7701, "step": 68 }, { "epoch": 0.071875, "grad_norm": 0.3685963133045582, "learning_rate": 1.1805555555555555e-05, "loss": 0.6642, "step": 69 }, { "epoch": 0.07291666666666667, "grad_norm": 0.37688252578487286, "learning_rate": 1.1979166666666667e-05, "loss": 0.8094, "step": 70 }, { "epoch": 0.07395833333333333, "grad_norm": 0.3283233434335592, "learning_rate": 1.2152777777777779e-05, "loss": 0.7837, "step": 71 }, { "epoch": 0.075, "grad_norm": 0.3366638504455121, "learning_rate": 1.232638888888889e-05, "loss": 0.7078, "step": 72 }, { "epoch": 0.07604166666666666, "grad_norm": 0.36284552276839843, "learning_rate": 1.25e-05, "loss": 0.7842, "step": 73 }, { "epoch": 0.07708333333333334, "grad_norm": 0.33555255457234984, "learning_rate": 1.267361111111111e-05, "loss": 0.865, "step": 74 }, { "epoch": 0.078125, "grad_norm": 0.47776946356527333, "learning_rate": 1.2847222222222222e-05, "loss": 0.842, "step": 75 }, { "epoch": 0.07916666666666666, "grad_norm": 0.33078212611046937, "learning_rate": 1.3020833333333334e-05, "loss": 0.6939, "step": 76 }, { "epoch": 0.08020833333333334, "grad_norm": 0.3198881424163927, "learning_rate": 1.3194444444444446e-05, "loss": 0.7835, "step": 77 }, { "epoch": 0.08125, "grad_norm": 0.3303635602860148, "learning_rate": 1.3368055555555556e-05, "loss": 0.7584, "step": 78 }, { "epoch": 0.08229166666666667, "grad_norm": 0.3331334024360877, "learning_rate": 1.3541666666666666e-05, "loss": 0.6125, "step": 79 }, { "epoch": 0.08333333333333333, "grad_norm": 0.28511968856644054, "learning_rate": 1.371527777777778e-05, "loss": 0.711, "step": 80 }, { "epoch": 0.084375, "grad_norm": 0.3652007008997983, "learning_rate": 1.388888888888889e-05, "loss": 0.7561, "step": 81 }, { "epoch": 0.08541666666666667, "grad_norm": 0.28906902961464326, "learning_rate": 1.4062500000000001e-05, "loss": 0.7103, "step": 82 }, { "epoch": 0.08645833333333333, "grad_norm": 0.352321963306031, "learning_rate": 1.4236111111111111e-05, "loss": 0.7081, "step": 83 }, { "epoch": 0.0875, "grad_norm": 0.32920245557160677, "learning_rate": 1.4409722222222221e-05, "loss": 0.7422, "step": 84 }, { "epoch": 0.08854166666666667, "grad_norm": 0.3040628117238454, "learning_rate": 1.4583333333333335e-05, "loss": 0.681, "step": 85 }, { "epoch": 0.08958333333333333, "grad_norm": 0.308854855246974, "learning_rate": 1.4756944444444445e-05, "loss": 0.7154, "step": 86 }, { "epoch": 0.090625, "grad_norm": 0.3090255749791354, "learning_rate": 1.4930555555555557e-05, "loss": 0.769, "step": 87 }, { "epoch": 0.09166666666666666, "grad_norm": 0.2983605153760248, "learning_rate": 1.5104166666666667e-05, "loss": 0.7704, "step": 88 }, { "epoch": 0.09270833333333334, "grad_norm": 0.35985627432284906, "learning_rate": 1.527777777777778e-05, "loss": 0.7677, "step": 89 }, { "epoch": 0.09375, "grad_norm": 0.3218737216672417, "learning_rate": 1.545138888888889e-05, "loss": 0.7442, "step": 90 }, { "epoch": 0.09479166666666666, "grad_norm": 0.3537735665271039, "learning_rate": 1.5625e-05, "loss": 0.8558, "step": 91 }, { "epoch": 0.09583333333333334, "grad_norm": 0.3056956769902035, "learning_rate": 1.579861111111111e-05, "loss": 0.7547, "step": 92 }, { "epoch": 0.096875, "grad_norm": 0.3175384554597319, "learning_rate": 1.597222222222222e-05, "loss": 0.7171, "step": 93 }, { "epoch": 0.09791666666666667, "grad_norm": 0.35129322743117203, "learning_rate": 1.6145833333333334e-05, "loss": 0.8693, "step": 94 }, { "epoch": 0.09895833333333333, "grad_norm": 0.3237582710361891, "learning_rate": 1.6319444444444444e-05, "loss": 0.7311, "step": 95 }, { "epoch": 0.1, "grad_norm": 0.36591950513371624, "learning_rate": 1.6493055555555557e-05, "loss": 0.7165, "step": 96 }, { "epoch": 0.10104166666666667, "grad_norm": 0.3787476713660886, "learning_rate": 1.6666666666666667e-05, "loss": 0.8929, "step": 97 }, { "epoch": 0.10208333333333333, "grad_norm": 0.3533874215935907, "learning_rate": 1.684027777777778e-05, "loss": 0.8192, "step": 98 }, { "epoch": 0.103125, "grad_norm": 0.3235099959801038, "learning_rate": 1.701388888888889e-05, "loss": 0.6155, "step": 99 }, { "epoch": 0.10416666666666667, "grad_norm": 0.33448065100958435, "learning_rate": 1.71875e-05, "loss": 0.7263, "step": 100 }, { "epoch": 0.10520833333333333, "grad_norm": 0.291507834314369, "learning_rate": 1.736111111111111e-05, "loss": 0.6238, "step": 101 }, { "epoch": 0.10625, "grad_norm": 0.3370027067153258, "learning_rate": 1.753472222222222e-05, "loss": 0.7439, "step": 102 }, { "epoch": 0.10729166666666666, "grad_norm": 0.29673831960902436, "learning_rate": 1.7708333333333335e-05, "loss": 0.6536, "step": 103 }, { "epoch": 0.10833333333333334, "grad_norm": 0.29946598976422084, "learning_rate": 1.7881944444444445e-05, "loss": 0.6521, "step": 104 }, { "epoch": 0.109375, "grad_norm": 0.34101421706375123, "learning_rate": 1.8055555555555555e-05, "loss": 0.7501, "step": 105 }, { "epoch": 0.11041666666666666, "grad_norm": 0.8556432201610655, "learning_rate": 1.8229166666666668e-05, "loss": 0.8334, "step": 106 }, { "epoch": 0.11145833333333334, "grad_norm": 0.358026333754227, "learning_rate": 1.8402777777777778e-05, "loss": 0.7617, "step": 107 }, { "epoch": 0.1125, "grad_norm": 0.3076286222270155, "learning_rate": 1.857638888888889e-05, "loss": 0.7446, "step": 108 }, { "epoch": 0.11354166666666667, "grad_norm": 0.3362477331664128, "learning_rate": 1.8750000000000002e-05, "loss": 0.8132, "step": 109 }, { "epoch": 0.11458333333333333, "grad_norm": 0.3392534321005257, "learning_rate": 1.8923611111111112e-05, "loss": 0.7924, "step": 110 }, { "epoch": 0.115625, "grad_norm": 0.3429203630915807, "learning_rate": 1.9097222222222222e-05, "loss": 0.8132, "step": 111 }, { "epoch": 0.11666666666666667, "grad_norm": 0.2925697998513692, "learning_rate": 1.9270833333333335e-05, "loss": 0.6184, "step": 112 }, { "epoch": 0.11770833333333333, "grad_norm": 0.3699964380227146, "learning_rate": 1.9444444444444445e-05, "loss": 0.7264, "step": 113 }, { "epoch": 0.11875, "grad_norm": 0.32335798478006555, "learning_rate": 1.9618055555555555e-05, "loss": 0.6965, "step": 114 }, { "epoch": 0.11979166666666667, "grad_norm": 0.3373336300357452, "learning_rate": 1.9791666666666665e-05, "loss": 0.6639, "step": 115 }, { "epoch": 0.12083333333333333, "grad_norm": 0.281283993725958, "learning_rate": 1.996527777777778e-05, "loss": 0.6216, "step": 116 }, { "epoch": 0.121875, "grad_norm": 0.3596204418925635, "learning_rate": 2.013888888888889e-05, "loss": 0.7987, "step": 117 }, { "epoch": 0.12291666666666666, "grad_norm": 0.3427775493672298, "learning_rate": 2.0312500000000002e-05, "loss": 0.8609, "step": 118 }, { "epoch": 0.12395833333333334, "grad_norm": 0.3475793851022344, "learning_rate": 2.0486111111111113e-05, "loss": 0.6298, "step": 119 }, { "epoch": 0.125, "grad_norm": 0.32802301590615923, "learning_rate": 2.0659722222222223e-05, "loss": 0.7659, "step": 120 }, { "epoch": 0.12604166666666666, "grad_norm": 0.28337397727475866, "learning_rate": 2.0833333333333336e-05, "loss": 0.5977, "step": 121 }, { "epoch": 0.12708333333333333, "grad_norm": 0.3646885552415582, "learning_rate": 2.1006944444444446e-05, "loss": 0.6625, "step": 122 }, { "epoch": 0.128125, "grad_norm": 0.35492538004430296, "learning_rate": 2.1180555555555556e-05, "loss": 0.658, "step": 123 }, { "epoch": 0.12916666666666668, "grad_norm": 0.2878812060386609, "learning_rate": 2.1354166666666666e-05, "loss": 0.5977, "step": 124 }, { "epoch": 0.13020833333333334, "grad_norm": 0.3307240635762719, "learning_rate": 2.152777777777778e-05, "loss": 0.6524, "step": 125 }, { "epoch": 0.13125, "grad_norm": 0.3275238066554897, "learning_rate": 2.170138888888889e-05, "loss": 0.6822, "step": 126 }, { "epoch": 0.13229166666666667, "grad_norm": 0.37149301422885006, "learning_rate": 2.1875e-05, "loss": 0.651, "step": 127 }, { "epoch": 0.13333333333333333, "grad_norm": 0.40437211223430936, "learning_rate": 2.2048611111111113e-05, "loss": 0.75, "step": 128 }, { "epoch": 0.134375, "grad_norm": 0.3625771352877022, "learning_rate": 2.2222222222222223e-05, "loss": 0.6614, "step": 129 }, { "epoch": 0.13541666666666666, "grad_norm": 0.3646669534640909, "learning_rate": 2.2395833333333337e-05, "loss": 0.704, "step": 130 }, { "epoch": 0.13645833333333332, "grad_norm": 0.34391914685311625, "learning_rate": 2.2569444444444447e-05, "loss": 0.675, "step": 131 }, { "epoch": 0.1375, "grad_norm": 0.3960769389762042, "learning_rate": 2.2743055555555557e-05, "loss": 0.6325, "step": 132 }, { "epoch": 0.13854166666666667, "grad_norm": 0.3246753664090327, "learning_rate": 2.2916666666666667e-05, "loss": 0.7769, "step": 133 }, { "epoch": 0.13958333333333334, "grad_norm": 0.39050183188645515, "learning_rate": 2.309027777777778e-05, "loss": 0.66, "step": 134 }, { "epoch": 0.140625, "grad_norm": 0.381844232967611, "learning_rate": 2.326388888888889e-05, "loss": 0.7032, "step": 135 }, { "epoch": 0.14166666666666666, "grad_norm": 0.32190903208604676, "learning_rate": 2.34375e-05, "loss": 0.603, "step": 136 }, { "epoch": 0.14270833333333333, "grad_norm": 0.39148681653797046, "learning_rate": 2.361111111111111e-05, "loss": 0.7676, "step": 137 }, { "epoch": 0.14375, "grad_norm": 0.3763646577878749, "learning_rate": 2.378472222222222e-05, "loss": 0.6288, "step": 138 }, { "epoch": 0.14479166666666668, "grad_norm": 0.35795991828687207, "learning_rate": 2.3958333333333334e-05, "loss": 0.7372, "step": 139 }, { "epoch": 0.14583333333333334, "grad_norm": 0.3803572547115925, "learning_rate": 2.4131944444444448e-05, "loss": 0.6732, "step": 140 }, { "epoch": 0.146875, "grad_norm": 0.35915877791768885, "learning_rate": 2.4305555555555558e-05, "loss": 0.6674, "step": 141 }, { "epoch": 0.14791666666666667, "grad_norm": 0.3632362816584568, "learning_rate": 2.4479166666666668e-05, "loss": 0.6577, "step": 142 }, { "epoch": 0.14895833333333333, "grad_norm": 0.33807441704896857, "learning_rate": 2.465277777777778e-05, "loss": 0.7139, "step": 143 }, { "epoch": 0.15, "grad_norm": 0.3350841214377809, "learning_rate": 2.482638888888889e-05, "loss": 0.6606, "step": 144 }, { "epoch": 0.15104166666666666, "grad_norm": 0.34009360023870366, "learning_rate": 2.5e-05, "loss": 0.6409, "step": 145 }, { "epoch": 0.15208333333333332, "grad_norm": 0.33897337130525185, "learning_rate": 2.517361111111111e-05, "loss": 0.552, "step": 146 }, { "epoch": 0.153125, "grad_norm": 0.30739981116482584, "learning_rate": 2.534722222222222e-05, "loss": 0.6877, "step": 147 }, { "epoch": 0.15416666666666667, "grad_norm": 0.3150691292045175, "learning_rate": 2.552083333333333e-05, "loss": 0.6556, "step": 148 }, { "epoch": 0.15520833333333334, "grad_norm": 0.3202867108608993, "learning_rate": 2.5694444444444445e-05, "loss": 0.6523, "step": 149 }, { "epoch": 0.15625, "grad_norm": 0.36407899214145156, "learning_rate": 2.5868055555555558e-05, "loss": 0.7246, "step": 150 }, { "epoch": 0.15729166666666666, "grad_norm": 0.31129011758103314, "learning_rate": 2.604166666666667e-05, "loss": 0.5353, "step": 151 }, { "epoch": 0.15833333333333333, "grad_norm": 0.31492180815802556, "learning_rate": 2.6215277777777782e-05, "loss": 0.6658, "step": 152 }, { "epoch": 0.159375, "grad_norm": 0.3168004537113843, "learning_rate": 2.6388888888888892e-05, "loss": 0.6715, "step": 153 }, { "epoch": 0.16041666666666668, "grad_norm": 0.32168854217205795, "learning_rate": 2.6562500000000002e-05, "loss": 0.6935, "step": 154 }, { "epoch": 0.16145833333333334, "grad_norm": 0.3557314257224066, "learning_rate": 2.6736111111111112e-05, "loss": 0.6864, "step": 155 }, { "epoch": 0.1625, "grad_norm": 0.3412599112316202, "learning_rate": 2.6909722222222222e-05, "loss": 0.5987, "step": 156 }, { "epoch": 0.16354166666666667, "grad_norm": 0.38351947091193667, "learning_rate": 2.7083333333333332e-05, "loss": 0.5921, "step": 157 }, { "epoch": 0.16458333333333333, "grad_norm": 0.41136070832090876, "learning_rate": 2.7256944444444442e-05, "loss": 0.6779, "step": 158 }, { "epoch": 0.165625, "grad_norm": 0.39693616540642224, "learning_rate": 2.743055555555556e-05, "loss": 0.5939, "step": 159 }, { "epoch": 0.16666666666666666, "grad_norm": 0.36665205726968025, "learning_rate": 2.760416666666667e-05, "loss": 0.6402, "step": 160 }, { "epoch": 0.16770833333333332, "grad_norm": 0.4092094240726053, "learning_rate": 2.777777777777778e-05, "loss": 0.6665, "step": 161 }, { "epoch": 0.16875, "grad_norm": 0.37227488579844653, "learning_rate": 2.795138888888889e-05, "loss": 0.6463, "step": 162 }, { "epoch": 0.16979166666666667, "grad_norm": 0.40405537232524213, "learning_rate": 2.8125000000000003e-05, "loss": 0.8119, "step": 163 }, { "epoch": 0.17083333333333334, "grad_norm": 0.3943319057827496, "learning_rate": 2.8298611111111113e-05, "loss": 0.6648, "step": 164 }, { "epoch": 0.171875, "grad_norm": 0.3713524728984079, "learning_rate": 2.8472222222222223e-05, "loss": 0.6662, "step": 165 }, { "epoch": 0.17291666666666666, "grad_norm": 0.31098077737883295, "learning_rate": 2.8645833333333333e-05, "loss": 0.6024, "step": 166 }, { "epoch": 0.17395833333333333, "grad_norm": 0.34161747252453034, "learning_rate": 2.8819444444444443e-05, "loss": 0.6515, "step": 167 }, { "epoch": 0.175, "grad_norm": 0.4058577651508862, "learning_rate": 2.899305555555556e-05, "loss": 0.6253, "step": 168 }, { "epoch": 0.17604166666666668, "grad_norm": 0.3378028267561288, "learning_rate": 2.916666666666667e-05, "loss": 0.6313, "step": 169 }, { "epoch": 0.17708333333333334, "grad_norm": 0.33726591065569017, "learning_rate": 2.934027777777778e-05, "loss": 0.6609, "step": 170 }, { "epoch": 0.178125, "grad_norm": 0.38136803188239066, "learning_rate": 2.951388888888889e-05, "loss": 0.646, "step": 171 }, { "epoch": 0.17916666666666667, "grad_norm": 0.33483764377197217, "learning_rate": 2.96875e-05, "loss": 0.6098, "step": 172 }, { "epoch": 0.18020833333333333, "grad_norm": 0.3529933486886041, "learning_rate": 2.9861111111111113e-05, "loss": 0.6662, "step": 173 }, { "epoch": 0.18125, "grad_norm": 0.37099963403672814, "learning_rate": 3.0034722222222223e-05, "loss": 0.6833, "step": 174 }, { "epoch": 0.18229166666666666, "grad_norm": 0.3774065456404542, "learning_rate": 3.0208333333333334e-05, "loss": 0.7741, "step": 175 }, { "epoch": 0.18333333333333332, "grad_norm": 0.5207235315424558, "learning_rate": 3.0381944444444444e-05, "loss": 0.6509, "step": 176 }, { "epoch": 0.184375, "grad_norm": 0.406042399871769, "learning_rate": 3.055555555555556e-05, "loss": 0.7111, "step": 177 }, { "epoch": 0.18541666666666667, "grad_norm": 0.35976483024343314, "learning_rate": 3.072916666666667e-05, "loss": 0.5688, "step": 178 }, { "epoch": 0.18645833333333334, "grad_norm": 0.5898968365454085, "learning_rate": 3.090277777777778e-05, "loss": 0.6642, "step": 179 }, { "epoch": 0.1875, "grad_norm": 0.36301423776230546, "learning_rate": 3.107638888888889e-05, "loss": 0.5527, "step": 180 }, { "epoch": 0.18854166666666666, "grad_norm": 0.5225608328476176, "learning_rate": 3.125e-05, "loss": 0.6476, "step": 181 }, { "epoch": 0.18958333333333333, "grad_norm": 0.5749749735452212, "learning_rate": 3.142361111111111e-05, "loss": 0.648, "step": 182 }, { "epoch": 0.190625, "grad_norm": 0.3650628810993754, "learning_rate": 3.159722222222222e-05, "loss": 0.6146, "step": 183 }, { "epoch": 0.19166666666666668, "grad_norm": 0.46767067309138693, "learning_rate": 3.177083333333333e-05, "loss": 0.6861, "step": 184 }, { "epoch": 0.19270833333333334, "grad_norm": 0.4614004089112655, "learning_rate": 3.194444444444444e-05, "loss": 0.6955, "step": 185 }, { "epoch": 0.19375, "grad_norm": 0.3745315990664443, "learning_rate": 3.211805555555556e-05, "loss": 0.6647, "step": 186 }, { "epoch": 0.19479166666666667, "grad_norm": 0.4470349218606813, "learning_rate": 3.229166666666667e-05, "loss": 0.6401, "step": 187 }, { "epoch": 0.19583333333333333, "grad_norm": 0.3444737805819242, "learning_rate": 3.246527777777778e-05, "loss": 0.6657, "step": 188 }, { "epoch": 0.196875, "grad_norm": 0.3504416286695642, "learning_rate": 3.263888888888889e-05, "loss": 0.5646, "step": 189 }, { "epoch": 0.19791666666666666, "grad_norm": 0.3497351436186529, "learning_rate": 3.2812500000000005e-05, "loss": 0.6201, "step": 190 }, { "epoch": 0.19895833333333332, "grad_norm": 0.3715919048827126, "learning_rate": 3.2986111111111115e-05, "loss": 0.6648, "step": 191 }, { "epoch": 0.2, "grad_norm": 0.3544529242305213, "learning_rate": 3.3159722222222225e-05, "loss": 0.6218, "step": 192 }, { "epoch": 0.20104166666666667, "grad_norm": 0.35955911343569913, "learning_rate": 3.3333333333333335e-05, "loss": 0.6171, "step": 193 }, { "epoch": 0.20208333333333334, "grad_norm": 0.38316032205952893, "learning_rate": 3.3506944444444445e-05, "loss": 0.6374, "step": 194 }, { "epoch": 0.203125, "grad_norm": 0.3301681493013765, "learning_rate": 3.368055555555556e-05, "loss": 0.6807, "step": 195 }, { "epoch": 0.20416666666666666, "grad_norm": 0.3511563584177325, "learning_rate": 3.385416666666667e-05, "loss": 0.541, "step": 196 }, { "epoch": 0.20520833333333333, "grad_norm": 0.38087051237626424, "learning_rate": 3.402777777777778e-05, "loss": 0.7074, "step": 197 }, { "epoch": 0.20625, "grad_norm": 0.4459275206845334, "learning_rate": 3.420138888888889e-05, "loss": 0.6165, "step": 198 }, { "epoch": 0.20729166666666668, "grad_norm": 0.3276754246844917, "learning_rate": 3.4375e-05, "loss": 0.6879, "step": 199 }, { "epoch": 0.20833333333333334, "grad_norm": 0.37081975455438754, "learning_rate": 3.454861111111111e-05, "loss": 0.6426, "step": 200 }, { "epoch": 0.209375, "grad_norm": 0.3505389494415996, "learning_rate": 3.472222222222222e-05, "loss": 0.6969, "step": 201 }, { "epoch": 0.21041666666666667, "grad_norm": 0.32308864429217954, "learning_rate": 3.489583333333333e-05, "loss": 0.5734, "step": 202 }, { "epoch": 0.21145833333333333, "grad_norm": 0.360217026942591, "learning_rate": 3.506944444444444e-05, "loss": 0.6432, "step": 203 }, { "epoch": 0.2125, "grad_norm": 0.36623139071394667, "learning_rate": 3.524305555555556e-05, "loss": 0.7077, "step": 204 }, { "epoch": 0.21354166666666666, "grad_norm": 0.3635397867549246, "learning_rate": 3.541666666666667e-05, "loss": 0.6273, "step": 205 }, { "epoch": 0.21458333333333332, "grad_norm": 0.4528948382207097, "learning_rate": 3.559027777777778e-05, "loss": 0.7057, "step": 206 }, { "epoch": 0.215625, "grad_norm": 0.39566222535176393, "learning_rate": 3.576388888888889e-05, "loss": 0.6003, "step": 207 }, { "epoch": 0.21666666666666667, "grad_norm": 0.40940995566799454, "learning_rate": 3.59375e-05, "loss": 0.5438, "step": 208 }, { "epoch": 0.21770833333333334, "grad_norm": 0.6019459968580092, "learning_rate": 3.611111111111111e-05, "loss": 0.7626, "step": 209 }, { "epoch": 0.21875, "grad_norm": 0.4190163938492945, "learning_rate": 3.628472222222222e-05, "loss": 0.5916, "step": 210 }, { "epoch": 0.21979166666666666, "grad_norm": 0.4118507472156796, "learning_rate": 3.6458333333333336e-05, "loss": 0.5319, "step": 211 }, { "epoch": 0.22083333333333333, "grad_norm": 0.5408907959595921, "learning_rate": 3.6631944444444446e-05, "loss": 0.6446, "step": 212 }, { "epoch": 0.221875, "grad_norm": 0.3891678344910774, "learning_rate": 3.6805555555555556e-05, "loss": 0.6292, "step": 213 }, { "epoch": 0.22291666666666668, "grad_norm": 0.5796057153045161, "learning_rate": 3.697916666666667e-05, "loss": 0.5657, "step": 214 }, { "epoch": 0.22395833333333334, "grad_norm": 0.3077822864370482, "learning_rate": 3.715277777777778e-05, "loss": 0.5741, "step": 215 }, { "epoch": 0.225, "grad_norm": 0.5329177532918701, "learning_rate": 3.7326388888888893e-05, "loss": 0.6059, "step": 216 }, { "epoch": 0.22604166666666667, "grad_norm": 0.490221753034603, "learning_rate": 3.7500000000000003e-05, "loss": 0.6037, "step": 217 }, { "epoch": 0.22708333333333333, "grad_norm": 0.37804693469192424, "learning_rate": 3.7673611111111114e-05, "loss": 0.7217, "step": 218 }, { "epoch": 0.228125, "grad_norm": 0.44004447285735016, "learning_rate": 3.7847222222222224e-05, "loss": 0.5956, "step": 219 }, { "epoch": 0.22916666666666666, "grad_norm": 0.43857950933769624, "learning_rate": 3.8020833333333334e-05, "loss": 0.8116, "step": 220 }, { "epoch": 0.23020833333333332, "grad_norm": 0.4124725789329595, "learning_rate": 3.8194444444444444e-05, "loss": 0.6079, "step": 221 }, { "epoch": 0.23125, "grad_norm": 0.4189284532306143, "learning_rate": 3.836805555555556e-05, "loss": 0.6156, "step": 222 }, { "epoch": 0.23229166666666667, "grad_norm": 0.3478576159069095, "learning_rate": 3.854166666666667e-05, "loss": 0.6515, "step": 223 }, { "epoch": 0.23333333333333334, "grad_norm": 0.5144540329113602, "learning_rate": 3.871527777777778e-05, "loss": 0.6496, "step": 224 }, { "epoch": 0.234375, "grad_norm": 0.39454164861306645, "learning_rate": 3.888888888888889e-05, "loss": 0.6042, "step": 225 }, { "epoch": 0.23541666666666666, "grad_norm": 0.44492550388773944, "learning_rate": 3.90625e-05, "loss": 0.6322, "step": 226 }, { "epoch": 0.23645833333333333, "grad_norm": 0.5029806919669088, "learning_rate": 3.923611111111111e-05, "loss": 0.5669, "step": 227 }, { "epoch": 0.2375, "grad_norm": 0.42103650978911333, "learning_rate": 3.940972222222222e-05, "loss": 0.5788, "step": 228 }, { "epoch": 0.23854166666666668, "grad_norm": 0.5346555416724855, "learning_rate": 3.958333333333333e-05, "loss": 0.6547, "step": 229 }, { "epoch": 0.23958333333333334, "grad_norm": 0.40627808959602096, "learning_rate": 3.975694444444444e-05, "loss": 0.6237, "step": 230 }, { "epoch": 0.240625, "grad_norm": 0.41631407179443514, "learning_rate": 3.993055555555556e-05, "loss": 0.6729, "step": 231 }, { "epoch": 0.24166666666666667, "grad_norm": 0.4245418046568967, "learning_rate": 4.010416666666667e-05, "loss": 0.6388, "step": 232 }, { "epoch": 0.24270833333333333, "grad_norm": 0.3575976695656885, "learning_rate": 4.027777777777778e-05, "loss": 0.5916, "step": 233 }, { "epoch": 0.24375, "grad_norm": 0.39243848870103654, "learning_rate": 4.045138888888889e-05, "loss": 0.6399, "step": 234 }, { "epoch": 0.24479166666666666, "grad_norm": 0.3789793644066953, "learning_rate": 4.0625000000000005e-05, "loss": 0.5855, "step": 235 }, { "epoch": 0.24583333333333332, "grad_norm": 0.36874958965889065, "learning_rate": 4.0798611111111115e-05, "loss": 0.7047, "step": 236 }, { "epoch": 0.246875, "grad_norm": 0.44722487819942347, "learning_rate": 4.0972222222222225e-05, "loss": 0.6759, "step": 237 }, { "epoch": 0.24791666666666667, "grad_norm": 0.33267768156156435, "learning_rate": 4.1145833333333335e-05, "loss": 0.676, "step": 238 }, { "epoch": 0.24895833333333334, "grad_norm": 0.4760017703513744, "learning_rate": 4.1319444444444445e-05, "loss": 0.6853, "step": 239 }, { "epoch": 0.25, "grad_norm": 0.31407996991155834, "learning_rate": 4.149305555555556e-05, "loss": 0.5719, "step": 240 }, { "epoch": 0.25104166666666666, "grad_norm": 0.3840593808559081, "learning_rate": 4.166666666666667e-05, "loss": 0.5514, "step": 241 }, { "epoch": 0.2520833333333333, "grad_norm": 0.4416921403889444, "learning_rate": 4.184027777777778e-05, "loss": 0.6418, "step": 242 }, { "epoch": 0.253125, "grad_norm": 0.36419898959837266, "learning_rate": 4.201388888888889e-05, "loss": 0.625, "step": 243 }, { "epoch": 0.25416666666666665, "grad_norm": 0.6348676967485913, "learning_rate": 4.21875e-05, "loss": 0.6541, "step": 244 }, { "epoch": 0.2552083333333333, "grad_norm": 0.3314929266642364, "learning_rate": 4.236111111111111e-05, "loss": 0.5855, "step": 245 }, { "epoch": 0.25625, "grad_norm": 0.551845138908134, "learning_rate": 4.253472222222222e-05, "loss": 0.6546, "step": 246 }, { "epoch": 0.25729166666666664, "grad_norm": 0.3391917408271149, "learning_rate": 4.270833333333333e-05, "loss": 0.6709, "step": 247 }, { "epoch": 0.25833333333333336, "grad_norm": 0.40994672459796916, "learning_rate": 4.288194444444444e-05, "loss": 0.5808, "step": 248 }, { "epoch": 0.259375, "grad_norm": 0.4815958574327509, "learning_rate": 4.305555555555556e-05, "loss": 0.6303, "step": 249 }, { "epoch": 0.2604166666666667, "grad_norm": 0.518384503625846, "learning_rate": 4.322916666666667e-05, "loss": 0.6275, "step": 250 }, { "epoch": 0.26145833333333335, "grad_norm": 0.38579180966958426, "learning_rate": 4.340277777777778e-05, "loss": 0.5895, "step": 251 }, { "epoch": 0.2625, "grad_norm": 0.5633125526023225, "learning_rate": 4.357638888888889e-05, "loss": 0.663, "step": 252 }, { "epoch": 0.2635416666666667, "grad_norm": 0.5018335778960216, "learning_rate": 4.375e-05, "loss": 0.543, "step": 253 }, { "epoch": 0.26458333333333334, "grad_norm": 0.486649039615495, "learning_rate": 4.392361111111111e-05, "loss": 0.6985, "step": 254 }, { "epoch": 0.265625, "grad_norm": 0.5793550150532967, "learning_rate": 4.4097222222222226e-05, "loss": 0.6062, "step": 255 }, { "epoch": 0.26666666666666666, "grad_norm": 0.37657504978882617, "learning_rate": 4.4270833333333337e-05, "loss": 0.57, "step": 256 }, { "epoch": 0.2677083333333333, "grad_norm": 0.5169467946057833, "learning_rate": 4.4444444444444447e-05, "loss": 0.667, "step": 257 }, { "epoch": 0.26875, "grad_norm": 0.3846122530384376, "learning_rate": 4.4618055555555563e-05, "loss": 0.6387, "step": 258 }, { "epoch": 0.26979166666666665, "grad_norm": 0.3875356603942324, "learning_rate": 4.4791666666666673e-05, "loss": 0.6639, "step": 259 }, { "epoch": 0.2708333333333333, "grad_norm": 0.43834284183150596, "learning_rate": 4.4965277777777784e-05, "loss": 0.5956, "step": 260 }, { "epoch": 0.271875, "grad_norm": 0.34371919894708924, "learning_rate": 4.5138888888888894e-05, "loss": 0.6101, "step": 261 }, { "epoch": 0.27291666666666664, "grad_norm": 0.4503950951797436, "learning_rate": 4.5312500000000004e-05, "loss": 0.6604, "step": 262 }, { "epoch": 0.27395833333333336, "grad_norm": 0.4454005038545633, "learning_rate": 4.5486111111111114e-05, "loss": 0.5364, "step": 263 }, { "epoch": 0.275, "grad_norm": 0.3995725456715973, "learning_rate": 4.5659722222222224e-05, "loss": 0.6166, "step": 264 }, { "epoch": 0.2760416666666667, "grad_norm": 0.46591338400728183, "learning_rate": 4.5833333333333334e-05, "loss": 0.614, "step": 265 }, { "epoch": 0.27708333333333335, "grad_norm": 0.3792838404846875, "learning_rate": 4.6006944444444444e-05, "loss": 0.6132, "step": 266 }, { "epoch": 0.278125, "grad_norm": 0.3533979450990099, "learning_rate": 4.618055555555556e-05, "loss": 0.5559, "step": 267 }, { "epoch": 0.2791666666666667, "grad_norm": 0.3609931606445968, "learning_rate": 4.635416666666667e-05, "loss": 0.5079, "step": 268 }, { "epoch": 0.28020833333333334, "grad_norm": 0.3542887647116696, "learning_rate": 4.652777777777778e-05, "loss": 0.5658, "step": 269 }, { "epoch": 0.28125, "grad_norm": 0.37846649699235035, "learning_rate": 4.670138888888889e-05, "loss": 0.6511, "step": 270 }, { "epoch": 0.28229166666666666, "grad_norm": 0.4249106903731113, "learning_rate": 4.6875e-05, "loss": 0.62, "step": 271 }, { "epoch": 0.2833333333333333, "grad_norm": 0.32633576880391924, "learning_rate": 4.704861111111111e-05, "loss": 0.5828, "step": 272 }, { "epoch": 0.284375, "grad_norm": 0.49358727432741145, "learning_rate": 4.722222222222222e-05, "loss": 0.5396, "step": 273 }, { "epoch": 0.28541666666666665, "grad_norm": 0.39175419048499605, "learning_rate": 4.739583333333333e-05, "loss": 0.6539, "step": 274 }, { "epoch": 0.2864583333333333, "grad_norm": 0.4631821952889343, "learning_rate": 4.756944444444444e-05, "loss": 0.5515, "step": 275 }, { "epoch": 0.2875, "grad_norm": 0.39545543669001404, "learning_rate": 4.774305555555556e-05, "loss": 0.6552, "step": 276 }, { "epoch": 0.28854166666666664, "grad_norm": 0.4470247626205486, "learning_rate": 4.791666666666667e-05, "loss": 0.6153, "step": 277 }, { "epoch": 0.28958333333333336, "grad_norm": 0.3709228186991074, "learning_rate": 4.809027777777778e-05, "loss": 0.5727, "step": 278 }, { "epoch": 0.290625, "grad_norm": 0.38933606070135596, "learning_rate": 4.8263888888888895e-05, "loss": 0.6256, "step": 279 }, { "epoch": 0.2916666666666667, "grad_norm": 0.39749112496135636, "learning_rate": 4.8437500000000005e-05, "loss": 0.559, "step": 280 }, { "epoch": 0.29270833333333335, "grad_norm": 0.4467128714216029, "learning_rate": 4.8611111111111115e-05, "loss": 0.6693, "step": 281 }, { "epoch": 0.29375, "grad_norm": 0.4091090014441928, "learning_rate": 4.8784722222222225e-05, "loss": 0.6104, "step": 282 }, { "epoch": 0.2947916666666667, "grad_norm": 0.3861434623453881, "learning_rate": 4.8958333333333335e-05, "loss": 0.7161, "step": 283 }, { "epoch": 0.29583333333333334, "grad_norm": 0.4381340201708529, "learning_rate": 4.9131944444444445e-05, "loss": 0.628, "step": 284 }, { "epoch": 0.296875, "grad_norm": 0.3538589415992049, "learning_rate": 4.930555555555556e-05, "loss": 0.6347, "step": 285 }, { "epoch": 0.29791666666666666, "grad_norm": 0.4417623746015018, "learning_rate": 4.947916666666667e-05, "loss": 0.6245, "step": 286 }, { "epoch": 0.2989583333333333, "grad_norm": 0.43568549682246327, "learning_rate": 4.965277777777778e-05, "loss": 0.5893, "step": 287 }, { "epoch": 0.3, "grad_norm": 0.3725297972853406, "learning_rate": 4.982638888888889e-05, "loss": 0.5471, "step": 288 }, { "epoch": 0.30104166666666665, "grad_norm": 0.38960092679531705, "learning_rate": 5e-05, "loss": 0.6039, "step": 289 }, { "epoch": 0.3020833333333333, "grad_norm": 0.39023786867755317, "learning_rate": 4.9980709876543215e-05, "loss": 0.6565, "step": 290 }, { "epoch": 0.303125, "grad_norm": 0.38089561554119916, "learning_rate": 4.996141975308643e-05, "loss": 0.5741, "step": 291 }, { "epoch": 0.30416666666666664, "grad_norm": 0.3606014353638058, "learning_rate": 4.994212962962963e-05, "loss": 0.6502, "step": 292 }, { "epoch": 0.30520833333333336, "grad_norm": 0.4171654440985846, "learning_rate": 4.9922839506172845e-05, "loss": 0.5532, "step": 293 }, { "epoch": 0.30625, "grad_norm": 0.3314952133444657, "learning_rate": 4.990354938271605e-05, "loss": 0.5623, "step": 294 }, { "epoch": 0.3072916666666667, "grad_norm": 0.3960669469768069, "learning_rate": 4.988425925925926e-05, "loss": 0.6899, "step": 295 }, { "epoch": 0.30833333333333335, "grad_norm": 0.4166886562342773, "learning_rate": 4.986496913580247e-05, "loss": 0.5821, "step": 296 }, { "epoch": 0.309375, "grad_norm": 0.3682799231199464, "learning_rate": 4.984567901234568e-05, "loss": 0.5846, "step": 297 }, { "epoch": 0.3104166666666667, "grad_norm": 0.3083533781128748, "learning_rate": 4.982638888888889e-05, "loss": 0.5168, "step": 298 }, { "epoch": 0.31145833333333334, "grad_norm": 0.4401331543383666, "learning_rate": 4.9807098765432105e-05, "loss": 0.5763, "step": 299 }, { "epoch": 0.3125, "grad_norm": 0.3178012160323437, "learning_rate": 4.978780864197531e-05, "loss": 0.5713, "step": 300 }, { "epoch": 0.31354166666666666, "grad_norm": 0.36239617949713254, "learning_rate": 4.976851851851852e-05, "loss": 0.5503, "step": 301 }, { "epoch": 0.3145833333333333, "grad_norm": 0.38543389429569, "learning_rate": 4.974922839506173e-05, "loss": 0.5862, "step": 302 }, { "epoch": 0.315625, "grad_norm": 0.37003106346700715, "learning_rate": 4.972993827160494e-05, "loss": 0.5389, "step": 303 }, { "epoch": 0.31666666666666665, "grad_norm": 0.37688314994913485, "learning_rate": 4.9710648148148146e-05, "loss": 0.5678, "step": 304 }, { "epoch": 0.3177083333333333, "grad_norm": 0.4980721286943041, "learning_rate": 4.969135802469136e-05, "loss": 0.6178, "step": 305 }, { "epoch": 0.31875, "grad_norm": 0.402957316619894, "learning_rate": 4.967206790123457e-05, "loss": 0.6882, "step": 306 }, { "epoch": 0.31979166666666664, "grad_norm": 0.5349189816830078, "learning_rate": 4.965277777777778e-05, "loss": 0.708, "step": 307 }, { "epoch": 0.32083333333333336, "grad_norm": 0.4305870487447785, "learning_rate": 4.9633487654320995e-05, "loss": 0.5332, "step": 308 }, { "epoch": 0.321875, "grad_norm": 0.374006976022147, "learning_rate": 4.96141975308642e-05, "loss": 0.4932, "step": 309 }, { "epoch": 0.3229166666666667, "grad_norm": 0.4806393298429596, "learning_rate": 4.959490740740741e-05, "loss": 0.5874, "step": 310 }, { "epoch": 0.32395833333333335, "grad_norm": 0.36898968764661866, "learning_rate": 4.957561728395062e-05, "loss": 0.5624, "step": 311 }, { "epoch": 0.325, "grad_norm": 0.45192441700202335, "learning_rate": 4.955632716049383e-05, "loss": 0.561, "step": 312 }, { "epoch": 0.3260416666666667, "grad_norm": 0.4322477952435599, "learning_rate": 4.9537037037037035e-05, "loss": 0.6704, "step": 313 }, { "epoch": 0.32708333333333334, "grad_norm": 0.4518274934491098, "learning_rate": 4.951774691358025e-05, "loss": 0.6361, "step": 314 }, { "epoch": 0.328125, "grad_norm": 0.48012540916592245, "learning_rate": 4.949845679012346e-05, "loss": 0.5965, "step": 315 }, { "epoch": 0.32916666666666666, "grad_norm": 0.4004119498949627, "learning_rate": 4.947916666666667e-05, "loss": 0.6227, "step": 316 }, { "epoch": 0.3302083333333333, "grad_norm": 0.38203040908423086, "learning_rate": 4.945987654320988e-05, "loss": 0.533, "step": 317 }, { "epoch": 0.33125, "grad_norm": 0.4152184579586882, "learning_rate": 4.944058641975309e-05, "loss": 0.6219, "step": 318 }, { "epoch": 0.33229166666666665, "grad_norm": 0.3620157070368086, "learning_rate": 4.94212962962963e-05, "loss": 0.6325, "step": 319 }, { "epoch": 0.3333333333333333, "grad_norm": 0.39847813959281503, "learning_rate": 4.940200617283951e-05, "loss": 0.6166, "step": 320 }, { "epoch": 0.334375, "grad_norm": 0.39460701595299863, "learning_rate": 4.938271604938271e-05, "loss": 0.5794, "step": 321 }, { "epoch": 0.33541666666666664, "grad_norm": 0.33111563427925933, "learning_rate": 4.9363425925925925e-05, "loss": 0.5538, "step": 322 }, { "epoch": 0.33645833333333336, "grad_norm": 0.393013576613883, "learning_rate": 4.934413580246914e-05, "loss": 0.5275, "step": 323 }, { "epoch": 0.3375, "grad_norm": 0.3614179941316255, "learning_rate": 4.932484567901235e-05, "loss": 0.627, "step": 324 }, { "epoch": 0.3385416666666667, "grad_norm": 0.3479711676020787, "learning_rate": 4.930555555555556e-05, "loss": 0.6475, "step": 325 }, { "epoch": 0.33958333333333335, "grad_norm": 0.39839572950350266, "learning_rate": 4.928626543209877e-05, "loss": 0.5892, "step": 326 }, { "epoch": 0.340625, "grad_norm": 0.4298310100721368, "learning_rate": 4.926697530864198e-05, "loss": 0.6864, "step": 327 }, { "epoch": 0.3416666666666667, "grad_norm": 0.37120916285877165, "learning_rate": 4.9247685185185185e-05, "loss": 0.66, "step": 328 }, { "epoch": 0.34270833333333334, "grad_norm": 0.3873260608191841, "learning_rate": 4.92283950617284e-05, "loss": 0.5457, "step": 329 }, { "epoch": 0.34375, "grad_norm": 0.33459046581295926, "learning_rate": 4.92091049382716e-05, "loss": 0.6251, "step": 330 }, { "epoch": 0.34479166666666666, "grad_norm": 0.3528077561207552, "learning_rate": 4.9189814814814815e-05, "loss": 0.6573, "step": 331 }, { "epoch": 0.3458333333333333, "grad_norm": 0.3691770534978509, "learning_rate": 4.917052469135803e-05, "loss": 0.6774, "step": 332 }, { "epoch": 0.346875, "grad_norm": 0.3048097625940924, "learning_rate": 4.915123456790124e-05, "loss": 0.5993, "step": 333 }, { "epoch": 0.34791666666666665, "grad_norm": 3.948399882566519, "learning_rate": 4.9131944444444445e-05, "loss": 0.6468, "step": 334 }, { "epoch": 0.3489583333333333, "grad_norm": 0.45642336102611575, "learning_rate": 4.911265432098766e-05, "loss": 0.5619, "step": 335 }, { "epoch": 0.35, "grad_norm": 0.3843986991339695, "learning_rate": 4.909336419753087e-05, "loss": 0.5048, "step": 336 }, { "epoch": 0.35104166666666664, "grad_norm": 0.4044110937297526, "learning_rate": 4.9074074074074075e-05, "loss": 0.5947, "step": 337 }, { "epoch": 0.35208333333333336, "grad_norm": 0.3773303164758128, "learning_rate": 4.905478395061729e-05, "loss": 0.5638, "step": 338 }, { "epoch": 0.353125, "grad_norm": 0.37281311556288316, "learning_rate": 4.903549382716049e-05, "loss": 0.5595, "step": 339 }, { "epoch": 0.3541666666666667, "grad_norm": 1.6901789695708418, "learning_rate": 4.9016203703703705e-05, "loss": 0.535, "step": 340 }, { "epoch": 0.35520833333333335, "grad_norm": 0.47689255813569853, "learning_rate": 4.899691358024692e-05, "loss": 0.6255, "step": 341 }, { "epoch": 0.35625, "grad_norm": 0.3453668330285481, "learning_rate": 4.897762345679013e-05, "loss": 0.5611, "step": 342 }, { "epoch": 0.3572916666666667, "grad_norm": 0.4644465260807283, "learning_rate": 4.8958333333333335e-05, "loss": 0.5965, "step": 343 }, { "epoch": 0.35833333333333334, "grad_norm": 0.39463962071740033, "learning_rate": 4.893904320987655e-05, "loss": 0.6582, "step": 344 }, { "epoch": 0.359375, "grad_norm": 0.3975178881716466, "learning_rate": 4.891975308641975e-05, "loss": 0.5938, "step": 345 }, { "epoch": 0.36041666666666666, "grad_norm": 0.4551880242374458, "learning_rate": 4.8900462962962965e-05, "loss": 0.643, "step": 346 }, { "epoch": 0.3614583333333333, "grad_norm": 0.33947310675140346, "learning_rate": 4.888117283950617e-05, "loss": 0.5079, "step": 347 }, { "epoch": 0.3625, "grad_norm": 0.4239244580018758, "learning_rate": 4.886188271604938e-05, "loss": 0.5626, "step": 348 }, { "epoch": 0.36354166666666665, "grad_norm": 0.41746715823232283, "learning_rate": 4.8842592592592595e-05, "loss": 0.5695, "step": 349 }, { "epoch": 0.3645833333333333, "grad_norm": 0.4270723322658174, "learning_rate": 4.882330246913581e-05, "loss": 0.6588, "step": 350 }, { "epoch": 0.365625, "grad_norm": 0.4138138955568989, "learning_rate": 4.880401234567901e-05, "loss": 0.5302, "step": 351 }, { "epoch": 0.36666666666666664, "grad_norm": 0.3842891326727766, "learning_rate": 4.8784722222222225e-05, "loss": 0.5135, "step": 352 }, { "epoch": 0.36770833333333336, "grad_norm": 0.4039697423742571, "learning_rate": 4.876543209876544e-05, "loss": 0.6366, "step": 353 }, { "epoch": 0.36875, "grad_norm": 0.32133117386786336, "learning_rate": 4.874614197530864e-05, "loss": 0.6004, "step": 354 }, { "epoch": 0.3697916666666667, "grad_norm": 0.42204082362784234, "learning_rate": 4.8726851851851855e-05, "loss": 0.6293, "step": 355 }, { "epoch": 0.37083333333333335, "grad_norm": 0.30063851479576365, "learning_rate": 4.870756172839506e-05, "loss": 0.5518, "step": 356 }, { "epoch": 0.371875, "grad_norm": 0.35916958540152905, "learning_rate": 4.868827160493827e-05, "loss": 0.6273, "step": 357 }, { "epoch": 0.3729166666666667, "grad_norm": 0.3463680901669774, "learning_rate": 4.8668981481481485e-05, "loss": 0.5879, "step": 358 }, { "epoch": 0.37395833333333334, "grad_norm": 0.3144858826322904, "learning_rate": 4.86496913580247e-05, "loss": 0.5593, "step": 359 }, { "epoch": 0.375, "grad_norm": 0.322538609898077, "learning_rate": 4.86304012345679e-05, "loss": 0.5554, "step": 360 }, { "epoch": 0.37604166666666666, "grad_norm": 0.39086520639055317, "learning_rate": 4.8611111111111115e-05, "loss": 0.6189, "step": 361 }, { "epoch": 0.3770833333333333, "grad_norm": 0.3213053176230357, "learning_rate": 4.859182098765433e-05, "loss": 0.5384, "step": 362 }, { "epoch": 0.378125, "grad_norm": 0.4127736215773483, "learning_rate": 4.857253086419753e-05, "loss": 0.6306, "step": 363 }, { "epoch": 0.37916666666666665, "grad_norm": 0.3211203074614528, "learning_rate": 4.855324074074074e-05, "loss": 0.5898, "step": 364 }, { "epoch": 0.3802083333333333, "grad_norm": 0.36873453788524857, "learning_rate": 4.853395061728395e-05, "loss": 0.6716, "step": 365 }, { "epoch": 0.38125, "grad_norm": 0.3083916877291272, "learning_rate": 4.851466049382716e-05, "loss": 0.5173, "step": 366 }, { "epoch": 0.38229166666666664, "grad_norm": 0.3884208953605103, "learning_rate": 4.8495370370370375e-05, "loss": 0.6108, "step": 367 }, { "epoch": 0.38333333333333336, "grad_norm": 0.3047404427239571, "learning_rate": 4.847608024691358e-05, "loss": 0.554, "step": 368 }, { "epoch": 0.384375, "grad_norm": 0.3696260096352407, "learning_rate": 4.845679012345679e-05, "loss": 0.6106, "step": 369 }, { "epoch": 0.3854166666666667, "grad_norm": 0.3188511832018535, "learning_rate": 4.8437500000000005e-05, "loss": 0.5735, "step": 370 }, { "epoch": 0.38645833333333335, "grad_norm": 0.38460588588438155, "learning_rate": 4.841820987654321e-05, "loss": 0.5704, "step": 371 }, { "epoch": 0.3875, "grad_norm": 0.33312500451865706, "learning_rate": 4.839891975308642e-05, "loss": 0.6045, "step": 372 }, { "epoch": 0.3885416666666667, "grad_norm": 0.36180060765281613, "learning_rate": 4.837962962962963e-05, "loss": 0.6378, "step": 373 }, { "epoch": 0.38958333333333334, "grad_norm": 0.31756209847583927, "learning_rate": 4.836033950617284e-05, "loss": 0.6666, "step": 374 }, { "epoch": 0.390625, "grad_norm": 0.3402264676222544, "learning_rate": 4.834104938271605e-05, "loss": 0.6045, "step": 375 }, { "epoch": 0.39166666666666666, "grad_norm": 0.3693404492938447, "learning_rate": 4.8321759259259265e-05, "loss": 0.5856, "step": 376 }, { "epoch": 0.3927083333333333, "grad_norm": 1.0362480210688123, "learning_rate": 4.830246913580247e-05, "loss": 0.5952, "step": 377 }, { "epoch": 0.39375, "grad_norm": 0.45039720248095844, "learning_rate": 4.828317901234568e-05, "loss": 0.6857, "step": 378 }, { "epoch": 0.39479166666666665, "grad_norm": 0.3709843639830396, "learning_rate": 4.8263888888888895e-05, "loss": 0.5644, "step": 379 }, { "epoch": 0.3958333333333333, "grad_norm": 0.43158495434655975, "learning_rate": 4.82445987654321e-05, "loss": 0.6619, "step": 380 }, { "epoch": 0.396875, "grad_norm": 0.3052189708981025, "learning_rate": 4.8225308641975306e-05, "loss": 0.5345, "step": 381 }, { "epoch": 0.39791666666666664, "grad_norm": 0.4667551829560197, "learning_rate": 4.820601851851852e-05, "loss": 0.7509, "step": 382 }, { "epoch": 0.39895833333333336, "grad_norm": 0.3970440062261699, "learning_rate": 4.818672839506173e-05, "loss": 0.658, "step": 383 }, { "epoch": 0.4, "grad_norm": 0.3733990308018188, "learning_rate": 4.816743827160494e-05, "loss": 0.6113, "step": 384 }, { "epoch": 0.4010416666666667, "grad_norm": 0.4282683908150262, "learning_rate": 4.814814814814815e-05, "loss": 0.5273, "step": 385 }, { "epoch": 0.40208333333333335, "grad_norm": 0.39947303424752395, "learning_rate": 4.812885802469136e-05, "loss": 0.5937, "step": 386 }, { "epoch": 0.403125, "grad_norm": 0.45387937276035023, "learning_rate": 4.810956790123457e-05, "loss": 0.6197, "step": 387 }, { "epoch": 0.4041666666666667, "grad_norm": 0.33071650633679045, "learning_rate": 4.809027777777778e-05, "loss": 0.5672, "step": 388 }, { "epoch": 0.40520833333333334, "grad_norm": 0.37708196737322774, "learning_rate": 4.807098765432099e-05, "loss": 0.6235, "step": 389 }, { "epoch": 0.40625, "grad_norm": 0.3257830819104186, "learning_rate": 4.8051697530864196e-05, "loss": 0.5862, "step": 390 }, { "epoch": 0.40729166666666666, "grad_norm": 0.34375036706417417, "learning_rate": 4.803240740740741e-05, "loss": 0.647, "step": 391 }, { "epoch": 0.4083333333333333, "grad_norm": 0.30644247834381466, "learning_rate": 4.801311728395062e-05, "loss": 0.5738, "step": 392 }, { "epoch": 0.409375, "grad_norm": 0.3612022379612854, "learning_rate": 4.799382716049383e-05, "loss": 0.595, "step": 393 }, { "epoch": 0.41041666666666665, "grad_norm": 0.30001839312752854, "learning_rate": 4.797453703703704e-05, "loss": 0.5226, "step": 394 }, { "epoch": 0.4114583333333333, "grad_norm": 0.33710448119595665, "learning_rate": 4.795524691358025e-05, "loss": 0.6363, "step": 395 }, { "epoch": 0.4125, "grad_norm": 0.2797936154636547, "learning_rate": 4.793595679012346e-05, "loss": 0.5643, "step": 396 }, { "epoch": 0.41354166666666664, "grad_norm": 0.2848962163899317, "learning_rate": 4.791666666666667e-05, "loss": 0.5654, "step": 397 }, { "epoch": 0.41458333333333336, "grad_norm": 0.3566643064902196, "learning_rate": 4.7897376543209874e-05, "loss": 0.5522, "step": 398 }, { "epoch": 0.415625, "grad_norm": 0.3283932050166842, "learning_rate": 4.7878086419753086e-05, "loss": 0.5249, "step": 399 }, { "epoch": 0.4166666666666667, "grad_norm": 0.32013695341708504, "learning_rate": 4.78587962962963e-05, "loss": 0.549, "step": 400 }, { "epoch": 0.41770833333333335, "grad_norm": 0.3058821200817595, "learning_rate": 4.783950617283951e-05, "loss": 0.6395, "step": 401 }, { "epoch": 0.41875, "grad_norm": 0.30623985849408303, "learning_rate": 4.7820216049382716e-05, "loss": 0.6322, "step": 402 }, { "epoch": 0.4197916666666667, "grad_norm": 0.3038951523028472, "learning_rate": 4.780092592592593e-05, "loss": 0.5445, "step": 403 }, { "epoch": 0.42083333333333334, "grad_norm": 0.321280754121727, "learning_rate": 4.778163580246914e-05, "loss": 0.6416, "step": 404 }, { "epoch": 0.421875, "grad_norm": 0.3754068247152495, "learning_rate": 4.7762345679012346e-05, "loss": 0.6039, "step": 405 }, { "epoch": 0.42291666666666666, "grad_norm": 0.30837618419390306, "learning_rate": 4.774305555555556e-05, "loss": 0.502, "step": 406 }, { "epoch": 0.4239583333333333, "grad_norm": 0.38857409375817886, "learning_rate": 4.7723765432098764e-05, "loss": 0.5498, "step": 407 }, { "epoch": 0.425, "grad_norm": 0.3685832027528007, "learning_rate": 4.7704475308641976e-05, "loss": 0.5885, "step": 408 }, { "epoch": 0.42604166666666665, "grad_norm": 2.784767651223169, "learning_rate": 4.768518518518519e-05, "loss": 0.6223, "step": 409 }, { "epoch": 0.4270833333333333, "grad_norm": 0.6151907290580507, "learning_rate": 4.76658950617284e-05, "loss": 0.61, "step": 410 }, { "epoch": 0.428125, "grad_norm": 0.3223077359577649, "learning_rate": 4.7646604938271606e-05, "loss": 0.6685, "step": 411 }, { "epoch": 0.42916666666666664, "grad_norm": 0.5428871109088609, "learning_rate": 4.762731481481482e-05, "loss": 0.5498, "step": 412 }, { "epoch": 0.43020833333333336, "grad_norm": 0.4091747298236563, "learning_rate": 4.760802469135803e-05, "loss": 0.6343, "step": 413 }, { "epoch": 0.43125, "grad_norm": 6.029474663601309, "learning_rate": 4.7588734567901236e-05, "loss": 0.7646, "step": 414 }, { "epoch": 0.4322916666666667, "grad_norm": 0.7696718058882872, "learning_rate": 4.756944444444444e-05, "loss": 0.5212, "step": 415 }, { "epoch": 0.43333333333333335, "grad_norm": 0.3398630122298819, "learning_rate": 4.7550154320987653e-05, "loss": 0.5381, "step": 416 }, { "epoch": 0.434375, "grad_norm": 0.6737173215295075, "learning_rate": 4.7530864197530866e-05, "loss": 0.637, "step": 417 }, { "epoch": 0.4354166666666667, "grad_norm": 0.49915525651648257, "learning_rate": 4.751157407407408e-05, "loss": 0.5729, "step": 418 }, { "epoch": 0.43645833333333334, "grad_norm": 0.4068910020004094, "learning_rate": 4.749228395061729e-05, "loss": 0.5659, "step": 419 }, { "epoch": 0.4375, "grad_norm": 0.6083911754966532, "learning_rate": 4.7472993827160496e-05, "loss": 0.6097, "step": 420 }, { "epoch": 0.43854166666666666, "grad_norm": 0.36484189512217247, "learning_rate": 4.745370370370371e-05, "loss": 0.6028, "step": 421 }, { "epoch": 0.4395833333333333, "grad_norm": 0.4934175056109066, "learning_rate": 4.743441358024692e-05, "loss": 0.604, "step": 422 }, { "epoch": 0.440625, "grad_norm": 0.5211515538145459, "learning_rate": 4.7415123456790126e-05, "loss": 0.6567, "step": 423 }, { "epoch": 0.44166666666666665, "grad_norm": 10.217219994923603, "learning_rate": 4.739583333333333e-05, "loss": 0.6525, "step": 424 }, { "epoch": 0.4427083333333333, "grad_norm": 0.5466179484029606, "learning_rate": 4.7376543209876543e-05, "loss": 0.521, "step": 425 }, { "epoch": 0.44375, "grad_norm": 0.44733928869311645, "learning_rate": 4.7357253086419756e-05, "loss": 0.569, "step": 426 }, { "epoch": 0.44479166666666664, "grad_norm": 0.40594197839020113, "learning_rate": 4.733796296296297e-05, "loss": 0.5635, "step": 427 }, { "epoch": 0.44583333333333336, "grad_norm": 0.5358101076018321, "learning_rate": 4.7318672839506173e-05, "loss": 0.572, "step": 428 }, { "epoch": 0.446875, "grad_norm": 0.3876372709520447, "learning_rate": 4.7299382716049386e-05, "loss": 0.5259, "step": 429 }, { "epoch": 0.4479166666666667, "grad_norm": 0.4481732637902057, "learning_rate": 4.72800925925926e-05, "loss": 0.5013, "step": 430 }, { "epoch": 0.44895833333333335, "grad_norm": 0.4643086152925869, "learning_rate": 4.72608024691358e-05, "loss": 0.584, "step": 431 }, { "epoch": 0.45, "grad_norm": 0.37583115862752414, "learning_rate": 4.724151234567901e-05, "loss": 0.6464, "step": 432 }, { "epoch": 0.4510416666666667, "grad_norm": 0.3755565684915148, "learning_rate": 4.722222222222222e-05, "loss": 0.5525, "step": 433 }, { "epoch": 0.45208333333333334, "grad_norm": 0.3577180961079396, "learning_rate": 4.720293209876543e-05, "loss": 0.5183, "step": 434 }, { "epoch": 0.453125, "grad_norm": 4.1166080780061325, "learning_rate": 4.7183641975308646e-05, "loss": 0.6033, "step": 435 }, { "epoch": 0.45416666666666666, "grad_norm": 0.4541017150912817, "learning_rate": 4.716435185185186e-05, "loss": 0.5846, "step": 436 }, { "epoch": 0.4552083333333333, "grad_norm": 0.307319844428996, "learning_rate": 4.714506172839506e-05, "loss": 0.5041, "step": 437 }, { "epoch": 0.45625, "grad_norm": 0.32315503932092426, "learning_rate": 4.7125771604938276e-05, "loss": 0.5426, "step": 438 }, { "epoch": 0.45729166666666665, "grad_norm": 0.39500309592128713, "learning_rate": 4.710648148148149e-05, "loss": 0.5382, "step": 439 }, { "epoch": 0.4583333333333333, "grad_norm": 0.3597824840876997, "learning_rate": 4.708719135802469e-05, "loss": 0.5701, "step": 440 }, { "epoch": 0.459375, "grad_norm": 0.3341526978240995, "learning_rate": 4.70679012345679e-05, "loss": 0.645, "step": 441 }, { "epoch": 0.46041666666666664, "grad_norm": 0.35905358323635, "learning_rate": 4.704861111111111e-05, "loss": 0.6054, "step": 442 }, { "epoch": 0.46145833333333336, "grad_norm": 0.31571946136932794, "learning_rate": 4.702932098765432e-05, "loss": 0.5852, "step": 443 }, { "epoch": 0.4625, "grad_norm": 0.3203875972010339, "learning_rate": 4.7010030864197536e-05, "loss": 0.6682, "step": 444 }, { "epoch": 0.4635416666666667, "grad_norm": 0.3379838221027383, "learning_rate": 4.699074074074074e-05, "loss": 0.5986, "step": 445 }, { "epoch": 0.46458333333333335, "grad_norm": 0.3268162225139668, "learning_rate": 4.697145061728395e-05, "loss": 0.6375, "step": 446 }, { "epoch": 0.465625, "grad_norm": 0.27468739311088064, "learning_rate": 4.6952160493827166e-05, "loss": 0.5132, "step": 447 }, { "epoch": 0.4666666666666667, "grad_norm": 0.41245112734086964, "learning_rate": 4.693287037037037e-05, "loss": 0.631, "step": 448 }, { "epoch": 0.46770833333333334, "grad_norm": 0.29316116912392054, "learning_rate": 4.691358024691358e-05, "loss": 0.5258, "step": 449 }, { "epoch": 0.46875, "grad_norm": 0.3352008121266504, "learning_rate": 4.689429012345679e-05, "loss": 0.5074, "step": 450 }, { "epoch": 0.46979166666666666, "grad_norm": 0.4223360437572538, "learning_rate": 4.6875e-05, "loss": 0.6038, "step": 451 }, { "epoch": 0.4708333333333333, "grad_norm": 0.27987059185789837, "learning_rate": 4.685570987654321e-05, "loss": 0.5285, "step": 452 }, { "epoch": 0.471875, "grad_norm": 0.4133331312264416, "learning_rate": 4.6836419753086425e-05, "loss": 0.5831, "step": 453 }, { "epoch": 0.47291666666666665, "grad_norm": 0.372091329433486, "learning_rate": 4.681712962962963e-05, "loss": 0.6023, "step": 454 }, { "epoch": 0.4739583333333333, "grad_norm": 0.313072597949445, "learning_rate": 4.679783950617284e-05, "loss": 0.5992, "step": 455 }, { "epoch": 0.475, "grad_norm": 0.4097427301776589, "learning_rate": 4.6778549382716055e-05, "loss": 0.6003, "step": 456 }, { "epoch": 0.47604166666666664, "grad_norm": 0.34625729394757837, "learning_rate": 4.675925925925926e-05, "loss": 0.64, "step": 457 }, { "epoch": 0.47708333333333336, "grad_norm": 0.3594715245501156, "learning_rate": 4.6739969135802466e-05, "loss": 0.5681, "step": 458 }, { "epoch": 0.478125, "grad_norm": 0.4093029118762391, "learning_rate": 4.672067901234568e-05, "loss": 0.6064, "step": 459 }, { "epoch": 0.4791666666666667, "grad_norm": 0.3381566726715259, "learning_rate": 4.670138888888889e-05, "loss": 0.6113, "step": 460 }, { "epoch": 0.48020833333333335, "grad_norm": 0.2980703521502144, "learning_rate": 4.66820987654321e-05, "loss": 0.5541, "step": 461 }, { "epoch": 0.48125, "grad_norm": 0.31151235024542884, "learning_rate": 4.666280864197531e-05, "loss": 0.5754, "step": 462 }, { "epoch": 0.4822916666666667, "grad_norm": 0.3374928738105221, "learning_rate": 4.664351851851852e-05, "loss": 0.5855, "step": 463 }, { "epoch": 0.48333333333333334, "grad_norm": 0.27726310125952086, "learning_rate": 4.662422839506173e-05, "loss": 0.6076, "step": 464 }, { "epoch": 0.484375, "grad_norm": 0.2972353920912402, "learning_rate": 4.6604938271604945e-05, "loss": 0.5449, "step": 465 }, { "epoch": 0.48541666666666666, "grad_norm": 0.27879216198511625, "learning_rate": 4.658564814814815e-05, "loss": 0.4835, "step": 466 }, { "epoch": 0.4864583333333333, "grad_norm": 0.3144390201812904, "learning_rate": 4.6566358024691356e-05, "loss": 0.5574, "step": 467 }, { "epoch": 0.4875, "grad_norm": 0.31710224163171774, "learning_rate": 4.654706790123457e-05, "loss": 0.5699, "step": 468 }, { "epoch": 0.48854166666666665, "grad_norm": 0.34055297986640287, "learning_rate": 4.652777777777778e-05, "loss": 0.6754, "step": 469 }, { "epoch": 0.4895833333333333, "grad_norm": 0.3296594630365565, "learning_rate": 4.650848765432099e-05, "loss": 0.6144, "step": 470 }, { "epoch": 0.490625, "grad_norm": 0.2750031858986177, "learning_rate": 4.64891975308642e-05, "loss": 0.5218, "step": 471 }, { "epoch": 0.49166666666666664, "grad_norm": 0.36381744093240015, "learning_rate": 4.646990740740741e-05, "loss": 0.6393, "step": 472 }, { "epoch": 0.49270833333333336, "grad_norm": 0.315251486050879, "learning_rate": 4.645061728395062e-05, "loss": 0.6641, "step": 473 }, { "epoch": 0.49375, "grad_norm": 0.29332796344452877, "learning_rate": 4.643132716049383e-05, "loss": 0.5552, "step": 474 }, { "epoch": 0.4947916666666667, "grad_norm": 0.36974957783443135, "learning_rate": 4.6412037037037034e-05, "loss": 0.5534, "step": 475 }, { "epoch": 0.49583333333333335, "grad_norm": 0.25475005745746176, "learning_rate": 4.6392746913580246e-05, "loss": 0.5725, "step": 476 }, { "epoch": 0.496875, "grad_norm": 0.3428228044492036, "learning_rate": 4.637345679012346e-05, "loss": 0.6148, "step": 477 }, { "epoch": 0.4979166666666667, "grad_norm": 0.25575738532060743, "learning_rate": 4.635416666666667e-05, "loss": 0.5304, "step": 478 }, { "epoch": 0.49895833333333334, "grad_norm": 0.28701780138772004, "learning_rate": 4.6334876543209876e-05, "loss": 0.5427, "step": 479 }, { "epoch": 0.5, "grad_norm": 0.36523759897100333, "learning_rate": 4.631558641975309e-05, "loss": 0.7365, "step": 480 }, { "epoch": 0.5010416666666667, "grad_norm": 0.28045152921416416, "learning_rate": 4.62962962962963e-05, "loss": 0.5213, "step": 481 }, { "epoch": 0.5020833333333333, "grad_norm": 0.3592108643857584, "learning_rate": 4.627700617283951e-05, "loss": 0.5899, "step": 482 }, { "epoch": 0.503125, "grad_norm": 0.2735875718887754, "learning_rate": 4.625771604938272e-05, "loss": 0.584, "step": 483 }, { "epoch": 0.5041666666666667, "grad_norm": 0.3603838320023756, "learning_rate": 4.6238425925925924e-05, "loss": 0.6075, "step": 484 }, { "epoch": 0.5052083333333334, "grad_norm": 0.2707943423662538, "learning_rate": 4.6219135802469136e-05, "loss": 0.5871, "step": 485 }, { "epoch": 0.50625, "grad_norm": 0.266263957536305, "learning_rate": 4.619984567901235e-05, "loss": 0.482, "step": 486 }, { "epoch": 0.5072916666666667, "grad_norm": 0.33805699712085274, "learning_rate": 4.618055555555556e-05, "loss": 0.6372, "step": 487 }, { "epoch": 0.5083333333333333, "grad_norm": 0.39292630117600097, "learning_rate": 4.6161265432098766e-05, "loss": 0.6271, "step": 488 }, { "epoch": 0.509375, "grad_norm": 0.30620480662177835, "learning_rate": 4.614197530864198e-05, "loss": 0.5969, "step": 489 }, { "epoch": 0.5104166666666666, "grad_norm": 0.4438930827040434, "learning_rate": 4.612268518518519e-05, "loss": 0.5922, "step": 490 }, { "epoch": 0.5114583333333333, "grad_norm": 0.31230465628044823, "learning_rate": 4.6103395061728396e-05, "loss": 0.5545, "step": 491 }, { "epoch": 0.5125, "grad_norm": 0.33140078120082767, "learning_rate": 4.60841049382716e-05, "loss": 0.5823, "step": 492 }, { "epoch": 0.5135416666666667, "grad_norm": 0.2980774641477138, "learning_rate": 4.6064814814814814e-05, "loss": 0.5395, "step": 493 }, { "epoch": 0.5145833333333333, "grad_norm": 0.30500367729552946, "learning_rate": 4.6045524691358026e-05, "loss": 0.6191, "step": 494 }, { "epoch": 0.515625, "grad_norm": 0.3152443254829402, "learning_rate": 4.602623456790124e-05, "loss": 0.6128, "step": 495 }, { "epoch": 0.5166666666666667, "grad_norm": 0.31035614549682156, "learning_rate": 4.6006944444444444e-05, "loss": 0.5956, "step": 496 }, { "epoch": 0.5177083333333333, "grad_norm": 0.2749307781412458, "learning_rate": 4.5987654320987656e-05, "loss": 0.5899, "step": 497 }, { "epoch": 0.51875, "grad_norm": 0.307055484211168, "learning_rate": 4.596836419753087e-05, "loss": 0.608, "step": 498 }, { "epoch": 0.5197916666666667, "grad_norm": 0.3248259130103622, "learning_rate": 4.594907407407408e-05, "loss": 0.6306, "step": 499 }, { "epoch": 0.5208333333333334, "grad_norm": 0.28778237833815007, "learning_rate": 4.5929783950617286e-05, "loss": 0.5532, "step": 500 }, { "epoch": 0.521875, "grad_norm": 0.3609383268142444, "learning_rate": 4.591049382716049e-05, "loss": 0.6004, "step": 501 }, { "epoch": 0.5229166666666667, "grad_norm": 0.29277127889560767, "learning_rate": 4.5891203703703704e-05, "loss": 0.6138, "step": 502 }, { "epoch": 0.5239583333333333, "grad_norm": 0.3206478652117684, "learning_rate": 4.5871913580246916e-05, "loss": 0.4693, "step": 503 }, { "epoch": 0.525, "grad_norm": 0.34229885400568993, "learning_rate": 4.585262345679013e-05, "loss": 0.622, "step": 504 }, { "epoch": 0.5260416666666666, "grad_norm": 0.325858764993064, "learning_rate": 4.5833333333333334e-05, "loss": 0.617, "step": 505 }, { "epoch": 0.5270833333333333, "grad_norm": 0.2799543242817519, "learning_rate": 4.5814043209876546e-05, "loss": 0.5159, "step": 506 }, { "epoch": 0.528125, "grad_norm": 0.3197683789023237, "learning_rate": 4.579475308641976e-05, "loss": 0.5687, "step": 507 }, { "epoch": 0.5291666666666667, "grad_norm": 0.3008515686794275, "learning_rate": 4.577546296296297e-05, "loss": 0.6224, "step": 508 }, { "epoch": 0.5302083333333333, "grad_norm": 1.0760921401682553, "learning_rate": 4.5756172839506176e-05, "loss": 0.7124, "step": 509 }, { "epoch": 0.53125, "grad_norm": 0.28697074100210673, "learning_rate": 4.573688271604938e-05, "loss": 0.5381, "step": 510 }, { "epoch": 0.5322916666666667, "grad_norm": 0.31208861208513844, "learning_rate": 4.5717592592592594e-05, "loss": 0.4672, "step": 511 }, { "epoch": 0.5333333333333333, "grad_norm": 0.2961708161759332, "learning_rate": 4.5698302469135806e-05, "loss": 0.6055, "step": 512 }, { "epoch": 0.534375, "grad_norm": 0.314315565371138, "learning_rate": 4.567901234567901e-05, "loss": 0.5463, "step": 513 }, { "epoch": 0.5354166666666667, "grad_norm": 0.2600281244404476, "learning_rate": 4.5659722222222224e-05, "loss": 0.4803, "step": 514 }, { "epoch": 0.5364583333333334, "grad_norm": 0.3066538915375696, "learning_rate": 4.5640432098765436e-05, "loss": 0.5604, "step": 515 }, { "epoch": 0.5375, "grad_norm": 0.31567811307495075, "learning_rate": 4.562114197530865e-05, "loss": 0.5507, "step": 516 }, { "epoch": 0.5385416666666667, "grad_norm": 0.3610160420074265, "learning_rate": 4.5601851851851854e-05, "loss": 0.4839, "step": 517 }, { "epoch": 0.5395833333333333, "grad_norm": 0.2641954604434816, "learning_rate": 4.558256172839506e-05, "loss": 0.528, "step": 518 }, { "epoch": 0.540625, "grad_norm": 0.31468901768139096, "learning_rate": 4.556327160493827e-05, "loss": 0.6085, "step": 519 }, { "epoch": 0.5416666666666666, "grad_norm": 0.29444401305448914, "learning_rate": 4.5543981481481484e-05, "loss": 0.5582, "step": 520 }, { "epoch": 0.5427083333333333, "grad_norm": 0.3049344452352146, "learning_rate": 4.5524691358024696e-05, "loss": 0.538, "step": 521 }, { "epoch": 0.54375, "grad_norm": 0.33125400941498423, "learning_rate": 4.55054012345679e-05, "loss": 0.639, "step": 522 }, { "epoch": 0.5447916666666667, "grad_norm": 0.3397403654436099, "learning_rate": 4.5486111111111114e-05, "loss": 0.6134, "step": 523 }, { "epoch": 0.5458333333333333, "grad_norm": 0.33155653485832104, "learning_rate": 4.5466820987654326e-05, "loss": 0.6447, "step": 524 }, { "epoch": 0.546875, "grad_norm": 0.35561970177339414, "learning_rate": 4.544753086419754e-05, "loss": 0.5737, "step": 525 }, { "epoch": 0.5479166666666667, "grad_norm": 0.3916995041563833, "learning_rate": 4.5428240740740744e-05, "loss": 0.6519, "step": 526 }, { "epoch": 0.5489583333333333, "grad_norm": 0.33126867555905404, "learning_rate": 4.540895061728395e-05, "loss": 0.4859, "step": 527 }, { "epoch": 0.55, "grad_norm": 0.3217128879334452, "learning_rate": 4.538966049382716e-05, "loss": 0.5483, "step": 528 }, { "epoch": 0.5510416666666667, "grad_norm": 0.3704812665101743, "learning_rate": 4.5370370370370374e-05, "loss": 0.6467, "step": 529 }, { "epoch": 0.5520833333333334, "grad_norm": 0.32906743175251885, "learning_rate": 4.535108024691358e-05, "loss": 0.6063, "step": 530 }, { "epoch": 0.553125, "grad_norm": 0.3430864543768558, "learning_rate": 4.533179012345679e-05, "loss": 0.5316, "step": 531 }, { "epoch": 0.5541666666666667, "grad_norm": 0.35164937052251516, "learning_rate": 4.5312500000000004e-05, "loss": 0.5524, "step": 532 }, { "epoch": 0.5552083333333333, "grad_norm": 0.34542399044322025, "learning_rate": 4.5293209876543216e-05, "loss": 0.5493, "step": 533 }, { "epoch": 0.55625, "grad_norm": 0.44570550462151026, "learning_rate": 4.527391975308642e-05, "loss": 0.5398, "step": 534 }, { "epoch": 0.5572916666666666, "grad_norm": 0.3127250965429866, "learning_rate": 4.525462962962963e-05, "loss": 0.6002, "step": 535 }, { "epoch": 0.5583333333333333, "grad_norm": 0.3091005248985941, "learning_rate": 4.523533950617284e-05, "loss": 0.5412, "step": 536 }, { "epoch": 0.559375, "grad_norm": 0.37941030725614466, "learning_rate": 4.521604938271605e-05, "loss": 0.6383, "step": 537 }, { "epoch": 0.5604166666666667, "grad_norm": 0.27925370988464215, "learning_rate": 4.5196759259259264e-05, "loss": 0.5486, "step": 538 }, { "epoch": 0.5614583333333333, "grad_norm": 0.33848521716581026, "learning_rate": 4.517746913580247e-05, "loss": 0.4989, "step": 539 }, { "epoch": 0.5625, "grad_norm": 0.3372621172337514, "learning_rate": 4.515817901234568e-05, "loss": 0.6685, "step": 540 }, { "epoch": 0.5635416666666667, "grad_norm": 0.4182647993276759, "learning_rate": 4.5138888888888894e-05, "loss": 0.6508, "step": 541 }, { "epoch": 0.5645833333333333, "grad_norm": 0.3010954320161119, "learning_rate": 4.5119598765432106e-05, "loss": 0.6176, "step": 542 }, { "epoch": 0.565625, "grad_norm": 0.3361191367980424, "learning_rate": 4.510030864197531e-05, "loss": 0.5275, "step": 543 }, { "epoch": 0.5666666666666667, "grad_norm": 0.3204759360125903, "learning_rate": 4.508101851851852e-05, "loss": 0.5698, "step": 544 }, { "epoch": 0.5677083333333334, "grad_norm": 0.5903840069439842, "learning_rate": 4.506172839506173e-05, "loss": 0.576, "step": 545 }, { "epoch": 0.56875, "grad_norm": 0.30057408352710635, "learning_rate": 4.504243827160494e-05, "loss": 0.5125, "step": 546 }, { "epoch": 0.5697916666666667, "grad_norm": 0.3059105973912982, "learning_rate": 4.502314814814815e-05, "loss": 0.555, "step": 547 }, { "epoch": 0.5708333333333333, "grad_norm": 0.32231093439115505, "learning_rate": 4.500385802469136e-05, "loss": 0.5307, "step": 548 }, { "epoch": 0.571875, "grad_norm": 0.275052625405607, "learning_rate": 4.498456790123457e-05, "loss": 0.5247, "step": 549 }, { "epoch": 0.5729166666666666, "grad_norm": 0.3400646991651266, "learning_rate": 4.4965277777777784e-05, "loss": 0.5935, "step": 550 }, { "epoch": 0.5739583333333333, "grad_norm": 0.2998647146051176, "learning_rate": 4.494598765432099e-05, "loss": 0.5535, "step": 551 }, { "epoch": 0.575, "grad_norm": 0.29166790594572395, "learning_rate": 4.49266975308642e-05, "loss": 0.6078, "step": 552 }, { "epoch": 0.5760416666666667, "grad_norm": 0.32556150706569853, "learning_rate": 4.490740740740741e-05, "loss": 0.6519, "step": 553 }, { "epoch": 0.5770833333333333, "grad_norm": 0.31981107008821463, "learning_rate": 4.488811728395062e-05, "loss": 0.5988, "step": 554 }, { "epoch": 0.578125, "grad_norm": 0.35256658013107395, "learning_rate": 4.486882716049383e-05, "loss": 0.5786, "step": 555 }, { "epoch": 0.5791666666666667, "grad_norm": 0.2814899696401388, "learning_rate": 4.484953703703704e-05, "loss": 0.5752, "step": 556 }, { "epoch": 0.5802083333333333, "grad_norm": 0.3251235327784963, "learning_rate": 4.483024691358025e-05, "loss": 0.5958, "step": 557 }, { "epoch": 0.58125, "grad_norm": 0.29502106189350735, "learning_rate": 4.481095679012346e-05, "loss": 0.5217, "step": 558 }, { "epoch": 0.5822916666666667, "grad_norm": 0.3046805622195929, "learning_rate": 4.4791666666666673e-05, "loss": 0.5383, "step": 559 }, { "epoch": 0.5833333333333334, "grad_norm": 0.2758390368991579, "learning_rate": 4.477237654320988e-05, "loss": 0.5611, "step": 560 }, { "epoch": 0.584375, "grad_norm": 0.295310430968569, "learning_rate": 4.4753086419753084e-05, "loss": 0.5126, "step": 561 }, { "epoch": 0.5854166666666667, "grad_norm": 0.30967061206024543, "learning_rate": 4.47337962962963e-05, "loss": 0.6062, "step": 562 }, { "epoch": 0.5864583333333333, "grad_norm": 0.26626630869934326, "learning_rate": 4.471450617283951e-05, "loss": 0.4973, "step": 563 }, { "epoch": 0.5875, "grad_norm": 0.2951273759700834, "learning_rate": 4.4695216049382714e-05, "loss": 0.5407, "step": 564 }, { "epoch": 0.5885416666666666, "grad_norm": 0.3096541379137849, "learning_rate": 4.467592592592593e-05, "loss": 0.5, "step": 565 }, { "epoch": 0.5895833333333333, "grad_norm": 0.2956982244805378, "learning_rate": 4.465663580246914e-05, "loss": 0.5334, "step": 566 }, { "epoch": 0.590625, "grad_norm": 0.2657141430138846, "learning_rate": 4.463734567901235e-05, "loss": 0.5521, "step": 567 }, { "epoch": 0.5916666666666667, "grad_norm": 0.267601274561612, "learning_rate": 4.4618055555555563e-05, "loss": 0.5762, "step": 568 }, { "epoch": 0.5927083333333333, "grad_norm": 0.26811291241091223, "learning_rate": 4.459876543209877e-05, "loss": 0.5242, "step": 569 }, { "epoch": 0.59375, "grad_norm": 0.24824163341496547, "learning_rate": 4.4579475308641974e-05, "loss": 0.4819, "step": 570 }, { "epoch": 0.5947916666666667, "grad_norm": 0.24204900093224913, "learning_rate": 4.456018518518519e-05, "loss": 0.5153, "step": 571 }, { "epoch": 0.5958333333333333, "grad_norm": 0.2700959447869867, "learning_rate": 4.45408950617284e-05, "loss": 0.4671, "step": 572 }, { "epoch": 0.596875, "grad_norm": 0.2723186161642054, "learning_rate": 4.4521604938271604e-05, "loss": 0.565, "step": 573 }, { "epoch": 0.5979166666666667, "grad_norm": 0.2605959793599837, "learning_rate": 4.4502314814814817e-05, "loss": 0.5308, "step": 574 }, { "epoch": 0.5989583333333334, "grad_norm": 0.296892659810511, "learning_rate": 4.448302469135803e-05, "loss": 0.541, "step": 575 }, { "epoch": 0.6, "grad_norm": 0.3109706705192333, "learning_rate": 4.446373456790124e-05, "loss": 0.6246, "step": 576 }, { "epoch": 0.6010416666666667, "grad_norm": 0.2935770350541784, "learning_rate": 4.4444444444444447e-05, "loss": 0.6523, "step": 577 }, { "epoch": 0.6020833333333333, "grad_norm": 0.293424564932889, "learning_rate": 4.442515432098765e-05, "loss": 0.5833, "step": 578 }, { "epoch": 0.603125, "grad_norm": 0.2771390188317832, "learning_rate": 4.4405864197530864e-05, "loss": 0.4851, "step": 579 }, { "epoch": 0.6041666666666666, "grad_norm": 0.26035406854442905, "learning_rate": 4.4386574074074077e-05, "loss": 0.5293, "step": 580 }, { "epoch": 0.6052083333333333, "grad_norm": 0.2807765461659889, "learning_rate": 4.436728395061729e-05, "loss": 0.5308, "step": 581 }, { "epoch": 0.60625, "grad_norm": 0.3153079290426229, "learning_rate": 4.4347993827160494e-05, "loss": 0.5724, "step": 582 }, { "epoch": 0.6072916666666667, "grad_norm": 0.2533199783766221, "learning_rate": 4.4328703703703707e-05, "loss": 0.5616, "step": 583 }, { "epoch": 0.6083333333333333, "grad_norm": 0.350000257613449, "learning_rate": 4.430941358024692e-05, "loss": 0.5223, "step": 584 }, { "epoch": 0.609375, "grad_norm": 0.289947021750345, "learning_rate": 4.429012345679013e-05, "loss": 0.6092, "step": 585 }, { "epoch": 0.6104166666666667, "grad_norm": 0.31781706497055423, "learning_rate": 4.4270833333333337e-05, "loss": 0.5477, "step": 586 }, { "epoch": 0.6114583333333333, "grad_norm": 0.3319439355983952, "learning_rate": 4.425154320987654e-05, "loss": 0.5558, "step": 587 }, { "epoch": 0.6125, "grad_norm": 0.2927088217541268, "learning_rate": 4.4232253086419754e-05, "loss": 0.5048, "step": 588 }, { "epoch": 0.6135416666666667, "grad_norm": 0.3284348681559728, "learning_rate": 4.4212962962962966e-05, "loss": 0.573, "step": 589 }, { "epoch": 0.6145833333333334, "grad_norm": 0.2828082963449205, "learning_rate": 4.419367283950617e-05, "loss": 0.5753, "step": 590 }, { "epoch": 0.615625, "grad_norm": 0.3184013971883837, "learning_rate": 4.4174382716049384e-05, "loss": 0.5662, "step": 591 }, { "epoch": 0.6166666666666667, "grad_norm": 0.2799143369020578, "learning_rate": 4.4155092592592596e-05, "loss": 0.5418, "step": 592 }, { "epoch": 0.6177083333333333, "grad_norm": 0.32705418968421807, "learning_rate": 4.413580246913581e-05, "loss": 0.6385, "step": 593 }, { "epoch": 0.61875, "grad_norm": 0.2925405249751353, "learning_rate": 4.4116512345679014e-05, "loss": 0.6057, "step": 594 }, { "epoch": 0.6197916666666666, "grad_norm": 0.2341340549653424, "learning_rate": 4.4097222222222226e-05, "loss": 0.5395, "step": 595 }, { "epoch": 0.6208333333333333, "grad_norm": 0.354864150290679, "learning_rate": 4.407793209876543e-05, "loss": 0.5977, "step": 596 }, { "epoch": 0.621875, "grad_norm": 0.25022909249075104, "learning_rate": 4.4058641975308644e-05, "loss": 0.5446, "step": 597 }, { "epoch": 0.6229166666666667, "grad_norm": 0.2759475431183889, "learning_rate": 4.4039351851851856e-05, "loss": 0.5728, "step": 598 }, { "epoch": 0.6239583333333333, "grad_norm": 0.34157724367697245, "learning_rate": 4.402006172839506e-05, "loss": 0.5189, "step": 599 }, { "epoch": 0.625, "grad_norm": 0.26937674503067277, "learning_rate": 4.4000771604938274e-05, "loss": 0.5005, "step": 600 }, { "epoch": 0.6260416666666667, "grad_norm": 0.30669784114872806, "learning_rate": 4.3981481481481486e-05, "loss": 0.5213, "step": 601 }, { "epoch": 0.6270833333333333, "grad_norm": 0.2677659772199517, "learning_rate": 4.39621913580247e-05, "loss": 0.5276, "step": 602 }, { "epoch": 0.628125, "grad_norm": 0.3805235518696288, "learning_rate": 4.3942901234567904e-05, "loss": 0.5491, "step": 603 }, { "epoch": 0.6291666666666667, "grad_norm": 0.26221456612730204, "learning_rate": 4.392361111111111e-05, "loss": 0.496, "step": 604 }, { "epoch": 0.6302083333333334, "grad_norm": 0.2705564845052982, "learning_rate": 4.390432098765432e-05, "loss": 0.5832, "step": 605 }, { "epoch": 0.63125, "grad_norm": 0.35431367716542, "learning_rate": 4.3885030864197534e-05, "loss": 0.6057, "step": 606 }, { "epoch": 0.6322916666666667, "grad_norm": 0.2580931930773988, "learning_rate": 4.386574074074074e-05, "loss": 0.52, "step": 607 }, { "epoch": 0.6333333333333333, "grad_norm": 0.2953251173934403, "learning_rate": 4.384645061728395e-05, "loss": 0.4822, "step": 608 }, { "epoch": 0.634375, "grad_norm": 0.29628745345364305, "learning_rate": 4.3827160493827164e-05, "loss": 0.5459, "step": 609 }, { "epoch": 0.6354166666666666, "grad_norm": 0.2588780668773286, "learning_rate": 4.3807870370370376e-05, "loss": 0.4686, "step": 610 }, { "epoch": 0.6364583333333333, "grad_norm": 0.2964010160531647, "learning_rate": 4.378858024691358e-05, "loss": 0.5353, "step": 611 }, { "epoch": 0.6375, "grad_norm": 0.2499239035287521, "learning_rate": 4.3769290123456794e-05, "loss": 0.5242, "step": 612 }, { "epoch": 0.6385416666666667, "grad_norm": 0.3095757690412154, "learning_rate": 4.375e-05, "loss": 0.5445, "step": 613 }, { "epoch": 0.6395833333333333, "grad_norm": 0.2743061150823467, "learning_rate": 4.373070987654321e-05, "loss": 0.5477, "step": 614 }, { "epoch": 0.640625, "grad_norm": 0.28966134490803447, "learning_rate": 4.3711419753086424e-05, "loss": 0.5288, "step": 615 }, { "epoch": 0.6416666666666667, "grad_norm": 0.33206311995013543, "learning_rate": 4.369212962962963e-05, "loss": 0.5782, "step": 616 }, { "epoch": 0.6427083333333333, "grad_norm": 0.3258668159671577, "learning_rate": 4.367283950617284e-05, "loss": 0.5119, "step": 617 }, { "epoch": 0.64375, "grad_norm": 0.32514028663816835, "learning_rate": 4.3653549382716054e-05, "loss": 0.5503, "step": 618 }, { "epoch": 0.6447916666666667, "grad_norm": 0.3233463477974846, "learning_rate": 4.3634259259259266e-05, "loss": 0.544, "step": 619 }, { "epoch": 0.6458333333333334, "grad_norm": 0.3749281618860283, "learning_rate": 4.361496913580247e-05, "loss": 0.5942, "step": 620 }, { "epoch": 0.646875, "grad_norm": 0.3461293991683136, "learning_rate": 4.359567901234568e-05, "loss": 0.5377, "step": 621 }, { "epoch": 0.6479166666666667, "grad_norm": 0.3523485814710637, "learning_rate": 4.357638888888889e-05, "loss": 0.5264, "step": 622 }, { "epoch": 0.6489583333333333, "grad_norm": 0.35563197913277367, "learning_rate": 4.35570987654321e-05, "loss": 0.6187, "step": 623 }, { "epoch": 0.65, "grad_norm": 0.3775520552105871, "learning_rate": 4.353780864197531e-05, "loss": 0.5736, "step": 624 }, { "epoch": 0.6510416666666666, "grad_norm": 0.28093467587698756, "learning_rate": 4.351851851851852e-05, "loss": 0.5433, "step": 625 }, { "epoch": 0.6520833333333333, "grad_norm": 0.30870372398693624, "learning_rate": 4.349922839506173e-05, "loss": 0.5326, "step": 626 }, { "epoch": 0.653125, "grad_norm": 0.26843131790471464, "learning_rate": 4.3479938271604944e-05, "loss": 0.5814, "step": 627 }, { "epoch": 0.6541666666666667, "grad_norm": 0.2866747699315872, "learning_rate": 4.346064814814815e-05, "loss": 0.5779, "step": 628 }, { "epoch": 0.6552083333333333, "grad_norm": 0.2722926007825251, "learning_rate": 4.344135802469136e-05, "loss": 0.5118, "step": 629 }, { "epoch": 0.65625, "grad_norm": 0.27371661947867765, "learning_rate": 4.342206790123457e-05, "loss": 0.5204, "step": 630 }, { "epoch": 0.6572916666666667, "grad_norm": 0.25300368021748243, "learning_rate": 4.340277777777778e-05, "loss": 0.51, "step": 631 }, { "epoch": 0.6583333333333333, "grad_norm": 0.29122850229392166, "learning_rate": 4.338348765432099e-05, "loss": 0.5409, "step": 632 }, { "epoch": 0.659375, "grad_norm": 0.2913924594771024, "learning_rate": 4.33641975308642e-05, "loss": 0.5522, "step": 633 }, { "epoch": 0.6604166666666667, "grad_norm": 0.25511480997656777, "learning_rate": 4.334490740740741e-05, "loss": 0.5019, "step": 634 }, { "epoch": 0.6614583333333334, "grad_norm": 0.3839935778971681, "learning_rate": 4.332561728395062e-05, "loss": 0.5781, "step": 635 }, { "epoch": 0.6625, "grad_norm": 0.26593928273197054, "learning_rate": 4.3306327160493834e-05, "loss": 0.4916, "step": 636 }, { "epoch": 0.6635416666666667, "grad_norm": 0.3078851559447044, "learning_rate": 4.328703703703704e-05, "loss": 0.5455, "step": 637 }, { "epoch": 0.6645833333333333, "grad_norm": 0.3576756343054417, "learning_rate": 4.3267746913580245e-05, "loss": 0.5445, "step": 638 }, { "epoch": 0.665625, "grad_norm": 0.2602056032732028, "learning_rate": 4.324845679012346e-05, "loss": 0.5319, "step": 639 }, { "epoch": 0.6666666666666666, "grad_norm": 0.3245750469435858, "learning_rate": 4.322916666666667e-05, "loss": 0.5248, "step": 640 }, { "epoch": 0.6677083333333333, "grad_norm": 0.26824884158693685, "learning_rate": 4.3209876543209875e-05, "loss": 0.5195, "step": 641 }, { "epoch": 0.66875, "grad_norm": 0.28745067940262997, "learning_rate": 4.319058641975309e-05, "loss": 0.6305, "step": 642 }, { "epoch": 0.6697916666666667, "grad_norm": 0.26410994170380114, "learning_rate": 4.31712962962963e-05, "loss": 0.5342, "step": 643 }, { "epoch": 0.6708333333333333, "grad_norm": 0.28292317254172283, "learning_rate": 4.315200617283951e-05, "loss": 0.501, "step": 644 }, { "epoch": 0.671875, "grad_norm": 0.2631007193719774, "learning_rate": 4.313271604938272e-05, "loss": 0.4645, "step": 645 }, { "epoch": 0.6729166666666667, "grad_norm": 0.2972681129793491, "learning_rate": 4.311342592592593e-05, "loss": 0.5556, "step": 646 }, { "epoch": 0.6739583333333333, "grad_norm": 0.25938732212446225, "learning_rate": 4.3094135802469135e-05, "loss": 0.558, "step": 647 }, { "epoch": 0.675, "grad_norm": 0.29980437125362575, "learning_rate": 4.307484567901235e-05, "loss": 0.4854, "step": 648 }, { "epoch": 0.6760416666666667, "grad_norm": 0.24510444939004064, "learning_rate": 4.305555555555556e-05, "loss": 0.5057, "step": 649 }, { "epoch": 0.6770833333333334, "grad_norm": 0.2780966306775268, "learning_rate": 4.3036265432098765e-05, "loss": 0.5803, "step": 650 }, { "epoch": 0.678125, "grad_norm": 0.3020956555042265, "learning_rate": 4.301697530864198e-05, "loss": 0.5192, "step": 651 }, { "epoch": 0.6791666666666667, "grad_norm": 0.2874198095847197, "learning_rate": 4.299768518518519e-05, "loss": 0.5562, "step": 652 }, { "epoch": 0.6802083333333333, "grad_norm": 0.26914054646613106, "learning_rate": 4.29783950617284e-05, "loss": 0.5712, "step": 653 }, { "epoch": 0.68125, "grad_norm": 0.25087513015060375, "learning_rate": 4.295910493827161e-05, "loss": 0.519, "step": 654 }, { "epoch": 0.6822916666666666, "grad_norm": 0.2602815945883076, "learning_rate": 4.293981481481482e-05, "loss": 0.5375, "step": 655 }, { "epoch": 0.6833333333333333, "grad_norm": 0.3143728362976044, "learning_rate": 4.2920524691358025e-05, "loss": 0.5928, "step": 656 }, { "epoch": 0.684375, "grad_norm": 0.2818934293008557, "learning_rate": 4.290123456790124e-05, "loss": 0.6234, "step": 657 }, { "epoch": 0.6854166666666667, "grad_norm": 0.23458352027445747, "learning_rate": 4.288194444444444e-05, "loss": 0.4692, "step": 658 }, { "epoch": 0.6864583333333333, "grad_norm": 0.2736065729659617, "learning_rate": 4.2862654320987655e-05, "loss": 0.5509, "step": 659 }, { "epoch": 0.6875, "grad_norm": 0.2943032371361891, "learning_rate": 4.284336419753087e-05, "loss": 0.6066, "step": 660 }, { "epoch": 0.6885416666666667, "grad_norm": 0.26998058496515, "learning_rate": 4.282407407407408e-05, "loss": 0.4524, "step": 661 }, { "epoch": 0.6895833333333333, "grad_norm": 0.2641326702063465, "learning_rate": 4.280478395061729e-05, "loss": 0.5065, "step": 662 }, { "epoch": 0.690625, "grad_norm": 0.33857016768565734, "learning_rate": 4.27854938271605e-05, "loss": 0.5454, "step": 663 }, { "epoch": 0.6916666666666667, "grad_norm": 0.28996139361487533, "learning_rate": 4.27662037037037e-05, "loss": 0.5863, "step": 664 }, { "epoch": 0.6927083333333334, "grad_norm": 0.282821956253725, "learning_rate": 4.2746913580246915e-05, "loss": 0.5489, "step": 665 }, { "epoch": 0.69375, "grad_norm": 0.25787982767973866, "learning_rate": 4.272762345679013e-05, "loss": 0.5404, "step": 666 }, { "epoch": 0.6947916666666667, "grad_norm": 0.2567050911914366, "learning_rate": 4.270833333333333e-05, "loss": 0.5152, "step": 667 }, { "epoch": 0.6958333333333333, "grad_norm": 0.29924394036335067, "learning_rate": 4.2689043209876545e-05, "loss": 0.566, "step": 668 }, { "epoch": 0.696875, "grad_norm": 0.25735318598168505, "learning_rate": 4.266975308641976e-05, "loss": 0.5275, "step": 669 }, { "epoch": 0.6979166666666666, "grad_norm": 0.29380461685882353, "learning_rate": 4.265046296296297e-05, "loss": 0.5381, "step": 670 }, { "epoch": 0.6989583333333333, "grad_norm": 0.29315107483333286, "learning_rate": 4.2631172839506175e-05, "loss": 0.5654, "step": 671 }, { "epoch": 0.7, "grad_norm": 0.3305909132734425, "learning_rate": 4.261188271604939e-05, "loss": 0.4969, "step": 672 }, { "epoch": 0.7010416666666667, "grad_norm": 0.28082828271426613, "learning_rate": 4.259259259259259e-05, "loss": 0.5556, "step": 673 }, { "epoch": 0.7020833333333333, "grad_norm": 0.30691749507226423, "learning_rate": 4.2573302469135805e-05, "loss": 0.5475, "step": 674 }, { "epoch": 0.703125, "grad_norm": 0.32756655363395176, "learning_rate": 4.255401234567901e-05, "loss": 0.624, "step": 675 }, { "epoch": 0.7041666666666667, "grad_norm": 0.29659391307752037, "learning_rate": 4.253472222222222e-05, "loss": 0.5352, "step": 676 }, { "epoch": 0.7052083333333333, "grad_norm": 0.28294345170384466, "learning_rate": 4.2515432098765435e-05, "loss": 0.5139, "step": 677 }, { "epoch": 0.70625, "grad_norm": 0.23892152621864493, "learning_rate": 4.249614197530865e-05, "loss": 0.5415, "step": 678 }, { "epoch": 0.7072916666666667, "grad_norm": 0.28083121423872975, "learning_rate": 4.247685185185186e-05, "loss": 0.5125, "step": 679 }, { "epoch": 0.7083333333333334, "grad_norm": 0.2693252176425558, "learning_rate": 4.2457561728395065e-05, "loss": 0.5153, "step": 680 }, { "epoch": 0.709375, "grad_norm": 0.25690945362580153, "learning_rate": 4.243827160493827e-05, "loss": 0.5464, "step": 681 }, { "epoch": 0.7104166666666667, "grad_norm": 0.26704739639470204, "learning_rate": 4.241898148148148e-05, "loss": 0.5668, "step": 682 }, { "epoch": 0.7114583333333333, "grad_norm": 0.3154356918512577, "learning_rate": 4.2399691358024695e-05, "loss": 0.5087, "step": 683 }, { "epoch": 0.7125, "grad_norm": 0.3079156426506865, "learning_rate": 4.23804012345679e-05, "loss": 0.6115, "step": 684 }, { "epoch": 0.7135416666666666, "grad_norm": 0.34378488184652367, "learning_rate": 4.236111111111111e-05, "loss": 0.6033, "step": 685 }, { "epoch": 0.7145833333333333, "grad_norm": 0.3099422229013817, "learning_rate": 4.2341820987654325e-05, "loss": 0.4912, "step": 686 }, { "epoch": 0.715625, "grad_norm": 0.29464459523362485, "learning_rate": 4.232253086419754e-05, "loss": 0.5768, "step": 687 }, { "epoch": 0.7166666666666667, "grad_norm": 0.3460709729090101, "learning_rate": 4.230324074074074e-05, "loss": 0.6317, "step": 688 }, { "epoch": 0.7177083333333333, "grad_norm": 0.24672533285876738, "learning_rate": 4.2283950617283955e-05, "loss": 0.4986, "step": 689 }, { "epoch": 0.71875, "grad_norm": 0.3289755339382734, "learning_rate": 4.226466049382716e-05, "loss": 0.5439, "step": 690 }, { "epoch": 0.7197916666666667, "grad_norm": 0.3534291621649815, "learning_rate": 4.224537037037037e-05, "loss": 0.5955, "step": 691 }, { "epoch": 0.7208333333333333, "grad_norm": 0.29452406496462413, "learning_rate": 4.222608024691358e-05, "loss": 0.4803, "step": 692 }, { "epoch": 0.721875, "grad_norm": 0.34494515743508747, "learning_rate": 4.220679012345679e-05, "loss": 0.4889, "step": 693 }, { "epoch": 0.7229166666666667, "grad_norm": 0.3310235968484235, "learning_rate": 4.21875e-05, "loss": 0.4918, "step": 694 }, { "epoch": 0.7239583333333334, "grad_norm": 0.3123943506473995, "learning_rate": 4.2168209876543214e-05, "loss": 0.5052, "step": 695 }, { "epoch": 0.725, "grad_norm": 0.2999978553228742, "learning_rate": 4.214891975308643e-05, "loss": 0.4971, "step": 696 }, { "epoch": 0.7260416666666667, "grad_norm": 0.6668340498241966, "learning_rate": 4.212962962962963e-05, "loss": 0.5784, "step": 697 }, { "epoch": 0.7270833333333333, "grad_norm": 0.35530201060340005, "learning_rate": 4.2110339506172844e-05, "loss": 0.6226, "step": 698 }, { "epoch": 0.728125, "grad_norm": 0.33303362836199496, "learning_rate": 4.209104938271605e-05, "loss": 0.6123, "step": 699 }, { "epoch": 0.7291666666666666, "grad_norm": 0.265618714012638, "learning_rate": 4.207175925925926e-05, "loss": 0.5376, "step": 700 }, { "epoch": 0.7302083333333333, "grad_norm": 0.3195808767965532, "learning_rate": 4.205246913580247e-05, "loss": 0.5393, "step": 701 }, { "epoch": 0.73125, "grad_norm": 0.31718341541531586, "learning_rate": 4.203317901234568e-05, "loss": 0.4628, "step": 702 }, { "epoch": 0.7322916666666667, "grad_norm": 0.30195000837039493, "learning_rate": 4.201388888888889e-05, "loss": 0.5613, "step": 703 }, { "epoch": 0.7333333333333333, "grad_norm": 0.34340284117703357, "learning_rate": 4.1994598765432104e-05, "loss": 0.5652, "step": 704 }, { "epoch": 0.734375, "grad_norm": 0.32241501328929634, "learning_rate": 4.197530864197531e-05, "loss": 0.4507, "step": 705 }, { "epoch": 0.7354166666666667, "grad_norm": 0.29450489846961736, "learning_rate": 4.195601851851852e-05, "loss": 0.4833, "step": 706 }, { "epoch": 0.7364583333333333, "grad_norm": 0.42805441674934036, "learning_rate": 4.193672839506173e-05, "loss": 0.6076, "step": 707 }, { "epoch": 0.7375, "grad_norm": 0.31315972325385344, "learning_rate": 4.191743827160494e-05, "loss": 0.4523, "step": 708 }, { "epoch": 0.7385416666666667, "grad_norm": 0.37960386481569247, "learning_rate": 4.1898148148148145e-05, "loss": 0.6183, "step": 709 }, { "epoch": 0.7395833333333334, "grad_norm": 0.2714862236126458, "learning_rate": 4.187885802469136e-05, "loss": 0.5853, "step": 710 }, { "epoch": 0.740625, "grad_norm": 0.362051656786966, "learning_rate": 4.185956790123457e-05, "loss": 0.5012, "step": 711 }, { "epoch": 0.7416666666666667, "grad_norm": 0.298083553789993, "learning_rate": 4.184027777777778e-05, "loss": 0.5422, "step": 712 }, { "epoch": 0.7427083333333333, "grad_norm": 0.3578754444269024, "learning_rate": 4.1820987654320994e-05, "loss": 0.5644, "step": 713 }, { "epoch": 0.74375, "grad_norm": 0.2635560480075887, "learning_rate": 4.18016975308642e-05, "loss": 0.4751, "step": 714 }, { "epoch": 0.7447916666666666, "grad_norm": 0.2957373862390401, "learning_rate": 4.178240740740741e-05, "loss": 0.4754, "step": 715 }, { "epoch": 0.7458333333333333, "grad_norm": 0.25118846852137083, "learning_rate": 4.176311728395062e-05, "loss": 0.5686, "step": 716 }, { "epoch": 0.746875, "grad_norm": 0.28028140670899865, "learning_rate": 4.174382716049383e-05, "loss": 0.5166, "step": 717 }, { "epoch": 0.7479166666666667, "grad_norm": 0.2684936777728935, "learning_rate": 4.1724537037037035e-05, "loss": 0.4495, "step": 718 }, { "epoch": 0.7489583333333333, "grad_norm": 0.28764333923236973, "learning_rate": 4.170524691358025e-05, "loss": 0.5582, "step": 719 }, { "epoch": 0.75, "grad_norm": 0.33025505222478424, "learning_rate": 4.168595679012346e-05, "loss": 0.6402, "step": 720 }, { "epoch": 0.7510416666666667, "grad_norm": 0.3567634005118407, "learning_rate": 4.166666666666667e-05, "loss": 0.5874, "step": 721 }, { "epoch": 0.7520833333333333, "grad_norm": 0.2925500978314359, "learning_rate": 4.164737654320988e-05, "loss": 0.577, "step": 722 }, { "epoch": 0.753125, "grad_norm": 0.2793012917304019, "learning_rate": 4.162808641975309e-05, "loss": 0.5689, "step": 723 }, { "epoch": 0.7541666666666667, "grad_norm": 0.2544772717985053, "learning_rate": 4.1608796296296295e-05, "loss": 0.4944, "step": 724 }, { "epoch": 0.7552083333333334, "grad_norm": 0.3092012800271815, "learning_rate": 4.158950617283951e-05, "loss": 0.5631, "step": 725 }, { "epoch": 0.75625, "grad_norm": 0.2734433190706111, "learning_rate": 4.157021604938271e-05, "loss": 0.5557, "step": 726 }, { "epoch": 0.7572916666666667, "grad_norm": 0.27183457148265133, "learning_rate": 4.1550925925925925e-05, "loss": 0.6104, "step": 727 }, { "epoch": 0.7583333333333333, "grad_norm": 0.31029401218210106, "learning_rate": 4.153163580246914e-05, "loss": 0.5213, "step": 728 }, { "epoch": 0.759375, "grad_norm": 0.2331917621851115, "learning_rate": 4.151234567901235e-05, "loss": 0.5069, "step": 729 }, { "epoch": 0.7604166666666666, "grad_norm": 0.3083534801637446, "learning_rate": 4.149305555555556e-05, "loss": 0.5626, "step": 730 }, { "epoch": 0.7614583333333333, "grad_norm": 0.2467138173947829, "learning_rate": 4.147376543209877e-05, "loss": 0.5126, "step": 731 }, { "epoch": 0.7625, "grad_norm": 0.2437379252637923, "learning_rate": 4.145447530864198e-05, "loss": 0.6, "step": 732 }, { "epoch": 0.7635416666666667, "grad_norm": 0.27572243530288665, "learning_rate": 4.1435185185185185e-05, "loss": 0.5692, "step": 733 }, { "epoch": 0.7645833333333333, "grad_norm": 0.27748526421926456, "learning_rate": 4.14158950617284e-05, "loss": 0.5236, "step": 734 }, { "epoch": 0.765625, "grad_norm": 0.2110788780766654, "learning_rate": 4.13966049382716e-05, "loss": 0.4608, "step": 735 }, { "epoch": 0.7666666666666667, "grad_norm": 0.26815245020229267, "learning_rate": 4.1377314814814815e-05, "loss": 0.4655, "step": 736 }, { "epoch": 0.7677083333333333, "grad_norm": 0.293902776732795, "learning_rate": 4.135802469135803e-05, "loss": 0.5879, "step": 737 }, { "epoch": 0.76875, "grad_norm": 0.2781742854449935, "learning_rate": 4.133873456790124e-05, "loss": 0.5431, "step": 738 }, { "epoch": 0.7697916666666667, "grad_norm": 0.25322346911477706, "learning_rate": 4.1319444444444445e-05, "loss": 0.5911, "step": 739 }, { "epoch": 0.7708333333333334, "grad_norm": 0.25056724240289624, "learning_rate": 4.130015432098766e-05, "loss": 0.527, "step": 740 }, { "epoch": 0.771875, "grad_norm": 0.2607431318741721, "learning_rate": 4.128086419753087e-05, "loss": 0.6108, "step": 741 }, { "epoch": 0.7729166666666667, "grad_norm": 0.2592333788481133, "learning_rate": 4.1261574074074075e-05, "loss": 0.5275, "step": 742 }, { "epoch": 0.7739583333333333, "grad_norm": 0.28981907118597894, "learning_rate": 4.124228395061729e-05, "loss": 0.5422, "step": 743 }, { "epoch": 0.775, "grad_norm": 0.24350777044921326, "learning_rate": 4.122299382716049e-05, "loss": 0.4434, "step": 744 }, { "epoch": 0.7760416666666666, "grad_norm": 0.29998208770365103, "learning_rate": 4.1203703703703705e-05, "loss": 0.5173, "step": 745 }, { "epoch": 0.7770833333333333, "grad_norm": 0.2767363329595284, "learning_rate": 4.118441358024692e-05, "loss": 0.5146, "step": 746 }, { "epoch": 0.778125, "grad_norm": 0.2712476746562507, "learning_rate": 4.116512345679013e-05, "loss": 0.5824, "step": 747 }, { "epoch": 0.7791666666666667, "grad_norm": 0.27631984848207175, "learning_rate": 4.1145833333333335e-05, "loss": 0.5203, "step": 748 }, { "epoch": 0.7802083333333333, "grad_norm": 0.2537170025375802, "learning_rate": 4.112654320987655e-05, "loss": 0.5351, "step": 749 }, { "epoch": 0.78125, "grad_norm": 0.2640262085105862, "learning_rate": 4.110725308641975e-05, "loss": 0.5511, "step": 750 }, { "epoch": 0.7822916666666667, "grad_norm": 0.24757818560064537, "learning_rate": 4.1087962962962965e-05, "loss": 0.5338, "step": 751 }, { "epoch": 0.7833333333333333, "grad_norm": 0.2898719404077583, "learning_rate": 4.106867283950617e-05, "loss": 0.5773, "step": 752 }, { "epoch": 0.784375, "grad_norm": 0.2803621837217563, "learning_rate": 4.104938271604938e-05, "loss": 0.5967, "step": 753 }, { "epoch": 0.7854166666666667, "grad_norm": 0.28445060491051644, "learning_rate": 4.1030092592592595e-05, "loss": 0.5768, "step": 754 }, { "epoch": 0.7864583333333334, "grad_norm": 0.7698693648185833, "learning_rate": 4.101080246913581e-05, "loss": 0.4969, "step": 755 }, { "epoch": 0.7875, "grad_norm": 0.26164727455157094, "learning_rate": 4.099151234567901e-05, "loss": 0.4732, "step": 756 }, { "epoch": 0.7885416666666667, "grad_norm": 0.3085478165824914, "learning_rate": 4.0972222222222225e-05, "loss": 0.4973, "step": 757 }, { "epoch": 0.7895833333333333, "grad_norm": 0.3011500055956631, "learning_rate": 4.095293209876544e-05, "loss": 0.5551, "step": 758 }, { "epoch": 0.790625, "grad_norm": 0.32505589312220573, "learning_rate": 4.093364197530864e-05, "loss": 0.5075, "step": 759 }, { "epoch": 0.7916666666666666, "grad_norm": 0.24915177189320414, "learning_rate": 4.0914351851851855e-05, "loss": 0.5263, "step": 760 }, { "epoch": 0.7927083333333333, "grad_norm": 0.3620716350266876, "learning_rate": 4.089506172839506e-05, "loss": 0.5798, "step": 761 }, { "epoch": 0.79375, "grad_norm": 0.24673192594700386, "learning_rate": 4.087577160493827e-05, "loss": 0.5048, "step": 762 }, { "epoch": 0.7947916666666667, "grad_norm": 0.3661454575471274, "learning_rate": 4.0856481481481485e-05, "loss": 0.5107, "step": 763 }, { "epoch": 0.7958333333333333, "grad_norm": 0.30826818402520356, "learning_rate": 4.08371913580247e-05, "loss": 0.4902, "step": 764 }, { "epoch": 0.796875, "grad_norm": 0.3194015460617732, "learning_rate": 4.08179012345679e-05, "loss": 0.5924, "step": 765 }, { "epoch": 0.7979166666666667, "grad_norm": 0.2977321044524174, "learning_rate": 4.0798611111111115e-05, "loss": 0.6049, "step": 766 }, { "epoch": 0.7989583333333333, "grad_norm": 0.4071749510710676, "learning_rate": 4.077932098765432e-05, "loss": 0.4416, "step": 767 }, { "epoch": 0.8, "grad_norm": 0.35418595953227106, "learning_rate": 4.076003086419753e-05, "loss": 0.5766, "step": 768 }, { "epoch": 0.8010416666666667, "grad_norm": 0.2783141710827839, "learning_rate": 4.074074074074074e-05, "loss": 0.5827, "step": 769 }, { "epoch": 0.8020833333333334, "grad_norm": 2.6697887195525665, "learning_rate": 4.072145061728395e-05, "loss": 0.6603, "step": 770 }, { "epoch": 0.803125, "grad_norm": 0.39196437037579696, "learning_rate": 4.070216049382716e-05, "loss": 0.561, "step": 771 }, { "epoch": 0.8041666666666667, "grad_norm": 0.24439526629929387, "learning_rate": 4.0682870370370375e-05, "loss": 0.4855, "step": 772 }, { "epoch": 0.8052083333333333, "grad_norm": 0.35883519709861594, "learning_rate": 4.066358024691358e-05, "loss": 0.4842, "step": 773 }, { "epoch": 0.80625, "grad_norm": 0.29454309314317323, "learning_rate": 4.064429012345679e-05, "loss": 0.5706, "step": 774 }, { "epoch": 0.8072916666666666, "grad_norm": 0.35590682503963245, "learning_rate": 4.0625000000000005e-05, "loss": 0.4622, "step": 775 }, { "epoch": 0.8083333333333333, "grad_norm": 0.34709035990014564, "learning_rate": 4.060570987654321e-05, "loss": 0.5307, "step": 776 }, { "epoch": 0.809375, "grad_norm": 0.2842533661394835, "learning_rate": 4.058641975308642e-05, "loss": 0.5773, "step": 777 }, { "epoch": 0.8104166666666667, "grad_norm": 0.3875883156379149, "learning_rate": 4.056712962962963e-05, "loss": 0.57, "step": 778 }, { "epoch": 0.8114583333333333, "grad_norm": 0.27764600102377024, "learning_rate": 4.054783950617284e-05, "loss": 0.6324, "step": 779 }, { "epoch": 0.8125, "grad_norm": 0.38660124245960237, "learning_rate": 4.052854938271605e-05, "loss": 0.6111, "step": 780 }, { "epoch": 0.8135416666666667, "grad_norm": 0.2667020092766798, "learning_rate": 4.0509259259259265e-05, "loss": 0.5197, "step": 781 }, { "epoch": 0.8145833333333333, "grad_norm": 0.2753549710461956, "learning_rate": 4.048996913580247e-05, "loss": 0.6182, "step": 782 }, { "epoch": 0.815625, "grad_norm": 0.2745209530264889, "learning_rate": 4.047067901234568e-05, "loss": 0.4655, "step": 783 }, { "epoch": 0.8166666666666667, "grad_norm": 0.2589382552827807, "learning_rate": 4.045138888888889e-05, "loss": 0.5471, "step": 784 }, { "epoch": 0.8177083333333334, "grad_norm": 0.2736828534254138, "learning_rate": 4.04320987654321e-05, "loss": 0.4999, "step": 785 }, { "epoch": 0.81875, "grad_norm": 0.27881029142583197, "learning_rate": 4.0412808641975306e-05, "loss": 0.652, "step": 786 }, { "epoch": 0.8197916666666667, "grad_norm": 0.2915208314100135, "learning_rate": 4.039351851851852e-05, "loss": 0.4798, "step": 787 }, { "epoch": 0.8208333333333333, "grad_norm": 0.28558365334444313, "learning_rate": 4.037422839506173e-05, "loss": 0.4686, "step": 788 }, { "epoch": 0.821875, "grad_norm": 0.5158231737394139, "learning_rate": 4.035493827160494e-05, "loss": 0.5637, "step": 789 }, { "epoch": 0.8229166666666666, "grad_norm": 0.3293949584228321, "learning_rate": 4.033564814814815e-05, "loss": 0.633, "step": 790 }, { "epoch": 0.8239583333333333, "grad_norm": 0.2601464671832705, "learning_rate": 4.031635802469136e-05, "loss": 0.5337, "step": 791 }, { "epoch": 0.825, "grad_norm": 0.7575961008788861, "learning_rate": 4.029706790123457e-05, "loss": 0.5559, "step": 792 }, { "epoch": 0.8260416666666667, "grad_norm": 0.36225032443653665, "learning_rate": 4.027777777777778e-05, "loss": 0.5353, "step": 793 }, { "epoch": 0.8270833333333333, "grad_norm": 0.26139686008537544, "learning_rate": 4.025848765432099e-05, "loss": 0.6002, "step": 794 }, { "epoch": 0.828125, "grad_norm": 0.3808476974430314, "learning_rate": 4.0239197530864196e-05, "loss": 0.5338, "step": 795 }, { "epoch": 0.8291666666666667, "grad_norm": 0.2744458821321923, "learning_rate": 4.021990740740741e-05, "loss": 0.434, "step": 796 }, { "epoch": 0.8302083333333333, "grad_norm": 0.25808632795902464, "learning_rate": 4.020061728395062e-05, "loss": 0.5093, "step": 797 }, { "epoch": 0.83125, "grad_norm": 0.3099918741231635, "learning_rate": 4.018132716049383e-05, "loss": 0.5603, "step": 798 }, { "epoch": 0.8322916666666667, "grad_norm": 0.30880248680660455, "learning_rate": 4.016203703703704e-05, "loss": 0.5248, "step": 799 }, { "epoch": 0.8333333333333334, "grad_norm": 0.2600846700676173, "learning_rate": 4.014274691358025e-05, "loss": 0.5135, "step": 800 }, { "epoch": 0.834375, "grad_norm": 0.33285074123752106, "learning_rate": 4.012345679012346e-05, "loss": 0.5555, "step": 801 }, { "epoch": 0.8354166666666667, "grad_norm": 0.2534130926098854, "learning_rate": 4.010416666666667e-05, "loss": 0.5558, "step": 802 }, { "epoch": 0.8364583333333333, "grad_norm": 0.2738320576641967, "learning_rate": 4.0084876543209873e-05, "loss": 0.542, "step": 803 }, { "epoch": 0.8375, "grad_norm": 0.3062867370422278, "learning_rate": 4.0065586419753086e-05, "loss": 0.5818, "step": 804 }, { "epoch": 0.8385416666666666, "grad_norm": 0.24405846763230143, "learning_rate": 4.00462962962963e-05, "loss": 0.4481, "step": 805 }, { "epoch": 0.8395833333333333, "grad_norm": 0.28773733599350687, "learning_rate": 4.002700617283951e-05, "loss": 0.5642, "step": 806 }, { "epoch": 0.840625, "grad_norm": 0.2523342940392238, "learning_rate": 4.0007716049382716e-05, "loss": 0.4682, "step": 807 }, { "epoch": 0.8416666666666667, "grad_norm": 0.2924683165657632, "learning_rate": 3.998842592592593e-05, "loss": 0.5841, "step": 808 }, { "epoch": 0.8427083333333333, "grad_norm": 0.2670602354164115, "learning_rate": 3.996913580246914e-05, "loss": 0.545, "step": 809 }, { "epoch": 0.84375, "grad_norm": 0.27816814539159296, "learning_rate": 3.9949845679012346e-05, "loss": 0.4825, "step": 810 }, { "epoch": 0.8447916666666667, "grad_norm": 0.27434627932942207, "learning_rate": 3.993055555555556e-05, "loss": 0.5022, "step": 811 }, { "epoch": 0.8458333333333333, "grad_norm": 0.2543932094730144, "learning_rate": 3.991126543209876e-05, "loss": 0.4967, "step": 812 }, { "epoch": 0.846875, "grad_norm": 0.27073993941870134, "learning_rate": 3.9891975308641976e-05, "loss": 0.5481, "step": 813 }, { "epoch": 0.8479166666666667, "grad_norm": 0.2629056446957858, "learning_rate": 3.987268518518519e-05, "loss": 0.5737, "step": 814 }, { "epoch": 0.8489583333333334, "grad_norm": 0.30382704581334397, "learning_rate": 3.98533950617284e-05, "loss": 0.5038, "step": 815 }, { "epoch": 0.85, "grad_norm": 0.26656792285407405, "learning_rate": 3.9834104938271606e-05, "loss": 0.5737, "step": 816 }, { "epoch": 0.8510416666666667, "grad_norm": 0.24580809213639204, "learning_rate": 3.981481481481482e-05, "loss": 0.5022, "step": 817 }, { "epoch": 0.8520833333333333, "grad_norm": 0.2662677165448425, "learning_rate": 3.979552469135803e-05, "loss": 0.5526, "step": 818 }, { "epoch": 0.853125, "grad_norm": 0.25661169954080226, "learning_rate": 3.9776234567901236e-05, "loss": 0.5023, "step": 819 }, { "epoch": 0.8541666666666666, "grad_norm": 0.2679178169949713, "learning_rate": 3.975694444444444e-05, "loss": 0.5667, "step": 820 }, { "epoch": 0.8552083333333333, "grad_norm": 0.2320198351394373, "learning_rate": 3.973765432098765e-05, "loss": 0.4988, "step": 821 }, { "epoch": 0.85625, "grad_norm": 0.24990348438195517, "learning_rate": 3.9718364197530866e-05, "loss": 0.4595, "step": 822 }, { "epoch": 0.8572916666666667, "grad_norm": 0.26855273267626995, "learning_rate": 3.969907407407408e-05, "loss": 0.5249, "step": 823 }, { "epoch": 0.8583333333333333, "grad_norm": 0.25710229281026686, "learning_rate": 3.967978395061729e-05, "loss": 0.5282, "step": 824 }, { "epoch": 0.859375, "grad_norm": 0.2633444788874962, "learning_rate": 3.9660493827160496e-05, "loss": 0.5698, "step": 825 }, { "epoch": 0.8604166666666667, "grad_norm": 0.24426006514931395, "learning_rate": 3.964120370370371e-05, "loss": 0.5074, "step": 826 }, { "epoch": 0.8614583333333333, "grad_norm": 0.25597386108188996, "learning_rate": 3.962191358024691e-05, "loss": 0.5107, "step": 827 }, { "epoch": 0.8625, "grad_norm": 0.2436234171578291, "learning_rate": 3.9602623456790126e-05, "loss": 0.5685, "step": 828 }, { "epoch": 0.8635416666666667, "grad_norm": 0.23694351458894206, "learning_rate": 3.958333333333333e-05, "loss": 0.5322, "step": 829 }, { "epoch": 0.8645833333333334, "grad_norm": 0.26597711164212373, "learning_rate": 3.956404320987654e-05, "loss": 0.568, "step": 830 }, { "epoch": 0.865625, "grad_norm": 0.22393400507980524, "learning_rate": 3.9544753086419755e-05, "loss": 0.498, "step": 831 }, { "epoch": 0.8666666666666667, "grad_norm": 0.2653705572628881, "learning_rate": 3.952546296296297e-05, "loss": 0.5226, "step": 832 }, { "epoch": 0.8677083333333333, "grad_norm": 0.27571086517204274, "learning_rate": 3.950617283950617e-05, "loss": 0.5713, "step": 833 }, { "epoch": 0.86875, "grad_norm": 0.2541445823969635, "learning_rate": 3.9486882716049385e-05, "loss": 0.5032, "step": 834 }, { "epoch": 0.8697916666666666, "grad_norm": 0.3185688779341004, "learning_rate": 3.94675925925926e-05, "loss": 0.511, "step": 835 }, { "epoch": 0.8708333333333333, "grad_norm": 0.24900000615297324, "learning_rate": 3.94483024691358e-05, "loss": 0.4224, "step": 836 }, { "epoch": 0.871875, "grad_norm": 0.27637661076818615, "learning_rate": 3.942901234567901e-05, "loss": 0.5025, "step": 837 }, { "epoch": 0.8729166666666667, "grad_norm": 0.2814774157303214, "learning_rate": 3.940972222222222e-05, "loss": 0.5173, "step": 838 }, { "epoch": 0.8739583333333333, "grad_norm": 0.28642154633475914, "learning_rate": 3.939043209876543e-05, "loss": 0.6246, "step": 839 }, { "epoch": 0.875, "grad_norm": 0.26044629421471405, "learning_rate": 3.9371141975308645e-05, "loss": 0.5305, "step": 840 }, { "epoch": 0.8760416666666667, "grad_norm": 0.2886890103544049, "learning_rate": 3.935185185185186e-05, "loss": 0.5872, "step": 841 }, { "epoch": 0.8770833333333333, "grad_norm": 0.28345121531290424, "learning_rate": 3.933256172839506e-05, "loss": 0.5408, "step": 842 }, { "epoch": 0.878125, "grad_norm": 0.2766327219743726, "learning_rate": 3.9313271604938275e-05, "loss": 0.4363, "step": 843 }, { "epoch": 0.8791666666666667, "grad_norm": 0.46224106509651364, "learning_rate": 3.929398148148149e-05, "loss": 0.5187, "step": 844 }, { "epoch": 0.8802083333333334, "grad_norm": 0.25997565384690596, "learning_rate": 3.927469135802469e-05, "loss": 0.4761, "step": 845 }, { "epoch": 0.88125, "grad_norm": 0.2647874714594652, "learning_rate": 3.92554012345679e-05, "loss": 0.5274, "step": 846 }, { "epoch": 0.8822916666666667, "grad_norm": 0.27943090492654715, "learning_rate": 3.923611111111111e-05, "loss": 0.5268, "step": 847 }, { "epoch": 0.8833333333333333, "grad_norm": 0.2979888201617064, "learning_rate": 3.921682098765432e-05, "loss": 0.6115, "step": 848 }, { "epoch": 0.884375, "grad_norm": 0.2792508638312545, "learning_rate": 3.9197530864197535e-05, "loss": 0.5441, "step": 849 }, { "epoch": 0.8854166666666666, "grad_norm": 11.243822813663554, "learning_rate": 3.917824074074074e-05, "loss": 0.5739, "step": 850 }, { "epoch": 0.8864583333333333, "grad_norm": 0.3314656694294172, "learning_rate": 3.915895061728395e-05, "loss": 0.4982, "step": 851 }, { "epoch": 0.8875, "grad_norm": 0.30209784844150245, "learning_rate": 3.9139660493827165e-05, "loss": 0.6108, "step": 852 }, { "epoch": 0.8885416666666667, "grad_norm": 0.3205450158473259, "learning_rate": 3.912037037037037e-05, "loss": 0.5781, "step": 853 }, { "epoch": 0.8895833333333333, "grad_norm": 0.27793343802203385, "learning_rate": 3.9101080246913576e-05, "loss": 0.4454, "step": 854 }, { "epoch": 0.890625, "grad_norm": 0.3158021541775814, "learning_rate": 3.908179012345679e-05, "loss": 0.514, "step": 855 }, { "epoch": 0.8916666666666667, "grad_norm": 0.30387771272013697, "learning_rate": 3.90625e-05, "loss": 0.5792, "step": 856 }, { "epoch": 0.8927083333333333, "grad_norm": 0.3005060061327331, "learning_rate": 3.904320987654321e-05, "loss": 0.6103, "step": 857 }, { "epoch": 0.89375, "grad_norm": 0.26579242015818555, "learning_rate": 3.9023919753086425e-05, "loss": 0.5005, "step": 858 }, { "epoch": 0.8947916666666667, "grad_norm": 0.3284179269543569, "learning_rate": 3.900462962962963e-05, "loss": 0.5208, "step": 859 }, { "epoch": 0.8958333333333334, "grad_norm": 3.532315995733462, "learning_rate": 3.898533950617284e-05, "loss": 0.4995, "step": 860 }, { "epoch": 0.896875, "grad_norm": 0.3192209956105923, "learning_rate": 3.8966049382716055e-05, "loss": 0.4911, "step": 861 }, { "epoch": 0.8979166666666667, "grad_norm": 0.28646752254598107, "learning_rate": 3.894675925925926e-05, "loss": 0.5534, "step": 862 }, { "epoch": 0.8989583333333333, "grad_norm": 0.33378868140743184, "learning_rate": 3.8927469135802466e-05, "loss": 0.5377, "step": 863 }, { "epoch": 0.9, "grad_norm": 0.27424880131088064, "learning_rate": 3.890817901234568e-05, "loss": 0.5008, "step": 864 }, { "epoch": 0.9010416666666666, "grad_norm": 0.4216051894581496, "learning_rate": 3.888888888888889e-05, "loss": 0.5555, "step": 865 }, { "epoch": 0.9020833333333333, "grad_norm": 0.2976550187841886, "learning_rate": 3.88695987654321e-05, "loss": 0.5107, "step": 866 }, { "epoch": 0.903125, "grad_norm": 0.29854551225831777, "learning_rate": 3.885030864197531e-05, "loss": 0.5372, "step": 867 }, { "epoch": 0.9041666666666667, "grad_norm": 0.5651061834358649, "learning_rate": 3.883101851851852e-05, "loss": 0.4975, "step": 868 }, { "epoch": 0.9052083333333333, "grad_norm": 0.4697915515630713, "learning_rate": 3.881172839506173e-05, "loss": 0.4897, "step": 869 }, { "epoch": 0.90625, "grad_norm": 0.3046528137660964, "learning_rate": 3.879243827160494e-05, "loss": 0.5085, "step": 870 }, { "epoch": 0.9072916666666667, "grad_norm": 0.34740570646247904, "learning_rate": 3.877314814814815e-05, "loss": 0.6047, "step": 871 }, { "epoch": 0.9083333333333333, "grad_norm": 2.3679876144051084, "learning_rate": 3.8753858024691356e-05, "loss": 0.4736, "step": 872 }, { "epoch": 0.909375, "grad_norm": 4.727085675127494, "learning_rate": 3.873456790123457e-05, "loss": 0.7171, "step": 873 }, { "epoch": 0.9104166666666667, "grad_norm": 0.8733264273139975, "learning_rate": 3.871527777777778e-05, "loss": 0.5227, "step": 874 }, { "epoch": 0.9114583333333334, "grad_norm": 0.3971668737667019, "learning_rate": 3.869598765432099e-05, "loss": 0.5849, "step": 875 }, { "epoch": 0.9125, "grad_norm": 1.418055663421947, "learning_rate": 3.86766975308642e-05, "loss": 0.6128, "step": 876 }, { "epoch": 0.9135416666666667, "grad_norm": 0.9039654814628747, "learning_rate": 3.865740740740741e-05, "loss": 0.5535, "step": 877 }, { "epoch": 0.9145833333333333, "grad_norm": 0.4792237743657014, "learning_rate": 3.863811728395062e-05, "loss": 0.5761, "step": 878 }, { "epoch": 0.915625, "grad_norm": 1.2109914144080627, "learning_rate": 3.861882716049383e-05, "loss": 0.5486, "step": 879 }, { "epoch": 0.9166666666666666, "grad_norm": 0.6454285422178055, "learning_rate": 3.8599537037037034e-05, "loss": 0.4833, "step": 880 }, { "epoch": 0.9177083333333333, "grad_norm": 0.49297172324388056, "learning_rate": 3.8580246913580246e-05, "loss": 0.5215, "step": 881 }, { "epoch": 0.91875, "grad_norm": 4.124999856954016, "learning_rate": 3.856095679012346e-05, "loss": 0.5416, "step": 882 }, { "epoch": 0.9197916666666667, "grad_norm": 0.8378020051860929, "learning_rate": 3.854166666666667e-05, "loss": 0.4897, "step": 883 }, { "epoch": 0.9208333333333333, "grad_norm": 0.4696688720724489, "learning_rate": 3.8522376543209876e-05, "loss": 0.533, "step": 884 }, { "epoch": 0.921875, "grad_norm": 0.6956502415400746, "learning_rate": 3.850308641975309e-05, "loss": 0.4783, "step": 885 }, { "epoch": 0.9229166666666667, "grad_norm": 0.718286315931172, "learning_rate": 3.84837962962963e-05, "loss": 0.5045, "step": 886 }, { "epoch": 0.9239583333333333, "grad_norm": 0.4312287897958866, "learning_rate": 3.846450617283951e-05, "loss": 0.6033, "step": 887 }, { "epoch": 0.925, "grad_norm": 0.6564435928758802, "learning_rate": 3.844521604938272e-05, "loss": 0.5291, "step": 888 }, { "epoch": 0.9260416666666667, "grad_norm": 0.4947576535176411, "learning_rate": 3.8425925925925924e-05, "loss": 0.5415, "step": 889 }, { "epoch": 0.9270833333333334, "grad_norm": 2.1712796444596614, "learning_rate": 3.8406635802469136e-05, "loss": 0.6209, "step": 890 }, { "epoch": 0.928125, "grad_norm": 2.001175243412906, "learning_rate": 3.838734567901235e-05, "loss": 0.5653, "step": 891 }, { "epoch": 0.9291666666666667, "grad_norm": 0.7816126896477213, "learning_rate": 3.836805555555556e-05, "loss": 0.6215, "step": 892 }, { "epoch": 0.9302083333333333, "grad_norm": 0.48647102451330965, "learning_rate": 3.8348765432098766e-05, "loss": 0.4819, "step": 893 }, { "epoch": 0.93125, "grad_norm": 0.6767269639414597, "learning_rate": 3.832947530864198e-05, "loss": 0.5643, "step": 894 }, { "epoch": 0.9322916666666666, "grad_norm": 0.486083634103552, "learning_rate": 3.831018518518519e-05, "loss": 0.4972, "step": 895 }, { "epoch": 0.9333333333333333, "grad_norm": 0.44399801571321124, "learning_rate": 3.8290895061728396e-05, "loss": 0.6201, "step": 896 }, { "epoch": 0.934375, "grad_norm": 0.5100383281140115, "learning_rate": 3.82716049382716e-05, "loss": 0.502, "step": 897 }, { "epoch": 0.9354166666666667, "grad_norm": 0.4049063185833961, "learning_rate": 3.8252314814814814e-05, "loss": 0.6298, "step": 898 }, { "epoch": 0.9364583333333333, "grad_norm": 0.3322554893205334, "learning_rate": 3.8233024691358026e-05, "loss": 0.5092, "step": 899 }, { "epoch": 0.9375, "grad_norm": 0.5018307999634629, "learning_rate": 3.821373456790124e-05, "loss": 0.5746, "step": 900 }, { "epoch": 0.9385416666666667, "grad_norm": 0.33601291182817045, "learning_rate": 3.8194444444444444e-05, "loss": 0.4677, "step": 901 }, { "epoch": 0.9395833333333333, "grad_norm": 0.3251124001109031, "learning_rate": 3.8175154320987656e-05, "loss": 0.5362, "step": 902 }, { "epoch": 0.940625, "grad_norm": 0.3832885039885358, "learning_rate": 3.815586419753087e-05, "loss": 0.5083, "step": 903 }, { "epoch": 0.9416666666666667, "grad_norm": 0.3445130271666832, "learning_rate": 3.813657407407408e-05, "loss": 0.5969, "step": 904 }, { "epoch": 0.9427083333333334, "grad_norm": 0.28921121216146517, "learning_rate": 3.8117283950617286e-05, "loss": 0.4683, "step": 905 }, { "epoch": 0.94375, "grad_norm": 0.3230462403735706, "learning_rate": 3.809799382716049e-05, "loss": 0.5424, "step": 906 }, { "epoch": 0.9447916666666667, "grad_norm": 0.2997608305920295, "learning_rate": 3.8078703703703704e-05, "loss": 0.5659, "step": 907 }, { "epoch": 0.9458333333333333, "grad_norm": 0.252178976051105, "learning_rate": 3.8059413580246916e-05, "loss": 0.4607, "step": 908 }, { "epoch": 0.946875, "grad_norm": 0.2717098622162793, "learning_rate": 3.804012345679013e-05, "loss": 0.5269, "step": 909 }, { "epoch": 0.9479166666666666, "grad_norm": 0.29501517085222134, "learning_rate": 3.8020833333333334e-05, "loss": 0.5434, "step": 910 }, { "epoch": 0.9489583333333333, "grad_norm": 0.2764943318793239, "learning_rate": 3.8001543209876546e-05, "loss": 0.4866, "step": 911 }, { "epoch": 0.95, "grad_norm": 4.773510420365466, "learning_rate": 3.798225308641976e-05, "loss": 0.4741, "step": 912 }, { "epoch": 0.9510416666666667, "grad_norm": 0.2846646216177847, "learning_rate": 3.7962962962962964e-05, "loss": 0.4741, "step": 913 }, { "epoch": 0.9520833333333333, "grad_norm": 0.27662140799306145, "learning_rate": 3.794367283950617e-05, "loss": 0.5452, "step": 914 }, { "epoch": 0.953125, "grad_norm": 0.9261083892279286, "learning_rate": 3.792438271604938e-05, "loss": 0.5477, "step": 915 }, { "epoch": 0.9541666666666667, "grad_norm": 1.2785922161909344, "learning_rate": 3.7905092592592594e-05, "loss": 0.6054, "step": 916 }, { "epoch": 0.9552083333333333, "grad_norm": 0.84940667431323, "learning_rate": 3.7885802469135806e-05, "loss": 0.5843, "step": 917 }, { "epoch": 0.95625, "grad_norm": 2.724496970039449, "learning_rate": 3.786651234567901e-05, "loss": 0.5903, "step": 918 }, { "epoch": 0.9572916666666667, "grad_norm": 0.34466813145300285, "learning_rate": 3.7847222222222224e-05, "loss": 0.5024, "step": 919 }, { "epoch": 0.9583333333333334, "grad_norm": 0.37553324848601244, "learning_rate": 3.7827932098765436e-05, "loss": 0.5296, "step": 920 }, { "epoch": 0.959375, "grad_norm": 0.26684708258368417, "learning_rate": 3.780864197530865e-05, "loss": 0.497, "step": 921 }, { "epoch": 0.9604166666666667, "grad_norm": 0.318162220328949, "learning_rate": 3.7789351851851854e-05, "loss": 0.6067, "step": 922 }, { "epoch": 0.9614583333333333, "grad_norm": 0.3381962836340505, "learning_rate": 3.777006172839506e-05, "loss": 0.542, "step": 923 }, { "epoch": 0.9625, "grad_norm": 0.28912839446807387, "learning_rate": 3.775077160493827e-05, "loss": 0.5108, "step": 924 }, { "epoch": 0.9635416666666666, "grad_norm": 0.2641624040832872, "learning_rate": 3.7731481481481484e-05, "loss": 0.4937, "step": 925 }, { "epoch": 0.9645833333333333, "grad_norm": 0.28261612381782614, "learning_rate": 3.7712191358024696e-05, "loss": 0.5625, "step": 926 }, { "epoch": 0.965625, "grad_norm": 0.30286707030561494, "learning_rate": 3.76929012345679e-05, "loss": 0.5332, "step": 927 }, { "epoch": 0.9666666666666667, "grad_norm": 0.27895767069291205, "learning_rate": 3.7673611111111114e-05, "loss": 0.5587, "step": 928 }, { "epoch": 0.9677083333333333, "grad_norm": 8.027855210971529, "learning_rate": 3.7654320987654326e-05, "loss": 0.9136, "step": 929 }, { "epoch": 0.96875, "grad_norm": 0.29998238357425333, "learning_rate": 3.763503086419753e-05, "loss": 0.4547, "step": 930 }, { "epoch": 0.9697916666666667, "grad_norm": 0.2705646313213253, "learning_rate": 3.7615740740740744e-05, "loss": 0.4641, "step": 931 }, { "epoch": 0.9708333333333333, "grad_norm": 0.2752534007965191, "learning_rate": 3.759645061728395e-05, "loss": 0.6027, "step": 932 }, { "epoch": 0.971875, "grad_norm": 0.26804872307116895, "learning_rate": 3.757716049382716e-05, "loss": 0.5464, "step": 933 }, { "epoch": 0.9729166666666667, "grad_norm": 1.4874988864129075, "learning_rate": 3.7557870370370374e-05, "loss": 0.5277, "step": 934 }, { "epoch": 0.9739583333333334, "grad_norm": 0.31535954552968326, "learning_rate": 3.753858024691358e-05, "loss": 0.5432, "step": 935 }, { "epoch": 0.975, "grad_norm": 0.2719946330771699, "learning_rate": 3.751929012345679e-05, "loss": 0.4993, "step": 936 }, { "epoch": 0.9760416666666667, "grad_norm": 0.2547798890240781, "learning_rate": 3.7500000000000003e-05, "loss": 0.5325, "step": 937 }, { "epoch": 0.9770833333333333, "grad_norm": 0.2777125586659636, "learning_rate": 3.7480709876543216e-05, "loss": 0.5453, "step": 938 }, { "epoch": 0.978125, "grad_norm": 0.2700129338655847, "learning_rate": 3.746141975308642e-05, "loss": 0.5253, "step": 939 }, { "epoch": 0.9791666666666666, "grad_norm": 0.2837187190314194, "learning_rate": 3.744212962962963e-05, "loss": 0.5879, "step": 940 }, { "epoch": 0.9802083333333333, "grad_norm": 0.2745216744093114, "learning_rate": 3.742283950617284e-05, "loss": 0.5569, "step": 941 }, { "epoch": 0.98125, "grad_norm": 0.2968726424383628, "learning_rate": 3.740354938271605e-05, "loss": 0.6785, "step": 942 }, { "epoch": 0.9822916666666667, "grad_norm": 0.24508611358689245, "learning_rate": 3.7384259259259263e-05, "loss": 0.5406, "step": 943 }, { "epoch": 0.9833333333333333, "grad_norm": 0.24526971967888872, "learning_rate": 3.736496913580247e-05, "loss": 0.5478, "step": 944 }, { "epoch": 0.984375, "grad_norm": 0.25505253467829847, "learning_rate": 3.734567901234568e-05, "loss": 0.4668, "step": 945 }, { "epoch": 0.9854166666666667, "grad_norm": 0.2727526678350513, "learning_rate": 3.7326388888888893e-05, "loss": 0.5978, "step": 946 }, { "epoch": 0.9864583333333333, "grad_norm": 0.4279651241247396, "learning_rate": 3.7307098765432106e-05, "loss": 0.5748, "step": 947 }, { "epoch": 0.9875, "grad_norm": 0.3415395912653671, "learning_rate": 3.728780864197531e-05, "loss": 0.5898, "step": 948 }, { "epoch": 0.9885416666666667, "grad_norm": 12.06281097978992, "learning_rate": 3.726851851851852e-05, "loss": 0.6854, "step": 949 }, { "epoch": 0.9895833333333334, "grad_norm": 0.308515596385904, "learning_rate": 3.724922839506173e-05, "loss": 0.5694, "step": 950 }, { "epoch": 0.990625, "grad_norm": 0.2925475340488679, "learning_rate": 3.722993827160494e-05, "loss": 0.5805, "step": 951 }, { "epoch": 0.9916666666666667, "grad_norm": 0.6238309822967267, "learning_rate": 3.721064814814815e-05, "loss": 0.5416, "step": 952 }, { "epoch": 0.9927083333333333, "grad_norm": 0.2910741263709439, "learning_rate": 3.719135802469136e-05, "loss": 0.6222, "step": 953 }, { "epoch": 0.99375, "grad_norm": 0.3109044507336031, "learning_rate": 3.717206790123457e-05, "loss": 0.5222, "step": 954 }, { "epoch": 0.9947916666666666, "grad_norm": 0.2694307836334021, "learning_rate": 3.715277777777778e-05, "loss": 0.4981, "step": 955 }, { "epoch": 0.9958333333333333, "grad_norm": 0.2887127274497531, "learning_rate": 3.713348765432099e-05, "loss": 0.5643, "step": 956 }, { "epoch": 0.996875, "grad_norm": 7.227527744249534, "learning_rate": 3.7114197530864194e-05, "loss": 0.5334, "step": 957 }, { "epoch": 0.9979166666666667, "grad_norm": 0.2812890445654323, "learning_rate": 3.7094907407407407e-05, "loss": 0.5312, "step": 958 }, { "epoch": 0.9989583333333333, "grad_norm": 0.2890172269602038, "learning_rate": 3.707561728395062e-05, "loss": 0.5712, "step": 959 }, { "epoch": 1.0, "grad_norm": 0.2582031560786112, "learning_rate": 3.705632716049383e-05, "loss": 0.5717, "step": 960 }, { "epoch": 1.0010416666666666, "grad_norm": 0.295157272461484, "learning_rate": 3.7037037037037037e-05, "loss": 0.4347, "step": 961 }, { "epoch": 1.0020833333333334, "grad_norm": 0.29434832487715207, "learning_rate": 3.701774691358025e-05, "loss": 0.421, "step": 962 }, { "epoch": 1.003125, "grad_norm": 0.2763095429165308, "learning_rate": 3.699845679012346e-05, "loss": 0.4558, "step": 963 }, { "epoch": 1.0041666666666667, "grad_norm": 0.25934283409522946, "learning_rate": 3.697916666666667e-05, "loss": 0.4176, "step": 964 }, { "epoch": 1.0052083333333333, "grad_norm": 0.2805059934414885, "learning_rate": 3.695987654320988e-05, "loss": 0.427, "step": 965 }, { "epoch": 1.00625, "grad_norm": 0.3277359013359365, "learning_rate": 3.6940586419753084e-05, "loss": 0.3546, "step": 966 }, { "epoch": 1.0072916666666667, "grad_norm": 0.3376688857068756, "learning_rate": 3.6921296296296297e-05, "loss": 0.5038, "step": 967 }, { "epoch": 1.0083333333333333, "grad_norm": 0.2772564304941466, "learning_rate": 3.690200617283951e-05, "loss": 0.4026, "step": 968 }, { "epoch": 1.009375, "grad_norm": 0.27948854594101186, "learning_rate": 3.6882716049382714e-05, "loss": 0.4654, "step": 969 }, { "epoch": 1.0104166666666667, "grad_norm": 0.2760941250009863, "learning_rate": 3.6863425925925926e-05, "loss": 0.4782, "step": 970 }, { "epoch": 1.0114583333333333, "grad_norm": 0.2716949483911221, "learning_rate": 3.684413580246914e-05, "loss": 0.4328, "step": 971 }, { "epoch": 1.0125, "grad_norm": 0.24082083407931332, "learning_rate": 3.682484567901235e-05, "loss": 0.4286, "step": 972 }, { "epoch": 1.0135416666666666, "grad_norm": 0.23083126350599767, "learning_rate": 3.6805555555555556e-05, "loss": 0.3569, "step": 973 }, { "epoch": 1.0145833333333334, "grad_norm": 0.26828663049951046, "learning_rate": 3.678626543209877e-05, "loss": 0.4703, "step": 974 }, { "epoch": 1.015625, "grad_norm": 0.24737127403232304, "learning_rate": 3.6766975308641974e-05, "loss": 0.4491, "step": 975 }, { "epoch": 1.0166666666666666, "grad_norm": 0.3342969603695896, "learning_rate": 3.6747685185185186e-05, "loss": 0.561, "step": 976 }, { "epoch": 1.0177083333333334, "grad_norm": 0.22995128402067086, "learning_rate": 3.67283950617284e-05, "loss": 0.3798, "step": 977 }, { "epoch": 1.01875, "grad_norm": 0.2442154095246631, "learning_rate": 3.6709104938271604e-05, "loss": 0.453, "step": 978 }, { "epoch": 1.0197916666666667, "grad_norm": 0.27279534386910925, "learning_rate": 3.6689814814814816e-05, "loss": 0.4614, "step": 979 }, { "epoch": 1.0208333333333333, "grad_norm": 0.44642816958816806, "learning_rate": 3.667052469135803e-05, "loss": 0.4383, "step": 980 }, { "epoch": 1.021875, "grad_norm": 0.23943100231559974, "learning_rate": 3.665123456790124e-05, "loss": 0.4968, "step": 981 }, { "epoch": 1.0229166666666667, "grad_norm": 0.226948763956555, "learning_rate": 3.6631944444444446e-05, "loss": 0.3804, "step": 982 }, { "epoch": 1.0239583333333333, "grad_norm": 0.4232993786568671, "learning_rate": 3.661265432098765e-05, "loss": 0.4541, "step": 983 }, { "epoch": 1.025, "grad_norm": 1.200437644776823, "learning_rate": 3.6593364197530864e-05, "loss": 0.455, "step": 984 }, { "epoch": 1.0260416666666667, "grad_norm": 0.9336202714014223, "learning_rate": 3.6574074074074076e-05, "loss": 0.4331, "step": 985 }, { "epoch": 1.0270833333333333, "grad_norm": 0.2658513090314203, "learning_rate": 3.655478395061729e-05, "loss": 0.467, "step": 986 }, { "epoch": 1.028125, "grad_norm": 1.9080815597962657, "learning_rate": 3.6535493827160494e-05, "loss": 0.4416, "step": 987 }, { "epoch": 1.0291666666666666, "grad_norm": 0.2658938260097328, "learning_rate": 3.6516203703703706e-05, "loss": 0.4732, "step": 988 }, { "epoch": 1.0302083333333334, "grad_norm": 0.2474420108282299, "learning_rate": 3.649691358024692e-05, "loss": 0.4365, "step": 989 }, { "epoch": 1.03125, "grad_norm": 0.24215100565398764, "learning_rate": 3.647762345679013e-05, "loss": 0.4537, "step": 990 }, { "epoch": 1.0322916666666666, "grad_norm": 0.24282862016355206, "learning_rate": 3.6458333333333336e-05, "loss": 0.3774, "step": 991 }, { "epoch": 1.0333333333333334, "grad_norm": 0.23185650243355269, "learning_rate": 3.643904320987654e-05, "loss": 0.3834, "step": 992 }, { "epoch": 1.034375, "grad_norm": 0.27765622826015907, "learning_rate": 3.6419753086419754e-05, "loss": 0.4409, "step": 993 }, { "epoch": 1.0354166666666667, "grad_norm": 0.2647450858478225, "learning_rate": 3.6400462962962966e-05, "loss": 0.4807, "step": 994 }, { "epoch": 1.0364583333333333, "grad_norm": 0.25612164589263825, "learning_rate": 3.638117283950617e-05, "loss": 0.4423, "step": 995 }, { "epoch": 1.0375, "grad_norm": 0.239343138784356, "learning_rate": 3.6361882716049384e-05, "loss": 0.4828, "step": 996 }, { "epoch": 1.0385416666666667, "grad_norm": 0.4573014402565268, "learning_rate": 3.6342592592592596e-05, "loss": 0.4762, "step": 997 }, { "epoch": 1.0395833333333333, "grad_norm": 0.32967740431014214, "learning_rate": 3.632330246913581e-05, "loss": 0.4803, "step": 998 }, { "epoch": 1.040625, "grad_norm": 0.25253630034680075, "learning_rate": 3.6304012345679014e-05, "loss": 0.3966, "step": 999 }, { "epoch": 1.0416666666666667, "grad_norm": 0.25430400394899905, "learning_rate": 3.628472222222222e-05, "loss": 0.4373, "step": 1000 }, { "epoch": 1.0427083333333333, "grad_norm": 3.8244759335134044, "learning_rate": 3.626543209876543e-05, "loss": 0.4696, "step": 1001 }, { "epoch": 1.04375, "grad_norm": 0.2762274115351411, "learning_rate": 3.6246141975308644e-05, "loss": 0.4777, "step": 1002 }, { "epoch": 1.0447916666666666, "grad_norm": 0.2949102546094815, "learning_rate": 3.6226851851851856e-05, "loss": 0.5142, "step": 1003 }, { "epoch": 1.0458333333333334, "grad_norm": 0.25621491690526516, "learning_rate": 3.620756172839506e-05, "loss": 0.5041, "step": 1004 }, { "epoch": 1.046875, "grad_norm": 0.2666615966167154, "learning_rate": 3.6188271604938274e-05, "loss": 0.4823, "step": 1005 }, { "epoch": 1.0479166666666666, "grad_norm": 0.28476916745773906, "learning_rate": 3.6168981481481486e-05, "loss": 0.4805, "step": 1006 }, { "epoch": 1.0489583333333334, "grad_norm": 0.25750678869807153, "learning_rate": 3.61496913580247e-05, "loss": 0.4439, "step": 1007 }, { "epoch": 1.05, "grad_norm": 0.32143026112994766, "learning_rate": 3.6130401234567904e-05, "loss": 0.4987, "step": 1008 }, { "epoch": 1.0510416666666667, "grad_norm": 0.244877574961745, "learning_rate": 3.611111111111111e-05, "loss": 0.4235, "step": 1009 }, { "epoch": 1.0520833333333333, "grad_norm": 4.766624991423814, "learning_rate": 3.609182098765432e-05, "loss": 0.8141, "step": 1010 }, { "epoch": 1.053125, "grad_norm": 0.30518679911523927, "learning_rate": 3.6072530864197534e-05, "loss": 0.4756, "step": 1011 }, { "epoch": 1.0541666666666667, "grad_norm": 0.2659553503732265, "learning_rate": 3.605324074074074e-05, "loss": 0.4626, "step": 1012 }, { "epoch": 1.0552083333333333, "grad_norm": 0.23115074430735297, "learning_rate": 3.603395061728395e-05, "loss": 0.4048, "step": 1013 }, { "epoch": 1.05625, "grad_norm": 0.24632765267140053, "learning_rate": 3.6014660493827164e-05, "loss": 0.4134, "step": 1014 }, { "epoch": 1.0572916666666667, "grad_norm": 0.27591224282492155, "learning_rate": 3.5995370370370376e-05, "loss": 0.4602, "step": 1015 }, { "epoch": 1.0583333333333333, "grad_norm": 0.26272761705523195, "learning_rate": 3.597608024691358e-05, "loss": 0.4649, "step": 1016 }, { "epoch": 1.059375, "grad_norm": 5.017580904928352, "learning_rate": 3.5956790123456794e-05, "loss": 0.5205, "step": 1017 }, { "epoch": 1.0604166666666666, "grad_norm": 0.30392453397694974, "learning_rate": 3.59375e-05, "loss": 0.4247, "step": 1018 }, { "epoch": 1.0614583333333334, "grad_norm": 0.258870558751151, "learning_rate": 3.591820987654321e-05, "loss": 0.4167, "step": 1019 }, { "epoch": 1.0625, "grad_norm": 0.24575993539735896, "learning_rate": 3.5898919753086424e-05, "loss": 0.4153, "step": 1020 }, { "epoch": 1.0635416666666666, "grad_norm": 0.2600919872748651, "learning_rate": 3.587962962962963e-05, "loss": 0.4412, "step": 1021 }, { "epoch": 1.0645833333333334, "grad_norm": 0.2621563845221389, "learning_rate": 3.586033950617284e-05, "loss": 0.4743, "step": 1022 }, { "epoch": 1.065625, "grad_norm": 0.6776071193940514, "learning_rate": 3.5841049382716054e-05, "loss": 0.5032, "step": 1023 }, { "epoch": 1.0666666666666667, "grad_norm": 0.28714023446242803, "learning_rate": 3.5821759259259266e-05, "loss": 0.431, "step": 1024 }, { "epoch": 1.0677083333333333, "grad_norm": 1.731988234853414, "learning_rate": 3.580246913580247e-05, "loss": 0.5237, "step": 1025 }, { "epoch": 1.06875, "grad_norm": 0.29899107388086593, "learning_rate": 3.578317901234568e-05, "loss": 0.4397, "step": 1026 }, { "epoch": 1.0697916666666667, "grad_norm": 0.29884298343988713, "learning_rate": 3.576388888888889e-05, "loss": 0.4983, "step": 1027 }, { "epoch": 1.0708333333333333, "grad_norm": 0.24976030552488598, "learning_rate": 3.57445987654321e-05, "loss": 0.4978, "step": 1028 }, { "epoch": 1.071875, "grad_norm": 0.23489755001410792, "learning_rate": 3.572530864197531e-05, "loss": 0.3942, "step": 1029 }, { "epoch": 1.0729166666666667, "grad_norm": 0.22914991990398131, "learning_rate": 3.570601851851852e-05, "loss": 0.4314, "step": 1030 }, { "epoch": 1.0739583333333333, "grad_norm": 0.9665248189821488, "learning_rate": 3.568672839506173e-05, "loss": 0.4374, "step": 1031 }, { "epoch": 1.075, "grad_norm": 0.2883109769898387, "learning_rate": 3.5667438271604944e-05, "loss": 0.4571, "step": 1032 }, { "epoch": 1.0760416666666666, "grad_norm": 0.2849703318056567, "learning_rate": 3.564814814814815e-05, "loss": 0.4418, "step": 1033 }, { "epoch": 1.0770833333333334, "grad_norm": 0.3213206943924114, "learning_rate": 3.562885802469136e-05, "loss": 0.4747, "step": 1034 }, { "epoch": 1.078125, "grad_norm": 0.2586786191978882, "learning_rate": 3.560956790123457e-05, "loss": 0.425, "step": 1035 }, { "epoch": 1.0791666666666666, "grad_norm": 0.29781700639073183, "learning_rate": 3.559027777777778e-05, "loss": 0.4938, "step": 1036 }, { "epoch": 1.0802083333333334, "grad_norm": 0.3091726807659685, "learning_rate": 3.557098765432099e-05, "loss": 0.4713, "step": 1037 }, { "epoch": 1.08125, "grad_norm": 0.2570985917362353, "learning_rate": 3.55516975308642e-05, "loss": 0.4307, "step": 1038 }, { "epoch": 1.0822916666666667, "grad_norm": 0.26123046730339494, "learning_rate": 3.553240740740741e-05, "loss": 0.4649, "step": 1039 }, { "epoch": 1.0833333333333333, "grad_norm": 0.273130711383829, "learning_rate": 3.551311728395062e-05, "loss": 0.4252, "step": 1040 }, { "epoch": 1.084375, "grad_norm": 0.29070391654847344, "learning_rate": 3.5493827160493834e-05, "loss": 0.4974, "step": 1041 }, { "epoch": 1.0854166666666667, "grad_norm": 0.24805793603632156, "learning_rate": 3.547453703703704e-05, "loss": 0.4571, "step": 1042 }, { "epoch": 1.0864583333333333, "grad_norm": 0.2510509735481594, "learning_rate": 3.5455246913580245e-05, "loss": 0.4587, "step": 1043 }, { "epoch": 1.0875, "grad_norm": 0.2694859235354443, "learning_rate": 3.543595679012346e-05, "loss": 0.4514, "step": 1044 }, { "epoch": 1.0885416666666667, "grad_norm": 0.25318721901242797, "learning_rate": 3.541666666666667e-05, "loss": 0.4451, "step": 1045 }, { "epoch": 1.0895833333333333, "grad_norm": 0.9909714810812363, "learning_rate": 3.5397376543209875e-05, "loss": 0.5796, "step": 1046 }, { "epoch": 1.090625, "grad_norm": 0.24571900698036633, "learning_rate": 3.537808641975309e-05, "loss": 0.4058, "step": 1047 }, { "epoch": 1.0916666666666666, "grad_norm": 0.24451716144832208, "learning_rate": 3.53587962962963e-05, "loss": 0.439, "step": 1048 }, { "epoch": 1.0927083333333334, "grad_norm": 0.3253721495501499, "learning_rate": 3.533950617283951e-05, "loss": 0.5154, "step": 1049 }, { "epoch": 1.09375, "grad_norm": 0.2524003716748948, "learning_rate": 3.532021604938272e-05, "loss": 0.4442, "step": 1050 }, { "epoch": 1.0947916666666666, "grad_norm": 0.2868073781800159, "learning_rate": 3.530092592592593e-05, "loss": 0.4293, "step": 1051 }, { "epoch": 1.0958333333333334, "grad_norm": 8.302897779152506, "learning_rate": 3.5281635802469135e-05, "loss": 0.5283, "step": 1052 }, { "epoch": 1.096875, "grad_norm": 0.23678270400323506, "learning_rate": 3.526234567901235e-05, "loss": 0.4372, "step": 1053 }, { "epoch": 1.0979166666666667, "grad_norm": 0.24615442626703993, "learning_rate": 3.524305555555556e-05, "loss": 0.4231, "step": 1054 }, { "epoch": 1.0989583333333333, "grad_norm": 0.22179734872778323, "learning_rate": 3.5223765432098765e-05, "loss": 0.4142, "step": 1055 }, { "epoch": 1.1, "grad_norm": 0.2348174582098313, "learning_rate": 3.520447530864198e-05, "loss": 0.4696, "step": 1056 }, { "epoch": 1.1010416666666667, "grad_norm": 0.22017933563614553, "learning_rate": 3.518518518518519e-05, "loss": 0.4012, "step": 1057 }, { "epoch": 1.1020833333333333, "grad_norm": 0.23938461341502135, "learning_rate": 3.51658950617284e-05, "loss": 0.4135, "step": 1058 }, { "epoch": 1.103125, "grad_norm": 0.22996396187273976, "learning_rate": 3.514660493827161e-05, "loss": 0.5097, "step": 1059 }, { "epoch": 1.1041666666666667, "grad_norm": 0.33185555223228236, "learning_rate": 3.512731481481481e-05, "loss": 0.5089, "step": 1060 }, { "epoch": 1.1052083333333333, "grad_norm": 0.2428506754163024, "learning_rate": 3.5108024691358025e-05, "loss": 0.4865, "step": 1061 }, { "epoch": 1.10625, "grad_norm": 0.7718518120106216, "learning_rate": 3.508873456790124e-05, "loss": 0.5124, "step": 1062 }, { "epoch": 1.1072916666666666, "grad_norm": 0.23308573432354465, "learning_rate": 3.506944444444444e-05, "loss": 0.4193, "step": 1063 }, { "epoch": 1.1083333333333334, "grad_norm": 0.21151934537471712, "learning_rate": 3.5050154320987655e-05, "loss": 0.4109, "step": 1064 }, { "epoch": 1.109375, "grad_norm": 0.4939329859011564, "learning_rate": 3.503086419753087e-05, "loss": 0.4188, "step": 1065 }, { "epoch": 1.1104166666666666, "grad_norm": 0.31036033131191043, "learning_rate": 3.501157407407408e-05, "loss": 0.4223, "step": 1066 }, { "epoch": 1.1114583333333334, "grad_norm": 0.24587026256617564, "learning_rate": 3.499228395061729e-05, "loss": 0.423, "step": 1067 }, { "epoch": 1.1125, "grad_norm": 0.2420356615322225, "learning_rate": 3.49729938271605e-05, "loss": 0.4115, "step": 1068 }, { "epoch": 1.1135416666666667, "grad_norm": 0.2391320042426885, "learning_rate": 3.49537037037037e-05, "loss": 0.47, "step": 1069 }, { "epoch": 1.1145833333333333, "grad_norm": 0.26853105084210455, "learning_rate": 3.4934413580246915e-05, "loss": 0.4358, "step": 1070 }, { "epoch": 1.115625, "grad_norm": 0.21124921076955208, "learning_rate": 3.491512345679013e-05, "loss": 0.3834, "step": 1071 }, { "epoch": 1.1166666666666667, "grad_norm": 0.23647258378004635, "learning_rate": 3.489583333333333e-05, "loss": 0.408, "step": 1072 }, { "epoch": 1.1177083333333333, "grad_norm": 0.23802335022674734, "learning_rate": 3.4876543209876545e-05, "loss": 0.4506, "step": 1073 }, { "epoch": 1.11875, "grad_norm": 0.22561442609873925, "learning_rate": 3.485725308641976e-05, "loss": 0.4886, "step": 1074 }, { "epoch": 1.1197916666666667, "grad_norm": 15.047728768049975, "learning_rate": 3.483796296296297e-05, "loss": 0.8102, "step": 1075 }, { "epoch": 1.1208333333333333, "grad_norm": 0.30603338817829157, "learning_rate": 3.4818672839506174e-05, "loss": 0.4342, "step": 1076 }, { "epoch": 1.121875, "grad_norm": 0.25299695824039553, "learning_rate": 3.479938271604939e-05, "loss": 0.4327, "step": 1077 }, { "epoch": 1.1229166666666666, "grad_norm": 0.23686010565350357, "learning_rate": 3.478009259259259e-05, "loss": 0.4068, "step": 1078 }, { "epoch": 1.1239583333333334, "grad_norm": 0.2934297120850114, "learning_rate": 3.4760802469135804e-05, "loss": 0.4114, "step": 1079 }, { "epoch": 1.125, "grad_norm": 0.24917852370493937, "learning_rate": 3.474151234567901e-05, "loss": 0.4549, "step": 1080 }, { "epoch": 1.1260416666666666, "grad_norm": 0.8570162645381596, "learning_rate": 3.472222222222222e-05, "loss": 0.45, "step": 1081 }, { "epoch": 1.1270833333333332, "grad_norm": 0.31061426165453315, "learning_rate": 3.4702932098765434e-05, "loss": 0.4852, "step": 1082 }, { "epoch": 1.128125, "grad_norm": 0.9576876367840674, "learning_rate": 3.468364197530865e-05, "loss": 0.4269, "step": 1083 }, { "epoch": 1.1291666666666667, "grad_norm": 0.3047836037033501, "learning_rate": 3.466435185185186e-05, "loss": 0.3952, "step": 1084 }, { "epoch": 1.1302083333333333, "grad_norm": 0.2715656526502883, "learning_rate": 3.4645061728395064e-05, "loss": 0.4249, "step": 1085 }, { "epoch": 1.13125, "grad_norm": 0.29374602164562974, "learning_rate": 3.462577160493827e-05, "loss": 0.3988, "step": 1086 }, { "epoch": 1.1322916666666667, "grad_norm": 0.3102075169497796, "learning_rate": 3.460648148148148e-05, "loss": 0.4423, "step": 1087 }, { "epoch": 1.1333333333333333, "grad_norm": 0.2518624888721676, "learning_rate": 3.4587191358024694e-05, "loss": 0.4404, "step": 1088 }, { "epoch": 1.134375, "grad_norm": 0.23746092817981268, "learning_rate": 3.45679012345679e-05, "loss": 0.4604, "step": 1089 }, { "epoch": 1.1354166666666667, "grad_norm": 0.2609064299039458, "learning_rate": 3.454861111111111e-05, "loss": 0.4496, "step": 1090 }, { "epoch": 1.1364583333333333, "grad_norm": 0.24433754740804833, "learning_rate": 3.4529320987654324e-05, "loss": 0.4948, "step": 1091 }, { "epoch": 1.1375, "grad_norm": 0.24087910521598946, "learning_rate": 3.451003086419754e-05, "loss": 0.4524, "step": 1092 }, { "epoch": 1.1385416666666668, "grad_norm": 0.6912279315923295, "learning_rate": 3.449074074074074e-05, "loss": 0.4593, "step": 1093 }, { "epoch": 1.1395833333333334, "grad_norm": 0.43579889945440453, "learning_rate": 3.4471450617283954e-05, "loss": 0.4569, "step": 1094 }, { "epoch": 1.140625, "grad_norm": 0.2585505175688132, "learning_rate": 3.445216049382716e-05, "loss": 0.4793, "step": 1095 }, { "epoch": 1.1416666666666666, "grad_norm": 0.26514471382380406, "learning_rate": 3.443287037037037e-05, "loss": 0.4187, "step": 1096 }, { "epoch": 1.1427083333333332, "grad_norm": 0.2570341671289778, "learning_rate": 3.441358024691358e-05, "loss": 0.4617, "step": 1097 }, { "epoch": 1.14375, "grad_norm": 0.2517338805915218, "learning_rate": 3.439429012345679e-05, "loss": 0.4574, "step": 1098 }, { "epoch": 1.1447916666666667, "grad_norm": 0.3044905821635135, "learning_rate": 3.4375e-05, "loss": 0.3917, "step": 1099 }, { "epoch": 1.1458333333333333, "grad_norm": 0.2263009789035705, "learning_rate": 3.4355709876543214e-05, "loss": 0.4622, "step": 1100 }, { "epoch": 1.146875, "grad_norm": 0.26938091932844554, "learning_rate": 3.4336419753086427e-05, "loss": 0.4085, "step": 1101 }, { "epoch": 1.1479166666666667, "grad_norm": 0.24215233305547101, "learning_rate": 3.431712962962963e-05, "loss": 0.4517, "step": 1102 }, { "epoch": 1.1489583333333333, "grad_norm": 0.2293298532067325, "learning_rate": 3.429783950617284e-05, "loss": 0.4128, "step": 1103 }, { "epoch": 1.15, "grad_norm": 0.24961382624290582, "learning_rate": 3.427854938271605e-05, "loss": 0.4504, "step": 1104 }, { "epoch": 1.1510416666666667, "grad_norm": 0.266785918099401, "learning_rate": 3.425925925925926e-05, "loss": 0.4711, "step": 1105 }, { "epoch": 1.1520833333333333, "grad_norm": 0.224922913513404, "learning_rate": 3.423996913580247e-05, "loss": 0.445, "step": 1106 }, { "epoch": 1.153125, "grad_norm": 5.469580547886565, "learning_rate": 3.422067901234568e-05, "loss": 0.6861, "step": 1107 }, { "epoch": 1.1541666666666668, "grad_norm": 0.2777539246275854, "learning_rate": 3.420138888888889e-05, "loss": 0.4327, "step": 1108 }, { "epoch": 1.1552083333333334, "grad_norm": 0.26176059616203323, "learning_rate": 3.4182098765432104e-05, "loss": 0.4245, "step": 1109 }, { "epoch": 1.15625, "grad_norm": 0.22020032338611836, "learning_rate": 3.416280864197531e-05, "loss": 0.4136, "step": 1110 }, { "epoch": 1.1572916666666666, "grad_norm": 0.2618627788401854, "learning_rate": 3.414351851851852e-05, "loss": 0.4515, "step": 1111 }, { "epoch": 1.1583333333333332, "grad_norm": 0.2594740389903896, "learning_rate": 3.412422839506173e-05, "loss": 0.4618, "step": 1112 }, { "epoch": 1.159375, "grad_norm": 0.25671688273222193, "learning_rate": 3.410493827160494e-05, "loss": 0.4551, "step": 1113 }, { "epoch": 1.1604166666666667, "grad_norm": 0.22304569900915264, "learning_rate": 3.4085648148148145e-05, "loss": 0.4173, "step": 1114 }, { "epoch": 1.1614583333333333, "grad_norm": 0.23082805466877235, "learning_rate": 3.406635802469136e-05, "loss": 0.4459, "step": 1115 }, { "epoch": 1.1625, "grad_norm": 0.2651392579655476, "learning_rate": 3.404706790123457e-05, "loss": 0.4892, "step": 1116 }, { "epoch": 1.1635416666666667, "grad_norm": 0.23153480569244775, "learning_rate": 3.402777777777778e-05, "loss": 0.4156, "step": 1117 }, { "epoch": 1.1645833333333333, "grad_norm": 1.481870357736836, "learning_rate": 3.4008487654320994e-05, "loss": 0.4622, "step": 1118 }, { "epoch": 1.165625, "grad_norm": 0.30799237356993425, "learning_rate": 3.39891975308642e-05, "loss": 0.4854, "step": 1119 }, { "epoch": 1.1666666666666667, "grad_norm": 0.2898379355009739, "learning_rate": 3.396990740740741e-05, "loss": 0.4206, "step": 1120 }, { "epoch": 1.1677083333333333, "grad_norm": 1.5958320675714806, "learning_rate": 3.395061728395062e-05, "loss": 0.4955, "step": 1121 }, { "epoch": 1.16875, "grad_norm": 0.29755831306921027, "learning_rate": 3.393132716049383e-05, "loss": 0.4457, "step": 1122 }, { "epoch": 1.1697916666666668, "grad_norm": 0.31339393096671264, "learning_rate": 3.3912037037037035e-05, "loss": 0.3626, "step": 1123 }, { "epoch": 1.1708333333333334, "grad_norm": 0.3166818118797909, "learning_rate": 3.389274691358025e-05, "loss": 0.4729, "step": 1124 }, { "epoch": 1.171875, "grad_norm": 0.2836107703345843, "learning_rate": 3.387345679012346e-05, "loss": 0.4494, "step": 1125 }, { "epoch": 1.1729166666666666, "grad_norm": 0.24479833828723158, "learning_rate": 3.385416666666667e-05, "loss": 0.4704, "step": 1126 }, { "epoch": 1.1739583333333332, "grad_norm": 0.3136605904413793, "learning_rate": 3.383487654320988e-05, "loss": 0.5162, "step": 1127 }, { "epoch": 1.175, "grad_norm": 0.27292043697051527, "learning_rate": 3.381558641975309e-05, "loss": 0.4393, "step": 1128 }, { "epoch": 1.1760416666666667, "grad_norm": 0.2503873813974713, "learning_rate": 3.3796296296296295e-05, "loss": 0.4214, "step": 1129 }, { "epoch": 1.1770833333333333, "grad_norm": 0.24736379921884016, "learning_rate": 3.377700617283951e-05, "loss": 0.4727, "step": 1130 }, { "epoch": 1.178125, "grad_norm": 0.2714903712903857, "learning_rate": 3.375771604938271e-05, "loss": 0.3977, "step": 1131 }, { "epoch": 1.1791666666666667, "grad_norm": 0.753483726960863, "learning_rate": 3.3738425925925925e-05, "loss": 0.4699, "step": 1132 }, { "epoch": 1.1802083333333333, "grad_norm": 0.2215654999270271, "learning_rate": 3.371913580246914e-05, "loss": 0.4239, "step": 1133 }, { "epoch": 1.18125, "grad_norm": 0.2506210570566009, "learning_rate": 3.369984567901235e-05, "loss": 0.5079, "step": 1134 }, { "epoch": 1.1822916666666667, "grad_norm": 0.23945629666343274, "learning_rate": 3.368055555555556e-05, "loss": 0.4274, "step": 1135 }, { "epoch": 1.1833333333333333, "grad_norm": 0.2369674193499249, "learning_rate": 3.366126543209877e-05, "loss": 0.3975, "step": 1136 }, { "epoch": 1.184375, "grad_norm": 0.2324163372432094, "learning_rate": 3.364197530864198e-05, "loss": 0.4658, "step": 1137 }, { "epoch": 1.1854166666666668, "grad_norm": 0.23982810505349628, "learning_rate": 3.3622685185185185e-05, "loss": 0.4722, "step": 1138 }, { "epoch": 1.1864583333333334, "grad_norm": 0.2626475982537788, "learning_rate": 3.36033950617284e-05, "loss": 0.404, "step": 1139 }, { "epoch": 1.1875, "grad_norm": 0.21897003912332944, "learning_rate": 3.35841049382716e-05, "loss": 0.4556, "step": 1140 }, { "epoch": 1.1885416666666666, "grad_norm": 0.242117216742303, "learning_rate": 3.3564814814814815e-05, "loss": 0.4839, "step": 1141 }, { "epoch": 1.1895833333333332, "grad_norm": 0.22455753641273557, "learning_rate": 3.354552469135803e-05, "loss": 0.4337, "step": 1142 }, { "epoch": 1.190625, "grad_norm": 0.23512903009613742, "learning_rate": 3.352623456790124e-05, "loss": 0.4764, "step": 1143 }, { "epoch": 1.1916666666666667, "grad_norm": 0.27184565825363843, "learning_rate": 3.3506944444444445e-05, "loss": 0.4495, "step": 1144 }, { "epoch": 1.1927083333333333, "grad_norm": 0.21593895245320424, "learning_rate": 3.348765432098766e-05, "loss": 0.4104, "step": 1145 }, { "epoch": 1.19375, "grad_norm": 0.2497313000526914, "learning_rate": 3.346836419753086e-05, "loss": 0.4814, "step": 1146 }, { "epoch": 1.1947916666666667, "grad_norm": 0.23746408441054448, "learning_rate": 3.3449074074074075e-05, "loss": 0.4577, "step": 1147 }, { "epoch": 1.1958333333333333, "grad_norm": 0.22061529171412578, "learning_rate": 3.342978395061729e-05, "loss": 0.4354, "step": 1148 }, { "epoch": 1.196875, "grad_norm": 0.24911951439634372, "learning_rate": 3.341049382716049e-05, "loss": 0.3545, "step": 1149 }, { "epoch": 1.1979166666666667, "grad_norm": 1.2016510200299986, "learning_rate": 3.3391203703703705e-05, "loss": 0.4984, "step": 1150 }, { "epoch": 1.1989583333333333, "grad_norm": 0.25721168782578097, "learning_rate": 3.337191358024692e-05, "loss": 0.5058, "step": 1151 }, { "epoch": 1.2, "grad_norm": 0.22809015482730277, "learning_rate": 3.335262345679013e-05, "loss": 0.4299, "step": 1152 }, { "epoch": 1.2010416666666668, "grad_norm": 0.24830273730415464, "learning_rate": 3.3333333333333335e-05, "loss": 0.4242, "step": 1153 }, { "epoch": 1.2020833333333334, "grad_norm": 0.2409075040488458, "learning_rate": 3.331404320987655e-05, "loss": 0.4853, "step": 1154 }, { "epoch": 1.203125, "grad_norm": 0.21671125806052632, "learning_rate": 3.329475308641975e-05, "loss": 0.4348, "step": 1155 }, { "epoch": 1.2041666666666666, "grad_norm": 5.645910018158778, "learning_rate": 3.3275462962962965e-05, "loss": 0.7458, "step": 1156 }, { "epoch": 1.2052083333333332, "grad_norm": 1.8735772039931973, "learning_rate": 3.325617283950617e-05, "loss": 0.4735, "step": 1157 }, { "epoch": 1.20625, "grad_norm": 1.138383980622331, "learning_rate": 3.323688271604938e-05, "loss": 0.3831, "step": 1158 }, { "epoch": 1.2072916666666667, "grad_norm": 0.2833296264621847, "learning_rate": 3.3217592592592595e-05, "loss": 0.4953, "step": 1159 }, { "epoch": 1.2083333333333333, "grad_norm": 0.28417758389899983, "learning_rate": 3.319830246913581e-05, "loss": 0.458, "step": 1160 }, { "epoch": 1.209375, "grad_norm": 0.6073060898466734, "learning_rate": 3.317901234567901e-05, "loss": 0.445, "step": 1161 }, { "epoch": 1.2104166666666667, "grad_norm": 0.2384838572578727, "learning_rate": 3.3159722222222225e-05, "loss": 0.4469, "step": 1162 }, { "epoch": 1.2114583333333333, "grad_norm": 0.29537386493721624, "learning_rate": 3.314043209876544e-05, "loss": 0.4466, "step": 1163 }, { "epoch": 1.2125, "grad_norm": 0.9490402810862874, "learning_rate": 3.312114197530864e-05, "loss": 0.4129, "step": 1164 }, { "epoch": 1.2135416666666667, "grad_norm": 0.2658849217511056, "learning_rate": 3.3101851851851855e-05, "loss": 0.4443, "step": 1165 }, { "epoch": 1.2145833333333333, "grad_norm": 0.3066017119206128, "learning_rate": 3.308256172839506e-05, "loss": 0.4673, "step": 1166 }, { "epoch": 1.215625, "grad_norm": 0.343215031804056, "learning_rate": 3.306327160493827e-05, "loss": 0.4596, "step": 1167 }, { "epoch": 1.2166666666666668, "grad_norm": 0.23173034526403266, "learning_rate": 3.3043981481481485e-05, "loss": 0.4435, "step": 1168 }, { "epoch": 1.2177083333333334, "grad_norm": 0.2887865446362187, "learning_rate": 3.30246913580247e-05, "loss": 0.4732, "step": 1169 }, { "epoch": 1.21875, "grad_norm": 0.2703741499266552, "learning_rate": 3.30054012345679e-05, "loss": 0.3947, "step": 1170 }, { "epoch": 1.2197916666666666, "grad_norm": 0.284846632332288, "learning_rate": 3.2986111111111115e-05, "loss": 0.4912, "step": 1171 }, { "epoch": 1.2208333333333332, "grad_norm": 0.23256064829002226, "learning_rate": 3.296682098765432e-05, "loss": 0.4437, "step": 1172 }, { "epoch": 1.221875, "grad_norm": 0.2900626205031986, "learning_rate": 3.294753086419753e-05, "loss": 0.4726, "step": 1173 }, { "epoch": 1.2229166666666667, "grad_norm": 0.27357684469901994, "learning_rate": 3.292824074074074e-05, "loss": 0.4626, "step": 1174 }, { "epoch": 1.2239583333333333, "grad_norm": 0.2585117413948983, "learning_rate": 3.290895061728395e-05, "loss": 0.5188, "step": 1175 }, { "epoch": 1.225, "grad_norm": 0.2606880793043884, "learning_rate": 3.288966049382716e-05, "loss": 0.4564, "step": 1176 }, { "epoch": 1.2260416666666667, "grad_norm": 0.25849758074294626, "learning_rate": 3.2870370370370375e-05, "loss": 0.4466, "step": 1177 }, { "epoch": 1.2270833333333333, "grad_norm": 0.5520995853192513, "learning_rate": 3.285108024691358e-05, "loss": 0.4482, "step": 1178 }, { "epoch": 1.228125, "grad_norm": 0.6417051939311882, "learning_rate": 3.283179012345679e-05, "loss": 0.5087, "step": 1179 }, { "epoch": 1.2291666666666667, "grad_norm": 0.32919467737033353, "learning_rate": 3.2812500000000005e-05, "loss": 0.5179, "step": 1180 }, { "epoch": 1.2302083333333333, "grad_norm": 0.2440297397112051, "learning_rate": 3.279320987654321e-05, "loss": 0.428, "step": 1181 }, { "epoch": 1.23125, "grad_norm": 1.7067696723009431, "learning_rate": 3.277391975308642e-05, "loss": 0.5222, "step": 1182 }, { "epoch": 1.2322916666666668, "grad_norm": 0.35926805361338304, "learning_rate": 3.275462962962963e-05, "loss": 0.3865, "step": 1183 }, { "epoch": 1.2333333333333334, "grad_norm": 0.3309122964767689, "learning_rate": 3.273533950617284e-05, "loss": 0.464, "step": 1184 }, { "epoch": 1.234375, "grad_norm": 0.2771624560157634, "learning_rate": 3.271604938271605e-05, "loss": 0.4332, "step": 1185 }, { "epoch": 1.2354166666666666, "grad_norm": 0.4112888940560786, "learning_rate": 3.2696759259259265e-05, "loss": 0.4966, "step": 1186 }, { "epoch": 1.2364583333333332, "grad_norm": 4.854592236322226, "learning_rate": 3.267746913580247e-05, "loss": 0.463, "step": 1187 }, { "epoch": 1.2375, "grad_norm": 0.303219706138965, "learning_rate": 3.265817901234568e-05, "loss": 0.4455, "step": 1188 }, { "epoch": 1.2385416666666667, "grad_norm": 0.2865229079670359, "learning_rate": 3.263888888888889e-05, "loss": 0.4185, "step": 1189 }, { "epoch": 1.2395833333333333, "grad_norm": 0.25150141572030976, "learning_rate": 3.26195987654321e-05, "loss": 0.4601, "step": 1190 }, { "epoch": 1.240625, "grad_norm": 0.28094012936197643, "learning_rate": 3.2600308641975306e-05, "loss": 0.442, "step": 1191 }, { "epoch": 1.2416666666666667, "grad_norm": 0.294757468158025, "learning_rate": 3.258101851851852e-05, "loss": 0.4791, "step": 1192 }, { "epoch": 1.2427083333333333, "grad_norm": 0.29455773477505687, "learning_rate": 3.256172839506173e-05, "loss": 0.4713, "step": 1193 }, { "epoch": 1.24375, "grad_norm": 0.2689613227069426, "learning_rate": 3.254243827160494e-05, "loss": 0.4548, "step": 1194 }, { "epoch": 1.2447916666666667, "grad_norm": 0.2694920870467484, "learning_rate": 3.252314814814815e-05, "loss": 0.4315, "step": 1195 }, { "epoch": 1.2458333333333333, "grad_norm": 0.24846943171930475, "learning_rate": 3.250385802469136e-05, "loss": 0.4819, "step": 1196 }, { "epoch": 1.246875, "grad_norm": 0.26440116425136756, "learning_rate": 3.248456790123457e-05, "loss": 0.4945, "step": 1197 }, { "epoch": 1.2479166666666668, "grad_norm": 2.0511776366703356, "learning_rate": 3.246527777777778e-05, "loss": 0.4993, "step": 1198 }, { "epoch": 1.2489583333333334, "grad_norm": 0.5267221405293719, "learning_rate": 3.244598765432099e-05, "loss": 0.4799, "step": 1199 }, { "epoch": 1.25, "grad_norm": 0.23553992177855182, "learning_rate": 3.2426697530864196e-05, "loss": 0.486, "step": 1200 }, { "epoch": 1.2510416666666666, "grad_norm": 0.22851662173171355, "learning_rate": 3.240740740740741e-05, "loss": 0.4519, "step": 1201 }, { "epoch": 1.2520833333333332, "grad_norm": 0.27716740256686123, "learning_rate": 3.238811728395062e-05, "loss": 0.4746, "step": 1202 }, { "epoch": 1.253125, "grad_norm": 0.28282706002760094, "learning_rate": 3.236882716049383e-05, "loss": 0.4967, "step": 1203 }, { "epoch": 1.2541666666666667, "grad_norm": 0.22092110565601616, "learning_rate": 3.234953703703704e-05, "loss": 0.4128, "step": 1204 }, { "epoch": 1.2552083333333333, "grad_norm": 0.263414510849886, "learning_rate": 3.233024691358025e-05, "loss": 0.4511, "step": 1205 }, { "epoch": 1.25625, "grad_norm": 0.24184121193491062, "learning_rate": 3.2310956790123456e-05, "loss": 0.4178, "step": 1206 }, { "epoch": 1.2572916666666667, "grad_norm": 0.21691419914206156, "learning_rate": 3.229166666666667e-05, "loss": 0.404, "step": 1207 }, { "epoch": 1.2583333333333333, "grad_norm": 0.5454765940787396, "learning_rate": 3.227237654320987e-05, "loss": 0.4367, "step": 1208 }, { "epoch": 1.259375, "grad_norm": 0.2788473911941046, "learning_rate": 3.2253086419753086e-05, "loss": 0.4863, "step": 1209 }, { "epoch": 1.2604166666666667, "grad_norm": 0.24238227379269184, "learning_rate": 3.22337962962963e-05, "loss": 0.5021, "step": 1210 }, { "epoch": 1.2614583333333333, "grad_norm": 0.2565911586889267, "learning_rate": 3.221450617283951e-05, "loss": 0.4413, "step": 1211 }, { "epoch": 1.2625, "grad_norm": 0.2709598157047735, "learning_rate": 3.2195216049382715e-05, "loss": 0.5373, "step": 1212 }, { "epoch": 1.2635416666666668, "grad_norm": 0.23800482408291698, "learning_rate": 3.217592592592593e-05, "loss": 0.4271, "step": 1213 }, { "epoch": 1.2645833333333334, "grad_norm": 0.2121584822195774, "learning_rate": 3.215663580246914e-05, "loss": 0.382, "step": 1214 }, { "epoch": 1.265625, "grad_norm": 0.21730222799110918, "learning_rate": 3.2137345679012345e-05, "loss": 0.4176, "step": 1215 }, { "epoch": 1.2666666666666666, "grad_norm": 0.8672383115804301, "learning_rate": 3.211805555555556e-05, "loss": 0.3761, "step": 1216 }, { "epoch": 1.2677083333333332, "grad_norm": 0.25918930318616173, "learning_rate": 3.209876543209876e-05, "loss": 0.4196, "step": 1217 }, { "epoch": 1.26875, "grad_norm": 0.23131360873926052, "learning_rate": 3.2079475308641975e-05, "loss": 0.4076, "step": 1218 }, { "epoch": 1.2697916666666667, "grad_norm": 0.24381097108994526, "learning_rate": 3.206018518518519e-05, "loss": 0.4704, "step": 1219 }, { "epoch": 1.2708333333333333, "grad_norm": 0.24398525128757798, "learning_rate": 3.20408950617284e-05, "loss": 0.4513, "step": 1220 }, { "epoch": 1.271875, "grad_norm": 1.6427119041776508, "learning_rate": 3.2021604938271605e-05, "loss": 0.4082, "step": 1221 }, { "epoch": 1.2729166666666667, "grad_norm": 0.2713542008102634, "learning_rate": 3.200231481481482e-05, "loss": 0.492, "step": 1222 }, { "epoch": 1.2739583333333333, "grad_norm": 0.24703513905588462, "learning_rate": 3.198302469135803e-05, "loss": 0.4273, "step": 1223 }, { "epoch": 1.275, "grad_norm": 0.3015642618217193, "learning_rate": 3.1963734567901235e-05, "loss": 0.5136, "step": 1224 }, { "epoch": 1.2760416666666667, "grad_norm": 0.2667678708287049, "learning_rate": 3.194444444444444e-05, "loss": 0.4849, "step": 1225 }, { "epoch": 1.2770833333333333, "grad_norm": 0.26007205495814095, "learning_rate": 3.192515432098765e-05, "loss": 0.4435, "step": 1226 }, { "epoch": 1.278125, "grad_norm": 0.400437159354774, "learning_rate": 3.1905864197530865e-05, "loss": 0.3852, "step": 1227 }, { "epoch": 1.2791666666666668, "grad_norm": 0.2639019005703168, "learning_rate": 3.188657407407408e-05, "loss": 0.4383, "step": 1228 }, { "epoch": 1.2802083333333334, "grad_norm": 0.25367386805154896, "learning_rate": 3.186728395061729e-05, "loss": 0.4903, "step": 1229 }, { "epoch": 1.28125, "grad_norm": 0.2927812647959773, "learning_rate": 3.1847993827160495e-05, "loss": 0.4524, "step": 1230 }, { "epoch": 1.2822916666666666, "grad_norm": 0.6266427752694228, "learning_rate": 3.182870370370371e-05, "loss": 0.4491, "step": 1231 }, { "epoch": 1.2833333333333332, "grad_norm": 0.2326739082993611, "learning_rate": 3.180941358024691e-05, "loss": 0.4291, "step": 1232 }, { "epoch": 1.284375, "grad_norm": 0.24429505351234793, "learning_rate": 3.1790123456790125e-05, "loss": 0.4486, "step": 1233 }, { "epoch": 1.2854166666666667, "grad_norm": 0.26096277766881143, "learning_rate": 3.177083333333333e-05, "loss": 0.4267, "step": 1234 }, { "epoch": 1.2864583333333333, "grad_norm": 0.26528198219869603, "learning_rate": 3.175154320987654e-05, "loss": 0.4278, "step": 1235 }, { "epoch": 1.2875, "grad_norm": 0.24680143639152807, "learning_rate": 3.1732253086419755e-05, "loss": 0.4539, "step": 1236 }, { "epoch": 1.2885416666666667, "grad_norm": 0.24126496757205496, "learning_rate": 3.171296296296297e-05, "loss": 0.4243, "step": 1237 }, { "epoch": 1.2895833333333333, "grad_norm": 0.22600206780650312, "learning_rate": 3.169367283950617e-05, "loss": 0.4271, "step": 1238 }, { "epoch": 1.290625, "grad_norm": 0.2635117274611448, "learning_rate": 3.1674382716049385e-05, "loss": 0.435, "step": 1239 }, { "epoch": 1.2916666666666667, "grad_norm": 0.22992132232615226, "learning_rate": 3.16550925925926e-05, "loss": 0.4082, "step": 1240 }, { "epoch": 1.2927083333333333, "grad_norm": 0.23469808931806652, "learning_rate": 3.16358024691358e-05, "loss": 0.4965, "step": 1241 }, { "epoch": 1.29375, "grad_norm": 0.20195458851839215, "learning_rate": 3.161651234567901e-05, "loss": 0.4103, "step": 1242 }, { "epoch": 1.2947916666666668, "grad_norm": 0.24411099406801245, "learning_rate": 3.159722222222222e-05, "loss": 0.4423, "step": 1243 }, { "epoch": 1.2958333333333334, "grad_norm": 0.23700015574132083, "learning_rate": 3.157793209876543e-05, "loss": 0.5071, "step": 1244 }, { "epoch": 1.296875, "grad_norm": 0.23364726851796602, "learning_rate": 3.1558641975308645e-05, "loss": 0.4427, "step": 1245 }, { "epoch": 1.2979166666666666, "grad_norm": 0.2199565386731383, "learning_rate": 3.153935185185186e-05, "loss": 0.4137, "step": 1246 }, { "epoch": 1.2989583333333332, "grad_norm": 0.2002338710558904, "learning_rate": 3.152006172839506e-05, "loss": 0.3706, "step": 1247 }, { "epoch": 1.3, "grad_norm": 0.231302892027769, "learning_rate": 3.1500771604938275e-05, "loss": 0.4544, "step": 1248 }, { "epoch": 1.3010416666666667, "grad_norm": 0.22807319932484924, "learning_rate": 3.148148148148148e-05, "loss": 0.4247, "step": 1249 }, { "epoch": 1.3020833333333333, "grad_norm": 0.5187677826430703, "learning_rate": 3.146219135802469e-05, "loss": 0.4678, "step": 1250 }, { "epoch": 1.303125, "grad_norm": 0.21298551106691205, "learning_rate": 3.14429012345679e-05, "loss": 0.4293, "step": 1251 }, { "epoch": 1.3041666666666667, "grad_norm": 0.24742912319119878, "learning_rate": 3.142361111111111e-05, "loss": 0.4011, "step": 1252 }, { "epoch": 1.3052083333333333, "grad_norm": 0.26427277915327724, "learning_rate": 3.140432098765432e-05, "loss": 0.4874, "step": 1253 }, { "epoch": 1.30625, "grad_norm": 0.2780394087018552, "learning_rate": 3.1385030864197535e-05, "loss": 0.4201, "step": 1254 }, { "epoch": 1.3072916666666667, "grad_norm": 0.27551316558197786, "learning_rate": 3.136574074074074e-05, "loss": 0.4902, "step": 1255 }, { "epoch": 1.3083333333333333, "grad_norm": 0.23619389776590174, "learning_rate": 3.134645061728395e-05, "loss": 0.4375, "step": 1256 }, { "epoch": 1.309375, "grad_norm": 0.20239213124813638, "learning_rate": 3.1327160493827165e-05, "loss": 0.4009, "step": 1257 }, { "epoch": 1.3104166666666668, "grad_norm": 0.23165534851491776, "learning_rate": 3.130787037037037e-05, "loss": 0.4747, "step": 1258 }, { "epoch": 1.3114583333333334, "grad_norm": 0.22921067618651722, "learning_rate": 3.1288580246913576e-05, "loss": 0.3895, "step": 1259 }, { "epoch": 1.3125, "grad_norm": 0.21251106875549658, "learning_rate": 3.126929012345679e-05, "loss": 0.4247, "step": 1260 }, { "epoch": 1.3135416666666666, "grad_norm": 0.21267227375266606, "learning_rate": 3.125e-05, "loss": 0.4299, "step": 1261 }, { "epoch": 1.3145833333333332, "grad_norm": 0.7861438809826208, "learning_rate": 3.123070987654321e-05, "loss": 0.4642, "step": 1262 }, { "epoch": 1.315625, "grad_norm": 0.22792667085745738, "learning_rate": 3.1211419753086425e-05, "loss": 0.4173, "step": 1263 }, { "epoch": 1.3166666666666667, "grad_norm": 0.24955074815301403, "learning_rate": 3.119212962962963e-05, "loss": 0.4766, "step": 1264 }, { "epoch": 1.3177083333333333, "grad_norm": 0.21019917003645308, "learning_rate": 3.117283950617284e-05, "loss": 0.4365, "step": 1265 }, { "epoch": 1.31875, "grad_norm": 0.2536588990067731, "learning_rate": 3.1153549382716055e-05, "loss": 0.4504, "step": 1266 }, { "epoch": 1.3197916666666667, "grad_norm": 0.7144174507181739, "learning_rate": 3.113425925925926e-05, "loss": 0.4787, "step": 1267 }, { "epoch": 1.3208333333333333, "grad_norm": 0.24027923297428636, "learning_rate": 3.1114969135802466e-05, "loss": 0.3941, "step": 1268 }, { "epoch": 1.321875, "grad_norm": 0.2567098317910109, "learning_rate": 3.109567901234568e-05, "loss": 0.5054, "step": 1269 }, { "epoch": 1.3229166666666667, "grad_norm": 0.23708760160781375, "learning_rate": 3.107638888888889e-05, "loss": 0.4562, "step": 1270 }, { "epoch": 1.3239583333333333, "grad_norm": 0.2369814159450687, "learning_rate": 3.10570987654321e-05, "loss": 0.4526, "step": 1271 }, { "epoch": 1.325, "grad_norm": 0.23325727875970564, "learning_rate": 3.103780864197531e-05, "loss": 0.4544, "step": 1272 }, { "epoch": 1.3260416666666668, "grad_norm": 0.224683047995189, "learning_rate": 3.101851851851852e-05, "loss": 0.4263, "step": 1273 }, { "epoch": 1.3270833333333334, "grad_norm": 0.22334286184875066, "learning_rate": 3.099922839506173e-05, "loss": 0.4034, "step": 1274 }, { "epoch": 1.328125, "grad_norm": 0.3330577738963963, "learning_rate": 3.097993827160494e-05, "loss": 0.4621, "step": 1275 }, { "epoch": 1.3291666666666666, "grad_norm": 0.2694889818021349, "learning_rate": 3.0960648148148144e-05, "loss": 0.4559, "step": 1276 }, { "epoch": 1.3302083333333332, "grad_norm": 0.2381332932377055, "learning_rate": 3.0941358024691356e-05, "loss": 0.4354, "step": 1277 }, { "epoch": 1.33125, "grad_norm": 0.2579860621281147, "learning_rate": 3.092206790123457e-05, "loss": 0.454, "step": 1278 }, { "epoch": 1.3322916666666667, "grad_norm": 0.2738539233618203, "learning_rate": 3.090277777777778e-05, "loss": 0.4182, "step": 1279 }, { "epoch": 1.3333333333333333, "grad_norm": 0.24619587940671347, "learning_rate": 3.088348765432099e-05, "loss": 0.4234, "step": 1280 }, { "epoch": 1.334375, "grad_norm": 0.24943344572945517, "learning_rate": 3.08641975308642e-05, "loss": 0.4477, "step": 1281 }, { "epoch": 1.3354166666666667, "grad_norm": 0.26063002128824464, "learning_rate": 3.084490740740741e-05, "loss": 0.4502, "step": 1282 }, { "epoch": 1.3364583333333333, "grad_norm": 0.2282278281768854, "learning_rate": 3.082561728395062e-05, "loss": 0.444, "step": 1283 }, { "epoch": 1.3375, "grad_norm": 0.23885732705796295, "learning_rate": 3.080632716049383e-05, "loss": 0.4838, "step": 1284 }, { "epoch": 1.3385416666666667, "grad_norm": 0.24907407671325094, "learning_rate": 3.0787037037037034e-05, "loss": 0.4359, "step": 1285 }, { "epoch": 1.3395833333333333, "grad_norm": 0.30325033820030284, "learning_rate": 3.0767746913580246e-05, "loss": 0.4694, "step": 1286 }, { "epoch": 1.340625, "grad_norm": 0.20060861109517916, "learning_rate": 3.074845679012346e-05, "loss": 0.4394, "step": 1287 }, { "epoch": 1.3416666666666668, "grad_norm": 0.27636270284121633, "learning_rate": 3.072916666666667e-05, "loss": 0.4802, "step": 1288 }, { "epoch": 1.3427083333333334, "grad_norm": 0.231452144918474, "learning_rate": 3.0709876543209876e-05, "loss": 0.422, "step": 1289 }, { "epoch": 1.34375, "grad_norm": 0.21511802263430765, "learning_rate": 3.069058641975309e-05, "loss": 0.408, "step": 1290 }, { "epoch": 1.3447916666666666, "grad_norm": 0.22562249311343813, "learning_rate": 3.06712962962963e-05, "loss": 0.4466, "step": 1291 }, { "epoch": 1.3458333333333332, "grad_norm": 0.23810630063077887, "learning_rate": 3.0652006172839506e-05, "loss": 0.4203, "step": 1292 }, { "epoch": 1.346875, "grad_norm": 0.21366665465422283, "learning_rate": 3.063271604938271e-05, "loss": 0.4191, "step": 1293 }, { "epoch": 1.3479166666666667, "grad_norm": 0.23146373516685034, "learning_rate": 3.0613425925925924e-05, "loss": 0.4187, "step": 1294 }, { "epoch": 1.3489583333333333, "grad_norm": 0.2179123133867879, "learning_rate": 3.0594135802469136e-05, "loss": 0.411, "step": 1295 }, { "epoch": 1.35, "grad_norm": 0.24103825193498937, "learning_rate": 3.057484567901235e-05, "loss": 0.4884, "step": 1296 }, { "epoch": 1.3510416666666667, "grad_norm": 0.2141169789381279, "learning_rate": 3.055555555555556e-05, "loss": 0.4113, "step": 1297 }, { "epoch": 1.3520833333333333, "grad_norm": 0.22987873952022989, "learning_rate": 3.0536265432098766e-05, "loss": 0.4298, "step": 1298 }, { "epoch": 1.353125, "grad_norm": 0.22566165325293697, "learning_rate": 3.0516975308641975e-05, "loss": 0.3926, "step": 1299 }, { "epoch": 1.3541666666666667, "grad_norm": 0.206854641205139, "learning_rate": 3.0497685185185187e-05, "loss": 0.4356, "step": 1300 }, { "epoch": 1.3552083333333333, "grad_norm": 0.21655099183109366, "learning_rate": 3.04783950617284e-05, "loss": 0.4419, "step": 1301 }, { "epoch": 1.35625, "grad_norm": 0.2451277784430954, "learning_rate": 3.0459104938271605e-05, "loss": 0.451, "step": 1302 }, { "epoch": 1.3572916666666668, "grad_norm": 0.2149805796434105, "learning_rate": 3.0439814814814817e-05, "loss": 0.441, "step": 1303 }, { "epoch": 1.3583333333333334, "grad_norm": 0.21087746570917962, "learning_rate": 3.0420524691358026e-05, "loss": 0.4081, "step": 1304 }, { "epoch": 1.359375, "grad_norm": 0.2301074202006266, "learning_rate": 3.0401234567901238e-05, "loss": 0.5058, "step": 1305 }, { "epoch": 1.3604166666666666, "grad_norm": 0.27520846005141497, "learning_rate": 3.0381944444444444e-05, "loss": 0.4153, "step": 1306 }, { "epoch": 1.3614583333333332, "grad_norm": 0.26445366948799115, "learning_rate": 3.0362654320987656e-05, "loss": 0.4774, "step": 1307 }, { "epoch": 1.3625, "grad_norm": 0.23026669901025132, "learning_rate": 3.0343364197530865e-05, "loss": 0.4643, "step": 1308 }, { "epoch": 1.3635416666666667, "grad_norm": 0.23185471694515244, "learning_rate": 3.0324074074074077e-05, "loss": 0.4346, "step": 1309 }, { "epoch": 1.3645833333333333, "grad_norm": 0.24572530188066194, "learning_rate": 3.030478395061729e-05, "loss": 0.4121, "step": 1310 }, { "epoch": 1.365625, "grad_norm": 0.27003436549770116, "learning_rate": 3.0285493827160495e-05, "loss": 0.464, "step": 1311 }, { "epoch": 1.3666666666666667, "grad_norm": 0.2268080086845612, "learning_rate": 3.0266203703703704e-05, "loss": 0.4531, "step": 1312 }, { "epoch": 1.3677083333333333, "grad_norm": 0.22753979348758016, "learning_rate": 3.0246913580246916e-05, "loss": 0.4265, "step": 1313 }, { "epoch": 1.36875, "grad_norm": 0.23911907122693726, "learning_rate": 3.0227623456790128e-05, "loss": 0.4225, "step": 1314 }, { "epoch": 1.3697916666666667, "grad_norm": 0.25842732100520066, "learning_rate": 3.0208333333333334e-05, "loss": 0.4502, "step": 1315 }, { "epoch": 1.3708333333333333, "grad_norm": 0.2401274241981977, "learning_rate": 3.0189043209876546e-05, "loss": 0.4166, "step": 1316 }, { "epoch": 1.371875, "grad_norm": 0.21629052373268218, "learning_rate": 3.0169753086419755e-05, "loss": 0.3987, "step": 1317 }, { "epoch": 1.3729166666666668, "grad_norm": 0.216345387904696, "learning_rate": 3.0150462962962967e-05, "loss": 0.3858, "step": 1318 }, { "epoch": 1.3739583333333334, "grad_norm": 0.2594780153282116, "learning_rate": 3.0131172839506172e-05, "loss": 0.4279, "step": 1319 }, { "epoch": 1.375, "grad_norm": 0.21710214765073046, "learning_rate": 3.0111882716049385e-05, "loss": 0.4533, "step": 1320 }, { "epoch": 1.3760416666666666, "grad_norm": 0.21698350049582013, "learning_rate": 3.0092592592592593e-05, "loss": 0.4613, "step": 1321 }, { "epoch": 1.3770833333333332, "grad_norm": 0.23777290198150328, "learning_rate": 3.0073302469135806e-05, "loss": 0.4275, "step": 1322 }, { "epoch": 1.378125, "grad_norm": 0.21882781466296963, "learning_rate": 3.005401234567901e-05, "loss": 0.4108, "step": 1323 }, { "epoch": 1.3791666666666667, "grad_norm": 0.21465272253102885, "learning_rate": 3.0034722222222223e-05, "loss": 0.4126, "step": 1324 }, { "epoch": 1.3802083333333333, "grad_norm": 0.22028586016476523, "learning_rate": 3.0015432098765432e-05, "loss": 0.4158, "step": 1325 }, { "epoch": 1.38125, "grad_norm": 0.2391346114329519, "learning_rate": 2.9996141975308645e-05, "loss": 0.4946, "step": 1326 }, { "epoch": 1.3822916666666667, "grad_norm": 0.22482543442611805, "learning_rate": 2.9976851851851857e-05, "loss": 0.4614, "step": 1327 }, { "epoch": 1.3833333333333333, "grad_norm": 0.24525722864168065, "learning_rate": 2.9957561728395062e-05, "loss": 0.4743, "step": 1328 }, { "epoch": 1.384375, "grad_norm": 0.22145188469870122, "learning_rate": 2.993827160493827e-05, "loss": 0.4175, "step": 1329 }, { "epoch": 1.3854166666666667, "grad_norm": 0.21572090180945458, "learning_rate": 2.9918981481481483e-05, "loss": 0.4529, "step": 1330 }, { "epoch": 1.3864583333333333, "grad_norm": 8.72515065497211, "learning_rate": 2.9899691358024696e-05, "loss": 0.5436, "step": 1331 }, { "epoch": 1.3875, "grad_norm": 0.23638891791522573, "learning_rate": 2.98804012345679e-05, "loss": 0.4201, "step": 1332 }, { "epoch": 1.3885416666666668, "grad_norm": 0.21158526840034617, "learning_rate": 2.9861111111111113e-05, "loss": 0.397, "step": 1333 }, { "epoch": 1.3895833333333334, "grad_norm": 0.23037635000033332, "learning_rate": 2.9841820987654322e-05, "loss": 0.4576, "step": 1334 }, { "epoch": 1.390625, "grad_norm": 0.20488630382464193, "learning_rate": 2.9822530864197535e-05, "loss": 0.4435, "step": 1335 }, { "epoch": 1.3916666666666666, "grad_norm": 0.22216632005484924, "learning_rate": 2.980324074074074e-05, "loss": 0.4517, "step": 1336 }, { "epoch": 1.3927083333333332, "grad_norm": 0.2152625913135552, "learning_rate": 2.9783950617283952e-05, "loss": 0.3858, "step": 1337 }, { "epoch": 1.39375, "grad_norm": 0.21413667816417842, "learning_rate": 2.976466049382716e-05, "loss": 0.4199, "step": 1338 }, { "epoch": 1.3947916666666667, "grad_norm": 0.23457973858449233, "learning_rate": 2.9745370370370373e-05, "loss": 0.4683, "step": 1339 }, { "epoch": 1.3958333333333333, "grad_norm": 0.2239232075051407, "learning_rate": 2.972608024691358e-05, "loss": 0.402, "step": 1340 }, { "epoch": 1.396875, "grad_norm": 0.21456113017210515, "learning_rate": 2.970679012345679e-05, "loss": 0.3925, "step": 1341 }, { "epoch": 1.3979166666666667, "grad_norm": 0.22027744851996775, "learning_rate": 2.96875e-05, "loss": 0.427, "step": 1342 }, { "epoch": 1.3989583333333333, "grad_norm": 0.25944369154508756, "learning_rate": 2.9668209876543212e-05, "loss": 0.447, "step": 1343 }, { "epoch": 1.4, "grad_norm": 0.21819771066135504, "learning_rate": 2.9648919753086424e-05, "loss": 0.4375, "step": 1344 }, { "epoch": 1.4010416666666667, "grad_norm": 0.23234900202172018, "learning_rate": 2.962962962962963e-05, "loss": 0.432, "step": 1345 }, { "epoch": 1.4020833333333333, "grad_norm": 0.22448107420779007, "learning_rate": 2.9610339506172842e-05, "loss": 0.4906, "step": 1346 }, { "epoch": 1.403125, "grad_norm": 0.2325126914147086, "learning_rate": 2.959104938271605e-05, "loss": 0.4676, "step": 1347 }, { "epoch": 1.4041666666666668, "grad_norm": 0.22073913083717556, "learning_rate": 2.9571759259259263e-05, "loss": 0.4959, "step": 1348 }, { "epoch": 1.4052083333333334, "grad_norm": 3.412795790342977, "learning_rate": 2.955246913580247e-05, "loss": 0.7217, "step": 1349 }, { "epoch": 1.40625, "grad_norm": 0.23634191971648058, "learning_rate": 2.953317901234568e-05, "loss": 0.45, "step": 1350 }, { "epoch": 1.4072916666666666, "grad_norm": 1.4387550039477885, "learning_rate": 2.951388888888889e-05, "loss": 0.4942, "step": 1351 }, { "epoch": 1.4083333333333332, "grad_norm": 0.21648604411493635, "learning_rate": 2.9494598765432102e-05, "loss": 0.4081, "step": 1352 }, { "epoch": 1.409375, "grad_norm": 0.21894174174157432, "learning_rate": 2.9475308641975308e-05, "loss": 0.4407, "step": 1353 }, { "epoch": 1.4104166666666667, "grad_norm": 0.23287249129713739, "learning_rate": 2.945601851851852e-05, "loss": 0.4601, "step": 1354 }, { "epoch": 1.4114583333333333, "grad_norm": 0.22934183329905322, "learning_rate": 2.943672839506173e-05, "loss": 0.4644, "step": 1355 }, { "epoch": 1.4125, "grad_norm": 0.2529408919832831, "learning_rate": 2.941743827160494e-05, "loss": 0.4287, "step": 1356 }, { "epoch": 1.4135416666666667, "grad_norm": 0.21567464720592258, "learning_rate": 2.9398148148148146e-05, "loss": 0.388, "step": 1357 }, { "epoch": 1.4145833333333333, "grad_norm": 0.2247285039160367, "learning_rate": 2.937885802469136e-05, "loss": 0.4132, "step": 1358 }, { "epoch": 1.415625, "grad_norm": 0.22558537350933935, "learning_rate": 2.9359567901234568e-05, "loss": 0.4657, "step": 1359 }, { "epoch": 1.4166666666666667, "grad_norm": 0.23926238475666914, "learning_rate": 2.934027777777778e-05, "loss": 0.4486, "step": 1360 }, { "epoch": 1.4177083333333333, "grad_norm": 0.2533953834998222, "learning_rate": 2.9320987654320992e-05, "loss": 0.4774, "step": 1361 }, { "epoch": 1.41875, "grad_norm": 0.2277352796106703, "learning_rate": 2.9301697530864198e-05, "loss": 0.4082, "step": 1362 }, { "epoch": 1.4197916666666668, "grad_norm": 0.2223566880127315, "learning_rate": 2.928240740740741e-05, "loss": 0.3943, "step": 1363 }, { "epoch": 1.4208333333333334, "grad_norm": 0.23853104482514886, "learning_rate": 2.926311728395062e-05, "loss": 0.4592, "step": 1364 }, { "epoch": 1.421875, "grad_norm": 0.22269662785102076, "learning_rate": 2.924382716049383e-05, "loss": 0.4266, "step": 1365 }, { "epoch": 1.4229166666666666, "grad_norm": 0.22943903125229412, "learning_rate": 2.9224537037037036e-05, "loss": 0.426, "step": 1366 }, { "epoch": 1.4239583333333332, "grad_norm": 0.22416560244664102, "learning_rate": 2.920524691358025e-05, "loss": 0.432, "step": 1367 }, { "epoch": 1.425, "grad_norm": 0.24762900252268827, "learning_rate": 2.9185956790123458e-05, "loss": 0.4449, "step": 1368 }, { "epoch": 1.4260416666666667, "grad_norm": 0.25158302497735563, "learning_rate": 2.916666666666667e-05, "loss": 0.4693, "step": 1369 }, { "epoch": 1.4270833333333333, "grad_norm": 0.25807368161176053, "learning_rate": 2.9147376543209875e-05, "loss": 0.4481, "step": 1370 }, { "epoch": 1.428125, "grad_norm": 0.24614548079125478, "learning_rate": 2.9128086419753087e-05, "loss": 0.4588, "step": 1371 }, { "epoch": 1.4291666666666667, "grad_norm": 0.21454770728353062, "learning_rate": 2.9108796296296296e-05, "loss": 0.4049, "step": 1372 }, { "epoch": 1.4302083333333333, "grad_norm": 0.20324285861259658, "learning_rate": 2.908950617283951e-05, "loss": 0.4412, "step": 1373 }, { "epoch": 1.43125, "grad_norm": 0.2348210947101399, "learning_rate": 2.9070216049382714e-05, "loss": 0.5235, "step": 1374 }, { "epoch": 1.4322916666666667, "grad_norm": 0.28042275344670364, "learning_rate": 2.9050925925925926e-05, "loss": 0.4393, "step": 1375 }, { "epoch": 1.4333333333333333, "grad_norm": 0.22452827889245608, "learning_rate": 2.903163580246914e-05, "loss": 0.4349, "step": 1376 }, { "epoch": 1.434375, "grad_norm": 0.24480511071363845, "learning_rate": 2.9012345679012347e-05, "loss": 0.4832, "step": 1377 }, { "epoch": 1.4354166666666668, "grad_norm": 0.21098893882723282, "learning_rate": 2.899305555555556e-05, "loss": 0.4367, "step": 1378 }, { "epoch": 1.4364583333333334, "grad_norm": 0.2242430465448727, "learning_rate": 2.8973765432098765e-05, "loss": 0.4466, "step": 1379 }, { "epoch": 1.4375, "grad_norm": 0.2680378821708031, "learning_rate": 2.8954475308641977e-05, "loss": 0.4972, "step": 1380 }, { "epoch": 1.4385416666666666, "grad_norm": 0.19333252405970824, "learning_rate": 2.8935185185185186e-05, "loss": 0.3538, "step": 1381 }, { "epoch": 1.4395833333333332, "grad_norm": 0.23210028235766053, "learning_rate": 2.89158950617284e-05, "loss": 0.5109, "step": 1382 }, { "epoch": 1.440625, "grad_norm": 0.26083015991644887, "learning_rate": 2.8896604938271604e-05, "loss": 0.487, "step": 1383 }, { "epoch": 1.4416666666666667, "grad_norm": 0.22647102052807544, "learning_rate": 2.8877314814814816e-05, "loss": 0.4439, "step": 1384 }, { "epoch": 1.4427083333333333, "grad_norm": 1.9467027877034913, "learning_rate": 2.8858024691358025e-05, "loss": 0.637, "step": 1385 }, { "epoch": 1.44375, "grad_norm": 0.8402375989839156, "learning_rate": 2.8838734567901237e-05, "loss": 0.4833, "step": 1386 }, { "epoch": 1.4447916666666667, "grad_norm": 0.2314663172057848, "learning_rate": 2.8819444444444443e-05, "loss": 0.4547, "step": 1387 }, { "epoch": 1.4458333333333333, "grad_norm": 0.37641120834575087, "learning_rate": 2.8800154320987655e-05, "loss": 0.477, "step": 1388 }, { "epoch": 1.446875, "grad_norm": 0.24026895178382696, "learning_rate": 2.8780864197530867e-05, "loss": 0.424, "step": 1389 }, { "epoch": 1.4479166666666667, "grad_norm": 0.21829585434073062, "learning_rate": 2.8761574074074076e-05, "loss": 0.4423, "step": 1390 }, { "epoch": 1.4489583333333333, "grad_norm": 0.21165646501073224, "learning_rate": 2.874228395061729e-05, "loss": 0.4089, "step": 1391 }, { "epoch": 1.45, "grad_norm": 0.25391870577975295, "learning_rate": 2.8722993827160494e-05, "loss": 0.4488, "step": 1392 }, { "epoch": 1.4510416666666668, "grad_norm": 0.2079776159428861, "learning_rate": 2.8703703703703706e-05, "loss": 0.3658, "step": 1393 }, { "epoch": 1.4520833333333334, "grad_norm": 0.22296175961413053, "learning_rate": 2.8684413580246915e-05, "loss": 0.4692, "step": 1394 }, { "epoch": 1.453125, "grad_norm": 0.2398186095249993, "learning_rate": 2.8665123456790127e-05, "loss": 0.4632, "step": 1395 }, { "epoch": 1.4541666666666666, "grad_norm": 0.24388385513310576, "learning_rate": 2.8645833333333333e-05, "loss": 0.4811, "step": 1396 }, { "epoch": 1.4552083333333332, "grad_norm": 0.6620416967086468, "learning_rate": 2.8626543209876545e-05, "loss": 0.436, "step": 1397 }, { "epoch": 1.45625, "grad_norm": 0.2218611480224651, "learning_rate": 2.8607253086419754e-05, "loss": 0.4433, "step": 1398 }, { "epoch": 1.4572916666666667, "grad_norm": 0.2905469578447288, "learning_rate": 2.8587962962962966e-05, "loss": 0.4468, "step": 1399 }, { "epoch": 1.4583333333333333, "grad_norm": 1.3846578636266202, "learning_rate": 2.856867283950617e-05, "loss": 0.4628, "step": 1400 }, { "epoch": 1.459375, "grad_norm": 0.2451857968318399, "learning_rate": 2.8549382716049384e-05, "loss": 0.45, "step": 1401 }, { "epoch": 1.4604166666666667, "grad_norm": 0.23834019049447297, "learning_rate": 2.8530092592592593e-05, "loss": 0.4429, "step": 1402 }, { "epoch": 1.4614583333333333, "grad_norm": 4.487052118351361, "learning_rate": 2.8510802469135805e-05, "loss": 0.516, "step": 1403 }, { "epoch": 1.4625, "grad_norm": 0.3017180413450095, "learning_rate": 2.849151234567901e-05, "loss": 0.5088, "step": 1404 }, { "epoch": 1.4635416666666667, "grad_norm": 0.22773987942022322, "learning_rate": 2.8472222222222223e-05, "loss": 0.412, "step": 1405 }, { "epoch": 1.4645833333333333, "grad_norm": 0.2292820377438728, "learning_rate": 2.8452932098765435e-05, "loss": 0.3965, "step": 1406 }, { "epoch": 1.465625, "grad_norm": 0.255032621366753, "learning_rate": 2.8433641975308644e-05, "loss": 0.4472, "step": 1407 }, { "epoch": 1.4666666666666668, "grad_norm": 0.657350962903904, "learning_rate": 2.8414351851851856e-05, "loss": 0.414, "step": 1408 }, { "epoch": 1.4677083333333334, "grad_norm": 0.2453514218744492, "learning_rate": 2.839506172839506e-05, "loss": 0.4231, "step": 1409 }, { "epoch": 1.46875, "grad_norm": 0.222625979457597, "learning_rate": 2.8375771604938274e-05, "loss": 0.4214, "step": 1410 }, { "epoch": 1.4697916666666666, "grad_norm": 0.22483865239171086, "learning_rate": 2.8356481481481483e-05, "loss": 0.4345, "step": 1411 }, { "epoch": 1.4708333333333332, "grad_norm": 0.21855334912455204, "learning_rate": 2.8337191358024695e-05, "loss": 0.4067, "step": 1412 }, { "epoch": 1.471875, "grad_norm": 0.2228325163421581, "learning_rate": 2.83179012345679e-05, "loss": 0.4378, "step": 1413 }, { "epoch": 1.4729166666666667, "grad_norm": 0.22869055746753886, "learning_rate": 2.8298611111111113e-05, "loss": 0.4233, "step": 1414 }, { "epoch": 1.4739583333333333, "grad_norm": 0.2506092570004045, "learning_rate": 2.827932098765432e-05, "loss": 0.4354, "step": 1415 }, { "epoch": 1.475, "grad_norm": 0.26006223504539194, "learning_rate": 2.8260030864197534e-05, "loss": 0.4324, "step": 1416 }, { "epoch": 1.4760416666666667, "grad_norm": 0.21179144369632044, "learning_rate": 2.824074074074074e-05, "loss": 0.433, "step": 1417 }, { "epoch": 1.4770833333333333, "grad_norm": 0.2161682271868007, "learning_rate": 2.822145061728395e-05, "loss": 0.4289, "step": 1418 }, { "epoch": 1.478125, "grad_norm": 0.23986033673442378, "learning_rate": 2.8202160493827164e-05, "loss": 0.4278, "step": 1419 }, { "epoch": 1.4791666666666667, "grad_norm": 0.19211089549334548, "learning_rate": 2.8182870370370373e-05, "loss": 0.3528, "step": 1420 }, { "epoch": 1.4802083333333333, "grad_norm": 0.20003414439772996, "learning_rate": 2.8163580246913578e-05, "loss": 0.4027, "step": 1421 }, { "epoch": 1.48125, "grad_norm": 0.7717159620028099, "learning_rate": 2.814429012345679e-05, "loss": 0.4594, "step": 1422 }, { "epoch": 1.4822916666666668, "grad_norm": 0.2335723941995079, "learning_rate": 2.8125000000000003e-05, "loss": 0.4214, "step": 1423 }, { "epoch": 1.4833333333333334, "grad_norm": 0.22436617582000679, "learning_rate": 2.810570987654321e-05, "loss": 0.5345, "step": 1424 }, { "epoch": 1.484375, "grad_norm": 0.23043411094623598, "learning_rate": 2.8086419753086424e-05, "loss": 0.4129, "step": 1425 }, { "epoch": 1.4854166666666666, "grad_norm": 0.44964067801349555, "learning_rate": 2.806712962962963e-05, "loss": 0.4341, "step": 1426 }, { "epoch": 1.4864583333333332, "grad_norm": 0.20494185141766538, "learning_rate": 2.804783950617284e-05, "loss": 0.3841, "step": 1427 }, { "epoch": 1.4875, "grad_norm": 0.23439057500056493, "learning_rate": 2.802854938271605e-05, "loss": 0.4395, "step": 1428 }, { "epoch": 1.4885416666666667, "grad_norm": 0.24200634332413617, "learning_rate": 2.8009259259259263e-05, "loss": 0.4803, "step": 1429 }, { "epoch": 1.4895833333333333, "grad_norm": 0.21820571856221604, "learning_rate": 2.7989969135802468e-05, "loss": 0.4565, "step": 1430 }, { "epoch": 1.490625, "grad_norm": 0.25457270414877853, "learning_rate": 2.797067901234568e-05, "loss": 0.4412, "step": 1431 }, { "epoch": 1.4916666666666667, "grad_norm": 0.2653116510888823, "learning_rate": 2.795138888888889e-05, "loss": 0.4936, "step": 1432 }, { "epoch": 1.4927083333333333, "grad_norm": 0.23148441102856704, "learning_rate": 2.79320987654321e-05, "loss": 0.4426, "step": 1433 }, { "epoch": 1.49375, "grad_norm": 0.24080447798975008, "learning_rate": 2.7912808641975307e-05, "loss": 0.4206, "step": 1434 }, { "epoch": 1.4947916666666667, "grad_norm": 0.2416095018665628, "learning_rate": 2.789351851851852e-05, "loss": 0.4121, "step": 1435 }, { "epoch": 1.4958333333333333, "grad_norm": 0.24496245935173447, "learning_rate": 2.787422839506173e-05, "loss": 0.4369, "step": 1436 }, { "epoch": 1.496875, "grad_norm": 0.21234135157465825, "learning_rate": 2.785493827160494e-05, "loss": 0.4188, "step": 1437 }, { "epoch": 1.4979166666666668, "grad_norm": 0.23717107440663432, "learning_rate": 2.7835648148148146e-05, "loss": 0.401, "step": 1438 }, { "epoch": 1.4989583333333334, "grad_norm": 0.245410874481597, "learning_rate": 2.7816358024691358e-05, "loss": 0.4505, "step": 1439 }, { "epoch": 1.5, "grad_norm": 0.7011700745506663, "learning_rate": 2.779706790123457e-05, "loss": 0.4848, "step": 1440 }, { "epoch": 1.5010416666666666, "grad_norm": 0.2307919708796117, "learning_rate": 2.777777777777778e-05, "loss": 0.4458, "step": 1441 }, { "epoch": 1.5020833333333332, "grad_norm": 0.25109425342766106, "learning_rate": 2.775848765432099e-05, "loss": 0.4525, "step": 1442 }, { "epoch": 1.503125, "grad_norm": 0.2289956197507658, "learning_rate": 2.7739197530864197e-05, "loss": 0.4355, "step": 1443 }, { "epoch": 1.5041666666666667, "grad_norm": 0.23507895700273776, "learning_rate": 2.771990740740741e-05, "loss": 0.4778, "step": 1444 }, { "epoch": 1.5052083333333335, "grad_norm": 0.22778412151585853, "learning_rate": 2.7700617283950618e-05, "loss": 0.406, "step": 1445 }, { "epoch": 1.50625, "grad_norm": 0.24004505345476965, "learning_rate": 2.768132716049383e-05, "loss": 0.3878, "step": 1446 }, { "epoch": 1.5072916666666667, "grad_norm": 0.22241367109484617, "learning_rate": 2.7662037037037036e-05, "loss": 0.4346, "step": 1447 }, { "epoch": 1.5083333333333333, "grad_norm": 1.2026806185100618, "learning_rate": 2.7642746913580248e-05, "loss": 0.3923, "step": 1448 }, { "epoch": 1.509375, "grad_norm": 0.2839809633502178, "learning_rate": 2.762345679012346e-05, "loss": 0.4942, "step": 1449 }, { "epoch": 1.5104166666666665, "grad_norm": 0.24347945162414786, "learning_rate": 2.760416666666667e-05, "loss": 0.4808, "step": 1450 }, { "epoch": 1.5114583333333333, "grad_norm": 0.25904818972719124, "learning_rate": 2.7584876543209875e-05, "loss": 0.4553, "step": 1451 }, { "epoch": 1.5125, "grad_norm": 0.21103405545232054, "learning_rate": 2.7565586419753087e-05, "loss": 0.3768, "step": 1452 }, { "epoch": 1.5135416666666668, "grad_norm": 0.2673752939468244, "learning_rate": 2.75462962962963e-05, "loss": 0.4954, "step": 1453 }, { "epoch": 1.5145833333333334, "grad_norm": 0.21575900778533835, "learning_rate": 2.7527006172839508e-05, "loss": 0.4459, "step": 1454 }, { "epoch": 1.515625, "grad_norm": 0.25398089499252335, "learning_rate": 2.7507716049382713e-05, "loss": 0.4331, "step": 1455 }, { "epoch": 1.5166666666666666, "grad_norm": 0.21418870257242145, "learning_rate": 2.7488425925925926e-05, "loss": 0.449, "step": 1456 }, { "epoch": 1.5177083333333332, "grad_norm": 0.2146116734554075, "learning_rate": 2.7469135802469138e-05, "loss": 0.4457, "step": 1457 }, { "epoch": 1.51875, "grad_norm": 0.21973105089746475, "learning_rate": 2.7449845679012347e-05, "loss": 0.4457, "step": 1458 }, { "epoch": 1.5197916666666667, "grad_norm": 0.23693899445106073, "learning_rate": 2.743055555555556e-05, "loss": 0.4334, "step": 1459 }, { "epoch": 1.5208333333333335, "grad_norm": 0.9947458687697075, "learning_rate": 2.7411265432098764e-05, "loss": 0.4366, "step": 1460 }, { "epoch": 1.521875, "grad_norm": 0.23251879405371256, "learning_rate": 2.7391975308641977e-05, "loss": 0.4263, "step": 1461 }, { "epoch": 1.5229166666666667, "grad_norm": 0.22985590085557137, "learning_rate": 2.737268518518519e-05, "loss": 0.423, "step": 1462 }, { "epoch": 1.5239583333333333, "grad_norm": 0.21393684620607242, "learning_rate": 2.7353395061728398e-05, "loss": 0.3799, "step": 1463 }, { "epoch": 1.525, "grad_norm": 0.2291370781014885, "learning_rate": 2.7334104938271603e-05, "loss": 0.4449, "step": 1464 }, { "epoch": 1.5260416666666665, "grad_norm": 0.2393881278674529, "learning_rate": 2.7314814814814816e-05, "loss": 0.4608, "step": 1465 }, { "epoch": 1.5270833333333333, "grad_norm": 0.23602248625380925, "learning_rate": 2.7295524691358028e-05, "loss": 0.4219, "step": 1466 }, { "epoch": 1.528125, "grad_norm": 0.21449573375970515, "learning_rate": 2.7276234567901237e-05, "loss": 0.4263, "step": 1467 }, { "epoch": 1.5291666666666668, "grad_norm": 0.25214957329506493, "learning_rate": 2.7256944444444442e-05, "loss": 0.4675, "step": 1468 }, { "epoch": 1.5302083333333334, "grad_norm": 0.20342936187154334, "learning_rate": 2.7237654320987654e-05, "loss": 0.3865, "step": 1469 }, { "epoch": 1.53125, "grad_norm": 0.24623340123686138, "learning_rate": 2.7218364197530867e-05, "loss": 0.4397, "step": 1470 }, { "epoch": 1.5322916666666666, "grad_norm": 0.23201643713038178, "learning_rate": 2.7199074074074076e-05, "loss": 0.4705, "step": 1471 }, { "epoch": 1.5333333333333332, "grad_norm": 0.2395914691657031, "learning_rate": 2.7179783950617288e-05, "loss": 0.4214, "step": 1472 }, { "epoch": 1.534375, "grad_norm": 3.3310887590180767, "learning_rate": 2.7160493827160493e-05, "loss": 0.5724, "step": 1473 }, { "epoch": 1.5354166666666667, "grad_norm": 0.25327167545674006, "learning_rate": 2.7141203703703705e-05, "loss": 0.4352, "step": 1474 }, { "epoch": 1.5364583333333335, "grad_norm": 0.24416355615934732, "learning_rate": 2.7121913580246914e-05, "loss": 0.421, "step": 1475 }, { "epoch": 1.5375, "grad_norm": 0.2297024448413637, "learning_rate": 2.7102623456790127e-05, "loss": 0.4086, "step": 1476 }, { "epoch": 1.5385416666666667, "grad_norm": 0.25881144019353025, "learning_rate": 2.7083333333333332e-05, "loss": 0.4031, "step": 1477 }, { "epoch": 1.5395833333333333, "grad_norm": 0.27617198112551455, "learning_rate": 2.7064043209876544e-05, "loss": 0.4858, "step": 1478 }, { "epoch": 1.540625, "grad_norm": 0.23382307408183053, "learning_rate": 2.7044753086419757e-05, "loss": 0.4192, "step": 1479 }, { "epoch": 1.5416666666666665, "grad_norm": 0.24446591389767414, "learning_rate": 2.7025462962962965e-05, "loss": 0.4046, "step": 1480 }, { "epoch": 1.5427083333333333, "grad_norm": 0.23472516806302693, "learning_rate": 2.700617283950617e-05, "loss": 0.4433, "step": 1481 }, { "epoch": 1.54375, "grad_norm": 0.2481884969514197, "learning_rate": 2.6986882716049383e-05, "loss": 0.4579, "step": 1482 }, { "epoch": 1.5447916666666668, "grad_norm": 0.22143733162605053, "learning_rate": 2.6967592592592595e-05, "loss": 0.3772, "step": 1483 }, { "epoch": 1.5458333333333334, "grad_norm": 0.23912918335440603, "learning_rate": 2.6948302469135804e-05, "loss": 0.4062, "step": 1484 }, { "epoch": 1.546875, "grad_norm": 0.2595976065501558, "learning_rate": 2.692901234567901e-05, "loss": 0.473, "step": 1485 }, { "epoch": 1.5479166666666666, "grad_norm": 0.22464644965528743, "learning_rate": 2.6909722222222222e-05, "loss": 0.4331, "step": 1486 }, { "epoch": 1.5489583333333332, "grad_norm": 0.22181209299628385, "learning_rate": 2.6890432098765434e-05, "loss": 0.4009, "step": 1487 }, { "epoch": 1.55, "grad_norm": 8.960100414620626, "learning_rate": 2.6871141975308643e-05, "loss": 0.6061, "step": 1488 }, { "epoch": 1.5510416666666667, "grad_norm": 0.29890181748399897, "learning_rate": 2.6851851851851855e-05, "loss": 0.4813, "step": 1489 }, { "epoch": 1.5520833333333335, "grad_norm": 0.24775167410596136, "learning_rate": 2.683256172839506e-05, "loss": 0.4038, "step": 1490 }, { "epoch": 1.553125, "grad_norm": 0.23815308998306653, "learning_rate": 2.6813271604938273e-05, "loss": 0.4792, "step": 1491 }, { "epoch": 1.5541666666666667, "grad_norm": 0.2314710456482976, "learning_rate": 2.6793981481481485e-05, "loss": 0.4938, "step": 1492 }, { "epoch": 1.5552083333333333, "grad_norm": 0.24279249166485978, "learning_rate": 2.6774691358024694e-05, "loss": 0.4566, "step": 1493 }, { "epoch": 1.55625, "grad_norm": 0.25260208860058453, "learning_rate": 2.67554012345679e-05, "loss": 0.4375, "step": 1494 }, { "epoch": 1.5572916666666665, "grad_norm": 0.21514392645902378, "learning_rate": 2.6736111111111112e-05, "loss": 0.4128, "step": 1495 }, { "epoch": 1.5583333333333333, "grad_norm": 0.23073957291697303, "learning_rate": 2.6716820987654324e-05, "loss": 0.4075, "step": 1496 }, { "epoch": 1.559375, "grad_norm": 0.23702473238638322, "learning_rate": 2.6697530864197533e-05, "loss": 0.4299, "step": 1497 }, { "epoch": 1.5604166666666668, "grad_norm": 0.23294708504325076, "learning_rate": 2.667824074074074e-05, "loss": 0.4325, "step": 1498 }, { "epoch": 1.5614583333333334, "grad_norm": 0.24755352966674438, "learning_rate": 2.665895061728395e-05, "loss": 0.5013, "step": 1499 }, { "epoch": 1.5625, "grad_norm": 0.23930215251025472, "learning_rate": 2.6639660493827163e-05, "loss": 0.4617, "step": 1500 }, { "epoch": 1.5635416666666666, "grad_norm": 0.7496775730256505, "learning_rate": 2.6620370370370372e-05, "loss": 0.4748, "step": 1501 }, { "epoch": 1.5645833333333332, "grad_norm": 0.2520245843174353, "learning_rate": 2.6601080246913577e-05, "loss": 0.4198, "step": 1502 }, { "epoch": 1.565625, "grad_norm": 0.25940481751008065, "learning_rate": 2.658179012345679e-05, "loss": 0.5267, "step": 1503 }, { "epoch": 1.5666666666666667, "grad_norm": 0.216057195370536, "learning_rate": 2.6562500000000002e-05, "loss": 0.411, "step": 1504 }, { "epoch": 1.5677083333333335, "grad_norm": 0.2214540327248624, "learning_rate": 2.654320987654321e-05, "loss": 0.4084, "step": 1505 }, { "epoch": 1.56875, "grad_norm": 0.28875140230497615, "learning_rate": 2.6523919753086423e-05, "loss": 0.4654, "step": 1506 }, { "epoch": 1.5697916666666667, "grad_norm": 0.22184654210895566, "learning_rate": 2.650462962962963e-05, "loss": 0.4378, "step": 1507 }, { "epoch": 1.5708333333333333, "grad_norm": 0.22025545205554098, "learning_rate": 2.648533950617284e-05, "loss": 0.4852, "step": 1508 }, { "epoch": 1.571875, "grad_norm": 0.283216598619678, "learning_rate": 2.6466049382716053e-05, "loss": 0.5022, "step": 1509 }, { "epoch": 1.5729166666666665, "grad_norm": 0.23727357789478307, "learning_rate": 2.6446759259259262e-05, "loss": 0.5176, "step": 1510 }, { "epoch": 1.5739583333333333, "grad_norm": 0.22063734899391613, "learning_rate": 2.6427469135802467e-05, "loss": 0.4294, "step": 1511 }, { "epoch": 1.575, "grad_norm": 0.22826129274722182, "learning_rate": 2.640817901234568e-05, "loss": 0.4562, "step": 1512 }, { "epoch": 1.5760416666666668, "grad_norm": 0.24569743111656003, "learning_rate": 2.6388888888888892e-05, "loss": 0.4016, "step": 1513 }, { "epoch": 1.5770833333333334, "grad_norm": 0.2124027341057381, "learning_rate": 2.63695987654321e-05, "loss": 0.4212, "step": 1514 }, { "epoch": 1.578125, "grad_norm": 0.23086319005898728, "learning_rate": 2.6350308641975306e-05, "loss": 0.3934, "step": 1515 }, { "epoch": 1.5791666666666666, "grad_norm": 0.2532061695343082, "learning_rate": 2.633101851851852e-05, "loss": 0.4866, "step": 1516 }, { "epoch": 1.5802083333333332, "grad_norm": 0.2366654722335288, "learning_rate": 2.631172839506173e-05, "loss": 0.4385, "step": 1517 }, { "epoch": 1.58125, "grad_norm": 0.2204390122442312, "learning_rate": 2.629243827160494e-05, "loss": 0.3886, "step": 1518 }, { "epoch": 1.5822916666666667, "grad_norm": 0.23004556764812614, "learning_rate": 2.627314814814815e-05, "loss": 0.4123, "step": 1519 }, { "epoch": 1.5833333333333335, "grad_norm": 0.2551252366039717, "learning_rate": 2.6253858024691357e-05, "loss": 0.4381, "step": 1520 }, { "epoch": 1.584375, "grad_norm": 0.2347304349940442, "learning_rate": 2.623456790123457e-05, "loss": 0.4396, "step": 1521 }, { "epoch": 1.5854166666666667, "grad_norm": 0.23347968333802915, "learning_rate": 2.6215277777777782e-05, "loss": 0.413, "step": 1522 }, { "epoch": 1.5864583333333333, "grad_norm": 0.21405925256648703, "learning_rate": 2.619598765432099e-05, "loss": 0.4464, "step": 1523 }, { "epoch": 1.5875, "grad_norm": 0.26233599760084136, "learning_rate": 2.6176697530864196e-05, "loss": 0.4036, "step": 1524 }, { "epoch": 1.5885416666666665, "grad_norm": 0.1988527603737517, "learning_rate": 2.615740740740741e-05, "loss": 0.3893, "step": 1525 }, { "epoch": 1.5895833333333333, "grad_norm": 0.27074768543565964, "learning_rate": 2.613811728395062e-05, "loss": 0.4276, "step": 1526 }, { "epoch": 1.590625, "grad_norm": 0.2011923968743499, "learning_rate": 2.611882716049383e-05, "loss": 0.3802, "step": 1527 }, { "epoch": 1.5916666666666668, "grad_norm": 0.21416489369191452, "learning_rate": 2.6099537037037035e-05, "loss": 0.4458, "step": 1528 }, { "epoch": 1.5927083333333334, "grad_norm": 0.2213009360841521, "learning_rate": 2.6080246913580247e-05, "loss": 0.4439, "step": 1529 }, { "epoch": 1.59375, "grad_norm": 0.221069585104712, "learning_rate": 2.606095679012346e-05, "loss": 0.473, "step": 1530 }, { "epoch": 1.5947916666666666, "grad_norm": 0.23751940070341748, "learning_rate": 2.604166666666667e-05, "loss": 0.434, "step": 1531 }, { "epoch": 1.5958333333333332, "grad_norm": 0.23644795901588736, "learning_rate": 2.6022376543209874e-05, "loss": 0.4562, "step": 1532 }, { "epoch": 1.596875, "grad_norm": 0.24566685416978595, "learning_rate": 2.6003086419753086e-05, "loss": 0.4626, "step": 1533 }, { "epoch": 1.5979166666666667, "grad_norm": 0.23270017868819964, "learning_rate": 2.59837962962963e-05, "loss": 0.4627, "step": 1534 }, { "epoch": 1.5989583333333335, "grad_norm": 0.21025941358446806, "learning_rate": 2.596450617283951e-05, "loss": 0.4063, "step": 1535 }, { "epoch": 1.6, "grad_norm": 0.2051782329887052, "learning_rate": 2.5945216049382716e-05, "loss": 0.4233, "step": 1536 }, { "epoch": 1.6010416666666667, "grad_norm": 0.24701697238447712, "learning_rate": 2.5925925925925925e-05, "loss": 0.4985, "step": 1537 }, { "epoch": 1.6020833333333333, "grad_norm": 0.2102928596995101, "learning_rate": 2.5906635802469137e-05, "loss": 0.4317, "step": 1538 }, { "epoch": 1.603125, "grad_norm": 0.29888005674392193, "learning_rate": 2.588734567901235e-05, "loss": 0.4146, "step": 1539 }, { "epoch": 1.6041666666666665, "grad_norm": 0.20556224052459482, "learning_rate": 2.5868055555555558e-05, "loss": 0.3768, "step": 1540 }, { "epoch": 1.6052083333333333, "grad_norm": 0.22307815387516017, "learning_rate": 2.5848765432098764e-05, "loss": 0.4871, "step": 1541 }, { "epoch": 1.60625, "grad_norm": 2.011107150655631, "learning_rate": 2.5829475308641976e-05, "loss": 0.4722, "step": 1542 }, { "epoch": 1.6072916666666668, "grad_norm": 0.28012130527906576, "learning_rate": 2.5810185185185188e-05, "loss": 0.4707, "step": 1543 }, { "epoch": 1.6083333333333334, "grad_norm": 0.23635978421289988, "learning_rate": 2.5790895061728397e-05, "loss": 0.3979, "step": 1544 }, { "epoch": 1.609375, "grad_norm": 0.24428811878505788, "learning_rate": 2.5771604938271603e-05, "loss": 0.4675, "step": 1545 }, { "epoch": 1.6104166666666666, "grad_norm": 0.2167160185045951, "learning_rate": 2.5752314814814815e-05, "loss": 0.4319, "step": 1546 }, { "epoch": 1.6114583333333332, "grad_norm": 0.24752666841413326, "learning_rate": 2.5733024691358027e-05, "loss": 0.4124, "step": 1547 }, { "epoch": 1.6125, "grad_norm": 0.2414469746503731, "learning_rate": 2.5713734567901236e-05, "loss": 0.4649, "step": 1548 }, { "epoch": 1.6135416666666667, "grad_norm": 0.2177466656522207, "learning_rate": 2.5694444444444445e-05, "loss": 0.4266, "step": 1549 }, { "epoch": 1.6145833333333335, "grad_norm": 0.258659691564906, "learning_rate": 2.5675154320987654e-05, "loss": 0.4862, "step": 1550 }, { "epoch": 1.615625, "grad_norm": 0.22237122263540648, "learning_rate": 2.5655864197530866e-05, "loss": 0.4625, "step": 1551 }, { "epoch": 1.6166666666666667, "grad_norm": 0.2344911385976267, "learning_rate": 2.5636574074074078e-05, "loss": 0.4562, "step": 1552 }, { "epoch": 1.6177083333333333, "grad_norm": 0.2507923016581482, "learning_rate": 2.5617283950617287e-05, "loss": 0.4503, "step": 1553 }, { "epoch": 1.61875, "grad_norm": 0.2262172611478836, "learning_rate": 2.5597993827160493e-05, "loss": 0.48, "step": 1554 }, { "epoch": 1.6197916666666665, "grad_norm": 0.24526748998143344, "learning_rate": 2.5578703703703705e-05, "loss": 0.4293, "step": 1555 }, { "epoch": 1.6208333333333333, "grad_norm": 0.21653619304210747, "learning_rate": 2.5559413580246917e-05, "loss": 0.4863, "step": 1556 }, { "epoch": 1.621875, "grad_norm": 0.20825330411106577, "learning_rate": 2.5540123456790126e-05, "loss": 0.4177, "step": 1557 }, { "epoch": 1.6229166666666668, "grad_norm": 0.22348119978549838, "learning_rate": 2.552083333333333e-05, "loss": 0.4416, "step": 1558 }, { "epoch": 1.6239583333333334, "grad_norm": 0.21586546605366935, "learning_rate": 2.5501543209876544e-05, "loss": 0.4643, "step": 1559 }, { "epoch": 1.625, "grad_norm": 0.22789529435037154, "learning_rate": 2.5482253086419756e-05, "loss": 0.4369, "step": 1560 }, { "epoch": 1.6260416666666666, "grad_norm": 0.2076964785688644, "learning_rate": 2.5462962962962965e-05, "loss": 0.4281, "step": 1561 }, { "epoch": 1.6270833333333332, "grad_norm": 0.31802337298869104, "learning_rate": 2.544367283950617e-05, "loss": 0.4372, "step": 1562 }, { "epoch": 1.628125, "grad_norm": 0.2168495762449496, "learning_rate": 2.5424382716049382e-05, "loss": 0.4371, "step": 1563 }, { "epoch": 1.6291666666666667, "grad_norm": 0.2348318743148281, "learning_rate": 2.5405092592592595e-05, "loss": 0.438, "step": 1564 }, { "epoch": 1.6302083333333335, "grad_norm": 1.0892929416957282, "learning_rate": 2.5385802469135807e-05, "loss": 0.478, "step": 1565 }, { "epoch": 1.63125, "grad_norm": 0.2134477173528561, "learning_rate": 2.5366512345679012e-05, "loss": 0.3979, "step": 1566 }, { "epoch": 1.6322916666666667, "grad_norm": 0.2798818131447733, "learning_rate": 2.534722222222222e-05, "loss": 0.4703, "step": 1567 }, { "epoch": 1.6333333333333333, "grad_norm": 0.24976857506309677, "learning_rate": 2.5327932098765434e-05, "loss": 0.4261, "step": 1568 }, { "epoch": 1.634375, "grad_norm": 0.2115654780444159, "learning_rate": 2.5308641975308646e-05, "loss": 0.4158, "step": 1569 }, { "epoch": 1.6354166666666665, "grad_norm": 0.2651588142173884, "learning_rate": 2.5289351851851855e-05, "loss": 0.4693, "step": 1570 }, { "epoch": 1.6364583333333333, "grad_norm": 0.2923238732816361, "learning_rate": 2.527006172839506e-05, "loss": 0.4073, "step": 1571 }, { "epoch": 1.6375, "grad_norm": 0.2405230445277335, "learning_rate": 2.5250771604938272e-05, "loss": 0.3863, "step": 1572 }, { "epoch": 1.6385416666666668, "grad_norm": 0.24969269248251194, "learning_rate": 2.5231481481481485e-05, "loss": 0.4692, "step": 1573 }, { "epoch": 1.6395833333333334, "grad_norm": 0.2757690635068936, "learning_rate": 2.5212191358024694e-05, "loss": 0.4156, "step": 1574 }, { "epoch": 1.640625, "grad_norm": 1.0363286371718559, "learning_rate": 2.51929012345679e-05, "loss": 0.5096, "step": 1575 }, { "epoch": 1.6416666666666666, "grad_norm": 0.23065548791272594, "learning_rate": 2.517361111111111e-05, "loss": 0.4344, "step": 1576 }, { "epoch": 1.6427083333333332, "grad_norm": 0.2452125701120762, "learning_rate": 2.5154320987654324e-05, "loss": 0.4721, "step": 1577 }, { "epoch": 1.64375, "grad_norm": 0.28565987100346407, "learning_rate": 2.5135030864197532e-05, "loss": 0.4747, "step": 1578 }, { "epoch": 1.6447916666666667, "grad_norm": 0.24658483859186034, "learning_rate": 2.511574074074074e-05, "loss": 0.4178, "step": 1579 }, { "epoch": 1.6458333333333335, "grad_norm": 0.23693552202465598, "learning_rate": 2.509645061728395e-05, "loss": 0.3888, "step": 1580 }, { "epoch": 1.646875, "grad_norm": 0.2440224430111842, "learning_rate": 2.5077160493827162e-05, "loss": 0.4105, "step": 1581 }, { "epoch": 1.6479166666666667, "grad_norm": 0.22384087887895734, "learning_rate": 2.5057870370370375e-05, "loss": 0.4174, "step": 1582 }, { "epoch": 1.6489583333333333, "grad_norm": 1.8199242228481238, "learning_rate": 2.503858024691358e-05, "loss": 0.5307, "step": 1583 }, { "epoch": 1.65, "grad_norm": 0.28708999938687374, "learning_rate": 2.501929012345679e-05, "loss": 0.4373, "step": 1584 }, { "epoch": 1.6510416666666665, "grad_norm": 0.28230314771991766, "learning_rate": 2.5e-05, "loss": 0.4633, "step": 1585 }, { "epoch": 1.6520833333333333, "grad_norm": 0.2531506228341574, "learning_rate": 2.4980709876543213e-05, "loss": 0.3906, "step": 1586 }, { "epoch": 1.653125, "grad_norm": 0.26111306272073825, "learning_rate": 2.4961419753086422e-05, "loss": 0.4795, "step": 1587 }, { "epoch": 1.6541666666666668, "grad_norm": 0.24991395404828518, "learning_rate": 2.494212962962963e-05, "loss": 0.4424, "step": 1588 }, { "epoch": 1.6552083333333334, "grad_norm": 0.22889543448445904, "learning_rate": 2.492283950617284e-05, "loss": 0.3965, "step": 1589 }, { "epoch": 1.65625, "grad_norm": 0.2205969905169512, "learning_rate": 2.4903549382716052e-05, "loss": 0.4152, "step": 1590 }, { "epoch": 1.6572916666666666, "grad_norm": 0.29622602965683575, "learning_rate": 2.488425925925926e-05, "loss": 0.4452, "step": 1591 }, { "epoch": 1.6583333333333332, "grad_norm": 0.23178009134077984, "learning_rate": 2.486496913580247e-05, "loss": 0.4324, "step": 1592 }, { "epoch": 1.659375, "grad_norm": 0.21563064444007304, "learning_rate": 2.484567901234568e-05, "loss": 0.3868, "step": 1593 }, { "epoch": 1.6604166666666667, "grad_norm": 0.2570292737916386, "learning_rate": 2.482638888888889e-05, "loss": 0.4794, "step": 1594 }, { "epoch": 1.6614583333333335, "grad_norm": 0.26004576011476455, "learning_rate": 2.48070987654321e-05, "loss": 0.493, "step": 1595 }, { "epoch": 1.6625, "grad_norm": 0.24851615052377282, "learning_rate": 2.478780864197531e-05, "loss": 0.4396, "step": 1596 }, { "epoch": 1.6635416666666667, "grad_norm": 0.22792264233864268, "learning_rate": 2.4768518518518518e-05, "loss": 0.4228, "step": 1597 }, { "epoch": 1.6645833333333333, "grad_norm": 0.2114305686255823, "learning_rate": 2.474922839506173e-05, "loss": 0.3741, "step": 1598 }, { "epoch": 1.665625, "grad_norm": 0.23307583656618472, "learning_rate": 2.472993827160494e-05, "loss": 0.3993, "step": 1599 }, { "epoch": 1.6666666666666665, "grad_norm": 0.2301870063185101, "learning_rate": 2.471064814814815e-05, "loss": 0.4176, "step": 1600 }, { "epoch": 1.6677083333333333, "grad_norm": 0.22573178266546867, "learning_rate": 2.4691358024691357e-05, "loss": 0.4278, "step": 1601 }, { "epoch": 1.66875, "grad_norm": 0.24009669157592148, "learning_rate": 2.467206790123457e-05, "loss": 0.4959, "step": 1602 }, { "epoch": 1.6697916666666668, "grad_norm": 0.2667529796476822, "learning_rate": 2.465277777777778e-05, "loss": 0.5681, "step": 1603 }, { "epoch": 1.6708333333333334, "grad_norm": 0.23875192906571377, "learning_rate": 2.463348765432099e-05, "loss": 0.4611, "step": 1604 }, { "epoch": 1.671875, "grad_norm": 0.21502251759253493, "learning_rate": 2.46141975308642e-05, "loss": 0.4314, "step": 1605 }, { "epoch": 1.6729166666666666, "grad_norm": 0.22223674584112157, "learning_rate": 2.4594907407407408e-05, "loss": 0.4503, "step": 1606 }, { "epoch": 1.6739583333333332, "grad_norm": 2.931867742591418, "learning_rate": 2.457561728395062e-05, "loss": 0.5614, "step": 1607 }, { "epoch": 1.675, "grad_norm": 0.24668972601839695, "learning_rate": 2.455632716049383e-05, "loss": 0.4585, "step": 1608 }, { "epoch": 1.6760416666666667, "grad_norm": 0.23674066991832526, "learning_rate": 2.4537037037037038e-05, "loss": 0.4355, "step": 1609 }, { "epoch": 1.6770833333333335, "grad_norm": 0.21412444042562503, "learning_rate": 2.4517746913580247e-05, "loss": 0.3835, "step": 1610 }, { "epoch": 1.678125, "grad_norm": 0.23233193709953887, "learning_rate": 2.449845679012346e-05, "loss": 0.4161, "step": 1611 }, { "epoch": 1.6791666666666667, "grad_norm": 0.2333907336449594, "learning_rate": 2.4479166666666668e-05, "loss": 0.4339, "step": 1612 }, { "epoch": 1.6802083333333333, "grad_norm": 0.2134260564634543, "learning_rate": 2.4459876543209876e-05, "loss": 0.4146, "step": 1613 }, { "epoch": 1.68125, "grad_norm": 0.22171560502243795, "learning_rate": 2.4440586419753085e-05, "loss": 0.4148, "step": 1614 }, { "epoch": 1.6822916666666665, "grad_norm": 0.2484780588724201, "learning_rate": 2.4421296296296298e-05, "loss": 0.4627, "step": 1615 }, { "epoch": 1.6833333333333333, "grad_norm": 0.2558171395466638, "learning_rate": 2.4402006172839506e-05, "loss": 0.4746, "step": 1616 }, { "epoch": 1.684375, "grad_norm": 0.21289464502749475, "learning_rate": 2.438271604938272e-05, "loss": 0.4238, "step": 1617 }, { "epoch": 1.6854166666666668, "grad_norm": 0.24568951891271387, "learning_rate": 2.4363425925925928e-05, "loss": 0.4144, "step": 1618 }, { "epoch": 1.6864583333333334, "grad_norm": 0.22436730410260372, "learning_rate": 2.4344135802469136e-05, "loss": 0.3978, "step": 1619 }, { "epoch": 1.6875, "grad_norm": 0.23158273858795084, "learning_rate": 2.432484567901235e-05, "loss": 0.4568, "step": 1620 }, { "epoch": 1.6885416666666666, "grad_norm": 0.2117294585354672, "learning_rate": 2.4305555555555558e-05, "loss": 0.4072, "step": 1621 }, { "epoch": 1.6895833333333332, "grad_norm": 0.24393855176703433, "learning_rate": 2.4286265432098766e-05, "loss": 0.4254, "step": 1622 }, { "epoch": 1.690625, "grad_norm": 0.22758007202428096, "learning_rate": 2.4266975308641975e-05, "loss": 0.4285, "step": 1623 }, { "epoch": 1.6916666666666667, "grad_norm": 0.20560682799119265, "learning_rate": 2.4247685185185188e-05, "loss": 0.4213, "step": 1624 }, { "epoch": 1.6927083333333335, "grad_norm": 0.23966108154402305, "learning_rate": 2.4228395061728396e-05, "loss": 0.4261, "step": 1625 }, { "epoch": 1.69375, "grad_norm": 0.24301189364830483, "learning_rate": 2.4209104938271605e-05, "loss": 0.3835, "step": 1626 }, { "epoch": 1.6947916666666667, "grad_norm": 0.23566160248622162, "learning_rate": 2.4189814814814814e-05, "loss": 0.4277, "step": 1627 }, { "epoch": 1.6958333333333333, "grad_norm": 0.2256474088605944, "learning_rate": 2.4170524691358026e-05, "loss": 0.4918, "step": 1628 }, { "epoch": 1.696875, "grad_norm": 0.2225510978285597, "learning_rate": 2.4151234567901235e-05, "loss": 0.4288, "step": 1629 }, { "epoch": 1.6979166666666665, "grad_norm": 0.2254193016481316, "learning_rate": 2.4131944444444448e-05, "loss": 0.4537, "step": 1630 }, { "epoch": 1.6989583333333333, "grad_norm": 0.2288207002259982, "learning_rate": 2.4112654320987653e-05, "loss": 0.4179, "step": 1631 }, { "epoch": 1.7, "grad_norm": 0.2310484498722149, "learning_rate": 2.4093364197530865e-05, "loss": 0.4646, "step": 1632 }, { "epoch": 1.7010416666666668, "grad_norm": 0.20864810572814235, "learning_rate": 2.4074074074074074e-05, "loss": 0.3922, "step": 1633 }, { "epoch": 1.7020833333333334, "grad_norm": 1.3185842560587804, "learning_rate": 2.4054783950617286e-05, "loss": 0.5267, "step": 1634 }, { "epoch": 1.703125, "grad_norm": 0.2568884273473962, "learning_rate": 2.4035493827160495e-05, "loss": 0.4596, "step": 1635 }, { "epoch": 1.7041666666666666, "grad_norm": 0.2436734698719542, "learning_rate": 2.4016203703703704e-05, "loss": 0.4084, "step": 1636 }, { "epoch": 1.7052083333333332, "grad_norm": 0.2367599706635213, "learning_rate": 2.3996913580246916e-05, "loss": 0.4394, "step": 1637 }, { "epoch": 1.70625, "grad_norm": 0.2320204282955926, "learning_rate": 2.3977623456790125e-05, "loss": 0.4351, "step": 1638 }, { "epoch": 1.7072916666666667, "grad_norm": 0.8376083678530183, "learning_rate": 2.3958333333333334e-05, "loss": 0.4972, "step": 1639 }, { "epoch": 1.7083333333333335, "grad_norm": 0.2598025360983161, "learning_rate": 2.3939043209876543e-05, "loss": 0.4544, "step": 1640 }, { "epoch": 1.709375, "grad_norm": 0.2944213957283523, "learning_rate": 2.3919753086419755e-05, "loss": 0.5002, "step": 1641 }, { "epoch": 1.7104166666666667, "grad_norm": 0.20460510497411527, "learning_rate": 2.3900462962962964e-05, "loss": 0.4227, "step": 1642 }, { "epoch": 1.7114583333333333, "grad_norm": 0.31577258397727953, "learning_rate": 2.3881172839506173e-05, "loss": 0.4732, "step": 1643 }, { "epoch": 1.7125, "grad_norm": 0.24913249276311897, "learning_rate": 2.3861882716049382e-05, "loss": 0.4052, "step": 1644 }, { "epoch": 1.7135416666666665, "grad_norm": 0.20037319384502592, "learning_rate": 2.3842592592592594e-05, "loss": 0.4053, "step": 1645 }, { "epoch": 1.7145833333333333, "grad_norm": 0.3020113778706864, "learning_rate": 2.3823302469135803e-05, "loss": 0.4735, "step": 1646 }, { "epoch": 1.715625, "grad_norm": 0.2266098743151278, "learning_rate": 2.3804012345679015e-05, "loss": 0.3757, "step": 1647 }, { "epoch": 1.7166666666666668, "grad_norm": 0.22430586310221523, "learning_rate": 2.378472222222222e-05, "loss": 0.4972, "step": 1648 }, { "epoch": 1.7177083333333334, "grad_norm": 0.23147200703564993, "learning_rate": 2.3765432098765433e-05, "loss": 0.4166, "step": 1649 }, { "epoch": 1.71875, "grad_norm": 0.2519789002901795, "learning_rate": 2.3746141975308645e-05, "loss": 0.4215, "step": 1650 }, { "epoch": 1.7197916666666666, "grad_norm": 0.211013840861923, "learning_rate": 2.3726851851851854e-05, "loss": 0.3956, "step": 1651 }, { "epoch": 1.7208333333333332, "grad_norm": 0.2414820815755862, "learning_rate": 2.3707561728395063e-05, "loss": 0.5146, "step": 1652 }, { "epoch": 1.721875, "grad_norm": 0.24876682982725104, "learning_rate": 2.3688271604938272e-05, "loss": 0.484, "step": 1653 }, { "epoch": 1.7229166666666667, "grad_norm": 0.2371412853121369, "learning_rate": 2.3668981481481484e-05, "loss": 0.4142, "step": 1654 }, { "epoch": 1.7239583333333335, "grad_norm": 0.23624007290511748, "learning_rate": 2.3649691358024693e-05, "loss": 0.4428, "step": 1655 }, { "epoch": 1.725, "grad_norm": 0.22449475373430808, "learning_rate": 2.36304012345679e-05, "loss": 0.4153, "step": 1656 }, { "epoch": 1.7260416666666667, "grad_norm": 0.23016489681076296, "learning_rate": 2.361111111111111e-05, "loss": 0.5014, "step": 1657 }, { "epoch": 1.7270833333333333, "grad_norm": 0.2283275155425124, "learning_rate": 2.3591820987654323e-05, "loss": 0.4178, "step": 1658 }, { "epoch": 1.728125, "grad_norm": 0.2108761417780121, "learning_rate": 2.357253086419753e-05, "loss": 0.4033, "step": 1659 }, { "epoch": 1.7291666666666665, "grad_norm": 0.2405443528460634, "learning_rate": 2.3553240740740744e-05, "loss": 0.4849, "step": 1660 }, { "epoch": 1.7302083333333333, "grad_norm": 0.2213243377299087, "learning_rate": 2.353395061728395e-05, "loss": 0.4569, "step": 1661 }, { "epoch": 1.73125, "grad_norm": 0.23837501037789202, "learning_rate": 2.351466049382716e-05, "loss": 0.4483, "step": 1662 }, { "epoch": 1.7322916666666668, "grad_norm": 0.20338214853690112, "learning_rate": 2.349537037037037e-05, "loss": 0.427, "step": 1663 }, { "epoch": 1.7333333333333334, "grad_norm": 0.21076253867200997, "learning_rate": 2.3476080246913583e-05, "loss": 0.4362, "step": 1664 }, { "epoch": 1.734375, "grad_norm": 0.20417746179735824, "learning_rate": 2.345679012345679e-05, "loss": 0.395, "step": 1665 }, { "epoch": 1.7354166666666666, "grad_norm": 0.21652067926648777, "learning_rate": 2.34375e-05, "loss": 0.429, "step": 1666 }, { "epoch": 1.7364583333333332, "grad_norm": 0.2141465588894503, "learning_rate": 2.3418209876543213e-05, "loss": 0.4473, "step": 1667 }, { "epoch": 1.7375, "grad_norm": 0.22205906823727573, "learning_rate": 2.339891975308642e-05, "loss": 0.4216, "step": 1668 }, { "epoch": 1.7385416666666667, "grad_norm": 0.2164166711594153, "learning_rate": 2.337962962962963e-05, "loss": 0.4926, "step": 1669 }, { "epoch": 1.7395833333333335, "grad_norm": 0.2020887088449381, "learning_rate": 2.336033950617284e-05, "loss": 0.4411, "step": 1670 }, { "epoch": 1.740625, "grad_norm": 0.21221734879815926, "learning_rate": 2.334104938271605e-05, "loss": 0.4769, "step": 1671 }, { "epoch": 1.7416666666666667, "grad_norm": 0.2275835356890999, "learning_rate": 2.332175925925926e-05, "loss": 0.4623, "step": 1672 }, { "epoch": 1.7427083333333333, "grad_norm": 0.2311389186643385, "learning_rate": 2.3302469135802473e-05, "loss": 0.4144, "step": 1673 }, { "epoch": 1.74375, "grad_norm": 0.22641532713598092, "learning_rate": 2.3283179012345678e-05, "loss": 0.4721, "step": 1674 }, { "epoch": 1.7447916666666665, "grad_norm": 0.21406004228302514, "learning_rate": 2.326388888888889e-05, "loss": 0.4106, "step": 1675 }, { "epoch": 1.7458333333333333, "grad_norm": 0.21611667975492893, "learning_rate": 2.32445987654321e-05, "loss": 0.425, "step": 1676 }, { "epoch": 1.746875, "grad_norm": 0.2141100565930759, "learning_rate": 2.322530864197531e-05, "loss": 0.4055, "step": 1677 }, { "epoch": 1.7479166666666668, "grad_norm": 0.2151474361518745, "learning_rate": 2.3206018518518517e-05, "loss": 0.4228, "step": 1678 }, { "epoch": 1.7489583333333334, "grad_norm": 0.22700608624540303, "learning_rate": 2.318672839506173e-05, "loss": 0.4325, "step": 1679 }, { "epoch": 1.75, "grad_norm": 0.2292462538765967, "learning_rate": 2.3167438271604938e-05, "loss": 0.4783, "step": 1680 }, { "epoch": 1.7510416666666666, "grad_norm": 0.20734548871926134, "learning_rate": 2.314814814814815e-05, "loss": 0.4221, "step": 1681 }, { "epoch": 1.7520833333333332, "grad_norm": 0.37507788728032637, "learning_rate": 2.312885802469136e-05, "loss": 0.4663, "step": 1682 }, { "epoch": 1.753125, "grad_norm": 0.20876949569283185, "learning_rate": 2.3109567901234568e-05, "loss": 0.4289, "step": 1683 }, { "epoch": 1.7541666666666667, "grad_norm": 0.22004669666199786, "learning_rate": 2.309027777777778e-05, "loss": 0.3883, "step": 1684 }, { "epoch": 1.7552083333333335, "grad_norm": 0.21662385523115021, "learning_rate": 2.307098765432099e-05, "loss": 0.4156, "step": 1685 }, { "epoch": 1.75625, "grad_norm": 0.21273840993001794, "learning_rate": 2.3051697530864198e-05, "loss": 0.4031, "step": 1686 }, { "epoch": 1.7572916666666667, "grad_norm": 0.8556896523963468, "learning_rate": 2.3032407407407407e-05, "loss": 0.5304, "step": 1687 }, { "epoch": 1.7583333333333333, "grad_norm": 0.2632043628147701, "learning_rate": 2.301311728395062e-05, "loss": 0.4832, "step": 1688 }, { "epoch": 1.759375, "grad_norm": 0.23053700760344858, "learning_rate": 2.2993827160493828e-05, "loss": 0.3895, "step": 1689 }, { "epoch": 1.7604166666666665, "grad_norm": 0.25695795062200444, "learning_rate": 2.297453703703704e-05, "loss": 0.5019, "step": 1690 }, { "epoch": 1.7614583333333333, "grad_norm": 0.24997468226284655, "learning_rate": 2.2955246913580246e-05, "loss": 0.4282, "step": 1691 }, { "epoch": 1.7625, "grad_norm": 0.23494371612113163, "learning_rate": 2.2935956790123458e-05, "loss": 0.4399, "step": 1692 }, { "epoch": 1.7635416666666668, "grad_norm": 0.23179791404145766, "learning_rate": 2.2916666666666667e-05, "loss": 0.4207, "step": 1693 }, { "epoch": 1.7645833333333334, "grad_norm": 0.21855186959578257, "learning_rate": 2.289737654320988e-05, "loss": 0.4063, "step": 1694 }, { "epoch": 1.765625, "grad_norm": 0.2223205996248379, "learning_rate": 2.2878086419753088e-05, "loss": 0.4401, "step": 1695 }, { "epoch": 1.7666666666666666, "grad_norm": 0.2624831418002847, "learning_rate": 2.2858796296296297e-05, "loss": 0.4001, "step": 1696 }, { "epoch": 1.7677083333333332, "grad_norm": 0.22725656263163205, "learning_rate": 2.2839506172839506e-05, "loss": 0.4312, "step": 1697 }, { "epoch": 1.76875, "grad_norm": 0.2213737241346663, "learning_rate": 2.2820216049382718e-05, "loss": 0.3908, "step": 1698 }, { "epoch": 1.7697916666666667, "grad_norm": 0.2529919946867117, "learning_rate": 2.2800925925925927e-05, "loss": 0.4509, "step": 1699 }, { "epoch": 1.7708333333333335, "grad_norm": 0.22865048778172808, "learning_rate": 2.2781635802469136e-05, "loss": 0.4222, "step": 1700 }, { "epoch": 1.771875, "grad_norm": 0.2174617569465306, "learning_rate": 2.2762345679012348e-05, "loss": 0.3928, "step": 1701 }, { "epoch": 1.7729166666666667, "grad_norm": 0.24088348537975163, "learning_rate": 2.2743055555555557e-05, "loss": 0.4104, "step": 1702 }, { "epoch": 1.7739583333333333, "grad_norm": 0.22621703439421026, "learning_rate": 2.272376543209877e-05, "loss": 0.438, "step": 1703 }, { "epoch": 1.775, "grad_norm": 0.2876243634326455, "learning_rate": 2.2704475308641975e-05, "loss": 0.4706, "step": 1704 }, { "epoch": 1.7760416666666665, "grad_norm": 0.24100302120405284, "learning_rate": 2.2685185185185187e-05, "loss": 0.4827, "step": 1705 }, { "epoch": 1.7770833333333333, "grad_norm": 0.22726869312076448, "learning_rate": 2.2665895061728396e-05, "loss": 0.4201, "step": 1706 }, { "epoch": 1.778125, "grad_norm": 0.21734236026031464, "learning_rate": 2.2646604938271608e-05, "loss": 0.4527, "step": 1707 }, { "epoch": 1.7791666666666668, "grad_norm": 0.2163703115469248, "learning_rate": 2.2627314814814813e-05, "loss": 0.475, "step": 1708 }, { "epoch": 1.7802083333333334, "grad_norm": 0.20514507547396912, "learning_rate": 2.2608024691358026e-05, "loss": 0.3987, "step": 1709 }, { "epoch": 1.78125, "grad_norm": 0.2065298576083033, "learning_rate": 2.2588734567901235e-05, "loss": 0.4258, "step": 1710 }, { "epoch": 1.7822916666666666, "grad_norm": 0.20270645722580344, "learning_rate": 2.2569444444444447e-05, "loss": 0.4108, "step": 1711 }, { "epoch": 1.7833333333333332, "grad_norm": 0.19967301498289067, "learning_rate": 2.2550154320987656e-05, "loss": 0.3757, "step": 1712 }, { "epoch": 1.784375, "grad_norm": 0.21045619051206357, "learning_rate": 2.2530864197530865e-05, "loss": 0.4359, "step": 1713 }, { "epoch": 1.7854166666666667, "grad_norm": 0.22327248135970482, "learning_rate": 2.2511574074074073e-05, "loss": 0.4088, "step": 1714 }, { "epoch": 1.7864583333333335, "grad_norm": 0.22695131419038914, "learning_rate": 2.2492283950617286e-05, "loss": 0.4212, "step": 1715 }, { "epoch": 1.7875, "grad_norm": 0.2050990980774848, "learning_rate": 2.2472993827160495e-05, "loss": 0.4337, "step": 1716 }, { "epoch": 1.7885416666666667, "grad_norm": 0.21264547142805318, "learning_rate": 2.2453703703703703e-05, "loss": 0.3883, "step": 1717 }, { "epoch": 1.7895833333333333, "grad_norm": 0.3014427248298814, "learning_rate": 2.2434413580246916e-05, "loss": 0.4119, "step": 1718 }, { "epoch": 1.790625, "grad_norm": 0.21427392870883996, "learning_rate": 2.2415123456790124e-05, "loss": 0.3727, "step": 1719 }, { "epoch": 1.7916666666666665, "grad_norm": 0.23450964399484975, "learning_rate": 2.2395833333333337e-05, "loss": 0.4631, "step": 1720 }, { "epoch": 1.7927083333333333, "grad_norm": 0.22650879984170486, "learning_rate": 2.2376543209876542e-05, "loss": 0.4872, "step": 1721 }, { "epoch": 1.79375, "grad_norm": 0.24382823361221456, "learning_rate": 2.2357253086419754e-05, "loss": 0.5127, "step": 1722 }, { "epoch": 1.7947916666666668, "grad_norm": 0.21186907428930965, "learning_rate": 2.2337962962962963e-05, "loss": 0.4417, "step": 1723 }, { "epoch": 1.7958333333333334, "grad_norm": 0.20476429414821953, "learning_rate": 2.2318672839506176e-05, "loss": 0.3885, "step": 1724 }, { "epoch": 1.796875, "grad_norm": 0.2085268783808246, "learning_rate": 2.2299382716049384e-05, "loss": 0.4279, "step": 1725 }, { "epoch": 1.7979166666666666, "grad_norm": 0.21872501757998664, "learning_rate": 2.2280092592592593e-05, "loss": 0.4234, "step": 1726 }, { "epoch": 1.7989583333333332, "grad_norm": 0.20246635885583625, "learning_rate": 2.2260802469135802e-05, "loss": 0.4017, "step": 1727 }, { "epoch": 1.8, "grad_norm": 0.2430311453243264, "learning_rate": 2.2241512345679014e-05, "loss": 0.4583, "step": 1728 }, { "epoch": 1.8010416666666667, "grad_norm": 0.20721532151509175, "learning_rate": 2.2222222222222223e-05, "loss": 0.4049, "step": 1729 }, { "epoch": 1.8020833333333335, "grad_norm": 0.20262705313665946, "learning_rate": 2.2202932098765432e-05, "loss": 0.3748, "step": 1730 }, { "epoch": 1.803125, "grad_norm": 0.22298081670648956, "learning_rate": 2.2183641975308644e-05, "loss": 0.4244, "step": 1731 }, { "epoch": 1.8041666666666667, "grad_norm": 0.22648675460422638, "learning_rate": 2.2164351851851853e-05, "loss": 0.4206, "step": 1732 }, { "epoch": 1.8052083333333333, "grad_norm": 0.2146962309509267, "learning_rate": 2.2145061728395066e-05, "loss": 0.456, "step": 1733 }, { "epoch": 1.80625, "grad_norm": 0.21031010470883507, "learning_rate": 2.212577160493827e-05, "loss": 0.3989, "step": 1734 }, { "epoch": 1.8072916666666665, "grad_norm": 0.22262759857533201, "learning_rate": 2.2106481481481483e-05, "loss": 0.478, "step": 1735 }, { "epoch": 1.8083333333333333, "grad_norm": 0.21762075656808696, "learning_rate": 2.2087191358024692e-05, "loss": 0.4099, "step": 1736 }, { "epoch": 1.809375, "grad_norm": 0.18895677340789613, "learning_rate": 2.2067901234567904e-05, "loss": 0.4045, "step": 1737 }, { "epoch": 1.8104166666666668, "grad_norm": 0.19040933045076264, "learning_rate": 2.2048611111111113e-05, "loss": 0.4031, "step": 1738 }, { "epoch": 1.8114583333333334, "grad_norm": 0.21470286318891108, "learning_rate": 2.2029320987654322e-05, "loss": 0.4463, "step": 1739 }, { "epoch": 1.8125, "grad_norm": 0.21477917913159073, "learning_rate": 2.201003086419753e-05, "loss": 0.4475, "step": 1740 }, { "epoch": 1.8135416666666666, "grad_norm": 0.20217488426921365, "learning_rate": 2.1990740740740743e-05, "loss": 0.4097, "step": 1741 }, { "epoch": 1.8145833333333332, "grad_norm": 0.20539571818116123, "learning_rate": 2.1971450617283952e-05, "loss": 0.3881, "step": 1742 }, { "epoch": 1.815625, "grad_norm": 0.2153678525074977, "learning_rate": 2.195216049382716e-05, "loss": 0.4191, "step": 1743 }, { "epoch": 1.8166666666666667, "grad_norm": 0.21611456168431556, "learning_rate": 2.193287037037037e-05, "loss": 0.4322, "step": 1744 }, { "epoch": 1.8177083333333335, "grad_norm": 0.2051062412053992, "learning_rate": 2.1913580246913582e-05, "loss": 0.4191, "step": 1745 }, { "epoch": 1.81875, "grad_norm": 0.22355353839402733, "learning_rate": 2.189429012345679e-05, "loss": 0.441, "step": 1746 }, { "epoch": 1.8197916666666667, "grad_norm": 0.2343390586987734, "learning_rate": 2.1875e-05, "loss": 0.4819, "step": 1747 }, { "epoch": 1.8208333333333333, "grad_norm": 0.21992612429797184, "learning_rate": 2.1855709876543212e-05, "loss": 0.4171, "step": 1748 }, { "epoch": 1.821875, "grad_norm": 0.20957607687080682, "learning_rate": 2.183641975308642e-05, "loss": 0.4526, "step": 1749 }, { "epoch": 1.8229166666666665, "grad_norm": 0.23865818728861027, "learning_rate": 2.1817129629629633e-05, "loss": 0.4914, "step": 1750 }, { "epoch": 1.8239583333333333, "grad_norm": 0.22909046220631635, "learning_rate": 2.179783950617284e-05, "loss": 0.4663, "step": 1751 }, { "epoch": 1.825, "grad_norm": 0.2055787655394505, "learning_rate": 2.177854938271605e-05, "loss": 0.4712, "step": 1752 }, { "epoch": 1.8260416666666668, "grad_norm": 0.21528772074153713, "learning_rate": 2.175925925925926e-05, "loss": 0.498, "step": 1753 }, { "epoch": 1.8270833333333334, "grad_norm": 0.200064553501355, "learning_rate": 2.1739969135802472e-05, "loss": 0.4272, "step": 1754 }, { "epoch": 1.828125, "grad_norm": 0.7813360686787177, "learning_rate": 2.172067901234568e-05, "loss": 0.4653, "step": 1755 }, { "epoch": 1.8291666666666666, "grad_norm": 0.19749483581268704, "learning_rate": 2.170138888888889e-05, "loss": 0.4132, "step": 1756 }, { "epoch": 1.8302083333333332, "grad_norm": 0.6105997482795422, "learning_rate": 2.16820987654321e-05, "loss": 0.4685, "step": 1757 }, { "epoch": 1.83125, "grad_norm": 0.21526617728932285, "learning_rate": 2.166280864197531e-05, "loss": 0.4464, "step": 1758 }, { "epoch": 1.8322916666666667, "grad_norm": 0.22865033213172145, "learning_rate": 2.164351851851852e-05, "loss": 0.4811, "step": 1759 }, { "epoch": 1.8333333333333335, "grad_norm": 0.2172843260107603, "learning_rate": 2.162422839506173e-05, "loss": 0.4097, "step": 1760 }, { "epoch": 1.834375, "grad_norm": 0.21443183662000814, "learning_rate": 2.1604938271604937e-05, "loss": 0.4646, "step": 1761 }, { "epoch": 1.8354166666666667, "grad_norm": 0.2039643811474548, "learning_rate": 2.158564814814815e-05, "loss": 0.3935, "step": 1762 }, { "epoch": 1.8364583333333333, "grad_norm": 0.22248059445118606, "learning_rate": 2.156635802469136e-05, "loss": 0.4249, "step": 1763 }, { "epoch": 1.8375, "grad_norm": 0.2345513398672611, "learning_rate": 2.1547067901234567e-05, "loss": 0.4709, "step": 1764 }, { "epoch": 1.8385416666666665, "grad_norm": 0.21912406168706833, "learning_rate": 2.152777777777778e-05, "loss": 0.4154, "step": 1765 }, { "epoch": 1.8395833333333333, "grad_norm": 0.22703468149189027, "learning_rate": 2.150848765432099e-05, "loss": 0.4887, "step": 1766 }, { "epoch": 1.840625, "grad_norm": 0.21351935080831386, "learning_rate": 2.14891975308642e-05, "loss": 0.4168, "step": 1767 }, { "epoch": 1.8416666666666668, "grad_norm": 0.22941516757279967, "learning_rate": 2.146990740740741e-05, "loss": 0.4168, "step": 1768 }, { "epoch": 1.8427083333333334, "grad_norm": 0.21932922758725476, "learning_rate": 2.145061728395062e-05, "loss": 0.4292, "step": 1769 }, { "epoch": 1.84375, "grad_norm": 0.2177963491914323, "learning_rate": 2.1431327160493827e-05, "loss": 0.4059, "step": 1770 }, { "epoch": 1.8447916666666666, "grad_norm": 0.22643088403820594, "learning_rate": 2.141203703703704e-05, "loss": 0.4131, "step": 1771 }, { "epoch": 1.8458333333333332, "grad_norm": 0.2378607329836014, "learning_rate": 2.139274691358025e-05, "loss": 0.4966, "step": 1772 }, { "epoch": 1.846875, "grad_norm": 0.24611792821935902, "learning_rate": 2.1373456790123457e-05, "loss": 0.4776, "step": 1773 }, { "epoch": 1.8479166666666667, "grad_norm": 0.2199417467536041, "learning_rate": 2.1354166666666666e-05, "loss": 0.4708, "step": 1774 }, { "epoch": 1.8489583333333335, "grad_norm": 0.22198412131682904, "learning_rate": 2.133487654320988e-05, "loss": 0.4252, "step": 1775 }, { "epoch": 1.85, "grad_norm": 0.2201165274677807, "learning_rate": 2.1315586419753087e-05, "loss": 0.4569, "step": 1776 }, { "epoch": 1.8510416666666667, "grad_norm": 0.20564359635463486, "learning_rate": 2.1296296296296296e-05, "loss": 0.4095, "step": 1777 }, { "epoch": 1.8520833333333333, "grad_norm": 0.2343402358425896, "learning_rate": 2.1277006172839505e-05, "loss": 0.3941, "step": 1778 }, { "epoch": 1.853125, "grad_norm": 0.23452539519773116, "learning_rate": 2.1257716049382717e-05, "loss": 0.3852, "step": 1779 }, { "epoch": 1.8541666666666665, "grad_norm": 0.2192646412649835, "learning_rate": 2.123842592592593e-05, "loss": 0.4181, "step": 1780 }, { "epoch": 1.8552083333333333, "grad_norm": 0.23789822446542347, "learning_rate": 2.1219135802469135e-05, "loss": 0.4461, "step": 1781 }, { "epoch": 1.85625, "grad_norm": 0.23113202087817925, "learning_rate": 2.1199845679012347e-05, "loss": 0.4329, "step": 1782 }, { "epoch": 1.8572916666666668, "grad_norm": 0.2531126715449433, "learning_rate": 2.1180555555555556e-05, "loss": 0.4244, "step": 1783 }, { "epoch": 1.8583333333333334, "grad_norm": 0.2094346169421557, "learning_rate": 2.116126543209877e-05, "loss": 0.4032, "step": 1784 }, { "epoch": 1.859375, "grad_norm": 0.22916430930796566, "learning_rate": 2.1141975308641977e-05, "loss": 0.4405, "step": 1785 }, { "epoch": 1.8604166666666666, "grad_norm": 0.23068216250104032, "learning_rate": 2.1122685185185186e-05, "loss": 0.4169, "step": 1786 }, { "epoch": 1.8614583333333332, "grad_norm": 0.2047588926450423, "learning_rate": 2.1103395061728395e-05, "loss": 0.4277, "step": 1787 }, { "epoch": 1.8625, "grad_norm": 0.20162191199987645, "learning_rate": 2.1084104938271607e-05, "loss": 0.3912, "step": 1788 }, { "epoch": 1.8635416666666667, "grad_norm": 0.2106349439959669, "learning_rate": 2.1064814814814816e-05, "loss": 0.4101, "step": 1789 }, { "epoch": 1.8645833333333335, "grad_norm": 0.24283630980429824, "learning_rate": 2.1045524691358025e-05, "loss": 0.4818, "step": 1790 }, { "epoch": 1.865625, "grad_norm": 0.223925919231715, "learning_rate": 2.1026234567901234e-05, "loss": 0.4392, "step": 1791 }, { "epoch": 1.8666666666666667, "grad_norm": 0.2050892089155905, "learning_rate": 2.1006944444444446e-05, "loss": 0.4594, "step": 1792 }, { "epoch": 1.8677083333333333, "grad_norm": 0.24247668129413788, "learning_rate": 2.0987654320987655e-05, "loss": 0.4799, "step": 1793 }, { "epoch": 1.86875, "grad_norm": 0.2134488989704169, "learning_rate": 2.0968364197530864e-05, "loss": 0.4284, "step": 1794 }, { "epoch": 1.8697916666666665, "grad_norm": 0.24924371175765112, "learning_rate": 2.0949074074074073e-05, "loss": 0.4944, "step": 1795 }, { "epoch": 1.8708333333333333, "grad_norm": 0.20471831974631413, "learning_rate": 2.0929783950617285e-05, "loss": 0.3904, "step": 1796 }, { "epoch": 1.871875, "grad_norm": 0.20878887647053915, "learning_rate": 2.0910493827160497e-05, "loss": 0.3834, "step": 1797 }, { "epoch": 1.8729166666666668, "grad_norm": 0.24359672539585245, "learning_rate": 2.0891203703703706e-05, "loss": 0.473, "step": 1798 }, { "epoch": 1.8739583333333334, "grad_norm": 0.2114042587438332, "learning_rate": 2.0871913580246915e-05, "loss": 0.4614, "step": 1799 }, { "epoch": 1.875, "grad_norm": 0.20268066465913742, "learning_rate": 2.0852623456790124e-05, "loss": 0.4273, "step": 1800 }, { "epoch": 1.8760416666666666, "grad_norm": 0.1998764031880006, "learning_rate": 2.0833333333333336e-05, "loss": 0.3707, "step": 1801 }, { "epoch": 1.8770833333333332, "grad_norm": 0.21552693782973234, "learning_rate": 2.0814043209876545e-05, "loss": 0.4256, "step": 1802 }, { "epoch": 1.878125, "grad_norm": 0.22784626767403207, "learning_rate": 2.0794753086419754e-05, "loss": 0.5083, "step": 1803 }, { "epoch": 1.8791666666666667, "grad_norm": 0.19496920083158362, "learning_rate": 2.0775462962962963e-05, "loss": 0.4318, "step": 1804 }, { "epoch": 1.8802083333333335, "grad_norm": 0.2053770653521651, "learning_rate": 2.0756172839506175e-05, "loss": 0.3874, "step": 1805 }, { "epoch": 1.88125, "grad_norm": 0.2458950973679463, "learning_rate": 2.0736882716049384e-05, "loss": 0.5225, "step": 1806 }, { "epoch": 1.8822916666666667, "grad_norm": 0.20132780791822413, "learning_rate": 2.0717592592592593e-05, "loss": 0.3605, "step": 1807 }, { "epoch": 1.8833333333333333, "grad_norm": 0.2108673004344005, "learning_rate": 2.06983024691358e-05, "loss": 0.4223, "step": 1808 }, { "epoch": 1.884375, "grad_norm": 0.21492135821701946, "learning_rate": 2.0679012345679014e-05, "loss": 0.4445, "step": 1809 }, { "epoch": 1.8854166666666665, "grad_norm": 0.2192008635087797, "learning_rate": 2.0659722222222223e-05, "loss": 0.5007, "step": 1810 }, { "epoch": 1.8864583333333333, "grad_norm": 0.21608882809051558, "learning_rate": 2.0640432098765435e-05, "loss": 0.4052, "step": 1811 }, { "epoch": 1.8875, "grad_norm": 0.20787989963960846, "learning_rate": 2.0621141975308644e-05, "loss": 0.3897, "step": 1812 }, { "epoch": 1.8885416666666668, "grad_norm": 0.2125630221866727, "learning_rate": 2.0601851851851853e-05, "loss": 0.4593, "step": 1813 }, { "epoch": 1.8895833333333334, "grad_norm": 0.21457624960859784, "learning_rate": 2.0582561728395065e-05, "loss": 0.425, "step": 1814 }, { "epoch": 1.890625, "grad_norm": 0.21197792308629773, "learning_rate": 2.0563271604938274e-05, "loss": 0.4488, "step": 1815 }, { "epoch": 1.8916666666666666, "grad_norm": 0.2195270145376176, "learning_rate": 2.0543981481481483e-05, "loss": 0.4614, "step": 1816 }, { "epoch": 1.8927083333333332, "grad_norm": 0.42204484148847704, "learning_rate": 2.052469135802469e-05, "loss": 0.4177, "step": 1817 }, { "epoch": 1.89375, "grad_norm": 8.30684453754315, "learning_rate": 2.0505401234567904e-05, "loss": 0.4689, "step": 1818 }, { "epoch": 1.8947916666666667, "grad_norm": 0.2566892014581049, "learning_rate": 2.0486111111111113e-05, "loss": 0.4528, "step": 1819 }, { "epoch": 1.8958333333333335, "grad_norm": 0.233497285519571, "learning_rate": 2.046682098765432e-05, "loss": 0.4261, "step": 1820 }, { "epoch": 1.896875, "grad_norm": 0.21903780367791595, "learning_rate": 2.044753086419753e-05, "loss": 0.4307, "step": 1821 }, { "epoch": 1.8979166666666667, "grad_norm": 0.19708764731194256, "learning_rate": 2.0428240740740742e-05, "loss": 0.3764, "step": 1822 }, { "epoch": 1.8989583333333333, "grad_norm": 0.21774604928517954, "learning_rate": 2.040895061728395e-05, "loss": 0.4457, "step": 1823 }, { "epoch": 1.9, "grad_norm": 0.2289179821493491, "learning_rate": 2.038966049382716e-05, "loss": 0.3898, "step": 1824 }, { "epoch": 1.9010416666666665, "grad_norm": 0.2161964006350558, "learning_rate": 2.037037037037037e-05, "loss": 0.4625, "step": 1825 }, { "epoch": 1.9020833333333333, "grad_norm": 0.217342630667714, "learning_rate": 2.035108024691358e-05, "loss": 0.414, "step": 1826 }, { "epoch": 1.903125, "grad_norm": 0.21980326855291574, "learning_rate": 2.033179012345679e-05, "loss": 0.4417, "step": 1827 }, { "epoch": 1.9041666666666668, "grad_norm": 0.2279034664522617, "learning_rate": 2.0312500000000002e-05, "loss": 0.4058, "step": 1828 }, { "epoch": 1.9052083333333334, "grad_norm": 0.22617819407134418, "learning_rate": 2.029320987654321e-05, "loss": 0.4788, "step": 1829 }, { "epoch": 1.90625, "grad_norm": 0.22253198205086575, "learning_rate": 2.027391975308642e-05, "loss": 0.5054, "step": 1830 }, { "epoch": 1.9072916666666666, "grad_norm": 0.22348438057899214, "learning_rate": 2.0254629629629632e-05, "loss": 0.4218, "step": 1831 }, { "epoch": 1.9083333333333332, "grad_norm": 0.24965892204403087, "learning_rate": 2.023533950617284e-05, "loss": 0.4841, "step": 1832 }, { "epoch": 1.909375, "grad_norm": 0.2042657298031111, "learning_rate": 2.021604938271605e-05, "loss": 0.3884, "step": 1833 }, { "epoch": 1.9104166666666667, "grad_norm": 0.2094077621869967, "learning_rate": 2.019675925925926e-05, "loss": 0.4736, "step": 1834 }, { "epoch": 1.9114583333333335, "grad_norm": 0.20480778055969634, "learning_rate": 2.017746913580247e-05, "loss": 0.437, "step": 1835 }, { "epoch": 1.9125, "grad_norm": 0.21485788239741915, "learning_rate": 2.015817901234568e-05, "loss": 0.4137, "step": 1836 }, { "epoch": 1.9135416666666667, "grad_norm": 0.21724559293945198, "learning_rate": 2.013888888888889e-05, "loss": 0.4324, "step": 1837 }, { "epoch": 1.9145833333333333, "grad_norm": 0.20381725598278427, "learning_rate": 2.0119598765432098e-05, "loss": 0.4475, "step": 1838 }, { "epoch": 1.915625, "grad_norm": 0.23289796364540513, "learning_rate": 2.010030864197531e-05, "loss": 0.4451, "step": 1839 }, { "epoch": 1.9166666666666665, "grad_norm": 0.2281237228836159, "learning_rate": 2.008101851851852e-05, "loss": 0.4074, "step": 1840 }, { "epoch": 1.9177083333333333, "grad_norm": 0.21226264534649436, "learning_rate": 2.006172839506173e-05, "loss": 0.3875, "step": 1841 }, { "epoch": 1.91875, "grad_norm": 0.21286345303298418, "learning_rate": 2.0042438271604937e-05, "loss": 0.4352, "step": 1842 }, { "epoch": 1.9197916666666668, "grad_norm": 0.3822838907485691, "learning_rate": 2.002314814814815e-05, "loss": 0.3993, "step": 1843 }, { "epoch": 1.9208333333333334, "grad_norm": 0.19928017102403361, "learning_rate": 2.0003858024691358e-05, "loss": 0.4041, "step": 1844 }, { "epoch": 1.921875, "grad_norm": 0.22102099282967863, "learning_rate": 1.998456790123457e-05, "loss": 0.4492, "step": 1845 }, { "epoch": 1.9229166666666666, "grad_norm": 0.21536844347820852, "learning_rate": 1.996527777777778e-05, "loss": 0.4307, "step": 1846 }, { "epoch": 1.9239583333333332, "grad_norm": 0.21181213647721747, "learning_rate": 1.9945987654320988e-05, "loss": 0.438, "step": 1847 }, { "epoch": 1.925, "grad_norm": 0.2116012620392939, "learning_rate": 1.99266975308642e-05, "loss": 0.4412, "step": 1848 }, { "epoch": 1.9260416666666667, "grad_norm": 0.2283032765235259, "learning_rate": 1.990740740740741e-05, "loss": 0.494, "step": 1849 }, { "epoch": 1.9270833333333335, "grad_norm": 0.20198667947464385, "learning_rate": 1.9888117283950618e-05, "loss": 0.4053, "step": 1850 }, { "epoch": 1.928125, "grad_norm": 0.2162236634129358, "learning_rate": 1.9868827160493827e-05, "loss": 0.4399, "step": 1851 }, { "epoch": 1.9291666666666667, "grad_norm": 0.2048104193639074, "learning_rate": 1.984953703703704e-05, "loss": 0.4376, "step": 1852 }, { "epoch": 1.9302083333333333, "grad_norm": 0.24148222145396644, "learning_rate": 1.9830246913580248e-05, "loss": 0.4735, "step": 1853 }, { "epoch": 1.93125, "grad_norm": 0.22997893596465166, "learning_rate": 1.9810956790123457e-05, "loss": 0.4271, "step": 1854 }, { "epoch": 1.9322916666666665, "grad_norm": 0.20479760128849483, "learning_rate": 1.9791666666666665e-05, "loss": 0.4357, "step": 1855 }, { "epoch": 1.9333333333333333, "grad_norm": 0.2039275882271858, "learning_rate": 1.9772376543209878e-05, "loss": 0.3941, "step": 1856 }, { "epoch": 1.934375, "grad_norm": 0.22272443032728192, "learning_rate": 1.9753086419753087e-05, "loss": 0.4787, "step": 1857 }, { "epoch": 1.9354166666666668, "grad_norm": 0.20357260356573922, "learning_rate": 1.97337962962963e-05, "loss": 0.3887, "step": 1858 }, { "epoch": 1.9364583333333334, "grad_norm": 0.21375515440315673, "learning_rate": 1.9714506172839504e-05, "loss": 0.4241, "step": 1859 }, { "epoch": 1.9375, "grad_norm": 0.22931423900248607, "learning_rate": 1.9695216049382717e-05, "loss": 0.3777, "step": 1860 }, { "epoch": 1.9385416666666666, "grad_norm": 0.2089578456603259, "learning_rate": 1.967592592592593e-05, "loss": 0.476, "step": 1861 }, { "epoch": 1.9395833333333332, "grad_norm": 0.2022390974218954, "learning_rate": 1.9656635802469138e-05, "loss": 0.3832, "step": 1862 }, { "epoch": 1.940625, "grad_norm": 0.2166265070367112, "learning_rate": 1.9637345679012347e-05, "loss": 0.4571, "step": 1863 }, { "epoch": 1.9416666666666667, "grad_norm": 0.20316574816365573, "learning_rate": 1.9618055555555555e-05, "loss": 0.4, "step": 1864 }, { "epoch": 1.9427083333333335, "grad_norm": 0.22900526416836622, "learning_rate": 1.9598765432098768e-05, "loss": 0.5205, "step": 1865 }, { "epoch": 1.94375, "grad_norm": 0.20282842505059373, "learning_rate": 1.9579475308641977e-05, "loss": 0.4467, "step": 1866 }, { "epoch": 1.9447916666666667, "grad_norm": 0.23809437722696739, "learning_rate": 1.9560185185185185e-05, "loss": 0.5024, "step": 1867 }, { "epoch": 1.9458333333333333, "grad_norm": 0.19937783684276406, "learning_rate": 1.9540895061728394e-05, "loss": 0.4022, "step": 1868 }, { "epoch": 1.946875, "grad_norm": 0.2089256110797815, "learning_rate": 1.9521604938271607e-05, "loss": 0.4552, "step": 1869 }, { "epoch": 1.9479166666666665, "grad_norm": 0.22596104049459412, "learning_rate": 1.9502314814814815e-05, "loss": 0.4987, "step": 1870 }, { "epoch": 1.9489583333333333, "grad_norm": 0.20294245418898568, "learning_rate": 1.9483024691358028e-05, "loss": 0.4623, "step": 1871 }, { "epoch": 1.95, "grad_norm": 0.19408270889303417, "learning_rate": 1.9463734567901233e-05, "loss": 0.4288, "step": 1872 }, { "epoch": 1.9510416666666668, "grad_norm": 0.2081271784448536, "learning_rate": 1.9444444444444445e-05, "loss": 0.4488, "step": 1873 }, { "epoch": 1.9520833333333334, "grad_norm": 0.24647453110798404, "learning_rate": 1.9425154320987654e-05, "loss": 0.4374, "step": 1874 }, { "epoch": 1.953125, "grad_norm": 0.2115290148877678, "learning_rate": 1.9405864197530866e-05, "loss": 0.3987, "step": 1875 }, { "epoch": 1.9541666666666666, "grad_norm": 0.19830484557744113, "learning_rate": 1.9386574074074075e-05, "loss": 0.4018, "step": 1876 }, { "epoch": 1.9552083333333332, "grad_norm": 0.20983811319485388, "learning_rate": 1.9367283950617284e-05, "loss": 0.441, "step": 1877 }, { "epoch": 1.95625, "grad_norm": 0.21190283352810096, "learning_rate": 1.9347993827160496e-05, "loss": 0.497, "step": 1878 }, { "epoch": 1.9572916666666667, "grad_norm": 0.21226457789009603, "learning_rate": 1.9328703703703705e-05, "loss": 0.3963, "step": 1879 }, { "epoch": 1.9583333333333335, "grad_norm": 0.19335594937844347, "learning_rate": 1.9309413580246914e-05, "loss": 0.3906, "step": 1880 }, { "epoch": 1.959375, "grad_norm": 0.23507465500250777, "learning_rate": 1.9290123456790123e-05, "loss": 0.4426, "step": 1881 }, { "epoch": 1.9604166666666667, "grad_norm": 6.839404850337115, "learning_rate": 1.9270833333333335e-05, "loss": 0.6382, "step": 1882 }, { "epoch": 1.9614583333333333, "grad_norm": 0.2304862042199235, "learning_rate": 1.9251543209876544e-05, "loss": 0.471, "step": 1883 }, { "epoch": 1.9625, "grad_norm": 0.21898550001256178, "learning_rate": 1.9232253086419756e-05, "loss": 0.4306, "step": 1884 }, { "epoch": 1.9635416666666665, "grad_norm": 0.22457376251079006, "learning_rate": 1.9212962962962962e-05, "loss": 0.4624, "step": 1885 }, { "epoch": 1.9645833333333333, "grad_norm": 0.2056276419061288, "learning_rate": 1.9193672839506174e-05, "loss": 0.4181, "step": 1886 }, { "epoch": 1.965625, "grad_norm": 0.22053596924312477, "learning_rate": 1.9174382716049383e-05, "loss": 0.4235, "step": 1887 }, { "epoch": 1.9666666666666668, "grad_norm": 0.21727422510566902, "learning_rate": 1.9155092592592595e-05, "loss": 0.4431, "step": 1888 }, { "epoch": 1.9677083333333334, "grad_norm": 0.21947616109549467, "learning_rate": 1.91358024691358e-05, "loss": 0.4896, "step": 1889 }, { "epoch": 1.96875, "grad_norm": 0.20535100876684756, "learning_rate": 1.9116512345679013e-05, "loss": 0.3952, "step": 1890 }, { "epoch": 1.9697916666666666, "grad_norm": 0.2598087300360555, "learning_rate": 1.9097222222222222e-05, "loss": 0.5056, "step": 1891 }, { "epoch": 1.9708333333333332, "grad_norm": 0.24382671165663142, "learning_rate": 1.9077932098765434e-05, "loss": 0.4836, "step": 1892 }, { "epoch": 1.971875, "grad_norm": 0.2090051904848316, "learning_rate": 1.9058641975308643e-05, "loss": 0.4261, "step": 1893 }, { "epoch": 1.9729166666666667, "grad_norm": 0.22003624239322403, "learning_rate": 1.9039351851851852e-05, "loss": 0.4324, "step": 1894 }, { "epoch": 1.9739583333333335, "grad_norm": 0.2174728071935697, "learning_rate": 1.9020061728395064e-05, "loss": 0.4632, "step": 1895 }, { "epoch": 1.975, "grad_norm": 0.20607972992350262, "learning_rate": 1.9000771604938273e-05, "loss": 0.4103, "step": 1896 }, { "epoch": 1.9760416666666667, "grad_norm": 0.19897268592538825, "learning_rate": 1.8981481481481482e-05, "loss": 0.3541, "step": 1897 }, { "epoch": 1.9770833333333333, "grad_norm": 0.211392548866455, "learning_rate": 1.896219135802469e-05, "loss": 0.438, "step": 1898 }, { "epoch": 1.978125, "grad_norm": 0.20233916587913736, "learning_rate": 1.8942901234567903e-05, "loss": 0.423, "step": 1899 }, { "epoch": 1.9791666666666665, "grad_norm": 0.1989136973484098, "learning_rate": 1.8923611111111112e-05, "loss": 0.3953, "step": 1900 }, { "epoch": 1.9802083333333333, "grad_norm": 0.21978471967192112, "learning_rate": 1.8904320987654324e-05, "loss": 0.4919, "step": 1901 }, { "epoch": 1.98125, "grad_norm": 0.2002518991023848, "learning_rate": 1.888503086419753e-05, "loss": 0.4364, "step": 1902 }, { "epoch": 1.9822916666666668, "grad_norm": 0.22693658148062715, "learning_rate": 1.8865740740740742e-05, "loss": 0.4671, "step": 1903 }, { "epoch": 1.9833333333333334, "grad_norm": 0.2286966016438754, "learning_rate": 1.884645061728395e-05, "loss": 0.485, "step": 1904 }, { "epoch": 1.984375, "grad_norm": 0.18653098017830394, "learning_rate": 1.8827160493827163e-05, "loss": 0.402, "step": 1905 }, { "epoch": 1.9854166666666666, "grad_norm": 0.21853992721985482, "learning_rate": 1.8807870370370372e-05, "loss": 0.4085, "step": 1906 }, { "epoch": 1.9864583333333332, "grad_norm": 0.20623966316119022, "learning_rate": 1.878858024691358e-05, "loss": 0.403, "step": 1907 }, { "epoch": 1.9875, "grad_norm": 0.1994426004476385, "learning_rate": 1.876929012345679e-05, "loss": 0.3916, "step": 1908 }, { "epoch": 1.9885416666666667, "grad_norm": 0.2443229131143069, "learning_rate": 1.8750000000000002e-05, "loss": 0.4723, "step": 1909 }, { "epoch": 1.9895833333333335, "grad_norm": 0.19802768934246034, "learning_rate": 1.873070987654321e-05, "loss": 0.4493, "step": 1910 }, { "epoch": 1.990625, "grad_norm": 0.21927556095311476, "learning_rate": 1.871141975308642e-05, "loss": 0.4284, "step": 1911 }, { "epoch": 1.9916666666666667, "grad_norm": 0.27459891021087474, "learning_rate": 1.8692129629629632e-05, "loss": 0.4957, "step": 1912 }, { "epoch": 1.9927083333333333, "grad_norm": 0.21144006404970342, "learning_rate": 1.867283950617284e-05, "loss": 0.4654, "step": 1913 }, { "epoch": 1.99375, "grad_norm": 0.2064414659495236, "learning_rate": 1.8653549382716053e-05, "loss": 0.4935, "step": 1914 }, { "epoch": 1.9947916666666665, "grad_norm": 0.2094306250090389, "learning_rate": 1.863425925925926e-05, "loss": 0.4527, "step": 1915 }, { "epoch": 1.9958333333333333, "grad_norm": 0.21446724871503955, "learning_rate": 1.861496913580247e-05, "loss": 0.4486, "step": 1916 }, { "epoch": 1.996875, "grad_norm": 0.20159995508320835, "learning_rate": 1.859567901234568e-05, "loss": 0.4136, "step": 1917 }, { "epoch": 1.9979166666666668, "grad_norm": 0.19433528036046444, "learning_rate": 1.857638888888889e-05, "loss": 0.4059, "step": 1918 }, { "epoch": 1.9989583333333334, "grad_norm": 0.20649339716154003, "learning_rate": 1.8557098765432097e-05, "loss": 0.3903, "step": 1919 }, { "epoch": 2.0, "grad_norm": 0.18440663214562059, "learning_rate": 1.853780864197531e-05, "loss": 0.3584, "step": 1920 }, { "epoch": 2.0010416666666666, "grad_norm": 0.24291914402497236, "learning_rate": 1.8518518518518518e-05, "loss": 0.3058, "step": 1921 }, { "epoch": 2.002083333333333, "grad_norm": 0.2469062304581228, "learning_rate": 1.849922839506173e-05, "loss": 0.3183, "step": 1922 }, { "epoch": 2.003125, "grad_norm": 0.22511768571531016, "learning_rate": 1.847993827160494e-05, "loss": 0.3522, "step": 1923 }, { "epoch": 2.004166666666667, "grad_norm": 0.28978729832689776, "learning_rate": 1.8460648148148148e-05, "loss": 0.3197, "step": 1924 }, { "epoch": 2.0052083333333335, "grad_norm": 0.25930299965750453, "learning_rate": 1.8441358024691357e-05, "loss": 0.3857, "step": 1925 }, { "epoch": 2.00625, "grad_norm": 0.23240838070606343, "learning_rate": 1.842206790123457e-05, "loss": 0.3829, "step": 1926 }, { "epoch": 2.0072916666666667, "grad_norm": 0.27904746663634683, "learning_rate": 1.8402777777777778e-05, "loss": 0.381, "step": 1927 }, { "epoch": 2.0083333333333333, "grad_norm": 0.24025547607268347, "learning_rate": 1.8383487654320987e-05, "loss": 0.3333, "step": 1928 }, { "epoch": 2.009375, "grad_norm": 0.22847736059967766, "learning_rate": 1.83641975308642e-05, "loss": 0.34, "step": 1929 }, { "epoch": 2.0104166666666665, "grad_norm": 0.22234590122622866, "learning_rate": 1.8344907407407408e-05, "loss": 0.3316, "step": 1930 }, { "epoch": 2.011458333333333, "grad_norm": 0.2551064659908799, "learning_rate": 1.832561728395062e-05, "loss": 0.3821, "step": 1931 }, { "epoch": 2.0125, "grad_norm": 0.24651700875996543, "learning_rate": 1.8306327160493826e-05, "loss": 0.3754, "step": 1932 }, { "epoch": 2.013541666666667, "grad_norm": 0.21177530394520466, "learning_rate": 1.8287037037037038e-05, "loss": 0.3268, "step": 1933 }, { "epoch": 2.0145833333333334, "grad_norm": 0.2274520772861512, "learning_rate": 1.8267746913580247e-05, "loss": 0.3653, "step": 1934 }, { "epoch": 2.015625, "grad_norm": 0.21650558821691687, "learning_rate": 1.824845679012346e-05, "loss": 0.3702, "step": 1935 }, { "epoch": 2.0166666666666666, "grad_norm": 0.20417896798785615, "learning_rate": 1.8229166666666668e-05, "loss": 0.2852, "step": 1936 }, { "epoch": 2.017708333333333, "grad_norm": 0.21840344016844926, "learning_rate": 1.8209876543209877e-05, "loss": 0.3541, "step": 1937 }, { "epoch": 2.01875, "grad_norm": 0.22407186356428535, "learning_rate": 1.8190586419753086e-05, "loss": 0.3666, "step": 1938 }, { "epoch": 2.019791666666667, "grad_norm": 0.27391390978861685, "learning_rate": 1.8171296296296298e-05, "loss": 0.3656, "step": 1939 }, { "epoch": 2.0208333333333335, "grad_norm": 0.2955407795371067, "learning_rate": 1.8152006172839507e-05, "loss": 0.3702, "step": 1940 }, { "epoch": 2.021875, "grad_norm": 0.20784663440309106, "learning_rate": 1.8132716049382716e-05, "loss": 0.3217, "step": 1941 }, { "epoch": 2.0229166666666667, "grad_norm": 0.21817980367767095, "learning_rate": 1.8113425925925928e-05, "loss": 0.3589, "step": 1942 }, { "epoch": 2.0239583333333333, "grad_norm": 0.22667246201174107, "learning_rate": 1.8094135802469137e-05, "loss": 0.3325, "step": 1943 }, { "epoch": 2.025, "grad_norm": 0.20356460444191066, "learning_rate": 1.807484567901235e-05, "loss": 0.3164, "step": 1944 }, { "epoch": 2.0260416666666665, "grad_norm": 0.204403139408177, "learning_rate": 1.8055555555555555e-05, "loss": 0.312, "step": 1945 }, { "epoch": 2.027083333333333, "grad_norm": 0.21694147369210773, "learning_rate": 1.8036265432098767e-05, "loss": 0.3152, "step": 1946 }, { "epoch": 2.028125, "grad_norm": 0.21024771551331164, "learning_rate": 1.8016975308641976e-05, "loss": 0.3295, "step": 1947 }, { "epoch": 2.029166666666667, "grad_norm": 0.2078441765739905, "learning_rate": 1.7997685185185188e-05, "loss": 0.3571, "step": 1948 }, { "epoch": 2.0302083333333334, "grad_norm": 0.20939075778696883, "learning_rate": 1.7978395061728397e-05, "loss": 0.3596, "step": 1949 }, { "epoch": 2.03125, "grad_norm": 0.21015546558376869, "learning_rate": 1.7959104938271606e-05, "loss": 0.3633, "step": 1950 }, { "epoch": 2.0322916666666666, "grad_norm": 0.2161626740124765, "learning_rate": 1.7939814814814815e-05, "loss": 0.3318, "step": 1951 }, { "epoch": 2.033333333333333, "grad_norm": 0.2082510714768575, "learning_rate": 1.7920524691358027e-05, "loss": 0.354, "step": 1952 }, { "epoch": 2.034375, "grad_norm": 0.21051017727609342, "learning_rate": 1.7901234567901236e-05, "loss": 0.3489, "step": 1953 }, { "epoch": 2.035416666666667, "grad_norm": 0.20784585687903864, "learning_rate": 1.7881944444444445e-05, "loss": 0.375, "step": 1954 }, { "epoch": 2.0364583333333335, "grad_norm": 0.20556902865015309, "learning_rate": 1.7862654320987654e-05, "loss": 0.3661, "step": 1955 }, { "epoch": 2.0375, "grad_norm": 0.2114755372705273, "learning_rate": 1.7843364197530866e-05, "loss": 0.3513, "step": 1956 }, { "epoch": 2.0385416666666667, "grad_norm": 0.19562394880996414, "learning_rate": 1.7824074074074075e-05, "loss": 0.3293, "step": 1957 }, { "epoch": 2.0395833333333333, "grad_norm": 0.20440290161804883, "learning_rate": 1.7804783950617284e-05, "loss": 0.3343, "step": 1958 }, { "epoch": 2.040625, "grad_norm": 0.2084750395484516, "learning_rate": 1.7785493827160496e-05, "loss": 0.3528, "step": 1959 }, { "epoch": 2.0416666666666665, "grad_norm": 0.20226349418698167, "learning_rate": 1.7766203703703705e-05, "loss": 0.3449, "step": 1960 }, { "epoch": 2.042708333333333, "grad_norm": 0.21221366153833018, "learning_rate": 1.7746913580246917e-05, "loss": 0.3561, "step": 1961 }, { "epoch": 2.04375, "grad_norm": 0.20978528625653506, "learning_rate": 1.7727623456790122e-05, "loss": 0.3198, "step": 1962 }, { "epoch": 2.044791666666667, "grad_norm": 0.20170980634168467, "learning_rate": 1.7708333333333335e-05, "loss": 0.3229, "step": 1963 }, { "epoch": 2.0458333333333334, "grad_norm": 0.2082314257425298, "learning_rate": 1.7689043209876543e-05, "loss": 0.3603, "step": 1964 }, { "epoch": 2.046875, "grad_norm": 0.222943884391314, "learning_rate": 1.7669753086419756e-05, "loss": 0.3891, "step": 1965 }, { "epoch": 2.0479166666666666, "grad_norm": 0.2249680889554414, "learning_rate": 1.7650462962962965e-05, "loss": 0.3538, "step": 1966 }, { "epoch": 2.048958333333333, "grad_norm": 0.19968241706496012, "learning_rate": 1.7631172839506173e-05, "loss": 0.3123, "step": 1967 }, { "epoch": 2.05, "grad_norm": 0.190454502518689, "learning_rate": 1.7611882716049382e-05, "loss": 0.323, "step": 1968 }, { "epoch": 2.051041666666667, "grad_norm": 0.19013601130606023, "learning_rate": 1.7592592592592595e-05, "loss": 0.3373, "step": 1969 }, { "epoch": 2.0520833333333335, "grad_norm": 0.22289019246728076, "learning_rate": 1.7573302469135803e-05, "loss": 0.3505, "step": 1970 }, { "epoch": 2.053125, "grad_norm": 0.20835585639786824, "learning_rate": 1.7554012345679012e-05, "loss": 0.3678, "step": 1971 }, { "epoch": 2.0541666666666667, "grad_norm": 0.19709905942386513, "learning_rate": 1.753472222222222e-05, "loss": 0.341, "step": 1972 }, { "epoch": 2.0552083333333333, "grad_norm": 0.20909380688447587, "learning_rate": 1.7515432098765433e-05, "loss": 0.3387, "step": 1973 }, { "epoch": 2.05625, "grad_norm": 0.19644548455054633, "learning_rate": 1.7496141975308646e-05, "loss": 0.2966, "step": 1974 }, { "epoch": 2.0572916666666665, "grad_norm": 0.20626861145699626, "learning_rate": 1.747685185185185e-05, "loss": 0.3714, "step": 1975 }, { "epoch": 2.058333333333333, "grad_norm": 0.21413310148927162, "learning_rate": 1.7457561728395063e-05, "loss": 0.3405, "step": 1976 }, { "epoch": 2.059375, "grad_norm": 0.21031129297924694, "learning_rate": 1.7438271604938272e-05, "loss": 0.3011, "step": 1977 }, { "epoch": 2.060416666666667, "grad_norm": 0.20865094350752014, "learning_rate": 1.7418981481481485e-05, "loss": 0.3395, "step": 1978 }, { "epoch": 2.0614583333333334, "grad_norm": 0.20755841812595346, "learning_rate": 1.7399691358024693e-05, "loss": 0.3553, "step": 1979 }, { "epoch": 2.0625, "grad_norm": 0.223957729262693, "learning_rate": 1.7380401234567902e-05, "loss": 0.3787, "step": 1980 }, { "epoch": 2.0635416666666666, "grad_norm": 0.44625147825151174, "learning_rate": 1.736111111111111e-05, "loss": 0.3785, "step": 1981 }, { "epoch": 2.064583333333333, "grad_norm": 0.20081586916564548, "learning_rate": 1.7341820987654323e-05, "loss": 0.3207, "step": 1982 }, { "epoch": 2.065625, "grad_norm": 0.21023427105429765, "learning_rate": 1.7322530864197532e-05, "loss": 0.3583, "step": 1983 }, { "epoch": 2.066666666666667, "grad_norm": 0.22732355786974842, "learning_rate": 1.730324074074074e-05, "loss": 0.3437, "step": 1984 }, { "epoch": 2.0677083333333335, "grad_norm": 0.22358487110272826, "learning_rate": 1.728395061728395e-05, "loss": 0.3799, "step": 1985 }, { "epoch": 2.06875, "grad_norm": 0.21793152850728864, "learning_rate": 1.7264660493827162e-05, "loss": 0.3423, "step": 1986 }, { "epoch": 2.0697916666666667, "grad_norm": 0.20608435040846593, "learning_rate": 1.724537037037037e-05, "loss": 0.3547, "step": 1987 }, { "epoch": 2.0708333333333333, "grad_norm": 0.20629185592286578, "learning_rate": 1.722608024691358e-05, "loss": 0.3123, "step": 1988 }, { "epoch": 2.071875, "grad_norm": 0.2024808022149481, "learning_rate": 1.720679012345679e-05, "loss": 0.3243, "step": 1989 }, { "epoch": 2.0729166666666665, "grad_norm": 0.22024640431345724, "learning_rate": 1.71875e-05, "loss": 0.3104, "step": 1990 }, { "epoch": 2.073958333333333, "grad_norm": 0.19729994190468092, "learning_rate": 1.7168209876543213e-05, "loss": 0.304, "step": 1991 }, { "epoch": 2.075, "grad_norm": 0.18442044273041136, "learning_rate": 1.714891975308642e-05, "loss": 0.3053, "step": 1992 }, { "epoch": 2.076041666666667, "grad_norm": 0.19865022245453945, "learning_rate": 1.712962962962963e-05, "loss": 0.3121, "step": 1993 }, { "epoch": 2.0770833333333334, "grad_norm": 0.21310509525750387, "learning_rate": 1.711033950617284e-05, "loss": 0.3532, "step": 1994 }, { "epoch": 2.078125, "grad_norm": 0.21877668996045033, "learning_rate": 1.7091049382716052e-05, "loss": 0.3543, "step": 1995 }, { "epoch": 2.0791666666666666, "grad_norm": 0.2055667529231977, "learning_rate": 1.707175925925926e-05, "loss": 0.3411, "step": 1996 }, { "epoch": 2.080208333333333, "grad_norm": 0.21210509482689913, "learning_rate": 1.705246913580247e-05, "loss": 0.3572, "step": 1997 }, { "epoch": 2.08125, "grad_norm": 0.8927214231094451, "learning_rate": 1.703317901234568e-05, "loss": 0.3691, "step": 1998 }, { "epoch": 2.082291666666667, "grad_norm": 0.21293204052445217, "learning_rate": 1.701388888888889e-05, "loss": 0.3401, "step": 1999 }, { "epoch": 2.0833333333333335, "grad_norm": 0.2342368811972197, "learning_rate": 1.69945987654321e-05, "loss": 0.3515, "step": 2000 }, { "epoch": 2.084375, "grad_norm": 0.2282038756877293, "learning_rate": 1.697530864197531e-05, "loss": 0.3557, "step": 2001 }, { "epoch": 2.0854166666666667, "grad_norm": 0.2127263670532883, "learning_rate": 1.6956018518518518e-05, "loss": 0.3439, "step": 2002 }, { "epoch": 2.0864583333333333, "grad_norm": 0.21776873070336772, "learning_rate": 1.693672839506173e-05, "loss": 0.3265, "step": 2003 }, { "epoch": 2.0875, "grad_norm": 0.20912051899598602, "learning_rate": 1.691743827160494e-05, "loss": 0.3143, "step": 2004 }, { "epoch": 2.0885416666666665, "grad_norm": 0.2181944138846305, "learning_rate": 1.6898148148148148e-05, "loss": 0.3589, "step": 2005 }, { "epoch": 2.089583333333333, "grad_norm": 0.21141487470434925, "learning_rate": 1.6878858024691356e-05, "loss": 0.3232, "step": 2006 }, { "epoch": 2.090625, "grad_norm": 0.20495619791947767, "learning_rate": 1.685956790123457e-05, "loss": 0.3341, "step": 2007 }, { "epoch": 2.091666666666667, "grad_norm": 0.2503143639416406, "learning_rate": 1.684027777777778e-05, "loss": 0.3932, "step": 2008 }, { "epoch": 2.0927083333333334, "grad_norm": 0.238968219456305, "learning_rate": 1.682098765432099e-05, "loss": 0.3726, "step": 2009 }, { "epoch": 2.09375, "grad_norm": 0.20623066456682454, "learning_rate": 1.68016975308642e-05, "loss": 0.3453, "step": 2010 }, { "epoch": 2.0947916666666666, "grad_norm": 0.23024558436695355, "learning_rate": 1.6782407407407408e-05, "loss": 0.3616, "step": 2011 }, { "epoch": 2.095833333333333, "grad_norm": 0.2204288220582097, "learning_rate": 1.676311728395062e-05, "loss": 0.3556, "step": 2012 }, { "epoch": 2.096875, "grad_norm": 0.19978190292059705, "learning_rate": 1.674382716049383e-05, "loss": 0.3144, "step": 2013 }, { "epoch": 2.097916666666667, "grad_norm": 0.24047664175390168, "learning_rate": 1.6724537037037037e-05, "loss": 0.368, "step": 2014 }, { "epoch": 2.0989583333333335, "grad_norm": 0.18779844537903712, "learning_rate": 1.6705246913580246e-05, "loss": 0.2864, "step": 2015 }, { "epoch": 2.1, "grad_norm": 0.22307676587731484, "learning_rate": 1.668595679012346e-05, "loss": 0.357, "step": 2016 }, { "epoch": 2.1010416666666667, "grad_norm": 0.21316860973959528, "learning_rate": 1.6666666666666667e-05, "loss": 0.371, "step": 2017 }, { "epoch": 2.1020833333333333, "grad_norm": 0.8449547295979696, "learning_rate": 1.6647376543209876e-05, "loss": 0.3271, "step": 2018 }, { "epoch": 2.103125, "grad_norm": 0.22311254268237107, "learning_rate": 1.6628086419753085e-05, "loss": 0.3516, "step": 2019 }, { "epoch": 2.1041666666666665, "grad_norm": 0.2019016545935418, "learning_rate": 1.6608796296296297e-05, "loss": 0.3075, "step": 2020 }, { "epoch": 2.105208333333333, "grad_norm": 0.19804961387720224, "learning_rate": 1.6589506172839506e-05, "loss": 0.3348, "step": 2021 }, { "epoch": 2.10625, "grad_norm": 0.20527434499300426, "learning_rate": 1.657021604938272e-05, "loss": 0.345, "step": 2022 }, { "epoch": 2.107291666666667, "grad_norm": 0.22440726868035155, "learning_rate": 1.6550925925925927e-05, "loss": 0.339, "step": 2023 }, { "epoch": 2.1083333333333334, "grad_norm": 0.2291671306843243, "learning_rate": 1.6531635802469136e-05, "loss": 0.3627, "step": 2024 }, { "epoch": 2.109375, "grad_norm": 0.20596995889071276, "learning_rate": 1.651234567901235e-05, "loss": 0.3565, "step": 2025 }, { "epoch": 2.1104166666666666, "grad_norm": 0.2054283513361924, "learning_rate": 1.6493055555555557e-05, "loss": 0.3534, "step": 2026 }, { "epoch": 2.111458333333333, "grad_norm": 0.22819450932651694, "learning_rate": 1.6473765432098766e-05, "loss": 0.3726, "step": 2027 }, { "epoch": 2.1125, "grad_norm": 0.21137657012527028, "learning_rate": 1.6454475308641975e-05, "loss": 0.3431, "step": 2028 }, { "epoch": 2.113541666666667, "grad_norm": 0.19038063223611382, "learning_rate": 1.6435185185185187e-05, "loss": 0.3217, "step": 2029 }, { "epoch": 2.1145833333333335, "grad_norm": 0.20289116488269623, "learning_rate": 1.6415895061728396e-05, "loss": 0.3535, "step": 2030 }, { "epoch": 2.115625, "grad_norm": 0.2156911898058929, "learning_rate": 1.6396604938271605e-05, "loss": 0.392, "step": 2031 }, { "epoch": 2.1166666666666667, "grad_norm": 0.19357934740860477, "learning_rate": 1.6377314814814814e-05, "loss": 0.2994, "step": 2032 }, { "epoch": 2.1177083333333333, "grad_norm": 0.2168241870827221, "learning_rate": 1.6358024691358026e-05, "loss": 0.3436, "step": 2033 }, { "epoch": 2.11875, "grad_norm": 0.20619487175970538, "learning_rate": 1.6338734567901235e-05, "loss": 0.3549, "step": 2034 }, { "epoch": 2.1197916666666665, "grad_norm": 0.21298671824836757, "learning_rate": 1.6319444444444444e-05, "loss": 0.3745, "step": 2035 }, { "epoch": 2.120833333333333, "grad_norm": 0.2017102460590807, "learning_rate": 1.6300154320987653e-05, "loss": 0.3533, "step": 2036 }, { "epoch": 2.121875, "grad_norm": 0.1836319355646193, "learning_rate": 1.6280864197530865e-05, "loss": 0.2945, "step": 2037 }, { "epoch": 2.122916666666667, "grad_norm": 0.20203482562184258, "learning_rate": 1.6261574074074074e-05, "loss": 0.2891, "step": 2038 }, { "epoch": 2.1239583333333334, "grad_norm": 0.21293141315642164, "learning_rate": 1.6242283950617286e-05, "loss": 0.3503, "step": 2039 }, { "epoch": 2.125, "grad_norm": 0.20149549719623697, "learning_rate": 1.6222993827160495e-05, "loss": 0.3382, "step": 2040 }, { "epoch": 2.1260416666666666, "grad_norm": 0.1967833524995757, "learning_rate": 1.6203703703703704e-05, "loss": 0.3295, "step": 2041 }, { "epoch": 2.127083333333333, "grad_norm": 0.21233585790459342, "learning_rate": 1.6184413580246916e-05, "loss": 0.3903, "step": 2042 }, { "epoch": 2.128125, "grad_norm": 0.21141240370008005, "learning_rate": 1.6165123456790125e-05, "loss": 0.3154, "step": 2043 }, { "epoch": 2.129166666666667, "grad_norm": 0.19738879374317084, "learning_rate": 1.6145833333333334e-05, "loss": 0.3202, "step": 2044 }, { "epoch": 2.1302083333333335, "grad_norm": 0.2192119587287551, "learning_rate": 1.6126543209876543e-05, "loss": 0.3659, "step": 2045 }, { "epoch": 2.13125, "grad_norm": 0.24018113936187507, "learning_rate": 1.6107253086419755e-05, "loss": 0.3731, "step": 2046 }, { "epoch": 2.1322916666666667, "grad_norm": 0.20849934191394484, "learning_rate": 1.6087962962962964e-05, "loss": 0.3215, "step": 2047 }, { "epoch": 2.1333333333333333, "grad_norm": 0.21585073931781878, "learning_rate": 1.6068672839506173e-05, "loss": 0.3767, "step": 2048 }, { "epoch": 2.134375, "grad_norm": 0.24444792207519295, "learning_rate": 1.604938271604938e-05, "loss": 0.373, "step": 2049 }, { "epoch": 2.1354166666666665, "grad_norm": 0.22234248040322138, "learning_rate": 1.6030092592592594e-05, "loss": 0.3927, "step": 2050 }, { "epoch": 2.136458333333333, "grad_norm": 0.2136359920333176, "learning_rate": 1.6010802469135803e-05, "loss": 0.3314, "step": 2051 }, { "epoch": 2.1375, "grad_norm": 0.20586521809091907, "learning_rate": 1.5991512345679015e-05, "loss": 0.3497, "step": 2052 }, { "epoch": 2.138541666666667, "grad_norm": 0.21227694681849965, "learning_rate": 1.597222222222222e-05, "loss": 0.3512, "step": 2053 }, { "epoch": 2.1395833333333334, "grad_norm": 0.21292425396670717, "learning_rate": 1.5952932098765433e-05, "loss": 0.3578, "step": 2054 }, { "epoch": 2.140625, "grad_norm": 0.2369938705026323, "learning_rate": 1.5933641975308645e-05, "loss": 0.3326, "step": 2055 }, { "epoch": 2.1416666666666666, "grad_norm": 0.22343238439270746, "learning_rate": 1.5914351851851854e-05, "loss": 0.3644, "step": 2056 }, { "epoch": 2.142708333333333, "grad_norm": 0.20427386050678598, "learning_rate": 1.5895061728395063e-05, "loss": 0.3463, "step": 2057 }, { "epoch": 2.14375, "grad_norm": 0.2037371484315845, "learning_rate": 1.587577160493827e-05, "loss": 0.3351, "step": 2058 }, { "epoch": 2.144791666666667, "grad_norm": 0.19882610566505635, "learning_rate": 1.5856481481481484e-05, "loss": 0.3395, "step": 2059 }, { "epoch": 2.1458333333333335, "grad_norm": 0.20583977884265522, "learning_rate": 1.5837191358024693e-05, "loss": 0.3693, "step": 2060 }, { "epoch": 2.146875, "grad_norm": 0.208636928109181, "learning_rate": 1.58179012345679e-05, "loss": 0.3495, "step": 2061 }, { "epoch": 2.1479166666666667, "grad_norm": 0.23373703701579618, "learning_rate": 1.579861111111111e-05, "loss": 0.3126, "step": 2062 }, { "epoch": 2.1489583333333333, "grad_norm": 0.21148083069790752, "learning_rate": 1.5779320987654323e-05, "loss": 0.3461, "step": 2063 }, { "epoch": 2.15, "grad_norm": 0.8314818101372964, "learning_rate": 1.576003086419753e-05, "loss": 0.4087, "step": 2064 }, { "epoch": 2.1510416666666665, "grad_norm": 0.19942215919302875, "learning_rate": 1.574074074074074e-05, "loss": 0.3261, "step": 2065 }, { "epoch": 2.152083333333333, "grad_norm": 0.2060065956004337, "learning_rate": 1.572145061728395e-05, "loss": 0.3403, "step": 2066 }, { "epoch": 2.153125, "grad_norm": 0.20574133611617104, "learning_rate": 1.570216049382716e-05, "loss": 0.3344, "step": 2067 }, { "epoch": 2.154166666666667, "grad_norm": 0.21055481194710923, "learning_rate": 1.568287037037037e-05, "loss": 0.3525, "step": 2068 }, { "epoch": 2.1552083333333334, "grad_norm": 14.185130985424777, "learning_rate": 1.5663580246913583e-05, "loss": 0.4833, "step": 2069 }, { "epoch": 2.15625, "grad_norm": 0.2080519938623231, "learning_rate": 1.5644290123456788e-05, "loss": 0.3391, "step": 2070 }, { "epoch": 2.1572916666666666, "grad_norm": 0.22177142567344643, "learning_rate": 1.5625e-05, "loss": 0.331, "step": 2071 }, { "epoch": 2.158333333333333, "grad_norm": 0.19221201465953172, "learning_rate": 1.5605709876543213e-05, "loss": 0.3033, "step": 2072 }, { "epoch": 2.159375, "grad_norm": 0.21935197395824216, "learning_rate": 1.558641975308642e-05, "loss": 0.3825, "step": 2073 }, { "epoch": 2.160416666666667, "grad_norm": 0.22077692290162532, "learning_rate": 1.556712962962963e-05, "loss": 0.363, "step": 2074 }, { "epoch": 2.1614583333333335, "grad_norm": 0.29585564800361486, "learning_rate": 1.554783950617284e-05, "loss": 0.3038, "step": 2075 }, { "epoch": 2.1625, "grad_norm": 0.23388635599986116, "learning_rate": 1.552854938271605e-05, "loss": 0.3812, "step": 2076 }, { "epoch": 2.1635416666666667, "grad_norm": 0.20000055947741519, "learning_rate": 1.550925925925926e-05, "loss": 0.3419, "step": 2077 }, { "epoch": 2.1645833333333333, "grad_norm": 0.20332357920468638, "learning_rate": 1.548996913580247e-05, "loss": 0.3163, "step": 2078 }, { "epoch": 2.165625, "grad_norm": 0.2160943186741091, "learning_rate": 1.5470679012345678e-05, "loss": 0.3467, "step": 2079 }, { "epoch": 2.1666666666666665, "grad_norm": 0.19577183794175215, "learning_rate": 1.545138888888889e-05, "loss": 0.304, "step": 2080 }, { "epoch": 2.167708333333333, "grad_norm": 0.19822547280393715, "learning_rate": 1.54320987654321e-05, "loss": 0.3198, "step": 2081 }, { "epoch": 2.16875, "grad_norm": 0.20209652272871473, "learning_rate": 1.541280864197531e-05, "loss": 0.3298, "step": 2082 }, { "epoch": 2.169791666666667, "grad_norm": 0.19194095372470676, "learning_rate": 1.5393518518518517e-05, "loss": 0.3205, "step": 2083 }, { "epoch": 2.1708333333333334, "grad_norm": 0.214572570698071, "learning_rate": 1.537422839506173e-05, "loss": 0.4065, "step": 2084 }, { "epoch": 2.171875, "grad_norm": 0.21480187917365984, "learning_rate": 1.5354938271604938e-05, "loss": 0.3934, "step": 2085 }, { "epoch": 2.1729166666666666, "grad_norm": 0.33488962605623296, "learning_rate": 1.533564814814815e-05, "loss": 0.3147, "step": 2086 }, { "epoch": 2.173958333333333, "grad_norm": 0.22410039996274983, "learning_rate": 1.5316358024691356e-05, "loss": 0.3616, "step": 2087 }, { "epoch": 2.175, "grad_norm": 0.2233153752399017, "learning_rate": 1.5297067901234568e-05, "loss": 0.3659, "step": 2088 }, { "epoch": 2.176041666666667, "grad_norm": 0.20207564563109184, "learning_rate": 1.527777777777778e-05, "loss": 0.3222, "step": 2089 }, { "epoch": 2.1770833333333335, "grad_norm": 0.20849090094131956, "learning_rate": 1.5258487654320987e-05, "loss": 0.33, "step": 2090 }, { "epoch": 2.178125, "grad_norm": 0.20628359240705932, "learning_rate": 1.52391975308642e-05, "loss": 0.332, "step": 2091 }, { "epoch": 2.1791666666666667, "grad_norm": 0.2028337794061924, "learning_rate": 1.5219907407407408e-05, "loss": 0.3389, "step": 2092 }, { "epoch": 2.1802083333333333, "grad_norm": 0.22937041195170288, "learning_rate": 1.5200617283950619e-05, "loss": 0.3637, "step": 2093 }, { "epoch": 2.18125, "grad_norm": 0.2073133088052175, "learning_rate": 1.5181327160493828e-05, "loss": 0.3483, "step": 2094 }, { "epoch": 2.1822916666666665, "grad_norm": 0.20449280618957524, "learning_rate": 1.5162037037037038e-05, "loss": 0.3095, "step": 2095 }, { "epoch": 2.183333333333333, "grad_norm": 0.21331804680898223, "learning_rate": 1.5142746913580247e-05, "loss": 0.3683, "step": 2096 }, { "epoch": 2.184375, "grad_norm": 0.21910449456458478, "learning_rate": 1.5123456790123458e-05, "loss": 0.3591, "step": 2097 }, { "epoch": 2.185416666666667, "grad_norm": 0.20487197588159028, "learning_rate": 1.5104166666666667e-05, "loss": 0.3194, "step": 2098 }, { "epoch": 2.1864583333333334, "grad_norm": 0.21897970962312882, "learning_rate": 1.5084876543209877e-05, "loss": 0.394, "step": 2099 }, { "epoch": 2.1875, "grad_norm": 0.21057830604238384, "learning_rate": 1.5065586419753086e-05, "loss": 0.3313, "step": 2100 }, { "epoch": 2.1885416666666666, "grad_norm": 0.2020180716004882, "learning_rate": 1.5046296296296297e-05, "loss": 0.3255, "step": 2101 }, { "epoch": 2.189583333333333, "grad_norm": 0.20076139744779742, "learning_rate": 1.5027006172839506e-05, "loss": 0.3187, "step": 2102 }, { "epoch": 2.190625, "grad_norm": 0.2201247995792603, "learning_rate": 1.5007716049382716e-05, "loss": 0.4012, "step": 2103 }, { "epoch": 2.191666666666667, "grad_norm": 0.20760814097503016, "learning_rate": 1.4988425925925928e-05, "loss": 0.3491, "step": 2104 }, { "epoch": 2.1927083333333335, "grad_norm": 0.192073710963551, "learning_rate": 1.4969135802469136e-05, "loss": 0.2936, "step": 2105 }, { "epoch": 2.19375, "grad_norm": 0.19963328624020735, "learning_rate": 1.4949845679012348e-05, "loss": 0.3294, "step": 2106 }, { "epoch": 2.1947916666666667, "grad_norm": 0.2019793001616716, "learning_rate": 1.4930555555555557e-05, "loss": 0.3547, "step": 2107 }, { "epoch": 2.1958333333333333, "grad_norm": 0.18989793130504504, "learning_rate": 1.4911265432098767e-05, "loss": 0.323, "step": 2108 }, { "epoch": 2.196875, "grad_norm": 0.2113926102243267, "learning_rate": 1.4891975308641976e-05, "loss": 0.315, "step": 2109 }, { "epoch": 2.1979166666666665, "grad_norm": 0.19458079395581665, "learning_rate": 1.4872685185185187e-05, "loss": 0.2938, "step": 2110 }, { "epoch": 2.198958333333333, "grad_norm": 0.21440252985181396, "learning_rate": 1.4853395061728396e-05, "loss": 0.3535, "step": 2111 }, { "epoch": 2.2, "grad_norm": 0.21028542396158867, "learning_rate": 1.4834104938271606e-05, "loss": 0.3656, "step": 2112 }, { "epoch": 2.201041666666667, "grad_norm": 0.20767884414555948, "learning_rate": 1.4814814814814815e-05, "loss": 0.3509, "step": 2113 }, { "epoch": 2.2020833333333334, "grad_norm": 0.22690232406384112, "learning_rate": 1.4795524691358026e-05, "loss": 0.3748, "step": 2114 }, { "epoch": 2.203125, "grad_norm": 0.20156051732862265, "learning_rate": 1.4776234567901234e-05, "loss": 0.3404, "step": 2115 }, { "epoch": 2.2041666666666666, "grad_norm": 0.22678069281980417, "learning_rate": 1.4756944444444445e-05, "loss": 0.3455, "step": 2116 }, { "epoch": 2.205208333333333, "grad_norm": 0.20232493259398387, "learning_rate": 1.4737654320987654e-05, "loss": 0.3255, "step": 2117 }, { "epoch": 2.20625, "grad_norm": 0.20579663215069235, "learning_rate": 1.4718364197530864e-05, "loss": 0.3726, "step": 2118 }, { "epoch": 2.207291666666667, "grad_norm": 0.19042431220853923, "learning_rate": 1.4699074074074073e-05, "loss": 0.3298, "step": 2119 }, { "epoch": 2.2083333333333335, "grad_norm": 0.20959412420283324, "learning_rate": 1.4679783950617284e-05, "loss": 0.3094, "step": 2120 }, { "epoch": 2.209375, "grad_norm": 0.19622646407730474, "learning_rate": 1.4660493827160496e-05, "loss": 0.3149, "step": 2121 }, { "epoch": 2.2104166666666667, "grad_norm": 0.2029918432322185, "learning_rate": 1.4641203703703705e-05, "loss": 0.358, "step": 2122 }, { "epoch": 2.2114583333333333, "grad_norm": 0.2080807910380613, "learning_rate": 1.4621913580246915e-05, "loss": 0.3701, "step": 2123 }, { "epoch": 2.2125, "grad_norm": 0.21330914199854092, "learning_rate": 1.4602623456790124e-05, "loss": 0.3986, "step": 2124 }, { "epoch": 2.2135416666666665, "grad_norm": 0.2017905911845077, "learning_rate": 1.4583333333333335e-05, "loss": 0.3482, "step": 2125 }, { "epoch": 2.214583333333333, "grad_norm": 0.21709657404814134, "learning_rate": 1.4564043209876544e-05, "loss": 0.3619, "step": 2126 }, { "epoch": 2.215625, "grad_norm": 0.21081497323695803, "learning_rate": 1.4544753086419754e-05, "loss": 0.3862, "step": 2127 }, { "epoch": 2.216666666666667, "grad_norm": 0.19909296350762673, "learning_rate": 1.4525462962962963e-05, "loss": 0.3421, "step": 2128 }, { "epoch": 2.2177083333333334, "grad_norm": 0.20311371078582027, "learning_rate": 1.4506172839506174e-05, "loss": 0.3055, "step": 2129 }, { "epoch": 2.21875, "grad_norm": 0.2104153650979975, "learning_rate": 1.4486882716049383e-05, "loss": 0.3891, "step": 2130 }, { "epoch": 2.2197916666666666, "grad_norm": 0.20810608802217992, "learning_rate": 1.4467592592592593e-05, "loss": 0.347, "step": 2131 }, { "epoch": 2.220833333333333, "grad_norm": 0.19483284227304679, "learning_rate": 1.4448302469135802e-05, "loss": 0.3168, "step": 2132 }, { "epoch": 2.221875, "grad_norm": 0.1999397326476685, "learning_rate": 1.4429012345679013e-05, "loss": 0.341, "step": 2133 }, { "epoch": 2.222916666666667, "grad_norm": 0.1929858188510565, "learning_rate": 1.4409722222222221e-05, "loss": 0.3188, "step": 2134 }, { "epoch": 2.2239583333333335, "grad_norm": 0.22300696887934116, "learning_rate": 1.4390432098765434e-05, "loss": 0.3836, "step": 2135 }, { "epoch": 2.225, "grad_norm": 0.2115784685056132, "learning_rate": 1.4371141975308644e-05, "loss": 0.3524, "step": 2136 }, { "epoch": 2.2260416666666667, "grad_norm": 0.22349209748609145, "learning_rate": 1.4351851851851853e-05, "loss": 0.3811, "step": 2137 }, { "epoch": 2.2270833333333333, "grad_norm": 0.21436691941168104, "learning_rate": 1.4332561728395064e-05, "loss": 0.3459, "step": 2138 }, { "epoch": 2.228125, "grad_norm": 0.20799990646503735, "learning_rate": 1.4313271604938273e-05, "loss": 0.3607, "step": 2139 }, { "epoch": 2.2291666666666665, "grad_norm": 0.19377550578227945, "learning_rate": 1.4293981481481483e-05, "loss": 0.3336, "step": 2140 }, { "epoch": 2.230208333333333, "grad_norm": 0.20653593561494188, "learning_rate": 1.4274691358024692e-05, "loss": 0.3117, "step": 2141 }, { "epoch": 2.23125, "grad_norm": 0.229643249129969, "learning_rate": 1.4255401234567903e-05, "loss": 0.3805, "step": 2142 }, { "epoch": 2.232291666666667, "grad_norm": 0.22479329357295397, "learning_rate": 1.4236111111111111e-05, "loss": 0.4003, "step": 2143 }, { "epoch": 2.2333333333333334, "grad_norm": 0.2032571466225109, "learning_rate": 1.4216820987654322e-05, "loss": 0.3351, "step": 2144 }, { "epoch": 2.234375, "grad_norm": 0.2100320477922714, "learning_rate": 1.419753086419753e-05, "loss": 0.3238, "step": 2145 }, { "epoch": 2.2354166666666666, "grad_norm": 0.2272580422770981, "learning_rate": 1.4178240740740741e-05, "loss": 0.3627, "step": 2146 }, { "epoch": 2.236458333333333, "grad_norm": 0.21533997654267992, "learning_rate": 1.415895061728395e-05, "loss": 0.3371, "step": 2147 }, { "epoch": 2.2375, "grad_norm": 0.20358232358768555, "learning_rate": 1.413966049382716e-05, "loss": 0.329, "step": 2148 }, { "epoch": 2.238541666666667, "grad_norm": 0.20802628979468865, "learning_rate": 1.412037037037037e-05, "loss": 0.3704, "step": 2149 }, { "epoch": 2.2395833333333335, "grad_norm": 0.1995458153680911, "learning_rate": 1.4101080246913582e-05, "loss": 0.3262, "step": 2150 }, { "epoch": 2.240625, "grad_norm": 0.19985161070014495, "learning_rate": 1.4081790123456789e-05, "loss": 0.3189, "step": 2151 }, { "epoch": 2.2416666666666667, "grad_norm": 0.2251521667050942, "learning_rate": 1.4062500000000001e-05, "loss": 0.4265, "step": 2152 }, { "epoch": 2.2427083333333333, "grad_norm": 0.20164304637966435, "learning_rate": 1.4043209876543212e-05, "loss": 0.3484, "step": 2153 }, { "epoch": 2.24375, "grad_norm": 0.20311168935153529, "learning_rate": 1.402391975308642e-05, "loss": 0.3594, "step": 2154 }, { "epoch": 2.2447916666666665, "grad_norm": 0.6111691197007109, "learning_rate": 1.4004629629629631e-05, "loss": 0.3786, "step": 2155 }, { "epoch": 2.245833333333333, "grad_norm": 0.21039876186029136, "learning_rate": 1.398533950617284e-05, "loss": 0.3402, "step": 2156 }, { "epoch": 2.246875, "grad_norm": 0.22934351109053547, "learning_rate": 1.396604938271605e-05, "loss": 0.3468, "step": 2157 }, { "epoch": 2.247916666666667, "grad_norm": 0.2103706314644691, "learning_rate": 1.394675925925926e-05, "loss": 0.3587, "step": 2158 }, { "epoch": 2.2489583333333334, "grad_norm": 0.19258365649585463, "learning_rate": 1.392746913580247e-05, "loss": 0.3104, "step": 2159 }, { "epoch": 2.25, "grad_norm": 0.21657634329142328, "learning_rate": 1.3908179012345679e-05, "loss": 0.3737, "step": 2160 }, { "epoch": 2.2510416666666666, "grad_norm": 0.20829830746144212, "learning_rate": 1.388888888888889e-05, "loss": 0.3121, "step": 2161 }, { "epoch": 2.252083333333333, "grad_norm": 0.23133014100905477, "learning_rate": 1.3869598765432098e-05, "loss": 0.4019, "step": 2162 }, { "epoch": 2.253125, "grad_norm": 0.22092527347650698, "learning_rate": 1.3850308641975309e-05, "loss": 0.4115, "step": 2163 }, { "epoch": 2.2541666666666664, "grad_norm": 0.1935380564421953, "learning_rate": 1.3831018518518518e-05, "loss": 0.3383, "step": 2164 }, { "epoch": 2.2552083333333335, "grad_norm": 0.21066145065296016, "learning_rate": 1.381172839506173e-05, "loss": 0.3332, "step": 2165 }, { "epoch": 2.25625, "grad_norm": 0.19258836193930687, "learning_rate": 1.3792438271604937e-05, "loss": 0.3106, "step": 2166 }, { "epoch": 2.2572916666666667, "grad_norm": 0.2020994860010223, "learning_rate": 1.377314814814815e-05, "loss": 0.3558, "step": 2167 }, { "epoch": 2.2583333333333333, "grad_norm": 0.19135994572581652, "learning_rate": 1.3753858024691357e-05, "loss": 0.2945, "step": 2168 }, { "epoch": 2.259375, "grad_norm": 0.2101240199618568, "learning_rate": 1.3734567901234569e-05, "loss": 0.3737, "step": 2169 }, { "epoch": 2.2604166666666665, "grad_norm": 0.20059503600436093, "learning_rate": 1.371527777777778e-05, "loss": 0.3331, "step": 2170 }, { "epoch": 2.2614583333333336, "grad_norm": 0.18554839738037854, "learning_rate": 1.3695987654320988e-05, "loss": 0.2962, "step": 2171 }, { "epoch": 2.2625, "grad_norm": 0.2020960752522531, "learning_rate": 1.3676697530864199e-05, "loss": 0.3166, "step": 2172 }, { "epoch": 2.263541666666667, "grad_norm": 0.1928245667397633, "learning_rate": 1.3657407407407408e-05, "loss": 0.3153, "step": 2173 }, { "epoch": 2.2645833333333334, "grad_norm": 0.201916676942235, "learning_rate": 1.3638117283950618e-05, "loss": 0.3262, "step": 2174 }, { "epoch": 2.265625, "grad_norm": 0.18349878152857518, "learning_rate": 1.3618827160493827e-05, "loss": 0.2834, "step": 2175 }, { "epoch": 2.2666666666666666, "grad_norm": 0.21068964035636306, "learning_rate": 1.3599537037037038e-05, "loss": 0.376, "step": 2176 }, { "epoch": 2.267708333333333, "grad_norm": 2.6213759014111173, "learning_rate": 1.3580246913580247e-05, "loss": 0.4964, "step": 2177 }, { "epoch": 2.26875, "grad_norm": 0.20181520290780736, "learning_rate": 1.3560956790123457e-05, "loss": 0.3321, "step": 2178 }, { "epoch": 2.2697916666666664, "grad_norm": 0.22203418535030411, "learning_rate": 1.3541666666666666e-05, "loss": 0.3697, "step": 2179 }, { "epoch": 2.2708333333333335, "grad_norm": 0.19523765122070807, "learning_rate": 1.3522376543209878e-05, "loss": 0.3048, "step": 2180 }, { "epoch": 2.271875, "grad_norm": 0.20823618278106806, "learning_rate": 1.3503086419753085e-05, "loss": 0.3225, "step": 2181 }, { "epoch": 2.2729166666666667, "grad_norm": 0.20698421227025138, "learning_rate": 1.3483796296296298e-05, "loss": 0.3626, "step": 2182 }, { "epoch": 2.2739583333333333, "grad_norm": 0.20881786358071064, "learning_rate": 1.3464506172839505e-05, "loss": 0.3491, "step": 2183 }, { "epoch": 2.275, "grad_norm": 0.19920079376129288, "learning_rate": 1.3445216049382717e-05, "loss": 0.37, "step": 2184 }, { "epoch": 2.2760416666666665, "grad_norm": 0.21247667138032494, "learning_rate": 1.3425925925925928e-05, "loss": 0.3767, "step": 2185 }, { "epoch": 2.2770833333333336, "grad_norm": 0.21675660842336308, "learning_rate": 1.3406635802469137e-05, "loss": 0.3845, "step": 2186 }, { "epoch": 2.278125, "grad_norm": 0.20488944163513323, "learning_rate": 1.3387345679012347e-05, "loss": 0.3208, "step": 2187 }, { "epoch": 2.279166666666667, "grad_norm": 0.21043306386853156, "learning_rate": 1.3368055555555556e-05, "loss": 0.3313, "step": 2188 }, { "epoch": 2.2802083333333334, "grad_norm": 0.24513621463525723, "learning_rate": 1.3348765432098767e-05, "loss": 0.3971, "step": 2189 }, { "epoch": 2.28125, "grad_norm": 0.2080103074109195, "learning_rate": 1.3329475308641975e-05, "loss": 0.3367, "step": 2190 }, { "epoch": 2.2822916666666666, "grad_norm": 0.22617432202240503, "learning_rate": 1.3310185185185186e-05, "loss": 0.3801, "step": 2191 }, { "epoch": 2.283333333333333, "grad_norm": 0.2262661918098061, "learning_rate": 1.3290895061728395e-05, "loss": 0.3286, "step": 2192 }, { "epoch": 2.284375, "grad_norm": 0.21965968892395127, "learning_rate": 1.3271604938271605e-05, "loss": 0.3045, "step": 2193 }, { "epoch": 2.2854166666666664, "grad_norm": 0.23322476746121873, "learning_rate": 1.3252314814814814e-05, "loss": 0.3284, "step": 2194 }, { "epoch": 2.2864583333333335, "grad_norm": 0.233610076837891, "learning_rate": 1.3233024691358027e-05, "loss": 0.3308, "step": 2195 }, { "epoch": 2.2875, "grad_norm": 0.21391072769681577, "learning_rate": 1.3213734567901234e-05, "loss": 0.3552, "step": 2196 }, { "epoch": 2.2885416666666667, "grad_norm": 0.19472199597471354, "learning_rate": 1.3194444444444446e-05, "loss": 0.3268, "step": 2197 }, { "epoch": 2.2895833333333333, "grad_norm": 0.21845905078677855, "learning_rate": 1.3175154320987653e-05, "loss": 0.3677, "step": 2198 }, { "epoch": 2.290625, "grad_norm": 0.21023117738641886, "learning_rate": 1.3155864197530865e-05, "loss": 0.3589, "step": 2199 }, { "epoch": 2.2916666666666665, "grad_norm": 0.198072453960509, "learning_rate": 1.3136574074074074e-05, "loss": 0.3451, "step": 2200 }, { "epoch": 2.2927083333333336, "grad_norm": 0.21637734647935214, "learning_rate": 1.3117283950617285e-05, "loss": 0.3174, "step": 2201 }, { "epoch": 2.29375, "grad_norm": 0.2046874644471912, "learning_rate": 1.3097993827160495e-05, "loss": 0.3306, "step": 2202 }, { "epoch": 2.294791666666667, "grad_norm": 0.22068955915982916, "learning_rate": 1.3078703703703704e-05, "loss": 0.3771, "step": 2203 }, { "epoch": 2.2958333333333334, "grad_norm": 0.22581875006341695, "learning_rate": 1.3059413580246915e-05, "loss": 0.3413, "step": 2204 }, { "epoch": 2.296875, "grad_norm": 0.20624772077788384, "learning_rate": 1.3040123456790124e-05, "loss": 0.3586, "step": 2205 }, { "epoch": 2.2979166666666666, "grad_norm": 0.1939691427078189, "learning_rate": 1.3020833333333334e-05, "loss": 0.3457, "step": 2206 }, { "epoch": 2.298958333333333, "grad_norm": 0.2381141967681518, "learning_rate": 1.3001543209876543e-05, "loss": 0.3237, "step": 2207 }, { "epoch": 2.3, "grad_norm": 0.22841902320821147, "learning_rate": 1.2982253086419755e-05, "loss": 0.3526, "step": 2208 }, { "epoch": 2.3010416666666664, "grad_norm": 0.20114754172784516, "learning_rate": 1.2962962962962962e-05, "loss": 0.3446, "step": 2209 }, { "epoch": 2.3020833333333335, "grad_norm": 0.2023495426804627, "learning_rate": 1.2943672839506175e-05, "loss": 0.3453, "step": 2210 }, { "epoch": 2.303125, "grad_norm": 0.1979103175695101, "learning_rate": 1.2924382716049382e-05, "loss": 0.295, "step": 2211 }, { "epoch": 2.3041666666666667, "grad_norm": 0.19727215109570456, "learning_rate": 1.2905092592592594e-05, "loss": 0.3256, "step": 2212 }, { "epoch": 2.3052083333333333, "grad_norm": 0.20364221458070106, "learning_rate": 1.2885802469135801e-05, "loss": 0.3299, "step": 2213 }, { "epoch": 2.30625, "grad_norm": 0.22561778880182656, "learning_rate": 1.2866512345679014e-05, "loss": 0.346, "step": 2214 }, { "epoch": 2.3072916666666665, "grad_norm": 0.20450070465821776, "learning_rate": 1.2847222222222222e-05, "loss": 0.3678, "step": 2215 }, { "epoch": 2.3083333333333336, "grad_norm": 0.2166381652344887, "learning_rate": 1.2827932098765433e-05, "loss": 0.3685, "step": 2216 }, { "epoch": 2.309375, "grad_norm": 0.2063952357949404, "learning_rate": 1.2808641975308644e-05, "loss": 0.3714, "step": 2217 }, { "epoch": 2.310416666666667, "grad_norm": 0.21925178861822575, "learning_rate": 1.2789351851851852e-05, "loss": 0.3733, "step": 2218 }, { "epoch": 2.3114583333333334, "grad_norm": 0.9325103676145166, "learning_rate": 1.2770061728395063e-05, "loss": 0.3521, "step": 2219 }, { "epoch": 2.3125, "grad_norm": 0.22343310685066683, "learning_rate": 1.2750771604938272e-05, "loss": 0.3748, "step": 2220 }, { "epoch": 2.3135416666666666, "grad_norm": 0.20880746772504824, "learning_rate": 1.2731481481481482e-05, "loss": 0.3629, "step": 2221 }, { "epoch": 2.314583333333333, "grad_norm": 0.2511582771656519, "learning_rate": 1.2712191358024691e-05, "loss": 0.3672, "step": 2222 }, { "epoch": 2.315625, "grad_norm": 0.2551881976689091, "learning_rate": 1.2692901234567903e-05, "loss": 0.3685, "step": 2223 }, { "epoch": 2.3166666666666664, "grad_norm": 0.22840517346909867, "learning_rate": 1.267361111111111e-05, "loss": 0.3654, "step": 2224 }, { "epoch": 2.3177083333333335, "grad_norm": 0.21221097065816244, "learning_rate": 1.2654320987654323e-05, "loss": 0.3631, "step": 2225 }, { "epoch": 2.31875, "grad_norm": 0.22250105587401783, "learning_rate": 1.263503086419753e-05, "loss": 0.3453, "step": 2226 }, { "epoch": 2.3197916666666667, "grad_norm": 0.22322575058581315, "learning_rate": 1.2615740740740742e-05, "loss": 0.3452, "step": 2227 }, { "epoch": 2.3208333333333333, "grad_norm": 0.20911637794804652, "learning_rate": 1.259645061728395e-05, "loss": 0.3651, "step": 2228 }, { "epoch": 2.321875, "grad_norm": 0.23129441205503967, "learning_rate": 1.2577160493827162e-05, "loss": 0.4416, "step": 2229 }, { "epoch": 2.3229166666666665, "grad_norm": 0.20539855755828257, "learning_rate": 1.255787037037037e-05, "loss": 0.3276, "step": 2230 }, { "epoch": 2.3239583333333336, "grad_norm": 0.22135310771955025, "learning_rate": 1.2538580246913581e-05, "loss": 0.3755, "step": 2231 }, { "epoch": 2.325, "grad_norm": 0.2115412618377152, "learning_rate": 1.251929012345679e-05, "loss": 0.3553, "step": 2232 }, { "epoch": 2.326041666666667, "grad_norm": 0.20907128653152224, "learning_rate": 1.25e-05, "loss": 0.3742, "step": 2233 }, { "epoch": 2.3270833333333334, "grad_norm": 0.20502991421488853, "learning_rate": 1.2480709876543211e-05, "loss": 0.3601, "step": 2234 }, { "epoch": 2.328125, "grad_norm": 0.19143877880443438, "learning_rate": 1.246141975308642e-05, "loss": 0.3242, "step": 2235 }, { "epoch": 2.3291666666666666, "grad_norm": 0.19696216325869, "learning_rate": 1.244212962962963e-05, "loss": 0.3024, "step": 2236 }, { "epoch": 2.330208333333333, "grad_norm": 0.22559396160515657, "learning_rate": 1.242283950617284e-05, "loss": 0.4138, "step": 2237 }, { "epoch": 2.33125, "grad_norm": 0.21454722379223104, "learning_rate": 1.240354938271605e-05, "loss": 0.4029, "step": 2238 }, { "epoch": 2.3322916666666664, "grad_norm": 0.20357861268498265, "learning_rate": 1.2384259259259259e-05, "loss": 0.3167, "step": 2239 }, { "epoch": 2.3333333333333335, "grad_norm": 0.18682897808556137, "learning_rate": 1.236496913580247e-05, "loss": 0.3183, "step": 2240 }, { "epoch": 2.334375, "grad_norm": 0.2172787046047606, "learning_rate": 1.2345679012345678e-05, "loss": 0.3648, "step": 2241 }, { "epoch": 2.3354166666666667, "grad_norm": 0.21380584433881866, "learning_rate": 1.232638888888889e-05, "loss": 0.3588, "step": 2242 }, { "epoch": 2.3364583333333333, "grad_norm": 0.19517043677547488, "learning_rate": 1.23070987654321e-05, "loss": 0.3328, "step": 2243 }, { "epoch": 2.3375, "grad_norm": 0.21495624637787372, "learning_rate": 1.228780864197531e-05, "loss": 0.3681, "step": 2244 }, { "epoch": 2.3385416666666665, "grad_norm": 0.19904151560181962, "learning_rate": 1.2268518518518519e-05, "loss": 0.334, "step": 2245 }, { "epoch": 2.3395833333333336, "grad_norm": 0.22870107434973772, "learning_rate": 1.224922839506173e-05, "loss": 0.376, "step": 2246 }, { "epoch": 2.340625, "grad_norm": 0.18600212991085452, "learning_rate": 1.2229938271604938e-05, "loss": 0.3058, "step": 2247 }, { "epoch": 2.341666666666667, "grad_norm": 0.1909506218519535, "learning_rate": 1.2210648148148149e-05, "loss": 0.3, "step": 2248 }, { "epoch": 2.3427083333333334, "grad_norm": 0.2014361903817526, "learning_rate": 1.219135802469136e-05, "loss": 0.3027, "step": 2249 }, { "epoch": 2.34375, "grad_norm": 0.28221417544888683, "learning_rate": 1.2172067901234568e-05, "loss": 0.293, "step": 2250 }, { "epoch": 2.3447916666666666, "grad_norm": 0.1953036808575241, "learning_rate": 1.2152777777777779e-05, "loss": 0.3416, "step": 2251 }, { "epoch": 2.345833333333333, "grad_norm": 0.20629325349592723, "learning_rate": 1.2133487654320988e-05, "loss": 0.3129, "step": 2252 }, { "epoch": 2.346875, "grad_norm": 0.19598139055715716, "learning_rate": 1.2114197530864198e-05, "loss": 0.3233, "step": 2253 }, { "epoch": 2.3479166666666664, "grad_norm": 0.20129139123023576, "learning_rate": 1.2094907407407407e-05, "loss": 0.3236, "step": 2254 }, { "epoch": 2.3489583333333335, "grad_norm": 0.1958688101488919, "learning_rate": 1.2075617283950618e-05, "loss": 0.3336, "step": 2255 }, { "epoch": 2.35, "grad_norm": 0.21209289683718532, "learning_rate": 1.2056327160493826e-05, "loss": 0.3584, "step": 2256 }, { "epoch": 2.3510416666666667, "grad_norm": 0.2041771674764223, "learning_rate": 1.2037037037037037e-05, "loss": 0.3452, "step": 2257 }, { "epoch": 2.3520833333333333, "grad_norm": 0.21093832043219002, "learning_rate": 1.2017746913580248e-05, "loss": 0.3449, "step": 2258 }, { "epoch": 2.353125, "grad_norm": 0.2111743812382352, "learning_rate": 1.1998456790123458e-05, "loss": 0.3114, "step": 2259 }, { "epoch": 2.3541666666666665, "grad_norm": 0.21636540558865003, "learning_rate": 1.1979166666666667e-05, "loss": 0.3594, "step": 2260 }, { "epoch": 2.3552083333333336, "grad_norm": 0.1994731355873162, "learning_rate": 1.1959876543209878e-05, "loss": 0.3661, "step": 2261 }, { "epoch": 2.35625, "grad_norm": 3.9217149310616572, "learning_rate": 1.1940586419753086e-05, "loss": 0.5189, "step": 2262 }, { "epoch": 2.357291666666667, "grad_norm": 0.22751045924099206, "learning_rate": 1.1921296296296297e-05, "loss": 0.3412, "step": 2263 }, { "epoch": 2.3583333333333334, "grad_norm": 0.21980777546338548, "learning_rate": 1.1902006172839508e-05, "loss": 0.3798, "step": 2264 }, { "epoch": 2.359375, "grad_norm": 0.20599567790488868, "learning_rate": 1.1882716049382716e-05, "loss": 0.3383, "step": 2265 }, { "epoch": 2.3604166666666666, "grad_norm": 0.2057127105633444, "learning_rate": 1.1863425925925927e-05, "loss": 0.3319, "step": 2266 }, { "epoch": 2.361458333333333, "grad_norm": 0.20807918615863188, "learning_rate": 1.1844135802469136e-05, "loss": 0.3453, "step": 2267 }, { "epoch": 2.3625, "grad_norm": 0.20159229124832415, "learning_rate": 1.1824845679012346e-05, "loss": 0.3133, "step": 2268 }, { "epoch": 2.3635416666666664, "grad_norm": 0.1945773330361947, "learning_rate": 1.1805555555555555e-05, "loss": 0.3063, "step": 2269 }, { "epoch": 2.3645833333333335, "grad_norm": 0.19578915195027174, "learning_rate": 1.1786265432098766e-05, "loss": 0.3322, "step": 2270 }, { "epoch": 2.365625, "grad_norm": 0.1969970600079458, "learning_rate": 1.1766975308641975e-05, "loss": 0.3601, "step": 2271 }, { "epoch": 2.3666666666666667, "grad_norm": 0.19403974588451964, "learning_rate": 1.1747685185185185e-05, "loss": 0.3222, "step": 2272 }, { "epoch": 2.3677083333333333, "grad_norm": 0.1975974891556369, "learning_rate": 1.1728395061728396e-05, "loss": 0.3112, "step": 2273 }, { "epoch": 2.36875, "grad_norm": 0.208203042039826, "learning_rate": 1.1709104938271606e-05, "loss": 0.373, "step": 2274 }, { "epoch": 2.3697916666666665, "grad_norm": 0.2077098763541912, "learning_rate": 1.1689814814814815e-05, "loss": 0.3731, "step": 2275 }, { "epoch": 2.3708333333333336, "grad_norm": 0.20328441334437278, "learning_rate": 1.1670524691358026e-05, "loss": 0.3472, "step": 2276 }, { "epoch": 2.371875, "grad_norm": 0.2033044809170689, "learning_rate": 1.1651234567901236e-05, "loss": 0.3614, "step": 2277 }, { "epoch": 2.372916666666667, "grad_norm": 0.19886526815492978, "learning_rate": 1.1631944444444445e-05, "loss": 0.3289, "step": 2278 }, { "epoch": 2.3739583333333334, "grad_norm": 0.20953767522356936, "learning_rate": 1.1612654320987656e-05, "loss": 0.3382, "step": 2279 }, { "epoch": 2.375, "grad_norm": 0.21284546710673544, "learning_rate": 1.1593364197530865e-05, "loss": 0.3747, "step": 2280 }, { "epoch": 2.3760416666666666, "grad_norm": 0.1932272577490094, "learning_rate": 1.1574074074074075e-05, "loss": 0.3309, "step": 2281 }, { "epoch": 2.377083333333333, "grad_norm": 0.2042133931393551, "learning_rate": 1.1554783950617284e-05, "loss": 0.3127, "step": 2282 }, { "epoch": 2.378125, "grad_norm": 0.19808414535832766, "learning_rate": 1.1535493827160495e-05, "loss": 0.2975, "step": 2283 }, { "epoch": 2.3791666666666664, "grad_norm": 0.20049479846143448, "learning_rate": 1.1516203703703703e-05, "loss": 0.3387, "step": 2284 }, { "epoch": 2.3802083333333335, "grad_norm": 0.21672580848112868, "learning_rate": 1.1496913580246914e-05, "loss": 0.3494, "step": 2285 }, { "epoch": 2.38125, "grad_norm": 0.1836622995395707, "learning_rate": 1.1477623456790123e-05, "loss": 0.2889, "step": 2286 }, { "epoch": 2.3822916666666667, "grad_norm": 0.20791752793508364, "learning_rate": 1.1458333333333333e-05, "loss": 0.3488, "step": 2287 }, { "epoch": 2.3833333333333333, "grad_norm": 0.21955521824498672, "learning_rate": 1.1439043209876544e-05, "loss": 0.3308, "step": 2288 }, { "epoch": 2.384375, "grad_norm": 0.2058180125981403, "learning_rate": 1.1419753086419753e-05, "loss": 0.3249, "step": 2289 }, { "epoch": 2.3854166666666665, "grad_norm": 0.2127387104186494, "learning_rate": 1.1400462962962963e-05, "loss": 0.371, "step": 2290 }, { "epoch": 2.3864583333333336, "grad_norm": 0.2059511591945423, "learning_rate": 1.1381172839506174e-05, "loss": 0.3392, "step": 2291 }, { "epoch": 2.3875, "grad_norm": 0.19140810027877964, "learning_rate": 1.1361882716049385e-05, "loss": 0.3246, "step": 2292 }, { "epoch": 2.388541666666667, "grad_norm": 0.1933495062993176, "learning_rate": 1.1342592592592593e-05, "loss": 0.3036, "step": 2293 }, { "epoch": 2.3895833333333334, "grad_norm": 0.1997466116349067, "learning_rate": 1.1323302469135804e-05, "loss": 0.3297, "step": 2294 }, { "epoch": 2.390625, "grad_norm": 0.19318406412550712, "learning_rate": 1.1304012345679013e-05, "loss": 0.3266, "step": 2295 }, { "epoch": 2.3916666666666666, "grad_norm": 0.2124810474919185, "learning_rate": 1.1284722222222223e-05, "loss": 0.3264, "step": 2296 }, { "epoch": 2.392708333333333, "grad_norm": 0.20150363322180306, "learning_rate": 1.1265432098765432e-05, "loss": 0.3549, "step": 2297 }, { "epoch": 2.39375, "grad_norm": 0.19224165585076333, "learning_rate": 1.1246141975308643e-05, "loss": 0.3111, "step": 2298 }, { "epoch": 2.3947916666666664, "grad_norm": 0.21114823323255566, "learning_rate": 1.1226851851851852e-05, "loss": 0.3504, "step": 2299 }, { "epoch": 2.3958333333333335, "grad_norm": 0.20206355424128813, "learning_rate": 1.1207561728395062e-05, "loss": 0.3305, "step": 2300 }, { "epoch": 2.396875, "grad_norm": 0.23165208245152522, "learning_rate": 1.1188271604938271e-05, "loss": 0.3461, "step": 2301 }, { "epoch": 2.3979166666666667, "grad_norm": 0.2067205711504292, "learning_rate": 1.1168981481481482e-05, "loss": 0.3511, "step": 2302 }, { "epoch": 2.3989583333333333, "grad_norm": 0.19435005841934913, "learning_rate": 1.1149691358024692e-05, "loss": 0.3352, "step": 2303 }, { "epoch": 2.4, "grad_norm": 0.195925515036481, "learning_rate": 1.1130401234567901e-05, "loss": 0.3142, "step": 2304 }, { "epoch": 2.4010416666666665, "grad_norm": 0.2017483939510904, "learning_rate": 1.1111111111111112e-05, "loss": 0.3547, "step": 2305 }, { "epoch": 2.4020833333333336, "grad_norm": 0.2084028622578707, "learning_rate": 1.1091820987654322e-05, "loss": 0.3156, "step": 2306 }, { "epoch": 2.403125, "grad_norm": 0.2245893485563292, "learning_rate": 1.1072530864197533e-05, "loss": 0.3262, "step": 2307 }, { "epoch": 2.404166666666667, "grad_norm": 0.21643959217618863, "learning_rate": 1.1053240740740742e-05, "loss": 0.4023, "step": 2308 }, { "epoch": 2.4052083333333334, "grad_norm": 0.2134808862309374, "learning_rate": 1.1033950617283952e-05, "loss": 0.3469, "step": 2309 }, { "epoch": 2.40625, "grad_norm": 0.2289823571697657, "learning_rate": 1.1014660493827161e-05, "loss": 0.3536, "step": 2310 }, { "epoch": 2.4072916666666666, "grad_norm": 0.19625871708230735, "learning_rate": 1.0995370370370372e-05, "loss": 0.2919, "step": 2311 }, { "epoch": 2.408333333333333, "grad_norm": 0.20251171388055422, "learning_rate": 1.097608024691358e-05, "loss": 0.3579, "step": 2312 }, { "epoch": 2.409375, "grad_norm": 0.19288665779374395, "learning_rate": 1.0956790123456791e-05, "loss": 0.3102, "step": 2313 }, { "epoch": 2.4104166666666664, "grad_norm": 0.21084529524932102, "learning_rate": 1.09375e-05, "loss": 0.3418, "step": 2314 }, { "epoch": 2.4114583333333335, "grad_norm": 0.19072237737797076, "learning_rate": 1.091820987654321e-05, "loss": 0.3183, "step": 2315 }, { "epoch": 2.4125, "grad_norm": 0.19795877641418347, "learning_rate": 1.089891975308642e-05, "loss": 0.3631, "step": 2316 }, { "epoch": 2.4135416666666667, "grad_norm": 0.2017221928405132, "learning_rate": 1.087962962962963e-05, "loss": 0.3561, "step": 2317 }, { "epoch": 2.4145833333333333, "grad_norm": 0.20006469801580132, "learning_rate": 1.086033950617284e-05, "loss": 0.3496, "step": 2318 }, { "epoch": 2.415625, "grad_norm": 0.23894526534289942, "learning_rate": 1.084104938271605e-05, "loss": 0.3571, "step": 2319 }, { "epoch": 2.4166666666666665, "grad_norm": 0.2006735235263318, "learning_rate": 1.082175925925926e-05, "loss": 0.3797, "step": 2320 }, { "epoch": 2.4177083333333336, "grad_norm": 0.19989279247136854, "learning_rate": 1.0802469135802469e-05, "loss": 0.3448, "step": 2321 }, { "epoch": 2.41875, "grad_norm": 0.18420448123332936, "learning_rate": 1.078317901234568e-05, "loss": 0.3049, "step": 2322 }, { "epoch": 2.419791666666667, "grad_norm": 0.19576895514367618, "learning_rate": 1.076388888888889e-05, "loss": 0.375, "step": 2323 }, { "epoch": 2.4208333333333334, "grad_norm": 0.2011048567485623, "learning_rate": 1.07445987654321e-05, "loss": 0.3621, "step": 2324 }, { "epoch": 2.421875, "grad_norm": 3.0624744447594, "learning_rate": 1.072530864197531e-05, "loss": 0.5016, "step": 2325 }, { "epoch": 2.4229166666666666, "grad_norm": 0.203573973195367, "learning_rate": 1.070601851851852e-05, "loss": 0.3397, "step": 2326 }, { "epoch": 2.423958333333333, "grad_norm": 0.1973449653824104, "learning_rate": 1.0686728395061729e-05, "loss": 0.3186, "step": 2327 }, { "epoch": 2.425, "grad_norm": 0.19610872758769024, "learning_rate": 1.066743827160494e-05, "loss": 0.3159, "step": 2328 }, { "epoch": 2.4260416666666664, "grad_norm": 0.1976200755635208, "learning_rate": 1.0648148148148148e-05, "loss": 0.3554, "step": 2329 }, { "epoch": 2.4270833333333335, "grad_norm": 0.1990166259606746, "learning_rate": 1.0628858024691359e-05, "loss": 0.3792, "step": 2330 }, { "epoch": 2.428125, "grad_norm": 0.19092646868554766, "learning_rate": 1.0609567901234568e-05, "loss": 0.3176, "step": 2331 }, { "epoch": 2.4291666666666667, "grad_norm": 0.19924975317965232, "learning_rate": 1.0590277777777778e-05, "loss": 0.3395, "step": 2332 }, { "epoch": 2.4302083333333333, "grad_norm": 0.2062625764629326, "learning_rate": 1.0570987654320989e-05, "loss": 0.3749, "step": 2333 }, { "epoch": 2.43125, "grad_norm": 0.20679710335347629, "learning_rate": 1.0551697530864197e-05, "loss": 0.3452, "step": 2334 }, { "epoch": 2.4322916666666665, "grad_norm": 0.21092777203741145, "learning_rate": 1.0532407407407408e-05, "loss": 0.374, "step": 2335 }, { "epoch": 2.4333333333333336, "grad_norm": 0.1909250880526523, "learning_rate": 1.0513117283950617e-05, "loss": 0.3214, "step": 2336 }, { "epoch": 2.434375, "grad_norm": 0.2141120704683447, "learning_rate": 1.0493827160493827e-05, "loss": 0.373, "step": 2337 }, { "epoch": 2.435416666666667, "grad_norm": 0.1906409446023944, "learning_rate": 1.0474537037037036e-05, "loss": 0.317, "step": 2338 }, { "epoch": 2.4364583333333334, "grad_norm": 0.1995567185247091, "learning_rate": 1.0455246913580249e-05, "loss": 0.3567, "step": 2339 }, { "epoch": 2.4375, "grad_norm": 0.19465887518972197, "learning_rate": 1.0435956790123457e-05, "loss": 0.3572, "step": 2340 }, { "epoch": 2.4385416666666666, "grad_norm": 0.19807649199045843, "learning_rate": 1.0416666666666668e-05, "loss": 0.3586, "step": 2341 }, { "epoch": 2.439583333333333, "grad_norm": 0.2001027809887639, "learning_rate": 1.0397376543209877e-05, "loss": 0.3552, "step": 2342 }, { "epoch": 2.440625, "grad_norm": 0.19867295115182523, "learning_rate": 1.0378086419753087e-05, "loss": 0.372, "step": 2343 }, { "epoch": 2.4416666666666664, "grad_norm": 0.2525669313302649, "learning_rate": 1.0358796296296296e-05, "loss": 0.3566, "step": 2344 }, { "epoch": 2.4427083333333335, "grad_norm": 0.1924096110087075, "learning_rate": 1.0339506172839507e-05, "loss": 0.3351, "step": 2345 }, { "epoch": 2.44375, "grad_norm": 0.21132677163126315, "learning_rate": 1.0320216049382717e-05, "loss": 0.3652, "step": 2346 }, { "epoch": 2.4447916666666667, "grad_norm": 0.22339078684963803, "learning_rate": 1.0300925925925926e-05, "loss": 0.3366, "step": 2347 }, { "epoch": 2.4458333333333333, "grad_norm": 0.21181542965223513, "learning_rate": 1.0281635802469137e-05, "loss": 0.3698, "step": 2348 }, { "epoch": 2.446875, "grad_norm": 0.22392326261298373, "learning_rate": 1.0262345679012346e-05, "loss": 0.3905, "step": 2349 }, { "epoch": 2.4479166666666665, "grad_norm": 0.22627367260658726, "learning_rate": 1.0243055555555556e-05, "loss": 0.3697, "step": 2350 }, { "epoch": 2.4489583333333336, "grad_norm": 0.20048987838017981, "learning_rate": 1.0223765432098765e-05, "loss": 0.3821, "step": 2351 }, { "epoch": 2.45, "grad_norm": 0.19929931769638493, "learning_rate": 1.0204475308641976e-05, "loss": 0.3518, "step": 2352 }, { "epoch": 2.451041666666667, "grad_norm": 0.20427186861489585, "learning_rate": 1.0185185185185185e-05, "loss": 0.397, "step": 2353 }, { "epoch": 2.4520833333333334, "grad_norm": 0.2178418961663027, "learning_rate": 1.0165895061728395e-05, "loss": 0.3673, "step": 2354 }, { "epoch": 2.453125, "grad_norm": 0.20013516270476014, "learning_rate": 1.0146604938271606e-05, "loss": 0.3652, "step": 2355 }, { "epoch": 2.4541666666666666, "grad_norm": 2.099893659837857, "learning_rate": 1.0127314814814816e-05, "loss": 0.3716, "step": 2356 }, { "epoch": 2.455208333333333, "grad_norm": 0.20859853865854525, "learning_rate": 1.0108024691358025e-05, "loss": 0.3413, "step": 2357 }, { "epoch": 2.45625, "grad_norm": 0.19239016760303412, "learning_rate": 1.0088734567901236e-05, "loss": 0.3214, "step": 2358 }, { "epoch": 2.4572916666666664, "grad_norm": 0.19924711758091584, "learning_rate": 1.0069444444444445e-05, "loss": 0.3397, "step": 2359 }, { "epoch": 2.4583333333333335, "grad_norm": 0.1944436441728179, "learning_rate": 1.0050154320987655e-05, "loss": 0.3263, "step": 2360 }, { "epoch": 2.459375, "grad_norm": 0.19610839750811077, "learning_rate": 1.0030864197530866e-05, "loss": 0.3213, "step": 2361 }, { "epoch": 2.4604166666666667, "grad_norm": 0.203958387232331, "learning_rate": 1.0011574074074074e-05, "loss": 0.3577, "step": 2362 }, { "epoch": 2.4614583333333333, "grad_norm": 0.2152819705844164, "learning_rate": 9.992283950617285e-06, "loss": 0.381, "step": 2363 }, { "epoch": 2.4625, "grad_norm": 0.20280733999300624, "learning_rate": 9.972993827160494e-06, "loss": 0.3809, "step": 2364 }, { "epoch": 2.4635416666666665, "grad_norm": 0.21134781005332445, "learning_rate": 9.953703703703704e-06, "loss": 0.3509, "step": 2365 }, { "epoch": 2.4645833333333336, "grad_norm": 0.19531182290726395, "learning_rate": 9.934413580246913e-06, "loss": 0.3683, "step": 2366 }, { "epoch": 2.465625, "grad_norm": 0.19453108092954016, "learning_rate": 9.915123456790124e-06, "loss": 0.325, "step": 2367 }, { "epoch": 2.466666666666667, "grad_norm": 0.20838909512040202, "learning_rate": 9.895833333333333e-06, "loss": 0.3631, "step": 2368 }, { "epoch": 2.4677083333333334, "grad_norm": 0.202648565811591, "learning_rate": 9.876543209876543e-06, "loss": 0.3406, "step": 2369 }, { "epoch": 2.46875, "grad_norm": 0.21267408974485122, "learning_rate": 9.857253086419752e-06, "loss": 0.3724, "step": 2370 }, { "epoch": 2.4697916666666666, "grad_norm": 0.1994894933953189, "learning_rate": 9.837962962962964e-06, "loss": 0.3056, "step": 2371 }, { "epoch": 2.470833333333333, "grad_norm": 3.7957617562151533, "learning_rate": 9.818672839506173e-06, "loss": 0.4801, "step": 2372 }, { "epoch": 2.471875, "grad_norm": 0.2008446822930933, "learning_rate": 9.799382716049384e-06, "loss": 0.3361, "step": 2373 }, { "epoch": 2.4729166666666664, "grad_norm": 0.2086846582175469, "learning_rate": 9.780092592592593e-06, "loss": 0.3358, "step": 2374 }, { "epoch": 2.4739583333333335, "grad_norm": 0.2086139918583219, "learning_rate": 9.760802469135803e-06, "loss": 0.372, "step": 2375 }, { "epoch": 2.475, "grad_norm": 0.19300851441025635, "learning_rate": 9.741512345679014e-06, "loss": 0.329, "step": 2376 }, { "epoch": 2.4760416666666667, "grad_norm": 0.21111085930032247, "learning_rate": 9.722222222222223e-06, "loss": 0.3687, "step": 2377 }, { "epoch": 2.4770833333333333, "grad_norm": 0.20584917193497398, "learning_rate": 9.702932098765433e-06, "loss": 0.3486, "step": 2378 }, { "epoch": 2.478125, "grad_norm": 0.2080162554503133, "learning_rate": 9.683641975308642e-06, "loss": 0.3552, "step": 2379 }, { "epoch": 2.4791666666666665, "grad_norm": 0.2029562141877994, "learning_rate": 9.664351851851853e-06, "loss": 0.3419, "step": 2380 }, { "epoch": 2.4802083333333336, "grad_norm": 0.23059346979528392, "learning_rate": 9.645061728395062e-06, "loss": 0.4032, "step": 2381 }, { "epoch": 2.48125, "grad_norm": 0.18618580051981978, "learning_rate": 9.625771604938272e-06, "loss": 0.3282, "step": 2382 }, { "epoch": 2.482291666666667, "grad_norm": 0.20663144798217256, "learning_rate": 9.606481481481481e-06, "loss": 0.3801, "step": 2383 }, { "epoch": 2.4833333333333334, "grad_norm": 0.19825128778350257, "learning_rate": 9.587191358024692e-06, "loss": 0.3417, "step": 2384 }, { "epoch": 2.484375, "grad_norm": 0.1952747984024482, "learning_rate": 9.5679012345679e-06, "loss": 0.3501, "step": 2385 }, { "epoch": 2.4854166666666666, "grad_norm": 0.1872719255200267, "learning_rate": 9.548611111111111e-06, "loss": 0.3157, "step": 2386 }, { "epoch": 2.486458333333333, "grad_norm": 0.21389304615543772, "learning_rate": 9.529320987654321e-06, "loss": 0.3606, "step": 2387 }, { "epoch": 2.4875, "grad_norm": 0.1904203840747185, "learning_rate": 9.510030864197532e-06, "loss": 0.3101, "step": 2388 }, { "epoch": 2.4885416666666664, "grad_norm": 0.1947837052164091, "learning_rate": 9.490740740740741e-06, "loss": 0.3217, "step": 2389 }, { "epoch": 2.4895833333333335, "grad_norm": 0.2058238422573661, "learning_rate": 9.471450617283951e-06, "loss": 0.367, "step": 2390 }, { "epoch": 2.490625, "grad_norm": 0.1955562707237786, "learning_rate": 9.452160493827162e-06, "loss": 0.3251, "step": 2391 }, { "epoch": 2.4916666666666667, "grad_norm": 0.21351728523793684, "learning_rate": 9.432870370370371e-06, "loss": 0.3511, "step": 2392 }, { "epoch": 2.4927083333333333, "grad_norm": 0.19570773196890384, "learning_rate": 9.413580246913581e-06, "loss": 0.3682, "step": 2393 }, { "epoch": 2.49375, "grad_norm": 0.20011777332526456, "learning_rate": 9.39429012345679e-06, "loss": 0.3241, "step": 2394 }, { "epoch": 2.4947916666666665, "grad_norm": 0.19931758609506173, "learning_rate": 9.375000000000001e-06, "loss": 0.3403, "step": 2395 }, { "epoch": 2.4958333333333336, "grad_norm": 0.1970461823107713, "learning_rate": 9.35570987654321e-06, "loss": 0.3413, "step": 2396 }, { "epoch": 2.496875, "grad_norm": 0.20137168130616603, "learning_rate": 9.33641975308642e-06, "loss": 0.3397, "step": 2397 }, { "epoch": 2.497916666666667, "grad_norm": 0.1974058468467243, "learning_rate": 9.31712962962963e-06, "loss": 0.3169, "step": 2398 }, { "epoch": 2.4989583333333334, "grad_norm": 0.20146959129603456, "learning_rate": 9.29783950617284e-06, "loss": 0.3342, "step": 2399 }, { "epoch": 2.5, "grad_norm": 0.19063332917931122, "learning_rate": 9.278549382716049e-06, "loss": 0.3156, "step": 2400 }, { "epoch": 2.5010416666666666, "grad_norm": 0.3309404361640416, "learning_rate": 9.259259259259259e-06, "loss": 0.3352, "step": 2401 }, { "epoch": 2.502083333333333, "grad_norm": 0.20804418684372977, "learning_rate": 9.23996913580247e-06, "loss": 0.3961, "step": 2402 }, { "epoch": 2.503125, "grad_norm": 0.19584353585485656, "learning_rate": 9.220679012345679e-06, "loss": 0.3232, "step": 2403 }, { "epoch": 2.5041666666666664, "grad_norm": 0.2031435104302029, "learning_rate": 9.201388888888889e-06, "loss": 0.3508, "step": 2404 }, { "epoch": 2.5052083333333335, "grad_norm": 0.18999768159700378, "learning_rate": 9.1820987654321e-06, "loss": 0.3108, "step": 2405 }, { "epoch": 2.50625, "grad_norm": 0.20208468385375575, "learning_rate": 9.16280864197531e-06, "loss": 0.3468, "step": 2406 }, { "epoch": 2.5072916666666667, "grad_norm": 0.19119234911762253, "learning_rate": 9.143518518518519e-06, "loss": 0.3337, "step": 2407 }, { "epoch": 2.5083333333333333, "grad_norm": 0.1916091420801952, "learning_rate": 9.12422839506173e-06, "loss": 0.3493, "step": 2408 }, { "epoch": 2.509375, "grad_norm": 0.19662743366281257, "learning_rate": 9.104938271604939e-06, "loss": 0.3398, "step": 2409 }, { "epoch": 2.5104166666666665, "grad_norm": 0.1995207412519948, "learning_rate": 9.085648148148149e-06, "loss": 0.3239, "step": 2410 }, { "epoch": 2.5114583333333336, "grad_norm": 0.18824232820756193, "learning_rate": 9.066358024691358e-06, "loss": 0.3269, "step": 2411 }, { "epoch": 2.5125, "grad_norm": 0.19384013354968496, "learning_rate": 9.047067901234568e-06, "loss": 0.3387, "step": 2412 }, { "epoch": 2.513541666666667, "grad_norm": 0.20156908575264082, "learning_rate": 9.027777777777777e-06, "loss": 0.3875, "step": 2413 }, { "epoch": 2.5145833333333334, "grad_norm": 0.20166870180260782, "learning_rate": 9.008487654320988e-06, "loss": 0.3425, "step": 2414 }, { "epoch": 2.515625, "grad_norm": 0.2036325426862573, "learning_rate": 8.989197530864198e-06, "loss": 0.3705, "step": 2415 }, { "epoch": 2.5166666666666666, "grad_norm": 0.1831616948985829, "learning_rate": 8.969907407407407e-06, "loss": 0.3088, "step": 2416 }, { "epoch": 2.517708333333333, "grad_norm": 0.19567993248647952, "learning_rate": 8.950617283950618e-06, "loss": 0.3428, "step": 2417 }, { "epoch": 2.51875, "grad_norm": 0.197518417484507, "learning_rate": 8.931327160493827e-06, "loss": 0.3228, "step": 2418 }, { "epoch": 2.5197916666666664, "grad_norm": 0.21214479003654924, "learning_rate": 8.912037037037037e-06, "loss": 0.3454, "step": 2419 }, { "epoch": 2.5208333333333335, "grad_norm": 0.20875932545509793, "learning_rate": 8.892746913580248e-06, "loss": 0.3467, "step": 2420 }, { "epoch": 2.521875, "grad_norm": 0.20846097965085025, "learning_rate": 8.873456790123458e-06, "loss": 0.3703, "step": 2421 }, { "epoch": 2.5229166666666667, "grad_norm": 0.1924094345761001, "learning_rate": 8.854166666666667e-06, "loss": 0.3346, "step": 2422 }, { "epoch": 2.5239583333333333, "grad_norm": 0.1906686297025968, "learning_rate": 8.834876543209878e-06, "loss": 0.3253, "step": 2423 }, { "epoch": 2.525, "grad_norm": 0.20524519100979594, "learning_rate": 8.815586419753087e-06, "loss": 0.357, "step": 2424 }, { "epoch": 2.5260416666666665, "grad_norm": 0.22514327667583955, "learning_rate": 8.796296296296297e-06, "loss": 0.2945, "step": 2425 }, { "epoch": 2.5270833333333336, "grad_norm": 0.22524796063826802, "learning_rate": 8.777006172839506e-06, "loss": 0.3404, "step": 2426 }, { "epoch": 2.528125, "grad_norm": 0.20368252616783195, "learning_rate": 8.757716049382717e-06, "loss": 0.336, "step": 2427 }, { "epoch": 2.529166666666667, "grad_norm": 0.20212571701505158, "learning_rate": 8.738425925925926e-06, "loss": 0.374, "step": 2428 }, { "epoch": 2.5302083333333334, "grad_norm": 0.20437574483806223, "learning_rate": 8.719135802469136e-06, "loss": 0.3369, "step": 2429 }, { "epoch": 2.53125, "grad_norm": 0.19644381910989928, "learning_rate": 8.699845679012347e-06, "loss": 0.3231, "step": 2430 }, { "epoch": 2.5322916666666666, "grad_norm": 0.20362535935453235, "learning_rate": 8.680555555555556e-06, "loss": 0.3348, "step": 2431 }, { "epoch": 2.533333333333333, "grad_norm": 0.1991547982077529, "learning_rate": 8.661265432098766e-06, "loss": 0.3678, "step": 2432 }, { "epoch": 2.534375, "grad_norm": 0.21366935727307645, "learning_rate": 8.641975308641975e-06, "loss": 0.3367, "step": 2433 }, { "epoch": 2.5354166666666664, "grad_norm": 0.7532161654635389, "learning_rate": 8.622685185185186e-06, "loss": 0.3657, "step": 2434 }, { "epoch": 2.5364583333333335, "grad_norm": 0.19845733444081826, "learning_rate": 8.603395061728394e-06, "loss": 0.3233, "step": 2435 }, { "epoch": 2.5375, "grad_norm": 0.20257322690133697, "learning_rate": 8.584104938271607e-06, "loss": 0.3471, "step": 2436 }, { "epoch": 2.5385416666666667, "grad_norm": 0.22089208619896966, "learning_rate": 8.564814814814816e-06, "loss": 0.3883, "step": 2437 }, { "epoch": 2.5395833333333333, "grad_norm": 0.2361996742122189, "learning_rate": 8.545524691358026e-06, "loss": 0.3747, "step": 2438 }, { "epoch": 2.540625, "grad_norm": 0.21144309728496954, "learning_rate": 8.526234567901235e-06, "loss": 0.3788, "step": 2439 }, { "epoch": 2.5416666666666665, "grad_norm": 0.19544308505365646, "learning_rate": 8.506944444444445e-06, "loss": 0.3648, "step": 2440 }, { "epoch": 2.5427083333333336, "grad_norm": 0.19156676752113497, "learning_rate": 8.487654320987654e-06, "loss": 0.3179, "step": 2441 }, { "epoch": 2.54375, "grad_norm": 0.1956502320995873, "learning_rate": 8.468364197530865e-06, "loss": 0.3189, "step": 2442 }, { "epoch": 2.544791666666667, "grad_norm": 0.20463056120244547, "learning_rate": 8.449074074074074e-06, "loss": 0.3633, "step": 2443 }, { "epoch": 2.5458333333333334, "grad_norm": 0.22546700829982347, "learning_rate": 8.429783950617284e-06, "loss": 0.3774, "step": 2444 }, { "epoch": 2.546875, "grad_norm": 0.2037527877028678, "learning_rate": 8.410493827160495e-06, "loss": 0.3932, "step": 2445 }, { "epoch": 2.5479166666666666, "grad_norm": 0.19638433808816824, "learning_rate": 8.391203703703704e-06, "loss": 0.3613, "step": 2446 }, { "epoch": 2.548958333333333, "grad_norm": 0.20304608247273365, "learning_rate": 8.371913580246914e-06, "loss": 0.3705, "step": 2447 }, { "epoch": 2.55, "grad_norm": 0.2000168196921137, "learning_rate": 8.352623456790123e-06, "loss": 0.3123, "step": 2448 }, { "epoch": 2.5510416666666664, "grad_norm": 0.21283286211637456, "learning_rate": 8.333333333333334e-06, "loss": 0.37, "step": 2449 }, { "epoch": 2.5520833333333335, "grad_norm": 0.2003613537103092, "learning_rate": 8.314043209876543e-06, "loss": 0.3578, "step": 2450 }, { "epoch": 2.553125, "grad_norm": 0.19376076464343414, "learning_rate": 8.294753086419753e-06, "loss": 0.3413, "step": 2451 }, { "epoch": 2.5541666666666667, "grad_norm": 0.21109576193297938, "learning_rate": 8.275462962962964e-06, "loss": 0.3506, "step": 2452 }, { "epoch": 2.5552083333333333, "grad_norm": 0.20987236365200948, "learning_rate": 8.256172839506174e-06, "loss": 0.3492, "step": 2453 }, { "epoch": 2.55625, "grad_norm": 0.19127433607454739, "learning_rate": 8.236882716049383e-06, "loss": 0.3293, "step": 2454 }, { "epoch": 2.5572916666666665, "grad_norm": 0.18875363842979112, "learning_rate": 8.217592592592594e-06, "loss": 0.3124, "step": 2455 }, { "epoch": 2.5583333333333336, "grad_norm": 0.19246070303269391, "learning_rate": 8.198302469135803e-06, "loss": 0.3172, "step": 2456 }, { "epoch": 2.559375, "grad_norm": 0.18734232006205997, "learning_rate": 8.179012345679013e-06, "loss": 0.3142, "step": 2457 }, { "epoch": 2.560416666666667, "grad_norm": 0.18944056548310959, "learning_rate": 8.159722222222222e-06, "loss": 0.3295, "step": 2458 }, { "epoch": 2.5614583333333334, "grad_norm": 0.20748358229258562, "learning_rate": 8.140432098765433e-06, "loss": 0.3462, "step": 2459 }, { "epoch": 2.5625, "grad_norm": 0.19572973626409582, "learning_rate": 8.121141975308643e-06, "loss": 0.3517, "step": 2460 }, { "epoch": 2.5635416666666666, "grad_norm": 0.20201410183946983, "learning_rate": 8.101851851851852e-06, "loss": 0.34, "step": 2461 }, { "epoch": 2.564583333333333, "grad_norm": 0.1940670066664796, "learning_rate": 8.082561728395063e-06, "loss": 0.2962, "step": 2462 }, { "epoch": 2.565625, "grad_norm": 0.20463463447712524, "learning_rate": 8.063271604938271e-06, "loss": 0.3121, "step": 2463 }, { "epoch": 2.5666666666666664, "grad_norm": 0.20240769923148402, "learning_rate": 8.043981481481482e-06, "loss": 0.3367, "step": 2464 }, { "epoch": 2.5677083333333335, "grad_norm": 0.1974923911765085, "learning_rate": 8.02469135802469e-06, "loss": 0.3483, "step": 2465 }, { "epoch": 2.56875, "grad_norm": 0.2027932716031151, "learning_rate": 8.005401234567901e-06, "loss": 0.3265, "step": 2466 }, { "epoch": 2.5697916666666667, "grad_norm": 0.21433321519621326, "learning_rate": 7.98611111111111e-06, "loss": 0.3752, "step": 2467 }, { "epoch": 2.5708333333333333, "grad_norm": 0.19335053123631907, "learning_rate": 7.966820987654322e-06, "loss": 0.3385, "step": 2468 }, { "epoch": 2.571875, "grad_norm": 0.18546339608507473, "learning_rate": 7.947530864197531e-06, "loss": 0.3242, "step": 2469 }, { "epoch": 2.5729166666666665, "grad_norm": 0.20740632267695636, "learning_rate": 7.928240740740742e-06, "loss": 0.3685, "step": 2470 }, { "epoch": 2.5739583333333336, "grad_norm": 0.18831224799849436, "learning_rate": 7.90895061728395e-06, "loss": 0.3396, "step": 2471 }, { "epoch": 2.575, "grad_norm": 0.19471442541961165, "learning_rate": 7.889660493827161e-06, "loss": 0.3289, "step": 2472 }, { "epoch": 2.576041666666667, "grad_norm": 0.2208092301618481, "learning_rate": 7.87037037037037e-06, "loss": 0.3643, "step": 2473 }, { "epoch": 2.5770833333333334, "grad_norm": 0.18582943312045835, "learning_rate": 7.85108024691358e-06, "loss": 0.3265, "step": 2474 }, { "epoch": 2.578125, "grad_norm": 0.209082668015532, "learning_rate": 7.831790123456791e-06, "loss": 0.3644, "step": 2475 }, { "epoch": 2.5791666666666666, "grad_norm": 0.2172786223846942, "learning_rate": 7.8125e-06, "loss": 0.3568, "step": 2476 }, { "epoch": 2.580208333333333, "grad_norm": 0.19728923813766164, "learning_rate": 7.79320987654321e-06, "loss": 0.3444, "step": 2477 }, { "epoch": 2.58125, "grad_norm": 0.20610663094387616, "learning_rate": 7.77391975308642e-06, "loss": 0.3494, "step": 2478 }, { "epoch": 2.5822916666666664, "grad_norm": 0.1826485757561645, "learning_rate": 7.75462962962963e-06, "loss": 0.3098, "step": 2479 }, { "epoch": 2.5833333333333335, "grad_norm": 0.2052958705281164, "learning_rate": 7.735339506172839e-06, "loss": 0.3436, "step": 2480 }, { "epoch": 2.584375, "grad_norm": 0.19797182094559262, "learning_rate": 7.71604938271605e-06, "loss": 0.3569, "step": 2481 }, { "epoch": 2.5854166666666667, "grad_norm": 0.19042918643948978, "learning_rate": 7.696759259259258e-06, "loss": 0.2833, "step": 2482 }, { "epoch": 2.5864583333333333, "grad_norm": 0.20891534459710656, "learning_rate": 7.677469135802469e-06, "loss": 0.3358, "step": 2483 }, { "epoch": 2.5875, "grad_norm": 0.19441158691711644, "learning_rate": 7.658179012345678e-06, "loss": 0.3214, "step": 2484 }, { "epoch": 2.5885416666666665, "grad_norm": 0.19412121305719682, "learning_rate": 7.63888888888889e-06, "loss": 0.3435, "step": 2485 }, { "epoch": 2.5895833333333336, "grad_norm": 0.2040458100033254, "learning_rate": 7.6195987654321e-06, "loss": 0.3299, "step": 2486 }, { "epoch": 2.590625, "grad_norm": 0.19448614919792453, "learning_rate": 7.6003086419753095e-06, "loss": 0.3572, "step": 2487 }, { "epoch": 2.591666666666667, "grad_norm": 0.27551255135167285, "learning_rate": 7.581018518518519e-06, "loss": 0.3939, "step": 2488 }, { "epoch": 2.5927083333333334, "grad_norm": 0.2009171124992645, "learning_rate": 7.561728395061729e-06, "loss": 0.3518, "step": 2489 }, { "epoch": 2.59375, "grad_norm": 0.20064342269366744, "learning_rate": 7.542438271604939e-06, "loss": 0.3526, "step": 2490 }, { "epoch": 2.5947916666666666, "grad_norm": 0.2118822317879297, "learning_rate": 7.523148148148148e-06, "loss": 0.3982, "step": 2491 }, { "epoch": 2.595833333333333, "grad_norm": 0.19324633557783136, "learning_rate": 7.503858024691358e-06, "loss": 0.316, "step": 2492 }, { "epoch": 2.596875, "grad_norm": 0.1950390570212907, "learning_rate": 7.484567901234568e-06, "loss": 0.3263, "step": 2493 }, { "epoch": 2.5979166666666664, "grad_norm": 0.1964647525649579, "learning_rate": 7.465277777777778e-06, "loss": 0.3629, "step": 2494 }, { "epoch": 2.5989583333333335, "grad_norm": 0.19141258704943007, "learning_rate": 7.445987654320988e-06, "loss": 0.3431, "step": 2495 }, { "epoch": 2.6, "grad_norm": 0.19250390880547466, "learning_rate": 7.426697530864198e-06, "loss": 0.3338, "step": 2496 }, { "epoch": 2.6010416666666667, "grad_norm": 0.20023094250939186, "learning_rate": 7.4074074074074075e-06, "loss": 0.3693, "step": 2497 }, { "epoch": 2.6020833333333333, "grad_norm": 0.18120998329102225, "learning_rate": 7.388117283950617e-06, "loss": 0.2923, "step": 2498 }, { "epoch": 2.603125, "grad_norm": 0.18795833494021977, "learning_rate": 7.368827160493827e-06, "loss": 0.3414, "step": 2499 }, { "epoch": 2.6041666666666665, "grad_norm": 0.19920308701522338, "learning_rate": 7.349537037037037e-06, "loss": 0.3545, "step": 2500 }, { "epoch": 2.6052083333333336, "grad_norm": 0.20406295955067832, "learning_rate": 7.330246913580248e-06, "loss": 0.3586, "step": 2501 }, { "epoch": 2.60625, "grad_norm": 0.1788577684684773, "learning_rate": 7.310956790123458e-06, "loss": 0.3196, "step": 2502 }, { "epoch": 2.607291666666667, "grad_norm": 0.1917508204650809, "learning_rate": 7.2916666666666674e-06, "loss": 0.3237, "step": 2503 }, { "epoch": 2.6083333333333334, "grad_norm": 0.1824509498742787, "learning_rate": 7.272376543209877e-06, "loss": 0.3097, "step": 2504 }, { "epoch": 2.609375, "grad_norm": 0.19235100459235882, "learning_rate": 7.253086419753087e-06, "loss": 0.3533, "step": 2505 }, { "epoch": 2.6104166666666666, "grad_norm": 0.2116683958435757, "learning_rate": 7.2337962962962966e-06, "loss": 0.4131, "step": 2506 }, { "epoch": 2.611458333333333, "grad_norm": 0.18949052067334834, "learning_rate": 7.214506172839506e-06, "loss": 0.3222, "step": 2507 }, { "epoch": 2.6125, "grad_norm": 0.21103216854157222, "learning_rate": 7.195216049382717e-06, "loss": 0.3357, "step": 2508 }, { "epoch": 2.6135416666666664, "grad_norm": 0.19988990718718525, "learning_rate": 7.1759259259259266e-06, "loss": 0.312, "step": 2509 }, { "epoch": 2.6145833333333335, "grad_norm": 0.18255597852414596, "learning_rate": 7.156635802469136e-06, "loss": 0.321, "step": 2510 }, { "epoch": 2.615625, "grad_norm": 0.20787271386962733, "learning_rate": 7.137345679012346e-06, "loss": 0.3515, "step": 2511 }, { "epoch": 2.6166666666666667, "grad_norm": 0.19477291732912802, "learning_rate": 7.118055555555556e-06, "loss": 0.3353, "step": 2512 }, { "epoch": 2.6177083333333333, "grad_norm": 0.200692005035393, "learning_rate": 7.098765432098765e-06, "loss": 0.3462, "step": 2513 }, { "epoch": 2.61875, "grad_norm": 0.41353148857850025, "learning_rate": 7.079475308641975e-06, "loss": 0.3843, "step": 2514 }, { "epoch": 2.6197916666666665, "grad_norm": 0.1993803438977463, "learning_rate": 7.060185185185185e-06, "loss": 0.344, "step": 2515 }, { "epoch": 2.6208333333333336, "grad_norm": 0.21762576098682526, "learning_rate": 7.0408950617283945e-06, "loss": 0.4088, "step": 2516 }, { "epoch": 2.621875, "grad_norm": 0.18018937975195576, "learning_rate": 7.021604938271606e-06, "loss": 0.2938, "step": 2517 }, { "epoch": 2.622916666666667, "grad_norm": 0.19605075271906963, "learning_rate": 7.002314814814816e-06, "loss": 0.3369, "step": 2518 }, { "epoch": 2.6239583333333334, "grad_norm": 0.18379575477595195, "learning_rate": 6.983024691358025e-06, "loss": 0.3314, "step": 2519 }, { "epoch": 2.625, "grad_norm": 0.18397845859434137, "learning_rate": 6.963734567901235e-06, "loss": 0.3231, "step": 2520 }, { "epoch": 2.6260416666666666, "grad_norm": 0.19882282912326343, "learning_rate": 6.944444444444445e-06, "loss": 0.3189, "step": 2521 }, { "epoch": 2.627083333333333, "grad_norm": 0.20811259377703778, "learning_rate": 6.9251543209876545e-06, "loss": 0.3757, "step": 2522 }, { "epoch": 2.628125, "grad_norm": 0.18458658027345748, "learning_rate": 6.905864197530865e-06, "loss": 0.3071, "step": 2523 }, { "epoch": 2.6291666666666664, "grad_norm": 0.4067168982916664, "learning_rate": 6.886574074074075e-06, "loss": 0.2908, "step": 2524 }, { "epoch": 2.6302083333333335, "grad_norm": 0.18867730155682583, "learning_rate": 6.8672839506172845e-06, "loss": 0.3273, "step": 2525 }, { "epoch": 2.63125, "grad_norm": 0.19485034459833106, "learning_rate": 6.847993827160494e-06, "loss": 0.362, "step": 2526 }, { "epoch": 2.6322916666666667, "grad_norm": 0.19939392450866456, "learning_rate": 6.828703703703704e-06, "loss": 0.346, "step": 2527 }, { "epoch": 2.6333333333333333, "grad_norm": 0.1903879307017039, "learning_rate": 6.809413580246914e-06, "loss": 0.3195, "step": 2528 }, { "epoch": 2.634375, "grad_norm": 0.20872972218768035, "learning_rate": 6.790123456790123e-06, "loss": 0.3118, "step": 2529 }, { "epoch": 2.6354166666666665, "grad_norm": 0.9282709785244849, "learning_rate": 6.770833333333333e-06, "loss": 0.3049, "step": 2530 }, { "epoch": 2.6364583333333336, "grad_norm": 0.21144542638597266, "learning_rate": 6.751543209876543e-06, "loss": 0.3358, "step": 2531 }, { "epoch": 2.6375, "grad_norm": 0.21019066895284508, "learning_rate": 6.7322530864197524e-06, "loss": 0.3703, "step": 2532 }, { "epoch": 2.638541666666667, "grad_norm": 0.18821399189492166, "learning_rate": 6.712962962962964e-06, "loss": 0.3282, "step": 2533 }, { "epoch": 2.6395833333333334, "grad_norm": 0.21076092570046404, "learning_rate": 6.6936728395061736e-06, "loss": 0.3975, "step": 2534 }, { "epoch": 2.640625, "grad_norm": 0.2082002791130694, "learning_rate": 6.674382716049383e-06, "loss": 0.3793, "step": 2535 }, { "epoch": 2.6416666666666666, "grad_norm": 0.18168746502129496, "learning_rate": 6.655092592592593e-06, "loss": 0.2843, "step": 2536 }, { "epoch": 2.642708333333333, "grad_norm": 0.19731551894694255, "learning_rate": 6.635802469135803e-06, "loss": 0.3342, "step": 2537 }, { "epoch": 2.64375, "grad_norm": 0.19157583147217996, "learning_rate": 6.616512345679013e-06, "loss": 0.3356, "step": 2538 }, { "epoch": 2.6447916666666664, "grad_norm": 0.20005970878163812, "learning_rate": 6.597222222222223e-06, "loss": 0.346, "step": 2539 }, { "epoch": 2.6458333333333335, "grad_norm": 0.20357691466326935, "learning_rate": 6.577932098765433e-06, "loss": 0.3412, "step": 2540 }, { "epoch": 2.646875, "grad_norm": 0.19477357221282005, "learning_rate": 6.558641975308642e-06, "loss": 0.3437, "step": 2541 }, { "epoch": 2.6479166666666667, "grad_norm": 0.20866428421672598, "learning_rate": 6.539351851851852e-06, "loss": 0.3641, "step": 2542 }, { "epoch": 2.6489583333333333, "grad_norm": 0.19550689330415824, "learning_rate": 6.520061728395062e-06, "loss": 0.3366, "step": 2543 }, { "epoch": 2.65, "grad_norm": 0.20157202137818883, "learning_rate": 6.5007716049382715e-06, "loss": 0.3263, "step": 2544 }, { "epoch": 2.6510416666666665, "grad_norm": 0.20538921135488183, "learning_rate": 6.481481481481481e-06, "loss": 0.3578, "step": 2545 }, { "epoch": 2.6520833333333336, "grad_norm": 0.2026918721140078, "learning_rate": 6.462191358024691e-06, "loss": 0.3393, "step": 2546 }, { "epoch": 2.653125, "grad_norm": 0.19484624871296796, "learning_rate": 6.442901234567901e-06, "loss": 0.3565, "step": 2547 }, { "epoch": 2.654166666666667, "grad_norm": 0.18988220974169956, "learning_rate": 6.423611111111111e-06, "loss": 0.3538, "step": 2548 }, { "epoch": 2.6552083333333334, "grad_norm": 0.1856615508774878, "learning_rate": 6.404320987654322e-06, "loss": 0.3285, "step": 2549 }, { "epoch": 2.65625, "grad_norm": 0.20568510971945925, "learning_rate": 6.3850308641975315e-06, "loss": 0.3459, "step": 2550 }, { "epoch": 2.6572916666666666, "grad_norm": 0.19766260641826433, "learning_rate": 6.365740740740741e-06, "loss": 0.3406, "step": 2551 }, { "epoch": 2.658333333333333, "grad_norm": 0.45621820500402416, "learning_rate": 6.346450617283952e-06, "loss": 0.4259, "step": 2552 }, { "epoch": 2.659375, "grad_norm": 0.189342589706947, "learning_rate": 6.3271604938271615e-06, "loss": 0.3439, "step": 2553 }, { "epoch": 2.6604166666666664, "grad_norm": 0.1940028069788555, "learning_rate": 6.307870370370371e-06, "loss": 0.3398, "step": 2554 }, { "epoch": 2.6614583333333335, "grad_norm": 0.19202843795717936, "learning_rate": 6.288580246913581e-06, "loss": 0.3241, "step": 2555 }, { "epoch": 2.6625, "grad_norm": 0.21179610035269766, "learning_rate": 6.269290123456791e-06, "loss": 0.3374, "step": 2556 }, { "epoch": 2.6635416666666667, "grad_norm": 0.20493415539817111, "learning_rate": 6.25e-06, "loss": 0.3336, "step": 2557 }, { "epoch": 2.6645833333333333, "grad_norm": 0.20480348817324548, "learning_rate": 6.23070987654321e-06, "loss": 0.3699, "step": 2558 }, { "epoch": 2.665625, "grad_norm": 0.19115904243081766, "learning_rate": 6.21141975308642e-06, "loss": 0.3285, "step": 2559 }, { "epoch": 2.6666666666666665, "grad_norm": 0.18627424840007475, "learning_rate": 6.1921296296296294e-06, "loss": 0.3045, "step": 2560 }, { "epoch": 2.6677083333333336, "grad_norm": 0.19453901361283824, "learning_rate": 6.172839506172839e-06, "loss": 0.3606, "step": 2561 }, { "epoch": 2.66875, "grad_norm": 0.18042042735769312, "learning_rate": 6.15354938271605e-06, "loss": 0.3016, "step": 2562 }, { "epoch": 2.669791666666667, "grad_norm": 0.18983214836639575, "learning_rate": 6.134259259259259e-06, "loss": 0.3306, "step": 2563 }, { "epoch": 2.6708333333333334, "grad_norm": 0.1952097159599507, "learning_rate": 6.114969135802469e-06, "loss": 0.3485, "step": 2564 }, { "epoch": 2.671875, "grad_norm": 0.20716430110531586, "learning_rate": 6.09567901234568e-06, "loss": 0.3733, "step": 2565 }, { "epoch": 2.6729166666666666, "grad_norm": 0.21645814310328226, "learning_rate": 6.076388888888889e-06, "loss": 0.3593, "step": 2566 }, { "epoch": 2.673958333333333, "grad_norm": 0.20411146014800063, "learning_rate": 6.057098765432099e-06, "loss": 0.3797, "step": 2567 }, { "epoch": 2.675, "grad_norm": 0.20923666933354246, "learning_rate": 6.037808641975309e-06, "loss": 0.338, "step": 2568 }, { "epoch": 2.6760416666666664, "grad_norm": 0.18941139432251078, "learning_rate": 6.0185185185185185e-06, "loss": 0.3144, "step": 2569 }, { "epoch": 2.6770833333333335, "grad_norm": 0.22373802841525448, "learning_rate": 5.999228395061729e-06, "loss": 0.3468, "step": 2570 }, { "epoch": 2.678125, "grad_norm": 0.18159784092940504, "learning_rate": 5.979938271604939e-06, "loss": 0.3056, "step": 2571 }, { "epoch": 2.6791666666666667, "grad_norm": 0.20273236691369864, "learning_rate": 5.9606481481481485e-06, "loss": 0.389, "step": 2572 }, { "epoch": 2.6802083333333333, "grad_norm": 0.1972243714699217, "learning_rate": 5.941358024691358e-06, "loss": 0.3294, "step": 2573 }, { "epoch": 2.68125, "grad_norm": 0.1992159000800101, "learning_rate": 5.922067901234568e-06, "loss": 0.3231, "step": 2574 }, { "epoch": 2.6822916666666665, "grad_norm": 0.18834634250294727, "learning_rate": 5.902777777777778e-06, "loss": 0.3111, "step": 2575 }, { "epoch": 2.6833333333333336, "grad_norm": 0.20547597071540125, "learning_rate": 5.883487654320987e-06, "loss": 0.3702, "step": 2576 }, { "epoch": 2.684375, "grad_norm": 0.19670238986492392, "learning_rate": 5.864197530864198e-06, "loss": 0.3249, "step": 2577 }, { "epoch": 2.685416666666667, "grad_norm": 0.20758651453837199, "learning_rate": 5.844907407407408e-06, "loss": 0.4068, "step": 2578 }, { "epoch": 2.6864583333333334, "grad_norm": 0.1893050582677035, "learning_rate": 5.825617283950618e-06, "loss": 0.3158, "step": 2579 }, { "epoch": 2.6875, "grad_norm": 0.19861305729965084, "learning_rate": 5.806327160493828e-06, "loss": 0.3686, "step": 2580 }, { "epoch": 2.6885416666666666, "grad_norm": 0.19623288852410326, "learning_rate": 5.787037037037038e-06, "loss": 0.3478, "step": 2581 }, { "epoch": 2.689583333333333, "grad_norm": 0.18880182488961225, "learning_rate": 5.767746913580247e-06, "loss": 0.3203, "step": 2582 }, { "epoch": 2.690625, "grad_norm": 0.19761084484514843, "learning_rate": 5.748456790123457e-06, "loss": 0.3328, "step": 2583 }, { "epoch": 2.6916666666666664, "grad_norm": 0.20236277214940687, "learning_rate": 5.729166666666667e-06, "loss": 0.3599, "step": 2584 }, { "epoch": 2.6927083333333335, "grad_norm": 0.2118612297902481, "learning_rate": 5.7098765432098764e-06, "loss": 0.3669, "step": 2585 }, { "epoch": 2.69375, "grad_norm": 0.19557429281725247, "learning_rate": 5.690586419753087e-06, "loss": 0.3192, "step": 2586 }, { "epoch": 2.6947916666666667, "grad_norm": 0.20966724135748094, "learning_rate": 5.671296296296297e-06, "loss": 0.3905, "step": 2587 }, { "epoch": 2.6958333333333333, "grad_norm": 0.20695254585223902, "learning_rate": 5.652006172839506e-06, "loss": 0.3797, "step": 2588 }, { "epoch": 2.696875, "grad_norm": 0.2026713143246951, "learning_rate": 5.632716049382716e-06, "loss": 0.3466, "step": 2589 }, { "epoch": 2.6979166666666665, "grad_norm": 0.20570604471199763, "learning_rate": 5.613425925925926e-06, "loss": 0.3496, "step": 2590 }, { "epoch": 2.6989583333333336, "grad_norm": 0.20353919695540015, "learning_rate": 5.5941358024691356e-06, "loss": 0.3907, "step": 2591 }, { "epoch": 2.7, "grad_norm": 0.20163251724352577, "learning_rate": 5.574845679012346e-06, "loss": 0.344, "step": 2592 }, { "epoch": 2.701041666666667, "grad_norm": 0.19792706969307744, "learning_rate": 5.555555555555556e-06, "loss": 0.3667, "step": 2593 }, { "epoch": 2.7020833333333334, "grad_norm": 0.1905905651122956, "learning_rate": 5.536265432098766e-06, "loss": 0.3433, "step": 2594 }, { "epoch": 2.703125, "grad_norm": 0.20995736525294015, "learning_rate": 5.516975308641976e-06, "loss": 0.3746, "step": 2595 }, { "epoch": 2.7041666666666666, "grad_norm": 0.19972697652115792, "learning_rate": 5.497685185185186e-06, "loss": 0.4045, "step": 2596 }, { "epoch": 2.705208333333333, "grad_norm": 0.19551837443641315, "learning_rate": 5.4783950617283955e-06, "loss": 0.341, "step": 2597 }, { "epoch": 2.70625, "grad_norm": 0.19264476056001978, "learning_rate": 5.459104938271605e-06, "loss": 0.3437, "step": 2598 }, { "epoch": 2.7072916666666664, "grad_norm": 0.18496017609133034, "learning_rate": 5.439814814814815e-06, "loss": 0.3037, "step": 2599 }, { "epoch": 2.7083333333333335, "grad_norm": 0.2026769921576501, "learning_rate": 5.420524691358025e-06, "loss": 0.36, "step": 2600 }, { "epoch": 2.709375, "grad_norm": 0.1890076286745514, "learning_rate": 5.401234567901234e-06, "loss": 0.3407, "step": 2601 }, { "epoch": 2.7104166666666667, "grad_norm": 0.21015847464337398, "learning_rate": 5.381944444444445e-06, "loss": 0.3766, "step": 2602 }, { "epoch": 2.7114583333333333, "grad_norm": 0.19407036797970165, "learning_rate": 5.362654320987655e-06, "loss": 0.3408, "step": 2603 }, { "epoch": 2.7125, "grad_norm": 0.1926366631331222, "learning_rate": 5.343364197530864e-06, "loss": 0.3352, "step": 2604 }, { "epoch": 2.7135416666666665, "grad_norm": 0.19323530817694914, "learning_rate": 5.324074074074074e-06, "loss": 0.35, "step": 2605 }, { "epoch": 2.7145833333333336, "grad_norm": 0.19892476714489057, "learning_rate": 5.304783950617284e-06, "loss": 0.3373, "step": 2606 }, { "epoch": 2.715625, "grad_norm": 0.19418533202494928, "learning_rate": 5.285493827160494e-06, "loss": 0.3069, "step": 2607 }, { "epoch": 2.716666666666667, "grad_norm": 0.2112522054661632, "learning_rate": 5.266203703703704e-06, "loss": 0.4017, "step": 2608 }, { "epoch": 2.7177083333333334, "grad_norm": 0.19884999134720133, "learning_rate": 5.246913580246914e-06, "loss": 0.3469, "step": 2609 }, { "epoch": 2.71875, "grad_norm": 0.20107470442767275, "learning_rate": 5.227623456790124e-06, "loss": 0.3649, "step": 2610 }, { "epoch": 2.7197916666666666, "grad_norm": 0.1980211075041147, "learning_rate": 5.208333333333334e-06, "loss": 0.3739, "step": 2611 }, { "epoch": 2.720833333333333, "grad_norm": 0.19799555993370332, "learning_rate": 5.189043209876544e-06, "loss": 0.3645, "step": 2612 }, { "epoch": 2.721875, "grad_norm": 0.18907055715980914, "learning_rate": 5.1697530864197534e-06, "loss": 0.3325, "step": 2613 }, { "epoch": 2.7229166666666664, "grad_norm": 0.8486347199261353, "learning_rate": 5.150462962962963e-06, "loss": 0.3618, "step": 2614 }, { "epoch": 2.7239583333333335, "grad_norm": 0.2022552286694473, "learning_rate": 5.131172839506173e-06, "loss": 0.3792, "step": 2615 }, { "epoch": 2.725, "grad_norm": 0.2990594790527184, "learning_rate": 5.1118827160493826e-06, "loss": 0.3493, "step": 2616 }, { "epoch": 2.7260416666666667, "grad_norm": 0.18794362851470983, "learning_rate": 5.092592592592592e-06, "loss": 0.3396, "step": 2617 }, { "epoch": 2.7270833333333333, "grad_norm": 2.956576775602257, "learning_rate": 5.073302469135803e-06, "loss": 0.3765, "step": 2618 }, { "epoch": 2.728125, "grad_norm": 0.2038158797588183, "learning_rate": 5.0540123456790125e-06, "loss": 0.3588, "step": 2619 }, { "epoch": 2.7291666666666665, "grad_norm": 0.20150877810729684, "learning_rate": 5.034722222222222e-06, "loss": 0.3405, "step": 2620 }, { "epoch": 2.7302083333333336, "grad_norm": 0.1926270985171344, "learning_rate": 5.015432098765433e-06, "loss": 0.3349, "step": 2621 }, { "epoch": 2.73125, "grad_norm": 0.17880835488814323, "learning_rate": 4.9961419753086425e-06, "loss": 0.3128, "step": 2622 }, { "epoch": 2.732291666666667, "grad_norm": 0.2059677369588391, "learning_rate": 4.976851851851852e-06, "loss": 0.3778, "step": 2623 }, { "epoch": 2.7333333333333334, "grad_norm": 0.20810266309869171, "learning_rate": 4.957561728395062e-06, "loss": 0.3444, "step": 2624 }, { "epoch": 2.734375, "grad_norm": 0.19847527291370246, "learning_rate": 4.938271604938272e-06, "loss": 0.3163, "step": 2625 }, { "epoch": 2.7354166666666666, "grad_norm": 0.22466423431727114, "learning_rate": 4.918981481481482e-06, "loss": 0.3851, "step": 2626 }, { "epoch": 2.736458333333333, "grad_norm": 0.18316843205811786, "learning_rate": 4.899691358024692e-06, "loss": 0.3151, "step": 2627 }, { "epoch": 2.7375, "grad_norm": 0.1876705879826452, "learning_rate": 4.880401234567902e-06, "loss": 0.333, "step": 2628 }, { "epoch": 2.7385416666666664, "grad_norm": 0.2070382976574718, "learning_rate": 4.861111111111111e-06, "loss": 0.3862, "step": 2629 }, { "epoch": 2.7395833333333335, "grad_norm": 0.2021030262886571, "learning_rate": 4.841820987654321e-06, "loss": 0.3376, "step": 2630 }, { "epoch": 2.740625, "grad_norm": 0.19177330238370147, "learning_rate": 4.822530864197531e-06, "loss": 0.3312, "step": 2631 }, { "epoch": 2.7416666666666667, "grad_norm": 0.21209185771580263, "learning_rate": 4.8032407407407405e-06, "loss": 0.3565, "step": 2632 }, { "epoch": 2.7427083333333333, "grad_norm": 0.1926366025245412, "learning_rate": 4.78395061728395e-06, "loss": 0.3509, "step": 2633 }, { "epoch": 2.74375, "grad_norm": 0.19327306266910715, "learning_rate": 4.764660493827161e-06, "loss": 0.3488, "step": 2634 }, { "epoch": 2.7447916666666665, "grad_norm": 0.20242411879398925, "learning_rate": 4.7453703703703705e-06, "loss": 0.3754, "step": 2635 }, { "epoch": 2.7458333333333336, "grad_norm": 0.2089214465465787, "learning_rate": 4.726080246913581e-06, "loss": 0.3725, "step": 2636 }, { "epoch": 2.746875, "grad_norm": 0.19600286944299042, "learning_rate": 4.706790123456791e-06, "loss": 0.3343, "step": 2637 }, { "epoch": 2.747916666666667, "grad_norm": 0.18636497440689198, "learning_rate": 4.6875000000000004e-06, "loss": 0.3296, "step": 2638 }, { "epoch": 2.7489583333333334, "grad_norm": 0.21463531308675554, "learning_rate": 4.66820987654321e-06, "loss": 0.3813, "step": 2639 }, { "epoch": 2.75, "grad_norm": 0.19621406275535513, "learning_rate": 4.64891975308642e-06, "loss": 0.3596, "step": 2640 }, { "epoch": 2.7510416666666666, "grad_norm": 0.18470443303702574, "learning_rate": 4.6296296296296296e-06, "loss": 0.3243, "step": 2641 }, { "epoch": 2.752083333333333, "grad_norm": 0.20865493194111343, "learning_rate": 4.610339506172839e-06, "loss": 0.3602, "step": 2642 }, { "epoch": 2.753125, "grad_norm": 0.19059125838137664, "learning_rate": 4.59104938271605e-06, "loss": 0.3092, "step": 2643 }, { "epoch": 2.7541666666666664, "grad_norm": 0.19377963883974023, "learning_rate": 4.5717592592592595e-06, "loss": 0.3425, "step": 2644 }, { "epoch": 2.7552083333333335, "grad_norm": 0.18525021609899556, "learning_rate": 4.552469135802469e-06, "loss": 0.3315, "step": 2645 }, { "epoch": 2.75625, "grad_norm": 0.1891315933927866, "learning_rate": 4.533179012345679e-06, "loss": 0.345, "step": 2646 }, { "epoch": 2.7572916666666667, "grad_norm": 0.1999891237397013, "learning_rate": 4.513888888888889e-06, "loss": 0.3441, "step": 2647 }, { "epoch": 2.7583333333333333, "grad_norm": 0.20895803801865817, "learning_rate": 4.494598765432099e-06, "loss": 0.3673, "step": 2648 }, { "epoch": 2.759375, "grad_norm": 0.19308578545412355, "learning_rate": 4.475308641975309e-06, "loss": 0.3713, "step": 2649 }, { "epoch": 2.7604166666666665, "grad_norm": 0.20031158212732647, "learning_rate": 4.456018518518519e-06, "loss": 0.3749, "step": 2650 }, { "epoch": 2.7614583333333336, "grad_norm": 0.19908896734185788, "learning_rate": 4.436728395061729e-06, "loss": 0.3456, "step": 2651 }, { "epoch": 2.7625, "grad_norm": 0.18585668355765547, "learning_rate": 4.417438271604939e-06, "loss": 0.3223, "step": 2652 }, { "epoch": 2.763541666666667, "grad_norm": 0.1903779342484021, "learning_rate": 4.398148148148149e-06, "loss": 0.326, "step": 2653 }, { "epoch": 2.7645833333333334, "grad_norm": 0.19983211060991107, "learning_rate": 4.378858024691358e-06, "loss": 0.3631, "step": 2654 }, { "epoch": 2.765625, "grad_norm": 0.19916841272451086, "learning_rate": 4.359567901234568e-06, "loss": 0.3372, "step": 2655 }, { "epoch": 2.7666666666666666, "grad_norm": 0.20741075960373587, "learning_rate": 4.340277777777778e-06, "loss": 0.4012, "step": 2656 }, { "epoch": 2.767708333333333, "grad_norm": 0.19771123095564894, "learning_rate": 4.3209876543209875e-06, "loss": 0.3555, "step": 2657 }, { "epoch": 2.76875, "grad_norm": 0.19631227427888753, "learning_rate": 4.301697530864197e-06, "loss": 0.3645, "step": 2658 }, { "epoch": 2.7697916666666664, "grad_norm": 0.18121550074872048, "learning_rate": 4.282407407407408e-06, "loss": 0.3228, "step": 2659 }, { "epoch": 2.7708333333333335, "grad_norm": 0.19571451440303206, "learning_rate": 4.2631172839506175e-06, "loss": 0.3528, "step": 2660 }, { "epoch": 2.771875, "grad_norm": 0.1850222705764365, "learning_rate": 4.243827160493827e-06, "loss": 0.3319, "step": 2661 }, { "epoch": 2.7729166666666667, "grad_norm": 0.1891965998702338, "learning_rate": 4.224537037037037e-06, "loss": 0.3383, "step": 2662 }, { "epoch": 2.7739583333333333, "grad_norm": 0.5511622177266042, "learning_rate": 4.2052469135802474e-06, "loss": 0.3734, "step": 2663 }, { "epoch": 2.775, "grad_norm": 0.19528491117151922, "learning_rate": 4.185956790123457e-06, "loss": 0.3451, "step": 2664 }, { "epoch": 2.7760416666666665, "grad_norm": 0.19356676756355504, "learning_rate": 4.166666666666667e-06, "loss": 0.3552, "step": 2665 }, { "epoch": 2.7770833333333336, "grad_norm": 0.16937980230269065, "learning_rate": 4.147376543209877e-06, "loss": 0.3035, "step": 2666 }, { "epoch": 2.778125, "grad_norm": 0.18622258543254644, "learning_rate": 4.128086419753087e-06, "loss": 0.3552, "step": 2667 }, { "epoch": 2.779166666666667, "grad_norm": 0.20684337941767153, "learning_rate": 4.108796296296297e-06, "loss": 0.4135, "step": 2668 }, { "epoch": 2.7802083333333334, "grad_norm": 0.19752770161420788, "learning_rate": 4.0895061728395066e-06, "loss": 0.3575, "step": 2669 }, { "epoch": 2.78125, "grad_norm": 0.18124261595856786, "learning_rate": 4.070216049382716e-06, "loss": 0.3028, "step": 2670 }, { "epoch": 2.7822916666666666, "grad_norm": 0.18409555894151647, "learning_rate": 4.050925925925926e-06, "loss": 0.2798, "step": 2671 }, { "epoch": 2.783333333333333, "grad_norm": 0.17940648561837885, "learning_rate": 4.031635802469136e-06, "loss": 0.3007, "step": 2672 }, { "epoch": 2.784375, "grad_norm": 0.1842469129059684, "learning_rate": 4.012345679012345e-06, "loss": 0.3257, "step": 2673 }, { "epoch": 2.7854166666666664, "grad_norm": 0.19776271786011498, "learning_rate": 3.993055555555555e-06, "loss": 0.3551, "step": 2674 }, { "epoch": 2.7864583333333335, "grad_norm": 0.20692741084961735, "learning_rate": 3.973765432098766e-06, "loss": 0.3884, "step": 2675 }, { "epoch": 2.7875, "grad_norm": 0.18147125324558533, "learning_rate": 3.954475308641975e-06, "loss": 0.3126, "step": 2676 }, { "epoch": 2.7885416666666667, "grad_norm": 0.1955981863527983, "learning_rate": 3.935185185185185e-06, "loss": 0.3504, "step": 2677 }, { "epoch": 2.7895833333333333, "grad_norm": 0.18769569031877611, "learning_rate": 3.915895061728396e-06, "loss": 0.3454, "step": 2678 }, { "epoch": 2.790625, "grad_norm": 0.2051983776017018, "learning_rate": 3.896604938271605e-06, "loss": 0.384, "step": 2679 }, { "epoch": 2.7916666666666665, "grad_norm": 0.1930462779859329, "learning_rate": 3.877314814814815e-06, "loss": 0.3698, "step": 2680 }, { "epoch": 2.7927083333333336, "grad_norm": 0.1913147418444844, "learning_rate": 3.858024691358025e-06, "loss": 0.3484, "step": 2681 }, { "epoch": 2.79375, "grad_norm": 0.20801599985740687, "learning_rate": 3.8387345679012345e-06, "loss": 0.3899, "step": 2682 }, { "epoch": 2.794791666666667, "grad_norm": 0.1952944483238648, "learning_rate": 3.819444444444445e-06, "loss": 0.3762, "step": 2683 }, { "epoch": 2.7958333333333334, "grad_norm": 0.1947836693778527, "learning_rate": 3.8001543209876548e-06, "loss": 0.3365, "step": 2684 }, { "epoch": 2.796875, "grad_norm": 0.19518899294000752, "learning_rate": 3.7808641975308645e-06, "loss": 0.3446, "step": 2685 }, { "epoch": 2.7979166666666666, "grad_norm": 0.18409721311593186, "learning_rate": 3.761574074074074e-06, "loss": 0.3263, "step": 2686 }, { "epoch": 2.798958333333333, "grad_norm": 0.19360753646420403, "learning_rate": 3.742283950617284e-06, "loss": 0.3365, "step": 2687 }, { "epoch": 2.8, "grad_norm": 0.19707243625840926, "learning_rate": 3.722993827160494e-06, "loss": 0.3422, "step": 2688 }, { "epoch": 2.8010416666666664, "grad_norm": 0.18478934089334548, "learning_rate": 3.7037037037037037e-06, "loss": 0.3297, "step": 2689 }, { "epoch": 2.8020833333333335, "grad_norm": 0.17942883149965005, "learning_rate": 3.6844135802469135e-06, "loss": 0.3196, "step": 2690 }, { "epoch": 2.803125, "grad_norm": 0.21166571538667367, "learning_rate": 3.665123456790124e-06, "loss": 0.3906, "step": 2691 }, { "epoch": 2.8041666666666667, "grad_norm": 0.2035021364964127, "learning_rate": 3.6458333333333337e-06, "loss": 0.399, "step": 2692 }, { "epoch": 2.8052083333333333, "grad_norm": 0.20246336928683975, "learning_rate": 3.6265432098765434e-06, "loss": 0.3766, "step": 2693 }, { "epoch": 2.80625, "grad_norm": 0.19117053862578165, "learning_rate": 3.607253086419753e-06, "loss": 0.3319, "step": 2694 }, { "epoch": 2.8072916666666665, "grad_norm": 2.197121046551128, "learning_rate": 3.5879629629629633e-06, "loss": 0.4829, "step": 2695 }, { "epoch": 2.8083333333333336, "grad_norm": 0.20104858004696868, "learning_rate": 3.568672839506173e-06, "loss": 0.37, "step": 2696 }, { "epoch": 2.809375, "grad_norm": 0.1943283808438668, "learning_rate": 3.5493827160493827e-06, "loss": 0.3496, "step": 2697 }, { "epoch": 2.810416666666667, "grad_norm": 0.1957662778635153, "learning_rate": 3.5300925925925924e-06, "loss": 0.3648, "step": 2698 }, { "epoch": 2.8114583333333334, "grad_norm": 0.18932459672825708, "learning_rate": 3.510802469135803e-06, "loss": 0.3513, "step": 2699 }, { "epoch": 2.8125, "grad_norm": 0.19507212560695045, "learning_rate": 3.4915123456790127e-06, "loss": 0.3707, "step": 2700 }, { "epoch": 2.8135416666666666, "grad_norm": 0.1937111387630006, "learning_rate": 3.4722222222222224e-06, "loss": 0.3314, "step": 2701 }, { "epoch": 2.814583333333333, "grad_norm": 0.2106021397013687, "learning_rate": 3.4529320987654325e-06, "loss": 0.4032, "step": 2702 }, { "epoch": 2.815625, "grad_norm": 0.19541319704595983, "learning_rate": 3.4336419753086422e-06, "loss": 0.3361, "step": 2703 }, { "epoch": 2.8166666666666664, "grad_norm": 0.19864289340601723, "learning_rate": 3.414351851851852e-06, "loss": 0.3271, "step": 2704 }, { "epoch": 2.8177083333333335, "grad_norm": 0.20808027097821577, "learning_rate": 3.3950617283950617e-06, "loss": 0.3625, "step": 2705 }, { "epoch": 2.81875, "grad_norm": 0.19485091468926138, "learning_rate": 3.3757716049382714e-06, "loss": 0.3817, "step": 2706 }, { "epoch": 2.8197916666666667, "grad_norm": 0.18878297345629003, "learning_rate": 3.356481481481482e-06, "loss": 0.3313, "step": 2707 }, { "epoch": 2.8208333333333333, "grad_norm": 0.18807430733499636, "learning_rate": 3.3371913580246916e-06, "loss": 0.3317, "step": 2708 }, { "epoch": 2.821875, "grad_norm": 0.2007569450558478, "learning_rate": 3.3179012345679013e-06, "loss": 0.3554, "step": 2709 }, { "epoch": 2.8229166666666665, "grad_norm": 0.18940721874466415, "learning_rate": 3.2986111111111115e-06, "loss": 0.2893, "step": 2710 }, { "epoch": 2.8239583333333336, "grad_norm": 0.1792990070474147, "learning_rate": 3.279320987654321e-06, "loss": 0.3261, "step": 2711 }, { "epoch": 2.825, "grad_norm": 0.1839523728025059, "learning_rate": 3.260030864197531e-06, "loss": 0.305, "step": 2712 }, { "epoch": 2.826041666666667, "grad_norm": 0.1958381375551356, "learning_rate": 3.2407407407407406e-06, "loss": 0.382, "step": 2713 }, { "epoch": 2.8270833333333334, "grad_norm": 0.20193102326550344, "learning_rate": 3.2214506172839503e-06, "loss": 0.3927, "step": 2714 }, { "epoch": 2.828125, "grad_norm": 0.18869309654449365, "learning_rate": 3.202160493827161e-06, "loss": 0.3511, "step": 2715 }, { "epoch": 2.8291666666666666, "grad_norm": 0.20728558506645692, "learning_rate": 3.1828703703703706e-06, "loss": 0.4083, "step": 2716 }, { "epoch": 2.830208333333333, "grad_norm": 0.19920431225795626, "learning_rate": 3.1635802469135807e-06, "loss": 0.3604, "step": 2717 }, { "epoch": 2.83125, "grad_norm": 0.1809014053728453, "learning_rate": 3.1442901234567904e-06, "loss": 0.3166, "step": 2718 }, { "epoch": 2.8322916666666664, "grad_norm": 0.2142953053751769, "learning_rate": 3.125e-06, "loss": 0.384, "step": 2719 }, { "epoch": 2.8333333333333335, "grad_norm": 0.18751406088741474, "learning_rate": 3.10570987654321e-06, "loss": 0.3307, "step": 2720 }, { "epoch": 2.834375, "grad_norm": 0.25704801615273576, "learning_rate": 3.0864197530864196e-06, "loss": 0.3926, "step": 2721 }, { "epoch": 2.8354166666666667, "grad_norm": 0.19794793659229853, "learning_rate": 3.0671296296296297e-06, "loss": 0.3608, "step": 2722 }, { "epoch": 2.8364583333333333, "grad_norm": 0.20699979340497976, "learning_rate": 3.04783950617284e-06, "loss": 0.3414, "step": 2723 }, { "epoch": 2.8375, "grad_norm": 0.22542629138751338, "learning_rate": 3.0285493827160496e-06, "loss": 0.3392, "step": 2724 }, { "epoch": 2.8385416666666665, "grad_norm": 0.2060451065716047, "learning_rate": 3.0092592592592593e-06, "loss": 0.3629, "step": 2725 }, { "epoch": 2.8395833333333336, "grad_norm": 0.19761087246405146, "learning_rate": 2.9899691358024694e-06, "loss": 0.3617, "step": 2726 }, { "epoch": 2.840625, "grad_norm": 0.19217567013945516, "learning_rate": 2.970679012345679e-06, "loss": 0.352, "step": 2727 }, { "epoch": 2.841666666666667, "grad_norm": 0.19360387044602687, "learning_rate": 2.951388888888889e-06, "loss": 0.3236, "step": 2728 }, { "epoch": 2.8427083333333334, "grad_norm": 0.19155050617013966, "learning_rate": 2.932098765432099e-06, "loss": 0.3187, "step": 2729 }, { "epoch": 2.84375, "grad_norm": 0.20934516491765734, "learning_rate": 2.912808641975309e-06, "loss": 0.4016, "step": 2730 }, { "epoch": 2.8447916666666666, "grad_norm": 0.1923377929613002, "learning_rate": 2.893518518518519e-06, "loss": 0.3655, "step": 2731 }, { "epoch": 2.845833333333333, "grad_norm": 0.19963999873661073, "learning_rate": 2.8742283950617285e-06, "loss": 0.3714, "step": 2732 }, { "epoch": 2.846875, "grad_norm": 0.18595160858284354, "learning_rate": 2.8549382716049382e-06, "loss": 0.3248, "step": 2733 }, { "epoch": 2.8479166666666664, "grad_norm": 0.23031720978392084, "learning_rate": 2.8356481481481484e-06, "loss": 0.4194, "step": 2734 }, { "epoch": 2.8489583333333335, "grad_norm": 0.1825667180778518, "learning_rate": 2.816358024691358e-06, "loss": 0.3099, "step": 2735 }, { "epoch": 2.85, "grad_norm": 0.1902225493149746, "learning_rate": 2.7970679012345678e-06, "loss": 0.3672, "step": 2736 }, { "epoch": 2.8510416666666667, "grad_norm": 0.19357009767333394, "learning_rate": 2.777777777777778e-06, "loss": 0.3513, "step": 2737 }, { "epoch": 2.8520833333333333, "grad_norm": 0.20691484333000154, "learning_rate": 2.758487654320988e-06, "loss": 0.4012, "step": 2738 }, { "epoch": 2.853125, "grad_norm": 0.19192301858503877, "learning_rate": 2.7391975308641978e-06, "loss": 0.3534, "step": 2739 }, { "epoch": 2.8541666666666665, "grad_norm": 0.18714295763216876, "learning_rate": 2.7199074074074075e-06, "loss": 0.3392, "step": 2740 }, { "epoch": 2.8552083333333336, "grad_norm": 0.1908757197271823, "learning_rate": 2.700617283950617e-06, "loss": 0.3481, "step": 2741 }, { "epoch": 2.85625, "grad_norm": 0.20719032823705164, "learning_rate": 2.6813271604938273e-06, "loss": 0.3959, "step": 2742 }, { "epoch": 2.857291666666667, "grad_norm": 0.187769080234869, "learning_rate": 2.662037037037037e-06, "loss": 0.3202, "step": 2743 }, { "epoch": 2.8583333333333334, "grad_norm": 0.1931644290038238, "learning_rate": 2.642746913580247e-06, "loss": 0.3681, "step": 2744 }, { "epoch": 2.859375, "grad_norm": 0.20887584060238515, "learning_rate": 2.623456790123457e-06, "loss": 0.3498, "step": 2745 }, { "epoch": 2.8604166666666666, "grad_norm": 0.20095742254281432, "learning_rate": 2.604166666666667e-06, "loss": 0.331, "step": 2746 }, { "epoch": 2.861458333333333, "grad_norm": 0.19879484540819645, "learning_rate": 2.5848765432098767e-06, "loss": 0.3712, "step": 2747 }, { "epoch": 2.8625, "grad_norm": 0.1886981426518486, "learning_rate": 2.5655864197530864e-06, "loss": 0.3492, "step": 2748 }, { "epoch": 2.8635416666666664, "grad_norm": 0.19272884972945306, "learning_rate": 2.546296296296296e-06, "loss": 0.3244, "step": 2749 }, { "epoch": 2.8645833333333335, "grad_norm": 0.19154366006299692, "learning_rate": 2.5270061728395063e-06, "loss": 0.3358, "step": 2750 }, { "epoch": 2.865625, "grad_norm": 0.18702349071153, "learning_rate": 2.5077160493827164e-06, "loss": 0.3528, "step": 2751 }, { "epoch": 2.8666666666666667, "grad_norm": 0.19185181285070227, "learning_rate": 2.488425925925926e-06, "loss": 0.3305, "step": 2752 }, { "epoch": 2.8677083333333333, "grad_norm": 0.18115627012986257, "learning_rate": 2.469135802469136e-06, "loss": 0.3094, "step": 2753 }, { "epoch": 2.86875, "grad_norm": 0.1900698286252152, "learning_rate": 2.449845679012346e-06, "loss": 0.3541, "step": 2754 }, { "epoch": 2.8697916666666665, "grad_norm": 0.1845722703607405, "learning_rate": 2.4305555555555557e-06, "loss": 0.3326, "step": 2755 }, { "epoch": 2.8708333333333336, "grad_norm": 0.19264979231188775, "learning_rate": 2.4112654320987654e-06, "loss": 0.3733, "step": 2756 }, { "epoch": 2.871875, "grad_norm": 0.19037865397579326, "learning_rate": 2.391975308641975e-06, "loss": 0.3634, "step": 2757 }, { "epoch": 2.872916666666667, "grad_norm": 0.1945783586177681, "learning_rate": 2.3726851851851852e-06, "loss": 0.3884, "step": 2758 }, { "epoch": 2.8739583333333334, "grad_norm": 0.19203205200484408, "learning_rate": 2.3533950617283954e-06, "loss": 0.3381, "step": 2759 }, { "epoch": 2.875, "grad_norm": 0.1874555828536967, "learning_rate": 2.334104938271605e-06, "loss": 0.3531, "step": 2760 }, { "epoch": 2.8760416666666666, "grad_norm": 0.18706476178171697, "learning_rate": 2.3148148148148148e-06, "loss": 0.3393, "step": 2761 }, { "epoch": 2.877083333333333, "grad_norm": 0.19922082785748893, "learning_rate": 2.295524691358025e-06, "loss": 0.3611, "step": 2762 }, { "epoch": 2.878125, "grad_norm": 0.21265639731932576, "learning_rate": 2.2762345679012346e-06, "loss": 0.4174, "step": 2763 }, { "epoch": 2.8791666666666664, "grad_norm": 0.1915806821543684, "learning_rate": 2.2569444444444443e-06, "loss": 0.3199, "step": 2764 }, { "epoch": 2.8802083333333335, "grad_norm": 0.18991392386211203, "learning_rate": 2.2376543209876545e-06, "loss": 0.3742, "step": 2765 }, { "epoch": 2.88125, "grad_norm": 0.19353774654716877, "learning_rate": 2.2183641975308646e-06, "loss": 0.3508, "step": 2766 }, { "epoch": 2.8822916666666667, "grad_norm": 0.21216119953888077, "learning_rate": 2.1990740740740743e-06, "loss": 0.4322, "step": 2767 }, { "epoch": 2.8833333333333333, "grad_norm": 0.18747196573794908, "learning_rate": 2.179783950617284e-06, "loss": 0.3039, "step": 2768 }, { "epoch": 2.884375, "grad_norm": 0.19595447949212436, "learning_rate": 2.1604938271604937e-06, "loss": 0.3658, "step": 2769 }, { "epoch": 2.8854166666666665, "grad_norm": 0.2016632929539818, "learning_rate": 2.141203703703704e-06, "loss": 0.3704, "step": 2770 }, { "epoch": 2.8864583333333336, "grad_norm": 0.20418741547271085, "learning_rate": 2.1219135802469136e-06, "loss": 0.3659, "step": 2771 }, { "epoch": 2.8875, "grad_norm": 0.20249067039956903, "learning_rate": 2.1026234567901237e-06, "loss": 0.3907, "step": 2772 }, { "epoch": 2.888541666666667, "grad_norm": 0.2000722387971866, "learning_rate": 2.0833333333333334e-06, "loss": 0.3823, "step": 2773 }, { "epoch": 2.8895833333333334, "grad_norm": 0.19050272029992865, "learning_rate": 2.0640432098765436e-06, "loss": 0.3441, "step": 2774 }, { "epoch": 2.890625, "grad_norm": 0.2018310496700443, "learning_rate": 2.0447530864197533e-06, "loss": 0.3644, "step": 2775 }, { "epoch": 2.8916666666666666, "grad_norm": 0.1761608320203578, "learning_rate": 2.025462962962963e-06, "loss": 0.3077, "step": 2776 }, { "epoch": 2.892708333333333, "grad_norm": 0.1794185951203665, "learning_rate": 2.0061728395061727e-06, "loss": 0.2993, "step": 2777 }, { "epoch": 2.89375, "grad_norm": 0.19394766742296116, "learning_rate": 1.986882716049383e-06, "loss": 0.3238, "step": 2778 }, { "epoch": 2.8947916666666664, "grad_norm": 0.199946244992565, "learning_rate": 1.9675925925925925e-06, "loss": 0.3556, "step": 2779 }, { "epoch": 2.8958333333333335, "grad_norm": 0.18074204289707332, "learning_rate": 1.9483024691358027e-06, "loss": 0.286, "step": 2780 }, { "epoch": 2.896875, "grad_norm": 0.19006874274956176, "learning_rate": 1.9290123456790124e-06, "loss": 0.3353, "step": 2781 }, { "epoch": 2.8979166666666667, "grad_norm": 0.1882745277116573, "learning_rate": 1.9097222222222225e-06, "loss": 0.3443, "step": 2782 }, { "epoch": 2.8989583333333333, "grad_norm": 0.20182582472325242, "learning_rate": 1.8904320987654322e-06, "loss": 0.3787, "step": 2783 }, { "epoch": 2.9, "grad_norm": 0.18420880073680748, "learning_rate": 1.871141975308642e-06, "loss": 0.3344, "step": 2784 }, { "epoch": 2.9010416666666665, "grad_norm": 0.1962140868133129, "learning_rate": 1.8518518518518519e-06, "loss": 0.3689, "step": 2785 }, { "epoch": 2.9020833333333336, "grad_norm": 0.20293344224993853, "learning_rate": 1.832561728395062e-06, "loss": 0.3748, "step": 2786 }, { "epoch": 2.903125, "grad_norm": 0.17513955035009132, "learning_rate": 1.8132716049382717e-06, "loss": 0.2981, "step": 2787 }, { "epoch": 2.904166666666667, "grad_norm": 0.19835986061563332, "learning_rate": 1.7939814814814816e-06, "loss": 0.3756, "step": 2788 }, { "epoch": 2.9052083333333334, "grad_norm": 0.18071471510041878, "learning_rate": 1.7746913580246913e-06, "loss": 0.3212, "step": 2789 }, { "epoch": 2.90625, "grad_norm": 0.2006497547325484, "learning_rate": 1.7554012345679015e-06, "loss": 0.3775, "step": 2790 }, { "epoch": 2.9072916666666666, "grad_norm": 0.20161327881800256, "learning_rate": 1.7361111111111112e-06, "loss": 0.3715, "step": 2791 }, { "epoch": 2.908333333333333, "grad_norm": 0.2147534128952038, "learning_rate": 1.7168209876543211e-06, "loss": 0.3375, "step": 2792 }, { "epoch": 2.909375, "grad_norm": 0.19106697753473947, "learning_rate": 1.6975308641975308e-06, "loss": 0.3494, "step": 2793 }, { "epoch": 2.9104166666666664, "grad_norm": 0.19698261610925744, "learning_rate": 1.678240740740741e-06, "loss": 0.3643, "step": 2794 }, { "epoch": 2.9114583333333335, "grad_norm": 0.1948380522659313, "learning_rate": 1.6589506172839507e-06, "loss": 0.3817, "step": 2795 }, { "epoch": 2.9125, "grad_norm": 0.21206323471219546, "learning_rate": 1.6396604938271606e-06, "loss": 0.3639, "step": 2796 }, { "epoch": 2.9135416666666667, "grad_norm": 0.18607701532898413, "learning_rate": 1.6203703703703703e-06, "loss": 0.3309, "step": 2797 }, { "epoch": 2.9145833333333333, "grad_norm": 0.1885312777347211, "learning_rate": 1.6010802469135804e-06, "loss": 0.3368, "step": 2798 }, { "epoch": 2.915625, "grad_norm": 0.19628597207585835, "learning_rate": 1.5817901234567904e-06, "loss": 0.3463, "step": 2799 }, { "epoch": 2.9166666666666665, "grad_norm": 0.18883761641230404, "learning_rate": 1.5625e-06, "loss": 0.3414, "step": 2800 }, { "epoch": 2.9177083333333336, "grad_norm": 0.22561948204199891, "learning_rate": 1.5432098765432098e-06, "loss": 0.3455, "step": 2801 }, { "epoch": 2.91875, "grad_norm": 0.19456917105373925, "learning_rate": 1.52391975308642e-06, "loss": 0.3644, "step": 2802 }, { "epoch": 2.919791666666667, "grad_norm": 0.19422142807890733, "learning_rate": 1.5046296296296296e-06, "loss": 0.3595, "step": 2803 }, { "epoch": 2.9208333333333334, "grad_norm": 0.19566895349165284, "learning_rate": 1.4853395061728396e-06, "loss": 0.346, "step": 2804 }, { "epoch": 2.921875, "grad_norm": 0.20625999950249627, "learning_rate": 1.4660493827160495e-06, "loss": 0.405, "step": 2805 }, { "epoch": 2.9229166666666666, "grad_norm": 0.1882052724622744, "learning_rate": 1.4467592592592594e-06, "loss": 0.3384, "step": 2806 }, { "epoch": 2.923958333333333, "grad_norm": 0.18324928056095136, "learning_rate": 1.4274691358024691e-06, "loss": 0.3215, "step": 2807 }, { "epoch": 2.925, "grad_norm": 0.19447424179481182, "learning_rate": 1.408179012345679e-06, "loss": 0.3453, "step": 2808 }, { "epoch": 2.9260416666666664, "grad_norm": 0.19896224812100627, "learning_rate": 1.388888888888889e-06, "loss": 0.3863, "step": 2809 }, { "epoch": 2.9270833333333335, "grad_norm": 0.19021200712370429, "learning_rate": 1.3695987654320989e-06, "loss": 0.3276, "step": 2810 }, { "epoch": 2.928125, "grad_norm": 0.18196033540518308, "learning_rate": 1.3503086419753086e-06, "loss": 0.3302, "step": 2811 }, { "epoch": 2.9291666666666667, "grad_norm": 0.1891737263145788, "learning_rate": 1.3310185185185185e-06, "loss": 0.3646, "step": 2812 }, { "epoch": 2.9302083333333333, "grad_norm": 0.19868139467537133, "learning_rate": 1.3117283950617284e-06, "loss": 0.3744, "step": 2813 }, { "epoch": 2.93125, "grad_norm": 0.1972658848645384, "learning_rate": 1.2924382716049384e-06, "loss": 0.3735, "step": 2814 }, { "epoch": 2.9322916666666665, "grad_norm": 0.19704523934487767, "learning_rate": 1.273148148148148e-06, "loss": 0.3728, "step": 2815 }, { "epoch": 2.9333333333333336, "grad_norm": 0.19382929699259296, "learning_rate": 1.2538580246913582e-06, "loss": 0.3673, "step": 2816 }, { "epoch": 2.934375, "grad_norm": 0.19405725865750012, "learning_rate": 1.234567901234568e-06, "loss": 0.3665, "step": 2817 }, { "epoch": 2.935416666666667, "grad_norm": 0.19618170214749694, "learning_rate": 1.2152777777777778e-06, "loss": 0.3671, "step": 2818 }, { "epoch": 2.9364583333333334, "grad_norm": 0.17384823968649987, "learning_rate": 1.1959876543209875e-06, "loss": 0.2956, "step": 2819 }, { "epoch": 2.9375, "grad_norm": 0.18501096827748495, "learning_rate": 1.1766975308641977e-06, "loss": 0.3123, "step": 2820 }, { "epoch": 2.9385416666666666, "grad_norm": 0.19186699013115727, "learning_rate": 1.1574074074074074e-06, "loss": 0.3507, "step": 2821 }, { "epoch": 2.939583333333333, "grad_norm": 0.18558607159903118, "learning_rate": 1.1381172839506173e-06, "loss": 0.3379, "step": 2822 }, { "epoch": 2.940625, "grad_norm": 0.19069914141972186, "learning_rate": 1.1188271604938272e-06, "loss": 0.378, "step": 2823 }, { "epoch": 2.9416666666666664, "grad_norm": 0.18255691873284952, "learning_rate": 1.0995370370370372e-06, "loss": 0.3312, "step": 2824 }, { "epoch": 2.9427083333333335, "grad_norm": 0.18280980932982274, "learning_rate": 1.0802469135802469e-06, "loss": 0.3246, "step": 2825 }, { "epoch": 2.94375, "grad_norm": 0.19401986198872667, "learning_rate": 1.0609567901234568e-06, "loss": 0.3589, "step": 2826 }, { "epoch": 2.9447916666666667, "grad_norm": 0.1916956169728279, "learning_rate": 1.0416666666666667e-06, "loss": 0.3722, "step": 2827 }, { "epoch": 2.9458333333333333, "grad_norm": 0.18380285178337596, "learning_rate": 1.0223765432098766e-06, "loss": 0.3563, "step": 2828 }, { "epoch": 2.946875, "grad_norm": 0.21449703606501158, "learning_rate": 1.0030864197530864e-06, "loss": 0.3285, "step": 2829 }, { "epoch": 2.9479166666666665, "grad_norm": 0.19454099264955516, "learning_rate": 9.837962962962963e-07, "loss": 0.389, "step": 2830 }, { "epoch": 2.9489583333333336, "grad_norm": 0.192505094845411, "learning_rate": 9.645061728395062e-07, "loss": 0.3354, "step": 2831 }, { "epoch": 2.95, "grad_norm": 0.19288964633700165, "learning_rate": 9.452160493827161e-07, "loss": 0.3523, "step": 2832 }, { "epoch": 2.951041666666667, "grad_norm": 0.18106068835859296, "learning_rate": 9.259259259259259e-07, "loss": 0.2976, "step": 2833 }, { "epoch": 2.9520833333333334, "grad_norm": 0.19457330120420144, "learning_rate": 9.066358024691359e-07, "loss": 0.3569, "step": 2834 }, { "epoch": 2.953125, "grad_norm": 0.17739668125390953, "learning_rate": 8.873456790123457e-07, "loss": 0.3089, "step": 2835 }, { "epoch": 2.9541666666666666, "grad_norm": 0.18528854783407292, "learning_rate": 8.680555555555556e-07, "loss": 0.3218, "step": 2836 }, { "epoch": 2.955208333333333, "grad_norm": 0.2003111826662553, "learning_rate": 8.487654320987654e-07, "loss": 0.3833, "step": 2837 }, { "epoch": 2.95625, "grad_norm": 0.18420308258109103, "learning_rate": 8.294753086419753e-07, "loss": 0.3161, "step": 2838 }, { "epoch": 2.9572916666666664, "grad_norm": 0.1826777388818626, "learning_rate": 8.101851851851852e-07, "loss": 0.295, "step": 2839 }, { "epoch": 2.9583333333333335, "grad_norm": 0.19140217266954188, "learning_rate": 7.908950617283952e-07, "loss": 0.3647, "step": 2840 }, { "epoch": 2.959375, "grad_norm": 0.19561521439493537, "learning_rate": 7.716049382716049e-07, "loss": 0.3344, "step": 2841 }, { "epoch": 2.9604166666666667, "grad_norm": 0.1936964868512432, "learning_rate": 7.523148148148148e-07, "loss": 0.3633, "step": 2842 }, { "epoch": 2.9614583333333333, "grad_norm": 0.1916525106264487, "learning_rate": 7.330246913580247e-07, "loss": 0.352, "step": 2843 }, { "epoch": 2.9625, "grad_norm": 0.22022007987057057, "learning_rate": 7.137345679012346e-07, "loss": 0.3668, "step": 2844 }, { "epoch": 2.9635416666666665, "grad_norm": 0.19142513456197696, "learning_rate": 6.944444444444445e-07, "loss": 0.3637, "step": 2845 }, { "epoch": 2.9645833333333336, "grad_norm": 0.16958645362510957, "learning_rate": 6.751543209876543e-07, "loss": 0.2827, "step": 2846 }, { "epoch": 2.965625, "grad_norm": 0.1850732659563815, "learning_rate": 6.558641975308642e-07, "loss": 0.3299, "step": 2847 }, { "epoch": 2.966666666666667, "grad_norm": 0.25398578083320095, "learning_rate": 6.36574074074074e-07, "loss": 0.3872, "step": 2848 }, { "epoch": 2.9677083333333334, "grad_norm": 0.2071870978098475, "learning_rate": 6.17283950617284e-07, "loss": 0.4332, "step": 2849 }, { "epoch": 2.96875, "grad_norm": 0.1815132763788875, "learning_rate": 5.979938271604938e-07, "loss": 0.3249, "step": 2850 }, { "epoch": 2.9697916666666666, "grad_norm": 0.18308587785699204, "learning_rate": 5.787037037037037e-07, "loss": 0.3274, "step": 2851 }, { "epoch": 2.970833333333333, "grad_norm": 0.19862758053229929, "learning_rate": 5.594135802469136e-07, "loss": 0.3749, "step": 2852 }, { "epoch": 2.971875, "grad_norm": 0.18076487274841757, "learning_rate": 5.401234567901234e-07, "loss": 0.3135, "step": 2853 }, { "epoch": 2.9729166666666664, "grad_norm": 0.1801870052361974, "learning_rate": 5.208333333333334e-07, "loss": 0.3092, "step": 2854 }, { "epoch": 2.9739583333333335, "grad_norm": 0.17782506771541298, "learning_rate": 5.015432098765432e-07, "loss": 0.3057, "step": 2855 }, { "epoch": 2.975, "grad_norm": 0.17979408616776701, "learning_rate": 4.822530864197531e-07, "loss": 0.3185, "step": 2856 }, { "epoch": 2.9760416666666667, "grad_norm": 0.19592562765541557, "learning_rate": 4.6296296296296297e-07, "loss": 0.3785, "step": 2857 }, { "epoch": 2.9770833333333333, "grad_norm": 0.18475965476197628, "learning_rate": 4.4367283950617284e-07, "loss": 0.3457, "step": 2858 }, { "epoch": 2.978125, "grad_norm": 0.1799307523773328, "learning_rate": 4.243827160493827e-07, "loss": 0.3229, "step": 2859 }, { "epoch": 2.9791666666666665, "grad_norm": 0.19599127753019277, "learning_rate": 4.050925925925926e-07, "loss": 0.348, "step": 2860 }, { "epoch": 2.9802083333333336, "grad_norm": 0.19204778671232955, "learning_rate": 3.8580246913580245e-07, "loss": 0.371, "step": 2861 }, { "epoch": 2.98125, "grad_norm": 0.19271693779004612, "learning_rate": 3.6651234567901237e-07, "loss": 0.3641, "step": 2862 }, { "epoch": 2.982291666666667, "grad_norm": 0.16240369487496367, "learning_rate": 3.4722222222222224e-07, "loss": 0.2808, "step": 2863 }, { "epoch": 2.9833333333333334, "grad_norm": 0.1778820272951917, "learning_rate": 3.279320987654321e-07, "loss": 0.3028, "step": 2864 }, { "epoch": 2.984375, "grad_norm": 0.18627590780513834, "learning_rate": 3.08641975308642e-07, "loss": 0.35, "step": 2865 }, { "epoch": 2.9854166666666666, "grad_norm": 0.19285444499209872, "learning_rate": 2.8935185185185185e-07, "loss": 0.3718, "step": 2866 }, { "epoch": 2.986458333333333, "grad_norm": 0.18341973581694787, "learning_rate": 2.700617283950617e-07, "loss": 0.3152, "step": 2867 }, { "epoch": 2.9875, "grad_norm": 0.18703766692569973, "learning_rate": 2.507716049382716e-07, "loss": 0.3214, "step": 2868 }, { "epoch": 2.9885416666666664, "grad_norm": 0.18757133593687114, "learning_rate": 2.3148148148148148e-07, "loss": 0.3425, "step": 2869 }, { "epoch": 2.9895833333333335, "grad_norm": 0.1881769642783043, "learning_rate": 2.1219135802469135e-07, "loss": 0.3376, "step": 2870 }, { "epoch": 2.990625, "grad_norm": 0.20131298290075342, "learning_rate": 1.9290123456790122e-07, "loss": 0.3854, "step": 2871 }, { "epoch": 2.9916666666666667, "grad_norm": 0.19265546858624824, "learning_rate": 1.7361111111111112e-07, "loss": 0.3675, "step": 2872 }, { "epoch": 2.9927083333333333, "grad_norm": 0.18290291189470523, "learning_rate": 1.54320987654321e-07, "loss": 0.335, "step": 2873 }, { "epoch": 2.99375, "grad_norm": 0.19542742483901585, "learning_rate": 1.3503086419753086e-07, "loss": 0.3736, "step": 2874 }, { "epoch": 2.9947916666666665, "grad_norm": 0.18442936644011318, "learning_rate": 1.1574074074074074e-07, "loss": 0.3368, "step": 2875 }, { "epoch": 2.9958333333333336, "grad_norm": 0.19747495414158614, "learning_rate": 9.645061728395061e-08, "loss": 0.3774, "step": 2876 }, { "epoch": 2.996875, "grad_norm": 0.17596008164723934, "learning_rate": 7.71604938271605e-08, "loss": 0.2955, "step": 2877 }, { "epoch": 2.997916666666667, "grad_norm": 0.19169490568726574, "learning_rate": 5.787037037037037e-08, "loss": 0.3462, "step": 2878 }, { "epoch": 2.9989583333333334, "grad_norm": 0.18331836076636915, "learning_rate": 3.858024691358025e-08, "loss": 0.3376, "step": 2879 }, { "epoch": 3.0, "grad_norm": 0.2146025381571329, "learning_rate": 1.9290123456790124e-08, "loss": 0.3752, "step": 2880 }, { "epoch": 3.0, "step": 2880, "total_flos": 3.2030340389114216e+19, "train_loss": 0.5242919305442936, "train_runtime": 91245.058, "train_samples_per_second": 0.505, "train_steps_per_second": 0.032 } ], "logging_steps": 1, "max_steps": 2880, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3.2030340389114216e+19, "train_batch_size": 2, "trial_name": null, "trial_params": null }