diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,15811 @@ +{ + "best_global_step": 1500, + "best_metric": 0.2072431445121765, + "best_model_checkpoint": "./results\\checkpoint-1500", + "epoch": 3.0, + "eval_steps": 500, + "global_step": 2250, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0013333333333333333, + "grad_norm": 14.627123832702637, + "learning_rate": 1.999111111111111e-05, + "loss": 0.641, + "step": 1 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 8.339805603027344, + "learning_rate": 1.9982222222222224e-05, + "loss": 0.607, + "step": 2 + }, + { + "epoch": 0.004, + "grad_norm": 19.532424926757812, + "learning_rate": 1.9973333333333334e-05, + "loss": 0.6549, + "step": 3 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 6.6504387855529785, + "learning_rate": 1.9964444444444447e-05, + "loss": 0.6999, + "step": 4 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 8.93764877319336, + "learning_rate": 1.9955555555555557e-05, + "loss": 0.633, + "step": 5 + }, + { + "epoch": 0.008, + "grad_norm": 14.934470176696777, + "learning_rate": 1.9946666666666667e-05, + "loss": 0.7584, + "step": 6 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 5.578488349914551, + "learning_rate": 1.993777777777778e-05, + "loss": 0.6476, + "step": 7 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 1.7294061183929443, + "learning_rate": 1.992888888888889e-05, + "loss": 0.6603, + "step": 8 + }, + { + "epoch": 0.012, + "grad_norm": 2.150653839111328, + "learning_rate": 1.9920000000000002e-05, + "loss": 0.7034, + "step": 9 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 5.418308258056641, + "learning_rate": 1.9911111111111112e-05, + "loss": 0.7293, + "step": 10 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 3.007488965988159, + "learning_rate": 1.9902222222222222e-05, + "loss": 0.7331, + "step": 11 + }, + { + "epoch": 0.016, + "grad_norm": 6.692118167877197, + "learning_rate": 1.9893333333333335e-05, + "loss": 0.6618, + "step": 12 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 2.7864668369293213, + "learning_rate": 1.9884444444444445e-05, + "loss": 0.6782, + "step": 13 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 2.2261343002319336, + "learning_rate": 1.9875555555555558e-05, + "loss": 0.7033, + "step": 14 + }, + { + "epoch": 0.02, + "grad_norm": 4.2621331214904785, + "learning_rate": 1.9866666666666667e-05, + "loss": 0.7, + "step": 15 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 2.4400110244750977, + "learning_rate": 1.985777777777778e-05, + "loss": 0.6917, + "step": 16 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 1.43474543094635, + "learning_rate": 1.984888888888889e-05, + "loss": 0.6723, + "step": 17 + }, + { + "epoch": 0.024, + "grad_norm": 2.127255439758301, + "learning_rate": 1.9840000000000003e-05, + "loss": 0.6943, + "step": 18 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 2.1291377544403076, + "learning_rate": 1.9831111111111113e-05, + "loss": 0.7033, + "step": 19 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 2.4452574253082275, + "learning_rate": 1.9822222222222226e-05, + "loss": 0.7183, + "step": 20 + }, + { + "epoch": 0.028, + "grad_norm": 2.547071933746338, + "learning_rate": 1.9813333333333336e-05, + "loss": 0.6713, + "step": 21 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 2.5004894733428955, + "learning_rate": 1.9804444444444445e-05, + "loss": 0.6804, + "step": 22 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 2.245891809463501, + "learning_rate": 1.979555555555556e-05, + "loss": 0.6819, + "step": 23 + }, + { + "epoch": 0.032, + "grad_norm": 3.817145347595215, + "learning_rate": 1.9786666666666668e-05, + "loss": 0.6791, + "step": 24 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 2.1110892295837402, + "learning_rate": 1.977777777777778e-05, + "loss": 0.7047, + "step": 25 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 2.3187880516052246, + "learning_rate": 1.976888888888889e-05, + "loss": 0.6859, + "step": 26 + }, + { + "epoch": 0.036, + "grad_norm": 1.3281068801879883, + "learning_rate": 1.976e-05, + "loss": 0.6727, + "step": 27 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 4.084102630615234, + "learning_rate": 1.9751111111111114e-05, + "loss": 0.6851, + "step": 28 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 1.8853222131729126, + "learning_rate": 1.9742222222222223e-05, + "loss": 0.6676, + "step": 29 + }, + { + "epoch": 0.04, + "grad_norm": 7.0090484619140625, + "learning_rate": 1.9733333333333336e-05, + "loss": 0.6784, + "step": 30 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 5.903691291809082, + "learning_rate": 1.9724444444444446e-05, + "loss": 0.7149, + "step": 31 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 4.953393459320068, + "learning_rate": 1.9715555555555556e-05, + "loss": 0.7093, + "step": 32 + }, + { + "epoch": 0.044, + "grad_norm": 3.9873998165130615, + "learning_rate": 1.970666666666667e-05, + "loss": 0.6346, + "step": 33 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 26.10811424255371, + "learning_rate": 1.969777777777778e-05, + "loss": 0.8086, + "step": 34 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 12.336629867553711, + "learning_rate": 1.968888888888889e-05, + "loss": 0.7103, + "step": 35 + }, + { + "epoch": 0.048, + "grad_norm": 15.208534240722656, + "learning_rate": 1.968e-05, + "loss": 0.7923, + "step": 36 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 4.430299282073975, + "learning_rate": 1.967111111111111e-05, + "loss": 0.6638, + "step": 37 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 3.1420223712921143, + "learning_rate": 1.9662222222222224e-05, + "loss": 0.6707, + "step": 38 + }, + { + "epoch": 0.052, + "grad_norm": 9.945216178894043, + "learning_rate": 1.9653333333333334e-05, + "loss": 0.6135, + "step": 39 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 5.429318904876709, + "learning_rate": 1.9644444444444447e-05, + "loss": 0.6783, + "step": 40 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 4.606677055358887, + "learning_rate": 1.9635555555555557e-05, + "loss": 0.6463, + "step": 41 + }, + { + "epoch": 0.056, + "grad_norm": 7.693625450134277, + "learning_rate": 1.9626666666666666e-05, + "loss": 0.716, + "step": 42 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 18.05965232849121, + "learning_rate": 1.961777777777778e-05, + "loss": 0.6252, + "step": 43 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 22.838586807250977, + "learning_rate": 1.960888888888889e-05, + "loss": 0.6246, + "step": 44 + }, + { + "epoch": 0.06, + "grad_norm": 35.062557220458984, + "learning_rate": 1.9600000000000002e-05, + "loss": 0.6546, + "step": 45 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 23.6820011138916, + "learning_rate": 1.9591111111111112e-05, + "loss": 0.6507, + "step": 46 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 37.164493560791016, + "learning_rate": 1.9582222222222225e-05, + "loss": 0.7308, + "step": 47 + }, + { + "epoch": 0.064, + "grad_norm": 34.39842987060547, + "learning_rate": 1.9573333333333335e-05, + "loss": 0.6238, + "step": 48 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 27.432872772216797, + "learning_rate": 1.9564444444444444e-05, + "loss": 0.5166, + "step": 49 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 20.374731063842773, + "learning_rate": 1.9555555555555557e-05, + "loss": 0.6095, + "step": 50 + }, + { + "epoch": 0.068, + "grad_norm": 11.77329158782959, + "learning_rate": 1.954666666666667e-05, + "loss": 0.448, + "step": 51 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 14.339151382446289, + "learning_rate": 1.953777777777778e-05, + "loss": 0.503, + "step": 52 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 12.430675506591797, + "learning_rate": 1.952888888888889e-05, + "loss": 0.389, + "step": 53 + }, + { + "epoch": 0.072, + "grad_norm": 20.04888343811035, + "learning_rate": 1.9520000000000003e-05, + "loss": 0.5957, + "step": 54 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 18.25558090209961, + "learning_rate": 1.9511111111111113e-05, + "loss": 0.5074, + "step": 55 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 17.257631301879883, + "learning_rate": 1.9502222222222226e-05, + "loss": 0.4241, + "step": 56 + }, + { + "epoch": 0.076, + "grad_norm": 22.133024215698242, + "learning_rate": 1.9493333333333335e-05, + "loss": 0.3963, + "step": 57 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 45.5373420715332, + "learning_rate": 1.9484444444444445e-05, + "loss": 0.4011, + "step": 58 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 10.581801414489746, + "learning_rate": 1.9475555555555558e-05, + "loss": 0.2981, + "step": 59 + }, + { + "epoch": 0.08, + "grad_norm": 12.735737800598145, + "learning_rate": 1.9466666666666668e-05, + "loss": 0.4726, + "step": 60 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 23.795799255371094, + "learning_rate": 1.945777777777778e-05, + "loss": 0.1834, + "step": 61 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 147.20193481445312, + "learning_rate": 1.944888888888889e-05, + "loss": 0.3594, + "step": 62 + }, + { + "epoch": 0.084, + "grad_norm": 30.774818420410156, + "learning_rate": 1.944e-05, + "loss": 0.6646, + "step": 63 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 106.9747314453125, + "learning_rate": 1.9431111111111113e-05, + "loss": 0.4138, + "step": 64 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 28.15129852294922, + "learning_rate": 1.9422222222222223e-05, + "loss": 0.1519, + "step": 65 + }, + { + "epoch": 0.088, + "grad_norm": 65.99510192871094, + "learning_rate": 1.9413333333333336e-05, + "loss": 0.4227, + "step": 66 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 26.523038864135742, + "learning_rate": 1.9404444444444446e-05, + "loss": 0.4324, + "step": 67 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 12.523640632629395, + "learning_rate": 1.9395555555555555e-05, + "loss": 0.2757, + "step": 68 + }, + { + "epoch": 0.092, + "grad_norm": 19.895227432250977, + "learning_rate": 1.938666666666667e-05, + "loss": 0.1715, + "step": 69 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 31.011396408081055, + "learning_rate": 1.9377777777777778e-05, + "loss": 0.5117, + "step": 70 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 39.200538635253906, + "learning_rate": 1.936888888888889e-05, + "loss": 0.2969, + "step": 71 + }, + { + "epoch": 0.096, + "grad_norm": 56.112220764160156, + "learning_rate": 1.936e-05, + "loss": 0.9901, + "step": 72 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 51.38960647583008, + "learning_rate": 1.935111111111111e-05, + "loss": 0.4334, + "step": 73 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 21.136308670043945, + "learning_rate": 1.9342222222222224e-05, + "loss": 0.4649, + "step": 74 + }, + { + "epoch": 0.1, + "grad_norm": 46.013893127441406, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.2489, + "step": 75 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 14.146453857421875, + "learning_rate": 1.9324444444444447e-05, + "loss": 0.2653, + "step": 76 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 71.07035827636719, + "learning_rate": 1.9315555555555556e-05, + "loss": 0.4237, + "step": 77 + }, + { + "epoch": 0.104, + "grad_norm": 52.125553131103516, + "learning_rate": 1.930666666666667e-05, + "loss": 0.2287, + "step": 78 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 24.527158737182617, + "learning_rate": 1.929777777777778e-05, + "loss": 0.2826, + "step": 79 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 49.83603286743164, + "learning_rate": 1.928888888888889e-05, + "loss": 0.1461, + "step": 80 + }, + { + "epoch": 0.108, + "grad_norm": 110.55599975585938, + "learning_rate": 1.9280000000000002e-05, + "loss": 0.7141, + "step": 81 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 37.84483337402344, + "learning_rate": 1.9271111111111115e-05, + "loss": 0.3355, + "step": 82 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 27.611156463623047, + "learning_rate": 1.9262222222222225e-05, + "loss": 0.3372, + "step": 83 + }, + { + "epoch": 0.112, + "grad_norm": 70.65190887451172, + "learning_rate": 1.9253333333333334e-05, + "loss": 0.2155, + "step": 84 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 43.26824188232422, + "learning_rate": 1.9244444444444444e-05, + "loss": 0.4195, + "step": 85 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 13.488179206848145, + "learning_rate": 1.9235555555555557e-05, + "loss": 0.2769, + "step": 86 + }, + { + "epoch": 0.116, + "grad_norm": 76.66094970703125, + "learning_rate": 1.922666666666667e-05, + "loss": 0.5636, + "step": 87 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 51.19622802734375, + "learning_rate": 1.921777777777778e-05, + "loss": 0.2768, + "step": 88 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 65.36180114746094, + "learning_rate": 1.920888888888889e-05, + "loss": 0.5693, + "step": 89 + }, + { + "epoch": 0.12, + "grad_norm": 55.0505256652832, + "learning_rate": 1.9200000000000003e-05, + "loss": 0.8887, + "step": 90 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 99.0514907836914, + "learning_rate": 1.9191111111111112e-05, + "loss": 0.6066, + "step": 91 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 18.720666885375977, + "learning_rate": 1.9182222222222225e-05, + "loss": 0.4445, + "step": 92 + }, + { + "epoch": 0.124, + "grad_norm": 21.557336807250977, + "learning_rate": 1.9173333333333335e-05, + "loss": 0.4883, + "step": 93 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 33.96916198730469, + "learning_rate": 1.9164444444444445e-05, + "loss": 0.3203, + "step": 94 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 14.431241035461426, + "learning_rate": 1.9155555555555558e-05, + "loss": 0.2389, + "step": 95 + }, + { + "epoch": 0.128, + "grad_norm": 13.130929946899414, + "learning_rate": 1.9146666666666667e-05, + "loss": 0.3435, + "step": 96 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 10.08653450012207, + "learning_rate": 1.913777777777778e-05, + "loss": 0.1494, + "step": 97 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 44.454036712646484, + "learning_rate": 1.912888888888889e-05, + "loss": 0.3473, + "step": 98 + }, + { + "epoch": 0.132, + "grad_norm": 16.56328010559082, + "learning_rate": 1.912e-05, + "loss": 0.3318, + "step": 99 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 66.1546630859375, + "learning_rate": 1.9111111111111113e-05, + "loss": 0.7414, + "step": 100 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 27.151826858520508, + "learning_rate": 1.9102222222222223e-05, + "loss": 0.3135, + "step": 101 + }, + { + "epoch": 0.136, + "grad_norm": 40.466941833496094, + "learning_rate": 1.9093333333333336e-05, + "loss": 0.6338, + "step": 102 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 6.069929122924805, + "learning_rate": 1.9084444444444445e-05, + "loss": 0.2128, + "step": 103 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 13.290542602539062, + "learning_rate": 1.9075555555555555e-05, + "loss": 0.1863, + "step": 104 + }, + { + "epoch": 0.14, + "grad_norm": 7.77833890914917, + "learning_rate": 1.9066666666666668e-05, + "loss": 0.1553, + "step": 105 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 29.634456634521484, + "learning_rate": 1.9057777777777778e-05, + "loss": 0.1609, + "step": 106 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 15.491785049438477, + "learning_rate": 1.904888888888889e-05, + "loss": 0.3027, + "step": 107 + }, + { + "epoch": 0.144, + "grad_norm": 39.57001876831055, + "learning_rate": 1.904e-05, + "loss": 0.2733, + "step": 108 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 1527.8887939453125, + "learning_rate": 1.9031111111111114e-05, + "loss": 0.3483, + "step": 109 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 14.346165657043457, + "learning_rate": 1.9022222222222223e-05, + "loss": 0.2603, + "step": 110 + }, + { + "epoch": 0.148, + "grad_norm": 14.495599746704102, + "learning_rate": 1.9013333333333333e-05, + "loss": 0.6358, + "step": 111 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 93.30735778808594, + "learning_rate": 1.9004444444444446e-05, + "loss": 0.5965, + "step": 112 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 35.31761932373047, + "learning_rate": 1.899555555555556e-05, + "loss": 0.5956, + "step": 113 + }, + { + "epoch": 0.152, + "grad_norm": 24.461896896362305, + "learning_rate": 1.898666666666667e-05, + "loss": 0.5271, + "step": 114 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 44.11582946777344, + "learning_rate": 1.897777777777778e-05, + "loss": 0.3699, + "step": 115 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 39.06887435913086, + "learning_rate": 1.896888888888889e-05, + "loss": 0.4108, + "step": 116 + }, + { + "epoch": 0.156, + "grad_norm": 145.94923400878906, + "learning_rate": 1.896e-05, + "loss": 0.2984, + "step": 117 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 22.59219741821289, + "learning_rate": 1.8951111111111115e-05, + "loss": 0.1692, + "step": 118 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 26.94255256652832, + "learning_rate": 1.8942222222222224e-05, + "loss": 0.2579, + "step": 119 + }, + { + "epoch": 0.16, + "grad_norm": 20.52286720275879, + "learning_rate": 1.8933333333333334e-05, + "loss": 0.2975, + "step": 120 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 10.039375305175781, + "learning_rate": 1.8924444444444447e-05, + "loss": 0.0737, + "step": 121 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 18.642465591430664, + "learning_rate": 1.8915555555555557e-05, + "loss": 0.2514, + "step": 122 + }, + { + "epoch": 0.164, + "grad_norm": 42.480125427246094, + "learning_rate": 1.890666666666667e-05, + "loss": 0.2856, + "step": 123 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 52.896156311035156, + "learning_rate": 1.889777777777778e-05, + "loss": 0.3302, + "step": 124 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 50.55426788330078, + "learning_rate": 1.888888888888889e-05, + "loss": 0.4268, + "step": 125 + }, + { + "epoch": 0.168, + "grad_norm": 41.64912796020508, + "learning_rate": 1.8880000000000002e-05, + "loss": 0.6189, + "step": 126 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 13.792969703674316, + "learning_rate": 1.8871111111111112e-05, + "loss": 0.2548, + "step": 127 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 24.471569061279297, + "learning_rate": 1.8862222222222225e-05, + "loss": 0.1179, + "step": 128 + }, + { + "epoch": 0.172, + "grad_norm": 7.431952953338623, + "learning_rate": 1.8853333333333335e-05, + "loss": 0.0526, + "step": 129 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 64.0350570678711, + "learning_rate": 1.8844444444444444e-05, + "loss": 0.1595, + "step": 130 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 13.014350891113281, + "learning_rate": 1.8835555555555557e-05, + "loss": 0.3233, + "step": 131 + }, + { + "epoch": 0.176, + "grad_norm": 25.82568359375, + "learning_rate": 1.8826666666666667e-05, + "loss": 0.2804, + "step": 132 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 4.614621639251709, + "learning_rate": 1.881777777777778e-05, + "loss": 0.0416, + "step": 133 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 13.02204418182373, + "learning_rate": 1.880888888888889e-05, + "loss": 0.2377, + "step": 134 + }, + { + "epoch": 0.18, + "grad_norm": 30.01548957824707, + "learning_rate": 1.88e-05, + "loss": 0.2225, + "step": 135 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 44.04650115966797, + "learning_rate": 1.8791111111111113e-05, + "loss": 0.2938, + "step": 136 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 36.040340423583984, + "learning_rate": 1.8782222222222222e-05, + "loss": 0.6245, + "step": 137 + }, + { + "epoch": 0.184, + "grad_norm": 69.7017822265625, + "learning_rate": 1.8773333333333335e-05, + "loss": 0.2429, + "step": 138 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 16.8223876953125, + "learning_rate": 1.8764444444444445e-05, + "loss": 0.0419, + "step": 139 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 21.164058685302734, + "learning_rate": 1.8755555555555558e-05, + "loss": 0.2271, + "step": 140 + }, + { + "epoch": 0.188, + "grad_norm": 30.5648193359375, + "learning_rate": 1.8746666666666668e-05, + "loss": 0.1177, + "step": 141 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 7.340837001800537, + "learning_rate": 1.8737777777777778e-05, + "loss": 0.2376, + "step": 142 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 24.0690860748291, + "learning_rate": 1.872888888888889e-05, + "loss": 0.3533, + "step": 143 + }, + { + "epoch": 0.192, + "grad_norm": 21.582782745361328, + "learning_rate": 1.8720000000000004e-05, + "loss": 0.0612, + "step": 144 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 22.44994354248047, + "learning_rate": 1.8711111111111113e-05, + "loss": 0.5625, + "step": 145 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 4.906670570373535, + "learning_rate": 1.8702222222222223e-05, + "loss": 0.0562, + "step": 146 + }, + { + "epoch": 0.196, + "grad_norm": 115.6086654663086, + "learning_rate": 1.8693333333333333e-05, + "loss": 0.6454, + "step": 147 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 38.45610046386719, + "learning_rate": 1.8684444444444446e-05, + "loss": 0.323, + "step": 148 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 49.41714096069336, + "learning_rate": 1.867555555555556e-05, + "loss": 0.0995, + "step": 149 + }, + { + "epoch": 0.2, + "grad_norm": 34.208858489990234, + "learning_rate": 1.866666666666667e-05, + "loss": 0.2251, + "step": 150 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 58.0931396484375, + "learning_rate": 1.865777777777778e-05, + "loss": 0.5394, + "step": 151 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 124.47175598144531, + "learning_rate": 1.8648888888888888e-05, + "loss": 0.0985, + "step": 152 + }, + { + "epoch": 0.204, + "grad_norm": 148.10165405273438, + "learning_rate": 1.864e-05, + "loss": 0.1729, + "step": 153 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 87.4851303100586, + "learning_rate": 1.8631111111111114e-05, + "loss": 0.2575, + "step": 154 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 17.479164123535156, + "learning_rate": 1.8622222222222224e-05, + "loss": 0.6605, + "step": 155 + }, + { + "epoch": 0.208, + "grad_norm": 5.397349834442139, + "learning_rate": 1.8613333333333334e-05, + "loss": 0.0611, + "step": 156 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 31.238000869750977, + "learning_rate": 1.8604444444444447e-05, + "loss": 0.2066, + "step": 157 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 7.753409385681152, + "learning_rate": 1.8595555555555556e-05, + "loss": 0.3145, + "step": 158 + }, + { + "epoch": 0.212, + "grad_norm": 23.79139518737793, + "learning_rate": 1.858666666666667e-05, + "loss": 0.379, + "step": 159 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 9.529422760009766, + "learning_rate": 1.857777777777778e-05, + "loss": 0.105, + "step": 160 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 21.818645477294922, + "learning_rate": 1.856888888888889e-05, + "loss": 0.2623, + "step": 161 + }, + { + "epoch": 0.216, + "grad_norm": 134.34812927246094, + "learning_rate": 1.8560000000000002e-05, + "loss": 0.447, + "step": 162 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 22.48737907409668, + "learning_rate": 1.855111111111111e-05, + "loss": 0.3604, + "step": 163 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 8.137219429016113, + "learning_rate": 1.8542222222222225e-05, + "loss": 0.0699, + "step": 164 + }, + { + "epoch": 0.22, + "grad_norm": 7.612528324127197, + "learning_rate": 1.8533333333333334e-05, + "loss": 0.0756, + "step": 165 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 4.233839511871338, + "learning_rate": 1.8524444444444444e-05, + "loss": 0.044, + "step": 166 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 2.499749183654785, + "learning_rate": 1.8515555555555557e-05, + "loss": 0.0369, + "step": 167 + }, + { + "epoch": 0.224, + "grad_norm": 44.72653579711914, + "learning_rate": 1.8506666666666667e-05, + "loss": 0.5056, + "step": 168 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 94.48715209960938, + "learning_rate": 1.849777777777778e-05, + "loss": 0.9899, + "step": 169 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 50.759273529052734, + "learning_rate": 1.848888888888889e-05, + "loss": 0.4517, + "step": 170 + }, + { + "epoch": 0.228, + "grad_norm": 2.823085069656372, + "learning_rate": 1.8480000000000003e-05, + "loss": 0.0229, + "step": 171 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 10.095349311828613, + "learning_rate": 1.8471111111111112e-05, + "loss": 0.3415, + "step": 172 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 19.520004272460938, + "learning_rate": 1.8462222222222222e-05, + "loss": 0.9845, + "step": 173 + }, + { + "epoch": 0.232, + "grad_norm": 2.6272850036621094, + "learning_rate": 1.8453333333333335e-05, + "loss": 0.0246, + "step": 174 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 24.016042709350586, + "learning_rate": 1.8444444444444448e-05, + "loss": 0.2555, + "step": 175 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 7.339972496032715, + "learning_rate": 1.8435555555555558e-05, + "loss": 0.388, + "step": 176 + }, + { + "epoch": 0.236, + "grad_norm": 29.6446475982666, + "learning_rate": 1.8426666666666668e-05, + "loss": 0.6166, + "step": 177 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 74.16304016113281, + "learning_rate": 1.8417777777777777e-05, + "loss": 0.0331, + "step": 178 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 5.169797420501709, + "learning_rate": 1.840888888888889e-05, + "loss": 0.2821, + "step": 179 + }, + { + "epoch": 0.24, + "grad_norm": 11.803489685058594, + "learning_rate": 1.8400000000000003e-05, + "loss": 0.4419, + "step": 180 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 3.00130295753479, + "learning_rate": 1.8391111111111113e-05, + "loss": 0.0461, + "step": 181 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 2.33852219581604, + "learning_rate": 1.8382222222222223e-05, + "loss": 0.0413, + "step": 182 + }, + { + "epoch": 0.244, + "grad_norm": 37.422027587890625, + "learning_rate": 1.8373333333333332e-05, + "loss": 0.5966, + "step": 183 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 58.58165740966797, + "learning_rate": 1.8364444444444446e-05, + "loss": 0.1827, + "step": 184 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 20.952388763427734, + "learning_rate": 1.835555555555556e-05, + "loss": 0.5482, + "step": 185 + }, + { + "epoch": 0.248, + "grad_norm": 245.4321746826172, + "learning_rate": 1.834666666666667e-05, + "loss": 0.3842, + "step": 186 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 6.620431900024414, + "learning_rate": 1.8337777777777778e-05, + "loss": 0.0593, + "step": 187 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 40.56410217285156, + "learning_rate": 1.832888888888889e-05, + "loss": 0.0935, + "step": 188 + }, + { + "epoch": 0.252, + "grad_norm": 33.67024230957031, + "learning_rate": 1.832e-05, + "loss": 0.1794, + "step": 189 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 127.61767578125, + "learning_rate": 1.8311111111111114e-05, + "loss": 0.1994, + "step": 190 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 20.527280807495117, + "learning_rate": 1.8302222222222224e-05, + "loss": 0.2134, + "step": 191 + }, + { + "epoch": 0.256, + "grad_norm": 18.595436096191406, + "learning_rate": 1.8293333333333333e-05, + "loss": 0.1578, + "step": 192 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 266.69873046875, + "learning_rate": 1.8284444444444446e-05, + "loss": 0.4445, + "step": 193 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 2.982762098312378, + "learning_rate": 1.8275555555555556e-05, + "loss": 0.027, + "step": 194 + }, + { + "epoch": 0.26, + "grad_norm": 13.873507499694824, + "learning_rate": 1.826666666666667e-05, + "loss": 0.4022, + "step": 195 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 2.4256534576416016, + "learning_rate": 1.825777777777778e-05, + "loss": 0.0349, + "step": 196 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 17.277423858642578, + "learning_rate": 1.824888888888889e-05, + "loss": 0.2055, + "step": 197 + }, + { + "epoch": 0.264, + "grad_norm": 33.010581970214844, + "learning_rate": 1.824e-05, + "loss": 0.9487, + "step": 198 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 9.1439208984375, + "learning_rate": 1.823111111111111e-05, + "loss": 0.0511, + "step": 199 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 58.35274124145508, + "learning_rate": 1.8222222222222224e-05, + "loss": 0.2226, + "step": 200 + }, + { + "epoch": 0.268, + "grad_norm": 7.316181659698486, + "learning_rate": 1.8213333333333334e-05, + "loss": 0.0517, + "step": 201 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 17.394603729248047, + "learning_rate": 1.8204444444444447e-05, + "loss": 0.3034, + "step": 202 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 35.161983489990234, + "learning_rate": 1.8195555555555557e-05, + "loss": 0.4037, + "step": 203 + }, + { + "epoch": 0.272, + "grad_norm": 22.383846282958984, + "learning_rate": 1.8186666666666666e-05, + "loss": 0.3272, + "step": 204 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 0.9847931861877441, + "learning_rate": 1.817777777777778e-05, + "loss": 0.0149, + "step": 205 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 22.231000900268555, + "learning_rate": 1.8168888888888893e-05, + "loss": 0.3169, + "step": 206 + }, + { + "epoch": 0.276, + "grad_norm": 34.839412689208984, + "learning_rate": 1.8160000000000002e-05, + "loss": 0.0497, + "step": 207 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 16.957963943481445, + "learning_rate": 1.8151111111111112e-05, + "loss": 0.2793, + "step": 208 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 7.098817825317383, + "learning_rate": 1.814222222222222e-05, + "loss": 0.0322, + "step": 209 + }, + { + "epoch": 0.28, + "grad_norm": 17.51911163330078, + "learning_rate": 1.8133333333333335e-05, + "loss": 0.3463, + "step": 210 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 233.9532928466797, + "learning_rate": 1.8124444444444448e-05, + "loss": 0.4815, + "step": 211 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 33.82230758666992, + "learning_rate": 1.8115555555555558e-05, + "loss": 0.3326, + "step": 212 + }, + { + "epoch": 0.284, + "grad_norm": 2.750621795654297, + "learning_rate": 1.8106666666666667e-05, + "loss": 0.0204, + "step": 213 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 52.23008728027344, + "learning_rate": 1.8097777777777777e-05, + "loss": 0.024, + "step": 214 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 284.958740234375, + "learning_rate": 1.808888888888889e-05, + "loss": 0.4767, + "step": 215 + }, + { + "epoch": 0.288, + "grad_norm": 19.39361000061035, + "learning_rate": 1.8080000000000003e-05, + "loss": 0.215, + "step": 216 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 20.270641326904297, + "learning_rate": 1.8071111111111113e-05, + "loss": 0.1663, + "step": 217 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 2.4136362075805664, + "learning_rate": 1.8062222222222222e-05, + "loss": 0.0302, + "step": 218 + }, + { + "epoch": 0.292, + "grad_norm": 7.933583736419678, + "learning_rate": 1.8053333333333332e-05, + "loss": 0.0349, + "step": 219 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 10.698687553405762, + "learning_rate": 1.8044444444444445e-05, + "loss": 0.2286, + "step": 220 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 34.278446197509766, + "learning_rate": 1.803555555555556e-05, + "loss": 0.1602, + "step": 221 + }, + { + "epoch": 0.296, + "grad_norm": 19.786449432373047, + "learning_rate": 1.8026666666666668e-05, + "loss": 0.3549, + "step": 222 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 27.36318016052246, + "learning_rate": 1.8017777777777778e-05, + "loss": 0.2529, + "step": 223 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 29.068681716918945, + "learning_rate": 1.800888888888889e-05, + "loss": 0.3862, + "step": 224 + }, + { + "epoch": 0.3, + "grad_norm": 19.95208740234375, + "learning_rate": 1.8e-05, + "loss": 0.2392, + "step": 225 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 47.95585250854492, + "learning_rate": 1.7991111111111114e-05, + "loss": 0.0745, + "step": 226 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 3.48224139213562, + "learning_rate": 1.7982222222222223e-05, + "loss": 0.0214, + "step": 227 + }, + { + "epoch": 0.304, + "grad_norm": 12.369891166687012, + "learning_rate": 1.7973333333333333e-05, + "loss": 0.3466, + "step": 228 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 22.76944351196289, + "learning_rate": 1.7964444444444446e-05, + "loss": 0.1786, + "step": 229 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 234.60231018066406, + "learning_rate": 1.7955555555555556e-05, + "loss": 0.0615, + "step": 230 + }, + { + "epoch": 0.308, + "grad_norm": 19.848094940185547, + "learning_rate": 1.794666666666667e-05, + "loss": 0.3156, + "step": 231 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 25.010210037231445, + "learning_rate": 1.793777777777778e-05, + "loss": 0.2905, + "step": 232 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 42.725826263427734, + "learning_rate": 1.792888888888889e-05, + "loss": 0.0802, + "step": 233 + }, + { + "epoch": 0.312, + "grad_norm": 37.03154373168945, + "learning_rate": 1.792e-05, + "loss": 0.4213, + "step": 234 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 15.311205863952637, + "learning_rate": 1.791111111111111e-05, + "loss": 0.0476, + "step": 235 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 12.022018432617188, + "learning_rate": 1.7902222222222224e-05, + "loss": 0.2706, + "step": 236 + }, + { + "epoch": 0.316, + "grad_norm": 86.0662841796875, + "learning_rate": 1.7893333333333337e-05, + "loss": 0.5514, + "step": 237 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 12.067264556884766, + "learning_rate": 1.7884444444444447e-05, + "loss": 0.2213, + "step": 238 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 6.560802936553955, + "learning_rate": 1.7875555555555556e-05, + "loss": 0.055, + "step": 239 + }, + { + "epoch": 0.32, + "grad_norm": 3.3104169368743896, + "learning_rate": 1.7866666666666666e-05, + "loss": 0.0304, + "step": 240 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 22.006587982177734, + "learning_rate": 1.785777777777778e-05, + "loss": 0.2384, + "step": 241 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 2.7954185009002686, + "learning_rate": 1.7848888888888892e-05, + "loss": 0.033, + "step": 242 + }, + { + "epoch": 0.324, + "grad_norm": 18.05629539489746, + "learning_rate": 1.7840000000000002e-05, + "loss": 0.238, + "step": 243 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 180.05935668945312, + "learning_rate": 1.783111111111111e-05, + "loss": 0.4742, + "step": 244 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 25.477739334106445, + "learning_rate": 1.782222222222222e-05, + "loss": 0.3392, + "step": 245 + }, + { + "epoch": 0.328, + "grad_norm": 24.399242401123047, + "learning_rate": 1.7813333333333334e-05, + "loss": 0.5611, + "step": 246 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 32.40269470214844, + "learning_rate": 1.7804444444444448e-05, + "loss": 0.2195, + "step": 247 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 19.182676315307617, + "learning_rate": 1.7795555555555557e-05, + "loss": 0.351, + "step": 248 + }, + { + "epoch": 0.332, + "grad_norm": 61.42140579223633, + "learning_rate": 1.7786666666666667e-05, + "loss": 0.4096, + "step": 249 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 26.086057662963867, + "learning_rate": 1.7777777777777777e-05, + "loss": 0.2128, + "step": 250 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 19.716724395751953, + "learning_rate": 1.776888888888889e-05, + "loss": 0.4928, + "step": 251 + }, + { + "epoch": 0.336, + "grad_norm": 33.42515182495117, + "learning_rate": 1.7760000000000003e-05, + "loss": 0.5425, + "step": 252 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 38.710018157958984, + "learning_rate": 1.7751111111111112e-05, + "loss": 0.3258, + "step": 253 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 25.924890518188477, + "learning_rate": 1.7742222222222222e-05, + "loss": 0.5453, + "step": 254 + }, + { + "epoch": 0.34, + "grad_norm": 827.7050170898438, + "learning_rate": 1.7733333333333335e-05, + "loss": 0.5974, + "step": 255 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 369.217529296875, + "learning_rate": 1.7724444444444445e-05, + "loss": 0.2831, + "step": 256 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 27.43989372253418, + "learning_rate": 1.7715555555555558e-05, + "loss": 0.4867, + "step": 257 + }, + { + "epoch": 0.344, + "grad_norm": 174.02737426757812, + "learning_rate": 1.7706666666666668e-05, + "loss": 0.4243, + "step": 258 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 117.09225463867188, + "learning_rate": 1.7697777777777777e-05, + "loss": 0.7089, + "step": 259 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 46.31420135498047, + "learning_rate": 1.768888888888889e-05, + "loss": 0.4525, + "step": 260 + }, + { + "epoch": 0.348, + "grad_norm": 33.69447326660156, + "learning_rate": 1.768e-05, + "loss": 0.6255, + "step": 261 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 74.7444076538086, + "learning_rate": 1.7671111111111113e-05, + "loss": 0.4938, + "step": 262 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 11.275300025939941, + "learning_rate": 1.7662222222222223e-05, + "loss": 0.5376, + "step": 263 + }, + { + "epoch": 0.352, + "grad_norm": 8.177071571350098, + "learning_rate": 1.7653333333333336e-05, + "loss": 0.3807, + "step": 264 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 7.09719181060791, + "learning_rate": 1.7644444444444446e-05, + "loss": 0.4133, + "step": 265 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 14.261161804199219, + "learning_rate": 1.7635555555555555e-05, + "loss": 0.3916, + "step": 266 + }, + { + "epoch": 0.356, + "grad_norm": 71.0356216430664, + "learning_rate": 1.762666666666667e-05, + "loss": 0.3758, + "step": 267 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 41.849700927734375, + "learning_rate": 1.761777777777778e-05, + "loss": 0.3451, + "step": 268 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 24.682538986206055, + "learning_rate": 1.760888888888889e-05, + "loss": 0.4823, + "step": 269 + }, + { + "epoch": 0.36, + "grad_norm": 6.404449462890625, + "learning_rate": 1.76e-05, + "loss": 0.3063, + "step": 270 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 10.134682655334473, + "learning_rate": 1.759111111111111e-05, + "loss": 0.2112, + "step": 271 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 12.487289428710938, + "learning_rate": 1.7582222222222224e-05, + "loss": 0.154, + "step": 272 + }, + { + "epoch": 0.364, + "grad_norm": 59.23768997192383, + "learning_rate": 1.7573333333333337e-05, + "loss": 0.3952, + "step": 273 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 87.46177673339844, + "learning_rate": 1.7564444444444446e-05, + "loss": 0.3016, + "step": 274 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 92.79609680175781, + "learning_rate": 1.7555555555555556e-05, + "loss": 0.3693, + "step": 275 + }, + { + "epoch": 0.368, + "grad_norm": 11.168188095092773, + "learning_rate": 1.7546666666666666e-05, + "loss": 0.1655, + "step": 276 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 13.529358863830566, + "learning_rate": 1.753777777777778e-05, + "loss": 0.1907, + "step": 277 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 42.015201568603516, + "learning_rate": 1.7528888888888892e-05, + "loss": 0.3096, + "step": 278 + }, + { + "epoch": 0.372, + "grad_norm": 48.053428649902344, + "learning_rate": 1.752e-05, + "loss": 0.1381, + "step": 279 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 281.5953674316406, + "learning_rate": 1.751111111111111e-05, + "loss": 0.6973, + "step": 280 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 23.847620010375977, + "learning_rate": 1.750222222222222e-05, + "loss": 0.0819, + "step": 281 + }, + { + "epoch": 0.376, + "grad_norm": 14.743887901306152, + "learning_rate": 1.7493333333333334e-05, + "loss": 0.2407, + "step": 282 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 284.9918212890625, + "learning_rate": 1.7484444444444447e-05, + "loss": 0.2824, + "step": 283 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 6.147160530090332, + "learning_rate": 1.7475555555555557e-05, + "loss": 0.0677, + "step": 284 + }, + { + "epoch": 0.38, + "grad_norm": 15.07276725769043, + "learning_rate": 1.7466666666666667e-05, + "loss": 0.2067, + "step": 285 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 6.970149517059326, + "learning_rate": 1.745777777777778e-05, + "loss": 0.0474, + "step": 286 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 26.141712188720703, + "learning_rate": 1.744888888888889e-05, + "loss": 0.3266, + "step": 287 + }, + { + "epoch": 0.384, + "grad_norm": 25.952186584472656, + "learning_rate": 1.7440000000000002e-05, + "loss": 0.0827, + "step": 288 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 50.988216400146484, + "learning_rate": 1.7431111111111112e-05, + "loss": 0.0432, + "step": 289 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 189.57321166992188, + "learning_rate": 1.7422222222222222e-05, + "loss": 0.9796, + "step": 290 + }, + { + "epoch": 0.388, + "grad_norm": 78.50845336914062, + "learning_rate": 1.7413333333333335e-05, + "loss": 0.4486, + "step": 291 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 22.90538215637207, + "learning_rate": 1.7404444444444445e-05, + "loss": 0.5552, + "step": 292 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 37.782310485839844, + "learning_rate": 1.7395555555555558e-05, + "loss": 0.7857, + "step": 293 + }, + { + "epoch": 0.392, + "grad_norm": 45.343780517578125, + "learning_rate": 1.7386666666666667e-05, + "loss": 0.3732, + "step": 294 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 288.2884521484375, + "learning_rate": 1.737777777777778e-05, + "loss": 0.5145, + "step": 295 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 58.114498138427734, + "learning_rate": 1.736888888888889e-05, + "loss": 0.3083, + "step": 296 + }, + { + "epoch": 0.396, + "grad_norm": 27.61408042907715, + "learning_rate": 1.736e-05, + "loss": 0.6747, + "step": 297 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 11.23613452911377, + "learning_rate": 1.7351111111111113e-05, + "loss": 0.0703, + "step": 298 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 33.32169723510742, + "learning_rate": 1.7342222222222226e-05, + "loss": 0.7362, + "step": 299 + }, + { + "epoch": 0.4, + "grad_norm": 14.595995903015137, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.0741, + "step": 300 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 14.165314674377441, + "learning_rate": 1.7324444444444445e-05, + "loss": 0.0568, + "step": 301 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 19.93703842163086, + "learning_rate": 1.7315555555555555e-05, + "loss": 0.2092, + "step": 302 + }, + { + "epoch": 0.404, + "grad_norm": 46.76519775390625, + "learning_rate": 1.7306666666666668e-05, + "loss": 0.274, + "step": 303 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 31.949569702148438, + "learning_rate": 1.729777777777778e-05, + "loss": 0.5386, + "step": 304 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 23.820602416992188, + "learning_rate": 1.728888888888889e-05, + "loss": 0.1407, + "step": 305 + }, + { + "epoch": 0.408, + "grad_norm": 180.520751953125, + "learning_rate": 1.728e-05, + "loss": 0.2582, + "step": 306 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 53.30815505981445, + "learning_rate": 1.727111111111111e-05, + "loss": 0.2567, + "step": 307 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 23.66790199279785, + "learning_rate": 1.7262222222222223e-05, + "loss": 0.1349, + "step": 308 + }, + { + "epoch": 0.412, + "grad_norm": 13.885927200317383, + "learning_rate": 1.7253333333333336e-05, + "loss": 0.128, + "step": 309 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 46.04557418823242, + "learning_rate": 1.7244444444444446e-05, + "loss": 0.4668, + "step": 310 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 53.88737106323242, + "learning_rate": 1.7235555555555556e-05, + "loss": 0.1294, + "step": 311 + }, + { + "epoch": 0.416, + "grad_norm": 182.98684692382812, + "learning_rate": 1.7226666666666665e-05, + "loss": 0.3089, + "step": 312 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 46.9910774230957, + "learning_rate": 1.721777777777778e-05, + "loss": 0.7143, + "step": 313 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 34.41313171386719, + "learning_rate": 1.720888888888889e-05, + "loss": 0.3975, + "step": 314 + }, + { + "epoch": 0.42, + "grad_norm": 32.03249740600586, + "learning_rate": 1.72e-05, + "loss": 0.6345, + "step": 315 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 3.419473886489868, + "learning_rate": 1.719111111111111e-05, + "loss": 0.0622, + "step": 316 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 19.916728973388672, + "learning_rate": 1.7182222222222224e-05, + "loss": 0.4867, + "step": 317 + }, + { + "epoch": 0.424, + "grad_norm": 17.86551284790039, + "learning_rate": 1.7173333333333334e-05, + "loss": 0.1368, + "step": 318 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 43.53690719604492, + "learning_rate": 1.7164444444444447e-05, + "loss": 0.1883, + "step": 319 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 55.465118408203125, + "learning_rate": 1.7155555555555557e-05, + "loss": 0.1869, + "step": 320 + }, + { + "epoch": 0.428, + "grad_norm": 18.021461486816406, + "learning_rate": 1.7146666666666666e-05, + "loss": 0.0782, + "step": 321 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 24.052791595458984, + "learning_rate": 1.713777777777778e-05, + "loss": 0.215, + "step": 322 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 64.57102966308594, + "learning_rate": 1.712888888888889e-05, + "loss": 0.6776, + "step": 323 + }, + { + "epoch": 0.432, + "grad_norm": 56.235496520996094, + "learning_rate": 1.7120000000000002e-05, + "loss": 0.3664, + "step": 324 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 24.880115509033203, + "learning_rate": 1.7111111111111112e-05, + "loss": 0.6736, + "step": 325 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 25.983304977416992, + "learning_rate": 1.7102222222222225e-05, + "loss": 0.3372, + "step": 326 + }, + { + "epoch": 0.436, + "grad_norm": 39.0350227355957, + "learning_rate": 1.7093333333333335e-05, + "loss": 0.1549, + "step": 327 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 60.73147964477539, + "learning_rate": 1.7084444444444444e-05, + "loss": 0.1894, + "step": 328 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 32.65517044067383, + "learning_rate": 1.7075555555555557e-05, + "loss": 0.1773, + "step": 329 + }, + { + "epoch": 0.44, + "grad_norm": 7.774807453155518, + "learning_rate": 1.706666666666667e-05, + "loss": 0.3081, + "step": 330 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 30.63202476501465, + "learning_rate": 1.705777777777778e-05, + "loss": 0.3665, + "step": 331 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 4.075716972351074, + "learning_rate": 1.704888888888889e-05, + "loss": 0.0595, + "step": 332 + }, + { + "epoch": 0.444, + "grad_norm": 55.83653259277344, + "learning_rate": 1.704e-05, + "loss": 0.4077, + "step": 333 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 14.701739311218262, + "learning_rate": 1.7031111111111113e-05, + "loss": 0.305, + "step": 334 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 2.745668649673462, + "learning_rate": 1.7022222222222226e-05, + "loss": 0.0373, + "step": 335 + }, + { + "epoch": 0.448, + "grad_norm": 4.234600067138672, + "learning_rate": 1.7013333333333335e-05, + "loss": 0.0528, + "step": 336 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 1.737822413444519, + "learning_rate": 1.7004444444444445e-05, + "loss": 0.036, + "step": 337 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 79.35819244384766, + "learning_rate": 1.6995555555555555e-05, + "loss": 0.186, + "step": 338 + }, + { + "epoch": 0.452, + "grad_norm": 90.3438949584961, + "learning_rate": 1.6986666666666668e-05, + "loss": 0.1738, + "step": 339 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 6.399804592132568, + "learning_rate": 1.697777777777778e-05, + "loss": 0.2824, + "step": 340 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 34.14095687866211, + "learning_rate": 1.696888888888889e-05, + "loss": 0.5652, + "step": 341 + }, + { + "epoch": 0.456, + "grad_norm": 7.133403301239014, + "learning_rate": 1.696e-05, + "loss": 0.33, + "step": 342 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 57.944828033447266, + "learning_rate": 1.695111111111111e-05, + "loss": 0.1089, + "step": 343 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 43.966346740722656, + "learning_rate": 1.6942222222222223e-05, + "loss": 0.5545, + "step": 344 + }, + { + "epoch": 0.46, + "grad_norm": 3.990805149078369, + "learning_rate": 1.6933333333333336e-05, + "loss": 0.0321, + "step": 345 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 43.71564483642578, + "learning_rate": 1.6924444444444446e-05, + "loss": 0.7703, + "step": 346 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 56.1742057800293, + "learning_rate": 1.6915555555555555e-05, + "loss": 0.4543, + "step": 347 + }, + { + "epoch": 0.464, + "grad_norm": 24.629106521606445, + "learning_rate": 1.690666666666667e-05, + "loss": 0.1364, + "step": 348 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 1.52285897731781, + "learning_rate": 1.6897777777777778e-05, + "loss": 0.0288, + "step": 349 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 11.193754196166992, + "learning_rate": 1.688888888888889e-05, + "loss": 0.6342, + "step": 350 + }, + { + "epoch": 0.468, + "grad_norm": 2.9235169887542725, + "learning_rate": 1.688e-05, + "loss": 0.0308, + "step": 351 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 22.250591278076172, + "learning_rate": 1.687111111111111e-05, + "loss": 0.2062, + "step": 352 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 65.51893615722656, + "learning_rate": 1.6862222222222224e-05, + "loss": 0.1219, + "step": 353 + }, + { + "epoch": 0.472, + "grad_norm": 1.9695253372192383, + "learning_rate": 1.6853333333333333e-05, + "loss": 0.0267, + "step": 354 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 41.16484832763672, + "learning_rate": 1.6844444444444447e-05, + "loss": 0.3747, + "step": 355 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 59.84547424316406, + "learning_rate": 1.6835555555555556e-05, + "loss": 0.1666, + "step": 356 + }, + { + "epoch": 0.476, + "grad_norm": 20.506546020507812, + "learning_rate": 1.682666666666667e-05, + "loss": 0.3325, + "step": 357 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 1.2213846445083618, + "learning_rate": 1.681777777777778e-05, + "loss": 0.0127, + "step": 358 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 2.5118396282196045, + "learning_rate": 1.680888888888889e-05, + "loss": 0.0186, + "step": 359 + }, + { + "epoch": 0.48, + "grad_norm": 39.39874267578125, + "learning_rate": 1.6800000000000002e-05, + "loss": 0.3088, + "step": 360 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 27.76407241821289, + "learning_rate": 1.6791111111111115e-05, + "loss": 1.0233, + "step": 361 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 34.02022171020508, + "learning_rate": 1.6782222222222225e-05, + "loss": 0.2557, + "step": 362 + }, + { + "epoch": 0.484, + "grad_norm": 267.3395690917969, + "learning_rate": 1.6773333333333334e-05, + "loss": 0.9249, + "step": 363 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 1.2267107963562012, + "learning_rate": 1.6764444444444444e-05, + "loss": 0.0129, + "step": 364 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 0.6880038380622864, + "learning_rate": 1.6755555555555557e-05, + "loss": 0.0079, + "step": 365 + }, + { + "epoch": 0.488, + "grad_norm": 84.12385559082031, + "learning_rate": 1.674666666666667e-05, + "loss": 0.2129, + "step": 366 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 70.79206848144531, + "learning_rate": 1.673777777777778e-05, + "loss": 0.8714, + "step": 367 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 92.06423950195312, + "learning_rate": 1.672888888888889e-05, + "loss": 0.9983, + "step": 368 + }, + { + "epoch": 0.492, + "grad_norm": 16.41324806213379, + "learning_rate": 1.672e-05, + "loss": 0.4104, + "step": 369 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 18.517337799072266, + "learning_rate": 1.6711111111111112e-05, + "loss": 0.4307, + "step": 370 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 0.6116989850997925, + "learning_rate": 1.6702222222222225e-05, + "loss": 0.0079, + "step": 371 + }, + { + "epoch": 0.496, + "grad_norm": 0.5906031727790833, + "learning_rate": 1.6693333333333335e-05, + "loss": 0.009, + "step": 372 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 0.40563252568244934, + "learning_rate": 1.6684444444444445e-05, + "loss": 0.0079, + "step": 373 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 99.43434143066406, + "learning_rate": 1.6675555555555554e-05, + "loss": 0.0799, + "step": 374 + }, + { + "epoch": 0.5, + "grad_norm": 94.07172393798828, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.4407, + "step": 375 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 95.74668884277344, + "learning_rate": 1.665777777777778e-05, + "loss": 1.4446, + "step": 376 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 15.985678672790527, + "learning_rate": 1.664888888888889e-05, + "loss": 0.8306, + "step": 377 + }, + { + "epoch": 0.504, + "grad_norm": 298.76837158203125, + "learning_rate": 1.664e-05, + "loss": 0.3422, + "step": 378 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 36.80162811279297, + "learning_rate": 1.6631111111111113e-05, + "loss": 0.5058, + "step": 379 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 21.144271850585938, + "learning_rate": 1.6622222222222223e-05, + "loss": 0.0309, + "step": 380 + }, + { + "epoch": 0.508, + "grad_norm": 7.567387104034424, + "learning_rate": 1.6613333333333336e-05, + "loss": 0.4728, + "step": 381 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 26.494226455688477, + "learning_rate": 1.6604444444444445e-05, + "loss": 0.0867, + "step": 382 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 126.83513641357422, + "learning_rate": 1.6595555555555555e-05, + "loss": 0.8798, + "step": 383 + }, + { + "epoch": 0.512, + "grad_norm": 58.590965270996094, + "learning_rate": 1.6586666666666668e-05, + "loss": 0.1136, + "step": 384 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 31.592548370361328, + "learning_rate": 1.6577777777777778e-05, + "loss": 0.353, + "step": 385 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 12.600981712341309, + "learning_rate": 1.656888888888889e-05, + "loss": 0.0412, + "step": 386 + }, + { + "epoch": 0.516, + "grad_norm": 4.373597621917725, + "learning_rate": 1.656e-05, + "loss": 0.0208, + "step": 387 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 1.4264463186264038, + "learning_rate": 1.6551111111111114e-05, + "loss": 0.0176, + "step": 388 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 0.9098450541496277, + "learning_rate": 1.6542222222222223e-05, + "loss": 0.0123, + "step": 389 + }, + { + "epoch": 0.52, + "grad_norm": 0.44002705812454224, + "learning_rate": 1.6533333333333333e-05, + "loss": 0.0065, + "step": 390 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 11.295949935913086, + "learning_rate": 1.6524444444444446e-05, + "loss": 0.4225, + "step": 391 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 9.730602264404297, + "learning_rate": 1.651555555555556e-05, + "loss": 0.0279, + "step": 392 + }, + { + "epoch": 0.524, + "grad_norm": 36.07223129272461, + "learning_rate": 1.650666666666667e-05, + "loss": 0.0432, + "step": 393 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 82.18423461914062, + "learning_rate": 1.649777777777778e-05, + "loss": 0.1572, + "step": 394 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 0.6244869232177734, + "learning_rate": 1.648888888888889e-05, + "loss": 0.0068, + "step": 395 + }, + { + "epoch": 0.528, + "grad_norm": 0.3239281177520752, + "learning_rate": 1.648e-05, + "loss": 0.0054, + "step": 396 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 7.361968994140625, + "learning_rate": 1.6471111111111115e-05, + "loss": 0.4715, + "step": 397 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 29.584047317504883, + "learning_rate": 1.6462222222222224e-05, + "loss": 1.2635, + "step": 398 + }, + { + "epoch": 0.532, + "grad_norm": 0.8452209234237671, + "learning_rate": 1.6453333333333334e-05, + "loss": 0.0054, + "step": 399 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 0.3747219145298004, + "learning_rate": 1.6444444444444444e-05, + "loss": 0.0051, + "step": 400 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 14.766377449035645, + "learning_rate": 1.6435555555555557e-05, + "loss": 0.3855, + "step": 401 + }, + { + "epoch": 0.536, + "grad_norm": 35.21036911010742, + "learning_rate": 1.642666666666667e-05, + "loss": 0.0422, + "step": 402 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 17.602951049804688, + "learning_rate": 1.641777777777778e-05, + "loss": 0.0188, + "step": 403 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 6.351717472076416, + "learning_rate": 1.640888888888889e-05, + "loss": 0.466, + "step": 404 + }, + { + "epoch": 0.54, + "grad_norm": 0.3398309350013733, + "learning_rate": 1.64e-05, + "loss": 0.005, + "step": 405 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 163.7615203857422, + "learning_rate": 1.6391111111111112e-05, + "loss": 0.1587, + "step": 406 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 0.6235336661338806, + "learning_rate": 1.6382222222222225e-05, + "loss": 0.0088, + "step": 407 + }, + { + "epoch": 0.544, + "grad_norm": 150.38983154296875, + "learning_rate": 1.6373333333333335e-05, + "loss": 0.192, + "step": 408 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 55.88649368286133, + "learning_rate": 1.6364444444444444e-05, + "loss": 0.0832, + "step": 409 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 1.7112860679626465, + "learning_rate": 1.6355555555555557e-05, + "loss": 0.01, + "step": 410 + }, + { + "epoch": 0.548, + "grad_norm": 0.8538914322853088, + "learning_rate": 1.6346666666666667e-05, + "loss": 0.0063, + "step": 411 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 0.23169256746768951, + "learning_rate": 1.633777777777778e-05, + "loss": 0.0048, + "step": 412 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 0.34852316975593567, + "learning_rate": 1.632888888888889e-05, + "loss": 0.0057, + "step": 413 + }, + { + "epoch": 0.552, + "grad_norm": 15.184539794921875, + "learning_rate": 1.632e-05, + "loss": 0.4847, + "step": 414 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 1.8451186418533325, + "learning_rate": 1.6311111111111113e-05, + "loss": 0.0065, + "step": 415 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 75.28857421875, + "learning_rate": 1.6302222222222222e-05, + "loss": 1.4651, + "step": 416 + }, + { + "epoch": 0.556, + "grad_norm": 48.11509704589844, + "learning_rate": 1.6293333333333335e-05, + "loss": 0.4342, + "step": 417 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 695.0440673828125, + "learning_rate": 1.6284444444444445e-05, + "loss": 0.6185, + "step": 418 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 5.151619911193848, + "learning_rate": 1.6275555555555558e-05, + "loss": 0.0081, + "step": 419 + }, + { + "epoch": 0.56, + "grad_norm": 0.47942811250686646, + "learning_rate": 1.6266666666666668e-05, + "loss": 0.0034, + "step": 420 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 0.299633264541626, + "learning_rate": 1.6257777777777778e-05, + "loss": 0.0036, + "step": 421 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 0.1341838836669922, + "learning_rate": 1.624888888888889e-05, + "loss": 0.0026, + "step": 422 + }, + { + "epoch": 0.564, + "grad_norm": 5.8148345947265625, + "learning_rate": 1.6240000000000004e-05, + "loss": 0.4921, + "step": 423 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 92.06847381591797, + "learning_rate": 1.6231111111111113e-05, + "loss": 0.4398, + "step": 424 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 90.83396911621094, + "learning_rate": 1.6222222222222223e-05, + "loss": 0.2355, + "step": 425 + }, + { + "epoch": 0.568, + "grad_norm": 0.14604602754116058, + "learning_rate": 1.6213333333333333e-05, + "loss": 0.0032, + "step": 426 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 8.506234169006348, + "learning_rate": 1.6204444444444446e-05, + "loss": 0.4767, + "step": 427 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 2.6388230323791504, + "learning_rate": 1.619555555555556e-05, + "loss": 0.0151, + "step": 428 + }, + { + "epoch": 0.572, + "grad_norm": 0.7352663278579712, + "learning_rate": 1.618666666666667e-05, + "loss": 0.0057, + "step": 429 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 11.93177318572998, + "learning_rate": 1.617777777777778e-05, + "loss": 0.3565, + "step": 430 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 1.0510191917419434, + "learning_rate": 1.6168888888888888e-05, + "loss": 0.0087, + "step": 431 + }, + { + "epoch": 0.576, + "grad_norm": 9.897022247314453, + "learning_rate": 1.616e-05, + "loss": 0.3432, + "step": 432 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 21.137832641601562, + "learning_rate": 1.6151111111111114e-05, + "loss": 0.2775, + "step": 433 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 9.9161958694458, + "learning_rate": 1.6142222222222224e-05, + "loss": 0.3355, + "step": 434 + }, + { + "epoch": 0.58, + "grad_norm": 3.8584706783294678, + "learning_rate": 1.6133333333333334e-05, + "loss": 0.0265, + "step": 435 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 3.582775354385376, + "learning_rate": 1.6124444444444443e-05, + "loss": 0.0247, + "step": 436 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 32.9600944519043, + "learning_rate": 1.6115555555555556e-05, + "loss": 0.1991, + "step": 437 + }, + { + "epoch": 0.584, + "grad_norm": 7.211201190948486, + "learning_rate": 1.610666666666667e-05, + "loss": 0.0687, + "step": 438 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 11.30628490447998, + "learning_rate": 1.609777777777778e-05, + "loss": 0.6328, + "step": 439 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 4.940673828125, + "learning_rate": 1.608888888888889e-05, + "loss": 0.0498, + "step": 440 + }, + { + "epoch": 0.588, + "grad_norm": 0.8353086113929749, + "learning_rate": 1.6080000000000002e-05, + "loss": 0.0123, + "step": 441 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 1.4801274538040161, + "learning_rate": 1.607111111111111e-05, + "loss": 0.0184, + "step": 442 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 144.69313049316406, + "learning_rate": 1.6062222222222225e-05, + "loss": 0.1352, + "step": 443 + }, + { + "epoch": 0.592, + "grad_norm": 0.8882383108139038, + "learning_rate": 1.6053333333333334e-05, + "loss": 0.0105, + "step": 444 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 4.9518561363220215, + "learning_rate": 1.6044444444444444e-05, + "loss": 0.4543, + "step": 445 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 6.000964641571045, + "learning_rate": 1.6035555555555557e-05, + "loss": 0.4443, + "step": 446 + }, + { + "epoch": 0.596, + "grad_norm": 192.08148193359375, + "learning_rate": 1.6026666666666667e-05, + "loss": 0.4305, + "step": 447 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 30.50543212890625, + "learning_rate": 1.601777777777778e-05, + "loss": 0.0139, + "step": 448 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 38.68901062011719, + "learning_rate": 1.600888888888889e-05, + "loss": 0.353, + "step": 449 + }, + { + "epoch": 0.6, + "grad_norm": 6.430370807647705, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.3726, + "step": 450 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 2.0896520614624023, + "learning_rate": 1.5991111111111112e-05, + "loss": 0.019, + "step": 451 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 12.255717277526855, + "learning_rate": 1.5982222222222222e-05, + "loss": 1.0324, + "step": 452 + }, + { + "epoch": 0.604, + "grad_norm": 1531.068603515625, + "learning_rate": 1.5973333333333335e-05, + "loss": 0.2266, + "step": 453 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 7.718644618988037, + "learning_rate": 1.5964444444444448e-05, + "loss": 0.4901, + "step": 454 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 30.948810577392578, + "learning_rate": 1.5955555555555558e-05, + "loss": 0.2895, + "step": 455 + }, + { + "epoch": 0.608, + "grad_norm": 4.588623523712158, + "learning_rate": 1.5946666666666668e-05, + "loss": 0.2993, + "step": 456 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 21.00495719909668, + "learning_rate": 1.5937777777777777e-05, + "loss": 0.2929, + "step": 457 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 18.039936065673828, + "learning_rate": 1.592888888888889e-05, + "loss": 0.3247, + "step": 458 + }, + { + "epoch": 0.612, + "grad_norm": 27.10317611694336, + "learning_rate": 1.5920000000000003e-05, + "loss": 0.575, + "step": 459 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 59.71908950805664, + "learning_rate": 1.5911111111111113e-05, + "loss": 0.2302, + "step": 460 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 6.468291282653809, + "learning_rate": 1.5902222222222223e-05, + "loss": 0.0704, + "step": 461 + }, + { + "epoch": 0.616, + "grad_norm": 6.852536201477051, + "learning_rate": 1.5893333333333333e-05, + "loss": 0.0758, + "step": 462 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 5.467730522155762, + "learning_rate": 1.5884444444444446e-05, + "loss": 0.0744, + "step": 463 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 33.81056213378906, + "learning_rate": 1.587555555555556e-05, + "loss": 0.0851, + "step": 464 + }, + { + "epoch": 0.62, + "grad_norm": 54.69092559814453, + "learning_rate": 1.586666666666667e-05, + "loss": 0.2549, + "step": 465 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 66.9840087890625, + "learning_rate": 1.5857777777777778e-05, + "loss": 0.5219, + "step": 466 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 152.1387481689453, + "learning_rate": 1.5848888888888888e-05, + "loss": 0.7371, + "step": 467 + }, + { + "epoch": 0.624, + "grad_norm": 41.37196350097656, + "learning_rate": 1.584e-05, + "loss": 0.101, + "step": 468 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 95.80058288574219, + "learning_rate": 1.5831111111111114e-05, + "loss": 0.7426, + "step": 469 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 77.90318298339844, + "learning_rate": 1.5822222222222224e-05, + "loss": 0.6606, + "step": 470 + }, + { + "epoch": 0.628, + "grad_norm": 1.419073462486267, + "learning_rate": 1.5813333333333333e-05, + "loss": 0.035, + "step": 471 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 57.34606170654297, + "learning_rate": 1.5804444444444446e-05, + "loss": 0.3481, + "step": 472 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 41.00575256347656, + "learning_rate": 1.5795555555555556e-05, + "loss": 0.4179, + "step": 473 + }, + { + "epoch": 0.632, + "grad_norm": 9.139270782470703, + "learning_rate": 1.578666666666667e-05, + "loss": 0.1765, + "step": 474 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 39.54038619995117, + "learning_rate": 1.577777777777778e-05, + "loss": 0.3153, + "step": 475 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 56.17218780517578, + "learning_rate": 1.576888888888889e-05, + "loss": 0.0638, + "step": 476 + }, + { + "epoch": 0.636, + "grad_norm": 22.6376895904541, + "learning_rate": 1.576e-05, + "loss": 0.3546, + "step": 477 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 4.79631233215332, + "learning_rate": 1.575111111111111e-05, + "loss": 0.2847, + "step": 478 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 13.064446449279785, + "learning_rate": 1.5742222222222224e-05, + "loss": 0.2872, + "step": 479 + }, + { + "epoch": 0.64, + "grad_norm": 93.45035552978516, + "learning_rate": 1.5733333333333334e-05, + "loss": 0.9595, + "step": 480 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 58.496395111083984, + "learning_rate": 1.5724444444444447e-05, + "loss": 0.5208, + "step": 481 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 395.58599853515625, + "learning_rate": 1.5715555555555557e-05, + "loss": 0.9958, + "step": 482 + }, + { + "epoch": 0.644, + "grad_norm": 20.389188766479492, + "learning_rate": 1.5706666666666666e-05, + "loss": 0.3198, + "step": 483 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 82.8431625366211, + "learning_rate": 1.569777777777778e-05, + "loss": 0.3409, + "step": 484 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 23.467159271240234, + "learning_rate": 1.5688888888888893e-05, + "loss": 0.2477, + "step": 485 + }, + { + "epoch": 0.648, + "grad_norm": 37.725948333740234, + "learning_rate": 1.5680000000000002e-05, + "loss": 0.588, + "step": 486 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 19.586387634277344, + "learning_rate": 1.5671111111111112e-05, + "loss": 0.0594, + "step": 487 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 5.975935459136963, + "learning_rate": 1.5662222222222222e-05, + "loss": 0.3105, + "step": 488 + }, + { + "epoch": 0.652, + "grad_norm": 18.773696899414062, + "learning_rate": 1.5653333333333335e-05, + "loss": 0.3031, + "step": 489 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 31.22116470336914, + "learning_rate": 1.5644444444444448e-05, + "loss": 0.118, + "step": 490 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 41.45954895019531, + "learning_rate": 1.5635555555555558e-05, + "loss": 0.2721, + "step": 491 + }, + { + "epoch": 0.656, + "grad_norm": 17.413455963134766, + "learning_rate": 1.5626666666666667e-05, + "loss": 0.0804, + "step": 492 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 58.417236328125, + "learning_rate": 1.5617777777777777e-05, + "loss": 0.0678, + "step": 493 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 155.69955444335938, + "learning_rate": 1.560888888888889e-05, + "loss": 0.4444, + "step": 494 + }, + { + "epoch": 0.66, + "grad_norm": 39.25685501098633, + "learning_rate": 1.5600000000000003e-05, + "loss": 0.2145, + "step": 495 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 20.140029907226562, + "learning_rate": 1.5591111111111113e-05, + "loss": 0.0743, + "step": 496 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 327.0036926269531, + "learning_rate": 1.5582222222222222e-05, + "loss": 0.4372, + "step": 497 + }, + { + "epoch": 0.664, + "grad_norm": 118.68206787109375, + "learning_rate": 1.5573333333333332e-05, + "loss": 0.1729, + "step": 498 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 7.200020790100098, + "learning_rate": 1.5564444444444445e-05, + "loss": 0.0582, + "step": 499 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 45.35590362548828, + "learning_rate": 1.555555555555556e-05, + "loss": 0.3621, + "step": 500 + }, + { + "epoch": 0.668, + "grad_norm": 2.685757875442505, + "learning_rate": 1.5546666666666668e-05, + "loss": 0.0325, + "step": 501 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 48.73164749145508, + "learning_rate": 1.5537777777777778e-05, + "loss": 0.2718, + "step": 502 + }, + { + "epoch": 0.6706666666666666, + "grad_norm": 11.607429504394531, + "learning_rate": 1.552888888888889e-05, + "loss": 0.2085, + "step": 503 + }, + { + "epoch": 0.672, + "grad_norm": 6.8460164070129395, + "learning_rate": 1.552e-05, + "loss": 0.059, + "step": 504 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 18.40593910217285, + "learning_rate": 1.5511111111111114e-05, + "loss": 0.3699, + "step": 505 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 64.14971160888672, + "learning_rate": 1.5502222222222223e-05, + "loss": 0.0513, + "step": 506 + }, + { + "epoch": 0.676, + "grad_norm": 4.932974338531494, + "learning_rate": 1.5493333333333333e-05, + "loss": 0.0453, + "step": 507 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 36.308570861816406, + "learning_rate": 1.5484444444444446e-05, + "loss": 0.3024, + "step": 508 + }, + { + "epoch": 0.6786666666666666, + "grad_norm": 53.45915985107422, + "learning_rate": 1.5475555555555556e-05, + "loss": 0.5699, + "step": 509 + }, + { + "epoch": 0.68, + "grad_norm": 3.9167819023132324, + "learning_rate": 1.546666666666667e-05, + "loss": 0.0334, + "step": 510 + }, + { + "epoch": 0.6813333333333333, + "grad_norm": 14.153958320617676, + "learning_rate": 1.545777777777778e-05, + "loss": 0.3914, + "step": 511 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 31.98660659790039, + "learning_rate": 1.544888888888889e-05, + "loss": 0.2675, + "step": 512 + }, + { + "epoch": 0.684, + "grad_norm": 4.5382080078125, + "learning_rate": 1.544e-05, + "loss": 0.037, + "step": 513 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 47.25726318359375, + "learning_rate": 1.543111111111111e-05, + "loss": 0.2256, + "step": 514 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 21.551340103149414, + "learning_rate": 1.5422222222222224e-05, + "loss": 0.0282, + "step": 515 + }, + { + "epoch": 0.688, + "grad_norm": 6.829284191131592, + "learning_rate": 1.5413333333333337e-05, + "loss": 0.0298, + "step": 516 + }, + { + "epoch": 0.6893333333333334, + "grad_norm": 66.61030578613281, + "learning_rate": 1.5404444444444447e-05, + "loss": 0.14, + "step": 517 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 24.75452995300293, + "learning_rate": 1.5395555555555556e-05, + "loss": 0.0703, + "step": 518 + }, + { + "epoch": 0.692, + "grad_norm": 19.0056209564209, + "learning_rate": 1.5386666666666666e-05, + "loss": 0.0475, + "step": 519 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 15.497206687927246, + "learning_rate": 1.537777777777778e-05, + "loss": 0.3868, + "step": 520 + }, + { + "epoch": 0.6946666666666667, + "grad_norm": 22.020931243896484, + "learning_rate": 1.5368888888888892e-05, + "loss": 0.2283, + "step": 521 + }, + { + "epoch": 0.696, + "grad_norm": 1.1743708848953247, + "learning_rate": 1.5360000000000002e-05, + "loss": 0.0129, + "step": 522 + }, + { + "epoch": 0.6973333333333334, + "grad_norm": 3.0380542278289795, + "learning_rate": 1.5351111111111112e-05, + "loss": 0.0222, + "step": 523 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 517.7556762695312, + "learning_rate": 1.534222222222222e-05, + "loss": 0.1896, + "step": 524 + }, + { + "epoch": 0.7, + "grad_norm": 18.8843936920166, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.1162, + "step": 525 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 485.10577392578125, + "learning_rate": 1.5324444444444448e-05, + "loss": 0.4503, + "step": 526 + }, + { + "epoch": 0.7026666666666667, + "grad_norm": 14.825898170471191, + "learning_rate": 1.5315555555555557e-05, + "loss": 0.0256, + "step": 527 + }, + { + "epoch": 0.704, + "grad_norm": 19.143966674804688, + "learning_rate": 1.5306666666666667e-05, + "loss": 0.3837, + "step": 528 + }, + { + "epoch": 0.7053333333333334, + "grad_norm": 99.0759048461914, + "learning_rate": 1.5297777777777777e-05, + "loss": 0.1893, + "step": 529 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 24.80434226989746, + "learning_rate": 1.528888888888889e-05, + "loss": 0.0717, + "step": 530 + }, + { + "epoch": 0.708, + "grad_norm": 0.7176944017410278, + "learning_rate": 1.5280000000000003e-05, + "loss": 0.0088, + "step": 531 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 18.233673095703125, + "learning_rate": 1.5271111111111112e-05, + "loss": 0.3459, + "step": 532 + }, + { + "epoch": 0.7106666666666667, + "grad_norm": 87.71961975097656, + "learning_rate": 1.5262222222222222e-05, + "loss": 1.083, + "step": 533 + }, + { + "epoch": 0.712, + "grad_norm": 81.94210815429688, + "learning_rate": 1.5253333333333335e-05, + "loss": 0.398, + "step": 534 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 25.385360717773438, + "learning_rate": 1.5244444444444447e-05, + "loss": 0.0598, + "step": 535 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 22.733335494995117, + "learning_rate": 1.5235555555555556e-05, + "loss": 0.2829, + "step": 536 + }, + { + "epoch": 0.716, + "grad_norm": 28.56426429748535, + "learning_rate": 1.5226666666666668e-05, + "loss": 0.2213, + "step": 537 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 2.311807155609131, + "learning_rate": 1.5217777777777777e-05, + "loss": 0.0144, + "step": 538 + }, + { + "epoch": 0.7186666666666667, + "grad_norm": 54.28264236450195, + "learning_rate": 1.520888888888889e-05, + "loss": 0.5976, + "step": 539 + }, + { + "epoch": 0.72, + "grad_norm": 0.5071966052055359, + "learning_rate": 1.5200000000000002e-05, + "loss": 0.0067, + "step": 540 + }, + { + "epoch": 0.7213333333333334, + "grad_norm": 92.36091613769531, + "learning_rate": 1.5191111111111112e-05, + "loss": 0.065, + "step": 541 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 49.756309509277344, + "learning_rate": 1.5182222222222223e-05, + "loss": 0.5455, + "step": 542 + }, + { + "epoch": 0.724, + "grad_norm": 12.686720848083496, + "learning_rate": 1.5173333333333336e-05, + "loss": 0.5099, + "step": 543 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 0.342751145362854, + "learning_rate": 1.5164444444444446e-05, + "loss": 0.0051, + "step": 544 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 0.7254379987716675, + "learning_rate": 1.5155555555555557e-05, + "loss": 0.0069, + "step": 545 + }, + { + "epoch": 0.728, + "grad_norm": 3.126568555831909, + "learning_rate": 1.5146666666666667e-05, + "loss": 0.0153, + "step": 546 + }, + { + "epoch": 0.7293333333333333, + "grad_norm": 0.7411602735519409, + "learning_rate": 1.513777777777778e-05, + "loss": 0.0062, + "step": 547 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 15.793583869934082, + "learning_rate": 1.5128888888888891e-05, + "loss": 0.0212, + "step": 548 + }, + { + "epoch": 0.732, + "grad_norm": 25.394554138183594, + "learning_rate": 1.5120000000000001e-05, + "loss": 0.4654, + "step": 549 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 0.46709954738616943, + "learning_rate": 1.5111111111111112e-05, + "loss": 0.0033, + "step": 550 + }, + { + "epoch": 0.7346666666666667, + "grad_norm": 15.044448852539062, + "learning_rate": 1.5102222222222222e-05, + "loss": 0.2347, + "step": 551 + }, + { + "epoch": 0.736, + "grad_norm": 43.96204376220703, + "learning_rate": 1.5093333333333335e-05, + "loss": 0.2297, + "step": 552 + }, + { + "epoch": 0.7373333333333333, + "grad_norm": 1.031826376914978, + "learning_rate": 1.5084444444444446e-05, + "loss": 0.0064, + "step": 553 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 1.6380364894866943, + "learning_rate": 1.5075555555555556e-05, + "loss": 0.0088, + "step": 554 + }, + { + "epoch": 0.74, + "grad_norm": 117.55204772949219, + "learning_rate": 1.5066666666666668e-05, + "loss": 0.152, + "step": 555 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 19.951438903808594, + "learning_rate": 1.505777777777778e-05, + "loss": 0.8698, + "step": 556 + }, + { + "epoch": 0.7426666666666667, + "grad_norm": 19.266027450561523, + "learning_rate": 1.504888888888889e-05, + "loss": 0.4189, + "step": 557 + }, + { + "epoch": 0.744, + "grad_norm": 1.7079962491989136, + "learning_rate": 1.5040000000000002e-05, + "loss": 0.0053, + "step": 558 + }, + { + "epoch": 0.7453333333333333, + "grad_norm": 6.839558124542236, + "learning_rate": 1.5031111111111111e-05, + "loss": 0.5149, + "step": 559 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 45.2992057800293, + "learning_rate": 1.5022222222222223e-05, + "loss": 1.4541, + "step": 560 + }, + { + "epoch": 0.748, + "grad_norm": 5.1155195236206055, + "learning_rate": 1.5013333333333336e-05, + "loss": 0.4816, + "step": 561 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 1.703602910041809, + "learning_rate": 1.5004444444444446e-05, + "loss": 0.0085, + "step": 562 + }, + { + "epoch": 0.7506666666666667, + "grad_norm": 8.983227729797363, + "learning_rate": 1.4995555555555557e-05, + "loss": 0.3089, + "step": 563 + }, + { + "epoch": 0.752, + "grad_norm": 9.243966102600098, + "learning_rate": 1.4986666666666667e-05, + "loss": 0.3994, + "step": 564 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 10.324238777160645, + "learning_rate": 1.497777777777778e-05, + "loss": 0.2995, + "step": 565 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 86.90589904785156, + "learning_rate": 1.4968888888888891e-05, + "loss": 0.6332, + "step": 566 + }, + { + "epoch": 0.756, + "grad_norm": 7.942810535430908, + "learning_rate": 1.496e-05, + "loss": 0.2721, + "step": 567 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 32.12351608276367, + "learning_rate": 1.4951111111111112e-05, + "loss": 0.5918, + "step": 568 + }, + { + "epoch": 0.7586666666666667, + "grad_norm": 1.933473825454712, + "learning_rate": 1.4942222222222222e-05, + "loss": 0.0289, + "step": 569 + }, + { + "epoch": 0.76, + "grad_norm": 18.67357063293457, + "learning_rate": 1.4933333333333335e-05, + "loss": 0.2769, + "step": 570 + }, + { + "epoch": 0.7613333333333333, + "grad_norm": 12.466032028198242, + "learning_rate": 1.4924444444444446e-05, + "loss": 0.2401, + "step": 571 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 17.986351013183594, + "learning_rate": 1.4915555555555556e-05, + "loss": 0.4597, + "step": 572 + }, + { + "epoch": 0.764, + "grad_norm": 1.631819486618042, + "learning_rate": 1.4906666666666667e-05, + "loss": 0.0228, + "step": 573 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 7.692989349365234, + "learning_rate": 1.489777777777778e-05, + "loss": 0.4544, + "step": 574 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 195.19027709960938, + "learning_rate": 1.488888888888889e-05, + "loss": 0.0663, + "step": 575 + }, + { + "epoch": 0.768, + "grad_norm": 105.00302124023438, + "learning_rate": 1.4880000000000002e-05, + "loss": 0.3391, + "step": 576 + }, + { + "epoch": 0.7693333333333333, + "grad_norm": 31.891664505004883, + "learning_rate": 1.4871111111111111e-05, + "loss": 0.191, + "step": 577 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 4.34639835357666, + "learning_rate": 1.4862222222222223e-05, + "loss": 0.0267, + "step": 578 + }, + { + "epoch": 0.772, + "grad_norm": 268.2490539550781, + "learning_rate": 1.4853333333333336e-05, + "loss": 0.5903, + "step": 579 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 10.594819068908691, + "learning_rate": 1.4844444444444445e-05, + "loss": 0.3271, + "step": 580 + }, + { + "epoch": 0.7746666666666666, + "grad_norm": 3.189711809158325, + "learning_rate": 1.4835555555555557e-05, + "loss": 0.0439, + "step": 581 + }, + { + "epoch": 0.776, + "grad_norm": 2.304900884628296, + "learning_rate": 1.4826666666666666e-05, + "loss": 0.0541, + "step": 582 + }, + { + "epoch": 0.7773333333333333, + "grad_norm": 201.5353240966797, + "learning_rate": 1.481777777777778e-05, + "loss": 0.2644, + "step": 583 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 30.733774185180664, + "learning_rate": 1.4808888888888891e-05, + "loss": 0.0595, + "step": 584 + }, + { + "epoch": 0.78, + "grad_norm": 34.6660270690918, + "learning_rate": 1.48e-05, + "loss": 0.4677, + "step": 585 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 4.181580543518066, + "learning_rate": 1.4791111111111112e-05, + "loss": 0.1315, + "step": 586 + }, + { + "epoch": 0.7826666666666666, + "grad_norm": 1.2800259590148926, + "learning_rate": 1.4782222222222225e-05, + "loss": 0.0229, + "step": 587 + }, + { + "epoch": 0.784, + "grad_norm": 24.08536148071289, + "learning_rate": 1.4773333333333335e-05, + "loss": 0.7003, + "step": 588 + }, + { + "epoch": 0.7853333333333333, + "grad_norm": 2.638282537460327, + "learning_rate": 1.4764444444444446e-05, + "loss": 0.0139, + "step": 589 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 0.8761337995529175, + "learning_rate": 1.4755555555555556e-05, + "loss": 0.0122, + "step": 590 + }, + { + "epoch": 0.788, + "grad_norm": 0.3712925314903259, + "learning_rate": 1.4746666666666667e-05, + "loss": 0.0083, + "step": 591 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 26.60057258605957, + "learning_rate": 1.473777777777778e-05, + "loss": 0.3055, + "step": 592 + }, + { + "epoch": 0.7906666666666666, + "grad_norm": 21.553802490234375, + "learning_rate": 1.472888888888889e-05, + "loss": 0.0939, + "step": 593 + }, + { + "epoch": 0.792, + "grad_norm": 7.633984565734863, + "learning_rate": 1.4720000000000001e-05, + "loss": 0.1372, + "step": 594 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 7.709981441497803, + "learning_rate": 1.4711111111111111e-05, + "loss": 0.4164, + "step": 595 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 0.2574272155761719, + "learning_rate": 1.4702222222222224e-05, + "loss": 0.005, + "step": 596 + }, + { + "epoch": 0.796, + "grad_norm": 7.406916618347168, + "learning_rate": 1.4693333333333336e-05, + "loss": 0.4153, + "step": 597 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 8.549392700195312, + "learning_rate": 1.4684444444444445e-05, + "loss": 0.1372, + "step": 598 + }, + { + "epoch": 0.7986666666666666, + "grad_norm": 5.977468967437744, + "learning_rate": 1.4675555555555557e-05, + "loss": 0.1337, + "step": 599 + }, + { + "epoch": 0.8, + "grad_norm": 0.23972530663013458, + "learning_rate": 1.4666666666666666e-05, + "loss": 0.0042, + "step": 600 + }, + { + "epoch": 0.8013333333333333, + "grad_norm": 9.198740005493164, + "learning_rate": 1.465777777777778e-05, + "loss": 0.4097, + "step": 601 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 4.692670822143555, + "learning_rate": 1.464888888888889e-05, + "loss": 0.0764, + "step": 602 + }, + { + "epoch": 0.804, + "grad_norm": 67.2090072631836, + "learning_rate": 1.464e-05, + "loss": 0.4757, + "step": 603 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 2.1489129066467285, + "learning_rate": 1.4631111111111112e-05, + "loss": 0.0307, + "step": 604 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 0.2775600254535675, + "learning_rate": 1.4622222222222225e-05, + "loss": 0.0037, + "step": 605 + }, + { + "epoch": 0.808, + "grad_norm": 8.754255294799805, + "learning_rate": 1.4613333333333335e-05, + "loss": 0.0291, + "step": 606 + }, + { + "epoch": 0.8093333333333333, + "grad_norm": 25.030412673950195, + "learning_rate": 1.4604444444444446e-05, + "loss": 0.5705, + "step": 607 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 126.87890625, + "learning_rate": 1.4595555555555556e-05, + "loss": 0.0298, + "step": 608 + }, + { + "epoch": 0.812, + "grad_norm": 7.466097354888916, + "learning_rate": 1.4586666666666667e-05, + "loss": 0.4935, + "step": 609 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 0.39378899335861206, + "learning_rate": 1.457777777777778e-05, + "loss": 0.004, + "step": 610 + }, + { + "epoch": 0.8146666666666667, + "grad_norm": 143.76158142089844, + "learning_rate": 1.456888888888889e-05, + "loss": 0.3528, + "step": 611 + }, + { + "epoch": 0.816, + "grad_norm": 134.15032958984375, + "learning_rate": 1.4560000000000001e-05, + "loss": 0.6809, + "step": 612 + }, + { + "epoch": 0.8173333333333334, + "grad_norm": 10.220468521118164, + "learning_rate": 1.4551111111111111e-05, + "loss": 0.0936, + "step": 613 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 23.48536491394043, + "learning_rate": 1.4542222222222224e-05, + "loss": 0.3548, + "step": 614 + }, + { + "epoch": 0.82, + "grad_norm": 12.261889457702637, + "learning_rate": 1.4533333333333335e-05, + "loss": 0.2362, + "step": 615 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 24.66901206970215, + "learning_rate": 1.4524444444444445e-05, + "loss": 0.5179, + "step": 616 + }, + { + "epoch": 0.8226666666666667, + "grad_norm": 16.926904678344727, + "learning_rate": 1.4515555555555556e-05, + "loss": 0.3197, + "step": 617 + }, + { + "epoch": 0.824, + "grad_norm": 13.385184288024902, + "learning_rate": 1.450666666666667e-05, + "loss": 0.0922, + "step": 618 + }, + { + "epoch": 0.8253333333333334, + "grad_norm": 57.45046615600586, + "learning_rate": 1.449777777777778e-05, + "loss": 0.442, + "step": 619 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 7.121749401092529, + "learning_rate": 1.448888888888889e-05, + "loss": 0.0118, + "step": 620 + }, + { + "epoch": 0.828, + "grad_norm": 5.478396415710449, + "learning_rate": 1.448e-05, + "loss": 0.0732, + "step": 621 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 10.309385299682617, + "learning_rate": 1.4471111111111112e-05, + "loss": 0.0934, + "step": 622 + }, + { + "epoch": 0.8306666666666667, + "grad_norm": 12.518217086791992, + "learning_rate": 1.4462222222222225e-05, + "loss": 0.0717, + "step": 623 + }, + { + "epoch": 0.832, + "grad_norm": 1.8621327877044678, + "learning_rate": 1.4453333333333334e-05, + "loss": 0.0193, + "step": 624 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 12.550138473510742, + "learning_rate": 1.4444444444444446e-05, + "loss": 0.2917, + "step": 625 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 38.43443298339844, + "learning_rate": 1.4435555555555556e-05, + "loss": 0.1387, + "step": 626 + }, + { + "epoch": 0.836, + "grad_norm": 1.4778586626052856, + "learning_rate": 1.4426666666666669e-05, + "loss": 0.0109, + "step": 627 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 0.8024053573608398, + "learning_rate": 1.441777777777778e-05, + "loss": 0.0114, + "step": 628 + }, + { + "epoch": 0.8386666666666667, + "grad_norm": 33.1444206237793, + "learning_rate": 1.440888888888889e-05, + "loss": 0.8442, + "step": 629 + }, + { + "epoch": 0.84, + "grad_norm": 9.499881744384766, + "learning_rate": 1.4400000000000001e-05, + "loss": 0.7325, + "step": 630 + }, + { + "epoch": 0.8413333333333334, + "grad_norm": 15.393890380859375, + "learning_rate": 1.439111111111111e-05, + "loss": 0.0582, + "step": 631 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 27.567861557006836, + "learning_rate": 1.4382222222222224e-05, + "loss": 0.2942, + "step": 632 + }, + { + "epoch": 0.844, + "grad_norm": 32.60098648071289, + "learning_rate": 1.4373333333333335e-05, + "loss": 0.1987, + "step": 633 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 15.415559768676758, + "learning_rate": 1.4364444444444445e-05, + "loss": 0.0773, + "step": 634 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 7.764647006988525, + "learning_rate": 1.4355555555555556e-05, + "loss": 0.0096, + "step": 635 + }, + { + "epoch": 0.848, + "grad_norm": 30.226110458374023, + "learning_rate": 1.434666666666667e-05, + "loss": 0.1447, + "step": 636 + }, + { + "epoch": 0.8493333333333334, + "grad_norm": 23.151321411132812, + "learning_rate": 1.4337777777777779e-05, + "loss": 0.2854, + "step": 637 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 1.633979082107544, + "learning_rate": 1.432888888888889e-05, + "loss": 0.0053, + "step": 638 + }, + { + "epoch": 0.852, + "grad_norm": 18.048336029052734, + "learning_rate": 1.432e-05, + "loss": 0.1183, + "step": 639 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 6.508684158325195, + "learning_rate": 1.4311111111111111e-05, + "loss": 0.344, + "step": 640 + }, + { + "epoch": 0.8546666666666667, + "grad_norm": 0.3348619341850281, + "learning_rate": 1.4302222222222225e-05, + "loss": 0.0062, + "step": 641 + }, + { + "epoch": 0.856, + "grad_norm": 18.507034301757812, + "learning_rate": 1.4293333333333334e-05, + "loss": 0.0288, + "step": 642 + }, + { + "epoch": 0.8573333333333333, + "grad_norm": 0.7478644847869873, + "learning_rate": 1.4284444444444446e-05, + "loss": 0.0112, + "step": 643 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 7.950412273406982, + "learning_rate": 1.4275555555555555e-05, + "loss": 0.0436, + "step": 644 + }, + { + "epoch": 0.86, + "grad_norm": 0.4940491020679474, + "learning_rate": 1.4266666666666668e-05, + "loss": 0.0079, + "step": 645 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 10.13092041015625, + "learning_rate": 1.425777777777778e-05, + "loss": 0.5285, + "step": 646 + }, + { + "epoch": 0.8626666666666667, + "grad_norm": 23.632478713989258, + "learning_rate": 1.424888888888889e-05, + "loss": 0.5921, + "step": 647 + }, + { + "epoch": 0.864, + "grad_norm": 56.903564453125, + "learning_rate": 1.4240000000000001e-05, + "loss": 0.3602, + "step": 648 + }, + { + "epoch": 0.8653333333333333, + "grad_norm": 18.035160064697266, + "learning_rate": 1.4231111111111114e-05, + "loss": 0.1687, + "step": 649 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 6.601646423339844, + "learning_rate": 1.4222222222222224e-05, + "loss": 0.4454, + "step": 650 + }, + { + "epoch": 0.868, + "grad_norm": 3.116445779800415, + "learning_rate": 1.4213333333333335e-05, + "loss": 0.0209, + "step": 651 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 118.74122619628906, + "learning_rate": 1.4204444444444445e-05, + "loss": 0.3045, + "step": 652 + }, + { + "epoch": 0.8706666666666667, + "grad_norm": 2.370626211166382, + "learning_rate": 1.4195555555555556e-05, + "loss": 0.0201, + "step": 653 + }, + { + "epoch": 0.872, + "grad_norm": 19.292724609375, + "learning_rate": 1.418666666666667e-05, + "loss": 0.3257, + "step": 654 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 173.11138916015625, + "learning_rate": 1.4177777777777779e-05, + "loss": 0.1839, + "step": 655 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 35.89756393432617, + "learning_rate": 1.416888888888889e-05, + "loss": 0.6123, + "step": 656 + }, + { + "epoch": 0.876, + "grad_norm": 0.6465488076210022, + "learning_rate": 1.416e-05, + "loss": 0.01, + "step": 657 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 43.133426666259766, + "learning_rate": 1.4151111111111113e-05, + "loss": 0.1062, + "step": 658 + }, + { + "epoch": 0.8786666666666667, + "grad_norm": 24.65461540222168, + "learning_rate": 1.4142222222222224e-05, + "loss": 0.2138, + "step": 659 + }, + { + "epoch": 0.88, + "grad_norm": 35.20946502685547, + "learning_rate": 1.4133333333333334e-05, + "loss": 0.0783, + "step": 660 + }, + { + "epoch": 0.8813333333333333, + "grad_norm": 30.163761138916016, + "learning_rate": 1.4124444444444445e-05, + "loss": 0.4074, + "step": 661 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 0.3964151442050934, + "learning_rate": 1.4115555555555555e-05, + "loss": 0.005, + "step": 662 + }, + { + "epoch": 0.884, + "grad_norm": 23.621362686157227, + "learning_rate": 1.4106666666666668e-05, + "loss": 0.1986, + "step": 663 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 149.72171020507812, + "learning_rate": 1.409777777777778e-05, + "loss": 0.2421, + "step": 664 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 10.025938987731934, + "learning_rate": 1.408888888888889e-05, + "loss": 0.3462, + "step": 665 + }, + { + "epoch": 0.888, + "grad_norm": 27.56491470336914, + "learning_rate": 1.408e-05, + "loss": 0.0386, + "step": 666 + }, + { + "epoch": 0.8893333333333333, + "grad_norm": 636.2874145507812, + "learning_rate": 1.4071111111111114e-05, + "loss": 0.1498, + "step": 667 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 1.1810599565505981, + "learning_rate": 1.4062222222222223e-05, + "loss": 0.011, + "step": 668 + }, + { + "epoch": 0.892, + "grad_norm": 37.325931549072266, + "learning_rate": 1.4053333333333335e-05, + "loss": 0.078, + "step": 669 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 70.01134490966797, + "learning_rate": 1.4044444444444445e-05, + "loss": 0.1558, + "step": 670 + }, + { + "epoch": 0.8946666666666667, + "grad_norm": 83.56266021728516, + "learning_rate": 1.4035555555555556e-05, + "loss": 0.9207, + "step": 671 + }, + { + "epoch": 0.896, + "grad_norm": 0.8822095990180969, + "learning_rate": 1.4026666666666669e-05, + "loss": 0.0097, + "step": 672 + }, + { + "epoch": 0.8973333333333333, + "grad_norm": 174.066650390625, + "learning_rate": 1.4017777777777779e-05, + "loss": 0.7328, + "step": 673 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 20.079992294311523, + "learning_rate": 1.400888888888889e-05, + "loss": 0.1633, + "step": 674 + }, + { + "epoch": 0.9, + "grad_norm": 40.04283905029297, + "learning_rate": 1.4e-05, + "loss": 0.304, + "step": 675 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 95.69343566894531, + "learning_rate": 1.3991111111111113e-05, + "loss": 0.1475, + "step": 676 + }, + { + "epoch": 0.9026666666666666, + "grad_norm": 0.2900297939777374, + "learning_rate": 1.3982222222222224e-05, + "loss": 0.0036, + "step": 677 + }, + { + "epoch": 0.904, + "grad_norm": 36.137916564941406, + "learning_rate": 1.3973333333333334e-05, + "loss": 0.5857, + "step": 678 + }, + { + "epoch": 0.9053333333333333, + "grad_norm": 67.86377716064453, + "learning_rate": 1.3964444444444445e-05, + "loss": 0.3878, + "step": 679 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 1.3393468856811523, + "learning_rate": 1.3955555555555558e-05, + "loss": 0.0087, + "step": 680 + }, + { + "epoch": 0.908, + "grad_norm": 50.98375701904297, + "learning_rate": 1.3946666666666668e-05, + "loss": 0.7813, + "step": 681 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 24.97650146484375, + "learning_rate": 1.393777777777778e-05, + "loss": 0.1692, + "step": 682 + }, + { + "epoch": 0.9106666666666666, + "grad_norm": 31.256669998168945, + "learning_rate": 1.392888888888889e-05, + "loss": 0.2205, + "step": 683 + }, + { + "epoch": 0.912, + "grad_norm": 0.6565353274345398, + "learning_rate": 1.392e-05, + "loss": 0.0036, + "step": 684 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 0.2643939256668091, + "learning_rate": 1.3911111111111114e-05, + "loss": 0.0025, + "step": 685 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 16.961984634399414, + "learning_rate": 1.3902222222222223e-05, + "loss": 0.0251, + "step": 686 + }, + { + "epoch": 0.916, + "grad_norm": 17.22585678100586, + "learning_rate": 1.3893333333333335e-05, + "loss": 0.3696, + "step": 687 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 4.090214252471924, + "learning_rate": 1.3884444444444444e-05, + "loss": 0.0195, + "step": 688 + }, + { + "epoch": 0.9186666666666666, + "grad_norm": 127.1395034790039, + "learning_rate": 1.3875555555555557e-05, + "loss": 0.4954, + "step": 689 + }, + { + "epoch": 0.92, + "grad_norm": 3.8261067867279053, + "learning_rate": 1.3866666666666669e-05, + "loss": 0.0183, + "step": 690 + }, + { + "epoch": 0.9213333333333333, + "grad_norm": 25.026809692382812, + "learning_rate": 1.3857777777777779e-05, + "loss": 0.4342, + "step": 691 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 18.404979705810547, + "learning_rate": 1.384888888888889e-05, + "loss": 0.5552, + "step": 692 + }, + { + "epoch": 0.924, + "grad_norm": 6.9787139892578125, + "learning_rate": 1.384e-05, + "loss": 0.0185, + "step": 693 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 1.4521383047103882, + "learning_rate": 1.3831111111111113e-05, + "loss": 0.0028, + "step": 694 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 73.410400390625, + "learning_rate": 1.3822222222222224e-05, + "loss": 0.3271, + "step": 695 + }, + { + "epoch": 0.928, + "grad_norm": 17.47388458251953, + "learning_rate": 1.3813333333333334e-05, + "loss": 0.5127, + "step": 696 + }, + { + "epoch": 0.9293333333333333, + "grad_norm": 1.6573940515518188, + "learning_rate": 1.3804444444444445e-05, + "loss": 0.0055, + "step": 697 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 35.203224182128906, + "learning_rate": 1.3795555555555558e-05, + "loss": 0.0271, + "step": 698 + }, + { + "epoch": 0.932, + "grad_norm": 25.617536544799805, + "learning_rate": 1.3786666666666668e-05, + "loss": 0.1143, + "step": 699 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 12.24096965789795, + "learning_rate": 1.377777777777778e-05, + "loss": 0.0111, + "step": 700 + }, + { + "epoch": 0.9346666666666666, + "grad_norm": 25.50994110107422, + "learning_rate": 1.3768888888888889e-05, + "loss": 0.0096, + "step": 701 + }, + { + "epoch": 0.936, + "grad_norm": 143.40684509277344, + "learning_rate": 1.376e-05, + "loss": 0.3342, + "step": 702 + }, + { + "epoch": 0.9373333333333334, + "grad_norm": 14.626077651977539, + "learning_rate": 1.3751111111111113e-05, + "loss": 0.9422, + "step": 703 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 10.534880638122559, + "learning_rate": 1.3742222222222223e-05, + "loss": 0.0429, + "step": 704 + }, + { + "epoch": 0.94, + "grad_norm": 0.29387494921684265, + "learning_rate": 1.3733333333333335e-05, + "loss": 0.0041, + "step": 705 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 6.872982025146484, + "learning_rate": 1.3724444444444444e-05, + "loss": 0.0391, + "step": 706 + }, + { + "epoch": 0.9426666666666667, + "grad_norm": 6.712430953979492, + "learning_rate": 1.3715555555555557e-05, + "loss": 0.0229, + "step": 707 + }, + { + "epoch": 0.944, + "grad_norm": 18.711732864379883, + "learning_rate": 1.3706666666666669e-05, + "loss": 0.4872, + "step": 708 + }, + { + "epoch": 0.9453333333333334, + "grad_norm": 105.72051239013672, + "learning_rate": 1.3697777777777778e-05, + "loss": 0.1312, + "step": 709 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 65.53568267822266, + "learning_rate": 1.368888888888889e-05, + "loss": 0.5901, + "step": 710 + }, + { + "epoch": 0.948, + "grad_norm": 73.6441650390625, + "learning_rate": 1.3680000000000003e-05, + "loss": 0.5972, + "step": 711 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 0.5898783206939697, + "learning_rate": 1.3671111111111113e-05, + "loss": 0.007, + "step": 712 + }, + { + "epoch": 0.9506666666666667, + "grad_norm": 47.6138916015625, + "learning_rate": 1.3662222222222224e-05, + "loss": 0.5103, + "step": 713 + }, + { + "epoch": 0.952, + "grad_norm": 0.5217769742012024, + "learning_rate": 1.3653333333333334e-05, + "loss": 0.0078, + "step": 714 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 33.95098114013672, + "learning_rate": 1.3644444444444445e-05, + "loss": 0.2849, + "step": 715 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 14.006319999694824, + "learning_rate": 1.3635555555555558e-05, + "loss": 0.8321, + "step": 716 + }, + { + "epoch": 0.956, + "grad_norm": 0.16549982130527496, + "learning_rate": 1.3626666666666668e-05, + "loss": 0.0037, + "step": 717 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 23.815263748168945, + "learning_rate": 1.361777777777778e-05, + "loss": 0.3162, + "step": 718 + }, + { + "epoch": 0.9586666666666667, + "grad_norm": 7.512960910797119, + "learning_rate": 1.3608888888888889e-05, + "loss": 0.0415, + "step": 719 + }, + { + "epoch": 0.96, + "grad_norm": 4.769608497619629, + "learning_rate": 1.3600000000000002e-05, + "loss": 0.0151, + "step": 720 + }, + { + "epoch": 0.9613333333333334, + "grad_norm": 1.0321413278579712, + "learning_rate": 1.3591111111111113e-05, + "loss": 0.0075, + "step": 721 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 37.12084197998047, + "learning_rate": 1.3582222222222223e-05, + "loss": 0.1606, + "step": 722 + }, + { + "epoch": 0.964, + "grad_norm": 47.215087890625, + "learning_rate": 1.3573333333333334e-05, + "loss": 0.7428, + "step": 723 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 70.62277221679688, + "learning_rate": 1.3564444444444444e-05, + "loss": 0.3467, + "step": 724 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 6.499557018280029, + "learning_rate": 1.3555555555555557e-05, + "loss": 0.0326, + "step": 725 + }, + { + "epoch": 0.968, + "grad_norm": 54.95820999145508, + "learning_rate": 1.3546666666666669e-05, + "loss": 0.3965, + "step": 726 + }, + { + "epoch": 0.9693333333333334, + "grad_norm": 0.20337001979351044, + "learning_rate": 1.3537777777777778e-05, + "loss": 0.0043, + "step": 727 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 4.6722307205200195, + "learning_rate": 1.352888888888889e-05, + "loss": 0.0103, + "step": 728 + }, + { + "epoch": 0.972, + "grad_norm": 7.788360118865967, + "learning_rate": 1.3520000000000003e-05, + "loss": 0.5042, + "step": 729 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 52.938663482666016, + "learning_rate": 1.3511111111111112e-05, + "loss": 0.0738, + "step": 730 + }, + { + "epoch": 0.9746666666666667, + "grad_norm": 39.24916076660156, + "learning_rate": 1.3502222222222224e-05, + "loss": 0.3102, + "step": 731 + }, + { + "epoch": 0.976, + "grad_norm": 23.674108505249023, + "learning_rate": 1.3493333333333333e-05, + "loss": 0.2696, + "step": 732 + }, + { + "epoch": 0.9773333333333334, + "grad_norm": 5.811005115509033, + "learning_rate": 1.3484444444444445e-05, + "loss": 0.4753, + "step": 733 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 8.476629257202148, + "learning_rate": 1.3475555555555558e-05, + "loss": 0.0326, + "step": 734 + }, + { + "epoch": 0.98, + "grad_norm": 1.6852353811264038, + "learning_rate": 1.3466666666666668e-05, + "loss": 0.016, + "step": 735 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 11.485468864440918, + "learning_rate": 1.3457777777777779e-05, + "loss": 0.0259, + "step": 736 + }, + { + "epoch": 0.9826666666666667, + "grad_norm": 6.595991611480713, + "learning_rate": 1.3448888888888889e-05, + "loss": 0.4633, + "step": 737 + }, + { + "epoch": 0.984, + "grad_norm": 14.869954109191895, + "learning_rate": 1.3440000000000002e-05, + "loss": 0.4617, + "step": 738 + }, + { + "epoch": 0.9853333333333333, + "grad_norm": 7.625372886657715, + "learning_rate": 1.3431111111111113e-05, + "loss": 0.0273, + "step": 739 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 164.1210479736328, + "learning_rate": 1.3422222222222223e-05, + "loss": 0.2741, + "step": 740 + }, + { + "epoch": 0.988, + "grad_norm": 17.344690322875977, + "learning_rate": 1.3413333333333334e-05, + "loss": 0.3976, + "step": 741 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 125.66578674316406, + "learning_rate": 1.3404444444444447e-05, + "loss": 0.6106, + "step": 742 + }, + { + "epoch": 0.9906666666666667, + "grad_norm": 31.312238693237305, + "learning_rate": 1.3395555555555557e-05, + "loss": 0.4355, + "step": 743 + }, + { + "epoch": 0.992, + "grad_norm": 62.93149185180664, + "learning_rate": 1.3386666666666668e-05, + "loss": 0.4577, + "step": 744 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 24.452299118041992, + "learning_rate": 1.3377777777777778e-05, + "loss": 0.1201, + "step": 745 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 5.4809184074401855, + "learning_rate": 1.336888888888889e-05, + "loss": 0.3438, + "step": 746 + }, + { + "epoch": 0.996, + "grad_norm": 258.2469787597656, + "learning_rate": 1.3360000000000003e-05, + "loss": 0.176, + "step": 747 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 16.465011596679688, + "learning_rate": 1.3351111111111112e-05, + "loss": 0.3134, + "step": 748 + }, + { + "epoch": 0.9986666666666667, + "grad_norm": 1.7587103843688965, + "learning_rate": 1.3342222222222224e-05, + "loss": 0.0356, + "step": 749 + }, + { + "epoch": 1.0, + "grad_norm": 1.1261321306228638, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.0239, + "step": 750 + }, + { + "epoch": 1.0, + "eval_accuracy": 0.904846598488217, + "eval_loss": 0.28887197375297546, + "eval_runtime": 26.9664, + "eval_samples_per_second": 83.4, + "eval_steps_per_second": 2.633, + "step": 750 + }, + { + "epoch": 1.0013333333333334, + "grad_norm": 27.586259841918945, + "learning_rate": 1.3324444444444446e-05, + "loss": 0.3364, + "step": 751 + }, + { + "epoch": 1.0026666666666666, + "grad_norm": 17.20166015625, + "learning_rate": 1.3315555555555558e-05, + "loss": 0.611, + "step": 752 + }, + { + "epoch": 1.004, + "grad_norm": 226.0165557861328, + "learning_rate": 1.3306666666666667e-05, + "loss": 0.1405, + "step": 753 + }, + { + "epoch": 1.0053333333333334, + "grad_norm": 1.760454535484314, + "learning_rate": 1.3297777777777779e-05, + "loss": 0.0228, + "step": 754 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 7.992147445678711, + "learning_rate": 1.3288888888888889e-05, + "loss": 0.3244, + "step": 755 + }, + { + "epoch": 1.008, + "grad_norm": 15.441391944885254, + "learning_rate": 1.3280000000000002e-05, + "loss": 0.2427, + "step": 756 + }, + { + "epoch": 1.0093333333333334, + "grad_norm": 40.13923263549805, + "learning_rate": 1.3271111111111113e-05, + "loss": 0.4277, + "step": 757 + }, + { + "epoch": 1.0106666666666666, + "grad_norm": 736.183837890625, + "learning_rate": 1.3262222222222223e-05, + "loss": 0.1555, + "step": 758 + }, + { + "epoch": 1.012, + "grad_norm": 60.84284591674805, + "learning_rate": 1.3253333333333334e-05, + "loss": 0.7378, + "step": 759 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 121.41837310791016, + "learning_rate": 1.3244444444444447e-05, + "loss": 0.2704, + "step": 760 + }, + { + "epoch": 1.0146666666666666, + "grad_norm": 1.4436596632003784, + "learning_rate": 1.3235555555555557e-05, + "loss": 0.0192, + "step": 761 + }, + { + "epoch": 1.016, + "grad_norm": 47.147212982177734, + "learning_rate": 1.3226666666666668e-05, + "loss": 0.6038, + "step": 762 + }, + { + "epoch": 1.0173333333333334, + "grad_norm": 55.193904876708984, + "learning_rate": 1.3217777777777778e-05, + "loss": 0.4551, + "step": 763 + }, + { + "epoch": 1.0186666666666666, + "grad_norm": 56.34294128417969, + "learning_rate": 1.320888888888889e-05, + "loss": 0.448, + "step": 764 + }, + { + "epoch": 1.02, + "grad_norm": 119.21453857421875, + "learning_rate": 1.3200000000000002e-05, + "loss": 0.1817, + "step": 765 + }, + { + "epoch": 1.0213333333333334, + "grad_norm": 1.1165677309036255, + "learning_rate": 1.3191111111111112e-05, + "loss": 0.018, + "step": 766 + }, + { + "epoch": 1.0226666666666666, + "grad_norm": 18.053470611572266, + "learning_rate": 1.3182222222222223e-05, + "loss": 0.0448, + "step": 767 + }, + { + "epoch": 1.024, + "grad_norm": 13.568665504455566, + "learning_rate": 1.3173333333333333e-05, + "loss": 0.0827, + "step": 768 + }, + { + "epoch": 1.0253333333333334, + "grad_norm": 5.251883029937744, + "learning_rate": 1.3164444444444446e-05, + "loss": 0.0168, + "step": 769 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 1.9971121549606323, + "learning_rate": 1.3155555555555558e-05, + "loss": 0.0096, + "step": 770 + }, + { + "epoch": 1.028, + "grad_norm": 0.86379474401474, + "learning_rate": 1.3146666666666667e-05, + "loss": 0.0122, + "step": 771 + }, + { + "epoch": 1.0293333333333334, + "grad_norm": 8.765575408935547, + "learning_rate": 1.3137777777777779e-05, + "loss": 0.358, + "step": 772 + }, + { + "epoch": 1.0306666666666666, + "grad_norm": 49.42302703857422, + "learning_rate": 1.3128888888888892e-05, + "loss": 0.433, + "step": 773 + }, + { + "epoch": 1.032, + "grad_norm": 0.342842161655426, + "learning_rate": 1.3120000000000001e-05, + "loss": 0.0066, + "step": 774 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 34.168487548828125, + "learning_rate": 1.3111111111111113e-05, + "loss": 0.2098, + "step": 775 + }, + { + "epoch": 1.0346666666666666, + "grad_norm": 0.7996595501899719, + "learning_rate": 1.3102222222222223e-05, + "loss": 0.0087, + "step": 776 + }, + { + "epoch": 1.036, + "grad_norm": 2.569247245788574, + "learning_rate": 1.3093333333333334e-05, + "loss": 0.0117, + "step": 777 + }, + { + "epoch": 1.0373333333333334, + "grad_norm": 1.2888752222061157, + "learning_rate": 1.3084444444444447e-05, + "loss": 0.0043, + "step": 778 + }, + { + "epoch": 1.0386666666666666, + "grad_norm": 148.22377014160156, + "learning_rate": 1.3075555555555557e-05, + "loss": 0.2264, + "step": 779 + }, + { + "epoch": 1.04, + "grad_norm": 25.763715744018555, + "learning_rate": 1.3066666666666668e-05, + "loss": 0.4641, + "step": 780 + }, + { + "epoch": 1.0413333333333332, + "grad_norm": 7.064035892486572, + "learning_rate": 1.3057777777777778e-05, + "loss": 0.016, + "step": 781 + }, + { + "epoch": 1.0426666666666666, + "grad_norm": 43.18195343017578, + "learning_rate": 1.304888888888889e-05, + "loss": 0.2659, + "step": 782 + }, + { + "epoch": 1.044, + "grad_norm": 37.13945770263672, + "learning_rate": 1.3040000000000002e-05, + "loss": 0.4031, + "step": 783 + }, + { + "epoch": 1.0453333333333332, + "grad_norm": 5.505980491638184, + "learning_rate": 1.3031111111111112e-05, + "loss": 0.0151, + "step": 784 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 2.462235450744629, + "learning_rate": 1.3022222222222223e-05, + "loss": 0.0115, + "step": 785 + }, + { + "epoch": 1.048, + "grad_norm": 0.2651556134223938, + "learning_rate": 1.3013333333333333e-05, + "loss": 0.0029, + "step": 786 + }, + { + "epoch": 1.0493333333333332, + "grad_norm": 20.15157699584961, + "learning_rate": 1.3004444444444446e-05, + "loss": 0.4606, + "step": 787 + }, + { + "epoch": 1.0506666666666666, + "grad_norm": 16.805007934570312, + "learning_rate": 1.2995555555555557e-05, + "loss": 0.0093, + "step": 788 + }, + { + "epoch": 1.052, + "grad_norm": 49.0029296875, + "learning_rate": 1.2986666666666667e-05, + "loss": 0.5551, + "step": 789 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 3.09700608253479, + "learning_rate": 1.2977777777777779e-05, + "loss": 0.0112, + "step": 790 + }, + { + "epoch": 1.0546666666666666, + "grad_norm": 0.3791140615940094, + "learning_rate": 1.2968888888888892e-05, + "loss": 0.0034, + "step": 791 + }, + { + "epoch": 1.056, + "grad_norm": 117.6129379272461, + "learning_rate": 1.2960000000000001e-05, + "loss": 1.7288, + "step": 792 + }, + { + "epoch": 1.0573333333333332, + "grad_norm": 221.93267822265625, + "learning_rate": 1.2951111111111113e-05, + "loss": 0.1407, + "step": 793 + }, + { + "epoch": 1.0586666666666666, + "grad_norm": 55.06201171875, + "learning_rate": 1.2942222222222222e-05, + "loss": 0.329, + "step": 794 + }, + { + "epoch": 1.06, + "grad_norm": 11.678918838500977, + "learning_rate": 1.2933333333333334e-05, + "loss": 0.0158, + "step": 795 + }, + { + "epoch": 1.0613333333333332, + "grad_norm": 0.2170952707529068, + "learning_rate": 1.2924444444444447e-05, + "loss": 0.0024, + "step": 796 + }, + { + "epoch": 1.0626666666666666, + "grad_norm": 0.17647413909435272, + "learning_rate": 1.2915555555555557e-05, + "loss": 0.003, + "step": 797 + }, + { + "epoch": 1.064, + "grad_norm": 2.979579210281372, + "learning_rate": 1.2906666666666668e-05, + "loss": 0.0074, + "step": 798 + }, + { + "epoch": 1.0653333333333332, + "grad_norm": 0.11164411902427673, + "learning_rate": 1.2897777777777778e-05, + "loss": 0.0022, + "step": 799 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 0.127725288271904, + "learning_rate": 1.288888888888889e-05, + "loss": 0.0021, + "step": 800 + }, + { + "epoch": 1.068, + "grad_norm": 1.5642305612564087, + "learning_rate": 1.2880000000000002e-05, + "loss": 0.0036, + "step": 801 + }, + { + "epoch": 1.0693333333333332, + "grad_norm": 24.924209594726562, + "learning_rate": 1.2871111111111112e-05, + "loss": 0.042, + "step": 802 + }, + { + "epoch": 1.0706666666666667, + "grad_norm": 0.12092596292495728, + "learning_rate": 1.2862222222222223e-05, + "loss": 0.0021, + "step": 803 + }, + { + "epoch": 1.072, + "grad_norm": 1.0227552652359009, + "learning_rate": 1.2853333333333336e-05, + "loss": 0.0029, + "step": 804 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 34.25923538208008, + "learning_rate": 1.2844444444444446e-05, + "loss": 0.0896, + "step": 805 + }, + { + "epoch": 1.0746666666666667, + "grad_norm": 96.62979125976562, + "learning_rate": 1.2835555555555557e-05, + "loss": 0.6089, + "step": 806 + }, + { + "epoch": 1.076, + "grad_norm": 38.05104446411133, + "learning_rate": 1.2826666666666667e-05, + "loss": 0.4133, + "step": 807 + }, + { + "epoch": 1.0773333333333333, + "grad_norm": 1.4345643520355225, + "learning_rate": 1.2817777777777778e-05, + "loss": 0.0038, + "step": 808 + }, + { + "epoch": 1.0786666666666667, + "grad_norm": 0.053676433861255646, + "learning_rate": 1.2808888888888891e-05, + "loss": 0.0015, + "step": 809 + }, + { + "epoch": 1.08, + "grad_norm": 96.8714599609375, + "learning_rate": 1.2800000000000001e-05, + "loss": 1.3294, + "step": 810 + }, + { + "epoch": 1.0813333333333333, + "grad_norm": 0.07187049835920334, + "learning_rate": 1.2791111111111112e-05, + "loss": 0.0017, + "step": 811 + }, + { + "epoch": 1.0826666666666667, + "grad_norm": 14.80344295501709, + "learning_rate": 1.2782222222222222e-05, + "loss": 0.0165, + "step": 812 + }, + { + "epoch": 1.084, + "grad_norm": 3.4597558975219727, + "learning_rate": 1.2773333333333335e-05, + "loss": 0.0076, + "step": 813 + }, + { + "epoch": 1.0853333333333333, + "grad_norm": 700.4561157226562, + "learning_rate": 1.2764444444444447e-05, + "loss": 0.2888, + "step": 814 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 0.08150532841682434, + "learning_rate": 1.2755555555555556e-05, + "loss": 0.0017, + "step": 815 + }, + { + "epoch": 1.088, + "grad_norm": 101.07064819335938, + "learning_rate": 1.2746666666666668e-05, + "loss": 0.793, + "step": 816 + }, + { + "epoch": 1.0893333333333333, + "grad_norm": 79.26262664794922, + "learning_rate": 1.2737777777777777e-05, + "loss": 1.0043, + "step": 817 + }, + { + "epoch": 1.0906666666666667, + "grad_norm": 1.4211872816085815, + "learning_rate": 1.272888888888889e-05, + "loss": 0.0032, + "step": 818 + }, + { + "epoch": 1.092, + "grad_norm": 453.25897216796875, + "learning_rate": 1.2720000000000002e-05, + "loss": 0.1466, + "step": 819 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 1.5293344259262085, + "learning_rate": 1.2711111111111112e-05, + "loss": 0.0033, + "step": 820 + }, + { + "epoch": 1.0946666666666667, + "grad_norm": 52.81258773803711, + "learning_rate": 1.2702222222222223e-05, + "loss": 0.7177, + "step": 821 + }, + { + "epoch": 1.096, + "grad_norm": 0.20062361657619476, + "learning_rate": 1.2693333333333336e-05, + "loss": 0.002, + "step": 822 + }, + { + "epoch": 1.0973333333333333, + "grad_norm": 0.40297842025756836, + "learning_rate": 1.2684444444444446e-05, + "loss": 0.0015, + "step": 823 + }, + { + "epoch": 1.0986666666666667, + "grad_norm": 0.19320163130760193, + "learning_rate": 1.2675555555555557e-05, + "loss": 0.0019, + "step": 824 + }, + { + "epoch": 1.1, + "grad_norm": 26.835094451904297, + "learning_rate": 1.2666666666666667e-05, + "loss": 0.4955, + "step": 825 + }, + { + "epoch": 1.1013333333333333, + "grad_norm": 171.86520385742188, + "learning_rate": 1.2657777777777778e-05, + "loss": 0.4986, + "step": 826 + }, + { + "epoch": 1.1026666666666667, + "grad_norm": 0.062163546681404114, + "learning_rate": 1.2648888888888891e-05, + "loss": 0.0014, + "step": 827 + }, + { + "epoch": 1.104, + "grad_norm": 0.08295907080173492, + "learning_rate": 1.2640000000000001e-05, + "loss": 0.0014, + "step": 828 + }, + { + "epoch": 1.1053333333333333, + "grad_norm": 140.89132690429688, + "learning_rate": 1.2631111111111112e-05, + "loss": 0.3092, + "step": 829 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 134.7340087890625, + "learning_rate": 1.2622222222222222e-05, + "loss": 0.0797, + "step": 830 + }, + { + "epoch": 1.108, + "grad_norm": 0.08058121800422668, + "learning_rate": 1.2613333333333335e-05, + "loss": 0.0012, + "step": 831 + }, + { + "epoch": 1.1093333333333333, + "grad_norm": 135.03155517578125, + "learning_rate": 1.2604444444444446e-05, + "loss": 1.1038, + "step": 832 + }, + { + "epoch": 1.1106666666666667, + "grad_norm": 0.12343065440654755, + "learning_rate": 1.2595555555555556e-05, + "loss": 0.0014, + "step": 833 + }, + { + "epoch": 1.112, + "grad_norm": 1.4600228071212769, + "learning_rate": 1.2586666666666668e-05, + "loss": 0.0024, + "step": 834 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 20.80870246887207, + "learning_rate": 1.257777777777778e-05, + "loss": 0.9738, + "step": 835 + }, + { + "epoch": 1.1146666666666667, + "grad_norm": 82.81521606445312, + "learning_rate": 1.256888888888889e-05, + "loss": 0.1791, + "step": 836 + }, + { + "epoch": 1.116, + "grad_norm": 49.21027374267578, + "learning_rate": 1.2560000000000002e-05, + "loss": 0.0736, + "step": 837 + }, + { + "epoch": 1.1173333333333333, + "grad_norm": 7.727200984954834, + "learning_rate": 1.2551111111111111e-05, + "loss": 0.0129, + "step": 838 + }, + { + "epoch": 1.1186666666666667, + "grad_norm": 39.5984001159668, + "learning_rate": 1.2542222222222223e-05, + "loss": 0.4686, + "step": 839 + }, + { + "epoch": 1.12, + "grad_norm": 3.5434956550598145, + "learning_rate": 1.2533333333333336e-05, + "loss": 0.575, + "step": 840 + }, + { + "epoch": 1.1213333333333333, + "grad_norm": 5.994466781616211, + "learning_rate": 1.2524444444444446e-05, + "loss": 0.5574, + "step": 841 + }, + { + "epoch": 1.1226666666666667, + "grad_norm": 0.913675844669342, + "learning_rate": 1.2515555555555557e-05, + "loss": 0.0038, + "step": 842 + }, + { + "epoch": 1.124, + "grad_norm": 0.5497124791145325, + "learning_rate": 1.2506666666666667e-05, + "loss": 0.0021, + "step": 843 + }, + { + "epoch": 1.1253333333333333, + "grad_norm": 182.46014404296875, + "learning_rate": 1.249777777777778e-05, + "loss": 0.6174, + "step": 844 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 6.25128698348999, + "learning_rate": 1.2488888888888891e-05, + "loss": 0.5011, + "step": 845 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 17.34930419921875, + "learning_rate": 1.248e-05, + "loss": 0.474, + "step": 846 + }, + { + "epoch": 1.1293333333333333, + "grad_norm": 24.189481735229492, + "learning_rate": 1.2471111111111112e-05, + "loss": 0.7739, + "step": 847 + }, + { + "epoch": 1.1306666666666667, + "grad_norm": 30.252674102783203, + "learning_rate": 1.2462222222222222e-05, + "loss": 0.4029, + "step": 848 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 0.5519030690193176, + "learning_rate": 1.2453333333333335e-05, + "loss": 0.0081, + "step": 849 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 15.290019989013672, + "learning_rate": 1.2444444444444446e-05, + "loss": 0.0577, + "step": 850 + }, + { + "epoch": 1.1346666666666667, + "grad_norm": 0.6529953479766846, + "learning_rate": 1.2435555555555556e-05, + "loss": 0.0099, + "step": 851 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 16.313291549682617, + "learning_rate": 1.2426666666666667e-05, + "loss": 0.2651, + "step": 852 + }, + { + "epoch": 1.1373333333333333, + "grad_norm": 0.7528375387191772, + "learning_rate": 1.241777777777778e-05, + "loss": 0.0106, + "step": 853 + }, + { + "epoch": 1.1386666666666667, + "grad_norm": 0.7328863143920898, + "learning_rate": 1.240888888888889e-05, + "loss": 0.0111, + "step": 854 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 0.2663259506225586, + "learning_rate": 1.2400000000000002e-05, + "loss": 0.0038, + "step": 855 + }, + { + "epoch": 1.1413333333333333, + "grad_norm": 7.513643741607666, + "learning_rate": 1.2391111111111111e-05, + "loss": 0.036, + "step": 856 + }, + { + "epoch": 1.1426666666666667, + "grad_norm": 41.81425857543945, + "learning_rate": 1.2382222222222223e-05, + "loss": 0.4298, + "step": 857 + }, + { + "epoch": 1.144, + "grad_norm": 45.59193801879883, + "learning_rate": 1.2373333333333336e-05, + "loss": 0.354, + "step": 858 + }, + { + "epoch": 1.1453333333333333, + "grad_norm": 64.54571533203125, + "learning_rate": 1.2364444444444445e-05, + "loss": 0.0884, + "step": 859 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 0.4215911626815796, + "learning_rate": 1.2355555555555557e-05, + "loss": 0.0058, + "step": 860 + }, + { + "epoch": 1.148, + "grad_norm": 0.5809759497642517, + "learning_rate": 1.2346666666666666e-05, + "loss": 0.006, + "step": 861 + }, + { + "epoch": 1.1493333333333333, + "grad_norm": 0.33577969670295715, + "learning_rate": 1.233777777777778e-05, + "loss": 0.0044, + "step": 862 + }, + { + "epoch": 1.1506666666666667, + "grad_norm": 12.825361251831055, + "learning_rate": 1.2328888888888891e-05, + "loss": 0.5172, + "step": 863 + }, + { + "epoch": 1.152, + "grad_norm": 2.0829153060913086, + "learning_rate": 1.232e-05, + "loss": 0.0142, + "step": 864 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 193.0457305908203, + "learning_rate": 1.2311111111111112e-05, + "loss": 0.4961, + "step": 865 + }, + { + "epoch": 1.1546666666666667, + "grad_norm": 11.269798278808594, + "learning_rate": 1.2302222222222225e-05, + "loss": 0.4096, + "step": 866 + }, + { + "epoch": 1.156, + "grad_norm": 0.5155045986175537, + "learning_rate": 1.2293333333333335e-05, + "loss": 0.005, + "step": 867 + }, + { + "epoch": 1.1573333333333333, + "grad_norm": 12.284307479858398, + "learning_rate": 1.2284444444444446e-05, + "loss": 0.6147, + "step": 868 + }, + { + "epoch": 1.1586666666666667, + "grad_norm": 18.633132934570312, + "learning_rate": 1.2275555555555556e-05, + "loss": 0.5362, + "step": 869 + }, + { + "epoch": 1.16, + "grad_norm": 0.18201844394207, + "learning_rate": 1.2266666666666667e-05, + "loss": 0.0029, + "step": 870 + }, + { + "epoch": 1.1613333333333333, + "grad_norm": 41.96181869506836, + "learning_rate": 1.225777777777778e-05, + "loss": 0.7109, + "step": 871 + }, + { + "epoch": 1.1626666666666667, + "grad_norm": 0.15295831859111786, + "learning_rate": 1.224888888888889e-05, + "loss": 0.0031, + "step": 872 + }, + { + "epoch": 1.164, + "grad_norm": 0.26740360260009766, + "learning_rate": 1.2240000000000001e-05, + "loss": 0.0029, + "step": 873 + }, + { + "epoch": 1.1653333333333333, + "grad_norm": 0.7902565598487854, + "learning_rate": 1.2231111111111111e-05, + "loss": 0.0044, + "step": 874 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 35.6673583984375, + "learning_rate": 1.2222222222222224e-05, + "loss": 0.4477, + "step": 875 + }, + { + "epoch": 1.168, + "grad_norm": 0.08016163110733032, + "learning_rate": 1.2213333333333336e-05, + "loss": 0.0022, + "step": 876 + }, + { + "epoch": 1.1693333333333333, + "grad_norm": 0.1301957368850708, + "learning_rate": 1.2204444444444445e-05, + "loss": 0.0027, + "step": 877 + }, + { + "epoch": 1.1706666666666667, + "grad_norm": 84.76673889160156, + "learning_rate": 1.2195555555555557e-05, + "loss": 0.515, + "step": 878 + }, + { + "epoch": 1.172, + "grad_norm": 20.881052017211914, + "learning_rate": 1.2186666666666666e-05, + "loss": 0.5052, + "step": 879 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 28.483245849609375, + "learning_rate": 1.217777777777778e-05, + "loss": 0.2576, + "step": 880 + }, + { + "epoch": 1.1746666666666667, + "grad_norm": 0.10363554954528809, + "learning_rate": 1.216888888888889e-05, + "loss": 0.0024, + "step": 881 + }, + { + "epoch": 1.176, + "grad_norm": 0.12127348780632019, + "learning_rate": 1.216e-05, + "loss": 0.0029, + "step": 882 + }, + { + "epoch": 1.1773333333333333, + "grad_norm": 3.900700092315674, + "learning_rate": 1.2151111111111112e-05, + "loss": 0.5431, + "step": 883 + }, + { + "epoch": 1.1786666666666668, + "grad_norm": 0.07921244204044342, + "learning_rate": 1.2142222222222225e-05, + "loss": 0.0022, + "step": 884 + }, + { + "epoch": 1.18, + "grad_norm": 0.2758810222148895, + "learning_rate": 1.2133333333333335e-05, + "loss": 0.0042, + "step": 885 + }, + { + "epoch": 1.1813333333333333, + "grad_norm": 0.14938539266586304, + "learning_rate": 1.2124444444444446e-05, + "loss": 0.0029, + "step": 886 + }, + { + "epoch": 1.1826666666666668, + "grad_norm": 92.51848602294922, + "learning_rate": 1.2115555555555556e-05, + "loss": 0.0353, + "step": 887 + }, + { + "epoch": 1.184, + "grad_norm": 9.922256469726562, + "learning_rate": 1.2106666666666667e-05, + "loss": 0.0128, + "step": 888 + }, + { + "epoch": 1.1853333333333333, + "grad_norm": 45.24642562866211, + "learning_rate": 1.209777777777778e-05, + "loss": 0.4618, + "step": 889 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 0.2325056493282318, + "learning_rate": 1.208888888888889e-05, + "loss": 0.003, + "step": 890 + }, + { + "epoch": 1.188, + "grad_norm": 0.2904539406299591, + "learning_rate": 1.2080000000000001e-05, + "loss": 0.0036, + "step": 891 + }, + { + "epoch": 1.1893333333333334, + "grad_norm": 0.8002233505249023, + "learning_rate": 1.2071111111111111e-05, + "loss": 0.0034, + "step": 892 + }, + { + "epoch": 1.1906666666666668, + "grad_norm": 23.455820083618164, + "learning_rate": 1.2062222222222224e-05, + "loss": 0.3988, + "step": 893 + }, + { + "epoch": 1.192, + "grad_norm": 0.0952620804309845, + "learning_rate": 1.2053333333333335e-05, + "loss": 0.0024, + "step": 894 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 20.559545516967773, + "learning_rate": 1.2044444444444445e-05, + "loss": 0.016, + "step": 895 + }, + { + "epoch": 1.1946666666666665, + "grad_norm": 4.858412265777588, + "learning_rate": 1.2035555555555556e-05, + "loss": 0.5362, + "step": 896 + }, + { + "epoch": 1.196, + "grad_norm": 18.93775749206543, + "learning_rate": 1.202666666666667e-05, + "loss": 0.3102, + "step": 897 + }, + { + "epoch": 1.1973333333333334, + "grad_norm": 0.20715278387069702, + "learning_rate": 1.201777777777778e-05, + "loss": 0.0025, + "step": 898 + }, + { + "epoch": 1.1986666666666665, + "grad_norm": 8.263291358947754, + "learning_rate": 1.200888888888889e-05, + "loss": 0.0095, + "step": 899 + }, + { + "epoch": 1.2, + "grad_norm": 0.15967799723148346, + "learning_rate": 1.2e-05, + "loss": 0.0031, + "step": 900 + }, + { + "epoch": 1.2013333333333334, + "grad_norm": 12.468239784240723, + "learning_rate": 1.1991111111111112e-05, + "loss": 0.4627, + "step": 901 + }, + { + "epoch": 1.2026666666666666, + "grad_norm": 0.23650714755058289, + "learning_rate": 1.1982222222222225e-05, + "loss": 0.0042, + "step": 902 + }, + { + "epoch": 1.204, + "grad_norm": 0.10377378761768341, + "learning_rate": 1.1973333333333334e-05, + "loss": 0.0027, + "step": 903 + }, + { + "epoch": 1.2053333333333334, + "grad_norm": 0.14577721059322357, + "learning_rate": 1.1964444444444446e-05, + "loss": 0.0035, + "step": 904 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 79.82862854003906, + "learning_rate": 1.1955555555555556e-05, + "loss": 0.3619, + "step": 905 + }, + { + "epoch": 1.208, + "grad_norm": 0.16100451350212097, + "learning_rate": 1.1946666666666669e-05, + "loss": 0.0032, + "step": 906 + }, + { + "epoch": 1.2093333333333334, + "grad_norm": 0.10858803987503052, + "learning_rate": 1.193777777777778e-05, + "loss": 0.0028, + "step": 907 + }, + { + "epoch": 1.2106666666666666, + "grad_norm": 1.640223741531372, + "learning_rate": 1.192888888888889e-05, + "loss": 0.0065, + "step": 908 + }, + { + "epoch": 1.212, + "grad_norm": 3.5480217933654785, + "learning_rate": 1.1920000000000001e-05, + "loss": 0.0051, + "step": 909 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 31.298311233520508, + "learning_rate": 1.191111111111111e-05, + "loss": 0.3445, + "step": 910 + }, + { + "epoch": 1.2146666666666666, + "grad_norm": 83.92938232421875, + "learning_rate": 1.1902222222222224e-05, + "loss": 0.5631, + "step": 911 + }, + { + "epoch": 1.216, + "grad_norm": 0.1466776579618454, + "learning_rate": 1.1893333333333335e-05, + "loss": 0.0031, + "step": 912 + }, + { + "epoch": 1.2173333333333334, + "grad_norm": 9.025130271911621, + "learning_rate": 1.1884444444444445e-05, + "loss": 0.4819, + "step": 913 + }, + { + "epoch": 1.2186666666666666, + "grad_norm": 20.17824935913086, + "learning_rate": 1.1875555555555556e-05, + "loss": 0.2918, + "step": 914 + }, + { + "epoch": 1.22, + "grad_norm": 0.1393057405948639, + "learning_rate": 1.186666666666667e-05, + "loss": 0.0027, + "step": 915 + }, + { + "epoch": 1.2213333333333334, + "grad_norm": 1.765773057937622, + "learning_rate": 1.1857777777777779e-05, + "loss": 0.005, + "step": 916 + }, + { + "epoch": 1.2226666666666666, + "grad_norm": 16.329025268554688, + "learning_rate": 1.184888888888889e-05, + "loss": 0.4116, + "step": 917 + }, + { + "epoch": 1.224, + "grad_norm": 21.189285278320312, + "learning_rate": 1.184e-05, + "loss": 0.3532, + "step": 918 + }, + { + "epoch": 1.2253333333333334, + "grad_norm": 3.216411590576172, + "learning_rate": 1.1831111111111112e-05, + "loss": 0.0046, + "step": 919 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 0.19620104134082794, + "learning_rate": 1.1822222222222225e-05, + "loss": 0.0037, + "step": 920 + }, + { + "epoch": 1.228, + "grad_norm": 0.48292961716651917, + "learning_rate": 1.1813333333333334e-05, + "loss": 0.0046, + "step": 921 + }, + { + "epoch": 1.2293333333333334, + "grad_norm": 29.918201446533203, + "learning_rate": 1.1804444444444446e-05, + "loss": 0.3111, + "step": 922 + }, + { + "epoch": 1.2306666666666666, + "grad_norm": 0.17015571892261505, + "learning_rate": 1.1795555555555555e-05, + "loss": 0.0033, + "step": 923 + }, + { + "epoch": 1.232, + "grad_norm": 0.9593067169189453, + "learning_rate": 1.1786666666666668e-05, + "loss": 0.0061, + "step": 924 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 0.13157722353935242, + "learning_rate": 1.177777777777778e-05, + "loss": 0.0028, + "step": 925 + }, + { + "epoch": 1.2346666666666666, + "grad_norm": 1.6399060487747192, + "learning_rate": 1.176888888888889e-05, + "loss": 0.0046, + "step": 926 + }, + { + "epoch": 1.236, + "grad_norm": 137.57984924316406, + "learning_rate": 1.1760000000000001e-05, + "loss": 0.5043, + "step": 927 + }, + { + "epoch": 1.2373333333333334, + "grad_norm": 11.29311466217041, + "learning_rate": 1.1751111111111112e-05, + "loss": 0.4658, + "step": 928 + }, + { + "epoch": 1.2386666666666666, + "grad_norm": 5.140443325042725, + "learning_rate": 1.1742222222222224e-05, + "loss": 0.505, + "step": 929 + }, + { + "epoch": 1.24, + "grad_norm": 0.2025599628686905, + "learning_rate": 1.1733333333333335e-05, + "loss": 0.003, + "step": 930 + }, + { + "epoch": 1.2413333333333334, + "grad_norm": 40.2384147644043, + "learning_rate": 1.1724444444444445e-05, + "loss": 0.3934, + "step": 931 + }, + { + "epoch": 1.2426666666666666, + "grad_norm": 58.11953353881836, + "learning_rate": 1.1715555555555556e-05, + "loss": 0.0403, + "step": 932 + }, + { + "epoch": 1.244, + "grad_norm": 6.105989933013916, + "learning_rate": 1.170666666666667e-05, + "loss": 0.5154, + "step": 933 + }, + { + "epoch": 1.2453333333333334, + "grad_norm": 0.9199371933937073, + "learning_rate": 1.1697777777777779e-05, + "loss": 0.006, + "step": 934 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 1.2838635444641113, + "learning_rate": 1.168888888888889e-05, + "loss": 0.0082, + "step": 935 + }, + { + "epoch": 1.248, + "grad_norm": 22.795225143432617, + "learning_rate": 1.168e-05, + "loss": 0.3632, + "step": 936 + }, + { + "epoch": 1.2493333333333334, + "grad_norm": 14.74439811706543, + "learning_rate": 1.1671111111111113e-05, + "loss": 0.3315, + "step": 937 + }, + { + "epoch": 1.2506666666666666, + "grad_norm": 118.87178802490234, + "learning_rate": 1.1662222222222224e-05, + "loss": 0.6016, + "step": 938 + }, + { + "epoch": 1.252, + "grad_norm": 8.751676559448242, + "learning_rate": 1.1653333333333334e-05, + "loss": 0.4587, + "step": 939 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 3.969007730484009, + "learning_rate": 1.1644444444444446e-05, + "loss": 0.0088, + "step": 940 + }, + { + "epoch": 1.2546666666666666, + "grad_norm": 0.3607846200466156, + "learning_rate": 1.1635555555555555e-05, + "loss": 0.0048, + "step": 941 + }, + { + "epoch": 1.256, + "grad_norm": 0.4155414402484894, + "learning_rate": 1.1626666666666668e-05, + "loss": 0.0055, + "step": 942 + }, + { + "epoch": 1.2573333333333334, + "grad_norm": 0.6266899108886719, + "learning_rate": 1.161777777777778e-05, + "loss": 0.0073, + "step": 943 + }, + { + "epoch": 1.2586666666666666, + "grad_norm": 0.5248187184333801, + "learning_rate": 1.160888888888889e-05, + "loss": 0.0069, + "step": 944 + }, + { + "epoch": 1.26, + "grad_norm": 1.0109491348266602, + "learning_rate": 1.16e-05, + "loss": 0.0045, + "step": 945 + }, + { + "epoch": 1.2613333333333334, + "grad_norm": 8.226187705993652, + "learning_rate": 1.1591111111111114e-05, + "loss": 0.0136, + "step": 946 + }, + { + "epoch": 1.2626666666666666, + "grad_norm": 1.3889366388320923, + "learning_rate": 1.1582222222222224e-05, + "loss": 0.0098, + "step": 947 + }, + { + "epoch": 1.264, + "grad_norm": 82.0073471069336, + "learning_rate": 1.1573333333333335e-05, + "loss": 0.0194, + "step": 948 + }, + { + "epoch": 1.2653333333333334, + "grad_norm": 11.125330924987793, + "learning_rate": 1.1564444444444445e-05, + "loss": 0.0047, + "step": 949 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 0.4823436141014099, + "learning_rate": 1.1555555555555556e-05, + "loss": 0.0048, + "step": 950 + }, + { + "epoch": 1.268, + "grad_norm": 45.379638671875, + "learning_rate": 1.1546666666666669e-05, + "loss": 0.6432, + "step": 951 + }, + { + "epoch": 1.2693333333333334, + "grad_norm": 26.949378967285156, + "learning_rate": 1.1537777777777779e-05, + "loss": 0.2687, + "step": 952 + }, + { + "epoch": 1.2706666666666666, + "grad_norm": 0.3253675103187561, + "learning_rate": 1.152888888888889e-05, + "loss": 0.0048, + "step": 953 + }, + { + "epoch": 1.272, + "grad_norm": 28.58254051208496, + "learning_rate": 1.152e-05, + "loss": 0.4162, + "step": 954 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 5.473392009735107, + "learning_rate": 1.1511111111111113e-05, + "loss": 0.0054, + "step": 955 + }, + { + "epoch": 1.2746666666666666, + "grad_norm": 0.4049687087535858, + "learning_rate": 1.1502222222222224e-05, + "loss": 0.003, + "step": 956 + }, + { + "epoch": 1.276, + "grad_norm": 12.284566879272461, + "learning_rate": 1.1493333333333334e-05, + "loss": 0.9907, + "step": 957 + }, + { + "epoch": 1.2773333333333334, + "grad_norm": 28.280475616455078, + "learning_rate": 1.1484444444444445e-05, + "loss": 1.2906, + "step": 958 + }, + { + "epoch": 1.2786666666666666, + "grad_norm": 0.15694104135036469, + "learning_rate": 1.1475555555555557e-05, + "loss": 0.003, + "step": 959 + }, + { + "epoch": 1.28, + "grad_norm": 125.3262939453125, + "learning_rate": 1.1466666666666668e-05, + "loss": 0.1059, + "step": 960 + }, + { + "epoch": 1.2813333333333334, + "grad_norm": 1.7037324905395508, + "learning_rate": 1.145777777777778e-05, + "loss": 0.005, + "step": 961 + }, + { + "epoch": 1.2826666666666666, + "grad_norm": 34.69887924194336, + "learning_rate": 1.144888888888889e-05, + "loss": 0.8149, + "step": 962 + }, + { + "epoch": 1.284, + "grad_norm": 68.41641235351562, + "learning_rate": 1.144e-05, + "loss": 0.259, + "step": 963 + }, + { + "epoch": 1.2853333333333334, + "grad_norm": 17.679241180419922, + "learning_rate": 1.1431111111111114e-05, + "loss": 0.89, + "step": 964 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 0.44580599665641785, + "learning_rate": 1.1422222222222223e-05, + "loss": 0.003, + "step": 965 + }, + { + "epoch": 1.288, + "grad_norm": 2.4933066368103027, + "learning_rate": 1.1413333333333335e-05, + "loss": 0.0068, + "step": 966 + }, + { + "epoch": 1.2893333333333334, + "grad_norm": 109.09564208984375, + "learning_rate": 1.1404444444444444e-05, + "loss": 0.7981, + "step": 967 + }, + { + "epoch": 1.2906666666666666, + "grad_norm": 0.216598778963089, + "learning_rate": 1.1395555555555558e-05, + "loss": 0.0032, + "step": 968 + }, + { + "epoch": 1.292, + "grad_norm": 1.6283466815948486, + "learning_rate": 1.1386666666666669e-05, + "loss": 0.0085, + "step": 969 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 0.14359629154205322, + "learning_rate": 1.1377777777777779e-05, + "loss": 0.0031, + "step": 970 + }, + { + "epoch": 1.2946666666666666, + "grad_norm": 8.637922286987305, + "learning_rate": 1.136888888888889e-05, + "loss": 0.0466, + "step": 971 + }, + { + "epoch": 1.296, + "grad_norm": 11.157002449035645, + "learning_rate": 1.136e-05, + "loss": 0.056, + "step": 972 + }, + { + "epoch": 1.2973333333333334, + "grad_norm": 7.2839508056640625, + "learning_rate": 1.1351111111111113e-05, + "loss": 0.0093, + "step": 973 + }, + { + "epoch": 1.2986666666666666, + "grad_norm": 20.36553382873535, + "learning_rate": 1.1342222222222224e-05, + "loss": 0.3563, + "step": 974 + }, + { + "epoch": 1.3, + "grad_norm": 0.09845487773418427, + "learning_rate": 1.1333333333333334e-05, + "loss": 0.0025, + "step": 975 + }, + { + "epoch": 1.3013333333333335, + "grad_norm": 7.82648229598999, + "learning_rate": 1.1324444444444445e-05, + "loss": 0.0089, + "step": 976 + }, + { + "epoch": 1.3026666666666666, + "grad_norm": 18.02204132080078, + "learning_rate": 1.1315555555555557e-05, + "loss": 0.3675, + "step": 977 + }, + { + "epoch": 1.304, + "grad_norm": 160.16041564941406, + "learning_rate": 1.1306666666666668e-05, + "loss": 0.0404, + "step": 978 + }, + { + "epoch": 1.3053333333333335, + "grad_norm": 2.9476184844970703, + "learning_rate": 1.129777777777778e-05, + "loss": 0.0081, + "step": 979 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 53.64346694946289, + "learning_rate": 1.1288888888888889e-05, + "loss": 0.1896, + "step": 980 + }, + { + "epoch": 1.308, + "grad_norm": 30.197551727294922, + "learning_rate": 1.128e-05, + "loss": 0.6301, + "step": 981 + }, + { + "epoch": 1.3093333333333335, + "grad_norm": 0.9788207411766052, + "learning_rate": 1.1271111111111113e-05, + "loss": 0.012, + "step": 982 + }, + { + "epoch": 1.3106666666666666, + "grad_norm": 0.47784310579299927, + "learning_rate": 1.1262222222222223e-05, + "loss": 0.0064, + "step": 983 + }, + { + "epoch": 1.312, + "grad_norm": 56.818809509277344, + "learning_rate": 1.1253333333333335e-05, + "loss": 0.3145, + "step": 984 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 0.17256160080432892, + "learning_rate": 1.1244444444444444e-05, + "loss": 0.0033, + "step": 985 + }, + { + "epoch": 1.3146666666666667, + "grad_norm": 0.5721084475517273, + "learning_rate": 1.1235555555555557e-05, + "loss": 0.0038, + "step": 986 + }, + { + "epoch": 1.316, + "grad_norm": 25.935848236083984, + "learning_rate": 1.1226666666666669e-05, + "loss": 0.3047, + "step": 987 + }, + { + "epoch": 1.3173333333333335, + "grad_norm": 31.875411987304688, + "learning_rate": 1.1217777777777778e-05, + "loss": 0.3474, + "step": 988 + }, + { + "epoch": 1.3186666666666667, + "grad_norm": 2.268709421157837, + "learning_rate": 1.120888888888889e-05, + "loss": 0.007, + "step": 989 + }, + { + "epoch": 1.32, + "grad_norm": 4.736310005187988, + "learning_rate": 1.1200000000000001e-05, + "loss": 0.5332, + "step": 990 + }, + { + "epoch": 1.3213333333333335, + "grad_norm": 0.5186072587966919, + "learning_rate": 1.1191111111111113e-05, + "loss": 0.0049, + "step": 991 + }, + { + "epoch": 1.3226666666666667, + "grad_norm": 0.9063280820846558, + "learning_rate": 1.1182222222222224e-05, + "loss": 0.0055, + "step": 992 + }, + { + "epoch": 1.324, + "grad_norm": 10.004049301147461, + "learning_rate": 1.1173333333333334e-05, + "loss": 0.5001, + "step": 993 + }, + { + "epoch": 1.3253333333333333, + "grad_norm": 0.10727064311504364, + "learning_rate": 1.1164444444444445e-05, + "loss": 0.0026, + "step": 994 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 0.0779246836900711, + "learning_rate": 1.1155555555555556e-05, + "loss": 0.0023, + "step": 995 + }, + { + "epoch": 1.328, + "grad_norm": 0.1362374871969223, + "learning_rate": 1.1146666666666668e-05, + "loss": 0.0031, + "step": 996 + }, + { + "epoch": 1.3293333333333333, + "grad_norm": 0.1214473694562912, + "learning_rate": 1.113777777777778e-05, + "loss": 0.003, + "step": 997 + }, + { + "epoch": 1.3306666666666667, + "grad_norm": 0.19001039862632751, + "learning_rate": 1.1128888888888889e-05, + "loss": 0.0031, + "step": 998 + }, + { + "epoch": 1.332, + "grad_norm": 13.757452011108398, + "learning_rate": 1.1120000000000002e-05, + "loss": 0.3473, + "step": 999 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 45.05511474609375, + "learning_rate": 1.1111111111111113e-05, + "loss": 0.2901, + "step": 1000 + }, + { + "epoch": 1.3346666666666667, + "grad_norm": 15.986353874206543, + "learning_rate": 1.1102222222222223e-05, + "loss": 0.9144, + "step": 1001 + }, + { + "epoch": 1.336, + "grad_norm": 208.5457763671875, + "learning_rate": 1.1093333333333334e-05, + "loss": 0.5198, + "step": 1002 + }, + { + "epoch": 1.3373333333333333, + "grad_norm": 1.682790994644165, + "learning_rate": 1.1084444444444444e-05, + "loss": 0.0066, + "step": 1003 + }, + { + "epoch": 1.3386666666666667, + "grad_norm": 559.8340454101562, + "learning_rate": 1.1075555555555557e-05, + "loss": 0.1847, + "step": 1004 + }, + { + "epoch": 1.34, + "grad_norm": 19.687036514282227, + "learning_rate": 1.1066666666666669e-05, + "loss": 0.3462, + "step": 1005 + }, + { + "epoch": 1.3413333333333333, + "grad_norm": 35.04238510131836, + "learning_rate": 1.1057777777777778e-05, + "loss": 0.0196, + "step": 1006 + }, + { + "epoch": 1.3426666666666667, + "grad_norm": 15.6327486038208, + "learning_rate": 1.104888888888889e-05, + "loss": 0.4656, + "step": 1007 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 0.1875307708978653, + "learning_rate": 1.1040000000000001e-05, + "loss": 0.0037, + "step": 1008 + }, + { + "epoch": 1.3453333333333333, + "grad_norm": 25.909387588500977, + "learning_rate": 1.1031111111111112e-05, + "loss": 0.3833, + "step": 1009 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 0.467212051153183, + "learning_rate": 1.1022222222222224e-05, + "loss": 0.007, + "step": 1010 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 3.0302629470825195, + "learning_rate": 1.1013333333333333e-05, + "loss": 0.0062, + "step": 1011 + }, + { + "epoch": 1.3493333333333333, + "grad_norm": 179.12498474121094, + "learning_rate": 1.1004444444444445e-05, + "loss": 0.0608, + "step": 1012 + }, + { + "epoch": 1.3506666666666667, + "grad_norm": 0.25609830021858215, + "learning_rate": 1.0995555555555556e-05, + "loss": 0.0044, + "step": 1013 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 37.782615661621094, + "learning_rate": 1.0986666666666668e-05, + "loss": 1.2477, + "step": 1014 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 0.5754727125167847, + "learning_rate": 1.0977777777777779e-05, + "loss": 0.0064, + "step": 1015 + }, + { + "epoch": 1.3546666666666667, + "grad_norm": 1.6934483051300049, + "learning_rate": 1.0968888888888889e-05, + "loss": 0.0083, + "step": 1016 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 46.205413818359375, + "learning_rate": 1.0960000000000002e-05, + "loss": 0.2697, + "step": 1017 + }, + { + "epoch": 1.3573333333333333, + "grad_norm": 12.102858543395996, + "learning_rate": 1.0951111111111113e-05, + "loss": 0.4314, + "step": 1018 + }, + { + "epoch": 1.3586666666666667, + "grad_norm": 72.37397766113281, + "learning_rate": 1.0942222222222223e-05, + "loss": 0.7672, + "step": 1019 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.19211329519748688, + "learning_rate": 1.0933333333333334e-05, + "loss": 0.0031, + "step": 1020 + }, + { + "epoch": 1.3613333333333333, + "grad_norm": 29.372970581054688, + "learning_rate": 1.0924444444444446e-05, + "loss": 0.7679, + "step": 1021 + }, + { + "epoch": 1.3626666666666667, + "grad_norm": 47.5743522644043, + "learning_rate": 1.0915555555555557e-05, + "loss": 0.0351, + "step": 1022 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 0.17210566997528076, + "learning_rate": 1.0906666666666668e-05, + "loss": 0.0038, + "step": 1023 + }, + { + "epoch": 1.3653333333333333, + "grad_norm": 31.828094482421875, + "learning_rate": 1.0897777777777778e-05, + "loss": 0.64, + "step": 1024 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 1.0670193433761597, + "learning_rate": 1.088888888888889e-05, + "loss": 0.0057, + "step": 1025 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 0.5194656252861023, + "learning_rate": 1.0880000000000001e-05, + "loss": 0.0061, + "step": 1026 + }, + { + "epoch": 1.3693333333333333, + "grad_norm": 0.6150916814804077, + "learning_rate": 1.0871111111111112e-05, + "loss": 0.0044, + "step": 1027 + }, + { + "epoch": 1.3706666666666667, + "grad_norm": 0.4025200307369232, + "learning_rate": 1.0862222222222224e-05, + "loss": 0.0034, + "step": 1028 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 78.88444519042969, + "learning_rate": 1.0853333333333333e-05, + "loss": 0.5577, + "step": 1029 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 0.36716604232788086, + "learning_rate": 1.0844444444444446e-05, + "loss": 0.0042, + "step": 1030 + }, + { + "epoch": 1.3746666666666667, + "grad_norm": 24.414928436279297, + "learning_rate": 1.0835555555555556e-05, + "loss": 0.4569, + "step": 1031 + }, + { + "epoch": 1.376, + "grad_norm": 15.043314933776855, + "learning_rate": 1.0826666666666667e-05, + "loss": 0.4252, + "step": 1032 + }, + { + "epoch": 1.3773333333333333, + "grad_norm": 0.9665635824203491, + "learning_rate": 1.0817777777777779e-05, + "loss": 0.0102, + "step": 1033 + }, + { + "epoch": 1.3786666666666667, + "grad_norm": 85.10862731933594, + "learning_rate": 1.0808888888888889e-05, + "loss": 0.4623, + "step": 1034 + }, + { + "epoch": 1.38, + "grad_norm": 0.07986774295568466, + "learning_rate": 1.0800000000000002e-05, + "loss": 0.0021, + "step": 1035 + }, + { + "epoch": 1.3813333333333333, + "grad_norm": 1.6344101428985596, + "learning_rate": 1.0791111111111113e-05, + "loss": 0.0056, + "step": 1036 + }, + { + "epoch": 1.3826666666666667, + "grad_norm": 11.960233688354492, + "learning_rate": 1.0782222222222223e-05, + "loss": 0.3291, + "step": 1037 + }, + { + "epoch": 1.384, + "grad_norm": 115.85118865966797, + "learning_rate": 1.0773333333333334e-05, + "loss": 0.6358, + "step": 1038 + }, + { + "epoch": 1.3853333333333333, + "grad_norm": 11.307171821594238, + "learning_rate": 1.0764444444444445e-05, + "loss": 0.0057, + "step": 1039 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 29.196582794189453, + "learning_rate": 1.0755555555555557e-05, + "loss": 0.3273, + "step": 1040 + }, + { + "epoch": 1.388, + "grad_norm": 4.270632266998291, + "learning_rate": 1.0746666666666668e-05, + "loss": 0.5097, + "step": 1041 + }, + { + "epoch": 1.3893333333333333, + "grad_norm": 0.5369338393211365, + "learning_rate": 1.0737777777777778e-05, + "loss": 0.0041, + "step": 1042 + }, + { + "epoch": 1.3906666666666667, + "grad_norm": 53.553565979003906, + "learning_rate": 1.072888888888889e-05, + "loss": 0.3232, + "step": 1043 + }, + { + "epoch": 1.392, + "grad_norm": 18.59355354309082, + "learning_rate": 1.072e-05, + "loss": 0.3795, + "step": 1044 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 36.67383575439453, + "learning_rate": 1.0711111111111112e-05, + "loss": 0.35, + "step": 1045 + }, + { + "epoch": 1.3946666666666667, + "grad_norm": 53.03459167480469, + "learning_rate": 1.0702222222222223e-05, + "loss": 0.5612, + "step": 1046 + }, + { + "epoch": 1.396, + "grad_norm": 0.10832452774047852, + "learning_rate": 1.0693333333333333e-05, + "loss": 0.0026, + "step": 1047 + }, + { + "epoch": 1.3973333333333333, + "grad_norm": 0.2469080537557602, + "learning_rate": 1.0684444444444446e-05, + "loss": 0.0035, + "step": 1048 + }, + { + "epoch": 1.3986666666666667, + "grad_norm": 103.76860809326172, + "learning_rate": 1.0675555555555558e-05, + "loss": 0.4732, + "step": 1049 + }, + { + "epoch": 1.4, + "grad_norm": 80.80223846435547, + "learning_rate": 1.0666666666666667e-05, + "loss": 0.225, + "step": 1050 + }, + { + "epoch": 1.4013333333333333, + "grad_norm": 2.287863254547119, + "learning_rate": 1.0657777777777779e-05, + "loss": 0.0079, + "step": 1051 + }, + { + "epoch": 1.4026666666666667, + "grad_norm": 1.9578336477279663, + "learning_rate": 1.064888888888889e-05, + "loss": 0.0071, + "step": 1052 + }, + { + "epoch": 1.404, + "grad_norm": 36.453514099121094, + "learning_rate": 1.0640000000000001e-05, + "loss": 0.2202, + "step": 1053 + }, + { + "epoch": 1.4053333333333333, + "grad_norm": 0.319528192281723, + "learning_rate": 1.0631111111111113e-05, + "loss": 0.004, + "step": 1054 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 53.01961135864258, + "learning_rate": 1.0622222222222223e-05, + "loss": 0.1055, + "step": 1055 + }, + { + "epoch": 1.408, + "grad_norm": 0.13486705720424652, + "learning_rate": 1.0613333333333334e-05, + "loss": 0.0031, + "step": 1056 + }, + { + "epoch": 1.4093333333333333, + "grad_norm": 0.32953041791915894, + "learning_rate": 1.0604444444444445e-05, + "loss": 0.0036, + "step": 1057 + }, + { + "epoch": 1.4106666666666667, + "grad_norm": 15.87716007232666, + "learning_rate": 1.0595555555555557e-05, + "loss": 0.4346, + "step": 1058 + }, + { + "epoch": 1.412, + "grad_norm": 0.8685833215713501, + "learning_rate": 1.0586666666666668e-05, + "loss": 0.0052, + "step": 1059 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 41.96293640136719, + "learning_rate": 1.0577777777777778e-05, + "loss": 0.5125, + "step": 1060 + }, + { + "epoch": 1.4146666666666667, + "grad_norm": 0.5692912340164185, + "learning_rate": 1.0568888888888891e-05, + "loss": 0.0043, + "step": 1061 + }, + { + "epoch": 1.416, + "grad_norm": 0.08257541060447693, + "learning_rate": 1.056e-05, + "loss": 0.0022, + "step": 1062 + }, + { + "epoch": 1.4173333333333333, + "grad_norm": 4.80947732925415, + "learning_rate": 1.0551111111111112e-05, + "loss": 0.0107, + "step": 1063 + }, + { + "epoch": 1.4186666666666667, + "grad_norm": 174.61288452148438, + "learning_rate": 1.0542222222222223e-05, + "loss": 0.6981, + "step": 1064 + }, + { + "epoch": 1.42, + "grad_norm": 148.44122314453125, + "learning_rate": 1.0533333333333333e-05, + "loss": 0.2447, + "step": 1065 + }, + { + "epoch": 1.4213333333333333, + "grad_norm": 43.43819046020508, + "learning_rate": 1.0524444444444446e-05, + "loss": 0.7442, + "step": 1066 + }, + { + "epoch": 1.4226666666666667, + "grad_norm": 28.182193756103516, + "learning_rate": 1.0515555555555557e-05, + "loss": 0.347, + "step": 1067 + }, + { + "epoch": 1.424, + "grad_norm": 0.11235974729061127, + "learning_rate": 1.0506666666666667e-05, + "loss": 0.0023, + "step": 1068 + }, + { + "epoch": 1.4253333333333333, + "grad_norm": 6.5808820724487305, + "learning_rate": 1.0497777777777779e-05, + "loss": 0.0164, + "step": 1069 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 0.1427670419216156, + "learning_rate": 1.048888888888889e-05, + "loss": 0.003, + "step": 1070 + }, + { + "epoch": 1.428, + "grad_norm": 0.16648639738559723, + "learning_rate": 1.0480000000000001e-05, + "loss": 0.0023, + "step": 1071 + }, + { + "epoch": 1.4293333333333333, + "grad_norm": 0.16597194969654083, + "learning_rate": 1.0471111111111113e-05, + "loss": 0.0027, + "step": 1072 + }, + { + "epoch": 1.4306666666666668, + "grad_norm": 0.19746990501880646, + "learning_rate": 1.0462222222222222e-05, + "loss": 0.0025, + "step": 1073 + }, + { + "epoch": 1.432, + "grad_norm": 7.8732476234436035, + "learning_rate": 1.0453333333333334e-05, + "loss": 0.0117, + "step": 1074 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 2.6486756801605225, + "learning_rate": 1.0444444444444445e-05, + "loss": 0.0049, + "step": 1075 + }, + { + "epoch": 1.4346666666666668, + "grad_norm": 0.11213681846857071, + "learning_rate": 1.0435555555555557e-05, + "loss": 0.0022, + "step": 1076 + }, + { + "epoch": 1.436, + "grad_norm": 1.1678744554519653, + "learning_rate": 1.0426666666666668e-05, + "loss": 0.0054, + "step": 1077 + }, + { + "epoch": 1.4373333333333334, + "grad_norm": 670.6453247070312, + "learning_rate": 1.0417777777777778e-05, + "loss": 0.0567, + "step": 1078 + }, + { + "epoch": 1.4386666666666668, + "grad_norm": 0.1925370693206787, + "learning_rate": 1.040888888888889e-05, + "loss": 0.0019, + "step": 1079 + }, + { + "epoch": 1.44, + "grad_norm": 0.06694521754980087, + "learning_rate": 1.04e-05, + "loss": 0.0017, + "step": 1080 + }, + { + "epoch": 1.4413333333333334, + "grad_norm": 14.15124225616455, + "learning_rate": 1.0391111111111112e-05, + "loss": 0.0121, + "step": 1081 + }, + { + "epoch": 1.4426666666666668, + "grad_norm": 276.757080078125, + "learning_rate": 1.0382222222222223e-05, + "loss": 0.0742, + "step": 1082 + }, + { + "epoch": 1.444, + "grad_norm": 71.43821716308594, + "learning_rate": 1.0373333333333335e-05, + "loss": 0.3538, + "step": 1083 + }, + { + "epoch": 1.4453333333333334, + "grad_norm": 0.08575307577848434, + "learning_rate": 1.0364444444444446e-05, + "loss": 0.0014, + "step": 1084 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 0.27344760298728943, + "learning_rate": 1.0355555555555557e-05, + "loss": 0.0027, + "step": 1085 + }, + { + "epoch": 1.448, + "grad_norm": 0.15349318087100983, + "learning_rate": 1.0346666666666667e-05, + "loss": 0.0018, + "step": 1086 + }, + { + "epoch": 1.4493333333333334, + "grad_norm": 54.50678634643555, + "learning_rate": 1.0337777777777778e-05, + "loss": 0.2653, + "step": 1087 + }, + { + "epoch": 1.4506666666666668, + "grad_norm": 33.06585693359375, + "learning_rate": 1.032888888888889e-05, + "loss": 0.3189, + "step": 1088 + }, + { + "epoch": 1.452, + "grad_norm": 178.1517791748047, + "learning_rate": 1.0320000000000001e-05, + "loss": 0.3299, + "step": 1089 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 0.6169297099113464, + "learning_rate": 1.0311111111111113e-05, + "loss": 0.004, + "step": 1090 + }, + { + "epoch": 1.4546666666666668, + "grad_norm": 91.25619506835938, + "learning_rate": 1.0302222222222222e-05, + "loss": 0.0517, + "step": 1091 + }, + { + "epoch": 1.456, + "grad_norm": 0.10870151966810226, + "learning_rate": 1.0293333333333335e-05, + "loss": 0.0017, + "step": 1092 + }, + { + "epoch": 1.4573333333333334, + "grad_norm": 2.133047342300415, + "learning_rate": 1.0284444444444445e-05, + "loss": 0.0057, + "step": 1093 + }, + { + "epoch": 1.4586666666666668, + "grad_norm": 47.87104415893555, + "learning_rate": 1.0275555555555556e-05, + "loss": 0.3508, + "step": 1094 + }, + { + "epoch": 1.46, + "grad_norm": 24.64542007446289, + "learning_rate": 1.0266666666666668e-05, + "loss": 0.0132, + "step": 1095 + }, + { + "epoch": 1.4613333333333334, + "grad_norm": 1513.9296875, + "learning_rate": 1.0257777777777777e-05, + "loss": 0.5643, + "step": 1096 + }, + { + "epoch": 1.4626666666666668, + "grad_norm": 0.054696571081876755, + "learning_rate": 1.024888888888889e-05, + "loss": 0.0012, + "step": 1097 + }, + { + "epoch": 1.464, + "grad_norm": 81.91468811035156, + "learning_rate": 1.024e-05, + "loss": 0.6442, + "step": 1098 + }, + { + "epoch": 1.4653333333333334, + "grad_norm": 98.64302062988281, + "learning_rate": 1.0231111111111112e-05, + "loss": 0.0834, + "step": 1099 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 103.47653198242188, + "learning_rate": 1.0222222222222223e-05, + "loss": 0.4408, + "step": 1100 + }, + { + "epoch": 1.468, + "grad_norm": 0.1152467280626297, + "learning_rate": 1.0213333333333334e-05, + "loss": 0.0014, + "step": 1101 + }, + { + "epoch": 1.4693333333333334, + "grad_norm": 20.122108459472656, + "learning_rate": 1.0204444444444446e-05, + "loss": 0.4366, + "step": 1102 + }, + { + "epoch": 1.4706666666666668, + "grad_norm": 22.154659271240234, + "learning_rate": 1.0195555555555557e-05, + "loss": 1.5776, + "step": 1103 + }, + { + "epoch": 1.472, + "grad_norm": 21.897808074951172, + "learning_rate": 1.0186666666666667e-05, + "loss": 1.0368, + "step": 1104 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 0.050926513969898224, + "learning_rate": 1.0177777777777778e-05, + "loss": 0.0014, + "step": 1105 + }, + { + "epoch": 1.4746666666666668, + "grad_norm": 9.63754940032959, + "learning_rate": 1.016888888888889e-05, + "loss": 0.005, + "step": 1106 + }, + { + "epoch": 1.476, + "grad_norm": 0.11397027224302292, + "learning_rate": 1.0160000000000001e-05, + "loss": 0.0016, + "step": 1107 + }, + { + "epoch": 1.4773333333333334, + "grad_norm": 38.685401916503906, + "learning_rate": 1.0151111111111112e-05, + "loss": 0.3492, + "step": 1108 + }, + { + "epoch": 1.4786666666666668, + "grad_norm": 3.294534683227539, + "learning_rate": 1.0142222222222222e-05, + "loss": 0.0068, + "step": 1109 + }, + { + "epoch": 1.48, + "grad_norm": 0.12291810661554337, + "learning_rate": 1.0133333333333335e-05, + "loss": 0.0018, + "step": 1110 + }, + { + "epoch": 1.4813333333333334, + "grad_norm": 39.436256408691406, + "learning_rate": 1.0124444444444445e-05, + "loss": 0.4789, + "step": 1111 + }, + { + "epoch": 1.4826666666666668, + "grad_norm": 1.4077755212783813, + "learning_rate": 1.0115555555555556e-05, + "loss": 0.0037, + "step": 1112 + }, + { + "epoch": 1.484, + "grad_norm": 8.338570594787598, + "learning_rate": 1.0106666666666668e-05, + "loss": 0.5367, + "step": 1113 + }, + { + "epoch": 1.4853333333333334, + "grad_norm": 1.365424394607544, + "learning_rate": 1.0097777777777779e-05, + "loss": 0.0027, + "step": 1114 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 3.4707038402557373, + "learning_rate": 1.008888888888889e-05, + "loss": 0.0107, + "step": 1115 + }, + { + "epoch": 1.488, + "grad_norm": 0.12392369657754898, + "learning_rate": 1.008e-05, + "loss": 0.0018, + "step": 1116 + }, + { + "epoch": 1.4893333333333334, + "grad_norm": 54.68601608276367, + "learning_rate": 1.0071111111111111e-05, + "loss": 0.1573, + "step": 1117 + }, + { + "epoch": 1.4906666666666666, + "grad_norm": 0.08152028173208237, + "learning_rate": 1.0062222222222223e-05, + "loss": 0.0015, + "step": 1118 + }, + { + "epoch": 1.492, + "grad_norm": 17.499496459960938, + "learning_rate": 1.0053333333333334e-05, + "loss": 0.4368, + "step": 1119 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 32.79203414916992, + "learning_rate": 1.0044444444444446e-05, + "loss": 0.4103, + "step": 1120 + }, + { + "epoch": 1.4946666666666666, + "grad_norm": 16.255796432495117, + "learning_rate": 1.0035555555555557e-05, + "loss": 0.4025, + "step": 1121 + }, + { + "epoch": 1.496, + "grad_norm": 0.7766789793968201, + "learning_rate": 1.0026666666666667e-05, + "loss": 0.0038, + "step": 1122 + }, + { + "epoch": 1.4973333333333334, + "grad_norm": 159.65065002441406, + "learning_rate": 1.001777777777778e-05, + "loss": 0.1574, + "step": 1123 + }, + { + "epoch": 1.4986666666666666, + "grad_norm": 0.8925172686576843, + "learning_rate": 1.000888888888889e-05, + "loss": 0.0044, + "step": 1124 + }, + { + "epoch": 1.5, + "grad_norm": 20.526613235473633, + "learning_rate": 1e-05, + "loss": 1.0146, + "step": 1125 + }, + { + "epoch": 1.5013333333333332, + "grad_norm": 19.690019607543945, + "learning_rate": 9.991111111111112e-06, + "loss": 0.4503, + "step": 1126 + }, + { + "epoch": 1.5026666666666668, + "grad_norm": 22.120075225830078, + "learning_rate": 9.982222222222224e-06, + "loss": 0.0183, + "step": 1127 + }, + { + "epoch": 1.504, + "grad_norm": 207.06312561035156, + "learning_rate": 9.973333333333333e-06, + "loss": 0.1252, + "step": 1128 + }, + { + "epoch": 1.5053333333333332, + "grad_norm": 0.6239273548126221, + "learning_rate": 9.964444444444445e-06, + "loss": 0.0058, + "step": 1129 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 81.94896697998047, + "learning_rate": 9.955555555555556e-06, + "loss": 0.385, + "step": 1130 + }, + { + "epoch": 1.508, + "grad_norm": 33.6357421875, + "learning_rate": 9.946666666666667e-06, + "loss": 0.7852, + "step": 1131 + }, + { + "epoch": 1.5093333333333332, + "grad_norm": 1.7893480062484741, + "learning_rate": 9.937777777777779e-06, + "loss": 0.0091, + "step": 1132 + }, + { + "epoch": 1.5106666666666668, + "grad_norm": 46.6541748046875, + "learning_rate": 9.92888888888889e-06, + "loss": 0.0201, + "step": 1133 + }, + { + "epoch": 1.512, + "grad_norm": 0.6599791646003723, + "learning_rate": 9.920000000000002e-06, + "loss": 0.0045, + "step": 1134 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 1.9575221538543701, + "learning_rate": 9.911111111111113e-06, + "loss": 0.0054, + "step": 1135 + }, + { + "epoch": 1.5146666666666668, + "grad_norm": 1.13613760471344, + "learning_rate": 9.902222222222223e-06, + "loss": 0.0102, + "step": 1136 + }, + { + "epoch": 1.516, + "grad_norm": 21.506973266601562, + "learning_rate": 9.893333333333334e-06, + "loss": 0.3668, + "step": 1137 + }, + { + "epoch": 1.5173333333333332, + "grad_norm": 21.41179847717285, + "learning_rate": 9.884444444444445e-06, + "loss": 0.4086, + "step": 1138 + }, + { + "epoch": 1.5186666666666668, + "grad_norm": 85.5159683227539, + "learning_rate": 9.875555555555557e-06, + "loss": 0.426, + "step": 1139 + }, + { + "epoch": 1.52, + "grad_norm": 1.8201133012771606, + "learning_rate": 9.866666666666668e-06, + "loss": 0.0115, + "step": 1140 + }, + { + "epoch": 1.5213333333333332, + "grad_norm": 26.631025314331055, + "learning_rate": 9.857777777777778e-06, + "loss": 0.5982, + "step": 1141 + }, + { + "epoch": 1.5226666666666666, + "grad_norm": 1.1851919889450073, + "learning_rate": 9.84888888888889e-06, + "loss": 0.0045, + "step": 1142 + }, + { + "epoch": 1.524, + "grad_norm": 26.685226440429688, + "learning_rate": 9.84e-06, + "loss": 0.3714, + "step": 1143 + }, + { + "epoch": 1.5253333333333332, + "grad_norm": 18.316144943237305, + "learning_rate": 9.831111111111112e-06, + "loss": 0.2551, + "step": 1144 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 45.43986892700195, + "learning_rate": 9.822222222222223e-06, + "loss": 0.2435, + "step": 1145 + }, + { + "epoch": 1.528, + "grad_norm": 1.2840975522994995, + "learning_rate": 9.813333333333333e-06, + "loss": 0.0083, + "step": 1146 + }, + { + "epoch": 1.5293333333333332, + "grad_norm": 38.377506256103516, + "learning_rate": 9.804444444444444e-06, + "loss": 0.2242, + "step": 1147 + }, + { + "epoch": 1.5306666666666666, + "grad_norm": 1.2217894792556763, + "learning_rate": 9.795555555555556e-06, + "loss": 0.0062, + "step": 1148 + }, + { + "epoch": 1.532, + "grad_norm": 11.981416702270508, + "learning_rate": 9.786666666666667e-06, + "loss": 0.2839, + "step": 1149 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 29.032106399536133, + "learning_rate": 9.777777777777779e-06, + "loss": 0.3739, + "step": 1150 + }, + { + "epoch": 1.5346666666666666, + "grad_norm": 0.16497567296028137, + "learning_rate": 9.76888888888889e-06, + "loss": 0.002, + "step": 1151 + }, + { + "epoch": 1.536, + "grad_norm": 95.48800659179688, + "learning_rate": 9.760000000000001e-06, + "loss": 0.7441, + "step": 1152 + }, + { + "epoch": 1.5373333333333332, + "grad_norm": 0.6212103962898254, + "learning_rate": 9.751111111111113e-06, + "loss": 0.0054, + "step": 1153 + }, + { + "epoch": 1.5386666666666666, + "grad_norm": 671.316162109375, + "learning_rate": 9.742222222222222e-06, + "loss": 0.438, + "step": 1154 + }, + { + "epoch": 1.54, + "grad_norm": 14.683266639709473, + "learning_rate": 9.733333333333334e-06, + "loss": 0.0231, + "step": 1155 + }, + { + "epoch": 1.5413333333333332, + "grad_norm": 35.538475036621094, + "learning_rate": 9.724444444444445e-06, + "loss": 0.2821, + "step": 1156 + }, + { + "epoch": 1.5426666666666666, + "grad_norm": 37.71883773803711, + "learning_rate": 9.715555555555557e-06, + "loss": 0.1893, + "step": 1157 + }, + { + "epoch": 1.544, + "grad_norm": 13.541324615478516, + "learning_rate": 9.706666666666668e-06, + "loss": 0.2474, + "step": 1158 + }, + { + "epoch": 1.5453333333333332, + "grad_norm": 60.65049362182617, + "learning_rate": 9.697777777777778e-06, + "loss": 0.2213, + "step": 1159 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 17.99744987487793, + "learning_rate": 9.688888888888889e-06, + "loss": 0.3867, + "step": 1160 + }, + { + "epoch": 1.548, + "grad_norm": 52.22488784790039, + "learning_rate": 9.68e-06, + "loss": 0.2816, + "step": 1161 + }, + { + "epoch": 1.5493333333333332, + "grad_norm": 0.2898555397987366, + "learning_rate": 9.671111111111112e-06, + "loss": 0.0027, + "step": 1162 + }, + { + "epoch": 1.5506666666666666, + "grad_norm": 74.04916381835938, + "learning_rate": 9.662222222222223e-06, + "loss": 0.2823, + "step": 1163 + }, + { + "epoch": 1.552, + "grad_norm": 53.41830825805664, + "learning_rate": 9.653333333333335e-06, + "loss": 0.1642, + "step": 1164 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 0.9745127558708191, + "learning_rate": 9.644444444444444e-06, + "loss": 0.006, + "step": 1165 + }, + { + "epoch": 1.5546666666666666, + "grad_norm": 13.257244110107422, + "learning_rate": 9.635555555555557e-06, + "loss": 0.3397, + "step": 1166 + }, + { + "epoch": 1.556, + "grad_norm": 43.04121780395508, + "learning_rate": 9.626666666666667e-06, + "loss": 0.4703, + "step": 1167 + }, + { + "epoch": 1.5573333333333332, + "grad_norm": 35.288516998291016, + "learning_rate": 9.617777777777778e-06, + "loss": 0.2274, + "step": 1168 + }, + { + "epoch": 1.5586666666666666, + "grad_norm": 59.73976516723633, + "learning_rate": 9.60888888888889e-06, + "loss": 0.0795, + "step": 1169 + }, + { + "epoch": 1.56, + "grad_norm": 72.6655502319336, + "learning_rate": 9.600000000000001e-06, + "loss": 1.097, + "step": 1170 + }, + { + "epoch": 1.5613333333333332, + "grad_norm": 15.759418487548828, + "learning_rate": 9.591111111111113e-06, + "loss": 0.2047, + "step": 1171 + }, + { + "epoch": 1.5626666666666666, + "grad_norm": 0.8857228755950928, + "learning_rate": 9.582222222222222e-06, + "loss": 0.0055, + "step": 1172 + }, + { + "epoch": 1.564, + "grad_norm": 96.8880615234375, + "learning_rate": 9.573333333333334e-06, + "loss": 0.2571, + "step": 1173 + }, + { + "epoch": 1.5653333333333332, + "grad_norm": 36.97969055175781, + "learning_rate": 9.564444444444445e-06, + "loss": 0.5691, + "step": 1174 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 1.0722178220748901, + "learning_rate": 9.555555555555556e-06, + "loss": 0.0042, + "step": 1175 + }, + { + "epoch": 1.568, + "grad_norm": 15.472237586975098, + "learning_rate": 9.546666666666668e-06, + "loss": 0.2531, + "step": 1176 + }, + { + "epoch": 1.5693333333333332, + "grad_norm": 1.4882992506027222, + "learning_rate": 9.537777777777778e-06, + "loss": 0.0089, + "step": 1177 + }, + { + "epoch": 1.5706666666666667, + "grad_norm": 6.004009246826172, + "learning_rate": 9.528888888888889e-06, + "loss": 0.0365, + "step": 1178 + }, + { + "epoch": 1.572, + "grad_norm": 0.8936472535133362, + "learning_rate": 9.52e-06, + "loss": 0.0071, + "step": 1179 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 2.1808242797851562, + "learning_rate": 9.511111111111112e-06, + "loss": 0.0156, + "step": 1180 + }, + { + "epoch": 1.5746666666666667, + "grad_norm": 3.062775135040283, + "learning_rate": 9.502222222222223e-06, + "loss": 0.019, + "step": 1181 + }, + { + "epoch": 1.576, + "grad_norm": 33.260623931884766, + "learning_rate": 9.493333333333334e-06, + "loss": 0.0623, + "step": 1182 + }, + { + "epoch": 1.5773333333333333, + "grad_norm": 26.234943389892578, + "learning_rate": 9.484444444444444e-06, + "loss": 0.0344, + "step": 1183 + }, + { + "epoch": 1.5786666666666667, + "grad_norm": 0.6550800204277039, + "learning_rate": 9.475555555555557e-06, + "loss": 0.0026, + "step": 1184 + }, + { + "epoch": 1.58, + "grad_norm": 47.8802490234375, + "learning_rate": 9.466666666666667e-06, + "loss": 0.4755, + "step": 1185 + }, + { + "epoch": 1.5813333333333333, + "grad_norm": 123.26792907714844, + "learning_rate": 9.457777777777778e-06, + "loss": 0.7114, + "step": 1186 + }, + { + "epoch": 1.5826666666666667, + "grad_norm": 2.1583354473114014, + "learning_rate": 9.44888888888889e-06, + "loss": 0.0047, + "step": 1187 + }, + { + "epoch": 1.584, + "grad_norm": 3.509554624557495, + "learning_rate": 9.440000000000001e-06, + "loss": 0.01, + "step": 1188 + }, + { + "epoch": 1.5853333333333333, + "grad_norm": 36.78347396850586, + "learning_rate": 9.431111111111112e-06, + "loss": 0.9524, + "step": 1189 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 4.171144008636475, + "learning_rate": 9.422222222222222e-06, + "loss": 0.0084, + "step": 1190 + }, + { + "epoch": 1.588, + "grad_norm": 1.095988392829895, + "learning_rate": 9.413333333333334e-06, + "loss": 0.0081, + "step": 1191 + }, + { + "epoch": 1.5893333333333333, + "grad_norm": 86.30313110351562, + "learning_rate": 9.404444444444445e-06, + "loss": 0.9106, + "step": 1192 + }, + { + "epoch": 1.5906666666666667, + "grad_norm": 58.169639587402344, + "learning_rate": 9.395555555555556e-06, + "loss": 0.4907, + "step": 1193 + }, + { + "epoch": 1.592, + "grad_norm": 12.2610502243042, + "learning_rate": 9.386666666666668e-06, + "loss": 0.0256, + "step": 1194 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 0.3228115737438202, + "learning_rate": 9.377777777777779e-06, + "loss": 0.0024, + "step": 1195 + }, + { + "epoch": 1.5946666666666667, + "grad_norm": 212.7126922607422, + "learning_rate": 9.368888888888889e-06, + "loss": 0.278, + "step": 1196 + }, + { + "epoch": 1.596, + "grad_norm": 0.17174836993217468, + "learning_rate": 9.360000000000002e-06, + "loss": 0.0018, + "step": 1197 + }, + { + "epoch": 1.5973333333333333, + "grad_norm": 0.9282292127609253, + "learning_rate": 9.351111111111112e-06, + "loss": 0.0027, + "step": 1198 + }, + { + "epoch": 1.5986666666666667, + "grad_norm": 171.9736785888672, + "learning_rate": 9.342222222222223e-06, + "loss": 0.3287, + "step": 1199 + }, + { + "epoch": 1.6, + "grad_norm": 102.6137924194336, + "learning_rate": 9.333333333333334e-06, + "loss": 1.5001, + "step": 1200 + }, + { + "epoch": 1.6013333333333333, + "grad_norm": 0.24313202500343323, + "learning_rate": 9.324444444444444e-06, + "loss": 0.002, + "step": 1201 + }, + { + "epoch": 1.6026666666666667, + "grad_norm": 22.449628829956055, + "learning_rate": 9.315555555555557e-06, + "loss": 0.5377, + "step": 1202 + }, + { + "epoch": 1.604, + "grad_norm": 0.06536167114973068, + "learning_rate": 9.306666666666667e-06, + "loss": 0.0014, + "step": 1203 + }, + { + "epoch": 1.6053333333333333, + "grad_norm": 0.3730120360851288, + "learning_rate": 9.297777777777778e-06, + "loss": 0.0015, + "step": 1204 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 3.424034833908081, + "learning_rate": 9.28888888888889e-06, + "loss": 0.0118, + "step": 1205 + }, + { + "epoch": 1.608, + "grad_norm": 1.1805728673934937, + "learning_rate": 9.280000000000001e-06, + "loss": 0.0052, + "step": 1206 + }, + { + "epoch": 1.6093333333333333, + "grad_norm": 1.5451524257659912, + "learning_rate": 9.271111111111112e-06, + "loss": 0.0059, + "step": 1207 + }, + { + "epoch": 1.6106666666666667, + "grad_norm": 150.99436950683594, + "learning_rate": 9.262222222222222e-06, + "loss": 0.8005, + "step": 1208 + }, + { + "epoch": 1.612, + "grad_norm": 20.419761657714844, + "learning_rate": 9.253333333333333e-06, + "loss": 0.2383, + "step": 1209 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 8.542495727539062, + "learning_rate": 9.244444444444445e-06, + "loss": 0.0114, + "step": 1210 + }, + { + "epoch": 1.6146666666666667, + "grad_norm": 12.474035263061523, + "learning_rate": 9.235555555555556e-06, + "loss": 0.4765, + "step": 1211 + }, + { + "epoch": 1.616, + "grad_norm": 0.05620914697647095, + "learning_rate": 9.226666666666668e-06, + "loss": 0.0012, + "step": 1212 + }, + { + "epoch": 1.6173333333333333, + "grad_norm": 0.03690945357084274, + "learning_rate": 9.217777777777779e-06, + "loss": 0.001, + "step": 1213 + }, + { + "epoch": 1.6186666666666667, + "grad_norm": 0.044510893523693085, + "learning_rate": 9.208888888888889e-06, + "loss": 0.0011, + "step": 1214 + }, + { + "epoch": 1.62, + "grad_norm": 12.13549518585205, + "learning_rate": 9.200000000000002e-06, + "loss": 0.459, + "step": 1215 + }, + { + "epoch": 1.6213333333333333, + "grad_norm": 15.336878776550293, + "learning_rate": 9.191111111111111e-06, + "loss": 0.4355, + "step": 1216 + }, + { + "epoch": 1.6226666666666667, + "grad_norm": 12.965373039245605, + "learning_rate": 9.182222222222223e-06, + "loss": 0.5857, + "step": 1217 + }, + { + "epoch": 1.624, + "grad_norm": 31.19281768798828, + "learning_rate": 9.173333333333334e-06, + "loss": 0.3127, + "step": 1218 + }, + { + "epoch": 1.6253333333333333, + "grad_norm": 0.047664519399404526, + "learning_rate": 9.164444444444446e-06, + "loss": 0.0011, + "step": 1219 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 121.09150695800781, + "learning_rate": 9.155555555555557e-06, + "loss": 0.517, + "step": 1220 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 68.81010437011719, + "learning_rate": 9.146666666666667e-06, + "loss": 0.4474, + "step": 1221 + }, + { + "epoch": 1.6293333333333333, + "grad_norm": 0.09393475949764252, + "learning_rate": 9.137777777777778e-06, + "loss": 0.0016, + "step": 1222 + }, + { + "epoch": 1.6306666666666667, + "grad_norm": 23.844467163085938, + "learning_rate": 9.12888888888889e-06, + "loss": 0.3616, + "step": 1223 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 1.540001630783081, + "learning_rate": 9.12e-06, + "loss": 0.0087, + "step": 1224 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 385.2530822753906, + "learning_rate": 9.111111111111112e-06, + "loss": 0.3125, + "step": 1225 + }, + { + "epoch": 1.6346666666666667, + "grad_norm": 0.22184151411056519, + "learning_rate": 9.102222222222224e-06, + "loss": 0.0026, + "step": 1226 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 9.767704963684082, + "learning_rate": 9.093333333333333e-06, + "loss": 0.4027, + "step": 1227 + }, + { + "epoch": 1.6373333333333333, + "grad_norm": 0.18347415328025818, + "learning_rate": 9.084444444444446e-06, + "loss": 0.0027, + "step": 1228 + }, + { + "epoch": 1.6386666666666667, + "grad_norm": 0.3790389895439148, + "learning_rate": 9.075555555555556e-06, + "loss": 0.0041, + "step": 1229 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 80.8835678100586, + "learning_rate": 9.066666666666667e-06, + "loss": 0.199, + "step": 1230 + }, + { + "epoch": 1.6413333333333333, + "grad_norm": 0.8472650647163391, + "learning_rate": 9.057777777777779e-06, + "loss": 0.0058, + "step": 1231 + }, + { + "epoch": 1.6426666666666667, + "grad_norm": 0.8753399848937988, + "learning_rate": 9.048888888888888e-06, + "loss": 0.006, + "step": 1232 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 15.306134223937988, + "learning_rate": 9.040000000000002e-06, + "loss": 0.4366, + "step": 1233 + }, + { + "epoch": 1.6453333333333333, + "grad_norm": 0.5510113835334778, + "learning_rate": 9.031111111111111e-06, + "loss": 0.0032, + "step": 1234 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 0.11380913108587265, + "learning_rate": 9.022222222222223e-06, + "loss": 0.0018, + "step": 1235 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 68.31336975097656, + "learning_rate": 9.013333333333334e-06, + "loss": 0.7166, + "step": 1236 + }, + { + "epoch": 1.6493333333333333, + "grad_norm": 10.276823043823242, + "learning_rate": 9.004444444444445e-06, + "loss": 0.2241, + "step": 1237 + }, + { + "epoch": 1.6506666666666665, + "grad_norm": 54.461097717285156, + "learning_rate": 8.995555555555557e-06, + "loss": 0.0424, + "step": 1238 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 0.8475139141082764, + "learning_rate": 8.986666666666666e-06, + "loss": 0.0051, + "step": 1239 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 14.95924186706543, + "learning_rate": 8.977777777777778e-06, + "loss": 1.0054, + "step": 1240 + }, + { + "epoch": 1.6546666666666665, + "grad_norm": 117.78137969970703, + "learning_rate": 8.96888888888889e-06, + "loss": 0.6901, + "step": 1241 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 22.31456184387207, + "learning_rate": 8.96e-06, + "loss": 0.3657, + "step": 1242 + }, + { + "epoch": 1.6573333333333333, + "grad_norm": 0.4788752496242523, + "learning_rate": 8.951111111111112e-06, + "loss": 0.0045, + "step": 1243 + }, + { + "epoch": 1.6586666666666665, + "grad_norm": 6.362298488616943, + "learning_rate": 8.942222222222223e-06, + "loss": 0.0107, + "step": 1244 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 0.2006457895040512, + "learning_rate": 8.933333333333333e-06, + "loss": 0.0023, + "step": 1245 + }, + { + "epoch": 1.6613333333333333, + "grad_norm": 0.9769859910011292, + "learning_rate": 8.924444444444446e-06, + "loss": 0.0065, + "step": 1246 + }, + { + "epoch": 1.6626666666666665, + "grad_norm": 50.59593963623047, + "learning_rate": 8.915555555555556e-06, + "loss": 0.5262, + "step": 1247 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 0.3697497844696045, + "learning_rate": 8.906666666666667e-06, + "loss": 0.0032, + "step": 1248 + }, + { + "epoch": 1.6653333333333333, + "grad_norm": 98.93800354003906, + "learning_rate": 8.897777777777779e-06, + "loss": 0.8187, + "step": 1249 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 14.258256912231445, + "learning_rate": 8.888888888888888e-06, + "loss": 0.3505, + "step": 1250 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 1.1765506267547607, + "learning_rate": 8.880000000000001e-06, + "loss": 0.0053, + "step": 1251 + }, + { + "epoch": 1.6693333333333333, + "grad_norm": 0.5368697643280029, + "learning_rate": 8.871111111111111e-06, + "loss": 0.0038, + "step": 1252 + }, + { + "epoch": 1.6706666666666665, + "grad_norm": 4.834039688110352, + "learning_rate": 8.862222222222222e-06, + "loss": 0.0153, + "step": 1253 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 0.14201617240905762, + "learning_rate": 8.853333333333334e-06, + "loss": 0.002, + "step": 1254 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 1.1270090341567993, + "learning_rate": 8.844444444444445e-06, + "loss": 0.0046, + "step": 1255 + }, + { + "epoch": 1.6746666666666665, + "grad_norm": 20.26508331298828, + "learning_rate": 8.835555555555557e-06, + "loss": 0.3976, + "step": 1256 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 0.633030891418457, + "learning_rate": 8.826666666666668e-06, + "loss": 0.0045, + "step": 1257 + }, + { + "epoch": 1.6773333333333333, + "grad_norm": 0.1043582558631897, + "learning_rate": 8.817777777777778e-06, + "loss": 0.0018, + "step": 1258 + }, + { + "epoch": 1.6786666666666665, + "grad_norm": 2.0548338890075684, + "learning_rate": 8.80888888888889e-06, + "loss": 0.0063, + "step": 1259 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.1220216155052185, + "learning_rate": 8.8e-06, + "loss": 0.0014, + "step": 1260 + }, + { + "epoch": 1.6813333333333333, + "grad_norm": 0.08869492262601852, + "learning_rate": 8.791111111111112e-06, + "loss": 0.0016, + "step": 1261 + }, + { + "epoch": 1.6826666666666665, + "grad_norm": 0.11858934909105301, + "learning_rate": 8.782222222222223e-06, + "loss": 0.0014, + "step": 1262 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 0.2562926411628723, + "learning_rate": 8.773333333333333e-06, + "loss": 0.0015, + "step": 1263 + }, + { + "epoch": 1.6853333333333333, + "grad_norm": 141.07345581054688, + "learning_rate": 8.764444444444446e-06, + "loss": 0.4697, + "step": 1264 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 0.2537286877632141, + "learning_rate": 8.755555555555556e-06, + "loss": 0.0015, + "step": 1265 + }, + { + "epoch": 1.688, + "grad_norm": 169.7315216064453, + "learning_rate": 8.746666666666667e-06, + "loss": 1.4453, + "step": 1266 + }, + { + "epoch": 1.6893333333333334, + "grad_norm": 0.03023740090429783, + "learning_rate": 8.737777777777778e-06, + "loss": 0.0009, + "step": 1267 + }, + { + "epoch": 1.6906666666666665, + "grad_norm": 5.885982990264893, + "learning_rate": 8.72888888888889e-06, + "loss": 0.5489, + "step": 1268 + }, + { + "epoch": 1.692, + "grad_norm": 25.090717315673828, + "learning_rate": 8.720000000000001e-06, + "loss": 0.4463, + "step": 1269 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 26.74951171875, + "learning_rate": 8.711111111111111e-06, + "loss": 0.9619, + "step": 1270 + }, + { + "epoch": 1.6946666666666665, + "grad_norm": 0.16496337950229645, + "learning_rate": 8.702222222222222e-06, + "loss": 0.0018, + "step": 1271 + }, + { + "epoch": 1.696, + "grad_norm": 3.537893533706665, + "learning_rate": 8.693333333333334e-06, + "loss": 0.0046, + "step": 1272 + }, + { + "epoch": 1.6973333333333334, + "grad_norm": 0.45394954085350037, + "learning_rate": 8.684444444444445e-06, + "loss": 0.0016, + "step": 1273 + }, + { + "epoch": 1.6986666666666665, + "grad_norm": 15.843210220336914, + "learning_rate": 8.675555555555556e-06, + "loss": 0.4405, + "step": 1274 + }, + { + "epoch": 1.7, + "grad_norm": 261.1629333496094, + "learning_rate": 8.666666666666668e-06, + "loss": 0.4073, + "step": 1275 + }, + { + "epoch": 1.7013333333333334, + "grad_norm": 37.69385528564453, + "learning_rate": 8.657777777777778e-06, + "loss": 0.739, + "step": 1276 + }, + { + "epoch": 1.7026666666666666, + "grad_norm": 0.9705725908279419, + "learning_rate": 8.64888888888889e-06, + "loss": 0.0034, + "step": 1277 + }, + { + "epoch": 1.704, + "grad_norm": 30.183223724365234, + "learning_rate": 8.64e-06, + "loss": 0.2996, + "step": 1278 + }, + { + "epoch": 1.7053333333333334, + "grad_norm": 0.05334986373782158, + "learning_rate": 8.631111111111112e-06, + "loss": 0.0013, + "step": 1279 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 191.0198516845703, + "learning_rate": 8.622222222222223e-06, + "loss": 0.1697, + "step": 1280 + }, + { + "epoch": 1.708, + "grad_norm": 36.00331497192383, + "learning_rate": 8.613333333333333e-06, + "loss": 0.3335, + "step": 1281 + }, + { + "epoch": 1.7093333333333334, + "grad_norm": 338.88104248046875, + "learning_rate": 8.604444444444446e-06, + "loss": 0.5403, + "step": 1282 + }, + { + "epoch": 1.7106666666666666, + "grad_norm": 0.4089786410331726, + "learning_rate": 8.595555555555556e-06, + "loss": 0.0029, + "step": 1283 + }, + { + "epoch": 1.712, + "grad_norm": 0.10930458456277847, + "learning_rate": 8.586666666666667e-06, + "loss": 0.0015, + "step": 1284 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 63.502708435058594, + "learning_rate": 8.577777777777778e-06, + "loss": 0.1729, + "step": 1285 + }, + { + "epoch": 1.7146666666666666, + "grad_norm": 0.21256402134895325, + "learning_rate": 8.56888888888889e-06, + "loss": 0.002, + "step": 1286 + }, + { + "epoch": 1.716, + "grad_norm": 42.77898025512695, + "learning_rate": 8.560000000000001e-06, + "loss": 1.3073, + "step": 1287 + }, + { + "epoch": 1.7173333333333334, + "grad_norm": 2.2812111377716064, + "learning_rate": 8.551111111111112e-06, + "loss": 0.0031, + "step": 1288 + }, + { + "epoch": 1.7186666666666666, + "grad_norm": 234.80577087402344, + "learning_rate": 8.542222222222222e-06, + "loss": 0.677, + "step": 1289 + }, + { + "epoch": 1.72, + "grad_norm": 231.55113220214844, + "learning_rate": 8.533333333333335e-06, + "loss": 0.0351, + "step": 1290 + }, + { + "epoch": 1.7213333333333334, + "grad_norm": 3.546586036682129, + "learning_rate": 8.524444444444445e-06, + "loss": 0.0058, + "step": 1291 + }, + { + "epoch": 1.7226666666666666, + "grad_norm": 114.83734893798828, + "learning_rate": 8.515555555555556e-06, + "loss": 0.5634, + "step": 1292 + }, + { + "epoch": 1.724, + "grad_norm": 19.90721893310547, + "learning_rate": 8.506666666666668e-06, + "loss": 0.5485, + "step": 1293 + }, + { + "epoch": 1.7253333333333334, + "grad_norm": 0.21437105536460876, + "learning_rate": 8.497777777777777e-06, + "loss": 0.0023, + "step": 1294 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 24.9147891998291, + "learning_rate": 8.48888888888889e-06, + "loss": 1.2906, + "step": 1295 + }, + { + "epoch": 1.728, + "grad_norm": 69.30450439453125, + "learning_rate": 8.48e-06, + "loss": 0.0447, + "step": 1296 + }, + { + "epoch": 1.7293333333333334, + "grad_norm": 10.30772876739502, + "learning_rate": 8.471111111111112e-06, + "loss": 0.4798, + "step": 1297 + }, + { + "epoch": 1.7306666666666666, + "grad_norm": 0.5602415800094604, + "learning_rate": 8.462222222222223e-06, + "loss": 0.0044, + "step": 1298 + }, + { + "epoch": 1.732, + "grad_norm": 9.811917304992676, + "learning_rate": 8.453333333333334e-06, + "loss": 0.0154, + "step": 1299 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 84.34893035888672, + "learning_rate": 8.444444444444446e-06, + "loss": 0.2034, + "step": 1300 + }, + { + "epoch": 1.7346666666666666, + "grad_norm": 0.2663172483444214, + "learning_rate": 8.435555555555555e-06, + "loss": 0.0035, + "step": 1301 + }, + { + "epoch": 1.736, + "grad_norm": 0.4816141128540039, + "learning_rate": 8.426666666666667e-06, + "loss": 0.0055, + "step": 1302 + }, + { + "epoch": 1.7373333333333334, + "grad_norm": 62.63591766357422, + "learning_rate": 8.417777777777778e-06, + "loss": 0.2604, + "step": 1303 + }, + { + "epoch": 1.7386666666666666, + "grad_norm": 0.3775101602077484, + "learning_rate": 8.40888888888889e-06, + "loss": 0.0062, + "step": 1304 + }, + { + "epoch": 1.74, + "grad_norm": 15.386045455932617, + "learning_rate": 8.400000000000001e-06, + "loss": 0.3375, + "step": 1305 + }, + { + "epoch": 1.7413333333333334, + "grad_norm": 96.82894897460938, + "learning_rate": 8.391111111111112e-06, + "loss": 0.0296, + "step": 1306 + }, + { + "epoch": 1.7426666666666666, + "grad_norm": 0.31404024362564087, + "learning_rate": 8.382222222222222e-06, + "loss": 0.0037, + "step": 1307 + }, + { + "epoch": 1.744, + "grad_norm": 0.3081216812133789, + "learning_rate": 8.373333333333335e-06, + "loss": 0.0034, + "step": 1308 + }, + { + "epoch": 1.7453333333333334, + "grad_norm": 30.924219131469727, + "learning_rate": 8.364444444444445e-06, + "loss": 0.2463, + "step": 1309 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 2.432894468307495, + "learning_rate": 8.355555555555556e-06, + "loss": 0.012, + "step": 1310 + }, + { + "epoch": 1.748, + "grad_norm": 27.161409378051758, + "learning_rate": 8.346666666666668e-06, + "loss": 0.8663, + "step": 1311 + }, + { + "epoch": 1.7493333333333334, + "grad_norm": 9.022555351257324, + "learning_rate": 8.337777777777777e-06, + "loss": 0.5096, + "step": 1312 + }, + { + "epoch": 1.7506666666666666, + "grad_norm": 32.934574127197266, + "learning_rate": 8.32888888888889e-06, + "loss": 0.2063, + "step": 1313 + }, + { + "epoch": 1.752, + "grad_norm": 0.5386740565299988, + "learning_rate": 8.32e-06, + "loss": 0.0055, + "step": 1314 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 1.5111989974975586, + "learning_rate": 8.311111111111111e-06, + "loss": 0.0058, + "step": 1315 + }, + { + "epoch": 1.7546666666666666, + "grad_norm": 0.26266345381736755, + "learning_rate": 8.302222222222223e-06, + "loss": 0.0032, + "step": 1316 + }, + { + "epoch": 1.756, + "grad_norm": 0.321925550699234, + "learning_rate": 8.293333333333334e-06, + "loss": 0.004, + "step": 1317 + }, + { + "epoch": 1.7573333333333334, + "grad_norm": 7.018383026123047, + "learning_rate": 8.284444444444446e-06, + "loss": 0.3341, + "step": 1318 + }, + { + "epoch": 1.7586666666666666, + "grad_norm": 0.25563785433769226, + "learning_rate": 8.275555555555557e-06, + "loss": 0.004, + "step": 1319 + }, + { + "epoch": 1.76, + "grad_norm": 0.47046586871147156, + "learning_rate": 8.266666666666667e-06, + "loss": 0.0047, + "step": 1320 + }, + { + "epoch": 1.7613333333333334, + "grad_norm": 31.27930450439453, + "learning_rate": 8.25777777777778e-06, + "loss": 0.777, + "step": 1321 + }, + { + "epoch": 1.7626666666666666, + "grad_norm": 20.72823143005371, + "learning_rate": 8.24888888888889e-06, + "loss": 0.4115, + "step": 1322 + }, + { + "epoch": 1.764, + "grad_norm": 0.21902769804000854, + "learning_rate": 8.24e-06, + "loss": 0.0028, + "step": 1323 + }, + { + "epoch": 1.7653333333333334, + "grad_norm": 0.22326567769050598, + "learning_rate": 8.231111111111112e-06, + "loss": 0.0025, + "step": 1324 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 0.5159211158752441, + "learning_rate": 8.222222222222222e-06, + "loss": 0.0054, + "step": 1325 + }, + { + "epoch": 1.768, + "grad_norm": 2.080169200897217, + "learning_rate": 8.213333333333335e-06, + "loss": 0.0065, + "step": 1326 + }, + { + "epoch": 1.7693333333333334, + "grad_norm": 0.7337020635604858, + "learning_rate": 8.204444444444445e-06, + "loss": 0.0047, + "step": 1327 + }, + { + "epoch": 1.7706666666666666, + "grad_norm": 193.44793701171875, + "learning_rate": 8.195555555555556e-06, + "loss": 0.0948, + "step": 1328 + }, + { + "epoch": 1.772, + "grad_norm": 0.5751442313194275, + "learning_rate": 8.186666666666667e-06, + "loss": 0.0046, + "step": 1329 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 168.5449981689453, + "learning_rate": 8.177777777777779e-06, + "loss": 0.1972, + "step": 1330 + }, + { + "epoch": 1.7746666666666666, + "grad_norm": 20.292678833007812, + "learning_rate": 8.16888888888889e-06, + "loss": 0.895, + "step": 1331 + }, + { + "epoch": 1.776, + "grad_norm": 20.9902400970459, + "learning_rate": 8.16e-06, + "loss": 0.3898, + "step": 1332 + }, + { + "epoch": 1.7773333333333334, + "grad_norm": 0.36485755443573, + "learning_rate": 8.151111111111111e-06, + "loss": 0.0031, + "step": 1333 + }, + { + "epoch": 1.7786666666666666, + "grad_norm": 0.1527651995420456, + "learning_rate": 8.142222222222223e-06, + "loss": 0.0019, + "step": 1334 + }, + { + "epoch": 1.78, + "grad_norm": 9.142675399780273, + "learning_rate": 8.133333333333334e-06, + "loss": 0.0164, + "step": 1335 + }, + { + "epoch": 1.7813333333333334, + "grad_norm": 8.788063049316406, + "learning_rate": 8.124444444444445e-06, + "loss": 0.3726, + "step": 1336 + }, + { + "epoch": 1.7826666666666666, + "grad_norm": 0.2779366374015808, + "learning_rate": 8.115555555555557e-06, + "loss": 0.0017, + "step": 1337 + }, + { + "epoch": 1.784, + "grad_norm": 53.33522033691406, + "learning_rate": 8.106666666666666e-06, + "loss": 0.4953, + "step": 1338 + }, + { + "epoch": 1.7853333333333334, + "grad_norm": 21.393434524536133, + "learning_rate": 8.09777777777778e-06, + "loss": 0.4634, + "step": 1339 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 0.09586068987846375, + "learning_rate": 8.08888888888889e-06, + "loss": 0.0014, + "step": 1340 + }, + { + "epoch": 1.788, + "grad_norm": 0.23801133036613464, + "learning_rate": 8.08e-06, + "loss": 0.0022, + "step": 1341 + }, + { + "epoch": 1.7893333333333334, + "grad_norm": 4.215709209442139, + "learning_rate": 8.071111111111112e-06, + "loss": 0.0075, + "step": 1342 + }, + { + "epoch": 1.7906666666666666, + "grad_norm": 42.23370361328125, + "learning_rate": 8.062222222222222e-06, + "loss": 0.3302, + "step": 1343 + }, + { + "epoch": 1.792, + "grad_norm": 1.0628856420516968, + "learning_rate": 8.053333333333335e-06, + "loss": 0.0012, + "step": 1344 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 22.49626350402832, + "learning_rate": 8.044444444444444e-06, + "loss": 0.3339, + "step": 1345 + }, + { + "epoch": 1.7946666666666666, + "grad_norm": 1.7261173725128174, + "learning_rate": 8.035555555555556e-06, + "loss": 0.0062, + "step": 1346 + }, + { + "epoch": 1.796, + "grad_norm": 49.810604095458984, + "learning_rate": 8.026666666666667e-06, + "loss": 0.2983, + "step": 1347 + }, + { + "epoch": 1.7973333333333334, + "grad_norm": 22.612022399902344, + "learning_rate": 8.017777777777779e-06, + "loss": 0.4291, + "step": 1348 + }, + { + "epoch": 1.7986666666666666, + "grad_norm": 14.823781967163086, + "learning_rate": 8.00888888888889e-06, + "loss": 0.4788, + "step": 1349 + }, + { + "epoch": 1.8, + "grad_norm": 0.16244368255138397, + "learning_rate": 8.000000000000001e-06, + "loss": 0.0015, + "step": 1350 + }, + { + "epoch": 1.8013333333333335, + "grad_norm": 9.868521690368652, + "learning_rate": 7.991111111111111e-06, + "loss": 0.509, + "step": 1351 + }, + { + "epoch": 1.8026666666666666, + "grad_norm": 71.86180114746094, + "learning_rate": 7.982222222222224e-06, + "loss": 0.1566, + "step": 1352 + }, + { + "epoch": 1.804, + "grad_norm": 26.91140365600586, + "learning_rate": 7.973333333333334e-06, + "loss": 0.3231, + "step": 1353 + }, + { + "epoch": 1.8053333333333335, + "grad_norm": 48.021881103515625, + "learning_rate": 7.964444444444445e-06, + "loss": 0.0227, + "step": 1354 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 0.508098840713501, + "learning_rate": 7.955555555555557e-06, + "loss": 0.0027, + "step": 1355 + }, + { + "epoch": 1.808, + "grad_norm": 0.12021100521087646, + "learning_rate": 7.946666666666666e-06, + "loss": 0.0018, + "step": 1356 + }, + { + "epoch": 1.8093333333333335, + "grad_norm": 112.9957275390625, + "learning_rate": 7.93777777777778e-06, + "loss": 0.0394, + "step": 1357 + }, + { + "epoch": 1.8106666666666666, + "grad_norm": 57.59538269042969, + "learning_rate": 7.928888888888889e-06, + "loss": 0.2259, + "step": 1358 + }, + { + "epoch": 1.812, + "grad_norm": 228.8775177001953, + "learning_rate": 7.92e-06, + "loss": 0.0705, + "step": 1359 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 0.9348694682121277, + "learning_rate": 7.911111111111112e-06, + "loss": 0.0058, + "step": 1360 + }, + { + "epoch": 1.8146666666666667, + "grad_norm": 78.82796478271484, + "learning_rate": 7.902222222222223e-06, + "loss": 0.4052, + "step": 1361 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 30.193540573120117, + "learning_rate": 7.893333333333335e-06, + "loss": 0.0222, + "step": 1362 + }, + { + "epoch": 1.8173333333333335, + "grad_norm": 0.33562177419662476, + "learning_rate": 7.884444444444444e-06, + "loss": 0.0029, + "step": 1363 + }, + { + "epoch": 1.8186666666666667, + "grad_norm": 0.5315313935279846, + "learning_rate": 7.875555555555556e-06, + "loss": 0.0041, + "step": 1364 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 0.49267318844795227, + "learning_rate": 7.866666666666667e-06, + "loss": 0.0039, + "step": 1365 + }, + { + "epoch": 1.8213333333333335, + "grad_norm": 8.983467102050781, + "learning_rate": 7.857777777777778e-06, + "loss": 0.2769, + "step": 1366 + }, + { + "epoch": 1.8226666666666667, + "grad_norm": 1.2215505838394165, + "learning_rate": 7.84888888888889e-06, + "loss": 0.0071, + "step": 1367 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 23.004446029663086, + "learning_rate": 7.840000000000001e-06, + "loss": 0.4607, + "step": 1368 + }, + { + "epoch": 1.8253333333333335, + "grad_norm": 71.36122131347656, + "learning_rate": 7.831111111111111e-06, + "loss": 0.6094, + "step": 1369 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 1.923570156097412, + "learning_rate": 7.822222222222224e-06, + "loss": 0.0076, + "step": 1370 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 102.85234832763672, + "learning_rate": 7.813333333333334e-06, + "loss": 0.6796, + "step": 1371 + }, + { + "epoch": 1.8293333333333335, + "grad_norm": 0.200977623462677, + "learning_rate": 7.804444444444445e-06, + "loss": 0.0022, + "step": 1372 + }, + { + "epoch": 1.8306666666666667, + "grad_norm": 0.6514906287193298, + "learning_rate": 7.795555555555556e-06, + "loss": 0.0037, + "step": 1373 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 0.9551640152931213, + "learning_rate": 7.786666666666666e-06, + "loss": 0.0055, + "step": 1374 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 33.95350646972656, + "learning_rate": 7.77777777777778e-06, + "loss": 0.3578, + "step": 1375 + }, + { + "epoch": 1.8346666666666667, + "grad_norm": 0.2396462857723236, + "learning_rate": 7.768888888888889e-06, + "loss": 0.0024, + "step": 1376 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 29.431734085083008, + "learning_rate": 7.76e-06, + "loss": 0.3935, + "step": 1377 + }, + { + "epoch": 1.8373333333333335, + "grad_norm": 0.1087663471698761, + "learning_rate": 7.751111111111112e-06, + "loss": 0.0015, + "step": 1378 + }, + { + "epoch": 1.8386666666666667, + "grad_norm": 0.1042017936706543, + "learning_rate": 7.742222222222223e-06, + "loss": 0.0017, + "step": 1379 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 363.0745849609375, + "learning_rate": 7.733333333333334e-06, + "loss": 0.1487, + "step": 1380 + }, + { + "epoch": 1.8413333333333335, + "grad_norm": 0.2268853485584259, + "learning_rate": 7.724444444444446e-06, + "loss": 0.002, + "step": 1381 + }, + { + "epoch": 1.8426666666666667, + "grad_norm": 0.7000879049301147, + "learning_rate": 7.715555555555555e-06, + "loss": 0.0029, + "step": 1382 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 158.9576873779297, + "learning_rate": 7.706666666666669e-06, + "loss": 0.4441, + "step": 1383 + }, + { + "epoch": 1.8453333333333335, + "grad_norm": 0.7805405855178833, + "learning_rate": 7.697777777777778e-06, + "loss": 0.0067, + "step": 1384 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 35.197792053222656, + "learning_rate": 7.68888888888889e-06, + "loss": 0.4165, + "step": 1385 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 35.586875915527344, + "learning_rate": 7.680000000000001e-06, + "loss": 0.3185, + "step": 1386 + }, + { + "epoch": 1.8493333333333335, + "grad_norm": 84.61365509033203, + "learning_rate": 7.67111111111111e-06, + "loss": 0.2545, + "step": 1387 + }, + { + "epoch": 1.8506666666666667, + "grad_norm": 20.135005950927734, + "learning_rate": 7.662222222222224e-06, + "loss": 0.1587, + "step": 1388 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 0.04393784701824188, + "learning_rate": 7.653333333333333e-06, + "loss": 0.0011, + "step": 1389 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 35.34206008911133, + "learning_rate": 7.644444444444445e-06, + "loss": 0.5125, + "step": 1390 + }, + { + "epoch": 1.8546666666666667, + "grad_norm": 0.5580001473426819, + "learning_rate": 7.635555555555556e-06, + "loss": 0.0026, + "step": 1391 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 16.231285095214844, + "learning_rate": 7.626666666666668e-06, + "loss": 0.3256, + "step": 1392 + }, + { + "epoch": 1.8573333333333333, + "grad_norm": 515.3563842773438, + "learning_rate": 7.617777777777778e-06, + "loss": 0.3451, + "step": 1393 + }, + { + "epoch": 1.8586666666666667, + "grad_norm": 47.77743148803711, + "learning_rate": 7.608888888888889e-06, + "loss": 0.788, + "step": 1394 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 0.06456021964550018, + "learning_rate": 7.600000000000001e-06, + "loss": 0.0009, + "step": 1395 + }, + { + "epoch": 1.8613333333333333, + "grad_norm": 8.97366714477539, + "learning_rate": 7.5911111111111115e-06, + "loss": 0.0146, + "step": 1396 + }, + { + "epoch": 1.8626666666666667, + "grad_norm": 1.4393601417541504, + "learning_rate": 7.582222222222223e-06, + "loss": 0.0057, + "step": 1397 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 20.542451858520508, + "learning_rate": 7.573333333333333e-06, + "loss": 1.0716, + "step": 1398 + }, + { + "epoch": 1.8653333333333333, + "grad_norm": 0.21990971267223358, + "learning_rate": 7.564444444444446e-06, + "loss": 0.0018, + "step": 1399 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 7.867447853088379, + "learning_rate": 7.555555555555556e-06, + "loss": 0.1396, + "step": 1400 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 0.30897411704063416, + "learning_rate": 7.5466666666666675e-06, + "loss": 0.0022, + "step": 1401 + }, + { + "epoch": 1.8693333333333333, + "grad_norm": 86.77359008789062, + "learning_rate": 7.537777777777778e-06, + "loss": 0.0192, + "step": 1402 + }, + { + "epoch": 1.8706666666666667, + "grad_norm": 13.487273216247559, + "learning_rate": 7.52888888888889e-06, + "loss": 0.4473, + "step": 1403 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 7.259669780731201, + "learning_rate": 7.520000000000001e-06, + "loss": 0.5501, + "step": 1404 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 0.24634958803653717, + "learning_rate": 7.511111111111111e-06, + "loss": 0.002, + "step": 1405 + }, + { + "epoch": 1.8746666666666667, + "grad_norm": 0.22721315920352936, + "learning_rate": 7.502222222222223e-06, + "loss": 0.002, + "step": 1406 + }, + { + "epoch": 1.876, + "grad_norm": 47.1217041015625, + "learning_rate": 7.493333333333333e-06, + "loss": 0.3092, + "step": 1407 + }, + { + "epoch": 1.8773333333333333, + "grad_norm": 0.33732715249061584, + "learning_rate": 7.4844444444444455e-06, + "loss": 0.0029, + "step": 1408 + }, + { + "epoch": 1.8786666666666667, + "grad_norm": 0.17734374105930328, + "learning_rate": 7.475555555555556e-06, + "loss": 0.0019, + "step": 1409 + }, + { + "epoch": 1.88, + "grad_norm": 0.37512901425361633, + "learning_rate": 7.4666666666666675e-06, + "loss": 0.0026, + "step": 1410 + }, + { + "epoch": 1.8813333333333333, + "grad_norm": 3.3836679458618164, + "learning_rate": 7.457777777777778e-06, + "loss": 0.0079, + "step": 1411 + }, + { + "epoch": 1.8826666666666667, + "grad_norm": 0.7272549867630005, + "learning_rate": 7.44888888888889e-06, + "loss": 0.0042, + "step": 1412 + }, + { + "epoch": 1.884, + "grad_norm": 4.928531169891357, + "learning_rate": 7.440000000000001e-06, + "loss": 0.6178, + "step": 1413 + }, + { + "epoch": 1.8853333333333333, + "grad_norm": 21.232038497924805, + "learning_rate": 7.431111111111111e-06, + "loss": 0.4357, + "step": 1414 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 0.2480991780757904, + "learning_rate": 7.422222222222223e-06, + "loss": 0.003, + "step": 1415 + }, + { + "epoch": 1.888, + "grad_norm": 19.0875244140625, + "learning_rate": 7.413333333333333e-06, + "loss": 0.432, + "step": 1416 + }, + { + "epoch": 1.8893333333333333, + "grad_norm": 0.328852117061615, + "learning_rate": 7.4044444444444455e-06, + "loss": 0.0032, + "step": 1417 + }, + { + "epoch": 1.8906666666666667, + "grad_norm": 66.8399887084961, + "learning_rate": 7.395555555555556e-06, + "loss": 0.1764, + "step": 1418 + }, + { + "epoch": 1.892, + "grad_norm": 44.74575424194336, + "learning_rate": 7.386666666666667e-06, + "loss": 0.0848, + "step": 1419 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 73.51436614990234, + "learning_rate": 7.377777777777778e-06, + "loss": 0.0405, + "step": 1420 + }, + { + "epoch": 1.8946666666666667, + "grad_norm": 18.544828414916992, + "learning_rate": 7.36888888888889e-06, + "loss": 0.6706, + "step": 1421 + }, + { + "epoch": 1.896, + "grad_norm": 700.9494018554688, + "learning_rate": 7.360000000000001e-06, + "loss": 0.099, + "step": 1422 + }, + { + "epoch": 1.8973333333333333, + "grad_norm": 131.52537536621094, + "learning_rate": 7.351111111111112e-06, + "loss": 0.1883, + "step": 1423 + }, + { + "epoch": 1.8986666666666667, + "grad_norm": 82.01148986816406, + "learning_rate": 7.342222222222223e-06, + "loss": 0.5953, + "step": 1424 + }, + { + "epoch": 1.9, + "grad_norm": 31.004148483276367, + "learning_rate": 7.333333333333333e-06, + "loss": 0.9117, + "step": 1425 + }, + { + "epoch": 1.9013333333333333, + "grad_norm": 0.11772102862596512, + "learning_rate": 7.324444444444445e-06, + "loss": 0.002, + "step": 1426 + }, + { + "epoch": 1.9026666666666667, + "grad_norm": 0.19047078490257263, + "learning_rate": 7.315555555555556e-06, + "loss": 0.0029, + "step": 1427 + }, + { + "epoch": 1.904, + "grad_norm": 0.8733088970184326, + "learning_rate": 7.306666666666667e-06, + "loss": 0.0064, + "step": 1428 + }, + { + "epoch": 1.9053333333333333, + "grad_norm": 0.4149125814437866, + "learning_rate": 7.297777777777778e-06, + "loss": 0.0038, + "step": 1429 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 0.3520980775356293, + "learning_rate": 7.28888888888889e-06, + "loss": 0.0048, + "step": 1430 + }, + { + "epoch": 1.908, + "grad_norm": 25.407711029052734, + "learning_rate": 7.280000000000001e-06, + "loss": 0.4795, + "step": 1431 + }, + { + "epoch": 1.9093333333333333, + "grad_norm": 1.616394281387329, + "learning_rate": 7.271111111111112e-06, + "loss": 0.006, + "step": 1432 + }, + { + "epoch": 1.9106666666666667, + "grad_norm": 0.21883459389209747, + "learning_rate": 7.2622222222222225e-06, + "loss": 0.0029, + "step": 1433 + }, + { + "epoch": 1.912, + "grad_norm": 0.6173104643821716, + "learning_rate": 7.253333333333335e-06, + "loss": 0.0037, + "step": 1434 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 0.4333723485469818, + "learning_rate": 7.244444444444445e-06, + "loss": 0.0035, + "step": 1435 + }, + { + "epoch": 1.9146666666666667, + "grad_norm": 0.5747796297073364, + "learning_rate": 7.235555555555556e-06, + "loss": 0.0032, + "step": 1436 + }, + { + "epoch": 1.916, + "grad_norm": 23.57564926147461, + "learning_rate": 7.226666666666667e-06, + "loss": 0.3321, + "step": 1437 + }, + { + "epoch": 1.9173333333333333, + "grad_norm": 1.0602179765701294, + "learning_rate": 7.217777777777778e-06, + "loss": 0.0028, + "step": 1438 + }, + { + "epoch": 1.9186666666666667, + "grad_norm": 28.595239639282227, + "learning_rate": 7.20888888888889e-06, + "loss": 0.3502, + "step": 1439 + }, + { + "epoch": 1.92, + "grad_norm": 1.071329116821289, + "learning_rate": 7.2000000000000005e-06, + "loss": 0.0054, + "step": 1440 + }, + { + "epoch": 1.9213333333333333, + "grad_norm": 0.46082553267478943, + "learning_rate": 7.191111111111112e-06, + "loss": 0.0027, + "step": 1441 + }, + { + "epoch": 1.9226666666666667, + "grad_norm": 1.501023292541504, + "learning_rate": 7.1822222222222224e-06, + "loss": 0.0046, + "step": 1442 + }, + { + "epoch": 1.924, + "grad_norm": 0.4533475935459137, + "learning_rate": 7.173333333333335e-06, + "loss": 0.004, + "step": 1443 + }, + { + "epoch": 1.9253333333333333, + "grad_norm": 40.71757507324219, + "learning_rate": 7.164444444444445e-06, + "loss": 0.4445, + "step": 1444 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 1.261289358139038, + "learning_rate": 7.155555555555556e-06, + "loss": 0.0018, + "step": 1445 + }, + { + "epoch": 1.928, + "grad_norm": 0.09040451049804688, + "learning_rate": 7.146666666666667e-06, + "loss": 0.0013, + "step": 1446 + }, + { + "epoch": 1.9293333333333333, + "grad_norm": 0.2499515861272812, + "learning_rate": 7.137777777777778e-06, + "loss": 0.0018, + "step": 1447 + }, + { + "epoch": 1.9306666666666668, + "grad_norm": 1.828328251838684, + "learning_rate": 7.12888888888889e-06, + "loss": 0.004, + "step": 1448 + }, + { + "epoch": 1.932, + "grad_norm": 6.097951412200928, + "learning_rate": 7.1200000000000004e-06, + "loss": 0.5557, + "step": 1449 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 61.6555061340332, + "learning_rate": 7.111111111111112e-06, + "loss": 0.5163, + "step": 1450 + }, + { + "epoch": 1.9346666666666668, + "grad_norm": 4.368368625640869, + "learning_rate": 7.102222222222222e-06, + "loss": 0.6194, + "step": 1451 + }, + { + "epoch": 1.936, + "grad_norm": 0.4651283025741577, + "learning_rate": 7.093333333333335e-06, + "loss": 0.0037, + "step": 1452 + }, + { + "epoch": 1.9373333333333334, + "grad_norm": 0.04045276343822479, + "learning_rate": 7.084444444444445e-06, + "loss": 0.0011, + "step": 1453 + }, + { + "epoch": 1.9386666666666668, + "grad_norm": 0.5966789126396179, + "learning_rate": 7.0755555555555565e-06, + "loss": 0.0027, + "step": 1454 + }, + { + "epoch": 1.94, + "grad_norm": 39.120121002197266, + "learning_rate": 7.066666666666667e-06, + "loss": 0.2632, + "step": 1455 + }, + { + "epoch": 1.9413333333333334, + "grad_norm": 18.70242691040039, + "learning_rate": 7.057777777777778e-06, + "loss": 0.4598, + "step": 1456 + }, + { + "epoch": 1.9426666666666668, + "grad_norm": 1.0788371562957764, + "learning_rate": 7.04888888888889e-06, + "loss": 0.0048, + "step": 1457 + }, + { + "epoch": 1.944, + "grad_norm": 109.11736297607422, + "learning_rate": 7.04e-06, + "loss": 0.3345, + "step": 1458 + }, + { + "epoch": 1.9453333333333334, + "grad_norm": 0.47086769342422485, + "learning_rate": 7.031111111111112e-06, + "loss": 0.0029, + "step": 1459 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 55.00340270996094, + "learning_rate": 7.022222222222222e-06, + "loss": 0.8851, + "step": 1460 + }, + { + "epoch": 1.948, + "grad_norm": 0.1486995816230774, + "learning_rate": 7.0133333333333345e-06, + "loss": 0.0018, + "step": 1461 + }, + { + "epoch": 1.9493333333333334, + "grad_norm": 0.2541404962539673, + "learning_rate": 7.004444444444445e-06, + "loss": 0.0023, + "step": 1462 + }, + { + "epoch": 1.9506666666666668, + "grad_norm": 4.5738301277160645, + "learning_rate": 6.9955555555555564e-06, + "loss": 0.5411, + "step": 1463 + }, + { + "epoch": 1.952, + "grad_norm": 0.0940423384308815, + "learning_rate": 6.986666666666667e-06, + "loss": 0.0016, + "step": 1464 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 0.11874913424253464, + "learning_rate": 6.977777777777779e-06, + "loss": 0.0019, + "step": 1465 + }, + { + "epoch": 1.9546666666666668, + "grad_norm": 0.12059324979782104, + "learning_rate": 6.96888888888889e-06, + "loss": 0.0019, + "step": 1466 + }, + { + "epoch": 1.956, + "grad_norm": 2.355738639831543, + "learning_rate": 6.96e-06, + "loss": 0.0096, + "step": 1467 + }, + { + "epoch": 1.9573333333333334, + "grad_norm": 1.687117338180542, + "learning_rate": 6.951111111111112e-06, + "loss": 0.0064, + "step": 1468 + }, + { + "epoch": 1.9586666666666668, + "grad_norm": 31.273008346557617, + "learning_rate": 6.942222222222222e-06, + "loss": 0.374, + "step": 1469 + }, + { + "epoch": 1.96, + "grad_norm": 0.0997992530465126, + "learning_rate": 6.9333333333333344e-06, + "loss": 0.0018, + "step": 1470 + }, + { + "epoch": 1.9613333333333334, + "grad_norm": 39.983211517333984, + "learning_rate": 6.924444444444445e-06, + "loss": 0.3655, + "step": 1471 + }, + { + "epoch": 1.9626666666666668, + "grad_norm": 2.8505375385284424, + "learning_rate": 6.915555555555556e-06, + "loss": 0.008, + "step": 1472 + }, + { + "epoch": 1.964, + "grad_norm": 0.8014863133430481, + "learning_rate": 6.906666666666667e-06, + "loss": 0.0045, + "step": 1473 + }, + { + "epoch": 1.9653333333333334, + "grad_norm": 1.2293097972869873, + "learning_rate": 6.897777777777779e-06, + "loss": 0.0056, + "step": 1474 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 23.034488677978516, + "learning_rate": 6.88888888888889e-06, + "loss": 0.3985, + "step": 1475 + }, + { + "epoch": 1.968, + "grad_norm": 3.2061054706573486, + "learning_rate": 6.88e-06, + "loss": 0.006, + "step": 1476 + }, + { + "epoch": 1.9693333333333334, + "grad_norm": 7.174966812133789, + "learning_rate": 6.871111111111112e-06, + "loss": 0.5267, + "step": 1477 + }, + { + "epoch": 1.9706666666666668, + "grad_norm": 11.269383430480957, + "learning_rate": 6.862222222222222e-06, + "loss": 0.5178, + "step": 1478 + }, + { + "epoch": 1.972, + "grad_norm": 0.30215540528297424, + "learning_rate": 6.853333333333334e-06, + "loss": 0.0025, + "step": 1479 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 0.0947900116443634, + "learning_rate": 6.844444444444445e-06, + "loss": 0.002, + "step": 1480 + }, + { + "epoch": 1.9746666666666668, + "grad_norm": 0.10220418125391006, + "learning_rate": 6.835555555555556e-06, + "loss": 0.0017, + "step": 1481 + }, + { + "epoch": 1.976, + "grad_norm": 0.6676844358444214, + "learning_rate": 6.826666666666667e-06, + "loss": 0.0029, + "step": 1482 + }, + { + "epoch": 1.9773333333333334, + "grad_norm": 0.5585715770721436, + "learning_rate": 6.817777777777779e-06, + "loss": 0.0043, + "step": 1483 + }, + { + "epoch": 1.9786666666666668, + "grad_norm": 0.07985799014568329, + "learning_rate": 6.80888888888889e-06, + "loss": 0.0017, + "step": 1484 + }, + { + "epoch": 1.98, + "grad_norm": 0.14009276032447815, + "learning_rate": 6.800000000000001e-06, + "loss": 0.0021, + "step": 1485 + }, + { + "epoch": 1.9813333333333332, + "grad_norm": 0.0922916978597641, + "learning_rate": 6.7911111111111115e-06, + "loss": 0.0019, + "step": 1486 + }, + { + "epoch": 1.9826666666666668, + "grad_norm": 0.3144603371620178, + "learning_rate": 6.782222222222222e-06, + "loss": 0.0031, + "step": 1487 + }, + { + "epoch": 1.984, + "grad_norm": 14.663305282592773, + "learning_rate": 6.773333333333334e-06, + "loss": 0.471, + "step": 1488 + }, + { + "epoch": 1.9853333333333332, + "grad_norm": 8.919342994689941, + "learning_rate": 6.764444444444445e-06, + "loss": 0.5112, + "step": 1489 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 0.10853844881057739, + "learning_rate": 6.755555555555556e-06, + "loss": 0.0018, + "step": 1490 + }, + { + "epoch": 1.988, + "grad_norm": 0.7259480953216553, + "learning_rate": 6.746666666666667e-06, + "loss": 0.0041, + "step": 1491 + }, + { + "epoch": 1.9893333333333332, + "grad_norm": 49.650352478027344, + "learning_rate": 6.737777777777779e-06, + "loss": 0.3863, + "step": 1492 + }, + { + "epoch": 1.9906666666666668, + "grad_norm": 0.39010846614837646, + "learning_rate": 6.7288888888888895e-06, + "loss": 0.0026, + "step": 1493 + }, + { + "epoch": 1.992, + "grad_norm": 37.0239372253418, + "learning_rate": 6.720000000000001e-06, + "loss": 0.313, + "step": 1494 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 1.0574296712875366, + "learning_rate": 6.711111111111111e-06, + "loss": 0.0068, + "step": 1495 + }, + { + "epoch": 1.9946666666666668, + "grad_norm": 0.1064102053642273, + "learning_rate": 6.702222222222224e-06, + "loss": 0.002, + "step": 1496 + }, + { + "epoch": 1.996, + "grad_norm": 65.07914733886719, + "learning_rate": 6.693333333333334e-06, + "loss": 0.3524, + "step": 1497 + }, + { + "epoch": 1.9973333333333332, + "grad_norm": 12.633794784545898, + "learning_rate": 6.684444444444445e-06, + "loss": 0.4009, + "step": 1498 + }, + { + "epoch": 1.9986666666666668, + "grad_norm": 107.31752014160156, + "learning_rate": 6.675555555555556e-06, + "loss": 0.1536, + "step": 1499 + }, + { + "epoch": 2.0, + "grad_norm": 2.6278445720672607, + "learning_rate": 6.666666666666667e-06, + "loss": 0.0048, + "step": 1500 + }, + { + "epoch": 2.0, + "eval_accuracy": 0.953757225433526, + "eval_loss": 0.2072431445121765, + "eval_runtime": 26.9439, + "eval_samples_per_second": 83.47, + "eval_steps_per_second": 2.635, + "step": 1500 + }, + { + "epoch": 2.001333333333333, + "grad_norm": 0.21973294019699097, + "learning_rate": 6.657777777777779e-06, + "loss": 0.0028, + "step": 1501 + }, + { + "epoch": 2.002666666666667, + "grad_norm": 0.08716049790382385, + "learning_rate": 6.648888888888889e-06, + "loss": 0.0017, + "step": 1502 + }, + { + "epoch": 2.004, + "grad_norm": 0.40816184878349304, + "learning_rate": 6.640000000000001e-06, + "loss": 0.0046, + "step": 1503 + }, + { + "epoch": 2.005333333333333, + "grad_norm": 0.230136439204216, + "learning_rate": 6.631111111111111e-06, + "loss": 0.0031, + "step": 1504 + }, + { + "epoch": 2.006666666666667, + "grad_norm": 0.21828602254390717, + "learning_rate": 6.6222222222222236e-06, + "loss": 0.0028, + "step": 1505 + }, + { + "epoch": 2.008, + "grad_norm": 1.3828930854797363, + "learning_rate": 6.613333333333334e-06, + "loss": 0.0061, + "step": 1506 + }, + { + "epoch": 2.009333333333333, + "grad_norm": 0.0931534394621849, + "learning_rate": 6.604444444444445e-06, + "loss": 0.0018, + "step": 1507 + }, + { + "epoch": 2.010666666666667, + "grad_norm": 29.606918334960938, + "learning_rate": 6.595555555555556e-06, + "loss": 0.2417, + "step": 1508 + }, + { + "epoch": 2.012, + "grad_norm": 0.1962568461894989, + "learning_rate": 6.5866666666666666e-06, + "loss": 0.0027, + "step": 1509 + }, + { + "epoch": 2.013333333333333, + "grad_norm": 13.325645446777344, + "learning_rate": 6.577777777777779e-06, + "loss": 0.425, + "step": 1510 + }, + { + "epoch": 2.014666666666667, + "grad_norm": 0.6442707777023315, + "learning_rate": 6.568888888888889e-06, + "loss": 0.003, + "step": 1511 + }, + { + "epoch": 2.016, + "grad_norm": 18.51636505126953, + "learning_rate": 6.560000000000001e-06, + "loss": 0.3796, + "step": 1512 + }, + { + "epoch": 2.017333333333333, + "grad_norm": 192.5889434814453, + "learning_rate": 6.551111111111111e-06, + "loss": 0.3137, + "step": 1513 + }, + { + "epoch": 2.018666666666667, + "grad_norm": 19.72435760498047, + "learning_rate": 6.5422222222222235e-06, + "loss": 0.0102, + "step": 1514 + }, + { + "epoch": 2.02, + "grad_norm": 84.48111724853516, + "learning_rate": 6.533333333333334e-06, + "loss": 0.565, + "step": 1515 + }, + { + "epoch": 2.021333333333333, + "grad_norm": 0.23955652117729187, + "learning_rate": 6.524444444444445e-06, + "loss": 0.0032, + "step": 1516 + }, + { + "epoch": 2.022666666666667, + "grad_norm": 29.749317169189453, + "learning_rate": 6.515555555555556e-06, + "loss": 0.8218, + "step": 1517 + }, + { + "epoch": 2.024, + "grad_norm": 0.2655538022518158, + "learning_rate": 6.5066666666666665e-06, + "loss": 0.0028, + "step": 1518 + }, + { + "epoch": 2.025333333333333, + "grad_norm": 0.1561375856399536, + "learning_rate": 6.497777777777779e-06, + "loss": 0.0022, + "step": 1519 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 0.1464657187461853, + "learning_rate": 6.488888888888889e-06, + "loss": 0.0022, + "step": 1520 + }, + { + "epoch": 2.028, + "grad_norm": 5.506461143493652, + "learning_rate": 6.480000000000001e-06, + "loss": 0.0153, + "step": 1521 + }, + { + "epoch": 2.029333333333333, + "grad_norm": 14.1961088180542, + "learning_rate": 6.471111111111111e-06, + "loss": 0.3547, + "step": 1522 + }, + { + "epoch": 2.030666666666667, + "grad_norm": 1.2821662425994873, + "learning_rate": 6.462222222222223e-06, + "loss": 0.0078, + "step": 1523 + }, + { + "epoch": 2.032, + "grad_norm": 0.09966213256120682, + "learning_rate": 6.453333333333334e-06, + "loss": 0.0017, + "step": 1524 + }, + { + "epoch": 2.033333333333333, + "grad_norm": 0.22582799196243286, + "learning_rate": 6.444444444444445e-06, + "loss": 0.0024, + "step": 1525 + }, + { + "epoch": 2.034666666666667, + "grad_norm": 1.0199034214019775, + "learning_rate": 6.435555555555556e-06, + "loss": 0.0035, + "step": 1526 + }, + { + "epoch": 2.036, + "grad_norm": 77.1421127319336, + "learning_rate": 6.426666666666668e-06, + "loss": 0.2943, + "step": 1527 + }, + { + "epoch": 2.037333333333333, + "grad_norm": 0.08893483132123947, + "learning_rate": 6.417777777777779e-06, + "loss": 0.0016, + "step": 1528 + }, + { + "epoch": 2.038666666666667, + "grad_norm": 4.2258076667785645, + "learning_rate": 6.408888888888889e-06, + "loss": 0.5922, + "step": 1529 + }, + { + "epoch": 2.04, + "grad_norm": 11.95384407043457, + "learning_rate": 6.4000000000000006e-06, + "loss": 0.5156, + "step": 1530 + }, + { + "epoch": 2.041333333333333, + "grad_norm": 0.1605321764945984, + "learning_rate": 6.391111111111111e-06, + "loss": 0.0015, + "step": 1531 + }, + { + "epoch": 2.042666666666667, + "grad_norm": 2.903740167617798, + "learning_rate": 6.382222222222223e-06, + "loss": 0.011, + "step": 1532 + }, + { + "epoch": 2.044, + "grad_norm": 0.6766199469566345, + "learning_rate": 6.373333333333334e-06, + "loss": 0.0031, + "step": 1533 + }, + { + "epoch": 2.0453333333333332, + "grad_norm": 44.37566375732422, + "learning_rate": 6.364444444444445e-06, + "loss": 0.0607, + "step": 1534 + }, + { + "epoch": 2.046666666666667, + "grad_norm": 0.10974112898111343, + "learning_rate": 6.355555555555556e-06, + "loss": 0.002, + "step": 1535 + }, + { + "epoch": 2.048, + "grad_norm": 0.20494496822357178, + "learning_rate": 6.346666666666668e-06, + "loss": 0.0028, + "step": 1536 + }, + { + "epoch": 2.0493333333333332, + "grad_norm": 0.8550019264221191, + "learning_rate": 6.3377777777777786e-06, + "loss": 0.0055, + "step": 1537 + }, + { + "epoch": 2.050666666666667, + "grad_norm": 12.28849983215332, + "learning_rate": 6.328888888888889e-06, + "loss": 0.0087, + "step": 1538 + }, + { + "epoch": 2.052, + "grad_norm": 1.1244903802871704, + "learning_rate": 6.3200000000000005e-06, + "loss": 0.0031, + "step": 1539 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 0.14049769937992096, + "learning_rate": 6.311111111111111e-06, + "loss": 0.0017, + "step": 1540 + }, + { + "epoch": 2.054666666666667, + "grad_norm": 0.1448071002960205, + "learning_rate": 6.302222222222223e-06, + "loss": 0.0023, + "step": 1541 + }, + { + "epoch": 2.056, + "grad_norm": 0.10534095019102097, + "learning_rate": 6.293333333333334e-06, + "loss": 0.0019, + "step": 1542 + }, + { + "epoch": 2.0573333333333332, + "grad_norm": 7.412267208099365, + "learning_rate": 6.284444444444445e-06, + "loss": 0.5757, + "step": 1543 + }, + { + "epoch": 2.058666666666667, + "grad_norm": 0.15548262000083923, + "learning_rate": 6.275555555555556e-06, + "loss": 0.0024, + "step": 1544 + }, + { + "epoch": 2.06, + "grad_norm": 5.572006702423096, + "learning_rate": 6.266666666666668e-06, + "loss": 0.0083, + "step": 1545 + }, + { + "epoch": 2.0613333333333332, + "grad_norm": 0.12951722741127014, + "learning_rate": 6.2577777777777785e-06, + "loss": 0.0023, + "step": 1546 + }, + { + "epoch": 2.062666666666667, + "grad_norm": 0.13874755799770355, + "learning_rate": 6.24888888888889e-06, + "loss": 0.0016, + "step": 1547 + }, + { + "epoch": 2.064, + "grad_norm": 48.674224853515625, + "learning_rate": 6.24e-06, + "loss": 0.3069, + "step": 1548 + }, + { + "epoch": 2.0653333333333332, + "grad_norm": 22.455493927001953, + "learning_rate": 6.231111111111111e-06, + "loss": 0.2413, + "step": 1549 + }, + { + "epoch": 2.066666666666667, + "grad_norm": 0.136814683675766, + "learning_rate": 6.222222222222223e-06, + "loss": 0.0021, + "step": 1550 + }, + { + "epoch": 2.068, + "grad_norm": 0.10963333398103714, + "learning_rate": 6.213333333333334e-06, + "loss": 0.0018, + "step": 1551 + }, + { + "epoch": 2.0693333333333332, + "grad_norm": 165.57952880859375, + "learning_rate": 6.204444444444445e-06, + "loss": 0.2338, + "step": 1552 + }, + { + "epoch": 2.070666666666667, + "grad_norm": 0.10615267604589462, + "learning_rate": 6.195555555555556e-06, + "loss": 0.0017, + "step": 1553 + }, + { + "epoch": 2.072, + "grad_norm": 0.11457415670156479, + "learning_rate": 6.186666666666668e-06, + "loss": 0.002, + "step": 1554 + }, + { + "epoch": 2.0733333333333333, + "grad_norm": 0.20957176387310028, + "learning_rate": 6.177777777777778e-06, + "loss": 0.0025, + "step": 1555 + }, + { + "epoch": 2.074666666666667, + "grad_norm": 160.49742126464844, + "learning_rate": 6.16888888888889e-06, + "loss": 0.1067, + "step": 1556 + }, + { + "epoch": 2.076, + "grad_norm": 5.042192459106445, + "learning_rate": 6.16e-06, + "loss": 0.5842, + "step": 1557 + }, + { + "epoch": 2.0773333333333333, + "grad_norm": 0.12495815008878708, + "learning_rate": 6.1511111111111125e-06, + "loss": 0.0017, + "step": 1558 + }, + { + "epoch": 2.078666666666667, + "grad_norm": 15.807305335998535, + "learning_rate": 6.142222222222223e-06, + "loss": 1.0576, + "step": 1559 + }, + { + "epoch": 2.08, + "grad_norm": 0.16906969249248505, + "learning_rate": 6.133333333333334e-06, + "loss": 0.0029, + "step": 1560 + }, + { + "epoch": 2.0813333333333333, + "grad_norm": 13.155208587646484, + "learning_rate": 6.124444444444445e-06, + "loss": 0.0203, + "step": 1561 + }, + { + "epoch": 2.0826666666666664, + "grad_norm": 30.152618408203125, + "learning_rate": 6.1155555555555555e-06, + "loss": 0.1207, + "step": 1562 + }, + { + "epoch": 2.084, + "grad_norm": 6.0244832038879395, + "learning_rate": 6.106666666666668e-06, + "loss": 0.5105, + "step": 1563 + }, + { + "epoch": 2.0853333333333333, + "grad_norm": 0.1124710813164711, + "learning_rate": 6.097777777777778e-06, + "loss": 0.0022, + "step": 1564 + }, + { + "epoch": 2.086666666666667, + "grad_norm": 0.17199675738811493, + "learning_rate": 6.08888888888889e-06, + "loss": 0.0028, + "step": 1565 + }, + { + "epoch": 2.088, + "grad_norm": 0.4565213918685913, + "learning_rate": 6.08e-06, + "loss": 0.0034, + "step": 1566 + }, + { + "epoch": 2.0893333333333333, + "grad_norm": 0.21287810802459717, + "learning_rate": 6.0711111111111125e-06, + "loss": 0.0033, + "step": 1567 + }, + { + "epoch": 2.0906666666666665, + "grad_norm": 0.1844102442264557, + "learning_rate": 6.062222222222223e-06, + "loss": 0.0031, + "step": 1568 + }, + { + "epoch": 2.092, + "grad_norm": 1.167273759841919, + "learning_rate": 6.0533333333333335e-06, + "loss": 0.0045, + "step": 1569 + }, + { + "epoch": 2.0933333333333333, + "grad_norm": 0.23051945865154266, + "learning_rate": 6.044444444444445e-06, + "loss": 0.0037, + "step": 1570 + }, + { + "epoch": 2.0946666666666665, + "grad_norm": 0.23901034891605377, + "learning_rate": 6.0355555555555555e-06, + "loss": 0.0027, + "step": 1571 + }, + { + "epoch": 2.096, + "grad_norm": 0.2957967221736908, + "learning_rate": 6.026666666666668e-06, + "loss": 0.004, + "step": 1572 + }, + { + "epoch": 2.0973333333333333, + "grad_norm": 0.1813054084777832, + "learning_rate": 6.017777777777778e-06, + "loss": 0.0026, + "step": 1573 + }, + { + "epoch": 2.0986666666666665, + "grad_norm": 1.8794900178909302, + "learning_rate": 6.00888888888889e-06, + "loss": 0.0047, + "step": 1574 + }, + { + "epoch": 2.1, + "grad_norm": 1.6857905387878418, + "learning_rate": 6e-06, + "loss": 0.0079, + "step": 1575 + }, + { + "epoch": 2.1013333333333333, + "grad_norm": 9.44128704071045, + "learning_rate": 5.991111111111112e-06, + "loss": 0.5189, + "step": 1576 + }, + { + "epoch": 2.1026666666666665, + "grad_norm": 0.5649891495704651, + "learning_rate": 5.982222222222223e-06, + "loss": 0.0038, + "step": 1577 + }, + { + "epoch": 2.104, + "grad_norm": 299.8373107910156, + "learning_rate": 5.973333333333334e-06, + "loss": 0.6322, + "step": 1578 + }, + { + "epoch": 2.1053333333333333, + "grad_norm": 0.1775604635477066, + "learning_rate": 5.964444444444445e-06, + "loss": 0.0022, + "step": 1579 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 0.1013912484049797, + "learning_rate": 5.955555555555555e-06, + "loss": 0.0024, + "step": 1580 + }, + { + "epoch": 2.108, + "grad_norm": 0.07410731166601181, + "learning_rate": 5.946666666666668e-06, + "loss": 0.0017, + "step": 1581 + }, + { + "epoch": 2.1093333333333333, + "grad_norm": 0.06870289146900177, + "learning_rate": 5.937777777777778e-06, + "loss": 0.0018, + "step": 1582 + }, + { + "epoch": 2.1106666666666665, + "grad_norm": 0.10864316672086716, + "learning_rate": 5.9288888888888895e-06, + "loss": 0.002, + "step": 1583 + }, + { + "epoch": 2.112, + "grad_norm": 0.05801411718130112, + "learning_rate": 5.92e-06, + "loss": 0.0016, + "step": 1584 + }, + { + "epoch": 2.1133333333333333, + "grad_norm": 0.05670991167426109, + "learning_rate": 5.911111111111112e-06, + "loss": 0.0015, + "step": 1585 + }, + { + "epoch": 2.1146666666666665, + "grad_norm": 4.518853187561035, + "learning_rate": 5.902222222222223e-06, + "loss": 0.0071, + "step": 1586 + }, + { + "epoch": 2.116, + "grad_norm": 0.0609397366642952, + "learning_rate": 5.893333333333334e-06, + "loss": 0.0016, + "step": 1587 + }, + { + "epoch": 2.1173333333333333, + "grad_norm": 11.934228897094727, + "learning_rate": 5.884444444444445e-06, + "loss": 0.3514, + "step": 1588 + }, + { + "epoch": 2.1186666666666665, + "grad_norm": 16.60202407836914, + "learning_rate": 5.875555555555556e-06, + "loss": 0.4542, + "step": 1589 + }, + { + "epoch": 2.12, + "grad_norm": 0.05296841636300087, + "learning_rate": 5.8666666666666675e-06, + "loss": 0.0015, + "step": 1590 + }, + { + "epoch": 2.1213333333333333, + "grad_norm": 0.05932968109846115, + "learning_rate": 5.857777777777778e-06, + "loss": 0.0015, + "step": 1591 + }, + { + "epoch": 2.1226666666666665, + "grad_norm": 0.0649983361363411, + "learning_rate": 5.8488888888888895e-06, + "loss": 0.0015, + "step": 1592 + }, + { + "epoch": 2.124, + "grad_norm": 0.047748416662216187, + "learning_rate": 5.84e-06, + "loss": 0.0013, + "step": 1593 + }, + { + "epoch": 2.1253333333333333, + "grad_norm": 1.1547473669052124, + "learning_rate": 5.831111111111112e-06, + "loss": 0.0057, + "step": 1594 + }, + { + "epoch": 2.1266666666666665, + "grad_norm": 29.925230026245117, + "learning_rate": 5.822222222222223e-06, + "loss": 1.3757, + "step": 1595 + }, + { + "epoch": 2.128, + "grad_norm": 0.08188990503549576, + "learning_rate": 5.813333333333334e-06, + "loss": 0.0016, + "step": 1596 + }, + { + "epoch": 2.1293333333333333, + "grad_norm": 0.08349346369504929, + "learning_rate": 5.804444444444445e-06, + "loss": 0.0017, + "step": 1597 + }, + { + "epoch": 2.1306666666666665, + "grad_norm": 0.8624444007873535, + "learning_rate": 5.795555555555557e-06, + "loss": 0.0047, + "step": 1598 + }, + { + "epoch": 2.132, + "grad_norm": 0.41606566309928894, + "learning_rate": 5.7866666666666674e-06, + "loss": 0.0028, + "step": 1599 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 0.4265827238559723, + "learning_rate": 5.777777777777778e-06, + "loss": 0.0027, + "step": 1600 + }, + { + "epoch": 2.1346666666666665, + "grad_norm": 0.06573953479528427, + "learning_rate": 5.768888888888889e-06, + "loss": 0.0015, + "step": 1601 + }, + { + "epoch": 2.136, + "grad_norm": 0.07957270741462708, + "learning_rate": 5.76e-06, + "loss": 0.0016, + "step": 1602 + }, + { + "epoch": 2.1373333333333333, + "grad_norm": 7.761568069458008, + "learning_rate": 5.751111111111112e-06, + "loss": 0.4544, + "step": 1603 + }, + { + "epoch": 2.1386666666666665, + "grad_norm": 1.8674613237380981, + "learning_rate": 5.742222222222223e-06, + "loss": 0.0039, + "step": 1604 + }, + { + "epoch": 2.14, + "grad_norm": 11.371295928955078, + "learning_rate": 5.733333333333334e-06, + "loss": 0.5003, + "step": 1605 + }, + { + "epoch": 2.1413333333333333, + "grad_norm": 0.13868264853954315, + "learning_rate": 5.724444444444445e-06, + "loss": 0.002, + "step": 1606 + }, + { + "epoch": 2.1426666666666665, + "grad_norm": 5.816766738891602, + "learning_rate": 5.715555555555557e-06, + "loss": 0.5486, + "step": 1607 + }, + { + "epoch": 2.144, + "grad_norm": 0.10245322436094284, + "learning_rate": 5.706666666666667e-06, + "loss": 0.0022, + "step": 1608 + }, + { + "epoch": 2.1453333333333333, + "grad_norm": 0.06508094817399979, + "learning_rate": 5.697777777777779e-06, + "loss": 0.0014, + "step": 1609 + }, + { + "epoch": 2.1466666666666665, + "grad_norm": 15.599520683288574, + "learning_rate": 5.688888888888889e-06, + "loss": 0.3903, + "step": 1610 + }, + { + "epoch": 2.148, + "grad_norm": 0.15024839341640472, + "learning_rate": 5.68e-06, + "loss": 0.0018, + "step": 1611 + }, + { + "epoch": 2.1493333333333333, + "grad_norm": 13.633800506591797, + "learning_rate": 5.671111111111112e-06, + "loss": 0.4102, + "step": 1612 + }, + { + "epoch": 2.1506666666666665, + "grad_norm": 61.68378448486328, + "learning_rate": 5.662222222222223e-06, + "loss": 0.108, + "step": 1613 + }, + { + "epoch": 2.152, + "grad_norm": 228.44752502441406, + "learning_rate": 5.653333333333334e-06, + "loss": 0.1209, + "step": 1614 + }, + { + "epoch": 2.1533333333333333, + "grad_norm": 0.0836319550871849, + "learning_rate": 5.6444444444444445e-06, + "loss": 0.0017, + "step": 1615 + }, + { + "epoch": 2.1546666666666665, + "grad_norm": 29.63946533203125, + "learning_rate": 5.635555555555557e-06, + "loss": 0.3362, + "step": 1616 + }, + { + "epoch": 2.156, + "grad_norm": 0.1123754009604454, + "learning_rate": 5.626666666666667e-06, + "loss": 0.0018, + "step": 1617 + }, + { + "epoch": 2.1573333333333333, + "grad_norm": 0.10049694031476974, + "learning_rate": 5.617777777777779e-06, + "loss": 0.0019, + "step": 1618 + }, + { + "epoch": 2.1586666666666665, + "grad_norm": 0.16874143481254578, + "learning_rate": 5.608888888888889e-06, + "loss": 0.0024, + "step": 1619 + }, + { + "epoch": 2.16, + "grad_norm": 13.435025215148926, + "learning_rate": 5.600000000000001e-06, + "loss": 0.3932, + "step": 1620 + }, + { + "epoch": 2.1613333333333333, + "grad_norm": 8.362465858459473, + "learning_rate": 5.591111111111112e-06, + "loss": 0.3187, + "step": 1621 + }, + { + "epoch": 2.1626666666666665, + "grad_norm": 342.1257629394531, + "learning_rate": 5.5822222222222225e-06, + "loss": 0.2412, + "step": 1622 + }, + { + "epoch": 2.164, + "grad_norm": 30.117048263549805, + "learning_rate": 5.573333333333334e-06, + "loss": 0.2797, + "step": 1623 + }, + { + "epoch": 2.1653333333333333, + "grad_norm": 0.3440002202987671, + "learning_rate": 5.5644444444444444e-06, + "loss": 0.0036, + "step": 1624 + }, + { + "epoch": 2.1666666666666665, + "grad_norm": 38.900264739990234, + "learning_rate": 5.555555555555557e-06, + "loss": 0.2377, + "step": 1625 + }, + { + "epoch": 2.168, + "grad_norm": 0.5021089911460876, + "learning_rate": 5.546666666666667e-06, + "loss": 0.0034, + "step": 1626 + }, + { + "epoch": 2.1693333333333333, + "grad_norm": 0.24104700982570648, + "learning_rate": 5.537777777777779e-06, + "loss": 0.003, + "step": 1627 + }, + { + "epoch": 2.1706666666666665, + "grad_norm": 730.4029541015625, + "learning_rate": 5.528888888888889e-06, + "loss": 0.3437, + "step": 1628 + }, + { + "epoch": 2.172, + "grad_norm": 123.85137939453125, + "learning_rate": 5.5200000000000005e-06, + "loss": 0.0536, + "step": 1629 + }, + { + "epoch": 2.1733333333333333, + "grad_norm": 0.2005406618118286, + "learning_rate": 5.511111111111112e-06, + "loss": 0.0024, + "step": 1630 + }, + { + "epoch": 2.1746666666666665, + "grad_norm": 0.31959980726242065, + "learning_rate": 5.5022222222222224e-06, + "loss": 0.004, + "step": 1631 + }, + { + "epoch": 2.176, + "grad_norm": 0.10697323828935623, + "learning_rate": 5.493333333333334e-06, + "loss": 0.0021, + "step": 1632 + }, + { + "epoch": 2.1773333333333333, + "grad_norm": 15.825339317321777, + "learning_rate": 5.484444444444444e-06, + "loss": 0.4401, + "step": 1633 + }, + { + "epoch": 2.1786666666666665, + "grad_norm": 0.25746503472328186, + "learning_rate": 5.475555555555557e-06, + "loss": 0.0033, + "step": 1634 + }, + { + "epoch": 2.18, + "grad_norm": 0.15490980446338654, + "learning_rate": 5.466666666666667e-06, + "loss": 0.0019, + "step": 1635 + }, + { + "epoch": 2.1813333333333333, + "grad_norm": 15.599236488342285, + "learning_rate": 5.4577777777777785e-06, + "loss": 0.2752, + "step": 1636 + }, + { + "epoch": 2.1826666666666665, + "grad_norm": 7.1724724769592285, + "learning_rate": 5.448888888888889e-06, + "loss": 0.3344, + "step": 1637 + }, + { + "epoch": 2.184, + "grad_norm": 2.8896727561950684, + "learning_rate": 5.4400000000000004e-06, + "loss": 0.0098, + "step": 1638 + }, + { + "epoch": 2.1853333333333333, + "grad_norm": 0.18843406438827515, + "learning_rate": 5.431111111111112e-06, + "loss": 0.0023, + "step": 1639 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 0.12094450742006302, + "learning_rate": 5.422222222222223e-06, + "loss": 0.0018, + "step": 1640 + }, + { + "epoch": 2.188, + "grad_norm": 0.19044333696365356, + "learning_rate": 5.413333333333334e-06, + "loss": 0.002, + "step": 1641 + }, + { + "epoch": 2.1893333333333334, + "grad_norm": 0.3448418080806732, + "learning_rate": 5.404444444444444e-06, + "loss": 0.0034, + "step": 1642 + }, + { + "epoch": 2.1906666666666665, + "grad_norm": 1.011839747428894, + "learning_rate": 5.3955555555555565e-06, + "loss": 0.0042, + "step": 1643 + }, + { + "epoch": 2.192, + "grad_norm": 0.05093805864453316, + "learning_rate": 5.386666666666667e-06, + "loss": 0.0012, + "step": 1644 + }, + { + "epoch": 2.1933333333333334, + "grad_norm": 0.41953209042549133, + "learning_rate": 5.3777777777777784e-06, + "loss": 0.0028, + "step": 1645 + }, + { + "epoch": 2.1946666666666665, + "grad_norm": 0.8369782567024231, + "learning_rate": 5.368888888888889e-06, + "loss": 0.0049, + "step": 1646 + }, + { + "epoch": 2.196, + "grad_norm": 0.21820397675037384, + "learning_rate": 5.36e-06, + "loss": 0.0032, + "step": 1647 + }, + { + "epoch": 2.1973333333333334, + "grad_norm": 0.15174554288387299, + "learning_rate": 5.351111111111112e-06, + "loss": 0.002, + "step": 1648 + }, + { + "epoch": 2.1986666666666665, + "grad_norm": 0.22246962785720825, + "learning_rate": 5.342222222222223e-06, + "loss": 0.0032, + "step": 1649 + }, + { + "epoch": 2.2, + "grad_norm": 339.20703125, + "learning_rate": 5.333333333333334e-06, + "loss": 0.2438, + "step": 1650 + }, + { + "epoch": 2.2013333333333334, + "grad_norm": 18.049530029296875, + "learning_rate": 5.324444444444445e-06, + "loss": 0.6961, + "step": 1651 + }, + { + "epoch": 2.2026666666666666, + "grad_norm": 0.14489011466503143, + "learning_rate": 5.3155555555555564e-06, + "loss": 0.0018, + "step": 1652 + }, + { + "epoch": 2.204, + "grad_norm": 0.03397635743021965, + "learning_rate": 5.306666666666667e-06, + "loss": 0.001, + "step": 1653 + }, + { + "epoch": 2.2053333333333334, + "grad_norm": 0.4996640086174011, + "learning_rate": 5.297777777777778e-06, + "loss": 0.0035, + "step": 1654 + }, + { + "epoch": 2.2066666666666666, + "grad_norm": 0.051848676055669785, + "learning_rate": 5.288888888888889e-06, + "loss": 0.0012, + "step": 1655 + }, + { + "epoch": 2.208, + "grad_norm": 3.009157180786133, + "learning_rate": 5.28e-06, + "loss": 0.0063, + "step": 1656 + }, + { + "epoch": 2.2093333333333334, + "grad_norm": 7.5349202156066895, + "learning_rate": 5.271111111111112e-06, + "loss": 0.5397, + "step": 1657 + }, + { + "epoch": 2.2106666666666666, + "grad_norm": 0.5651199221611023, + "learning_rate": 5.262222222222223e-06, + "loss": 0.0049, + "step": 1658 + }, + { + "epoch": 2.212, + "grad_norm": 16.68968391418457, + "learning_rate": 5.2533333333333336e-06, + "loss": 0.3742, + "step": 1659 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 22.532651901245117, + "learning_rate": 5.244444444444445e-06, + "loss": 0.7261, + "step": 1660 + }, + { + "epoch": 2.2146666666666666, + "grad_norm": 0.134637713432312, + "learning_rate": 5.235555555555556e-06, + "loss": 0.0014, + "step": 1661 + }, + { + "epoch": 2.216, + "grad_norm": 69.25880432128906, + "learning_rate": 5.226666666666667e-06, + "loss": 0.7457, + "step": 1662 + }, + { + "epoch": 2.2173333333333334, + "grad_norm": 0.22859400510787964, + "learning_rate": 5.217777777777778e-06, + "loss": 0.0018, + "step": 1663 + }, + { + "epoch": 2.2186666666666666, + "grad_norm": 31.05269432067871, + "learning_rate": 5.208888888888889e-06, + "loss": 0.5142, + "step": 1664 + }, + { + "epoch": 2.22, + "grad_norm": 1.2620700597763062, + "learning_rate": 5.2e-06, + "loss": 0.0026, + "step": 1665 + }, + { + "epoch": 2.2213333333333334, + "grad_norm": 0.18553467094898224, + "learning_rate": 5.1911111111111116e-06, + "loss": 0.0026, + "step": 1666 + }, + { + "epoch": 2.2226666666666666, + "grad_norm": 0.04560009762644768, + "learning_rate": 5.182222222222223e-06, + "loss": 0.0012, + "step": 1667 + }, + { + "epoch": 2.224, + "grad_norm": 24.43973731994629, + "learning_rate": 5.1733333333333335e-06, + "loss": 0.2279, + "step": 1668 + }, + { + "epoch": 2.2253333333333334, + "grad_norm": 0.5458127856254578, + "learning_rate": 5.164444444444445e-06, + "loss": 0.0025, + "step": 1669 + }, + { + "epoch": 2.2266666666666666, + "grad_norm": 0.19275888800621033, + "learning_rate": 5.155555555555556e-06, + "loss": 0.0021, + "step": 1670 + }, + { + "epoch": 2.228, + "grad_norm": 28.773033142089844, + "learning_rate": 5.146666666666668e-06, + "loss": 0.3567, + "step": 1671 + }, + { + "epoch": 2.2293333333333334, + "grad_norm": 1.615864634513855, + "learning_rate": 5.137777777777778e-06, + "loss": 0.0105, + "step": 1672 + }, + { + "epoch": 2.2306666666666666, + "grad_norm": 0.6758133172988892, + "learning_rate": 5.128888888888889e-06, + "loss": 0.0058, + "step": 1673 + }, + { + "epoch": 2.232, + "grad_norm": 22.74061393737793, + "learning_rate": 5.12e-06, + "loss": 0.4257, + "step": 1674 + }, + { + "epoch": 2.2333333333333334, + "grad_norm": 2.602236032485962, + "learning_rate": 5.1111111111111115e-06, + "loss": 0.006, + "step": 1675 + }, + { + "epoch": 2.2346666666666666, + "grad_norm": 2.0908195972442627, + "learning_rate": 5.102222222222223e-06, + "loss": 0.0045, + "step": 1676 + }, + { + "epoch": 2.2359999999999998, + "grad_norm": 0.0903589203953743, + "learning_rate": 5.093333333333333e-06, + "loss": 0.0015, + "step": 1677 + }, + { + "epoch": 2.2373333333333334, + "grad_norm": 0.04829704761505127, + "learning_rate": 5.084444444444445e-06, + "loss": 0.0012, + "step": 1678 + }, + { + "epoch": 2.2386666666666666, + "grad_norm": 12.616703987121582, + "learning_rate": 5.075555555555556e-06, + "loss": 0.5249, + "step": 1679 + }, + { + "epoch": 2.24, + "grad_norm": 22.452451705932617, + "learning_rate": 5.0666666666666676e-06, + "loss": 0.3887, + "step": 1680 + }, + { + "epoch": 2.2413333333333334, + "grad_norm": 0.5504714250564575, + "learning_rate": 5.057777777777778e-06, + "loss": 0.007, + "step": 1681 + }, + { + "epoch": 2.2426666666666666, + "grad_norm": 0.2157517373561859, + "learning_rate": 5.0488888888888895e-06, + "loss": 0.0018, + "step": 1682 + }, + { + "epoch": 2.2439999999999998, + "grad_norm": 159.4510040283203, + "learning_rate": 5.04e-06, + "loss": 0.4903, + "step": 1683 + }, + { + "epoch": 2.2453333333333334, + "grad_norm": 0.34766536951065063, + "learning_rate": 5.031111111111111e-06, + "loss": 0.0026, + "step": 1684 + }, + { + "epoch": 2.2466666666666666, + "grad_norm": 101.15868377685547, + "learning_rate": 5.022222222222223e-06, + "loss": 0.0136, + "step": 1685 + }, + { + "epoch": 2.248, + "grad_norm": 4.594069004058838, + "learning_rate": 5.013333333333333e-06, + "loss": 0.0071, + "step": 1686 + }, + { + "epoch": 2.2493333333333334, + "grad_norm": 1.7127089500427246, + "learning_rate": 5.004444444444445e-06, + "loss": 0.0035, + "step": 1687 + }, + { + "epoch": 2.2506666666666666, + "grad_norm": 0.1862928569316864, + "learning_rate": 4.995555555555556e-06, + "loss": 0.0025, + "step": 1688 + }, + { + "epoch": 2.252, + "grad_norm": 67.08817291259766, + "learning_rate": 4.986666666666667e-06, + "loss": 0.3142, + "step": 1689 + }, + { + "epoch": 2.2533333333333334, + "grad_norm": 0.09066515415906906, + "learning_rate": 4.977777777777778e-06, + "loss": 0.0015, + "step": 1690 + }, + { + "epoch": 2.2546666666666666, + "grad_norm": 0.13187453150749207, + "learning_rate": 4.968888888888889e-06, + "loss": 0.0018, + "step": 1691 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 37.28289031982422, + "learning_rate": 4.960000000000001e-06, + "loss": 0.2738, + "step": 1692 + }, + { + "epoch": 2.2573333333333334, + "grad_norm": 0.11055582761764526, + "learning_rate": 4.951111111111111e-06, + "loss": 0.0015, + "step": 1693 + }, + { + "epoch": 2.2586666666666666, + "grad_norm": 6.355310440063477, + "learning_rate": 4.942222222222223e-06, + "loss": 0.5973, + "step": 1694 + }, + { + "epoch": 2.26, + "grad_norm": 0.5286763906478882, + "learning_rate": 4.933333333333334e-06, + "loss": 0.0032, + "step": 1695 + }, + { + "epoch": 2.2613333333333334, + "grad_norm": 13.273362159729004, + "learning_rate": 4.924444444444445e-06, + "loss": 0.4269, + "step": 1696 + }, + { + "epoch": 2.2626666666666666, + "grad_norm": 0.24128419160842896, + "learning_rate": 4.915555555555556e-06, + "loss": 0.0028, + "step": 1697 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 41.52327346801758, + "learning_rate": 4.9066666666666666e-06, + "loss": 0.749, + "step": 1698 + }, + { + "epoch": 2.2653333333333334, + "grad_norm": 14.106904983520508, + "learning_rate": 4.897777777777778e-06, + "loss": 0.3858, + "step": 1699 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 12.121460914611816, + "learning_rate": 4.888888888888889e-06, + "loss": 0.486, + "step": 1700 + }, + { + "epoch": 2.268, + "grad_norm": 0.18594665825366974, + "learning_rate": 4.880000000000001e-06, + "loss": 0.0025, + "step": 1701 + }, + { + "epoch": 2.2693333333333334, + "grad_norm": 0.08080189675092697, + "learning_rate": 4.871111111111111e-06, + "loss": 0.0014, + "step": 1702 + }, + { + "epoch": 2.2706666666666666, + "grad_norm": 7.539499759674072, + "learning_rate": 4.862222222222223e-06, + "loss": 0.5767, + "step": 1703 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 0.28246885538101196, + "learning_rate": 4.853333333333334e-06, + "loss": 0.0028, + "step": 1704 + }, + { + "epoch": 2.2733333333333334, + "grad_norm": 33.0589485168457, + "learning_rate": 4.8444444444444446e-06, + "loss": 0.4023, + "step": 1705 + }, + { + "epoch": 2.2746666666666666, + "grad_norm": 29.8232421875, + "learning_rate": 4.835555555555556e-06, + "loss": 0.4146, + "step": 1706 + }, + { + "epoch": 2.276, + "grad_norm": 28.577316284179688, + "learning_rate": 4.826666666666667e-06, + "loss": 0.0256, + "step": 1707 + }, + { + "epoch": 2.2773333333333334, + "grad_norm": 10.853880882263184, + "learning_rate": 4.817777777777779e-06, + "loss": 0.3386, + "step": 1708 + }, + { + "epoch": 2.2786666666666666, + "grad_norm": 0.18438559770584106, + "learning_rate": 4.808888888888889e-06, + "loss": 0.0023, + "step": 1709 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 53.60989761352539, + "learning_rate": 4.800000000000001e-06, + "loss": 0.2158, + "step": 1710 + }, + { + "epoch": 2.2813333333333334, + "grad_norm": 0.07299846410751343, + "learning_rate": 4.791111111111111e-06, + "loss": 0.0014, + "step": 1711 + }, + { + "epoch": 2.2826666666666666, + "grad_norm": 0.11320105195045471, + "learning_rate": 4.7822222222222226e-06, + "loss": 0.0018, + "step": 1712 + }, + { + "epoch": 2.284, + "grad_norm": 0.11848258972167969, + "learning_rate": 4.773333333333334e-06, + "loss": 0.0016, + "step": 1713 + }, + { + "epoch": 2.2853333333333334, + "grad_norm": 0.33108586072921753, + "learning_rate": 4.7644444444444445e-06, + "loss": 0.0033, + "step": 1714 + }, + { + "epoch": 2.2866666666666666, + "grad_norm": 0.23218315839767456, + "learning_rate": 4.755555555555556e-06, + "loss": 0.0024, + "step": 1715 + }, + { + "epoch": 2.288, + "grad_norm": 3.4157469272613525, + "learning_rate": 4.746666666666667e-06, + "loss": 0.0086, + "step": 1716 + }, + { + "epoch": 2.2893333333333334, + "grad_norm": 1.0435882806777954, + "learning_rate": 4.737777777777779e-06, + "loss": 0.0065, + "step": 1717 + }, + { + "epoch": 2.2906666666666666, + "grad_norm": 11.80017375946045, + "learning_rate": 4.728888888888889e-06, + "loss": 0.2871, + "step": 1718 + }, + { + "epoch": 2.292, + "grad_norm": 0.2163102775812149, + "learning_rate": 4.7200000000000005e-06, + "loss": 0.0017, + "step": 1719 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 0.4003317654132843, + "learning_rate": 4.711111111111111e-06, + "loss": 0.003, + "step": 1720 + }, + { + "epoch": 2.2946666666666666, + "grad_norm": 9.362318992614746, + "learning_rate": 4.7022222222222225e-06, + "loss": 0.3445, + "step": 1721 + }, + { + "epoch": 2.296, + "grad_norm": 29.54764175415039, + "learning_rate": 4.693333333333334e-06, + "loss": 0.3207, + "step": 1722 + }, + { + "epoch": 2.2973333333333334, + "grad_norm": 0.30408626794815063, + "learning_rate": 4.684444444444444e-06, + "loss": 0.0033, + "step": 1723 + }, + { + "epoch": 2.2986666666666666, + "grad_norm": 231.69515991210938, + "learning_rate": 4.675555555555556e-06, + "loss": 0.0391, + "step": 1724 + }, + { + "epoch": 2.3, + "grad_norm": 12.075058937072754, + "learning_rate": 4.666666666666667e-06, + "loss": 0.5321, + "step": 1725 + }, + { + "epoch": 2.3013333333333335, + "grad_norm": 0.7314155101776123, + "learning_rate": 4.6577777777777785e-06, + "loss": 0.0041, + "step": 1726 + }, + { + "epoch": 2.3026666666666666, + "grad_norm": 0.5341492295265198, + "learning_rate": 4.648888888888889e-06, + "loss": 0.0045, + "step": 1727 + }, + { + "epoch": 2.304, + "grad_norm": 0.27484020590782166, + "learning_rate": 4.6400000000000005e-06, + "loss": 0.0027, + "step": 1728 + }, + { + "epoch": 2.3053333333333335, + "grad_norm": 34.2140998840332, + "learning_rate": 4.631111111111111e-06, + "loss": 0.3438, + "step": 1729 + }, + { + "epoch": 2.3066666666666666, + "grad_norm": 181.17352294921875, + "learning_rate": 4.622222222222222e-06, + "loss": 0.2581, + "step": 1730 + }, + { + "epoch": 2.308, + "grad_norm": 0.4199052155017853, + "learning_rate": 4.613333333333334e-06, + "loss": 0.0031, + "step": 1731 + }, + { + "epoch": 2.3093333333333335, + "grad_norm": 121.26686096191406, + "learning_rate": 4.604444444444444e-06, + "loss": 0.0207, + "step": 1732 + }, + { + "epoch": 2.3106666666666666, + "grad_norm": 0.080340176820755, + "learning_rate": 4.595555555555556e-06, + "loss": 0.0014, + "step": 1733 + }, + { + "epoch": 2.312, + "grad_norm": 0.18266764283180237, + "learning_rate": 4.586666666666667e-06, + "loss": 0.0021, + "step": 1734 + }, + { + "epoch": 2.3133333333333335, + "grad_norm": 4.553865432739258, + "learning_rate": 4.5777777777777785e-06, + "loss": 0.5756, + "step": 1735 + }, + { + "epoch": 2.3146666666666667, + "grad_norm": 0.06629786640405655, + "learning_rate": 4.568888888888889e-06, + "loss": 0.0014, + "step": 1736 + }, + { + "epoch": 2.316, + "grad_norm": 0.10123459994792938, + "learning_rate": 4.56e-06, + "loss": 0.0015, + "step": 1737 + }, + { + "epoch": 2.3173333333333335, + "grad_norm": 0.08096358925104141, + "learning_rate": 4.551111111111112e-06, + "loss": 0.0015, + "step": 1738 + }, + { + "epoch": 2.3186666666666667, + "grad_norm": 0.10289773344993591, + "learning_rate": 4.542222222222223e-06, + "loss": 0.0016, + "step": 1739 + }, + { + "epoch": 2.32, + "grad_norm": 0.11124365031719208, + "learning_rate": 4.533333333333334e-06, + "loss": 0.0018, + "step": 1740 + }, + { + "epoch": 2.3213333333333335, + "grad_norm": 0.06092594191431999, + "learning_rate": 4.524444444444444e-06, + "loss": 0.0015, + "step": 1741 + }, + { + "epoch": 2.3226666666666667, + "grad_norm": 0.4326545298099518, + "learning_rate": 4.515555555555556e-06, + "loss": 0.0031, + "step": 1742 + }, + { + "epoch": 2.324, + "grad_norm": 1.2617580890655518, + "learning_rate": 4.506666666666667e-06, + "loss": 0.0098, + "step": 1743 + }, + { + "epoch": 2.3253333333333335, + "grad_norm": 20.635581970214844, + "learning_rate": 4.497777777777778e-06, + "loss": 0.4414, + "step": 1744 + }, + { + "epoch": 2.3266666666666667, + "grad_norm": 0.6578171253204346, + "learning_rate": 4.488888888888889e-06, + "loss": 0.0034, + "step": 1745 + }, + { + "epoch": 2.328, + "grad_norm": 0.8883523344993591, + "learning_rate": 4.48e-06, + "loss": 0.0025, + "step": 1746 + }, + { + "epoch": 2.3293333333333335, + "grad_norm": 0.5177288055419922, + "learning_rate": 4.471111111111112e-06, + "loss": 0.0042, + "step": 1747 + }, + { + "epoch": 2.3306666666666667, + "grad_norm": 25.682659149169922, + "learning_rate": 4.462222222222223e-06, + "loss": 0.6785, + "step": 1748 + }, + { + "epoch": 2.332, + "grad_norm": 0.10977496951818466, + "learning_rate": 4.453333333333334e-06, + "loss": 0.0019, + "step": 1749 + }, + { + "epoch": 2.3333333333333335, + "grad_norm": 63.43288040161133, + "learning_rate": 4.444444444444444e-06, + "loss": 0.4076, + "step": 1750 + }, + { + "epoch": 2.3346666666666667, + "grad_norm": 0.05115994065999985, + "learning_rate": 4.4355555555555555e-06, + "loss": 0.0012, + "step": 1751 + }, + { + "epoch": 2.336, + "grad_norm": 0.28178471326828003, + "learning_rate": 4.426666666666667e-06, + "loss": 0.0023, + "step": 1752 + }, + { + "epoch": 2.3373333333333335, + "grad_norm": 18.69634246826172, + "learning_rate": 4.417777777777778e-06, + "loss": 0.3372, + "step": 1753 + }, + { + "epoch": 2.3386666666666667, + "grad_norm": 0.0775478407740593, + "learning_rate": 4.408888888888889e-06, + "loss": 0.0016, + "step": 1754 + }, + { + "epoch": 2.34, + "grad_norm": 10.243675231933594, + "learning_rate": 4.4e-06, + "loss": 0.4466, + "step": 1755 + }, + { + "epoch": 2.3413333333333335, + "grad_norm": 11.649356842041016, + "learning_rate": 4.391111111111112e-06, + "loss": 0.322, + "step": 1756 + }, + { + "epoch": 2.3426666666666667, + "grad_norm": 19.690580368041992, + "learning_rate": 4.382222222222223e-06, + "loss": 0.5084, + "step": 1757 + }, + { + "epoch": 2.344, + "grad_norm": 0.15616509318351746, + "learning_rate": 4.3733333333333335e-06, + "loss": 0.0015, + "step": 1758 + }, + { + "epoch": 2.3453333333333335, + "grad_norm": 1.23778235912323, + "learning_rate": 4.364444444444445e-06, + "loss": 0.0068, + "step": 1759 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 159.92967224121094, + "learning_rate": 4.3555555555555555e-06, + "loss": 0.0226, + "step": 1760 + }, + { + "epoch": 2.348, + "grad_norm": 31.636642456054688, + "learning_rate": 4.346666666666667e-06, + "loss": 0.0182, + "step": 1761 + }, + { + "epoch": 2.3493333333333335, + "grad_norm": 109.91374206542969, + "learning_rate": 4.337777777777778e-06, + "loss": 0.1709, + "step": 1762 + }, + { + "epoch": 2.3506666666666667, + "grad_norm": 0.7117184996604919, + "learning_rate": 4.328888888888889e-06, + "loss": 0.0025, + "step": 1763 + }, + { + "epoch": 2.352, + "grad_norm": 0.14026616513729095, + "learning_rate": 4.32e-06, + "loss": 0.0017, + "step": 1764 + }, + { + "epoch": 2.3533333333333335, + "grad_norm": 0.18739712238311768, + "learning_rate": 4.3111111111111115e-06, + "loss": 0.0027, + "step": 1765 + }, + { + "epoch": 2.3546666666666667, + "grad_norm": 0.27799907326698303, + "learning_rate": 4.302222222222223e-06, + "loss": 0.003, + "step": 1766 + }, + { + "epoch": 2.356, + "grad_norm": 0.287457674741745, + "learning_rate": 4.2933333333333334e-06, + "loss": 0.0025, + "step": 1767 + }, + { + "epoch": 2.3573333333333335, + "grad_norm": 13.04664134979248, + "learning_rate": 4.284444444444445e-06, + "loss": 0.5108, + "step": 1768 + }, + { + "epoch": 2.3586666666666667, + "grad_norm": 0.41075754165649414, + "learning_rate": 4.275555555555556e-06, + "loss": 0.0043, + "step": 1769 + }, + { + "epoch": 2.36, + "grad_norm": 54.30905532836914, + "learning_rate": 4.266666666666668e-06, + "loss": 0.5805, + "step": 1770 + }, + { + "epoch": 2.3613333333333335, + "grad_norm": 4.4534196853637695, + "learning_rate": 4.257777777777778e-06, + "loss": 0.5629, + "step": 1771 + }, + { + "epoch": 2.3626666666666667, + "grad_norm": 0.19657792150974274, + "learning_rate": 4.248888888888889e-06, + "loss": 0.0023, + "step": 1772 + }, + { + "epoch": 2.364, + "grad_norm": 359.84320068359375, + "learning_rate": 4.24e-06, + "loss": 0.1621, + "step": 1773 + }, + { + "epoch": 2.3653333333333335, + "grad_norm": 21.846397399902344, + "learning_rate": 4.2311111111111114e-06, + "loss": 0.2721, + "step": 1774 + }, + { + "epoch": 2.3666666666666667, + "grad_norm": 0.44062069058418274, + "learning_rate": 4.222222222222223e-06, + "loss": 0.0021, + "step": 1775 + }, + { + "epoch": 2.368, + "grad_norm": 13.766083717346191, + "learning_rate": 4.213333333333333e-06, + "loss": 0.2807, + "step": 1776 + }, + { + "epoch": 2.3693333333333335, + "grad_norm": 2.8081023693084717, + "learning_rate": 4.204444444444445e-06, + "loss": 0.006, + "step": 1777 + }, + { + "epoch": 2.3706666666666667, + "grad_norm": 0.07881367951631546, + "learning_rate": 4.195555555555556e-06, + "loss": 0.0017, + "step": 1778 + }, + { + "epoch": 2.372, + "grad_norm": 25.84630012512207, + "learning_rate": 4.1866666666666675e-06, + "loss": 0.3106, + "step": 1779 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 0.6771817803382874, + "learning_rate": 4.177777777777778e-06, + "loss": 0.0047, + "step": 1780 + }, + { + "epoch": 2.3746666666666667, + "grad_norm": 0.3041621148586273, + "learning_rate": 4.168888888888889e-06, + "loss": 0.0037, + "step": 1781 + }, + { + "epoch": 2.376, + "grad_norm": 0.6001505255699158, + "learning_rate": 4.16e-06, + "loss": 0.004, + "step": 1782 + }, + { + "epoch": 2.3773333333333335, + "grad_norm": 15.100465774536133, + "learning_rate": 4.151111111111111e-06, + "loss": 0.2807, + "step": 1783 + }, + { + "epoch": 2.3786666666666667, + "grad_norm": 35.132083892822266, + "learning_rate": 4.142222222222223e-06, + "loss": 0.0207, + "step": 1784 + }, + { + "epoch": 2.38, + "grad_norm": 14.706690788269043, + "learning_rate": 4.133333333333333e-06, + "loss": 0.4633, + "step": 1785 + }, + { + "epoch": 2.3813333333333335, + "grad_norm": 1.0115078687667847, + "learning_rate": 4.124444444444445e-06, + "loss": 0.0037, + "step": 1786 + }, + { + "epoch": 2.3826666666666667, + "grad_norm": 79.00011444091797, + "learning_rate": 4.115555555555556e-06, + "loss": 1.3766, + "step": 1787 + }, + { + "epoch": 2.384, + "grad_norm": 0.26745185256004333, + "learning_rate": 4.1066666666666674e-06, + "loss": 0.002, + "step": 1788 + }, + { + "epoch": 2.3853333333333335, + "grad_norm": 0.13350717723369598, + "learning_rate": 4.097777777777778e-06, + "loss": 0.0017, + "step": 1789 + }, + { + "epoch": 2.3866666666666667, + "grad_norm": 0.27764496207237244, + "learning_rate": 4.088888888888889e-06, + "loss": 0.0023, + "step": 1790 + }, + { + "epoch": 2.388, + "grad_norm": 1.4851418733596802, + "learning_rate": 4.08e-06, + "loss": 0.0088, + "step": 1791 + }, + { + "epoch": 2.389333333333333, + "grad_norm": 20.063617706298828, + "learning_rate": 4.071111111111111e-06, + "loss": 0.3042, + "step": 1792 + }, + { + "epoch": 2.3906666666666667, + "grad_norm": 0.1378372609615326, + "learning_rate": 4.062222222222223e-06, + "loss": 0.0016, + "step": 1793 + }, + { + "epoch": 2.392, + "grad_norm": 1.1105914115905762, + "learning_rate": 4.053333333333333e-06, + "loss": 0.0062, + "step": 1794 + }, + { + "epoch": 2.3933333333333335, + "grad_norm": 0.14371660351753235, + "learning_rate": 4.044444444444445e-06, + "loss": 0.0018, + "step": 1795 + }, + { + "epoch": 2.3946666666666667, + "grad_norm": 0.24174454808235168, + "learning_rate": 4.035555555555556e-06, + "loss": 0.0017, + "step": 1796 + }, + { + "epoch": 2.396, + "grad_norm": 11.915238380432129, + "learning_rate": 4.026666666666667e-06, + "loss": 0.4528, + "step": 1797 + }, + { + "epoch": 2.397333333333333, + "grad_norm": 0.3283282518386841, + "learning_rate": 4.017777777777778e-06, + "loss": 0.0028, + "step": 1798 + }, + { + "epoch": 2.3986666666666667, + "grad_norm": 7.035996437072754, + "learning_rate": 4.008888888888889e-06, + "loss": 0.005, + "step": 1799 + }, + { + "epoch": 2.4, + "grad_norm": 0.4672723710536957, + "learning_rate": 4.000000000000001e-06, + "loss": 0.0039, + "step": 1800 + }, + { + "epoch": 2.4013333333333335, + "grad_norm": 2.087583065032959, + "learning_rate": 3.991111111111112e-06, + "loss": 0.007, + "step": 1801 + }, + { + "epoch": 2.4026666666666667, + "grad_norm": 261.5857849121094, + "learning_rate": 3.982222222222223e-06, + "loss": 0.6829, + "step": 1802 + }, + { + "epoch": 2.404, + "grad_norm": 23.626340866088867, + "learning_rate": 3.973333333333333e-06, + "loss": 0.3477, + "step": 1803 + }, + { + "epoch": 2.405333333333333, + "grad_norm": 0.16109661757946014, + "learning_rate": 3.9644444444444445e-06, + "loss": 0.0019, + "step": 1804 + }, + { + "epoch": 2.4066666666666667, + "grad_norm": 0.4556334316730499, + "learning_rate": 3.955555555555556e-06, + "loss": 0.0045, + "step": 1805 + }, + { + "epoch": 2.408, + "grad_norm": 14.570972442626953, + "learning_rate": 3.946666666666667e-06, + "loss": 0.2835, + "step": 1806 + }, + { + "epoch": 2.4093333333333335, + "grad_norm": 0.09773216396570206, + "learning_rate": 3.937777777777778e-06, + "loss": 0.0019, + "step": 1807 + }, + { + "epoch": 2.4106666666666667, + "grad_norm": 0.24031034111976624, + "learning_rate": 3.928888888888889e-06, + "loss": 0.0033, + "step": 1808 + }, + { + "epoch": 2.412, + "grad_norm": 0.22704632580280304, + "learning_rate": 3.920000000000001e-06, + "loss": 0.0023, + "step": 1809 + }, + { + "epoch": 2.413333333333333, + "grad_norm": 0.1666945219039917, + "learning_rate": 3.911111111111112e-06, + "loss": 0.0024, + "step": 1810 + }, + { + "epoch": 2.4146666666666667, + "grad_norm": 0.1021055057644844, + "learning_rate": 3.9022222222222225e-06, + "loss": 0.0016, + "step": 1811 + }, + { + "epoch": 2.416, + "grad_norm": 0.9148178100585938, + "learning_rate": 3.893333333333333e-06, + "loss": 0.0025, + "step": 1812 + }, + { + "epoch": 2.4173333333333336, + "grad_norm": 16.268497467041016, + "learning_rate": 3.8844444444444444e-06, + "loss": 0.3959, + "step": 1813 + }, + { + "epoch": 2.4186666666666667, + "grad_norm": 0.13017144799232483, + "learning_rate": 3.875555555555556e-06, + "loss": 0.0018, + "step": 1814 + }, + { + "epoch": 2.42, + "grad_norm": 0.5480591058731079, + "learning_rate": 3.866666666666667e-06, + "loss": 0.0036, + "step": 1815 + }, + { + "epoch": 2.421333333333333, + "grad_norm": 0.5999335050582886, + "learning_rate": 3.857777777777778e-06, + "loss": 0.0025, + "step": 1816 + }, + { + "epoch": 2.4226666666666667, + "grad_norm": 0.21566931903362274, + "learning_rate": 3.848888888888889e-06, + "loss": 0.0022, + "step": 1817 + }, + { + "epoch": 2.424, + "grad_norm": 0.079446941614151, + "learning_rate": 3.8400000000000005e-06, + "loss": 0.0016, + "step": 1818 + }, + { + "epoch": 2.4253333333333336, + "grad_norm": 1.1842093467712402, + "learning_rate": 3.831111111111112e-06, + "loss": 0.0071, + "step": 1819 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 8.918035507202148, + "learning_rate": 3.8222222222222224e-06, + "loss": 0.2463, + "step": 1820 + }, + { + "epoch": 2.428, + "grad_norm": 0.16520477831363678, + "learning_rate": 3.813333333333334e-06, + "loss": 0.0018, + "step": 1821 + }, + { + "epoch": 2.429333333333333, + "grad_norm": 0.135543555021286, + "learning_rate": 3.8044444444444443e-06, + "loss": 0.0019, + "step": 1822 + }, + { + "epoch": 2.4306666666666668, + "grad_norm": 0.11920886486768723, + "learning_rate": 3.7955555555555557e-06, + "loss": 0.0014, + "step": 1823 + }, + { + "epoch": 2.432, + "grad_norm": 0.500735342502594, + "learning_rate": 3.7866666666666667e-06, + "loss": 0.0024, + "step": 1824 + }, + { + "epoch": 2.4333333333333336, + "grad_norm": 38.58439254760742, + "learning_rate": 3.777777777777778e-06, + "loss": 0.5065, + "step": 1825 + }, + { + "epoch": 2.4346666666666668, + "grad_norm": 11.654443740844727, + "learning_rate": 3.768888888888889e-06, + "loss": 0.5902, + "step": 1826 + }, + { + "epoch": 2.436, + "grad_norm": 0.2909482419490814, + "learning_rate": 3.7600000000000004e-06, + "loss": 0.0022, + "step": 1827 + }, + { + "epoch": 2.437333333333333, + "grad_norm": 0.6268947124481201, + "learning_rate": 3.7511111111111114e-06, + "loss": 0.0026, + "step": 1828 + }, + { + "epoch": 2.4386666666666668, + "grad_norm": 61.73165512084961, + "learning_rate": 3.7422222222222228e-06, + "loss": 0.4119, + "step": 1829 + }, + { + "epoch": 2.44, + "grad_norm": 34.5088005065918, + "learning_rate": 3.7333333333333337e-06, + "loss": 0.7792, + "step": 1830 + }, + { + "epoch": 2.4413333333333336, + "grad_norm": 118.99336242675781, + "learning_rate": 3.724444444444445e-06, + "loss": 0.2102, + "step": 1831 + }, + { + "epoch": 2.4426666666666668, + "grad_norm": 281.47149658203125, + "learning_rate": 3.7155555555555557e-06, + "loss": 0.1893, + "step": 1832 + }, + { + "epoch": 2.444, + "grad_norm": 0.1345098465681076, + "learning_rate": 3.7066666666666666e-06, + "loss": 0.0016, + "step": 1833 + }, + { + "epoch": 2.445333333333333, + "grad_norm": 0.05043111369013786, + "learning_rate": 3.697777777777778e-06, + "loss": 0.0012, + "step": 1834 + }, + { + "epoch": 2.4466666666666668, + "grad_norm": 0.11246661841869354, + "learning_rate": 3.688888888888889e-06, + "loss": 0.0014, + "step": 1835 + }, + { + "epoch": 2.448, + "grad_norm": 0.2934724986553192, + "learning_rate": 3.6800000000000003e-06, + "loss": 0.002, + "step": 1836 + }, + { + "epoch": 2.449333333333333, + "grad_norm": 0.12061769515275955, + "learning_rate": 3.6711111111111113e-06, + "loss": 0.0015, + "step": 1837 + }, + { + "epoch": 2.4506666666666668, + "grad_norm": 0.7441300749778748, + "learning_rate": 3.6622222222222227e-06, + "loss": 0.0038, + "step": 1838 + }, + { + "epoch": 2.452, + "grad_norm": 0.05050649121403694, + "learning_rate": 3.6533333333333336e-06, + "loss": 0.0012, + "step": 1839 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 15.747929573059082, + "learning_rate": 3.644444444444445e-06, + "loss": 0.2922, + "step": 1840 + }, + { + "epoch": 2.4546666666666668, + "grad_norm": 0.06085015833377838, + "learning_rate": 3.635555555555556e-06, + "loss": 0.0012, + "step": 1841 + }, + { + "epoch": 2.456, + "grad_norm": 0.07116006314754486, + "learning_rate": 3.6266666666666674e-06, + "loss": 0.0012, + "step": 1842 + }, + { + "epoch": 2.457333333333333, + "grad_norm": 0.28556379675865173, + "learning_rate": 3.617777777777778e-06, + "loss": 0.002, + "step": 1843 + }, + { + "epoch": 2.458666666666667, + "grad_norm": 0.07031106948852539, + "learning_rate": 3.608888888888889e-06, + "loss": 0.0013, + "step": 1844 + }, + { + "epoch": 2.46, + "grad_norm": 0.06889360398054123, + "learning_rate": 3.6000000000000003e-06, + "loss": 0.001, + "step": 1845 + }, + { + "epoch": 2.461333333333333, + "grad_norm": 18.1779842376709, + "learning_rate": 3.5911111111111112e-06, + "loss": 0.5432, + "step": 1846 + }, + { + "epoch": 2.462666666666667, + "grad_norm": 0.1210639700293541, + "learning_rate": 3.5822222222222226e-06, + "loss": 0.0016, + "step": 1847 + }, + { + "epoch": 2.464, + "grad_norm": 0.27117788791656494, + "learning_rate": 3.5733333333333336e-06, + "loss": 0.002, + "step": 1848 + }, + { + "epoch": 2.465333333333333, + "grad_norm": 0.3998074233531952, + "learning_rate": 3.564444444444445e-06, + "loss": 0.0025, + "step": 1849 + }, + { + "epoch": 2.466666666666667, + "grad_norm": 1.1676098108291626, + "learning_rate": 3.555555555555556e-06, + "loss": 0.0037, + "step": 1850 + }, + { + "epoch": 2.468, + "grad_norm": 3.256704330444336, + "learning_rate": 3.5466666666666673e-06, + "loss": 0.011, + "step": 1851 + }, + { + "epoch": 2.469333333333333, + "grad_norm": 0.16429099440574646, + "learning_rate": 3.5377777777777783e-06, + "loss": 0.0012, + "step": 1852 + }, + { + "epoch": 2.470666666666667, + "grad_norm": 0.046634260565042496, + "learning_rate": 3.528888888888889e-06, + "loss": 0.0011, + "step": 1853 + }, + { + "epoch": 2.472, + "grad_norm": 0.04154046252369881, + "learning_rate": 3.52e-06, + "loss": 0.001, + "step": 1854 + }, + { + "epoch": 2.473333333333333, + "grad_norm": 0.18796555697917938, + "learning_rate": 3.511111111111111e-06, + "loss": 0.0018, + "step": 1855 + }, + { + "epoch": 2.474666666666667, + "grad_norm": 71.94242095947266, + "learning_rate": 3.5022222222222225e-06, + "loss": 1.006, + "step": 1856 + }, + { + "epoch": 2.476, + "grad_norm": 0.05480223894119263, + "learning_rate": 3.4933333333333335e-06, + "loss": 0.001, + "step": 1857 + }, + { + "epoch": 2.477333333333333, + "grad_norm": 0.0844646766781807, + "learning_rate": 3.484444444444445e-06, + "loss": 0.0012, + "step": 1858 + }, + { + "epoch": 2.478666666666667, + "grad_norm": 0.030540289357304573, + "learning_rate": 3.475555555555556e-06, + "loss": 0.0008, + "step": 1859 + }, + { + "epoch": 2.48, + "grad_norm": 27.8427677154541, + "learning_rate": 3.4666666666666672e-06, + "loss": 0.4181, + "step": 1860 + }, + { + "epoch": 2.481333333333333, + "grad_norm": 0.09119343012571335, + "learning_rate": 3.457777777777778e-06, + "loss": 0.0012, + "step": 1861 + }, + { + "epoch": 2.482666666666667, + "grad_norm": 0.8133105039596558, + "learning_rate": 3.4488888888888896e-06, + "loss": 0.0031, + "step": 1862 + }, + { + "epoch": 2.484, + "grad_norm": 1.240777850151062, + "learning_rate": 3.44e-06, + "loss": 0.0027, + "step": 1863 + }, + { + "epoch": 2.485333333333333, + "grad_norm": 0.08648381382226944, + "learning_rate": 3.431111111111111e-06, + "loss": 0.0012, + "step": 1864 + }, + { + "epoch": 2.486666666666667, + "grad_norm": 0.06137321516871452, + "learning_rate": 3.4222222222222224e-06, + "loss": 0.0011, + "step": 1865 + }, + { + "epoch": 2.488, + "grad_norm": 0.06851860135793686, + "learning_rate": 3.4133333333333334e-06, + "loss": 0.0009, + "step": 1866 + }, + { + "epoch": 2.489333333333333, + "grad_norm": 0.032066989690065384, + "learning_rate": 3.404444444444445e-06, + "loss": 0.0009, + "step": 1867 + }, + { + "epoch": 2.490666666666667, + "grad_norm": 0.05578630417585373, + "learning_rate": 3.3955555555555558e-06, + "loss": 0.0009, + "step": 1868 + }, + { + "epoch": 2.492, + "grad_norm": 1.1876713037490845, + "learning_rate": 3.386666666666667e-06, + "loss": 0.0031, + "step": 1869 + }, + { + "epoch": 2.493333333333333, + "grad_norm": 0.4410512149333954, + "learning_rate": 3.377777777777778e-06, + "loss": 0.0019, + "step": 1870 + }, + { + "epoch": 2.494666666666667, + "grad_norm": 0.14445507526397705, + "learning_rate": 3.3688888888888895e-06, + "loss": 0.0013, + "step": 1871 + }, + { + "epoch": 2.496, + "grad_norm": 0.04805548116564751, + "learning_rate": 3.3600000000000004e-06, + "loss": 0.001, + "step": 1872 + }, + { + "epoch": 2.497333333333333, + "grad_norm": 12.59831714630127, + "learning_rate": 3.351111111111112e-06, + "loss": 0.4106, + "step": 1873 + }, + { + "epoch": 2.498666666666667, + "grad_norm": 0.07521210610866547, + "learning_rate": 3.3422222222222224e-06, + "loss": 0.0011, + "step": 1874 + }, + { + "epoch": 2.5, + "grad_norm": 0.07571124285459518, + "learning_rate": 3.3333333333333333e-06, + "loss": 0.0012, + "step": 1875 + }, + { + "epoch": 2.501333333333333, + "grad_norm": 20.84877586364746, + "learning_rate": 3.3244444444444447e-06, + "loss": 0.3988, + "step": 1876 + }, + { + "epoch": 2.502666666666667, + "grad_norm": 0.1732233613729477, + "learning_rate": 3.3155555555555557e-06, + "loss": 0.0015, + "step": 1877 + }, + { + "epoch": 2.504, + "grad_norm": 26.7326717376709, + "learning_rate": 3.306666666666667e-06, + "loss": 0.3458, + "step": 1878 + }, + { + "epoch": 2.505333333333333, + "grad_norm": 0.3162992596626282, + "learning_rate": 3.297777777777778e-06, + "loss": 0.0018, + "step": 1879 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 0.341617614030838, + "learning_rate": 3.2888888888888894e-06, + "loss": 0.0013, + "step": 1880 + }, + { + "epoch": 2.508, + "grad_norm": 19.426013946533203, + "learning_rate": 3.2800000000000004e-06, + "loss": 0.4564, + "step": 1881 + }, + { + "epoch": 2.509333333333333, + "grad_norm": 57.20158386230469, + "learning_rate": 3.2711111111111117e-06, + "loss": 0.4263, + "step": 1882 + }, + { + "epoch": 2.510666666666667, + "grad_norm": 0.05310586467385292, + "learning_rate": 3.2622222222222227e-06, + "loss": 0.001, + "step": 1883 + }, + { + "epoch": 2.512, + "grad_norm": 0.028105348348617554, + "learning_rate": 3.2533333333333332e-06, + "loss": 0.0008, + "step": 1884 + }, + { + "epoch": 2.513333333333333, + "grad_norm": 0.24613632261753082, + "learning_rate": 3.2444444444444446e-06, + "loss": 0.001, + "step": 1885 + }, + { + "epoch": 2.514666666666667, + "grad_norm": 0.34241244196891785, + "learning_rate": 3.2355555555555556e-06, + "loss": 0.0017, + "step": 1886 + }, + { + "epoch": 2.516, + "grad_norm": 0.481516033411026, + "learning_rate": 3.226666666666667e-06, + "loss": 0.0026, + "step": 1887 + }, + { + "epoch": 2.517333333333333, + "grad_norm": 35.64033889770508, + "learning_rate": 3.217777777777778e-06, + "loss": 0.0072, + "step": 1888 + }, + { + "epoch": 2.518666666666667, + "grad_norm": 32.972904205322266, + "learning_rate": 3.2088888888888893e-06, + "loss": 0.29, + "step": 1889 + }, + { + "epoch": 2.52, + "grad_norm": 0.2047206610441208, + "learning_rate": 3.2000000000000003e-06, + "loss": 0.0012, + "step": 1890 + }, + { + "epoch": 2.521333333333333, + "grad_norm": 11.660191535949707, + "learning_rate": 3.1911111111111117e-06, + "loss": 0.5633, + "step": 1891 + }, + { + "epoch": 2.522666666666667, + "grad_norm": 0.08394560217857361, + "learning_rate": 3.1822222222222226e-06, + "loss": 0.001, + "step": 1892 + }, + { + "epoch": 2.524, + "grad_norm": 188.54885864257812, + "learning_rate": 3.173333333333334e-06, + "loss": 0.0795, + "step": 1893 + }, + { + "epoch": 2.525333333333333, + "grad_norm": 69.96046447753906, + "learning_rate": 3.1644444444444445e-06, + "loss": 0.8155, + "step": 1894 + }, + { + "epoch": 2.5266666666666664, + "grad_norm": 0.04257004335522652, + "learning_rate": 3.1555555555555555e-06, + "loss": 0.0009, + "step": 1895 + }, + { + "epoch": 2.528, + "grad_norm": 0.10323705524206161, + "learning_rate": 3.146666666666667e-06, + "loss": 0.0013, + "step": 1896 + }, + { + "epoch": 2.529333333333333, + "grad_norm": 0.05758040025830269, + "learning_rate": 3.137777777777778e-06, + "loss": 0.0009, + "step": 1897 + }, + { + "epoch": 2.530666666666667, + "grad_norm": 0.21205760538578033, + "learning_rate": 3.1288888888888892e-06, + "loss": 0.0014, + "step": 1898 + }, + { + "epoch": 2.532, + "grad_norm": 0.19255536794662476, + "learning_rate": 3.12e-06, + "loss": 0.001, + "step": 1899 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 20.38950538635254, + "learning_rate": 3.1111111111111116e-06, + "loss": 0.3408, + "step": 1900 + }, + { + "epoch": 2.5346666666666664, + "grad_norm": 34.56321334838867, + "learning_rate": 3.1022222222222225e-06, + "loss": 0.4352, + "step": 1901 + }, + { + "epoch": 2.536, + "grad_norm": 39.32768249511719, + "learning_rate": 3.093333333333334e-06, + "loss": 0.0123, + "step": 1902 + }, + { + "epoch": 2.537333333333333, + "grad_norm": 0.059501923620700836, + "learning_rate": 3.084444444444445e-06, + "loss": 0.0009, + "step": 1903 + }, + { + "epoch": 2.538666666666667, + "grad_norm": 0.10156462341547012, + "learning_rate": 3.0755555555555563e-06, + "loss": 0.001, + "step": 1904 + }, + { + "epoch": 2.54, + "grad_norm": 1.8126550912857056, + "learning_rate": 3.066666666666667e-06, + "loss": 0.005, + "step": 1905 + }, + { + "epoch": 2.541333333333333, + "grad_norm": 0.12126785516738892, + "learning_rate": 3.0577777777777778e-06, + "loss": 0.0014, + "step": 1906 + }, + { + "epoch": 2.5426666666666664, + "grad_norm": 0.04743368178606033, + "learning_rate": 3.048888888888889e-06, + "loss": 0.0009, + "step": 1907 + }, + { + "epoch": 2.544, + "grad_norm": 75.5179443359375, + "learning_rate": 3.04e-06, + "loss": 0.772, + "step": 1908 + }, + { + "epoch": 2.5453333333333332, + "grad_norm": 0.034393638372421265, + "learning_rate": 3.0311111111111115e-06, + "loss": 0.0008, + "step": 1909 + }, + { + "epoch": 2.546666666666667, + "grad_norm": 21.89259910583496, + "learning_rate": 3.0222222222222225e-06, + "loss": 0.3417, + "step": 1910 + }, + { + "epoch": 2.548, + "grad_norm": 0.153248131275177, + "learning_rate": 3.013333333333334e-06, + "loss": 0.0012, + "step": 1911 + }, + { + "epoch": 2.5493333333333332, + "grad_norm": 2.940093517303467, + "learning_rate": 3.004444444444445e-06, + "loss": 0.0084, + "step": 1912 + }, + { + "epoch": 2.5506666666666664, + "grad_norm": 0.28845974802970886, + "learning_rate": 2.995555555555556e-06, + "loss": 0.0016, + "step": 1913 + }, + { + "epoch": 2.552, + "grad_norm": 0.04893907904624939, + "learning_rate": 2.986666666666667e-06, + "loss": 0.0009, + "step": 1914 + }, + { + "epoch": 2.5533333333333332, + "grad_norm": 3.474252223968506, + "learning_rate": 2.9777777777777777e-06, + "loss": 0.0075, + "step": 1915 + }, + { + "epoch": 2.554666666666667, + "grad_norm": 0.025650450959801674, + "learning_rate": 2.968888888888889e-06, + "loss": 0.0007, + "step": 1916 + }, + { + "epoch": 2.556, + "grad_norm": 0.2150852233171463, + "learning_rate": 2.96e-06, + "loss": 0.0016, + "step": 1917 + }, + { + "epoch": 2.5573333333333332, + "grad_norm": 1.3638215065002441, + "learning_rate": 2.9511111111111114e-06, + "loss": 0.002, + "step": 1918 + }, + { + "epoch": 2.5586666666666664, + "grad_norm": 31.07931900024414, + "learning_rate": 2.9422222222222224e-06, + "loss": 0.2902, + "step": 1919 + }, + { + "epoch": 2.56, + "grad_norm": 16.93108367919922, + "learning_rate": 2.9333333333333338e-06, + "loss": 0.3169, + "step": 1920 + }, + { + "epoch": 2.5613333333333332, + "grad_norm": 0.02582014538347721, + "learning_rate": 2.9244444444444447e-06, + "loss": 0.0007, + "step": 1921 + }, + { + "epoch": 2.562666666666667, + "grad_norm": 0.07840945571660995, + "learning_rate": 2.915555555555556e-06, + "loss": 0.0015, + "step": 1922 + }, + { + "epoch": 2.564, + "grad_norm": 112.54307556152344, + "learning_rate": 2.906666666666667e-06, + "loss": 0.2615, + "step": 1923 + }, + { + "epoch": 2.5653333333333332, + "grad_norm": 34.196533203125, + "learning_rate": 2.8977777777777785e-06, + "loss": 0.271, + "step": 1924 + }, + { + "epoch": 2.5666666666666664, + "grad_norm": 10.024101257324219, + "learning_rate": 2.888888888888889e-06, + "loss": 0.3461, + "step": 1925 + }, + { + "epoch": 2.568, + "grad_norm": 0.3223095238208771, + "learning_rate": 2.88e-06, + "loss": 0.0023, + "step": 1926 + }, + { + "epoch": 2.5693333333333332, + "grad_norm": 0.104983851313591, + "learning_rate": 2.8711111111111113e-06, + "loss": 0.0011, + "step": 1927 + }, + { + "epoch": 2.570666666666667, + "grad_norm": 0.4875829517841339, + "learning_rate": 2.8622222222222223e-06, + "loss": 0.0027, + "step": 1928 + }, + { + "epoch": 2.572, + "grad_norm": 0.09309233725070953, + "learning_rate": 2.8533333333333337e-06, + "loss": 0.0013, + "step": 1929 + }, + { + "epoch": 2.5733333333333333, + "grad_norm": 32.31616973876953, + "learning_rate": 2.8444444444444446e-06, + "loss": 0.0096, + "step": 1930 + }, + { + "epoch": 2.5746666666666664, + "grad_norm": 67.84366607666016, + "learning_rate": 2.835555555555556e-06, + "loss": 0.3107, + "step": 1931 + }, + { + "epoch": 2.576, + "grad_norm": 25.00774574279785, + "learning_rate": 2.826666666666667e-06, + "loss": 0.0171, + "step": 1932 + }, + { + "epoch": 2.5773333333333333, + "grad_norm": 0.0333235040307045, + "learning_rate": 2.8177777777777784e-06, + "loss": 0.0007, + "step": 1933 + }, + { + "epoch": 2.578666666666667, + "grad_norm": 34.50929641723633, + "learning_rate": 2.8088888888888893e-06, + "loss": 0.5174, + "step": 1934 + }, + { + "epoch": 2.58, + "grad_norm": 0.022948896512389183, + "learning_rate": 2.8000000000000003e-06, + "loss": 0.0007, + "step": 1935 + }, + { + "epoch": 2.5813333333333333, + "grad_norm": 136.189697265625, + "learning_rate": 2.7911111111111113e-06, + "loss": 0.0782, + "step": 1936 + }, + { + "epoch": 2.5826666666666664, + "grad_norm": 41.08842468261719, + "learning_rate": 2.7822222222222222e-06, + "loss": 0.5703, + "step": 1937 + }, + { + "epoch": 2.584, + "grad_norm": 0.22432826459407806, + "learning_rate": 2.7733333333333336e-06, + "loss": 0.0011, + "step": 1938 + }, + { + "epoch": 2.5853333333333333, + "grad_norm": 0.09551971405744553, + "learning_rate": 2.7644444444444446e-06, + "loss": 0.0008, + "step": 1939 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 0.15356896817684174, + "learning_rate": 2.755555555555556e-06, + "loss": 0.0013, + "step": 1940 + }, + { + "epoch": 2.588, + "grad_norm": 26.599992752075195, + "learning_rate": 2.746666666666667e-06, + "loss": 0.5158, + "step": 1941 + }, + { + "epoch": 2.5893333333333333, + "grad_norm": 0.5443595051765442, + "learning_rate": 2.7377777777777783e-06, + "loss": 0.0029, + "step": 1942 + }, + { + "epoch": 2.5906666666666665, + "grad_norm": 0.18643257021903992, + "learning_rate": 2.7288888888888893e-06, + "loss": 0.0011, + "step": 1943 + }, + { + "epoch": 2.592, + "grad_norm": 0.9232782125473022, + "learning_rate": 2.7200000000000002e-06, + "loss": 0.0054, + "step": 1944 + }, + { + "epoch": 2.5933333333333333, + "grad_norm": 0.04381855949759483, + "learning_rate": 2.7111111111111116e-06, + "loss": 0.0008, + "step": 1945 + }, + { + "epoch": 2.594666666666667, + "grad_norm": 0.5463845729827881, + "learning_rate": 2.702222222222222e-06, + "loss": 0.0023, + "step": 1946 + }, + { + "epoch": 2.596, + "grad_norm": 0.9881284832954407, + "learning_rate": 2.6933333333333335e-06, + "loss": 0.0034, + "step": 1947 + }, + { + "epoch": 2.5973333333333333, + "grad_norm": 0.9847744703292847, + "learning_rate": 2.6844444444444445e-06, + "loss": 0.0077, + "step": 1948 + }, + { + "epoch": 2.5986666666666665, + "grad_norm": 0.5903966426849365, + "learning_rate": 2.675555555555556e-06, + "loss": 0.0027, + "step": 1949 + }, + { + "epoch": 2.6, + "grad_norm": 0.7382383942604065, + "learning_rate": 2.666666666666667e-06, + "loss": 0.0033, + "step": 1950 + }, + { + "epoch": 2.6013333333333333, + "grad_norm": 0.36228543519973755, + "learning_rate": 2.6577777777777782e-06, + "loss": 0.0018, + "step": 1951 + }, + { + "epoch": 2.602666666666667, + "grad_norm": 0.060839567333459854, + "learning_rate": 2.648888888888889e-06, + "loss": 0.0009, + "step": 1952 + }, + { + "epoch": 2.604, + "grad_norm": 0.6796699166297913, + "learning_rate": 2.64e-06, + "loss": 0.0035, + "step": 1953 + }, + { + "epoch": 2.6053333333333333, + "grad_norm": 424.1743469238281, + "learning_rate": 2.6311111111111115e-06, + "loss": 0.3576, + "step": 1954 + }, + { + "epoch": 2.6066666666666665, + "grad_norm": 0.02400687150657177, + "learning_rate": 2.6222222222222225e-06, + "loss": 0.0007, + "step": 1955 + }, + { + "epoch": 2.608, + "grad_norm": 0.6305756568908691, + "learning_rate": 2.6133333333333334e-06, + "loss": 0.0023, + "step": 1956 + }, + { + "epoch": 2.6093333333333333, + "grad_norm": 0.025760751217603683, + "learning_rate": 2.6044444444444444e-06, + "loss": 0.0006, + "step": 1957 + }, + { + "epoch": 2.610666666666667, + "grad_norm": 17.88193702697754, + "learning_rate": 2.5955555555555558e-06, + "loss": 0.4505, + "step": 1958 + }, + { + "epoch": 2.612, + "grad_norm": 0.09291265159845352, + "learning_rate": 2.5866666666666667e-06, + "loss": 0.0008, + "step": 1959 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 31.135175704956055, + "learning_rate": 2.577777777777778e-06, + "loss": 0.3335, + "step": 1960 + }, + { + "epoch": 2.6146666666666665, + "grad_norm": 0.06482958048582077, + "learning_rate": 2.568888888888889e-06, + "loss": 0.0008, + "step": 1961 + }, + { + "epoch": 2.616, + "grad_norm": 0.053908973932266235, + "learning_rate": 2.56e-06, + "loss": 0.0007, + "step": 1962 + }, + { + "epoch": 2.6173333333333333, + "grad_norm": 0.02258874848484993, + "learning_rate": 2.5511111111111114e-06, + "loss": 0.0006, + "step": 1963 + }, + { + "epoch": 2.618666666666667, + "grad_norm": 0.027003491297364235, + "learning_rate": 2.5422222222222224e-06, + "loss": 0.0007, + "step": 1964 + }, + { + "epoch": 2.62, + "grad_norm": 0.039257701486349106, + "learning_rate": 2.5333333333333338e-06, + "loss": 0.0008, + "step": 1965 + }, + { + "epoch": 2.6213333333333333, + "grad_norm": 14.575213432312012, + "learning_rate": 2.5244444444444447e-06, + "loss": 0.2691, + "step": 1966 + }, + { + "epoch": 2.6226666666666665, + "grad_norm": 0.18351159989833832, + "learning_rate": 2.5155555555555557e-06, + "loss": 0.0012, + "step": 1967 + }, + { + "epoch": 2.624, + "grad_norm": 1.0482378005981445, + "learning_rate": 2.5066666666666667e-06, + "loss": 0.0019, + "step": 1968 + }, + { + "epoch": 2.6253333333333333, + "grad_norm": 29.334129333496094, + "learning_rate": 2.497777777777778e-06, + "loss": 0.8346, + "step": 1969 + }, + { + "epoch": 2.626666666666667, + "grad_norm": 20.156723022460938, + "learning_rate": 2.488888888888889e-06, + "loss": 0.4492, + "step": 1970 + }, + { + "epoch": 2.628, + "grad_norm": 15.501256942749023, + "learning_rate": 2.4800000000000004e-06, + "loss": 0.5558, + "step": 1971 + }, + { + "epoch": 2.6293333333333333, + "grad_norm": 0.10395969450473785, + "learning_rate": 2.4711111111111114e-06, + "loss": 0.0014, + "step": 1972 + }, + { + "epoch": 2.6306666666666665, + "grad_norm": 0.13458843529224396, + "learning_rate": 2.4622222222222223e-06, + "loss": 0.0015, + "step": 1973 + }, + { + "epoch": 2.632, + "grad_norm": 0.06129691004753113, + "learning_rate": 2.4533333333333333e-06, + "loss": 0.0009, + "step": 1974 + }, + { + "epoch": 2.6333333333333333, + "grad_norm": 5.975092887878418, + "learning_rate": 2.4444444444444447e-06, + "loss": 0.5752, + "step": 1975 + }, + { + "epoch": 2.634666666666667, + "grad_norm": 0.09973961114883423, + "learning_rate": 2.4355555555555556e-06, + "loss": 0.0011, + "step": 1976 + }, + { + "epoch": 2.636, + "grad_norm": 18.45016098022461, + "learning_rate": 2.426666666666667e-06, + "loss": 0.2972, + "step": 1977 + }, + { + "epoch": 2.6373333333333333, + "grad_norm": 26.60733413696289, + "learning_rate": 2.417777777777778e-06, + "loss": 0.2778, + "step": 1978 + }, + { + "epoch": 2.6386666666666665, + "grad_norm": 19.36882209777832, + "learning_rate": 2.4088888888888894e-06, + "loss": 0.3741, + "step": 1979 + }, + { + "epoch": 2.64, + "grad_norm": 0.9165293574333191, + "learning_rate": 2.4000000000000003e-06, + "loss": 0.0032, + "step": 1980 + }, + { + "epoch": 2.6413333333333333, + "grad_norm": 5.486056327819824, + "learning_rate": 2.3911111111111113e-06, + "loss": 0.0042, + "step": 1981 + }, + { + "epoch": 2.642666666666667, + "grad_norm": 0.09699372202157974, + "learning_rate": 2.3822222222222222e-06, + "loss": 0.0011, + "step": 1982 + }, + { + "epoch": 2.644, + "grad_norm": 28.31745147705078, + "learning_rate": 2.3733333333333336e-06, + "loss": 0.473, + "step": 1983 + }, + { + "epoch": 2.6453333333333333, + "grad_norm": 0.6403010487556458, + "learning_rate": 2.3644444444444446e-06, + "loss": 0.0033, + "step": 1984 + }, + { + "epoch": 2.6466666666666665, + "grad_norm": 1.6117019653320312, + "learning_rate": 2.3555555555555555e-06, + "loss": 0.0025, + "step": 1985 + }, + { + "epoch": 2.648, + "grad_norm": 0.029221735894680023, + "learning_rate": 2.346666666666667e-06, + "loss": 0.0007, + "step": 1986 + }, + { + "epoch": 2.6493333333333333, + "grad_norm": 0.4620104730129242, + "learning_rate": 2.337777777777778e-06, + "loss": 0.0023, + "step": 1987 + }, + { + "epoch": 2.6506666666666665, + "grad_norm": 0.0566440112888813, + "learning_rate": 2.3288888888888893e-06, + "loss": 0.0009, + "step": 1988 + }, + { + "epoch": 2.652, + "grad_norm": 1.1022495031356812, + "learning_rate": 2.3200000000000002e-06, + "loss": 0.0068, + "step": 1989 + }, + { + "epoch": 2.6533333333333333, + "grad_norm": 0.04288827255368233, + "learning_rate": 2.311111111111111e-06, + "loss": 0.0009, + "step": 1990 + }, + { + "epoch": 2.6546666666666665, + "grad_norm": 0.46654799580574036, + "learning_rate": 2.302222222222222e-06, + "loss": 0.0036, + "step": 1991 + }, + { + "epoch": 2.656, + "grad_norm": 0.02351350523531437, + "learning_rate": 2.2933333333333335e-06, + "loss": 0.0007, + "step": 1992 + }, + { + "epoch": 2.6573333333333333, + "grad_norm": 46.04145431518555, + "learning_rate": 2.2844444444444445e-06, + "loss": 0.6385, + "step": 1993 + }, + { + "epoch": 2.6586666666666665, + "grad_norm": 0.12542672455310822, + "learning_rate": 2.275555555555556e-06, + "loss": 0.0013, + "step": 1994 + }, + { + "epoch": 2.66, + "grad_norm": 25.120500564575195, + "learning_rate": 2.266666666666667e-06, + "loss": 0.4634, + "step": 1995 + }, + { + "epoch": 2.6613333333333333, + "grad_norm": 55.31260681152344, + "learning_rate": 2.257777777777778e-06, + "loss": 0.9945, + "step": 1996 + }, + { + "epoch": 2.6626666666666665, + "grad_norm": 0.03322829306125641, + "learning_rate": 2.248888888888889e-06, + "loss": 0.0007, + "step": 1997 + }, + { + "epoch": 2.664, + "grad_norm": 0.0417759083211422, + "learning_rate": 2.24e-06, + "loss": 0.0008, + "step": 1998 + }, + { + "epoch": 2.6653333333333333, + "grad_norm": 22.63526153564453, + "learning_rate": 2.2311111111111115e-06, + "loss": 0.2392, + "step": 1999 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 0.2919301390647888, + "learning_rate": 2.222222222222222e-06, + "loss": 0.0017, + "step": 2000 + }, + { + "epoch": 2.668, + "grad_norm": 0.13257953524589539, + "learning_rate": 2.2133333333333335e-06, + "loss": 0.001, + "step": 2001 + }, + { + "epoch": 2.6693333333333333, + "grad_norm": 38.166900634765625, + "learning_rate": 2.2044444444444444e-06, + "loss": 0.354, + "step": 2002 + }, + { + "epoch": 2.6706666666666665, + "grad_norm": 11.797659873962402, + "learning_rate": 2.195555555555556e-06, + "loss": 0.389, + "step": 2003 + }, + { + "epoch": 2.672, + "grad_norm": 0.4397049844264984, + "learning_rate": 2.1866666666666668e-06, + "loss": 0.001, + "step": 2004 + }, + { + "epoch": 2.6733333333333333, + "grad_norm": 0.030015433207154274, + "learning_rate": 2.1777777777777777e-06, + "loss": 0.0007, + "step": 2005 + }, + { + "epoch": 2.6746666666666665, + "grad_norm": 0.13738328218460083, + "learning_rate": 2.168888888888889e-06, + "loss": 0.0012, + "step": 2006 + }, + { + "epoch": 2.676, + "grad_norm": 4.352254867553711, + "learning_rate": 2.16e-06, + "loss": 0.0021, + "step": 2007 + }, + { + "epoch": 2.6773333333333333, + "grad_norm": 0.12398606538772583, + "learning_rate": 2.1511111111111115e-06, + "loss": 0.0018, + "step": 2008 + }, + { + "epoch": 2.6786666666666665, + "grad_norm": 40.99763488769531, + "learning_rate": 2.1422222222222224e-06, + "loss": 0.2503, + "step": 2009 + }, + { + "epoch": 2.68, + "grad_norm": 0.03639939799904823, + "learning_rate": 2.133333333333334e-06, + "loss": 0.0007, + "step": 2010 + }, + { + "epoch": 2.6813333333333333, + "grad_norm": 25.015949249267578, + "learning_rate": 2.1244444444444443e-06, + "loss": 0.2445, + "step": 2011 + }, + { + "epoch": 2.6826666666666665, + "grad_norm": 0.7161546945571899, + "learning_rate": 2.1155555555555557e-06, + "loss": 0.0077, + "step": 2012 + }, + { + "epoch": 2.684, + "grad_norm": 0.27509018778800964, + "learning_rate": 2.1066666666666667e-06, + "loss": 0.0023, + "step": 2013 + }, + { + "epoch": 2.6853333333333333, + "grad_norm": 0.14953340590000153, + "learning_rate": 2.097777777777778e-06, + "loss": 0.0015, + "step": 2014 + }, + { + "epoch": 2.6866666666666665, + "grad_norm": 0.28206920623779297, + "learning_rate": 2.088888888888889e-06, + "loss": 0.0016, + "step": 2015 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 382.7881164550781, + "learning_rate": 2.08e-06, + "loss": 0.1096, + "step": 2016 + }, + { + "epoch": 2.6893333333333334, + "grad_norm": 30.90070915222168, + "learning_rate": 2.0711111111111114e-06, + "loss": 0.5831, + "step": 2017 + }, + { + "epoch": 2.6906666666666665, + "grad_norm": 0.022061694413423538, + "learning_rate": 2.0622222222222223e-06, + "loss": 0.0006, + "step": 2018 + }, + { + "epoch": 2.692, + "grad_norm": 1.0313507318496704, + "learning_rate": 2.0533333333333337e-06, + "loss": 0.0037, + "step": 2019 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 43.44009780883789, + "learning_rate": 2.0444444444444447e-06, + "loss": 0.9753, + "step": 2020 + }, + { + "epoch": 2.6946666666666665, + "grad_norm": 0.4641821086406708, + "learning_rate": 2.0355555555555556e-06, + "loss": 0.0021, + "step": 2021 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 16.9248046875, + "learning_rate": 2.0266666666666666e-06, + "loss": 0.5568, + "step": 2022 + }, + { + "epoch": 2.6973333333333334, + "grad_norm": 8.426371574401855, + "learning_rate": 2.017777777777778e-06, + "loss": 0.3587, + "step": 2023 + }, + { + "epoch": 2.6986666666666665, + "grad_norm": 0.26970112323760986, + "learning_rate": 2.008888888888889e-06, + "loss": 0.0018, + "step": 2024 + }, + { + "epoch": 2.7, + "grad_norm": 0.5243261456489563, + "learning_rate": 2.0000000000000003e-06, + "loss": 0.0022, + "step": 2025 + }, + { + "epoch": 2.7013333333333334, + "grad_norm": 1.0222141742706299, + "learning_rate": 1.9911111111111113e-06, + "loss": 0.005, + "step": 2026 + }, + { + "epoch": 2.7026666666666666, + "grad_norm": 19.83625602722168, + "learning_rate": 1.9822222222222223e-06, + "loss": 0.3928, + "step": 2027 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 0.1495722085237503, + "learning_rate": 1.9733333333333336e-06, + "loss": 0.0012, + "step": 2028 + }, + { + "epoch": 2.7053333333333334, + "grad_norm": 33.6377067565918, + "learning_rate": 1.9644444444444446e-06, + "loss": 0.4652, + "step": 2029 + }, + { + "epoch": 2.7066666666666666, + "grad_norm": 0.46278393268585205, + "learning_rate": 1.955555555555556e-06, + "loss": 0.0031, + "step": 2030 + }, + { + "epoch": 2.708, + "grad_norm": 337.54052734375, + "learning_rate": 1.9466666666666665e-06, + "loss": 0.1336, + "step": 2031 + }, + { + "epoch": 2.7093333333333334, + "grad_norm": 212.52066040039062, + "learning_rate": 1.937777777777778e-06, + "loss": 0.5964, + "step": 2032 + }, + { + "epoch": 2.7106666666666666, + "grad_norm": 0.7604288458824158, + "learning_rate": 1.928888888888889e-06, + "loss": 0.0047, + "step": 2033 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 15.303359031677246, + "learning_rate": 1.9200000000000003e-06, + "loss": 0.3389, + "step": 2034 + }, + { + "epoch": 2.7133333333333334, + "grad_norm": 0.8628003001213074, + "learning_rate": 1.9111111111111112e-06, + "loss": 0.0044, + "step": 2035 + }, + { + "epoch": 2.7146666666666666, + "grad_norm": 8.059155464172363, + "learning_rate": 1.9022222222222222e-06, + "loss": 0.0042, + "step": 2036 + }, + { + "epoch": 2.716, + "grad_norm": 44.99285125732422, + "learning_rate": 1.8933333333333333e-06, + "loss": 0.261, + "step": 2037 + }, + { + "epoch": 2.7173333333333334, + "grad_norm": 0.7078947424888611, + "learning_rate": 1.8844444444444445e-06, + "loss": 0.0032, + "step": 2038 + }, + { + "epoch": 2.7186666666666666, + "grad_norm": 24.928817749023438, + "learning_rate": 1.8755555555555557e-06, + "loss": 0.3936, + "step": 2039 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.06500247865915298, + "learning_rate": 1.8666666666666669e-06, + "loss": 0.0009, + "step": 2040 + }, + { + "epoch": 2.7213333333333334, + "grad_norm": 30.945497512817383, + "learning_rate": 1.8577777777777778e-06, + "loss": 0.0239, + "step": 2041 + }, + { + "epoch": 2.7226666666666666, + "grad_norm": 13.842698097229004, + "learning_rate": 1.848888888888889e-06, + "loss": 0.2697, + "step": 2042 + }, + { + "epoch": 2.724, + "grad_norm": 2.669248104095459, + "learning_rate": 1.8400000000000002e-06, + "loss": 0.0027, + "step": 2043 + }, + { + "epoch": 2.7253333333333334, + "grad_norm": 25.85951805114746, + "learning_rate": 1.8311111111111113e-06, + "loss": 0.5146, + "step": 2044 + }, + { + "epoch": 2.7266666666666666, + "grad_norm": 0.33808717131614685, + "learning_rate": 1.8222222222222225e-06, + "loss": 0.0027, + "step": 2045 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 0.3662378787994385, + "learning_rate": 1.8133333333333337e-06, + "loss": 0.0016, + "step": 2046 + }, + { + "epoch": 2.7293333333333334, + "grad_norm": 0.07196581363677979, + "learning_rate": 1.8044444444444444e-06, + "loss": 0.001, + "step": 2047 + }, + { + "epoch": 2.7306666666666666, + "grad_norm": 1.0028414726257324, + "learning_rate": 1.7955555555555556e-06, + "loss": 0.0044, + "step": 2048 + }, + { + "epoch": 2.732, + "grad_norm": 0.15908192098140717, + "learning_rate": 1.7866666666666668e-06, + "loss": 0.0012, + "step": 2049 + }, + { + "epoch": 2.7333333333333334, + "grad_norm": 0.23340588808059692, + "learning_rate": 1.777777777777778e-06, + "loss": 0.0017, + "step": 2050 + }, + { + "epoch": 2.7346666666666666, + "grad_norm": 0.8030081391334534, + "learning_rate": 1.7688888888888891e-06, + "loss": 0.0033, + "step": 2051 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 0.3873994052410126, + "learning_rate": 1.76e-06, + "loss": 0.0023, + "step": 2052 + }, + { + "epoch": 2.7373333333333334, + "grad_norm": 0.17475509643554688, + "learning_rate": 1.7511111111111113e-06, + "loss": 0.0016, + "step": 2053 + }, + { + "epoch": 2.7386666666666666, + "grad_norm": 0.053396038711071014, + "learning_rate": 1.7422222222222224e-06, + "loss": 0.0008, + "step": 2054 + }, + { + "epoch": 2.74, + "grad_norm": 0.1630074381828308, + "learning_rate": 1.7333333333333336e-06, + "loss": 0.0009, + "step": 2055 + }, + { + "epoch": 2.7413333333333334, + "grad_norm": 41.56733322143555, + "learning_rate": 1.7244444444444448e-06, + "loss": 0.5675, + "step": 2056 + }, + { + "epoch": 2.7426666666666666, + "grad_norm": 22.95735740661621, + "learning_rate": 1.7155555555555555e-06, + "loss": 0.3755, + "step": 2057 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 3.5093774795532227, + "learning_rate": 1.7066666666666667e-06, + "loss": 0.0068, + "step": 2058 + }, + { + "epoch": 2.7453333333333334, + "grad_norm": 0.34735268354415894, + "learning_rate": 1.6977777777777779e-06, + "loss": 0.0022, + "step": 2059 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 113.37321472167969, + "learning_rate": 1.688888888888889e-06, + "loss": 0.2077, + "step": 2060 + }, + { + "epoch": 2.748, + "grad_norm": 0.028336720541119576, + "learning_rate": 1.6800000000000002e-06, + "loss": 0.0007, + "step": 2061 + }, + { + "epoch": 2.7493333333333334, + "grad_norm": 85.07552337646484, + "learning_rate": 1.6711111111111112e-06, + "loss": 0.3908, + "step": 2062 + }, + { + "epoch": 2.7506666666666666, + "grad_norm": 0.08188354969024658, + "learning_rate": 1.6622222222222224e-06, + "loss": 0.0012, + "step": 2063 + }, + { + "epoch": 2.752, + "grad_norm": 0.9490393996238708, + "learning_rate": 1.6533333333333335e-06, + "loss": 0.0017, + "step": 2064 + }, + { + "epoch": 2.7533333333333334, + "grad_norm": 1.0169777870178223, + "learning_rate": 1.6444444444444447e-06, + "loss": 0.0042, + "step": 2065 + }, + { + "epoch": 2.7546666666666666, + "grad_norm": 1.3147773742675781, + "learning_rate": 1.6355555555555559e-06, + "loss": 0.0033, + "step": 2066 + }, + { + "epoch": 2.7560000000000002, + "grad_norm": 23.130739212036133, + "learning_rate": 1.6266666666666666e-06, + "loss": 0.4163, + "step": 2067 + }, + { + "epoch": 2.7573333333333334, + "grad_norm": 17.670108795166016, + "learning_rate": 1.6177777777777778e-06, + "loss": 0.0126, + "step": 2068 + }, + { + "epoch": 2.7586666666666666, + "grad_norm": 0.2815313935279846, + "learning_rate": 1.608888888888889e-06, + "loss": 0.0015, + "step": 2069 + }, + { + "epoch": 2.76, + "grad_norm": 1.9536477327346802, + "learning_rate": 1.6000000000000001e-06, + "loss": 0.012, + "step": 2070 + }, + { + "epoch": 2.7613333333333334, + "grad_norm": 0.17436973750591278, + "learning_rate": 1.5911111111111113e-06, + "loss": 0.0022, + "step": 2071 + }, + { + "epoch": 2.7626666666666666, + "grad_norm": 38.20689010620117, + "learning_rate": 1.5822222222222223e-06, + "loss": 0.3902, + "step": 2072 + }, + { + "epoch": 2.7640000000000002, + "grad_norm": 0.03305307775735855, + "learning_rate": 1.5733333333333334e-06, + "loss": 0.0008, + "step": 2073 + }, + { + "epoch": 2.7653333333333334, + "grad_norm": 0.05918196216225624, + "learning_rate": 1.5644444444444446e-06, + "loss": 0.0008, + "step": 2074 + }, + { + "epoch": 2.7666666666666666, + "grad_norm": 0.11656118184328079, + "learning_rate": 1.5555555555555558e-06, + "loss": 0.0016, + "step": 2075 + }, + { + "epoch": 2.768, + "grad_norm": 22.899450302124023, + "learning_rate": 1.546666666666667e-06, + "loss": 0.4474, + "step": 2076 + }, + { + "epoch": 2.7693333333333334, + "grad_norm": 0.5219902992248535, + "learning_rate": 1.5377777777777781e-06, + "loss": 0.003, + "step": 2077 + }, + { + "epoch": 2.7706666666666666, + "grad_norm": 0.053949929773807526, + "learning_rate": 1.5288888888888889e-06, + "loss": 0.0009, + "step": 2078 + }, + { + "epoch": 2.7720000000000002, + "grad_norm": 384.06494140625, + "learning_rate": 1.52e-06, + "loss": 0.0242, + "step": 2079 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 0.3771679997444153, + "learning_rate": 1.5111111111111112e-06, + "loss": 0.002, + "step": 2080 + }, + { + "epoch": 2.7746666666666666, + "grad_norm": 0.023047901690006256, + "learning_rate": 1.5022222222222224e-06, + "loss": 0.0006, + "step": 2081 + }, + { + "epoch": 2.776, + "grad_norm": 12.377241134643555, + "learning_rate": 1.4933333333333336e-06, + "loss": 0.0169, + "step": 2082 + }, + { + "epoch": 2.7773333333333334, + "grad_norm": 0.03259071707725525, + "learning_rate": 1.4844444444444445e-06, + "loss": 0.0007, + "step": 2083 + }, + { + "epoch": 2.7786666666666666, + "grad_norm": 0.21481068432331085, + "learning_rate": 1.4755555555555557e-06, + "loss": 0.0014, + "step": 2084 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 0.12168584018945694, + "learning_rate": 1.4666666666666669e-06, + "loss": 0.0012, + "step": 2085 + }, + { + "epoch": 2.7813333333333334, + "grad_norm": 0.6099428534507751, + "learning_rate": 1.457777777777778e-06, + "loss": 0.0026, + "step": 2086 + }, + { + "epoch": 2.7826666666666666, + "grad_norm": 29.80950927734375, + "learning_rate": 1.4488888888888892e-06, + "loss": 0.4409, + "step": 2087 + }, + { + "epoch": 2.784, + "grad_norm": 722.3591918945312, + "learning_rate": 1.44e-06, + "loss": 0.0822, + "step": 2088 + }, + { + "epoch": 2.7853333333333334, + "grad_norm": 0.06675869971513748, + "learning_rate": 1.4311111111111111e-06, + "loss": 0.001, + "step": 2089 + }, + { + "epoch": 2.7866666666666666, + "grad_norm": 0.1636940985918045, + "learning_rate": 1.4222222222222223e-06, + "loss": 0.0013, + "step": 2090 + }, + { + "epoch": 2.7880000000000003, + "grad_norm": 0.40025386214256287, + "learning_rate": 1.4133333333333335e-06, + "loss": 0.0025, + "step": 2091 + }, + { + "epoch": 2.7893333333333334, + "grad_norm": 0.25141677260398865, + "learning_rate": 1.4044444444444447e-06, + "loss": 0.0013, + "step": 2092 + }, + { + "epoch": 2.7906666666666666, + "grad_norm": 0.02663254365324974, + "learning_rate": 1.3955555555555556e-06, + "loss": 0.0007, + "step": 2093 + }, + { + "epoch": 2.792, + "grad_norm": 0.396782785654068, + "learning_rate": 1.3866666666666668e-06, + "loss": 0.0021, + "step": 2094 + }, + { + "epoch": 2.7933333333333334, + "grad_norm": 0.022959934547543526, + "learning_rate": 1.377777777777778e-06, + "loss": 0.0006, + "step": 2095 + }, + { + "epoch": 2.7946666666666666, + "grad_norm": 0.8238509893417358, + "learning_rate": 1.3688888888888891e-06, + "loss": 0.0036, + "step": 2096 + }, + { + "epoch": 2.7960000000000003, + "grad_norm": 0.03277985379099846, + "learning_rate": 1.3600000000000001e-06, + "loss": 0.0007, + "step": 2097 + }, + { + "epoch": 2.7973333333333334, + "grad_norm": 0.6971368193626404, + "learning_rate": 1.351111111111111e-06, + "loss": 0.0027, + "step": 2098 + }, + { + "epoch": 2.7986666666666666, + "grad_norm": 0.02126278728246689, + "learning_rate": 1.3422222222222222e-06, + "loss": 0.0006, + "step": 2099 + }, + { + "epoch": 2.8, + "grad_norm": 0.07773832976818085, + "learning_rate": 1.3333333333333334e-06, + "loss": 0.0009, + "step": 2100 + }, + { + "epoch": 2.8013333333333335, + "grad_norm": 0.13598698377609253, + "learning_rate": 1.3244444444444446e-06, + "loss": 0.0011, + "step": 2101 + }, + { + "epoch": 2.8026666666666666, + "grad_norm": 0.4797694981098175, + "learning_rate": 1.3155555555555558e-06, + "loss": 0.0026, + "step": 2102 + }, + { + "epoch": 2.8040000000000003, + "grad_norm": 0.03757019713521004, + "learning_rate": 1.3066666666666667e-06, + "loss": 0.0007, + "step": 2103 + }, + { + "epoch": 2.8053333333333335, + "grad_norm": 0.3387465476989746, + "learning_rate": 1.2977777777777779e-06, + "loss": 0.0017, + "step": 2104 + }, + { + "epoch": 2.8066666666666666, + "grad_norm": 12.846646308898926, + "learning_rate": 1.288888888888889e-06, + "loss": 0.2385, + "step": 2105 + }, + { + "epoch": 2.808, + "grad_norm": 0.2199900597333908, + "learning_rate": 1.28e-06, + "loss": 0.0017, + "step": 2106 + }, + { + "epoch": 2.8093333333333335, + "grad_norm": 4.730019569396973, + "learning_rate": 1.2711111111111112e-06, + "loss": 0.5719, + "step": 2107 + }, + { + "epoch": 2.8106666666666666, + "grad_norm": 0.038831375539302826, + "learning_rate": 1.2622222222222224e-06, + "loss": 0.0007, + "step": 2108 + }, + { + "epoch": 2.8120000000000003, + "grad_norm": 0.044549163430929184, + "learning_rate": 1.2533333333333333e-06, + "loss": 0.0007, + "step": 2109 + }, + { + "epoch": 2.8133333333333335, + "grad_norm": 37.69612121582031, + "learning_rate": 1.2444444444444445e-06, + "loss": 0.6162, + "step": 2110 + }, + { + "epoch": 2.8146666666666667, + "grad_norm": 0.1389227658510208, + "learning_rate": 1.2355555555555557e-06, + "loss": 0.0012, + "step": 2111 + }, + { + "epoch": 2.816, + "grad_norm": 0.09962499141693115, + "learning_rate": 1.2266666666666666e-06, + "loss": 0.001, + "step": 2112 + }, + { + "epoch": 2.8173333333333335, + "grad_norm": 2.726072072982788, + "learning_rate": 1.2177777777777778e-06, + "loss": 0.0054, + "step": 2113 + }, + { + "epoch": 2.8186666666666667, + "grad_norm": 0.024596665054559708, + "learning_rate": 1.208888888888889e-06, + "loss": 0.0006, + "step": 2114 + }, + { + "epoch": 2.82, + "grad_norm": 0.1523442566394806, + "learning_rate": 1.2000000000000002e-06, + "loss": 0.0011, + "step": 2115 + }, + { + "epoch": 2.8213333333333335, + "grad_norm": 35.23870086669922, + "learning_rate": 1.1911111111111111e-06, + "loss": 0.0163, + "step": 2116 + }, + { + "epoch": 2.8226666666666667, + "grad_norm": 116.1108169555664, + "learning_rate": 1.1822222222222223e-06, + "loss": 0.1494, + "step": 2117 + }, + { + "epoch": 2.824, + "grad_norm": 0.024406803771853447, + "learning_rate": 1.1733333333333335e-06, + "loss": 0.0006, + "step": 2118 + }, + { + "epoch": 2.8253333333333335, + "grad_norm": 0.04381592944264412, + "learning_rate": 1.1644444444444446e-06, + "loss": 0.0006, + "step": 2119 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 22.823959350585938, + "learning_rate": 1.1555555555555556e-06, + "loss": 0.5204, + "step": 2120 + }, + { + "epoch": 2.828, + "grad_norm": 0.3412293791770935, + "learning_rate": 1.1466666666666668e-06, + "loss": 0.0022, + "step": 2121 + }, + { + "epoch": 2.8293333333333335, + "grad_norm": 1.0937108993530273, + "learning_rate": 1.137777777777778e-06, + "loss": 0.0062, + "step": 2122 + }, + { + "epoch": 2.8306666666666667, + "grad_norm": 1.015861988067627, + "learning_rate": 1.128888888888889e-06, + "loss": 0.0046, + "step": 2123 + }, + { + "epoch": 2.832, + "grad_norm": 15.769082069396973, + "learning_rate": 1.12e-06, + "loss": 0.5534, + "step": 2124 + }, + { + "epoch": 2.8333333333333335, + "grad_norm": 9.191170692443848, + "learning_rate": 1.111111111111111e-06, + "loss": 0.2764, + "step": 2125 + }, + { + "epoch": 2.8346666666666667, + "grad_norm": 0.021012067794799805, + "learning_rate": 1.1022222222222222e-06, + "loss": 0.0006, + "step": 2126 + }, + { + "epoch": 2.836, + "grad_norm": 124.56463623046875, + "learning_rate": 1.0933333333333334e-06, + "loss": 0.3569, + "step": 2127 + }, + { + "epoch": 2.8373333333333335, + "grad_norm": 0.0869767963886261, + "learning_rate": 1.0844444444444446e-06, + "loss": 0.0008, + "step": 2128 + }, + { + "epoch": 2.8386666666666667, + "grad_norm": 18.921253204345703, + "learning_rate": 1.0755555555555557e-06, + "loss": 0.5046, + "step": 2129 + }, + { + "epoch": 2.84, + "grad_norm": 1.431925654411316, + "learning_rate": 1.066666666666667e-06, + "loss": 0.0044, + "step": 2130 + }, + { + "epoch": 2.8413333333333335, + "grad_norm": 0.035911139100790024, + "learning_rate": 1.0577777777777779e-06, + "loss": 0.0007, + "step": 2131 + }, + { + "epoch": 2.8426666666666667, + "grad_norm": 20.6807918548584, + "learning_rate": 1.048888888888889e-06, + "loss": 0.0064, + "step": 2132 + }, + { + "epoch": 2.844, + "grad_norm": 27.524892807006836, + "learning_rate": 1.04e-06, + "loss": 0.5169, + "step": 2133 + }, + { + "epoch": 2.8453333333333335, + "grad_norm": 0.32670605182647705, + "learning_rate": 1.0311111111111112e-06, + "loss": 0.0012, + "step": 2134 + }, + { + "epoch": 2.8466666666666667, + "grad_norm": 0.07982155680656433, + "learning_rate": 1.0222222222222223e-06, + "loss": 0.0008, + "step": 2135 + }, + { + "epoch": 2.848, + "grad_norm": 250.01687622070312, + "learning_rate": 1.0133333333333333e-06, + "loss": 0.2596, + "step": 2136 + }, + { + "epoch": 2.8493333333333335, + "grad_norm": 73.56905364990234, + "learning_rate": 1.0044444444444445e-06, + "loss": 0.2852, + "step": 2137 + }, + { + "epoch": 2.8506666666666667, + "grad_norm": 1.5123237371444702, + "learning_rate": 9.955555555555556e-07, + "loss": 0.0017, + "step": 2138 + }, + { + "epoch": 2.852, + "grad_norm": 7.594943046569824, + "learning_rate": 9.866666666666668e-07, + "loss": 0.0091, + "step": 2139 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 0.031820524483919144, + "learning_rate": 9.77777777777778e-07, + "loss": 0.0007, + "step": 2140 + }, + { + "epoch": 2.8546666666666667, + "grad_norm": 0.02381485141813755, + "learning_rate": 9.68888888888889e-07, + "loss": 0.0007, + "step": 2141 + }, + { + "epoch": 2.856, + "grad_norm": 0.09739511460065842, + "learning_rate": 9.600000000000001e-07, + "loss": 0.001, + "step": 2142 + }, + { + "epoch": 2.857333333333333, + "grad_norm": 40.19291687011719, + "learning_rate": 9.511111111111111e-07, + "loss": 0.0049, + "step": 2143 + }, + { + "epoch": 2.8586666666666667, + "grad_norm": 0.07001561671495438, + "learning_rate": 9.422222222222223e-07, + "loss": 0.0008, + "step": 2144 + }, + { + "epoch": 2.86, + "grad_norm": 82.92972564697266, + "learning_rate": 9.333333333333334e-07, + "loss": 0.1644, + "step": 2145 + }, + { + "epoch": 2.8613333333333335, + "grad_norm": 149.378662109375, + "learning_rate": 9.244444444444445e-07, + "loss": 0.5898, + "step": 2146 + }, + { + "epoch": 2.8626666666666667, + "grad_norm": 21.25759506225586, + "learning_rate": 9.155555555555557e-07, + "loss": 0.3802, + "step": 2147 + }, + { + "epoch": 2.864, + "grad_norm": 0.08110994845628738, + "learning_rate": 9.066666666666668e-07, + "loss": 0.0009, + "step": 2148 + }, + { + "epoch": 2.865333333333333, + "grad_norm": 0.05316106975078583, + "learning_rate": 8.977777777777778e-07, + "loss": 0.0009, + "step": 2149 + }, + { + "epoch": 2.8666666666666667, + "grad_norm": 1.2713360786437988, + "learning_rate": 8.88888888888889e-07, + "loss": 0.0023, + "step": 2150 + }, + { + "epoch": 2.868, + "grad_norm": 13.548941612243652, + "learning_rate": 8.8e-07, + "loss": 0.2544, + "step": 2151 + }, + { + "epoch": 2.8693333333333335, + "grad_norm": 170.5789031982422, + "learning_rate": 8.711111111111112e-07, + "loss": 0.2688, + "step": 2152 + }, + { + "epoch": 2.8706666666666667, + "grad_norm": 1.475039005279541, + "learning_rate": 8.622222222222224e-07, + "loss": 0.0066, + "step": 2153 + }, + { + "epoch": 2.872, + "grad_norm": 0.09990980476140976, + "learning_rate": 8.533333333333334e-07, + "loss": 0.0008, + "step": 2154 + }, + { + "epoch": 2.873333333333333, + "grad_norm": 36.615928649902344, + "learning_rate": 8.444444444444445e-07, + "loss": 0.5639, + "step": 2155 + }, + { + "epoch": 2.8746666666666667, + "grad_norm": 0.18951250612735748, + "learning_rate": 8.355555555555556e-07, + "loss": 0.0012, + "step": 2156 + }, + { + "epoch": 2.876, + "grad_norm": 35.52928161621094, + "learning_rate": 8.266666666666668e-07, + "loss": 0.0083, + "step": 2157 + }, + { + "epoch": 2.8773333333333335, + "grad_norm": 0.4665152132511139, + "learning_rate": 8.177777777777779e-07, + "loss": 0.0013, + "step": 2158 + }, + { + "epoch": 2.8786666666666667, + "grad_norm": 1.9059052467346191, + "learning_rate": 8.088888888888889e-07, + "loss": 0.0032, + "step": 2159 + }, + { + "epoch": 2.88, + "grad_norm": 0.1530025452375412, + "learning_rate": 8.000000000000001e-07, + "loss": 0.0013, + "step": 2160 + }, + { + "epoch": 2.881333333333333, + "grad_norm": 0.04257744550704956, + "learning_rate": 7.911111111111111e-07, + "loss": 0.0008, + "step": 2161 + }, + { + "epoch": 2.8826666666666667, + "grad_norm": 0.0197782963514328, + "learning_rate": 7.822222222222223e-07, + "loss": 0.0006, + "step": 2162 + }, + { + "epoch": 2.884, + "grad_norm": 1.764649510383606, + "learning_rate": 7.733333333333335e-07, + "loss": 0.007, + "step": 2163 + }, + { + "epoch": 2.8853333333333335, + "grad_norm": 0.5775858163833618, + "learning_rate": 7.644444444444444e-07, + "loss": 0.0027, + "step": 2164 + }, + { + "epoch": 2.8866666666666667, + "grad_norm": 26.35997772216797, + "learning_rate": 7.555555555555556e-07, + "loss": 0.4607, + "step": 2165 + }, + { + "epoch": 2.888, + "grad_norm": 0.039850570261478424, + "learning_rate": 7.466666666666668e-07, + "loss": 0.0008, + "step": 2166 + }, + { + "epoch": 2.889333333333333, + "grad_norm": 13.519153594970703, + "learning_rate": 7.377777777777779e-07, + "loss": 0.5924, + "step": 2167 + }, + { + "epoch": 2.8906666666666667, + "grad_norm": 33.57373046875, + "learning_rate": 7.28888888888889e-07, + "loss": 1.0497, + "step": 2168 + }, + { + "epoch": 2.892, + "grad_norm": 0.570203423500061, + "learning_rate": 7.2e-07, + "loss": 0.004, + "step": 2169 + }, + { + "epoch": 2.8933333333333335, + "grad_norm": 0.06398206204175949, + "learning_rate": 7.111111111111112e-07, + "loss": 0.0007, + "step": 2170 + }, + { + "epoch": 2.8946666666666667, + "grad_norm": 33.42972183227539, + "learning_rate": 7.022222222222223e-07, + "loss": 0.3406, + "step": 2171 + }, + { + "epoch": 2.896, + "grad_norm": 34.91133117675781, + "learning_rate": 6.933333333333334e-07, + "loss": 0.4055, + "step": 2172 + }, + { + "epoch": 2.897333333333333, + "grad_norm": 0.1328393965959549, + "learning_rate": 6.844444444444446e-07, + "loss": 0.0012, + "step": 2173 + }, + { + "epoch": 2.8986666666666667, + "grad_norm": 57.781864166259766, + "learning_rate": 6.755555555555555e-07, + "loss": 0.0159, + "step": 2174 + }, + { + "epoch": 2.9, + "grad_norm": 1.4687128067016602, + "learning_rate": 6.666666666666667e-07, + "loss": 0.0062, + "step": 2175 + }, + { + "epoch": 2.9013333333333335, + "grad_norm": 3.3643527030944824, + "learning_rate": 6.577777777777779e-07, + "loss": 0.0074, + "step": 2176 + }, + { + "epoch": 2.9026666666666667, + "grad_norm": 0.02527746744453907, + "learning_rate": 6.488888888888889e-07, + "loss": 0.0006, + "step": 2177 + }, + { + "epoch": 2.904, + "grad_norm": 0.26895707845687866, + "learning_rate": 6.4e-07, + "loss": 0.0016, + "step": 2178 + }, + { + "epoch": 2.905333333333333, + "grad_norm": 0.10070569813251495, + "learning_rate": 6.311111111111112e-07, + "loss": 0.0009, + "step": 2179 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 2.560640811920166, + "learning_rate": 6.222222222222223e-07, + "loss": 0.0034, + "step": 2180 + }, + { + "epoch": 2.908, + "grad_norm": 87.53323364257812, + "learning_rate": 6.133333333333333e-07, + "loss": 0.0176, + "step": 2181 + }, + { + "epoch": 2.9093333333333335, + "grad_norm": 99.69659423828125, + "learning_rate": 6.044444444444445e-07, + "loss": 0.1454, + "step": 2182 + }, + { + "epoch": 2.9106666666666667, + "grad_norm": 0.0971820279955864, + "learning_rate": 5.955555555555556e-07, + "loss": 0.0011, + "step": 2183 + }, + { + "epoch": 2.912, + "grad_norm": 16.610445022583008, + "learning_rate": 5.866666666666667e-07, + "loss": 0.6011, + "step": 2184 + }, + { + "epoch": 2.913333333333333, + "grad_norm": 0.057896483689546585, + "learning_rate": 5.777777777777778e-07, + "loss": 0.0007, + "step": 2185 + }, + { + "epoch": 2.9146666666666667, + "grad_norm": 1.4723398685455322, + "learning_rate": 5.68888888888889e-07, + "loss": 0.007, + "step": 2186 + }, + { + "epoch": 2.916, + "grad_norm": 0.03660687804222107, + "learning_rate": 5.6e-07, + "loss": 0.0006, + "step": 2187 + }, + { + "epoch": 2.9173333333333336, + "grad_norm": 0.025584707036614418, + "learning_rate": 5.511111111111111e-07, + "loss": 0.0007, + "step": 2188 + }, + { + "epoch": 2.9186666666666667, + "grad_norm": 0.06897561252117157, + "learning_rate": 5.422222222222223e-07, + "loss": 0.0007, + "step": 2189 + }, + { + "epoch": 2.92, + "grad_norm": 0.05708562582731247, + "learning_rate": 5.333333333333335e-07, + "loss": 0.0009, + "step": 2190 + }, + { + "epoch": 2.921333333333333, + "grad_norm": 0.4871264100074768, + "learning_rate": 5.244444444444445e-07, + "loss": 0.0026, + "step": 2191 + }, + { + "epoch": 2.9226666666666667, + "grad_norm": 0.47532951831817627, + "learning_rate": 5.155555555555556e-07, + "loss": 0.0013, + "step": 2192 + }, + { + "epoch": 2.924, + "grad_norm": 0.17150188982486725, + "learning_rate": 5.066666666666667e-07, + "loss": 0.0013, + "step": 2193 + }, + { + "epoch": 2.9253333333333336, + "grad_norm": 0.019875993952155113, + "learning_rate": 4.977777777777778e-07, + "loss": 0.0006, + "step": 2194 + }, + { + "epoch": 2.9266666666666667, + "grad_norm": 0.23413217067718506, + "learning_rate": 4.88888888888889e-07, + "loss": 0.0026, + "step": 2195 + }, + { + "epoch": 2.928, + "grad_norm": 0.6156684756278992, + "learning_rate": 4.800000000000001e-07, + "loss": 0.0022, + "step": 2196 + }, + { + "epoch": 2.929333333333333, + "grad_norm": 0.18328867852687836, + "learning_rate": 4.7111111111111113e-07, + "loss": 0.0012, + "step": 2197 + }, + { + "epoch": 2.9306666666666668, + "grad_norm": 0.06719297170639038, + "learning_rate": 4.6222222222222225e-07, + "loss": 0.0008, + "step": 2198 + }, + { + "epoch": 2.932, + "grad_norm": 0.02382493205368519, + "learning_rate": 4.533333333333334e-07, + "loss": 0.0006, + "step": 2199 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 755.5382690429688, + "learning_rate": 4.444444444444445e-07, + "loss": 0.2595, + "step": 2200 + }, + { + "epoch": 2.9346666666666668, + "grad_norm": 0.8425825834274292, + "learning_rate": 4.355555555555556e-07, + "loss": 0.0045, + "step": 2201 + }, + { + "epoch": 2.936, + "grad_norm": 39.40986633300781, + "learning_rate": 4.266666666666667e-07, + "loss": 0.5392, + "step": 2202 + }, + { + "epoch": 2.937333333333333, + "grad_norm": 50.41126251220703, + "learning_rate": 4.177777777777778e-07, + "loss": 0.6843, + "step": 2203 + }, + { + "epoch": 2.9386666666666668, + "grad_norm": 0.47921520471572876, + "learning_rate": 4.0888888888888897e-07, + "loss": 0.0061, + "step": 2204 + }, + { + "epoch": 2.94, + "grad_norm": 17.618616104125977, + "learning_rate": 4.0000000000000003e-07, + "loss": 0.3886, + "step": 2205 + }, + { + "epoch": 2.9413333333333336, + "grad_norm": 0.8892105221748352, + "learning_rate": 3.9111111111111115e-07, + "loss": 0.0024, + "step": 2206 + }, + { + "epoch": 2.9426666666666668, + "grad_norm": 0.14184188842773438, + "learning_rate": 3.822222222222222e-07, + "loss": 0.001, + "step": 2207 + }, + { + "epoch": 2.944, + "grad_norm": 18.498905181884766, + "learning_rate": 3.733333333333334e-07, + "loss": 0.2474, + "step": 2208 + }, + { + "epoch": 2.945333333333333, + "grad_norm": 38.840057373046875, + "learning_rate": 3.644444444444445e-07, + "loss": 0.3286, + "step": 2209 + }, + { + "epoch": 2.9466666666666668, + "grad_norm": 151.0657501220703, + "learning_rate": 3.555555555555556e-07, + "loss": 0.2603, + "step": 2210 + }, + { + "epoch": 2.948, + "grad_norm": 0.5361657738685608, + "learning_rate": 3.466666666666667e-07, + "loss": 0.0025, + "step": 2211 + }, + { + "epoch": 2.9493333333333336, + "grad_norm": 0.02858174592256546, + "learning_rate": 3.3777777777777777e-07, + "loss": 0.0007, + "step": 2212 + }, + { + "epoch": 2.9506666666666668, + "grad_norm": 0.2960554361343384, + "learning_rate": 3.2888888888888894e-07, + "loss": 0.0021, + "step": 2213 + }, + { + "epoch": 2.952, + "grad_norm": 0.15168897807598114, + "learning_rate": 3.2e-07, + "loss": 0.0008, + "step": 2214 + }, + { + "epoch": 2.953333333333333, + "grad_norm": 54.33277130126953, + "learning_rate": 3.111111111111111e-07, + "loss": 0.4166, + "step": 2215 + }, + { + "epoch": 2.9546666666666668, + "grad_norm": 0.09533650428056717, + "learning_rate": 3.0222222222222225e-07, + "loss": 0.001, + "step": 2216 + }, + { + "epoch": 2.956, + "grad_norm": 0.45193353295326233, + "learning_rate": 2.9333333333333337e-07, + "loss": 0.0025, + "step": 2217 + }, + { + "epoch": 2.9573333333333336, + "grad_norm": 0.023185839876532555, + "learning_rate": 2.844444444444445e-07, + "loss": 0.0006, + "step": 2218 + }, + { + "epoch": 2.958666666666667, + "grad_norm": 0.3143797814846039, + "learning_rate": 2.7555555555555555e-07, + "loss": 0.0016, + "step": 2219 + }, + { + "epoch": 2.96, + "grad_norm": 0.25473251938819885, + "learning_rate": 2.666666666666667e-07, + "loss": 0.0014, + "step": 2220 + }, + { + "epoch": 2.961333333333333, + "grad_norm": 0.02141093835234642, + "learning_rate": 2.577777777777778e-07, + "loss": 0.0006, + "step": 2221 + }, + { + "epoch": 2.962666666666667, + "grad_norm": 527.39013671875, + "learning_rate": 2.488888888888889e-07, + "loss": 0.2638, + "step": 2222 + }, + { + "epoch": 2.964, + "grad_norm": 0.08343927562236786, + "learning_rate": 2.4000000000000003e-07, + "loss": 0.0009, + "step": 2223 + }, + { + "epoch": 2.9653333333333336, + "grad_norm": 0.8825082778930664, + "learning_rate": 2.3111111111111112e-07, + "loss": 0.0071, + "step": 2224 + }, + { + "epoch": 2.966666666666667, + "grad_norm": 38.85169219970703, + "learning_rate": 2.2222222222222224e-07, + "loss": 0.798, + "step": 2225 + }, + { + "epoch": 2.968, + "grad_norm": 0.7748185396194458, + "learning_rate": 2.1333333333333334e-07, + "loss": 0.0024, + "step": 2226 + }, + { + "epoch": 2.969333333333333, + "grad_norm": 29.882898330688477, + "learning_rate": 2.0444444444444448e-07, + "loss": 0.3474, + "step": 2227 + }, + { + "epoch": 2.970666666666667, + "grad_norm": 70.68009948730469, + "learning_rate": 1.9555555555555558e-07, + "loss": 0.3694, + "step": 2228 + }, + { + "epoch": 2.972, + "grad_norm": 81.38697814941406, + "learning_rate": 1.866666666666667e-07, + "loss": 0.459, + "step": 2229 + }, + { + "epoch": 2.9733333333333336, + "grad_norm": 64.1339340209961, + "learning_rate": 1.777777777777778e-07, + "loss": 0.4648, + "step": 2230 + }, + { + "epoch": 2.974666666666667, + "grad_norm": 0.1332729458808899, + "learning_rate": 1.6888888888888888e-07, + "loss": 0.0011, + "step": 2231 + }, + { + "epoch": 2.976, + "grad_norm": 0.08293462544679642, + "learning_rate": 1.6e-07, + "loss": 0.001, + "step": 2232 + }, + { + "epoch": 2.977333333333333, + "grad_norm": 1.4303702116012573, + "learning_rate": 1.5111111111111112e-07, + "loss": 0.007, + "step": 2233 + }, + { + "epoch": 2.978666666666667, + "grad_norm": 0.1696573793888092, + "learning_rate": 1.4222222222222224e-07, + "loss": 0.0013, + "step": 2234 + }, + { + "epoch": 2.98, + "grad_norm": 0.07845105230808258, + "learning_rate": 1.3333333333333336e-07, + "loss": 0.0009, + "step": 2235 + }, + { + "epoch": 2.981333333333333, + "grad_norm": 0.1806916743516922, + "learning_rate": 1.2444444444444446e-07, + "loss": 0.0011, + "step": 2236 + }, + { + "epoch": 2.982666666666667, + "grad_norm": 0.15809156000614166, + "learning_rate": 1.1555555555555556e-07, + "loss": 0.0011, + "step": 2237 + }, + { + "epoch": 2.984, + "grad_norm": 0.7303739786148071, + "learning_rate": 1.0666666666666667e-07, + "loss": 0.003, + "step": 2238 + }, + { + "epoch": 2.985333333333333, + "grad_norm": 5.324014186859131, + "learning_rate": 9.777777777777779e-08, + "loss": 0.0022, + "step": 2239 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 0.041307806968688965, + "learning_rate": 8.88888888888889e-08, + "loss": 0.0006, + "step": 2240 + }, + { + "epoch": 2.988, + "grad_norm": 1.1886028051376343, + "learning_rate": 8e-08, + "loss": 0.0027, + "step": 2241 + }, + { + "epoch": 2.989333333333333, + "grad_norm": 0.02952580526471138, + "learning_rate": 7.111111111111112e-08, + "loss": 0.0006, + "step": 2242 + }, + { + "epoch": 2.990666666666667, + "grad_norm": 0.09329274296760559, + "learning_rate": 6.222222222222223e-08, + "loss": 0.0008, + "step": 2243 + }, + { + "epoch": 2.992, + "grad_norm": 0.24295726418495178, + "learning_rate": 5.3333333333333334e-08, + "loss": 0.0029, + "step": 2244 + }, + { + "epoch": 2.993333333333333, + "grad_norm": 42.08897018432617, + "learning_rate": 4.444444444444445e-08, + "loss": 1.295, + "step": 2245 + }, + { + "epoch": 2.994666666666667, + "grad_norm": 0.02137308195233345, + "learning_rate": 3.555555555555556e-08, + "loss": 0.0006, + "step": 2246 + }, + { + "epoch": 2.996, + "grad_norm": 0.14001862704753876, + "learning_rate": 2.6666666666666667e-08, + "loss": 0.0007, + "step": 2247 + }, + { + "epoch": 2.997333333333333, + "grad_norm": 73.10365295410156, + "learning_rate": 1.777777777777778e-08, + "loss": 0.4545, + "step": 2248 + }, + { + "epoch": 2.998666666666667, + "grad_norm": 0.06186581775546074, + "learning_rate": 8.88888888888889e-09, + "loss": 0.0009, + "step": 2249 + }, + { + "epoch": 3.0, + "grad_norm": 0.07215374708175659, + "learning_rate": 0.0, + "loss": 0.0007, + "step": 2250 + }, + { + "epoch": 3.0, + "eval_accuracy": 0.953757225433526, + "eval_loss": 0.2263547033071518, + "eval_runtime": 52.7718, + "eval_samples_per_second": 42.617, + "eval_steps_per_second": 1.345, + "step": 2250 + } + ], + "logging_steps": 1, + "max_steps": 2250, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 644746887383040.0, + "train_batch_size": 12, + "trial_name": null, + "trial_params": null +}