| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 1.0, |
| "eval_steps": 500, |
| "global_step": 1200, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0008333333333333334, |
| "grad_norm": 1.4100404977798462, |
| "learning_rate": 5.0000000000000004e-08, |
| "loss": 1.0637, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.0016666666666666668, |
| "grad_norm": 1.3641573190689087, |
| "learning_rate": 1.0000000000000001e-07, |
| "loss": 1.0565, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.0025, |
| "grad_norm": 1.366743564605713, |
| "learning_rate": 1.5000000000000002e-07, |
| "loss": 1.0545, |
| "step": 3 |
| }, |
| { |
| "epoch": 0.0033333333333333335, |
| "grad_norm": 1.3015836477279663, |
| "learning_rate": 2.0000000000000002e-07, |
| "loss": 1.0469, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.004166666666666667, |
| "grad_norm": 1.3047188520431519, |
| "learning_rate": 2.5000000000000004e-07, |
| "loss": 1.0484, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.005, |
| "grad_norm": 1.3143898248672485, |
| "learning_rate": 3.0000000000000004e-07, |
| "loss": 1.0373, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.005833333333333334, |
| "grad_norm": 1.3029078245162964, |
| "learning_rate": 3.5000000000000004e-07, |
| "loss": 1.0421, |
| "step": 7 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 1.326572299003601, |
| "learning_rate": 4.0000000000000003e-07, |
| "loss": 1.0509, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.0075, |
| "grad_norm": 1.329242467880249, |
| "learning_rate": 4.5000000000000003e-07, |
| "loss": 1.0474, |
| "step": 9 |
| }, |
| { |
| "epoch": 0.008333333333333333, |
| "grad_norm": 1.268184781074524, |
| "learning_rate": 5.000000000000001e-07, |
| "loss": 1.0415, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.009166666666666667, |
| "grad_norm": 1.3835687637329102, |
| "learning_rate": 5.5e-07, |
| "loss": 1.0718, |
| "step": 11 |
| }, |
| { |
| "epoch": 0.01, |
| "grad_norm": 1.3036370277404785, |
| "learning_rate": 6.000000000000001e-07, |
| "loss": 1.044, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.010833333333333334, |
| "grad_norm": 1.2718889713287354, |
| "learning_rate": 6.5e-07, |
| "loss": 1.02, |
| "step": 13 |
| }, |
| { |
| "epoch": 0.011666666666666667, |
| "grad_norm": 1.2253961563110352, |
| "learning_rate": 7.000000000000001e-07, |
| "loss": 1.0153, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.0125, |
| "grad_norm": 1.230002999305725, |
| "learning_rate": 7.5e-07, |
| "loss": 1.0349, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 1.218577265739441, |
| "learning_rate": 8.000000000000001e-07, |
| "loss": 1.0274, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.014166666666666666, |
| "grad_norm": 1.2099354267120361, |
| "learning_rate": 8.500000000000001e-07, |
| "loss": 1.052, |
| "step": 17 |
| }, |
| { |
| "epoch": 0.015, |
| "grad_norm": 1.1288594007492065, |
| "learning_rate": 9.000000000000001e-07, |
| "loss": 1.0296, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.015833333333333335, |
| "grad_norm": 1.0674114227294922, |
| "learning_rate": 9.500000000000001e-07, |
| "loss": 1.0316, |
| "step": 19 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 1.0220268964767456, |
| "learning_rate": 1.0000000000000002e-06, |
| "loss": 1.0331, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.0175, |
| "grad_norm": 1.0226874351501465, |
| "learning_rate": 1.0500000000000001e-06, |
| "loss": 1.0134, |
| "step": 21 |
| }, |
| { |
| "epoch": 0.018333333333333333, |
| "grad_norm": 0.960559070110321, |
| "learning_rate": 1.1e-06, |
| "loss": 1.0047, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.019166666666666665, |
| "grad_norm": 0.9319172501564026, |
| "learning_rate": 1.1500000000000002e-06, |
| "loss": 1.0074, |
| "step": 23 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 0.8969493508338928, |
| "learning_rate": 1.2000000000000002e-06, |
| "loss": 0.9932, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.020833333333333332, |
| "grad_norm": 0.8810667991638184, |
| "learning_rate": 1.25e-06, |
| "loss": 0.959, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.021666666666666667, |
| "grad_norm": 0.8658521175384521, |
| "learning_rate": 1.3e-06, |
| "loss": 0.9808, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.0225, |
| "grad_norm": 0.8283625841140747, |
| "learning_rate": 1.3500000000000002e-06, |
| "loss": 0.9857, |
| "step": 27 |
| }, |
| { |
| "epoch": 0.023333333333333334, |
| "grad_norm": 0.7852944135665894, |
| "learning_rate": 1.4000000000000001e-06, |
| "loss": 0.9626, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.024166666666666666, |
| "grad_norm": 0.7574114799499512, |
| "learning_rate": 1.45e-06, |
| "loss": 0.961, |
| "step": 29 |
| }, |
| { |
| "epoch": 0.025, |
| "grad_norm": 0.6753239631652832, |
| "learning_rate": 1.5e-06, |
| "loss": 0.9559, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.025833333333333333, |
| "grad_norm": 0.7140569090843201, |
| "learning_rate": 1.5500000000000002e-06, |
| "loss": 0.9888, |
| "step": 31 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.6629248261451721, |
| "learning_rate": 1.6000000000000001e-06, |
| "loss": 0.9743, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.0275, |
| "grad_norm": 0.6247519850730896, |
| "learning_rate": 1.6500000000000003e-06, |
| "loss": 0.9632, |
| "step": 33 |
| }, |
| { |
| "epoch": 0.028333333333333332, |
| "grad_norm": 0.6117823719978333, |
| "learning_rate": 1.7000000000000002e-06, |
| "loss": 0.9748, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.029166666666666667, |
| "grad_norm": 0.588638961315155, |
| "learning_rate": 1.75e-06, |
| "loss": 0.925, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.03, |
| "grad_norm": 0.5774214863777161, |
| "learning_rate": 1.8000000000000001e-06, |
| "loss": 0.9525, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.030833333333333334, |
| "grad_norm": 0.5576947331428528, |
| "learning_rate": 1.85e-06, |
| "loss": 0.9276, |
| "step": 37 |
| }, |
| { |
| "epoch": 0.03166666666666667, |
| "grad_norm": 0.5530500411987305, |
| "learning_rate": 1.9000000000000002e-06, |
| "loss": 0.9336, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.0325, |
| "grad_norm": 0.526444673538208, |
| "learning_rate": 1.9500000000000004e-06, |
| "loss": 0.9472, |
| "step": 39 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 0.522305428981781, |
| "learning_rate": 2.0000000000000003e-06, |
| "loss": 0.9391, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.034166666666666665, |
| "grad_norm": 0.5324348211288452, |
| "learning_rate": 2.05e-06, |
| "loss": 0.932, |
| "step": 41 |
| }, |
| { |
| "epoch": 0.035, |
| "grad_norm": 0.5140389800071716, |
| "learning_rate": 2.1000000000000002e-06, |
| "loss": 0.936, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.035833333333333335, |
| "grad_norm": 0.4937451183795929, |
| "learning_rate": 2.15e-06, |
| "loss": 0.9156, |
| "step": 43 |
| }, |
| { |
| "epoch": 0.03666666666666667, |
| "grad_norm": 0.4914454221725464, |
| "learning_rate": 2.2e-06, |
| "loss": 0.9017, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.0375, |
| "grad_norm": 0.463674396276474, |
| "learning_rate": 2.25e-06, |
| "loss": 0.919, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.03833333333333333, |
| "grad_norm": 0.47291600704193115, |
| "learning_rate": 2.3000000000000004e-06, |
| "loss": 0.9055, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.03916666666666667, |
| "grad_norm": 0.4750823974609375, |
| "learning_rate": 2.35e-06, |
| "loss": 0.9014, |
| "step": 47 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 0.46855229139328003, |
| "learning_rate": 2.4000000000000003e-06, |
| "loss": 0.913, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.04083333333333333, |
| "grad_norm": 0.44282588362693787, |
| "learning_rate": 2.4500000000000003e-06, |
| "loss": 0.8786, |
| "step": 49 |
| }, |
| { |
| "epoch": 0.041666666666666664, |
| "grad_norm": 0.44580671191215515, |
| "learning_rate": 2.5e-06, |
| "loss": 0.8723, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.0425, |
| "grad_norm": 0.4055674076080322, |
| "learning_rate": 2.55e-06, |
| "loss": 0.8608, |
| "step": 51 |
| }, |
| { |
| "epoch": 0.043333333333333335, |
| "grad_norm": 0.4235178530216217, |
| "learning_rate": 2.6e-06, |
| "loss": 0.8634, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.04416666666666667, |
| "grad_norm": 0.40961897373199463, |
| "learning_rate": 2.6500000000000005e-06, |
| "loss": 0.8787, |
| "step": 53 |
| }, |
| { |
| "epoch": 0.045, |
| "grad_norm": 0.4077180325984955, |
| "learning_rate": 2.7000000000000004e-06, |
| "loss": 0.8812, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.04583333333333333, |
| "grad_norm": 0.3950030207633972, |
| "learning_rate": 2.7500000000000004e-06, |
| "loss": 0.9077, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 0.39791586995124817, |
| "learning_rate": 2.8000000000000003e-06, |
| "loss": 0.8598, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.0475, |
| "grad_norm": 0.3972901999950409, |
| "learning_rate": 2.85e-06, |
| "loss": 0.895, |
| "step": 57 |
| }, |
| { |
| "epoch": 0.04833333333333333, |
| "grad_norm": 0.3858731687068939, |
| "learning_rate": 2.9e-06, |
| "loss": 0.8546, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.049166666666666664, |
| "grad_norm": 0.3872743248939514, |
| "learning_rate": 2.95e-06, |
| "loss": 0.8564, |
| "step": 59 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 0.39333608746528625, |
| "learning_rate": 3e-06, |
| "loss": 0.8712, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.050833333333333335, |
| "grad_norm": 0.3825393319129944, |
| "learning_rate": 3.05e-06, |
| "loss": 0.8393, |
| "step": 61 |
| }, |
| { |
| "epoch": 0.051666666666666666, |
| "grad_norm": 0.37787196040153503, |
| "learning_rate": 3.1000000000000004e-06, |
| "loss": 0.8615, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.0525, |
| "grad_norm": 0.3709644675254822, |
| "learning_rate": 3.1500000000000003e-06, |
| "loss": 0.8514, |
| "step": 63 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 0.37211689352989197, |
| "learning_rate": 3.2000000000000003e-06, |
| "loss": 0.8692, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.05416666666666667, |
| "grad_norm": 0.368915319442749, |
| "learning_rate": 3.2500000000000002e-06, |
| "loss": 0.8569, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.055, |
| "grad_norm": 0.37553271651268005, |
| "learning_rate": 3.3000000000000006e-06, |
| "loss": 0.8795, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.05583333333333333, |
| "grad_norm": 0.352721631526947, |
| "learning_rate": 3.3500000000000005e-06, |
| "loss": 0.8358, |
| "step": 67 |
| }, |
| { |
| "epoch": 0.056666666666666664, |
| "grad_norm": 0.36005082726478577, |
| "learning_rate": 3.4000000000000005e-06, |
| "loss": 0.8384, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.0575, |
| "grad_norm": 0.3655393421649933, |
| "learning_rate": 3.45e-06, |
| "loss": 0.8483, |
| "step": 69 |
| }, |
| { |
| "epoch": 0.058333333333333334, |
| "grad_norm": 0.36913320422172546, |
| "learning_rate": 3.5e-06, |
| "loss": 0.8355, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.059166666666666666, |
| "grad_norm": 0.35906630754470825, |
| "learning_rate": 3.5500000000000003e-06, |
| "loss": 0.8362, |
| "step": 71 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 0.35950616002082825, |
| "learning_rate": 3.6000000000000003e-06, |
| "loss": 0.8419, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.060833333333333336, |
| "grad_norm": 0.35736384987831116, |
| "learning_rate": 3.65e-06, |
| "loss": 0.8039, |
| "step": 73 |
| }, |
| { |
| "epoch": 0.06166666666666667, |
| "grad_norm": 0.34134334325790405, |
| "learning_rate": 3.7e-06, |
| "loss": 0.8325, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.0625, |
| "grad_norm": 0.35043129324913025, |
| "learning_rate": 3.7500000000000005e-06, |
| "loss": 0.8374, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.06333333333333334, |
| "grad_norm": 0.3583405017852783, |
| "learning_rate": 3.8000000000000005e-06, |
| "loss": 0.8379, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.06416666666666666, |
| "grad_norm": 0.3533692955970764, |
| "learning_rate": 3.85e-06, |
| "loss": 0.8408, |
| "step": 77 |
| }, |
| { |
| "epoch": 0.065, |
| "grad_norm": 0.33973240852355957, |
| "learning_rate": 3.900000000000001e-06, |
| "loss": 0.8432, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.06583333333333333, |
| "grad_norm": 0.35633859038352966, |
| "learning_rate": 3.95e-06, |
| "loss": 0.8436, |
| "step": 79 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 0.3565576374530792, |
| "learning_rate": 4.000000000000001e-06, |
| "loss": 0.8369, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.0675, |
| "grad_norm": 0.3609810173511505, |
| "learning_rate": 4.05e-06, |
| "loss": 0.8073, |
| "step": 81 |
| }, |
| { |
| "epoch": 0.06833333333333333, |
| "grad_norm": 0.35566118359565735, |
| "learning_rate": 4.1e-06, |
| "loss": 0.8445, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.06916666666666667, |
| "grad_norm": 0.35150593519210815, |
| "learning_rate": 4.15e-06, |
| "loss": 0.8718, |
| "step": 83 |
| }, |
| { |
| "epoch": 0.07, |
| "grad_norm": 0.35017678141593933, |
| "learning_rate": 4.2000000000000004e-06, |
| "loss": 0.8618, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.07083333333333333, |
| "grad_norm": 0.3438548743724823, |
| "learning_rate": 4.25e-06, |
| "loss": 0.8255, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.07166666666666667, |
| "grad_norm": 0.3373638391494751, |
| "learning_rate": 4.3e-06, |
| "loss": 0.8342, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.0725, |
| "grad_norm": 0.3417414128780365, |
| "learning_rate": 4.350000000000001e-06, |
| "loss": 0.8243, |
| "step": 87 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 0.3668825030326843, |
| "learning_rate": 4.4e-06, |
| "loss": 0.8324, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.07416666666666667, |
| "grad_norm": 0.3487826883792877, |
| "learning_rate": 4.450000000000001e-06, |
| "loss": 0.8071, |
| "step": 89 |
| }, |
| { |
| "epoch": 0.075, |
| "grad_norm": 0.3577321767807007, |
| "learning_rate": 4.5e-06, |
| "loss": 0.8272, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.07583333333333334, |
| "grad_norm": 0.3431159555912018, |
| "learning_rate": 4.5500000000000005e-06, |
| "loss": 0.8146, |
| "step": 91 |
| }, |
| { |
| "epoch": 0.07666666666666666, |
| "grad_norm": 0.3591880798339844, |
| "learning_rate": 4.600000000000001e-06, |
| "loss": 0.8378, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.0775, |
| "grad_norm": 0.33692434430122375, |
| "learning_rate": 4.65e-06, |
| "loss": 0.8226, |
| "step": 93 |
| }, |
| { |
| "epoch": 0.07833333333333334, |
| "grad_norm": 0.3472079932689667, |
| "learning_rate": 4.7e-06, |
| "loss": 0.8159, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.07916666666666666, |
| "grad_norm": 0.3522193133831024, |
| "learning_rate": 4.75e-06, |
| "loss": 0.8244, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 0.3516963720321655, |
| "learning_rate": 4.800000000000001e-06, |
| "loss": 0.8287, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.08083333333333333, |
| "grad_norm": 0.335097074508667, |
| "learning_rate": 4.85e-06, |
| "loss": 0.8287, |
| "step": 97 |
| }, |
| { |
| "epoch": 0.08166666666666667, |
| "grad_norm": 0.3417796194553375, |
| "learning_rate": 4.9000000000000005e-06, |
| "loss": 0.797, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.0825, |
| "grad_norm": 0.33278194069862366, |
| "learning_rate": 4.95e-06, |
| "loss": 0.8085, |
| "step": 99 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 0.3478794991970062, |
| "learning_rate": 5e-06, |
| "loss": 0.8104, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.08416666666666667, |
| "grad_norm": 0.3505585789680481, |
| "learning_rate": 4.9999997552667074e-06, |
| "loss": 0.8152, |
| "step": 101 |
| }, |
| { |
| "epoch": 0.085, |
| "grad_norm": 0.3526367247104645, |
| "learning_rate": 4.999999021066877e-06, |
| "loss": 0.8219, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.08583333333333333, |
| "grad_norm": 0.37416499853134155, |
| "learning_rate": 4.999997797400651e-06, |
| "loss": 0.8043, |
| "step": 103 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 0.35329508781433105, |
| "learning_rate": 4.999996084268271e-06, |
| "loss": 0.8313, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.0875, |
| "grad_norm": 0.347540944814682, |
| "learning_rate": 4.999993881670071e-06, |
| "loss": 0.8266, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.08833333333333333, |
| "grad_norm": 0.33843380212783813, |
| "learning_rate": 4.999991189606484e-06, |
| "loss": 0.8019, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.08916666666666667, |
| "grad_norm": 0.34694716334342957, |
| "learning_rate": 4.999988008078035e-06, |
| "loss": 0.7936, |
| "step": 107 |
| }, |
| { |
| "epoch": 0.09, |
| "grad_norm": 0.36330705881118774, |
| "learning_rate": 4.9999843370853485e-06, |
| "loss": 0.8258, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.09083333333333334, |
| "grad_norm": 0.35987865924835205, |
| "learning_rate": 4.999980176629142e-06, |
| "loss": 0.7897, |
| "step": 109 |
| }, |
| { |
| "epoch": 0.09166666666666666, |
| "grad_norm": 0.3725634813308716, |
| "learning_rate": 4.99997552671023e-06, |
| "loss": 0.7987, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.0925, |
| "grad_norm": 0.3425033390522003, |
| "learning_rate": 4.999970387329525e-06, |
| "loss": 0.7963, |
| "step": 111 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 0.3447592258453369, |
| "learning_rate": 4.999964758488031e-06, |
| "loss": 0.7929, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.09416666666666666, |
| "grad_norm": 0.3550160229206085, |
| "learning_rate": 4.9999586401868515e-06, |
| "loss": 0.81, |
| "step": 113 |
| }, |
| { |
| "epoch": 0.095, |
| "grad_norm": 0.35416096448898315, |
| "learning_rate": 4.999952032427183e-06, |
| "loss": 0.8218, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.09583333333333334, |
| "grad_norm": 0.3488410711288452, |
| "learning_rate": 4.99994493521032e-06, |
| "loss": 0.7769, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.09666666666666666, |
| "grad_norm": 0.3451888859272003, |
| "learning_rate": 4.999937348537652e-06, |
| "loss": 0.8145, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.0975, |
| "grad_norm": 0.3621158003807068, |
| "learning_rate": 4.999929272410665e-06, |
| "loss": 0.8121, |
| "step": 117 |
| }, |
| { |
| "epoch": 0.09833333333333333, |
| "grad_norm": 0.35885924100875854, |
| "learning_rate": 4.999920706830939e-06, |
| "loss": 0.8155, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.09916666666666667, |
| "grad_norm": 0.339515745639801, |
| "learning_rate": 4.999911651800151e-06, |
| "loss": 0.7966, |
| "step": 119 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 0.35636720061302185, |
| "learning_rate": 4.9999021073200754e-06, |
| "loss": 0.8152, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.10083333333333333, |
| "grad_norm": 0.37600013613700867, |
| "learning_rate": 4.999892073392579e-06, |
| "loss": 0.8198, |
| "step": 121 |
| }, |
| { |
| "epoch": 0.10166666666666667, |
| "grad_norm": 0.3581588864326477, |
| "learning_rate": 4.999881550019628e-06, |
| "loss": 0.8118, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.1025, |
| "grad_norm": 0.38209372758865356, |
| "learning_rate": 4.9998705372032815e-06, |
| "loss": 0.8029, |
| "step": 123 |
| }, |
| { |
| "epoch": 0.10333333333333333, |
| "grad_norm": 0.3533329367637634, |
| "learning_rate": 4.999859034945696e-06, |
| "loss": 0.8257, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.10416666666666667, |
| "grad_norm": 0.3652520179748535, |
| "learning_rate": 4.999847043249124e-06, |
| "loss": 0.8253, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.105, |
| "grad_norm": 0.3446200489997864, |
| "learning_rate": 4.999834562115912e-06, |
| "loss": 0.7962, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.10583333333333333, |
| "grad_norm": 0.3734533488750458, |
| "learning_rate": 4.9998215915485055e-06, |
| "loss": 0.7822, |
| "step": 127 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.36829882860183716, |
| "learning_rate": 4.999808131549443e-06, |
| "loss": 0.7825, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.1075, |
| "grad_norm": 0.34977245330810547, |
| "learning_rate": 4.999794182121359e-06, |
| "loss": 0.7878, |
| "step": 129 |
| }, |
| { |
| "epoch": 0.10833333333333334, |
| "grad_norm": 0.34649035334587097, |
| "learning_rate": 4.9997797432669855e-06, |
| "loss": 0.7917, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.10916666666666666, |
| "grad_norm": 0.36581557989120483, |
| "learning_rate": 4.9997648149891494e-06, |
| "loss": 0.7879, |
| "step": 131 |
| }, |
| { |
| "epoch": 0.11, |
| "grad_norm": 0.35695648193359375, |
| "learning_rate": 4.999749397290774e-06, |
| "loss": 0.8084, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.11083333333333334, |
| "grad_norm": 0.35371989011764526, |
| "learning_rate": 4.999733490174877e-06, |
| "loss": 0.7914, |
| "step": 133 |
| }, |
| { |
| "epoch": 0.11166666666666666, |
| "grad_norm": 0.3545876741409302, |
| "learning_rate": 4.999717093644572e-06, |
| "loss": 0.7989, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.1125, |
| "grad_norm": 0.36388111114501953, |
| "learning_rate": 4.999700207703072e-06, |
| "loss": 0.8097, |
| "step": 135 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 0.36010992527008057, |
| "learning_rate": 4.9996828323536805e-06, |
| "loss": 0.7973, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.11416666666666667, |
| "grad_norm": 0.34787869453430176, |
| "learning_rate": 4.9996649675997995e-06, |
| "loss": 0.789, |
| "step": 137 |
| }, |
| { |
| "epoch": 0.115, |
| "grad_norm": 0.36334118247032166, |
| "learning_rate": 4.9996466134449286e-06, |
| "loss": 0.7868, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.11583333333333333, |
| "grad_norm": 0.34462034702301025, |
| "learning_rate": 4.999627769892659e-06, |
| "loss": 0.8011, |
| "step": 139 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 0.3529531955718994, |
| "learning_rate": 4.999608436946682e-06, |
| "loss": 0.806, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.1175, |
| "grad_norm": 0.3514865040779114, |
| "learning_rate": 4.999588614610781e-06, |
| "loss": 0.7768, |
| "step": 141 |
| }, |
| { |
| "epoch": 0.11833333333333333, |
| "grad_norm": 0.36210018396377563, |
| "learning_rate": 4.999568302888839e-06, |
| "loss": 0.7725, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.11916666666666667, |
| "grad_norm": 0.356653094291687, |
| "learning_rate": 4.999547501784831e-06, |
| "loss": 0.7524, |
| "step": 143 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 0.3627665042877197, |
| "learning_rate": 4.999526211302828e-06, |
| "loss": 0.789, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.12083333333333333, |
| "grad_norm": 0.3673461675643921, |
| "learning_rate": 4.999504431447003e-06, |
| "loss": 0.7918, |
| "step": 145 |
| }, |
| { |
| "epoch": 0.12166666666666667, |
| "grad_norm": 0.3700329661369324, |
| "learning_rate": 4.999482162221617e-06, |
| "loss": 0.7974, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.1225, |
| "grad_norm": 0.3536025583744049, |
| "learning_rate": 4.9994594036310315e-06, |
| "loss": 0.7861, |
| "step": 147 |
| }, |
| { |
| "epoch": 0.12333333333333334, |
| "grad_norm": 0.3679131269454956, |
| "learning_rate": 4.9994361556797e-06, |
| "loss": 0.7763, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.12416666666666666, |
| "grad_norm": 0.36771222949028015, |
| "learning_rate": 4.999412418372177e-06, |
| "loss": 0.7711, |
| "step": 149 |
| }, |
| { |
| "epoch": 0.125, |
| "grad_norm": 0.3634738624095917, |
| "learning_rate": 4.9993881917131086e-06, |
| "loss": 0.7912, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.12583333333333332, |
| "grad_norm": 0.3649067282676697, |
| "learning_rate": 4.999363475707237e-06, |
| "loss": 0.7627, |
| "step": 151 |
| }, |
| { |
| "epoch": 0.12666666666666668, |
| "grad_norm": 0.35532045364379883, |
| "learning_rate": 4.999338270359403e-06, |
| "loss": 0.7926, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.1275, |
| "grad_norm": 0.35826247930526733, |
| "learning_rate": 4.999312575674541e-06, |
| "loss": 0.7931, |
| "step": 153 |
| }, |
| { |
| "epoch": 0.12833333333333333, |
| "grad_norm": 0.36087995767593384, |
| "learning_rate": 4.9992863916576804e-06, |
| "loss": 0.8066, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.12916666666666668, |
| "grad_norm": 0.35800597071647644, |
| "learning_rate": 4.9992597183139506e-06, |
| "loss": 0.7628, |
| "step": 155 |
| }, |
| { |
| "epoch": 0.13, |
| "grad_norm": 0.36373597383499146, |
| "learning_rate": 4.9992325556485705e-06, |
| "loss": 0.7708, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.13083333333333333, |
| "grad_norm": 0.3661397099494934, |
| "learning_rate": 4.99920490366686e-06, |
| "loss": 0.7743, |
| "step": 157 |
| }, |
| { |
| "epoch": 0.13166666666666665, |
| "grad_norm": 0.37233859300613403, |
| "learning_rate": 4.999176762374234e-06, |
| "loss": 0.7974, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.1325, |
| "grad_norm": 0.35442104935646057, |
| "learning_rate": 4.999148131776199e-06, |
| "loss": 0.7652, |
| "step": 159 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.3924972414970398, |
| "learning_rate": 4.999119011878364e-06, |
| "loss": 0.7978, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.13416666666666666, |
| "grad_norm": 0.4362795650959015, |
| "learning_rate": 4.9990894026864275e-06, |
| "loss": 0.7947, |
| "step": 161 |
| }, |
| { |
| "epoch": 0.135, |
| "grad_norm": 0.3709726333618164, |
| "learning_rate": 4.999059304206189e-06, |
| "loss": 0.7908, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.13583333333333333, |
| "grad_norm": 0.35826730728149414, |
| "learning_rate": 4.999028716443539e-06, |
| "loss": 0.7814, |
| "step": 163 |
| }, |
| { |
| "epoch": 0.13666666666666666, |
| "grad_norm": 0.38429173827171326, |
| "learning_rate": 4.998997639404468e-06, |
| "loss": 0.7678, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.1375, |
| "grad_norm": 0.376558393239975, |
| "learning_rate": 4.99896607309506e-06, |
| "loss": 0.7593, |
| "step": 165 |
| }, |
| { |
| "epoch": 0.13833333333333334, |
| "grad_norm": 0.3639720678329468, |
| "learning_rate": 4.998934017521495e-06, |
| "loss": 0.7769, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.13916666666666666, |
| "grad_norm": 0.38841623067855835, |
| "learning_rate": 4.998901472690049e-06, |
| "loss": 0.7728, |
| "step": 167 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 0.36425021290779114, |
| "learning_rate": 4.998868438607094e-06, |
| "loss": 0.7702, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.14083333333333334, |
| "grad_norm": 0.376455157995224, |
| "learning_rate": 4.998834915279097e-06, |
| "loss": 0.7645, |
| "step": 169 |
| }, |
| { |
| "epoch": 0.14166666666666666, |
| "grad_norm": 0.3707723319530487, |
| "learning_rate": 4.998800902712623e-06, |
| "loss": 0.7711, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.1425, |
| "grad_norm": 0.3775656223297119, |
| "learning_rate": 4.998766400914329e-06, |
| "loss": 0.7659, |
| "step": 171 |
| }, |
| { |
| "epoch": 0.14333333333333334, |
| "grad_norm": 0.3919985294342041, |
| "learning_rate": 4.998731409890972e-06, |
| "loss": 0.7811, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.14416666666666667, |
| "grad_norm": 0.39199399948120117, |
| "learning_rate": 4.9986959296494016e-06, |
| "loss": 0.7704, |
| "step": 173 |
| }, |
| { |
| "epoch": 0.145, |
| "grad_norm": 0.39340391755104065, |
| "learning_rate": 4.9986599601965656e-06, |
| "loss": 0.7732, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.14583333333333334, |
| "grad_norm": 0.37447303533554077, |
| "learning_rate": 4.998623501539504e-06, |
| "loss": 0.7541, |
| "step": 175 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 0.3860747814178467, |
| "learning_rate": 4.998586553685359e-06, |
| "loss": 0.7935, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.1475, |
| "grad_norm": 0.3735111653804779, |
| "learning_rate": 4.998549116641359e-06, |
| "loss": 0.785, |
| "step": 177 |
| }, |
| { |
| "epoch": 0.14833333333333334, |
| "grad_norm": 0.3839254379272461, |
| "learning_rate": 4.9985111904148384e-06, |
| "loss": 0.7578, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.14916666666666667, |
| "grad_norm": 0.38898995518684387, |
| "learning_rate": 4.99847277501322e-06, |
| "loss": 0.7866, |
| "step": 179 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 0.3699515163898468, |
| "learning_rate": 4.998433870444026e-06, |
| "loss": 0.7663, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.15083333333333335, |
| "grad_norm": 0.3879365622997284, |
| "learning_rate": 4.998394476714874e-06, |
| "loss": 0.7429, |
| "step": 181 |
| }, |
| { |
| "epoch": 0.15166666666666667, |
| "grad_norm": 0.3695140779018402, |
| "learning_rate": 4.9983545938334756e-06, |
| "loss": 0.7968, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.1525, |
| "grad_norm": 0.3635151982307434, |
| "learning_rate": 4.998314221807638e-06, |
| "loss": 0.7682, |
| "step": 183 |
| }, |
| { |
| "epoch": 0.15333333333333332, |
| "grad_norm": 0.35855668783187866, |
| "learning_rate": 4.99827336064527e-06, |
| "loss": 0.7543, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.15416666666666667, |
| "grad_norm": 0.37712377309799194, |
| "learning_rate": 4.998232010354367e-06, |
| "loss": 0.7869, |
| "step": 185 |
| }, |
| { |
| "epoch": 0.155, |
| "grad_norm": 0.37327340245246887, |
| "learning_rate": 4.998190170943028e-06, |
| "loss": 0.7617, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.15583333333333332, |
| "grad_norm": 0.38740837574005127, |
| "learning_rate": 4.998147842419442e-06, |
| "loss": 0.7932, |
| "step": 187 |
| }, |
| { |
| "epoch": 0.15666666666666668, |
| "grad_norm": 0.3772065341472626, |
| "learning_rate": 4.998105024791898e-06, |
| "loss": 0.7672, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.1575, |
| "grad_norm": 0.38418206572532654, |
| "learning_rate": 4.99806171806878e-06, |
| "loss": 0.762, |
| "step": 189 |
| }, |
| { |
| "epoch": 0.15833333333333333, |
| "grad_norm": 0.38887330889701843, |
| "learning_rate": 4.998017922258564e-06, |
| "loss": 0.7764, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.15916666666666668, |
| "grad_norm": 0.36791321635246277, |
| "learning_rate": 4.997973637369828e-06, |
| "loss": 0.766, |
| "step": 191 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.3709692060947418, |
| "learning_rate": 4.99792886341124e-06, |
| "loss": 0.7609, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.16083333333333333, |
| "grad_norm": 0.3846558630466461, |
| "learning_rate": 4.997883600391567e-06, |
| "loss": 0.7509, |
| "step": 193 |
| }, |
| { |
| "epoch": 0.16166666666666665, |
| "grad_norm": 0.3780789077281952, |
| "learning_rate": 4.99783784831967e-06, |
| "loss": 0.7634, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.1625, |
| "grad_norm": 0.36646682024002075, |
| "learning_rate": 4.997791607204509e-06, |
| "loss": 0.7804, |
| "step": 195 |
| }, |
| { |
| "epoch": 0.16333333333333333, |
| "grad_norm": 0.37776893377304077, |
| "learning_rate": 4.997744877055134e-06, |
| "loss": 0.7636, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.16416666666666666, |
| "grad_norm": 0.3815717101097107, |
| "learning_rate": 4.9976976578806965e-06, |
| "loss": 0.751, |
| "step": 197 |
| }, |
| { |
| "epoch": 0.165, |
| "grad_norm": 0.39156651496887207, |
| "learning_rate": 4.997649949690442e-06, |
| "loss": 0.7613, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.16583333333333333, |
| "grad_norm": 0.36160358786582947, |
| "learning_rate": 4.997601752493709e-06, |
| "loss": 0.7679, |
| "step": 199 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.3756240904331207, |
| "learning_rate": 4.997553066299934e-06, |
| "loss": 0.7573, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.1675, |
| "grad_norm": 0.3761761486530304, |
| "learning_rate": 4.997503891118651e-06, |
| "loss": 0.7628, |
| "step": 201 |
| }, |
| { |
| "epoch": 0.16833333333333333, |
| "grad_norm": 0.3864724338054657, |
| "learning_rate": 4.9974542269594865e-06, |
| "loss": 0.7392, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.16916666666666666, |
| "grad_norm": 0.3820183277130127, |
| "learning_rate": 4.997404073832165e-06, |
| "loss": 0.7653, |
| "step": 203 |
| }, |
| { |
| "epoch": 0.17, |
| "grad_norm": 0.3783702552318573, |
| "learning_rate": 4.997353431746504e-06, |
| "loss": 0.7336, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.17083333333333334, |
| "grad_norm": 0.3944641947746277, |
| "learning_rate": 4.99730230071242e-06, |
| "loss": 0.7692, |
| "step": 205 |
| }, |
| { |
| "epoch": 0.17166666666666666, |
| "grad_norm": 0.39105913043022156, |
| "learning_rate": 4.997250680739923e-06, |
| "loss": 0.7691, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.1725, |
| "grad_norm": 0.4006231725215912, |
| "learning_rate": 4.997198571839121e-06, |
| "loss": 0.755, |
| "step": 207 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 0.3811741769313812, |
| "learning_rate": 4.9971459740202145e-06, |
| "loss": 0.7718, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.17416666666666666, |
| "grad_norm": 0.3822275400161743, |
| "learning_rate": 4.997092887293503e-06, |
| "loss": 0.7544, |
| "step": 209 |
| }, |
| { |
| "epoch": 0.175, |
| "grad_norm": 0.401355504989624, |
| "learning_rate": 4.9970393116693785e-06, |
| "loss": 0.7595, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.17583333333333334, |
| "grad_norm": 0.39196428656578064, |
| "learning_rate": 4.996985247158331e-06, |
| "loss": 0.765, |
| "step": 211 |
| }, |
| { |
| "epoch": 0.17666666666666667, |
| "grad_norm": 0.4076025187969208, |
| "learning_rate": 4.996930693770947e-06, |
| "loss": 0.752, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.1775, |
| "grad_norm": 0.3844936490058899, |
| "learning_rate": 4.996875651517905e-06, |
| "loss": 0.7242, |
| "step": 213 |
| }, |
| { |
| "epoch": 0.17833333333333334, |
| "grad_norm": 0.37500861287117004, |
| "learning_rate": 4.996820120409983e-06, |
| "loss": 0.7525, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.17916666666666667, |
| "grad_norm": 0.3904462158679962, |
| "learning_rate": 4.996764100458053e-06, |
| "loss": 0.7521, |
| "step": 215 |
| }, |
| { |
| "epoch": 0.18, |
| "grad_norm": 0.37583500146865845, |
| "learning_rate": 4.996707591673084e-06, |
| "loss": 0.7814, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.18083333333333335, |
| "grad_norm": 0.3917851448059082, |
| "learning_rate": 4.996650594066137e-06, |
| "loss": 0.7557, |
| "step": 217 |
| }, |
| { |
| "epoch": 0.18166666666666667, |
| "grad_norm": 0.40137824416160583, |
| "learning_rate": 4.9965931076483735e-06, |
| "loss": 0.7534, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.1825, |
| "grad_norm": 0.40111401677131653, |
| "learning_rate": 4.996535132431048e-06, |
| "loss": 0.7738, |
| "step": 219 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 0.39719894528388977, |
| "learning_rate": 4.99647666842551e-06, |
| "loss": 0.7726, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.18416666666666667, |
| "grad_norm": 0.39689141511917114, |
| "learning_rate": 4.996417715643209e-06, |
| "loss": 0.7541, |
| "step": 221 |
| }, |
| { |
| "epoch": 0.185, |
| "grad_norm": 0.39099663496017456, |
| "learning_rate": 4.996358274095684e-06, |
| "loss": 0.7547, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.18583333333333332, |
| "grad_norm": 0.39196664094924927, |
| "learning_rate": 4.996298343794576e-06, |
| "loss": 0.7644, |
| "step": 223 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 0.3910345733165741, |
| "learning_rate": 4.996237924751616e-06, |
| "loss": 0.7396, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.1875, |
| "grad_norm": 0.3950398564338684, |
| "learning_rate": 4.996177016978633e-06, |
| "loss": 0.7432, |
| "step": 225 |
| }, |
| { |
| "epoch": 0.18833333333333332, |
| "grad_norm": 0.39441680908203125, |
| "learning_rate": 4.996115620487554e-06, |
| "loss": 0.7692, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.18916666666666668, |
| "grad_norm": 0.3933153450489044, |
| "learning_rate": 4.996053735290398e-06, |
| "loss": 0.7589, |
| "step": 227 |
| }, |
| { |
| "epoch": 0.19, |
| "grad_norm": 0.3911586403846741, |
| "learning_rate": 4.9959913613992824e-06, |
| "loss": 0.7373, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.19083333333333333, |
| "grad_norm": 0.40785402059555054, |
| "learning_rate": 4.995928498826419e-06, |
| "loss": 0.7658, |
| "step": 229 |
| }, |
| { |
| "epoch": 0.19166666666666668, |
| "grad_norm": 0.3948311507701874, |
| "learning_rate": 4.9958651475841145e-06, |
| "loss": 0.7809, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.1925, |
| "grad_norm": 0.3839765191078186, |
| "learning_rate": 4.995801307684773e-06, |
| "loss": 0.7771, |
| "step": 231 |
| }, |
| { |
| "epoch": 0.19333333333333333, |
| "grad_norm": 0.39128726720809937, |
| "learning_rate": 4.995736979140894e-06, |
| "loss": 0.7322, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.19416666666666665, |
| "grad_norm": 0.3875157833099365, |
| "learning_rate": 4.995672161965071e-06, |
| "loss": 0.7712, |
| "step": 233 |
| }, |
| { |
| "epoch": 0.195, |
| "grad_norm": 0.39921367168426514, |
| "learning_rate": 4.995606856169995e-06, |
| "loss": 0.7687, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.19583333333333333, |
| "grad_norm": 0.3909481167793274, |
| "learning_rate": 4.995541061768451e-06, |
| "loss": 0.7435, |
| "step": 235 |
| }, |
| { |
| "epoch": 0.19666666666666666, |
| "grad_norm": 0.4150286912918091, |
| "learning_rate": 4.995474778773322e-06, |
| "loss": 0.8013, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.1975, |
| "grad_norm": 0.3832659423351288, |
| "learning_rate": 4.995408007197585e-06, |
| "loss": 0.7769, |
| "step": 237 |
| }, |
| { |
| "epoch": 0.19833333333333333, |
| "grad_norm": 0.3956066370010376, |
| "learning_rate": 4.9953407470543126e-06, |
| "loss": 0.7424, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.19916666666666666, |
| "grad_norm": 0.4045463800430298, |
| "learning_rate": 4.995272998356674e-06, |
| "loss": 0.7529, |
| "step": 239 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 0.41016334295272827, |
| "learning_rate": 4.995204761117933e-06, |
| "loss": 0.783, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.20083333333333334, |
| "grad_norm": 0.39553338289260864, |
| "learning_rate": 4.9951360353514494e-06, |
| "loss": 0.7452, |
| "step": 241 |
| }, |
| { |
| "epoch": 0.20166666666666666, |
| "grad_norm": 0.40888774394989014, |
| "learning_rate": 4.9950668210706795e-06, |
| "loss": 0.7444, |
| "step": 242 |
| }, |
| { |
| "epoch": 0.2025, |
| "grad_norm": 0.40222835540771484, |
| "learning_rate": 4.994997118289174e-06, |
| "loss": 0.764, |
| "step": 243 |
| }, |
| { |
| "epoch": 0.20333333333333334, |
| "grad_norm": 0.4101916253566742, |
| "learning_rate": 4.994926927020579e-06, |
| "loss": 0.7444, |
| "step": 244 |
| }, |
| { |
| "epoch": 0.20416666666666666, |
| "grad_norm": 0.3984578847885132, |
| "learning_rate": 4.994856247278639e-06, |
| "loss": 0.7623, |
| "step": 245 |
| }, |
| { |
| "epoch": 0.205, |
| "grad_norm": 0.404247522354126, |
| "learning_rate": 4.994785079077192e-06, |
| "loss": 0.7791, |
| "step": 246 |
| }, |
| { |
| "epoch": 0.20583333333333334, |
| "grad_norm": 0.40907022356987, |
| "learning_rate": 4.994713422430169e-06, |
| "loss": 0.7534, |
| "step": 247 |
| }, |
| { |
| "epoch": 0.20666666666666667, |
| "grad_norm": 0.3909395933151245, |
| "learning_rate": 4.994641277351601e-06, |
| "loss": 0.7506, |
| "step": 248 |
| }, |
| { |
| "epoch": 0.2075, |
| "grad_norm": 0.3906393349170685, |
| "learning_rate": 4.994568643855614e-06, |
| "loss": 0.7391, |
| "step": 249 |
| }, |
| { |
| "epoch": 0.20833333333333334, |
| "grad_norm": 0.4059241712093353, |
| "learning_rate": 4.9944955219564285e-06, |
| "loss": 0.7648, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.20916666666666667, |
| "grad_norm": 0.4067172706127167, |
| "learning_rate": 4.994421911668359e-06, |
| "loss": 0.74, |
| "step": 251 |
| }, |
| { |
| "epoch": 0.21, |
| "grad_norm": 0.39897552132606506, |
| "learning_rate": 4.9943478130058194e-06, |
| "loss": 0.7678, |
| "step": 252 |
| }, |
| { |
| "epoch": 0.21083333333333334, |
| "grad_norm": 0.39684775471687317, |
| "learning_rate": 4.994273225983317e-06, |
| "loss": 0.776, |
| "step": 253 |
| }, |
| { |
| "epoch": 0.21166666666666667, |
| "grad_norm": 0.4042363166809082, |
| "learning_rate": 4.994198150615454e-06, |
| "loss": 0.7596, |
| "step": 254 |
| }, |
| { |
| "epoch": 0.2125, |
| "grad_norm": 0.40387728810310364, |
| "learning_rate": 4.994122586916928e-06, |
| "loss": 0.754, |
| "step": 255 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 0.419778972864151, |
| "learning_rate": 4.994046534902537e-06, |
| "loss": 0.7358, |
| "step": 256 |
| }, |
| { |
| "epoch": 0.21416666666666667, |
| "grad_norm": 0.40244922041893005, |
| "learning_rate": 4.9939699945871685e-06, |
| "loss": 0.7718, |
| "step": 257 |
| }, |
| { |
| "epoch": 0.215, |
| "grad_norm": 0.4182301163673401, |
| "learning_rate": 4.993892965985808e-06, |
| "loss": 0.7385, |
| "step": 258 |
| }, |
| { |
| "epoch": 0.21583333333333332, |
| "grad_norm": 0.41493624448776245, |
| "learning_rate": 4.993815449113537e-06, |
| "loss": 0.7551, |
| "step": 259 |
| }, |
| { |
| "epoch": 0.21666666666666667, |
| "grad_norm": 0.40071433782577515, |
| "learning_rate": 4.9937374439855336e-06, |
| "loss": 0.7604, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.2175, |
| "grad_norm": 0.4069051146507263, |
| "learning_rate": 4.993658950617067e-06, |
| "loss": 0.7527, |
| "step": 261 |
| }, |
| { |
| "epoch": 0.21833333333333332, |
| "grad_norm": 0.4501640796661377, |
| "learning_rate": 4.993579969023509e-06, |
| "loss": 0.7632, |
| "step": 262 |
| }, |
| { |
| "epoch": 0.21916666666666668, |
| "grad_norm": 0.3968100845813751, |
| "learning_rate": 4.993500499220321e-06, |
| "loss": 0.7507, |
| "step": 263 |
| }, |
| { |
| "epoch": 0.22, |
| "grad_norm": 0.40784579515457153, |
| "learning_rate": 4.99342054122306e-06, |
| "loss": 0.7467, |
| "step": 264 |
| }, |
| { |
| "epoch": 0.22083333333333333, |
| "grad_norm": 0.4129437208175659, |
| "learning_rate": 4.993340095047387e-06, |
| "loss": 0.7645, |
| "step": 265 |
| }, |
| { |
| "epoch": 0.22166666666666668, |
| "grad_norm": 0.40144386887550354, |
| "learning_rate": 4.9932591607090456e-06, |
| "loss": 0.7491, |
| "step": 266 |
| }, |
| { |
| "epoch": 0.2225, |
| "grad_norm": 0.4076482951641083, |
| "learning_rate": 4.993177738223885e-06, |
| "loss": 0.741, |
| "step": 267 |
| }, |
| { |
| "epoch": 0.22333333333333333, |
| "grad_norm": 0.4115305542945862, |
| "learning_rate": 4.993095827607846e-06, |
| "loss": 0.7351, |
| "step": 268 |
| }, |
| { |
| "epoch": 0.22416666666666665, |
| "grad_norm": 0.419331818819046, |
| "learning_rate": 4.993013428876966e-06, |
| "loss": 0.7459, |
| "step": 269 |
| }, |
| { |
| "epoch": 0.225, |
| "grad_norm": 0.39884573221206665, |
| "learning_rate": 4.992930542047377e-06, |
| "loss": 0.7704, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.22583333333333333, |
| "grad_norm": 0.40413135290145874, |
| "learning_rate": 4.992847167135308e-06, |
| "loss": 0.7608, |
| "step": 271 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 0.3927971422672272, |
| "learning_rate": 4.992763304157081e-06, |
| "loss": 0.7541, |
| "step": 272 |
| }, |
| { |
| "epoch": 0.2275, |
| "grad_norm": 0.411477655172348, |
| "learning_rate": 4.992678953129117e-06, |
| "loss": 0.7539, |
| "step": 273 |
| }, |
| { |
| "epoch": 0.22833333333333333, |
| "grad_norm": 0.4042636752128601, |
| "learning_rate": 4.99259411406793e-06, |
| "loss": 0.7293, |
| "step": 274 |
| }, |
| { |
| "epoch": 0.22916666666666666, |
| "grad_norm": 0.4152175784111023, |
| "learning_rate": 4.992508786990131e-06, |
| "loss": 0.751, |
| "step": 275 |
| }, |
| { |
| "epoch": 0.23, |
| "grad_norm": 0.4228000342845917, |
| "learning_rate": 4.992422971912425e-06, |
| "loss": 0.7747, |
| "step": 276 |
| }, |
| { |
| "epoch": 0.23083333333333333, |
| "grad_norm": 0.42432528734207153, |
| "learning_rate": 4.992336668851614e-06, |
| "loss": 0.7465, |
| "step": 277 |
| }, |
| { |
| "epoch": 0.23166666666666666, |
| "grad_norm": 0.40531831979751587, |
| "learning_rate": 4.992249877824594e-06, |
| "loss": 0.7411, |
| "step": 278 |
| }, |
| { |
| "epoch": 0.2325, |
| "grad_norm": 0.4052167236804962, |
| "learning_rate": 4.992162598848359e-06, |
| "loss": 0.7544, |
| "step": 279 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 0.40429621934890747, |
| "learning_rate": 4.992074831939997e-06, |
| "loss": 0.7673, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.23416666666666666, |
| "grad_norm": 0.41028928756713867, |
| "learning_rate": 4.9919865771166895e-06, |
| "loss": 0.7408, |
| "step": 281 |
| }, |
| { |
| "epoch": 0.235, |
| "grad_norm": 0.413400799036026, |
| "learning_rate": 4.991897834395718e-06, |
| "loss": 0.7352, |
| "step": 282 |
| }, |
| { |
| "epoch": 0.23583333333333334, |
| "grad_norm": 0.4166741371154785, |
| "learning_rate": 4.991808603794457e-06, |
| "loss": 0.7348, |
| "step": 283 |
| }, |
| { |
| "epoch": 0.23666666666666666, |
| "grad_norm": 0.39821478724479675, |
| "learning_rate": 4.991718885330375e-06, |
| "loss": 0.7426, |
| "step": 284 |
| }, |
| { |
| "epoch": 0.2375, |
| "grad_norm": 0.41993921995162964, |
| "learning_rate": 4.991628679021038e-06, |
| "loss": 0.7349, |
| "step": 285 |
| }, |
| { |
| "epoch": 0.23833333333333334, |
| "grad_norm": 0.4206007719039917, |
| "learning_rate": 4.9915379848841086e-06, |
| "loss": 0.7275, |
| "step": 286 |
| }, |
| { |
| "epoch": 0.23916666666666667, |
| "grad_norm": 0.426255464553833, |
| "learning_rate": 4.991446802937342e-06, |
| "loss": 0.7696, |
| "step": 287 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 0.4184487760066986, |
| "learning_rate": 4.991355133198592e-06, |
| "loss": 0.7385, |
| "step": 288 |
| }, |
| { |
| "epoch": 0.24083333333333334, |
| "grad_norm": 0.41202300786972046, |
| "learning_rate": 4.9912629756858045e-06, |
| "loss": 0.7284, |
| "step": 289 |
| }, |
| { |
| "epoch": 0.24166666666666667, |
| "grad_norm": 0.39601144194602966, |
| "learning_rate": 4.991170330417024e-06, |
| "loss": 0.7339, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.2425, |
| "grad_norm": 0.4065456688404083, |
| "learning_rate": 4.991077197410389e-06, |
| "loss": 0.7457, |
| "step": 291 |
| }, |
| { |
| "epoch": 0.24333333333333335, |
| "grad_norm": 0.40557557344436646, |
| "learning_rate": 4.990983576684133e-06, |
| "loss": 0.7233, |
| "step": 292 |
| }, |
| { |
| "epoch": 0.24416666666666667, |
| "grad_norm": 0.4060608744621277, |
| "learning_rate": 4.990889468256587e-06, |
| "loss": 0.7252, |
| "step": 293 |
| }, |
| { |
| "epoch": 0.245, |
| "grad_norm": 0.39837005734443665, |
| "learning_rate": 4.990794872146175e-06, |
| "loss": 0.7382, |
| "step": 294 |
| }, |
| { |
| "epoch": 0.24583333333333332, |
| "grad_norm": 0.4049685001373291, |
| "learning_rate": 4.990699788371417e-06, |
| "loss": 0.7675, |
| "step": 295 |
| }, |
| { |
| "epoch": 0.24666666666666667, |
| "grad_norm": 0.4153214395046234, |
| "learning_rate": 4.990604216950932e-06, |
| "loss": 0.7576, |
| "step": 296 |
| }, |
| { |
| "epoch": 0.2475, |
| "grad_norm": 0.41540607810020447, |
| "learning_rate": 4.990508157903427e-06, |
| "loss": 0.7442, |
| "step": 297 |
| }, |
| { |
| "epoch": 0.24833333333333332, |
| "grad_norm": 0.40810921788215637, |
| "learning_rate": 4.990411611247714e-06, |
| "loss": 0.7267, |
| "step": 298 |
| }, |
| { |
| "epoch": 0.24916666666666668, |
| "grad_norm": 0.4171510636806488, |
| "learning_rate": 4.990314577002694e-06, |
| "loss": 0.743, |
| "step": 299 |
| }, |
| { |
| "epoch": 0.25, |
| "grad_norm": 0.41149425506591797, |
| "learning_rate": 4.990217055187363e-06, |
| "loss": 0.7324, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.25083333333333335, |
| "grad_norm": 0.44357189536094666, |
| "learning_rate": 4.990119045820816e-06, |
| "loss": 0.7585, |
| "step": 301 |
| }, |
| { |
| "epoch": 0.25166666666666665, |
| "grad_norm": 0.42975008487701416, |
| "learning_rate": 4.990020548922241e-06, |
| "loss": 0.7256, |
| "step": 302 |
| }, |
| { |
| "epoch": 0.2525, |
| "grad_norm": 0.42218875885009766, |
| "learning_rate": 4.9899215645109245e-06, |
| "loss": 0.7547, |
| "step": 303 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 0.41412419080734253, |
| "learning_rate": 4.9898220926062445e-06, |
| "loss": 0.7367, |
| "step": 304 |
| }, |
| { |
| "epoch": 0.25416666666666665, |
| "grad_norm": 0.4209183156490326, |
| "learning_rate": 4.989722133227677e-06, |
| "loss": 0.7125, |
| "step": 305 |
| }, |
| { |
| "epoch": 0.255, |
| "grad_norm": 0.4184161424636841, |
| "learning_rate": 4.989621686394792e-06, |
| "loss": 0.7559, |
| "step": 306 |
| }, |
| { |
| "epoch": 0.25583333333333336, |
| "grad_norm": 0.4240727722644806, |
| "learning_rate": 4.989520752127256e-06, |
| "loss": 0.7465, |
| "step": 307 |
| }, |
| { |
| "epoch": 0.25666666666666665, |
| "grad_norm": 0.41498860716819763, |
| "learning_rate": 4.989419330444831e-06, |
| "loss": 0.7606, |
| "step": 308 |
| }, |
| { |
| "epoch": 0.2575, |
| "grad_norm": 0.426451712846756, |
| "learning_rate": 4.989317421367374e-06, |
| "loss": 0.7243, |
| "step": 309 |
| }, |
| { |
| "epoch": 0.25833333333333336, |
| "grad_norm": 0.43363121151924133, |
| "learning_rate": 4.989215024914836e-06, |
| "loss": 0.7308, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.25916666666666666, |
| "grad_norm": 0.40274131298065186, |
| "learning_rate": 4.989112141107267e-06, |
| "loss": 0.7425, |
| "step": 311 |
| }, |
| { |
| "epoch": 0.26, |
| "grad_norm": 0.4230787754058838, |
| "learning_rate": 4.989008769964809e-06, |
| "loss": 0.7659, |
| "step": 312 |
| }, |
| { |
| "epoch": 0.2608333333333333, |
| "grad_norm": 0.41552403569221497, |
| "learning_rate": 4.9889049115077e-06, |
| "loss": 0.7617, |
| "step": 313 |
| }, |
| { |
| "epoch": 0.26166666666666666, |
| "grad_norm": 0.4259801506996155, |
| "learning_rate": 4.9888005657562766e-06, |
| "loss": 0.7787, |
| "step": 314 |
| }, |
| { |
| "epoch": 0.2625, |
| "grad_norm": 0.4154621660709381, |
| "learning_rate": 4.988695732730966e-06, |
| "loss": 0.7475, |
| "step": 315 |
| }, |
| { |
| "epoch": 0.2633333333333333, |
| "grad_norm": 0.41139304637908936, |
| "learning_rate": 4.988590412452293e-06, |
| "loss": 0.7332, |
| "step": 316 |
| }, |
| { |
| "epoch": 0.26416666666666666, |
| "grad_norm": 0.42044857144355774, |
| "learning_rate": 4.98848460494088e-06, |
| "loss": 0.7548, |
| "step": 317 |
| }, |
| { |
| "epoch": 0.265, |
| "grad_norm": 0.4254603683948517, |
| "learning_rate": 4.988378310217441e-06, |
| "loss": 0.7367, |
| "step": 318 |
| }, |
| { |
| "epoch": 0.2658333333333333, |
| "grad_norm": 0.4228353202342987, |
| "learning_rate": 4.988271528302788e-06, |
| "loss": 0.7319, |
| "step": 319 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.4186948239803314, |
| "learning_rate": 4.988164259217827e-06, |
| "loss": 0.7259, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.2675, |
| "grad_norm": 0.4253525137901306, |
| "learning_rate": 4.988056502983559e-06, |
| "loss": 0.7363, |
| "step": 321 |
| }, |
| { |
| "epoch": 0.2683333333333333, |
| "grad_norm": 0.4164015054702759, |
| "learning_rate": 4.987948259621083e-06, |
| "loss": 0.7432, |
| "step": 322 |
| }, |
| { |
| "epoch": 0.26916666666666667, |
| "grad_norm": 0.4166833460330963, |
| "learning_rate": 4.9878395291515906e-06, |
| "loss": 0.7058, |
| "step": 323 |
| }, |
| { |
| "epoch": 0.27, |
| "grad_norm": 0.4276393949985504, |
| "learning_rate": 4.987730311596369e-06, |
| "loss": 0.7675, |
| "step": 324 |
| }, |
| { |
| "epoch": 0.2708333333333333, |
| "grad_norm": 0.427462637424469, |
| "learning_rate": 4.9876206069768025e-06, |
| "loss": 0.7257, |
| "step": 325 |
| }, |
| { |
| "epoch": 0.27166666666666667, |
| "grad_norm": 0.41950249671936035, |
| "learning_rate": 4.987510415314371e-06, |
| "loss": 0.7477, |
| "step": 326 |
| }, |
| { |
| "epoch": 0.2725, |
| "grad_norm": 0.43789610266685486, |
| "learning_rate": 4.987399736630646e-06, |
| "loss": 0.7304, |
| "step": 327 |
| }, |
| { |
| "epoch": 0.2733333333333333, |
| "grad_norm": 0.4318910241127014, |
| "learning_rate": 4.987288570947298e-06, |
| "loss": 0.7414, |
| "step": 328 |
| }, |
| { |
| "epoch": 0.27416666666666667, |
| "grad_norm": 0.42547401785850525, |
| "learning_rate": 4.987176918286093e-06, |
| "loss": 0.7404, |
| "step": 329 |
| }, |
| { |
| "epoch": 0.275, |
| "grad_norm": 0.45188772678375244, |
| "learning_rate": 4.987064778668888e-06, |
| "loss": 0.7131, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.2758333333333333, |
| "grad_norm": 0.42341092228889465, |
| "learning_rate": 4.986952152117643e-06, |
| "loss": 0.7417, |
| "step": 331 |
| }, |
| { |
| "epoch": 0.27666666666666667, |
| "grad_norm": 0.42618414759635925, |
| "learning_rate": 4.986839038654406e-06, |
| "loss": 0.7151, |
| "step": 332 |
| }, |
| { |
| "epoch": 0.2775, |
| "grad_norm": 0.4244473874568939, |
| "learning_rate": 4.986725438301321e-06, |
| "loss": 0.7551, |
| "step": 333 |
| }, |
| { |
| "epoch": 0.2783333333333333, |
| "grad_norm": 0.430927038192749, |
| "learning_rate": 4.986611351080633e-06, |
| "loss": 0.7088, |
| "step": 334 |
| }, |
| { |
| "epoch": 0.2791666666666667, |
| "grad_norm": 0.4299659729003906, |
| "learning_rate": 4.986496777014678e-06, |
| "loss": 0.7035, |
| "step": 335 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 0.42113977670669556, |
| "learning_rate": 4.986381716125887e-06, |
| "loss": 0.7203, |
| "step": 336 |
| }, |
| { |
| "epoch": 0.2808333333333333, |
| "grad_norm": 0.4511653780937195, |
| "learning_rate": 4.986266168436789e-06, |
| "loss": 0.7496, |
| "step": 337 |
| }, |
| { |
| "epoch": 0.2816666666666667, |
| "grad_norm": 0.44857802987098694, |
| "learning_rate": 4.986150133970004e-06, |
| "loss": 0.6979, |
| "step": 338 |
| }, |
| { |
| "epoch": 0.2825, |
| "grad_norm": 0.4449015259742737, |
| "learning_rate": 4.986033612748253e-06, |
| "loss": 0.7465, |
| "step": 339 |
| }, |
| { |
| "epoch": 0.2833333333333333, |
| "grad_norm": 0.4319685399532318, |
| "learning_rate": 4.985916604794348e-06, |
| "loss": 0.7442, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.2841666666666667, |
| "grad_norm": 0.4102455675601959, |
| "learning_rate": 4.985799110131197e-06, |
| "loss": 0.7365, |
| "step": 341 |
| }, |
| { |
| "epoch": 0.285, |
| "grad_norm": 0.4212186336517334, |
| "learning_rate": 4.985681128781804e-06, |
| "loss": 0.7375, |
| "step": 342 |
| }, |
| { |
| "epoch": 0.28583333333333333, |
| "grad_norm": 0.42774149775505066, |
| "learning_rate": 4.98556266076927e-06, |
| "loss": 0.7442, |
| "step": 343 |
| }, |
| { |
| "epoch": 0.2866666666666667, |
| "grad_norm": 0.4243312478065491, |
| "learning_rate": 4.985443706116787e-06, |
| "loss": 0.7381, |
| "step": 344 |
| }, |
| { |
| "epoch": 0.2875, |
| "grad_norm": 0.44701287150382996, |
| "learning_rate": 4.9853242648476465e-06, |
| "loss": 0.7158, |
| "step": 345 |
| }, |
| { |
| "epoch": 0.28833333333333333, |
| "grad_norm": 0.43794766068458557, |
| "learning_rate": 4.985204336985232e-06, |
| "loss": 0.7455, |
| "step": 346 |
| }, |
| { |
| "epoch": 0.2891666666666667, |
| "grad_norm": 0.4464855492115021, |
| "learning_rate": 4.985083922553024e-06, |
| "loss": 0.7648, |
| "step": 347 |
| }, |
| { |
| "epoch": 0.29, |
| "grad_norm": 0.42439213395118713, |
| "learning_rate": 4.9849630215746e-06, |
| "loss": 0.7446, |
| "step": 348 |
| }, |
| { |
| "epoch": 0.29083333333333333, |
| "grad_norm": 0.4272073209285736, |
| "learning_rate": 4.9848416340736285e-06, |
| "loss": 0.7241, |
| "step": 349 |
| }, |
| { |
| "epoch": 0.2916666666666667, |
| "grad_norm": 0.4212620258331299, |
| "learning_rate": 4.984719760073877e-06, |
| "loss": 0.7222, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.2925, |
| "grad_norm": 0.42391151189804077, |
| "learning_rate": 4.984597399599206e-06, |
| "loss": 0.7232, |
| "step": 351 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 0.4544355273246765, |
| "learning_rate": 4.984474552673573e-06, |
| "loss": 0.7315, |
| "step": 352 |
| }, |
| { |
| "epoch": 0.2941666666666667, |
| "grad_norm": 0.42181697487831116, |
| "learning_rate": 4.984351219321028e-06, |
| "loss": 0.7313, |
| "step": 353 |
| }, |
| { |
| "epoch": 0.295, |
| "grad_norm": 0.43560174107551575, |
| "learning_rate": 4.984227399565719e-06, |
| "loss": 0.7301, |
| "step": 354 |
| }, |
| { |
| "epoch": 0.29583333333333334, |
| "grad_norm": 0.4335043430328369, |
| "learning_rate": 4.98410309343189e-06, |
| "loss": 0.7273, |
| "step": 355 |
| }, |
| { |
| "epoch": 0.2966666666666667, |
| "grad_norm": 0.44462448358535767, |
| "learning_rate": 4.983978300943876e-06, |
| "loss": 0.749, |
| "step": 356 |
| }, |
| { |
| "epoch": 0.2975, |
| "grad_norm": 0.44785431027412415, |
| "learning_rate": 4.9838530221261095e-06, |
| "loss": 0.7462, |
| "step": 357 |
| }, |
| { |
| "epoch": 0.29833333333333334, |
| "grad_norm": 0.45324379205703735, |
| "learning_rate": 4.98372725700312e-06, |
| "loss": 0.7573, |
| "step": 358 |
| }, |
| { |
| "epoch": 0.2991666666666667, |
| "grad_norm": 0.43796685338020325, |
| "learning_rate": 4.98360100559953e-06, |
| "loss": 0.7513, |
| "step": 359 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 0.4299045205116272, |
| "learning_rate": 4.983474267940059e-06, |
| "loss": 0.7169, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.30083333333333334, |
| "grad_norm": 0.42903605103492737, |
| "learning_rate": 4.983347044049519e-06, |
| "loss": 0.7471, |
| "step": 361 |
| }, |
| { |
| "epoch": 0.3016666666666667, |
| "grad_norm": 0.45894020795822144, |
| "learning_rate": 4.983219333952819e-06, |
| "loss": 0.7188, |
| "step": 362 |
| }, |
| { |
| "epoch": 0.3025, |
| "grad_norm": 0.4472663700580597, |
| "learning_rate": 4.9830911376749626e-06, |
| "loss": 0.7493, |
| "step": 363 |
| }, |
| { |
| "epoch": 0.30333333333333334, |
| "grad_norm": 0.4302862286567688, |
| "learning_rate": 4.98296245524105e-06, |
| "loss": 0.7253, |
| "step": 364 |
| }, |
| { |
| "epoch": 0.30416666666666664, |
| "grad_norm": 0.4276480972766876, |
| "learning_rate": 4.982833286676274e-06, |
| "loss": 0.7233, |
| "step": 365 |
| }, |
| { |
| "epoch": 0.305, |
| "grad_norm": 0.4444246292114258, |
| "learning_rate": 4.982703632005926e-06, |
| "loss": 0.7318, |
| "step": 366 |
| }, |
| { |
| "epoch": 0.30583333333333335, |
| "grad_norm": 0.42736467719078064, |
| "learning_rate": 4.98257349125539e-06, |
| "loss": 0.7292, |
| "step": 367 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 0.457657128572464, |
| "learning_rate": 4.982442864450145e-06, |
| "loss": 0.7342, |
| "step": 368 |
| }, |
| { |
| "epoch": 0.3075, |
| "grad_norm": 0.4388102889060974, |
| "learning_rate": 4.982311751615766e-06, |
| "loss": 0.7367, |
| "step": 369 |
| }, |
| { |
| "epoch": 0.30833333333333335, |
| "grad_norm": 0.42860573530197144, |
| "learning_rate": 4.982180152777925e-06, |
| "loss": 0.7267, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.30916666666666665, |
| "grad_norm": 0.43819475173950195, |
| "learning_rate": 4.982048067962384e-06, |
| "loss": 0.7399, |
| "step": 371 |
| }, |
| { |
| "epoch": 0.31, |
| "grad_norm": 0.4660872220993042, |
| "learning_rate": 4.981915497195007e-06, |
| "loss": 0.7032, |
| "step": 372 |
| }, |
| { |
| "epoch": 0.31083333333333335, |
| "grad_norm": 0.4358060956001282, |
| "learning_rate": 4.981782440501748e-06, |
| "loss": 0.7213, |
| "step": 373 |
| }, |
| { |
| "epoch": 0.31166666666666665, |
| "grad_norm": 0.4425748288631439, |
| "learning_rate": 4.981648897908656e-06, |
| "loss": 0.7309, |
| "step": 374 |
| }, |
| { |
| "epoch": 0.3125, |
| "grad_norm": 0.4365919530391693, |
| "learning_rate": 4.98151486944188e-06, |
| "loss": 0.746, |
| "step": 375 |
| }, |
| { |
| "epoch": 0.31333333333333335, |
| "grad_norm": 0.4414806067943573, |
| "learning_rate": 4.981380355127658e-06, |
| "loss": 0.7462, |
| "step": 376 |
| }, |
| { |
| "epoch": 0.31416666666666665, |
| "grad_norm": 0.44274869561195374, |
| "learning_rate": 4.981245354992329e-06, |
| "loss": 0.732, |
| "step": 377 |
| }, |
| { |
| "epoch": 0.315, |
| "grad_norm": 0.45117679238319397, |
| "learning_rate": 4.981109869062323e-06, |
| "loss": 0.747, |
| "step": 378 |
| }, |
| { |
| "epoch": 0.31583333333333335, |
| "grad_norm": 0.4164119064807892, |
| "learning_rate": 4.980973897364166e-06, |
| "loss": 0.7163, |
| "step": 379 |
| }, |
| { |
| "epoch": 0.31666666666666665, |
| "grad_norm": 0.44350653886795044, |
| "learning_rate": 4.980837439924479e-06, |
| "loss": 0.7339, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.3175, |
| "grad_norm": 0.4421967566013336, |
| "learning_rate": 4.980700496769979e-06, |
| "loss": 0.7397, |
| "step": 381 |
| }, |
| { |
| "epoch": 0.31833333333333336, |
| "grad_norm": 0.4458411931991577, |
| "learning_rate": 4.980563067927478e-06, |
| "loss": 0.7079, |
| "step": 382 |
| }, |
| { |
| "epoch": 0.31916666666666665, |
| "grad_norm": 0.44256216287612915, |
| "learning_rate": 4.980425153423883e-06, |
| "loss": 0.756, |
| "step": 383 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 0.42830541729927063, |
| "learning_rate": 4.980286753286196e-06, |
| "loss": 0.7219, |
| "step": 384 |
| }, |
| { |
| "epoch": 0.32083333333333336, |
| "grad_norm": 0.4483656585216522, |
| "learning_rate": 4.980147867541512e-06, |
| "loss": 0.7362, |
| "step": 385 |
| }, |
| { |
| "epoch": 0.32166666666666666, |
| "grad_norm": 0.42397555708885193, |
| "learning_rate": 4.9800084962170235e-06, |
| "loss": 0.7318, |
| "step": 386 |
| }, |
| { |
| "epoch": 0.3225, |
| "grad_norm": 0.41890963912010193, |
| "learning_rate": 4.97986863934002e-06, |
| "loss": 0.7137, |
| "step": 387 |
| }, |
| { |
| "epoch": 0.3233333333333333, |
| "grad_norm": 0.4360620081424713, |
| "learning_rate": 4.97972829693788e-06, |
| "loss": 0.7364, |
| "step": 388 |
| }, |
| { |
| "epoch": 0.32416666666666666, |
| "grad_norm": 0.4450368881225586, |
| "learning_rate": 4.979587469038084e-06, |
| "loss": 0.7188, |
| "step": 389 |
| }, |
| { |
| "epoch": 0.325, |
| "grad_norm": 0.4503145217895508, |
| "learning_rate": 4.979446155668202e-06, |
| "loss": 0.7524, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.3258333333333333, |
| "grad_norm": 0.43446269631385803, |
| "learning_rate": 4.979304356855902e-06, |
| "loss": 0.7477, |
| "step": 391 |
| }, |
| { |
| "epoch": 0.32666666666666666, |
| "grad_norm": 0.430242657661438, |
| "learning_rate": 4.979162072628947e-06, |
| "loss": 0.7324, |
| "step": 392 |
| }, |
| { |
| "epoch": 0.3275, |
| "grad_norm": 0.44269561767578125, |
| "learning_rate": 4.979019303015194e-06, |
| "loss": 0.7389, |
| "step": 393 |
| }, |
| { |
| "epoch": 0.3283333333333333, |
| "grad_norm": 0.44329893589019775, |
| "learning_rate": 4.978876048042593e-06, |
| "loss": 0.7286, |
| "step": 394 |
| }, |
| { |
| "epoch": 0.32916666666666666, |
| "grad_norm": 0.43951505422592163, |
| "learning_rate": 4.978732307739196e-06, |
| "loss": 0.7286, |
| "step": 395 |
| }, |
| { |
| "epoch": 0.33, |
| "grad_norm": 0.43779468536376953, |
| "learning_rate": 4.9785880821331415e-06, |
| "loss": 0.7514, |
| "step": 396 |
| }, |
| { |
| "epoch": 0.3308333333333333, |
| "grad_norm": 0.44083550572395325, |
| "learning_rate": 4.978443371252668e-06, |
| "loss": 0.7169, |
| "step": 397 |
| }, |
| { |
| "epoch": 0.33166666666666667, |
| "grad_norm": 0.4317465126514435, |
| "learning_rate": 4.97829817512611e-06, |
| "loss": 0.7137, |
| "step": 398 |
| }, |
| { |
| "epoch": 0.3325, |
| "grad_norm": 0.44962823390960693, |
| "learning_rate": 4.9781524937818914e-06, |
| "loss": 0.7285, |
| "step": 399 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.4581443667411804, |
| "learning_rate": 4.978006327248537e-06, |
| "loss": 0.7255, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.33416666666666667, |
| "grad_norm": 0.44889774918556213, |
| "learning_rate": 4.977859675554664e-06, |
| "loss": 0.7178, |
| "step": 401 |
| }, |
| { |
| "epoch": 0.335, |
| "grad_norm": 0.4475254714488983, |
| "learning_rate": 4.977712538728985e-06, |
| "loss": 0.7347, |
| "step": 402 |
| }, |
| { |
| "epoch": 0.3358333333333333, |
| "grad_norm": 0.47498849034309387, |
| "learning_rate": 4.977564916800306e-06, |
| "loss": 0.7435, |
| "step": 403 |
| }, |
| { |
| "epoch": 0.33666666666666667, |
| "grad_norm": 0.4499281346797943, |
| "learning_rate": 4.977416809797531e-06, |
| "loss": 0.7195, |
| "step": 404 |
| }, |
| { |
| "epoch": 0.3375, |
| "grad_norm": 0.44963398575782776, |
| "learning_rate": 4.977268217749656e-06, |
| "loss": 0.7317, |
| "step": 405 |
| }, |
| { |
| "epoch": 0.3383333333333333, |
| "grad_norm": 0.465316504240036, |
| "learning_rate": 4.977119140685775e-06, |
| "loss": 0.7312, |
| "step": 406 |
| }, |
| { |
| "epoch": 0.33916666666666667, |
| "grad_norm": 0.44482365250587463, |
| "learning_rate": 4.976969578635075e-06, |
| "loss": 0.7204, |
| "step": 407 |
| }, |
| { |
| "epoch": 0.34, |
| "grad_norm": 0.43372973799705505, |
| "learning_rate": 4.976819531626838e-06, |
| "loss": 0.7307, |
| "step": 408 |
| }, |
| { |
| "epoch": 0.3408333333333333, |
| "grad_norm": 0.44234418869018555, |
| "learning_rate": 4.9766689996904394e-06, |
| "loss": 0.7325, |
| "step": 409 |
| }, |
| { |
| "epoch": 0.3416666666666667, |
| "grad_norm": 0.452543169260025, |
| "learning_rate": 4.976517982855353e-06, |
| "loss": 0.7089, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.3425, |
| "grad_norm": 0.45068028569221497, |
| "learning_rate": 4.976366481151147e-06, |
| "loss": 0.7492, |
| "step": 411 |
| }, |
| { |
| "epoch": 0.3433333333333333, |
| "grad_norm": 0.4673871397972107, |
| "learning_rate": 4.976214494607481e-06, |
| "loss": 0.7212, |
| "step": 412 |
| }, |
| { |
| "epoch": 0.3441666666666667, |
| "grad_norm": 0.44686195254325867, |
| "learning_rate": 4.976062023254114e-06, |
| "loss": 0.7237, |
| "step": 413 |
| }, |
| { |
| "epoch": 0.345, |
| "grad_norm": 0.4662364721298218, |
| "learning_rate": 4.975909067120895e-06, |
| "loss": 0.7392, |
| "step": 414 |
| }, |
| { |
| "epoch": 0.3458333333333333, |
| "grad_norm": 0.4416569173336029, |
| "learning_rate": 4.9757556262377745e-06, |
| "loss": 0.7324, |
| "step": 415 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 0.45594707131385803, |
| "learning_rate": 4.975601700634791e-06, |
| "loss": 0.7398, |
| "step": 416 |
| }, |
| { |
| "epoch": 0.3475, |
| "grad_norm": 0.4480917751789093, |
| "learning_rate": 4.975447290342084e-06, |
| "loss": 0.7396, |
| "step": 417 |
| }, |
| { |
| "epoch": 0.34833333333333333, |
| "grad_norm": 0.46372804045677185, |
| "learning_rate": 4.9752923953898826e-06, |
| "loss": 0.7279, |
| "step": 418 |
| }, |
| { |
| "epoch": 0.3491666666666667, |
| "grad_norm": 0.4589317739009857, |
| "learning_rate": 4.975137015808513e-06, |
| "loss": 0.7266, |
| "step": 419 |
| }, |
| { |
| "epoch": 0.35, |
| "grad_norm": 0.4607466459274292, |
| "learning_rate": 4.974981151628398e-06, |
| "loss": 0.7377, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.35083333333333333, |
| "grad_norm": 0.4491315484046936, |
| "learning_rate": 4.974824802880054e-06, |
| "loss": 0.7101, |
| "step": 421 |
| }, |
| { |
| "epoch": 0.3516666666666667, |
| "grad_norm": 0.4505137801170349, |
| "learning_rate": 4.9746679695940904e-06, |
| "loss": 0.7199, |
| "step": 422 |
| }, |
| { |
| "epoch": 0.3525, |
| "grad_norm": 0.4504340887069702, |
| "learning_rate": 4.9745106518012146e-06, |
| "loss": 0.7233, |
| "step": 423 |
| }, |
| { |
| "epoch": 0.35333333333333333, |
| "grad_norm": 0.47033044695854187, |
| "learning_rate": 4.974352849532226e-06, |
| "loss": 0.7016, |
| "step": 424 |
| }, |
| { |
| "epoch": 0.3541666666666667, |
| "grad_norm": 0.4403928518295288, |
| "learning_rate": 4.97419456281802e-06, |
| "loss": 0.7023, |
| "step": 425 |
| }, |
| { |
| "epoch": 0.355, |
| "grad_norm": 0.4770509898662567, |
| "learning_rate": 4.974035791689588e-06, |
| "loss": 0.7207, |
| "step": 426 |
| }, |
| { |
| "epoch": 0.35583333333333333, |
| "grad_norm": 0.4648571312427521, |
| "learning_rate": 4.973876536178015e-06, |
| "loss": 0.7255, |
| "step": 427 |
| }, |
| { |
| "epoch": 0.3566666666666667, |
| "grad_norm": 0.4399651885032654, |
| "learning_rate": 4.973716796314482e-06, |
| "loss": 0.7315, |
| "step": 428 |
| }, |
| { |
| "epoch": 0.3575, |
| "grad_norm": 0.468749463558197, |
| "learning_rate": 4.9735565721302615e-06, |
| "loss": 0.7215, |
| "step": 429 |
| }, |
| { |
| "epoch": 0.35833333333333334, |
| "grad_norm": 0.4581863582134247, |
| "learning_rate": 4.973395863656726e-06, |
| "loss": 0.7283, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.3591666666666667, |
| "grad_norm": 0.4445386826992035, |
| "learning_rate": 4.973234670925338e-06, |
| "loss": 0.6994, |
| "step": 431 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 0.45476222038269043, |
| "learning_rate": 4.973072993967658e-06, |
| "loss": 0.7208, |
| "step": 432 |
| }, |
| { |
| "epoch": 0.36083333333333334, |
| "grad_norm": 0.45746493339538574, |
| "learning_rate": 4.97291083281534e-06, |
| "loss": 0.7231, |
| "step": 433 |
| }, |
| { |
| "epoch": 0.3616666666666667, |
| "grad_norm": 0.4445231854915619, |
| "learning_rate": 4.9727481875001326e-06, |
| "loss": 0.7316, |
| "step": 434 |
| }, |
| { |
| "epoch": 0.3625, |
| "grad_norm": 0.46907079219818115, |
| "learning_rate": 4.972585058053879e-06, |
| "loss": 0.7311, |
| "step": 435 |
| }, |
| { |
| "epoch": 0.36333333333333334, |
| "grad_norm": 0.47230264544487, |
| "learning_rate": 4.972421444508521e-06, |
| "loss": 0.7352, |
| "step": 436 |
| }, |
| { |
| "epoch": 0.3641666666666667, |
| "grad_norm": 0.44319337606430054, |
| "learning_rate": 4.972257346896088e-06, |
| "loss": 0.7219, |
| "step": 437 |
| }, |
| { |
| "epoch": 0.365, |
| "grad_norm": 0.46985113620758057, |
| "learning_rate": 4.972092765248709e-06, |
| "loss": 0.733, |
| "step": 438 |
| }, |
| { |
| "epoch": 0.36583333333333334, |
| "grad_norm": 0.4737989604473114, |
| "learning_rate": 4.971927699598609e-06, |
| "loss": 0.7217, |
| "step": 439 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 0.44317662715911865, |
| "learning_rate": 4.971762149978103e-06, |
| "loss": 0.7001, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.3675, |
| "grad_norm": 0.46036818623542786, |
| "learning_rate": 4.971596116419606e-06, |
| "loss": 0.7159, |
| "step": 441 |
| }, |
| { |
| "epoch": 0.36833333333333335, |
| "grad_norm": 0.47075971961021423, |
| "learning_rate": 4.971429598955623e-06, |
| "loss": 0.711, |
| "step": 442 |
| }, |
| { |
| "epoch": 0.36916666666666664, |
| "grad_norm": 0.45767584443092346, |
| "learning_rate": 4.971262597618756e-06, |
| "loss": 0.7232, |
| "step": 443 |
| }, |
| { |
| "epoch": 0.37, |
| "grad_norm": 0.48424965143203735, |
| "learning_rate": 4.971095112441703e-06, |
| "loss": 0.7182, |
| "step": 444 |
| }, |
| { |
| "epoch": 0.37083333333333335, |
| "grad_norm": 0.4523642659187317, |
| "learning_rate": 4.970927143457255e-06, |
| "loss": 0.7455, |
| "step": 445 |
| }, |
| { |
| "epoch": 0.37166666666666665, |
| "grad_norm": 0.44370710849761963, |
| "learning_rate": 4.970758690698297e-06, |
| "loss": 0.7195, |
| "step": 446 |
| }, |
| { |
| "epoch": 0.3725, |
| "grad_norm": 0.48020926117897034, |
| "learning_rate": 4.970589754197811e-06, |
| "loss": 0.7396, |
| "step": 447 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 0.477601557970047, |
| "learning_rate": 4.970420333988873e-06, |
| "loss": 0.7159, |
| "step": 448 |
| }, |
| { |
| "epoch": 0.37416666666666665, |
| "grad_norm": 0.47169166803359985, |
| "learning_rate": 4.9702504301046505e-06, |
| "loss": 0.7265, |
| "step": 449 |
| }, |
| { |
| "epoch": 0.375, |
| "grad_norm": 0.47068580985069275, |
| "learning_rate": 4.97008004257841e-06, |
| "loss": 0.705, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.37583333333333335, |
| "grad_norm": 0.45133304595947266, |
| "learning_rate": 4.969909171443512e-06, |
| "loss": 0.73, |
| "step": 451 |
| }, |
| { |
| "epoch": 0.37666666666666665, |
| "grad_norm": 0.4500066637992859, |
| "learning_rate": 4.969737816733411e-06, |
| "loss": 0.7277, |
| "step": 452 |
| }, |
| { |
| "epoch": 0.3775, |
| "grad_norm": 0.475951611995697, |
| "learning_rate": 4.969565978481654e-06, |
| "loss": 0.6951, |
| "step": 453 |
| }, |
| { |
| "epoch": 0.37833333333333335, |
| "grad_norm": 0.44676122069358826, |
| "learning_rate": 4.969393656721886e-06, |
| "loss": 0.7306, |
| "step": 454 |
| }, |
| { |
| "epoch": 0.37916666666666665, |
| "grad_norm": 0.4901207685470581, |
| "learning_rate": 4.9692208514878445e-06, |
| "loss": 0.7209, |
| "step": 455 |
| }, |
| { |
| "epoch": 0.38, |
| "grad_norm": 0.459177166223526, |
| "learning_rate": 4.969047562813363e-06, |
| "loss": 0.7301, |
| "step": 456 |
| }, |
| { |
| "epoch": 0.38083333333333336, |
| "grad_norm": 0.4697854816913605, |
| "learning_rate": 4.96887379073237e-06, |
| "loss": 0.7512, |
| "step": 457 |
| }, |
| { |
| "epoch": 0.38166666666666665, |
| "grad_norm": 0.4652157127857208, |
| "learning_rate": 4.968699535278886e-06, |
| "loss": 0.7559, |
| "step": 458 |
| }, |
| { |
| "epoch": 0.3825, |
| "grad_norm": 0.4756168723106384, |
| "learning_rate": 4.968524796487028e-06, |
| "loss": 0.7294, |
| "step": 459 |
| }, |
| { |
| "epoch": 0.38333333333333336, |
| "grad_norm": 0.4670083820819855, |
| "learning_rate": 4.968349574391009e-06, |
| "loss": 0.7335, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.38416666666666666, |
| "grad_norm": 0.46000048518180847, |
| "learning_rate": 4.968173869025134e-06, |
| "loss": 0.6845, |
| "step": 461 |
| }, |
| { |
| "epoch": 0.385, |
| "grad_norm": 0.464958131313324, |
| "learning_rate": 4.967997680423804e-06, |
| "loss": 0.7077, |
| "step": 462 |
| }, |
| { |
| "epoch": 0.3858333333333333, |
| "grad_norm": 0.46760886907577515, |
| "learning_rate": 4.967821008621515e-06, |
| "loss": 0.7256, |
| "step": 463 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 0.4775695502758026, |
| "learning_rate": 4.967643853652856e-06, |
| "loss": 0.7247, |
| "step": 464 |
| }, |
| { |
| "epoch": 0.3875, |
| "grad_norm": 0.4554520547389984, |
| "learning_rate": 4.967466215552511e-06, |
| "loss": 0.719, |
| "step": 465 |
| }, |
| { |
| "epoch": 0.3883333333333333, |
| "grad_norm": 0.46731194853782654, |
| "learning_rate": 4.967288094355262e-06, |
| "loss": 0.7196, |
| "step": 466 |
| }, |
| { |
| "epoch": 0.38916666666666666, |
| "grad_norm": 0.46212297677993774, |
| "learning_rate": 4.9671094900959804e-06, |
| "loss": 0.7253, |
| "step": 467 |
| }, |
| { |
| "epoch": 0.39, |
| "grad_norm": 0.481896311044693, |
| "learning_rate": 4.9669304028096345e-06, |
| "loss": 0.7356, |
| "step": 468 |
| }, |
| { |
| "epoch": 0.3908333333333333, |
| "grad_norm": 0.4651428461074829, |
| "learning_rate": 4.966750832531288e-06, |
| "loss": 0.7347, |
| "step": 469 |
| }, |
| { |
| "epoch": 0.39166666666666666, |
| "grad_norm": 0.46207377314567566, |
| "learning_rate": 4.966570779296098e-06, |
| "loss": 0.6938, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.3925, |
| "grad_norm": 0.45925164222717285, |
| "learning_rate": 4.9663902431393165e-06, |
| "loss": 0.7241, |
| "step": 471 |
| }, |
| { |
| "epoch": 0.3933333333333333, |
| "grad_norm": 0.46172574162483215, |
| "learning_rate": 4.96620922409629e-06, |
| "loss": 0.739, |
| "step": 472 |
| }, |
| { |
| "epoch": 0.39416666666666667, |
| "grad_norm": 0.4509231746196747, |
| "learning_rate": 4.96602772220246e-06, |
| "loss": 0.7043, |
| "step": 473 |
| }, |
| { |
| "epoch": 0.395, |
| "grad_norm": 0.4675430357456207, |
| "learning_rate": 4.965845737493363e-06, |
| "loss": 0.7062, |
| "step": 474 |
| }, |
| { |
| "epoch": 0.3958333333333333, |
| "grad_norm": 0.4617745876312256, |
| "learning_rate": 4.965663270004627e-06, |
| "loss": 0.7084, |
| "step": 475 |
| }, |
| { |
| "epoch": 0.39666666666666667, |
| "grad_norm": 0.4648987054824829, |
| "learning_rate": 4.965480319771978e-06, |
| "loss": 0.7355, |
| "step": 476 |
| }, |
| { |
| "epoch": 0.3975, |
| "grad_norm": 0.48100748658180237, |
| "learning_rate": 4.9652968868312346e-06, |
| "loss": 0.7131, |
| "step": 477 |
| }, |
| { |
| "epoch": 0.3983333333333333, |
| "grad_norm": 0.46484121680259705, |
| "learning_rate": 4.9651129712183116e-06, |
| "loss": 0.7103, |
| "step": 478 |
| }, |
| { |
| "epoch": 0.39916666666666667, |
| "grad_norm": 0.46905842423439026, |
| "learning_rate": 4.964928572969216e-06, |
| "loss": 0.72, |
| "step": 479 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.4665108621120453, |
| "learning_rate": 4.9647436921200514e-06, |
| "loss": 0.7293, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.4008333333333333, |
| "grad_norm": 0.47185784578323364, |
| "learning_rate": 4.9645583287070145e-06, |
| "loss": 0.7181, |
| "step": 481 |
| }, |
| { |
| "epoch": 0.40166666666666667, |
| "grad_norm": 0.48065367341041565, |
| "learning_rate": 4.964372482766397e-06, |
| "loss": 0.7192, |
| "step": 482 |
| }, |
| { |
| "epoch": 0.4025, |
| "grad_norm": 0.4816732704639435, |
| "learning_rate": 4.964186154334586e-06, |
| "loss": 0.7361, |
| "step": 483 |
| }, |
| { |
| "epoch": 0.4033333333333333, |
| "grad_norm": 0.4730132520198822, |
| "learning_rate": 4.96399934344806e-06, |
| "loss": 0.7365, |
| "step": 484 |
| }, |
| { |
| "epoch": 0.4041666666666667, |
| "grad_norm": 0.4708881676197052, |
| "learning_rate": 4.963812050143398e-06, |
| "loss": 0.7244, |
| "step": 485 |
| }, |
| { |
| "epoch": 0.405, |
| "grad_norm": 0.4635087847709656, |
| "learning_rate": 4.963624274457264e-06, |
| "loss": 0.7189, |
| "step": 486 |
| }, |
| { |
| "epoch": 0.4058333333333333, |
| "grad_norm": 0.4617489278316498, |
| "learning_rate": 4.963436016426426e-06, |
| "loss": 0.7164, |
| "step": 487 |
| }, |
| { |
| "epoch": 0.4066666666666667, |
| "grad_norm": 0.4764353334903717, |
| "learning_rate": 4.963247276087742e-06, |
| "loss": 0.7196, |
| "step": 488 |
| }, |
| { |
| "epoch": 0.4075, |
| "grad_norm": 0.45897895097732544, |
| "learning_rate": 4.963058053478162e-06, |
| "loss": 0.7278, |
| "step": 489 |
| }, |
| { |
| "epoch": 0.4083333333333333, |
| "grad_norm": 0.46642646193504333, |
| "learning_rate": 4.962868348634737e-06, |
| "loss": 0.7164, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.4091666666666667, |
| "grad_norm": 0.47697651386260986, |
| "learning_rate": 4.962678161594608e-06, |
| "loss": 0.7411, |
| "step": 491 |
| }, |
| { |
| "epoch": 0.41, |
| "grad_norm": 0.47984251379966736, |
| "learning_rate": 4.962487492395008e-06, |
| "loss": 0.7393, |
| "step": 492 |
| }, |
| { |
| "epoch": 0.41083333333333333, |
| "grad_norm": 0.46771949529647827, |
| "learning_rate": 4.96229634107327e-06, |
| "loss": 0.7354, |
| "step": 493 |
| }, |
| { |
| "epoch": 0.4116666666666667, |
| "grad_norm": 0.46159738302230835, |
| "learning_rate": 4.96210470766682e-06, |
| "loss": 0.7254, |
| "step": 494 |
| }, |
| { |
| "epoch": 0.4125, |
| "grad_norm": 0.473518967628479, |
| "learning_rate": 4.961912592213174e-06, |
| "loss": 0.7249, |
| "step": 495 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 0.4579017460346222, |
| "learning_rate": 4.961719994749948e-06, |
| "loss": 0.7088, |
| "step": 496 |
| }, |
| { |
| "epoch": 0.4141666666666667, |
| "grad_norm": 0.4698212742805481, |
| "learning_rate": 4.96152691531485e-06, |
| "loss": 0.7222, |
| "step": 497 |
| }, |
| { |
| "epoch": 0.415, |
| "grad_norm": 0.4671380817890167, |
| "learning_rate": 4.9613333539456805e-06, |
| "loss": 0.7188, |
| "step": 498 |
| }, |
| { |
| "epoch": 0.41583333333333333, |
| "grad_norm": 0.46331900358200073, |
| "learning_rate": 4.961139310680339e-06, |
| "loss": 0.7003, |
| "step": 499 |
| }, |
| { |
| "epoch": 0.4166666666666667, |
| "grad_norm": 0.4642249047756195, |
| "learning_rate": 4.960944785556814e-06, |
| "loss": 0.7121, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.4175, |
| "grad_norm": 0.44827917218208313, |
| "learning_rate": 4.960749778613193e-06, |
| "loss": 0.7223, |
| "step": 501 |
| }, |
| { |
| "epoch": 0.41833333333333333, |
| "grad_norm": 0.47208625078201294, |
| "learning_rate": 4.960554289887653e-06, |
| "loss": 0.7422, |
| "step": 502 |
| }, |
| { |
| "epoch": 0.4191666666666667, |
| "grad_norm": 0.4699961841106415, |
| "learning_rate": 4.960358319418472e-06, |
| "loss": 0.7467, |
| "step": 503 |
| }, |
| { |
| "epoch": 0.42, |
| "grad_norm": 0.47173166275024414, |
| "learning_rate": 4.960161867244015e-06, |
| "loss": 0.7302, |
| "step": 504 |
| }, |
| { |
| "epoch": 0.42083333333333334, |
| "grad_norm": 0.4668010175228119, |
| "learning_rate": 4.959964933402746e-06, |
| "loss": 0.7074, |
| "step": 505 |
| }, |
| { |
| "epoch": 0.4216666666666667, |
| "grad_norm": 0.46306827664375305, |
| "learning_rate": 4.959767517933222e-06, |
| "loss": 0.738, |
| "step": 506 |
| }, |
| { |
| "epoch": 0.4225, |
| "grad_norm": 0.4671972692012787, |
| "learning_rate": 4.959569620874094e-06, |
| "loss": 0.7097, |
| "step": 507 |
| }, |
| { |
| "epoch": 0.42333333333333334, |
| "grad_norm": 0.47125792503356934, |
| "learning_rate": 4.959371242264109e-06, |
| "loss": 0.7166, |
| "step": 508 |
| }, |
| { |
| "epoch": 0.4241666666666667, |
| "grad_norm": 0.46299198269844055, |
| "learning_rate": 4.959172382142105e-06, |
| "loss": 0.7488, |
| "step": 509 |
| }, |
| { |
| "epoch": 0.425, |
| "grad_norm": 0.4751565456390381, |
| "learning_rate": 4.958973040547016e-06, |
| "loss": 0.72, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.42583333333333334, |
| "grad_norm": 0.46424582600593567, |
| "learning_rate": 4.958773217517873e-06, |
| "loss": 0.745, |
| "step": 511 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 0.45838502049446106, |
| "learning_rate": 4.958572913093795e-06, |
| "loss": 0.7209, |
| "step": 512 |
| }, |
| { |
| "epoch": 0.4275, |
| "grad_norm": 0.47205454111099243, |
| "learning_rate": 4.958372127314003e-06, |
| "loss": 0.7313, |
| "step": 513 |
| }, |
| { |
| "epoch": 0.42833333333333334, |
| "grad_norm": 0.46480584144592285, |
| "learning_rate": 4.958170860217804e-06, |
| "loss": 0.7014, |
| "step": 514 |
| }, |
| { |
| "epoch": 0.42916666666666664, |
| "grad_norm": 0.4785641133785248, |
| "learning_rate": 4.957969111844607e-06, |
| "loss": 0.7039, |
| "step": 515 |
| }, |
| { |
| "epoch": 0.43, |
| "grad_norm": 0.48162949085235596, |
| "learning_rate": 4.95776688223391e-06, |
| "loss": 0.7166, |
| "step": 516 |
| }, |
| { |
| "epoch": 0.43083333333333335, |
| "grad_norm": 0.4745679795742035, |
| "learning_rate": 4.957564171425307e-06, |
| "loss": 0.7142, |
| "step": 517 |
| }, |
| { |
| "epoch": 0.43166666666666664, |
| "grad_norm": 0.4671272337436676, |
| "learning_rate": 4.9573609794584856e-06, |
| "loss": 0.6994, |
| "step": 518 |
| }, |
| { |
| "epoch": 0.4325, |
| "grad_norm": 0.4763210713863373, |
| "learning_rate": 4.9571573063732295e-06, |
| "loss": 0.7264, |
| "step": 519 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 0.47782424092292786, |
| "learning_rate": 4.956953152209412e-06, |
| "loss": 0.6988, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.43416666666666665, |
| "grad_norm": 0.46321046352386475, |
| "learning_rate": 4.956748517007008e-06, |
| "loss": 0.7131, |
| "step": 521 |
| }, |
| { |
| "epoch": 0.435, |
| "grad_norm": 0.4767902195453644, |
| "learning_rate": 4.9565434008060795e-06, |
| "loss": 0.7127, |
| "step": 522 |
| }, |
| { |
| "epoch": 0.43583333333333335, |
| "grad_norm": 0.4774905741214752, |
| "learning_rate": 4.956337803646787e-06, |
| "loss": 0.7114, |
| "step": 523 |
| }, |
| { |
| "epoch": 0.43666666666666665, |
| "grad_norm": 0.4685854911804199, |
| "learning_rate": 4.956131725569382e-06, |
| "loss": 0.7448, |
| "step": 524 |
| }, |
| { |
| "epoch": 0.4375, |
| "grad_norm": 0.47481775283813477, |
| "learning_rate": 4.9559251666142135e-06, |
| "loss": 0.7348, |
| "step": 525 |
| }, |
| { |
| "epoch": 0.43833333333333335, |
| "grad_norm": 0.4648106098175049, |
| "learning_rate": 4.9557181268217225e-06, |
| "loss": 0.6891, |
| "step": 526 |
| }, |
| { |
| "epoch": 0.43916666666666665, |
| "grad_norm": 0.45128193497657776, |
| "learning_rate": 4.955510606232444e-06, |
| "loss": 0.7326, |
| "step": 527 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 0.46679434180259705, |
| "learning_rate": 4.955302604887008e-06, |
| "loss": 0.6952, |
| "step": 528 |
| }, |
| { |
| "epoch": 0.44083333333333335, |
| "grad_norm": 0.4732985496520996, |
| "learning_rate": 4.955094122826138e-06, |
| "loss": 0.6818, |
| "step": 529 |
| }, |
| { |
| "epoch": 0.44166666666666665, |
| "grad_norm": 0.4654479920864105, |
| "learning_rate": 4.954885160090653e-06, |
| "loss": 0.7348, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.4425, |
| "grad_norm": 0.4805556833744049, |
| "learning_rate": 4.954675716721465e-06, |
| "loss": 0.722, |
| "step": 531 |
| }, |
| { |
| "epoch": 0.44333333333333336, |
| "grad_norm": 0.4614372253417969, |
| "learning_rate": 4.95446579275958e-06, |
| "loss": 0.7129, |
| "step": 532 |
| }, |
| { |
| "epoch": 0.44416666666666665, |
| "grad_norm": 0.483749657869339, |
| "learning_rate": 4.954255388246098e-06, |
| "loss": 0.7222, |
| "step": 533 |
| }, |
| { |
| "epoch": 0.445, |
| "grad_norm": 0.4642612934112549, |
| "learning_rate": 4.954044503222214e-06, |
| "loss": 0.7115, |
| "step": 534 |
| }, |
| { |
| "epoch": 0.44583333333333336, |
| "grad_norm": 0.469172865152359, |
| "learning_rate": 4.953833137729216e-06, |
| "loss": 0.7219, |
| "step": 535 |
| }, |
| { |
| "epoch": 0.44666666666666666, |
| "grad_norm": 0.4773421287536621, |
| "learning_rate": 4.953621291808486e-06, |
| "loss": 0.7061, |
| "step": 536 |
| }, |
| { |
| "epoch": 0.4475, |
| "grad_norm": 0.45834067463874817, |
| "learning_rate": 4.953408965501502e-06, |
| "loss": 0.7319, |
| "step": 537 |
| }, |
| { |
| "epoch": 0.4483333333333333, |
| "grad_norm": 0.49582624435424805, |
| "learning_rate": 4.9531961588498325e-06, |
| "loss": 0.7175, |
| "step": 538 |
| }, |
| { |
| "epoch": 0.44916666666666666, |
| "grad_norm": 0.47507691383361816, |
| "learning_rate": 4.9529828718951445e-06, |
| "loss": 0.7108, |
| "step": 539 |
| }, |
| { |
| "epoch": 0.45, |
| "grad_norm": 0.49403703212738037, |
| "learning_rate": 4.952769104679195e-06, |
| "loss": 0.7099, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.4508333333333333, |
| "grad_norm": 0.4854276478290558, |
| "learning_rate": 4.952554857243839e-06, |
| "loss": 0.7008, |
| "step": 541 |
| }, |
| { |
| "epoch": 0.45166666666666666, |
| "grad_norm": 0.49015265703201294, |
| "learning_rate": 4.95234012963102e-06, |
| "loss": 0.7213, |
| "step": 542 |
| }, |
| { |
| "epoch": 0.4525, |
| "grad_norm": 0.4704878330230713, |
| "learning_rate": 4.952124921882782e-06, |
| "loss": 0.7202, |
| "step": 543 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 0.47394639253616333, |
| "learning_rate": 4.9519092340412575e-06, |
| "loss": 0.719, |
| "step": 544 |
| }, |
| { |
| "epoch": 0.45416666666666666, |
| "grad_norm": 0.49865660071372986, |
| "learning_rate": 4.951693066148678e-06, |
| "loss": 0.7021, |
| "step": 545 |
| }, |
| { |
| "epoch": 0.455, |
| "grad_norm": 0.4725435972213745, |
| "learning_rate": 4.951476418247362e-06, |
| "loss": 0.7171, |
| "step": 546 |
| }, |
| { |
| "epoch": 0.4558333333333333, |
| "grad_norm": 0.4926277697086334, |
| "learning_rate": 4.95125929037973e-06, |
| "loss": 0.7246, |
| "step": 547 |
| }, |
| { |
| "epoch": 0.45666666666666667, |
| "grad_norm": 0.47587206959724426, |
| "learning_rate": 4.951041682588291e-06, |
| "loss": 0.7076, |
| "step": 548 |
| }, |
| { |
| "epoch": 0.4575, |
| "grad_norm": 0.49358779191970825, |
| "learning_rate": 4.950823594915651e-06, |
| "loss": 0.6869, |
| "step": 549 |
| }, |
| { |
| "epoch": 0.4583333333333333, |
| "grad_norm": 0.4723842442035675, |
| "learning_rate": 4.9506050274045076e-06, |
| "loss": 0.728, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.45916666666666667, |
| "grad_norm": 0.4840109050273895, |
| "learning_rate": 4.950385980097653e-06, |
| "loss": 0.7164, |
| "step": 551 |
| }, |
| { |
| "epoch": 0.46, |
| "grad_norm": 0.4879574775695801, |
| "learning_rate": 4.950166453037976e-06, |
| "loss": 0.7026, |
| "step": 552 |
| }, |
| { |
| "epoch": 0.4608333333333333, |
| "grad_norm": 0.4803706407546997, |
| "learning_rate": 4.9499464462684535e-06, |
| "loss": 0.7362, |
| "step": 553 |
| }, |
| { |
| "epoch": 0.46166666666666667, |
| "grad_norm": 0.48380714654922485, |
| "learning_rate": 4.9497259598321625e-06, |
| "loss": 0.7061, |
| "step": 554 |
| }, |
| { |
| "epoch": 0.4625, |
| "grad_norm": 0.4886619746685028, |
| "learning_rate": 4.949504993772271e-06, |
| "loss": 0.7227, |
| "step": 555 |
| }, |
| { |
| "epoch": 0.4633333333333333, |
| "grad_norm": 0.4812595844268799, |
| "learning_rate": 4.949283548132041e-06, |
| "loss": 0.725, |
| "step": 556 |
| }, |
| { |
| "epoch": 0.46416666666666667, |
| "grad_norm": 0.49524056911468506, |
| "learning_rate": 4.949061622954828e-06, |
| "loss": 0.722, |
| "step": 557 |
| }, |
| { |
| "epoch": 0.465, |
| "grad_norm": 0.47137996554374695, |
| "learning_rate": 4.948839218284082e-06, |
| "loss": 0.6922, |
| "step": 558 |
| }, |
| { |
| "epoch": 0.4658333333333333, |
| "grad_norm": 0.4778903126716614, |
| "learning_rate": 4.9486163341633474e-06, |
| "loss": 0.6906, |
| "step": 559 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 0.4881589710712433, |
| "learning_rate": 4.948392970636262e-06, |
| "loss": 0.7277, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.4675, |
| "grad_norm": 0.48768582940101624, |
| "learning_rate": 4.948169127746558e-06, |
| "loss": 0.7292, |
| "step": 561 |
| }, |
| { |
| "epoch": 0.4683333333333333, |
| "grad_norm": 0.4845133423805237, |
| "learning_rate": 4.947944805538059e-06, |
| "loss": 0.7328, |
| "step": 562 |
| }, |
| { |
| "epoch": 0.4691666666666667, |
| "grad_norm": 0.4743124842643738, |
| "learning_rate": 4.9477200040546855e-06, |
| "loss": 0.7167, |
| "step": 563 |
| }, |
| { |
| "epoch": 0.47, |
| "grad_norm": 0.470243901014328, |
| "learning_rate": 4.947494723340451e-06, |
| "loss": 0.7275, |
| "step": 564 |
| }, |
| { |
| "epoch": 0.4708333333333333, |
| "grad_norm": 0.4756235182285309, |
| "learning_rate": 4.947268963439461e-06, |
| "loss": 0.7004, |
| "step": 565 |
| }, |
| { |
| "epoch": 0.4716666666666667, |
| "grad_norm": 0.47655385732650757, |
| "learning_rate": 4.947042724395918e-06, |
| "loss": 0.7204, |
| "step": 566 |
| }, |
| { |
| "epoch": 0.4725, |
| "grad_norm": 0.48011791706085205, |
| "learning_rate": 4.9468160062541154e-06, |
| "loss": 0.7189, |
| "step": 567 |
| }, |
| { |
| "epoch": 0.47333333333333333, |
| "grad_norm": 0.47994154691696167, |
| "learning_rate": 4.9465888090584425e-06, |
| "loss": 0.7111, |
| "step": 568 |
| }, |
| { |
| "epoch": 0.4741666666666667, |
| "grad_norm": 0.4681757986545563, |
| "learning_rate": 4.94636113285338e-06, |
| "loss": 0.7033, |
| "step": 569 |
| }, |
| { |
| "epoch": 0.475, |
| "grad_norm": 0.47301357984542847, |
| "learning_rate": 4.946132977683505e-06, |
| "loss": 0.7051, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.47583333333333333, |
| "grad_norm": 0.4891713261604309, |
| "learning_rate": 4.945904343593487e-06, |
| "loss": 0.7174, |
| "step": 571 |
| }, |
| { |
| "epoch": 0.4766666666666667, |
| "grad_norm": 0.5102998614311218, |
| "learning_rate": 4.945675230628089e-06, |
| "loss": 0.7265, |
| "step": 572 |
| }, |
| { |
| "epoch": 0.4775, |
| "grad_norm": 0.5052884221076965, |
| "learning_rate": 4.94544563883217e-06, |
| "loss": 0.7089, |
| "step": 573 |
| }, |
| { |
| "epoch": 0.47833333333333333, |
| "grad_norm": 0.499349981546402, |
| "learning_rate": 4.94521556825068e-06, |
| "loss": 0.7214, |
| "step": 574 |
| }, |
| { |
| "epoch": 0.4791666666666667, |
| "grad_norm": 0.4990192949771881, |
| "learning_rate": 4.944985018928662e-06, |
| "loss": 0.7302, |
| "step": 575 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 0.4947417080402374, |
| "learning_rate": 4.944753990911257e-06, |
| "loss": 0.6959, |
| "step": 576 |
| }, |
| { |
| "epoch": 0.48083333333333333, |
| "grad_norm": 0.46811023354530334, |
| "learning_rate": 4.944522484243696e-06, |
| "loss": 0.734, |
| "step": 577 |
| }, |
| { |
| "epoch": 0.4816666666666667, |
| "grad_norm": 0.48916953802108765, |
| "learning_rate": 4.944290498971305e-06, |
| "loss": 0.7044, |
| "step": 578 |
| }, |
| { |
| "epoch": 0.4825, |
| "grad_norm": 0.4881554841995239, |
| "learning_rate": 4.944058035139504e-06, |
| "loss": 0.7165, |
| "step": 579 |
| }, |
| { |
| "epoch": 0.48333333333333334, |
| "grad_norm": 0.49451276659965515, |
| "learning_rate": 4.943825092793806e-06, |
| "loss": 0.7201, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.4841666666666667, |
| "grad_norm": 0.4869428277015686, |
| "learning_rate": 4.943591671979817e-06, |
| "loss": 0.6992, |
| "step": 581 |
| }, |
| { |
| "epoch": 0.485, |
| "grad_norm": 0.4971383512020111, |
| "learning_rate": 4.94335777274324e-06, |
| "loss": 0.7133, |
| "step": 582 |
| }, |
| { |
| "epoch": 0.48583333333333334, |
| "grad_norm": 0.5005112886428833, |
| "learning_rate": 4.9431233951298675e-06, |
| "loss": 0.6998, |
| "step": 583 |
| }, |
| { |
| "epoch": 0.4866666666666667, |
| "grad_norm": 0.465410053730011, |
| "learning_rate": 4.942888539185587e-06, |
| "loss": 0.7306, |
| "step": 584 |
| }, |
| { |
| "epoch": 0.4875, |
| "grad_norm": 0.5041592121124268, |
| "learning_rate": 4.942653204956383e-06, |
| "loss": 0.7266, |
| "step": 585 |
| }, |
| { |
| "epoch": 0.48833333333333334, |
| "grad_norm": 0.47696638107299805, |
| "learning_rate": 4.942417392488329e-06, |
| "loss": 0.7062, |
| "step": 586 |
| }, |
| { |
| "epoch": 0.4891666666666667, |
| "grad_norm": 0.4918696880340576, |
| "learning_rate": 4.9421811018275925e-06, |
| "loss": 0.7203, |
| "step": 587 |
| }, |
| { |
| "epoch": 0.49, |
| "grad_norm": 0.47475212812423706, |
| "learning_rate": 4.941944333020438e-06, |
| "loss": 0.7011, |
| "step": 588 |
| }, |
| { |
| "epoch": 0.49083333333333334, |
| "grad_norm": 0.4766216576099396, |
| "learning_rate": 4.941707086113221e-06, |
| "loss": 0.7105, |
| "step": 589 |
| }, |
| { |
| "epoch": 0.49166666666666664, |
| "grad_norm": 0.493965744972229, |
| "learning_rate": 4.941469361152392e-06, |
| "loss": 0.7094, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.4925, |
| "grad_norm": 0.4940367639064789, |
| "learning_rate": 4.941231158184494e-06, |
| "loss": 0.7115, |
| "step": 591 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 0.4859408438205719, |
| "learning_rate": 4.940992477256163e-06, |
| "loss": 0.6983, |
| "step": 592 |
| }, |
| { |
| "epoch": 0.49416666666666664, |
| "grad_norm": 0.49589014053344727, |
| "learning_rate": 4.94075331841413e-06, |
| "loss": 0.6963, |
| "step": 593 |
| }, |
| { |
| "epoch": 0.495, |
| "grad_norm": 0.5000094771385193, |
| "learning_rate": 4.9405136817052205e-06, |
| "loss": 0.7082, |
| "step": 594 |
| }, |
| { |
| "epoch": 0.49583333333333335, |
| "grad_norm": 0.5032265186309814, |
| "learning_rate": 4.94027356717635e-06, |
| "loss": 0.7093, |
| "step": 595 |
| }, |
| { |
| "epoch": 0.49666666666666665, |
| "grad_norm": 0.5027580261230469, |
| "learning_rate": 4.9400329748745316e-06, |
| "loss": 0.7371, |
| "step": 596 |
| }, |
| { |
| "epoch": 0.4975, |
| "grad_norm": 0.476223886013031, |
| "learning_rate": 4.939791904846869e-06, |
| "loss": 0.7186, |
| "step": 597 |
| }, |
| { |
| "epoch": 0.49833333333333335, |
| "grad_norm": 0.48328179121017456, |
| "learning_rate": 4.93955035714056e-06, |
| "loss": 0.6914, |
| "step": 598 |
| }, |
| { |
| "epoch": 0.49916666666666665, |
| "grad_norm": 0.5076419711112976, |
| "learning_rate": 4.9393083318028984e-06, |
| "loss": 0.7268, |
| "step": 599 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.4889422357082367, |
| "learning_rate": 4.9390658288812675e-06, |
| "loss": 0.7083, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.5008333333333334, |
| "grad_norm": 0.4899008572101593, |
| "learning_rate": 4.938822848423147e-06, |
| "loss": 0.7132, |
| "step": 601 |
| }, |
| { |
| "epoch": 0.5016666666666667, |
| "grad_norm": 0.4912792146205902, |
| "learning_rate": 4.938579390476109e-06, |
| "loss": 0.718, |
| "step": 602 |
| }, |
| { |
| "epoch": 0.5025, |
| "grad_norm": 0.4838503897190094, |
| "learning_rate": 4.93833545508782e-06, |
| "loss": 0.7215, |
| "step": 603 |
| }, |
| { |
| "epoch": 0.5033333333333333, |
| "grad_norm": 0.4929048418998718, |
| "learning_rate": 4.938091042306038e-06, |
| "loss": 0.7015, |
| "step": 604 |
| }, |
| { |
| "epoch": 0.5041666666666667, |
| "grad_norm": 0.49849268794059753, |
| "learning_rate": 4.9378461521786165e-06, |
| "loss": 0.7154, |
| "step": 605 |
| }, |
| { |
| "epoch": 0.505, |
| "grad_norm": 0.4948844015598297, |
| "learning_rate": 4.937600784753502e-06, |
| "loss": 0.7311, |
| "step": 606 |
| }, |
| { |
| "epoch": 0.5058333333333334, |
| "grad_norm": 0.48736852407455444, |
| "learning_rate": 4.937354940078733e-06, |
| "loss": 0.6813, |
| "step": 607 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 0.49282482266426086, |
| "learning_rate": 4.9371086182024445e-06, |
| "loss": 0.7193, |
| "step": 608 |
| }, |
| { |
| "epoch": 0.5075, |
| "grad_norm": 0.48460039496421814, |
| "learning_rate": 4.936861819172861e-06, |
| "loss": 0.7199, |
| "step": 609 |
| }, |
| { |
| "epoch": 0.5083333333333333, |
| "grad_norm": 0.484996497631073, |
| "learning_rate": 4.936614543038305e-06, |
| "loss": 0.7247, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.5091666666666667, |
| "grad_norm": 0.5049502849578857, |
| "learning_rate": 4.936366789847187e-06, |
| "loss": 0.7281, |
| "step": 611 |
| }, |
| { |
| "epoch": 0.51, |
| "grad_norm": 0.500078558921814, |
| "learning_rate": 4.936118559648015e-06, |
| "loss": 0.7334, |
| "step": 612 |
| }, |
| { |
| "epoch": 0.5108333333333334, |
| "grad_norm": 0.4830380380153656, |
| "learning_rate": 4.93586985248939e-06, |
| "loss": 0.7233, |
| "step": 613 |
| }, |
| { |
| "epoch": 0.5116666666666667, |
| "grad_norm": 0.48667341470718384, |
| "learning_rate": 4.9356206684200045e-06, |
| "loss": 0.6953, |
| "step": 614 |
| }, |
| { |
| "epoch": 0.5125, |
| "grad_norm": 0.46916696429252625, |
| "learning_rate": 4.9353710074886454e-06, |
| "loss": 0.6844, |
| "step": 615 |
| }, |
| { |
| "epoch": 0.5133333333333333, |
| "grad_norm": 0.48398151993751526, |
| "learning_rate": 4.935120869744194e-06, |
| "loss": 0.7127, |
| "step": 616 |
| }, |
| { |
| "epoch": 0.5141666666666667, |
| "grad_norm": 0.499497652053833, |
| "learning_rate": 4.934870255235622e-06, |
| "loss": 0.6896, |
| "step": 617 |
| }, |
| { |
| "epoch": 0.515, |
| "grad_norm": 0.48984643816947937, |
| "learning_rate": 4.934619164011998e-06, |
| "loss": 0.7299, |
| "step": 618 |
| }, |
| { |
| "epoch": 0.5158333333333334, |
| "grad_norm": 0.5016290545463562, |
| "learning_rate": 4.934367596122482e-06, |
| "loss": 0.7174, |
| "step": 619 |
| }, |
| { |
| "epoch": 0.5166666666666667, |
| "grad_norm": 0.4891358017921448, |
| "learning_rate": 4.9341155516163275e-06, |
| "loss": 0.6922, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.5175, |
| "grad_norm": 0.5024811029434204, |
| "learning_rate": 4.9338630305428815e-06, |
| "loss": 0.7393, |
| "step": 621 |
| }, |
| { |
| "epoch": 0.5183333333333333, |
| "grad_norm": 0.4832116961479187, |
| "learning_rate": 4.9336100329515835e-06, |
| "loss": 0.6903, |
| "step": 622 |
| }, |
| { |
| "epoch": 0.5191666666666667, |
| "grad_norm": 0.48036712408065796, |
| "learning_rate": 4.933356558891968e-06, |
| "loss": 0.7136, |
| "step": 623 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 0.48273342847824097, |
| "learning_rate": 4.933102608413662e-06, |
| "loss": 0.6828, |
| "step": 624 |
| }, |
| { |
| "epoch": 0.5208333333333334, |
| "grad_norm": 0.4953583776950836, |
| "learning_rate": 4.9328481815663845e-06, |
| "loss": 0.7203, |
| "step": 625 |
| }, |
| { |
| "epoch": 0.5216666666666666, |
| "grad_norm": 0.5053473711013794, |
| "learning_rate": 4.93259327839995e-06, |
| "loss": 0.7141, |
| "step": 626 |
| }, |
| { |
| "epoch": 0.5225, |
| "grad_norm": 0.4935609996318817, |
| "learning_rate": 4.932337898964264e-06, |
| "loss": 0.7097, |
| "step": 627 |
| }, |
| { |
| "epoch": 0.5233333333333333, |
| "grad_norm": 0.5030904412269592, |
| "learning_rate": 4.932082043309328e-06, |
| "loss": 0.7261, |
| "step": 628 |
| }, |
| { |
| "epoch": 0.5241666666666667, |
| "grad_norm": 0.48916617035865784, |
| "learning_rate": 4.9318257114852336e-06, |
| "loss": 0.7203, |
| "step": 629 |
| }, |
| { |
| "epoch": 0.525, |
| "grad_norm": 0.49389857053756714, |
| "learning_rate": 4.931568903542168e-06, |
| "loss": 0.7149, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.5258333333333334, |
| "grad_norm": 0.49069395661354065, |
| "learning_rate": 4.93131161953041e-06, |
| "loss": 0.7314, |
| "step": 631 |
| }, |
| { |
| "epoch": 0.5266666666666666, |
| "grad_norm": 0.50567626953125, |
| "learning_rate": 4.931053859500334e-06, |
| "loss": 0.7185, |
| "step": 632 |
| }, |
| { |
| "epoch": 0.5275, |
| "grad_norm": 0.49401047825813293, |
| "learning_rate": 4.9307956235024025e-06, |
| "loss": 0.701, |
| "step": 633 |
| }, |
| { |
| "epoch": 0.5283333333333333, |
| "grad_norm": 0.5027605891227722, |
| "learning_rate": 4.930536911587179e-06, |
| "loss": 0.7029, |
| "step": 634 |
| }, |
| { |
| "epoch": 0.5291666666666667, |
| "grad_norm": 0.48128971457481384, |
| "learning_rate": 4.930277723805313e-06, |
| "loss": 0.7098, |
| "step": 635 |
| }, |
| { |
| "epoch": 0.53, |
| "grad_norm": 0.4842052161693573, |
| "learning_rate": 4.930018060207551e-06, |
| "loss": 0.7053, |
| "step": 636 |
| }, |
| { |
| "epoch": 0.5308333333333334, |
| "grad_norm": 0.5151858925819397, |
| "learning_rate": 4.929757920844731e-06, |
| "loss": 0.6984, |
| "step": 637 |
| }, |
| { |
| "epoch": 0.5316666666666666, |
| "grad_norm": 0.48803043365478516, |
| "learning_rate": 4.929497305767786e-06, |
| "loss": 0.7087, |
| "step": 638 |
| }, |
| { |
| "epoch": 0.5325, |
| "grad_norm": 0.49492281675338745, |
| "learning_rate": 4.92923621502774e-06, |
| "loss": 0.726, |
| "step": 639 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.5118134617805481, |
| "learning_rate": 4.928974648675711e-06, |
| "loss": 0.6862, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.5341666666666667, |
| "grad_norm": 0.5026904344558716, |
| "learning_rate": 4.928712606762911e-06, |
| "loss": 0.7116, |
| "step": 641 |
| }, |
| { |
| "epoch": 0.535, |
| "grad_norm": 0.5102514028549194, |
| "learning_rate": 4.928450089340644e-06, |
| "loss": 0.7135, |
| "step": 642 |
| }, |
| { |
| "epoch": 0.5358333333333334, |
| "grad_norm": 0.4974600672721863, |
| "learning_rate": 4.928187096460306e-06, |
| "loss": 0.7186, |
| "step": 643 |
| }, |
| { |
| "epoch": 0.5366666666666666, |
| "grad_norm": 0.49446332454681396, |
| "learning_rate": 4.92792362817339e-06, |
| "loss": 0.7229, |
| "step": 644 |
| }, |
| { |
| "epoch": 0.5375, |
| "grad_norm": 0.49716511368751526, |
| "learning_rate": 4.927659684531477e-06, |
| "loss": 0.7164, |
| "step": 645 |
| }, |
| { |
| "epoch": 0.5383333333333333, |
| "grad_norm": 0.5083909034729004, |
| "learning_rate": 4.927395265586246e-06, |
| "loss": 0.7209, |
| "step": 646 |
| }, |
| { |
| "epoch": 0.5391666666666667, |
| "grad_norm": 0.49926912784576416, |
| "learning_rate": 4.927130371389465e-06, |
| "loss": 0.7043, |
| "step": 647 |
| }, |
| { |
| "epoch": 0.54, |
| "grad_norm": 0.4805012047290802, |
| "learning_rate": 4.926865001992998e-06, |
| "loss": 0.6756, |
| "step": 648 |
| }, |
| { |
| "epoch": 0.5408333333333334, |
| "grad_norm": 0.4931069612503052, |
| "learning_rate": 4.926599157448799e-06, |
| "loss": 0.6855, |
| "step": 649 |
| }, |
| { |
| "epoch": 0.5416666666666666, |
| "grad_norm": 0.4891999065876007, |
| "learning_rate": 4.926332837808918e-06, |
| "loss": 0.7248, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.5425, |
| "grad_norm": 0.4911347031593323, |
| "learning_rate": 4.926066043125498e-06, |
| "loss": 0.6852, |
| "step": 651 |
| }, |
| { |
| "epoch": 0.5433333333333333, |
| "grad_norm": 0.5025411248207092, |
| "learning_rate": 4.9257987734507715e-06, |
| "loss": 0.695, |
| "step": 652 |
| }, |
| { |
| "epoch": 0.5441666666666667, |
| "grad_norm": 0.5224595069885254, |
| "learning_rate": 4.9255310288370685e-06, |
| "loss": 0.7078, |
| "step": 653 |
| }, |
| { |
| "epoch": 0.545, |
| "grad_norm": 0.5079106092453003, |
| "learning_rate": 4.925262809336808e-06, |
| "loss": 0.7028, |
| "step": 654 |
| }, |
| { |
| "epoch": 0.5458333333333333, |
| "grad_norm": 0.49983689188957214, |
| "learning_rate": 4.924994115002504e-06, |
| "loss": 0.6802, |
| "step": 655 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 0.48790889978408813, |
| "learning_rate": 4.9247249458867645e-06, |
| "loss": 0.6909, |
| "step": 656 |
| }, |
| { |
| "epoch": 0.5475, |
| "grad_norm": 0.5053600072860718, |
| "learning_rate": 4.924455302042289e-06, |
| "loss": 0.686, |
| "step": 657 |
| }, |
| { |
| "epoch": 0.5483333333333333, |
| "grad_norm": 0.48766225576400757, |
| "learning_rate": 4.924185183521868e-06, |
| "loss": 0.715, |
| "step": 658 |
| }, |
| { |
| "epoch": 0.5491666666666667, |
| "grad_norm": 0.4844707250595093, |
| "learning_rate": 4.92391459037839e-06, |
| "loss": 0.686, |
| "step": 659 |
| }, |
| { |
| "epoch": 0.55, |
| "grad_norm": 0.5116406083106995, |
| "learning_rate": 4.923643522664833e-06, |
| "loss": 0.7119, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.5508333333333333, |
| "grad_norm": 0.5154091715812683, |
| "learning_rate": 4.923371980434266e-06, |
| "loss": 0.7185, |
| "step": 661 |
| }, |
| { |
| "epoch": 0.5516666666666666, |
| "grad_norm": 0.5236364006996155, |
| "learning_rate": 4.923099963739856e-06, |
| "loss": 0.7253, |
| "step": 662 |
| }, |
| { |
| "epoch": 0.5525, |
| "grad_norm": 0.5012351870536804, |
| "learning_rate": 4.922827472634859e-06, |
| "loss": 0.693, |
| "step": 663 |
| }, |
| { |
| "epoch": 0.5533333333333333, |
| "grad_norm": 0.49236923456192017, |
| "learning_rate": 4.922554507172626e-06, |
| "loss": 0.7268, |
| "step": 664 |
| }, |
| { |
| "epoch": 0.5541666666666667, |
| "grad_norm": 0.49417221546173096, |
| "learning_rate": 4.922281067406598e-06, |
| "loss": 0.7305, |
| "step": 665 |
| }, |
| { |
| "epoch": 0.555, |
| "grad_norm": 0.5097923874855042, |
| "learning_rate": 4.922007153390313e-06, |
| "loss": 0.6999, |
| "step": 666 |
| }, |
| { |
| "epoch": 0.5558333333333333, |
| "grad_norm": 0.499994158744812, |
| "learning_rate": 4.921732765177399e-06, |
| "loss": 0.7233, |
| "step": 667 |
| }, |
| { |
| "epoch": 0.5566666666666666, |
| "grad_norm": 0.511122465133667, |
| "learning_rate": 4.921457902821578e-06, |
| "loss": 0.7006, |
| "step": 668 |
| }, |
| { |
| "epoch": 0.5575, |
| "grad_norm": 0.5105845332145691, |
| "learning_rate": 4.921182566376663e-06, |
| "loss": 0.7038, |
| "step": 669 |
| }, |
| { |
| "epoch": 0.5583333333333333, |
| "grad_norm": 0.5096433162689209, |
| "learning_rate": 4.920906755896563e-06, |
| "loss": 0.7363, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.5591666666666667, |
| "grad_norm": 0.49480730295181274, |
| "learning_rate": 4.920630471435277e-06, |
| "loss": 0.6972, |
| "step": 671 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 0.505930483341217, |
| "learning_rate": 4.920353713046897e-06, |
| "loss": 0.699, |
| "step": 672 |
| }, |
| { |
| "epoch": 0.5608333333333333, |
| "grad_norm": 0.4985577464103699, |
| "learning_rate": 4.92007648078561e-06, |
| "loss": 0.7055, |
| "step": 673 |
| }, |
| { |
| "epoch": 0.5616666666666666, |
| "grad_norm": 0.4965658187866211, |
| "learning_rate": 4.919798774705694e-06, |
| "loss": 0.7258, |
| "step": 674 |
| }, |
| { |
| "epoch": 0.5625, |
| "grad_norm": 0.5078153014183044, |
| "learning_rate": 4.91952059486152e-06, |
| "loss": 0.7277, |
| "step": 675 |
| }, |
| { |
| "epoch": 0.5633333333333334, |
| "grad_norm": 0.4960659444332123, |
| "learning_rate": 4.919241941307551e-06, |
| "loss": 0.7215, |
| "step": 676 |
| }, |
| { |
| "epoch": 0.5641666666666667, |
| "grad_norm": 0.5092875361442566, |
| "learning_rate": 4.9189628140983454e-06, |
| "loss": 0.6959, |
| "step": 677 |
| }, |
| { |
| "epoch": 0.565, |
| "grad_norm": 0.505517840385437, |
| "learning_rate": 4.918683213288551e-06, |
| "loss": 0.6918, |
| "step": 678 |
| }, |
| { |
| "epoch": 0.5658333333333333, |
| "grad_norm": 0.4938601851463318, |
| "learning_rate": 4.9184031389329114e-06, |
| "loss": 0.7288, |
| "step": 679 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 0.5383937954902649, |
| "learning_rate": 4.91812259108626e-06, |
| "loss": 0.7165, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.5675, |
| "grad_norm": 0.501088559627533, |
| "learning_rate": 4.917841569803525e-06, |
| "loss": 0.7036, |
| "step": 681 |
| }, |
| { |
| "epoch": 0.5683333333333334, |
| "grad_norm": 0.512438178062439, |
| "learning_rate": 4.917560075139727e-06, |
| "loss": 0.741, |
| "step": 682 |
| }, |
| { |
| "epoch": 0.5691666666666667, |
| "grad_norm": 0.5291407108306885, |
| "learning_rate": 4.917278107149978e-06, |
| "loss": 0.691, |
| "step": 683 |
| }, |
| { |
| "epoch": 0.57, |
| "grad_norm": 0.5237842202186584, |
| "learning_rate": 4.916995665889485e-06, |
| "loss": 0.7238, |
| "step": 684 |
| }, |
| { |
| "epoch": 0.5708333333333333, |
| "grad_norm": 0.5278199911117554, |
| "learning_rate": 4.9167127514135436e-06, |
| "loss": 0.7362, |
| "step": 685 |
| }, |
| { |
| "epoch": 0.5716666666666667, |
| "grad_norm": 0.5081051588058472, |
| "learning_rate": 4.916429363777547e-06, |
| "loss": 0.7275, |
| "step": 686 |
| }, |
| { |
| "epoch": 0.5725, |
| "grad_norm": 0.4862457513809204, |
| "learning_rate": 4.916145503036978e-06, |
| "loss": 0.6797, |
| "step": 687 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 0.5127841830253601, |
| "learning_rate": 4.915861169247413e-06, |
| "loss": 0.7076, |
| "step": 688 |
| }, |
| { |
| "epoch": 0.5741666666666667, |
| "grad_norm": 0.4955374002456665, |
| "learning_rate": 4.91557636246452e-06, |
| "loss": 0.7151, |
| "step": 689 |
| }, |
| { |
| "epoch": 0.575, |
| "grad_norm": 0.5174440145492554, |
| "learning_rate": 4.9152910827440615e-06, |
| "loss": 0.7042, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.5758333333333333, |
| "grad_norm": 0.5315648317337036, |
| "learning_rate": 4.91500533014189e-06, |
| "loss": 0.6797, |
| "step": 691 |
| }, |
| { |
| "epoch": 0.5766666666666667, |
| "grad_norm": 0.5086205005645752, |
| "learning_rate": 4.9147191047139535e-06, |
| "loss": 0.7123, |
| "step": 692 |
| }, |
| { |
| "epoch": 0.5775, |
| "grad_norm": 0.5061271786689758, |
| "learning_rate": 4.91443240651629e-06, |
| "loss": 0.7099, |
| "step": 693 |
| }, |
| { |
| "epoch": 0.5783333333333334, |
| "grad_norm": 0.5256630778312683, |
| "learning_rate": 4.914145235605032e-06, |
| "loss": 0.727, |
| "step": 694 |
| }, |
| { |
| "epoch": 0.5791666666666667, |
| "grad_norm": 0.5153964757919312, |
| "learning_rate": 4.913857592036403e-06, |
| "loss": 0.7091, |
| "step": 695 |
| }, |
| { |
| "epoch": 0.58, |
| "grad_norm": 0.5042173862457275, |
| "learning_rate": 4.913569475866721e-06, |
| "loss": 0.6992, |
| "step": 696 |
| }, |
| { |
| "epoch": 0.5808333333333333, |
| "grad_norm": 0.5220386385917664, |
| "learning_rate": 4.913280887152394e-06, |
| "loss": 0.6889, |
| "step": 697 |
| }, |
| { |
| "epoch": 0.5816666666666667, |
| "grad_norm": 0.49453794956207275, |
| "learning_rate": 4.912991825949923e-06, |
| "loss": 0.7045, |
| "step": 698 |
| }, |
| { |
| "epoch": 0.5825, |
| "grad_norm": 0.541048526763916, |
| "learning_rate": 4.912702292315905e-06, |
| "loss": 0.717, |
| "step": 699 |
| }, |
| { |
| "epoch": 0.5833333333333334, |
| "grad_norm": 0.5255627632141113, |
| "learning_rate": 4.912412286307025e-06, |
| "loss": 0.6917, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.5841666666666666, |
| "grad_norm": 0.5208636522293091, |
| "learning_rate": 4.912121807980063e-06, |
| "loss": 0.6966, |
| "step": 701 |
| }, |
| { |
| "epoch": 0.585, |
| "grad_norm": 0.5166336894035339, |
| "learning_rate": 4.9118308573918905e-06, |
| "loss": 0.6893, |
| "step": 702 |
| }, |
| { |
| "epoch": 0.5858333333333333, |
| "grad_norm": 0.5058565735816956, |
| "learning_rate": 4.911539434599471e-06, |
| "loss": 0.6801, |
| "step": 703 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 0.4997437000274658, |
| "learning_rate": 4.911247539659863e-06, |
| "loss": 0.6935, |
| "step": 704 |
| }, |
| { |
| "epoch": 0.5875, |
| "grad_norm": 0.49939316511154175, |
| "learning_rate": 4.9109551726302125e-06, |
| "loss": 0.7179, |
| "step": 705 |
| }, |
| { |
| "epoch": 0.5883333333333334, |
| "grad_norm": 0.5002568960189819, |
| "learning_rate": 4.910662333567765e-06, |
| "loss": 0.7015, |
| "step": 706 |
| }, |
| { |
| "epoch": 0.5891666666666666, |
| "grad_norm": 0.5086607336997986, |
| "learning_rate": 4.910369022529851e-06, |
| "loss": 0.732, |
| "step": 707 |
| }, |
| { |
| "epoch": 0.59, |
| "grad_norm": 0.518061637878418, |
| "learning_rate": 4.9100752395739e-06, |
| "loss": 0.69, |
| "step": 708 |
| }, |
| { |
| "epoch": 0.5908333333333333, |
| "grad_norm": 0.5153642296791077, |
| "learning_rate": 4.909780984757428e-06, |
| "loss": 0.7203, |
| "step": 709 |
| }, |
| { |
| "epoch": 0.5916666666666667, |
| "grad_norm": 0.5164903998374939, |
| "learning_rate": 4.909486258138048e-06, |
| "loss": 0.7081, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.5925, |
| "grad_norm": 0.5227023959159851, |
| "learning_rate": 4.9091910597734624e-06, |
| "loss": 0.6969, |
| "step": 711 |
| }, |
| { |
| "epoch": 0.5933333333333334, |
| "grad_norm": 0.531080424785614, |
| "learning_rate": 4.908895389721469e-06, |
| "loss": 0.7138, |
| "step": 712 |
| }, |
| { |
| "epoch": 0.5941666666666666, |
| "grad_norm": 0.5179861783981323, |
| "learning_rate": 4.9085992480399526e-06, |
| "loss": 0.7082, |
| "step": 713 |
| }, |
| { |
| "epoch": 0.595, |
| "grad_norm": 0.49200907349586487, |
| "learning_rate": 4.908302634786897e-06, |
| "loss": 0.6779, |
| "step": 714 |
| }, |
| { |
| "epoch": 0.5958333333333333, |
| "grad_norm": 0.5001080632209778, |
| "learning_rate": 4.908005550020374e-06, |
| "loss": 0.7186, |
| "step": 715 |
| }, |
| { |
| "epoch": 0.5966666666666667, |
| "grad_norm": 0.5192794799804688, |
| "learning_rate": 4.907707993798548e-06, |
| "loss": 0.6823, |
| "step": 716 |
| }, |
| { |
| "epoch": 0.5975, |
| "grad_norm": 0.5092243552207947, |
| "learning_rate": 4.9074099661796775e-06, |
| "loss": 0.6951, |
| "step": 717 |
| }, |
| { |
| "epoch": 0.5983333333333334, |
| "grad_norm": 0.5013896226882935, |
| "learning_rate": 4.907111467222112e-06, |
| "loss": 0.7003, |
| "step": 718 |
| }, |
| { |
| "epoch": 0.5991666666666666, |
| "grad_norm": 0.5117473006248474, |
| "learning_rate": 4.906812496984294e-06, |
| "loss": 0.6876, |
| "step": 719 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 0.5007987022399902, |
| "learning_rate": 4.906513055524757e-06, |
| "loss": 0.7177, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.6008333333333333, |
| "grad_norm": 0.512077808380127, |
| "learning_rate": 4.90621314290213e-06, |
| "loss": 0.7262, |
| "step": 721 |
| }, |
| { |
| "epoch": 0.6016666666666667, |
| "grad_norm": 0.5171950459480286, |
| "learning_rate": 4.9059127591751284e-06, |
| "loss": 0.7142, |
| "step": 722 |
| }, |
| { |
| "epoch": 0.6025, |
| "grad_norm": 0.5047792792320251, |
| "learning_rate": 4.905611904402566e-06, |
| "loss": 0.7035, |
| "step": 723 |
| }, |
| { |
| "epoch": 0.6033333333333334, |
| "grad_norm": 0.5052487850189209, |
| "learning_rate": 4.905310578643344e-06, |
| "loss": 0.7148, |
| "step": 724 |
| }, |
| { |
| "epoch": 0.6041666666666666, |
| "grad_norm": 0.5292346477508545, |
| "learning_rate": 4.90500878195646e-06, |
| "loss": 0.7156, |
| "step": 725 |
| }, |
| { |
| "epoch": 0.605, |
| "grad_norm": 0.5053814649581909, |
| "learning_rate": 4.904706514401001e-06, |
| "loss": 0.7299, |
| "step": 726 |
| }, |
| { |
| "epoch": 0.6058333333333333, |
| "grad_norm": 0.5022679567337036, |
| "learning_rate": 4.9044037760361464e-06, |
| "loss": 0.7007, |
| "step": 727 |
| }, |
| { |
| "epoch": 0.6066666666666667, |
| "grad_norm": 0.5067057013511658, |
| "learning_rate": 4.9041005669211686e-06, |
| "loss": 0.6975, |
| "step": 728 |
| }, |
| { |
| "epoch": 0.6075, |
| "grad_norm": 0.5200228095054626, |
| "learning_rate": 4.903796887115433e-06, |
| "loss": 0.6953, |
| "step": 729 |
| }, |
| { |
| "epoch": 0.6083333333333333, |
| "grad_norm": 0.5037333369255066, |
| "learning_rate": 4.903492736678393e-06, |
| "loss": 0.6907, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.6091666666666666, |
| "grad_norm": 0.519079327583313, |
| "learning_rate": 4.903188115669602e-06, |
| "loss": 0.6959, |
| "step": 731 |
| }, |
| { |
| "epoch": 0.61, |
| "grad_norm": 0.525310754776001, |
| "learning_rate": 4.902883024148696e-06, |
| "loss": 0.6889, |
| "step": 732 |
| }, |
| { |
| "epoch": 0.6108333333333333, |
| "grad_norm": 0.5057506561279297, |
| "learning_rate": 4.90257746217541e-06, |
| "loss": 0.6485, |
| "step": 733 |
| }, |
| { |
| "epoch": 0.6116666666666667, |
| "grad_norm": 0.5262610912322998, |
| "learning_rate": 4.90227142980957e-06, |
| "loss": 0.6897, |
| "step": 734 |
| }, |
| { |
| "epoch": 0.6125, |
| "grad_norm": 0.5470754504203796, |
| "learning_rate": 4.901964927111091e-06, |
| "loss": 0.6965, |
| "step": 735 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 0.5268189311027527, |
| "learning_rate": 4.901657954139983e-06, |
| "loss": 0.694, |
| "step": 736 |
| }, |
| { |
| "epoch": 0.6141666666666666, |
| "grad_norm": 0.5172377824783325, |
| "learning_rate": 4.901350510956347e-06, |
| "loss": 0.6912, |
| "step": 737 |
| }, |
| { |
| "epoch": 0.615, |
| "grad_norm": 0.512689471244812, |
| "learning_rate": 4.9010425976203775e-06, |
| "loss": 0.7014, |
| "step": 738 |
| }, |
| { |
| "epoch": 0.6158333333333333, |
| "grad_norm": 0.5084899663925171, |
| "learning_rate": 4.900734214192358e-06, |
| "loss": 0.7167, |
| "step": 739 |
| }, |
| { |
| "epoch": 0.6166666666666667, |
| "grad_norm": 0.5255918502807617, |
| "learning_rate": 4.900425360732667e-06, |
| "loss": 0.7238, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.6175, |
| "grad_norm": 0.5194475650787354, |
| "learning_rate": 4.900116037301773e-06, |
| "loss": 0.6933, |
| "step": 741 |
| }, |
| { |
| "epoch": 0.6183333333333333, |
| "grad_norm": 0.5156967639923096, |
| "learning_rate": 4.899806243960238e-06, |
| "loss": 0.7113, |
| "step": 742 |
| }, |
| { |
| "epoch": 0.6191666666666666, |
| "grad_norm": 0.5053946375846863, |
| "learning_rate": 4.899495980768715e-06, |
| "loss": 0.7265, |
| "step": 743 |
| }, |
| { |
| "epoch": 0.62, |
| "grad_norm": 0.5088186860084534, |
| "learning_rate": 4.899185247787951e-06, |
| "loss": 0.6802, |
| "step": 744 |
| }, |
| { |
| "epoch": 0.6208333333333333, |
| "grad_norm": 0.5136875510215759, |
| "learning_rate": 4.89887404507878e-06, |
| "loss": 0.701, |
| "step": 745 |
| }, |
| { |
| "epoch": 0.6216666666666667, |
| "grad_norm": 0.5318417549133301, |
| "learning_rate": 4.898562372702135e-06, |
| "loss": 0.6949, |
| "step": 746 |
| }, |
| { |
| "epoch": 0.6225, |
| "grad_norm": 0.5200463533401489, |
| "learning_rate": 4.898250230719035e-06, |
| "loss": 0.6897, |
| "step": 747 |
| }, |
| { |
| "epoch": 0.6233333333333333, |
| "grad_norm": 0.5077635645866394, |
| "learning_rate": 4.897937619190594e-06, |
| "loss": 0.7199, |
| "step": 748 |
| }, |
| { |
| "epoch": 0.6241666666666666, |
| "grad_norm": 0.5357377529144287, |
| "learning_rate": 4.897624538178016e-06, |
| "loss": 0.6934, |
| "step": 749 |
| }, |
| { |
| "epoch": 0.625, |
| "grad_norm": 0.5099722743034363, |
| "learning_rate": 4.8973109877426e-06, |
| "loss": 0.7035, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.6258333333333334, |
| "grad_norm": 0.5247126817703247, |
| "learning_rate": 4.8969969679457356e-06, |
| "loss": 0.6929, |
| "step": 751 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 0.5198376178741455, |
| "learning_rate": 4.8966824788489e-06, |
| "loss": 0.672, |
| "step": 752 |
| }, |
| { |
| "epoch": 0.6275, |
| "grad_norm": 0.5000905394554138, |
| "learning_rate": 4.896367520513669e-06, |
| "loss": 0.6997, |
| "step": 753 |
| }, |
| { |
| "epoch": 0.6283333333333333, |
| "grad_norm": 0.5157536268234253, |
| "learning_rate": 4.896052093001706e-06, |
| "loss": 0.6991, |
| "step": 754 |
| }, |
| { |
| "epoch": 0.6291666666666667, |
| "grad_norm": 0.515041172504425, |
| "learning_rate": 4.895736196374769e-06, |
| "loss": 0.7068, |
| "step": 755 |
| }, |
| { |
| "epoch": 0.63, |
| "grad_norm": 0.5365301966667175, |
| "learning_rate": 4.895419830694704e-06, |
| "loss": 0.6737, |
| "step": 756 |
| }, |
| { |
| "epoch": 0.6308333333333334, |
| "grad_norm": 0.5136700868606567, |
| "learning_rate": 4.895102996023453e-06, |
| "loss": 0.6918, |
| "step": 757 |
| }, |
| { |
| "epoch": 0.6316666666666667, |
| "grad_norm": 0.5233005881309509, |
| "learning_rate": 4.894785692423047e-06, |
| "loss": 0.6965, |
| "step": 758 |
| }, |
| { |
| "epoch": 0.6325, |
| "grad_norm": 0.5384533405303955, |
| "learning_rate": 4.89446791995561e-06, |
| "loss": 0.7077, |
| "step": 759 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 0.563629686832428, |
| "learning_rate": 4.8941496786833585e-06, |
| "loss": 0.6964, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.6341666666666667, |
| "grad_norm": 0.534803569316864, |
| "learning_rate": 4.893830968668598e-06, |
| "loss": 0.6948, |
| "step": 761 |
| }, |
| { |
| "epoch": 0.635, |
| "grad_norm": 0.5261678099632263, |
| "learning_rate": 4.89351178997373e-06, |
| "loss": 0.7119, |
| "step": 762 |
| }, |
| { |
| "epoch": 0.6358333333333334, |
| "grad_norm": 0.5127663016319275, |
| "learning_rate": 4.8931921426612436e-06, |
| "loss": 0.678, |
| "step": 763 |
| }, |
| { |
| "epoch": 0.6366666666666667, |
| "grad_norm": 0.5464842915534973, |
| "learning_rate": 4.8928720267937225e-06, |
| "loss": 0.7248, |
| "step": 764 |
| }, |
| { |
| "epoch": 0.6375, |
| "grad_norm": 0.524034321308136, |
| "learning_rate": 4.89255144243384e-06, |
| "loss": 0.7226, |
| "step": 765 |
| }, |
| { |
| "epoch": 0.6383333333333333, |
| "grad_norm": 0.5386018753051758, |
| "learning_rate": 4.892230389644364e-06, |
| "loss": 0.7075, |
| "step": 766 |
| }, |
| { |
| "epoch": 0.6391666666666667, |
| "grad_norm": 0.508327066898346, |
| "learning_rate": 4.89190886848815e-06, |
| "loss": 0.6874, |
| "step": 767 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 0.5330120921134949, |
| "learning_rate": 4.89158687902815e-06, |
| "loss": 0.7053, |
| "step": 768 |
| }, |
| { |
| "epoch": 0.6408333333333334, |
| "grad_norm": 0.523970901966095, |
| "learning_rate": 4.891264421327404e-06, |
| "loss": 0.6953, |
| "step": 769 |
| }, |
| { |
| "epoch": 0.6416666666666667, |
| "grad_norm": 0.5083604454994202, |
| "learning_rate": 4.890941495449045e-06, |
| "loss": 0.7051, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.6425, |
| "grad_norm": 0.518703818321228, |
| "learning_rate": 4.890618101456297e-06, |
| "loss": 0.6998, |
| "step": 771 |
| }, |
| { |
| "epoch": 0.6433333333333333, |
| "grad_norm": 0.5182946920394897, |
| "learning_rate": 4.890294239412477e-06, |
| "loss": 0.6861, |
| "step": 772 |
| }, |
| { |
| "epoch": 0.6441666666666667, |
| "grad_norm": 0.5185273885726929, |
| "learning_rate": 4.889969909380993e-06, |
| "loss": 0.6932, |
| "step": 773 |
| }, |
| { |
| "epoch": 0.645, |
| "grad_norm": 0.518583357334137, |
| "learning_rate": 4.889645111425343e-06, |
| "loss": 0.7127, |
| "step": 774 |
| }, |
| { |
| "epoch": 0.6458333333333334, |
| "grad_norm": 0.5055477023124695, |
| "learning_rate": 4.889319845609121e-06, |
| "loss": 0.6848, |
| "step": 775 |
| }, |
| { |
| "epoch": 0.6466666666666666, |
| "grad_norm": 0.5145213007926941, |
| "learning_rate": 4.888994111996007e-06, |
| "loss": 0.675, |
| "step": 776 |
| }, |
| { |
| "epoch": 0.6475, |
| "grad_norm": 0.5357155203819275, |
| "learning_rate": 4.888667910649776e-06, |
| "loss": 0.6852, |
| "step": 777 |
| }, |
| { |
| "epoch": 0.6483333333333333, |
| "grad_norm": 0.5249659419059753, |
| "learning_rate": 4.888341241634294e-06, |
| "loss": 0.6758, |
| "step": 778 |
| }, |
| { |
| "epoch": 0.6491666666666667, |
| "grad_norm": 0.5111972689628601, |
| "learning_rate": 4.888014105013519e-06, |
| "loss": 0.7135, |
| "step": 779 |
| }, |
| { |
| "epoch": 0.65, |
| "grad_norm": 0.5049281716346741, |
| "learning_rate": 4.887686500851499e-06, |
| "loss": 0.7005, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.6508333333333334, |
| "grad_norm": 0.5292990207672119, |
| "learning_rate": 4.887358429212376e-06, |
| "loss": 0.693, |
| "step": 781 |
| }, |
| { |
| "epoch": 0.6516666666666666, |
| "grad_norm": 0.5458861589431763, |
| "learning_rate": 4.8870298901603795e-06, |
| "loss": 0.6847, |
| "step": 782 |
| }, |
| { |
| "epoch": 0.6525, |
| "grad_norm": 0.4995274543762207, |
| "learning_rate": 4.886700883759835e-06, |
| "loss": 0.6937, |
| "step": 783 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 0.5324481129646301, |
| "learning_rate": 4.886371410075158e-06, |
| "loss": 0.6893, |
| "step": 784 |
| }, |
| { |
| "epoch": 0.6541666666666667, |
| "grad_norm": 0.5349828600883484, |
| "learning_rate": 4.886041469170853e-06, |
| "loss": 0.7125, |
| "step": 785 |
| }, |
| { |
| "epoch": 0.655, |
| "grad_norm": 0.5064926743507385, |
| "learning_rate": 4.885711061111521e-06, |
| "loss": 0.6848, |
| "step": 786 |
| }, |
| { |
| "epoch": 0.6558333333333334, |
| "grad_norm": 0.5255186557769775, |
| "learning_rate": 4.8853801859618485e-06, |
| "loss": 0.7015, |
| "step": 787 |
| }, |
| { |
| "epoch": 0.6566666666666666, |
| "grad_norm": 0.5162312388420105, |
| "learning_rate": 4.8850488437866175e-06, |
| "loss": 0.6814, |
| "step": 788 |
| }, |
| { |
| "epoch": 0.6575, |
| "grad_norm": 0.5064243078231812, |
| "learning_rate": 4.8847170346507015e-06, |
| "loss": 0.7018, |
| "step": 789 |
| }, |
| { |
| "epoch": 0.6583333333333333, |
| "grad_norm": 0.5234450697898865, |
| "learning_rate": 4.884384758619062e-06, |
| "loss": 0.7105, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.6591666666666667, |
| "grad_norm": 0.5111430883407593, |
| "learning_rate": 4.884052015756756e-06, |
| "loss": 0.6954, |
| "step": 791 |
| }, |
| { |
| "epoch": 0.66, |
| "grad_norm": 0.5288181900978088, |
| "learning_rate": 4.88371880612893e-06, |
| "loss": 0.6786, |
| "step": 792 |
| }, |
| { |
| "epoch": 0.6608333333333334, |
| "grad_norm": 0.5146850347518921, |
| "learning_rate": 4.883385129800821e-06, |
| "loss": 0.7104, |
| "step": 793 |
| }, |
| { |
| "epoch": 0.6616666666666666, |
| "grad_norm": 0.5834770798683167, |
| "learning_rate": 4.883050986837759e-06, |
| "loss": 0.6993, |
| "step": 794 |
| }, |
| { |
| "epoch": 0.6625, |
| "grad_norm": 0.5055618286132812, |
| "learning_rate": 4.882716377305165e-06, |
| "loss": 0.7007, |
| "step": 795 |
| }, |
| { |
| "epoch": 0.6633333333333333, |
| "grad_norm": 0.5314000844955444, |
| "learning_rate": 4.882381301268551e-06, |
| "loss": 0.7126, |
| "step": 796 |
| }, |
| { |
| "epoch": 0.6641666666666667, |
| "grad_norm": 0.5144740343093872, |
| "learning_rate": 4.882045758793519e-06, |
| "loss": 0.701, |
| "step": 797 |
| }, |
| { |
| "epoch": 0.665, |
| "grad_norm": 0.5358453392982483, |
| "learning_rate": 4.881709749945766e-06, |
| "loss": 0.6765, |
| "step": 798 |
| }, |
| { |
| "epoch": 0.6658333333333334, |
| "grad_norm": 0.5019009709358215, |
| "learning_rate": 4.881373274791077e-06, |
| "loss": 0.6888, |
| "step": 799 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.504955530166626, |
| "learning_rate": 4.881036333395329e-06, |
| "loss": 0.6985, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.6675, |
| "grad_norm": 0.5426459908485413, |
| "learning_rate": 4.880698925824491e-06, |
| "loss": 0.7185, |
| "step": 801 |
| }, |
| { |
| "epoch": 0.6683333333333333, |
| "grad_norm": 0.5174799561500549, |
| "learning_rate": 4.880361052144622e-06, |
| "loss": 0.6948, |
| "step": 802 |
| }, |
| { |
| "epoch": 0.6691666666666667, |
| "grad_norm": 0.5137911438941956, |
| "learning_rate": 4.880022712421875e-06, |
| "loss": 0.7224, |
| "step": 803 |
| }, |
| { |
| "epoch": 0.67, |
| "grad_norm": 0.5264410972595215, |
| "learning_rate": 4.879683906722491e-06, |
| "loss": 0.7044, |
| "step": 804 |
| }, |
| { |
| "epoch": 0.6708333333333333, |
| "grad_norm": 0.5121612548828125, |
| "learning_rate": 4.879344635112804e-06, |
| "loss": 0.7228, |
| "step": 805 |
| }, |
| { |
| "epoch": 0.6716666666666666, |
| "grad_norm": 0.5080540180206299, |
| "learning_rate": 4.879004897659239e-06, |
| "loss": 0.6855, |
| "step": 806 |
| }, |
| { |
| "epoch": 0.6725, |
| "grad_norm": 0.5224771499633789, |
| "learning_rate": 4.878664694428311e-06, |
| "loss": 0.7008, |
| "step": 807 |
| }, |
| { |
| "epoch": 0.6733333333333333, |
| "grad_norm": 0.5215049386024475, |
| "learning_rate": 4.878324025486629e-06, |
| "loss": 0.7121, |
| "step": 808 |
| }, |
| { |
| "epoch": 0.6741666666666667, |
| "grad_norm": 0.5437601208686829, |
| "learning_rate": 4.87798289090089e-06, |
| "loss": 0.6709, |
| "step": 809 |
| }, |
| { |
| "epoch": 0.675, |
| "grad_norm": 0.5079526901245117, |
| "learning_rate": 4.8776412907378845e-06, |
| "loss": 0.6944, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.6758333333333333, |
| "grad_norm": 0.5485474467277527, |
| "learning_rate": 4.877299225064492e-06, |
| "loss": 0.7243, |
| "step": 811 |
| }, |
| { |
| "epoch": 0.6766666666666666, |
| "grad_norm": 0.5193931460380554, |
| "learning_rate": 4.876956693947686e-06, |
| "loss": 0.7031, |
| "step": 812 |
| }, |
| { |
| "epoch": 0.6775, |
| "grad_norm": 0.5287131667137146, |
| "learning_rate": 4.87661369745453e-06, |
| "loss": 0.6992, |
| "step": 813 |
| }, |
| { |
| "epoch": 0.6783333333333333, |
| "grad_norm": 0.5193741321563721, |
| "learning_rate": 4.8762702356521755e-06, |
| "loss": 0.7001, |
| "step": 814 |
| }, |
| { |
| "epoch": 0.6791666666666667, |
| "grad_norm": 0.5219745635986328, |
| "learning_rate": 4.875926308607869e-06, |
| "loss": 0.688, |
| "step": 815 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 0.5148146152496338, |
| "learning_rate": 4.875581916388947e-06, |
| "loss": 0.7017, |
| "step": 816 |
| }, |
| { |
| "epoch": 0.6808333333333333, |
| "grad_norm": 0.5096646547317505, |
| "learning_rate": 4.875237059062837e-06, |
| "loss": 0.6998, |
| "step": 817 |
| }, |
| { |
| "epoch": 0.6816666666666666, |
| "grad_norm": 0.5043613910675049, |
| "learning_rate": 4.8748917366970575e-06, |
| "loss": 0.7139, |
| "step": 818 |
| }, |
| { |
| "epoch": 0.6825, |
| "grad_norm": 0.5209697484970093, |
| "learning_rate": 4.874545949359218e-06, |
| "loss": 0.7058, |
| "step": 819 |
| }, |
| { |
| "epoch": 0.6833333333333333, |
| "grad_norm": 0.510082483291626, |
| "learning_rate": 4.874199697117019e-06, |
| "loss": 0.7101, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.6841666666666667, |
| "grad_norm": 0.5097037553787231, |
| "learning_rate": 4.873852980038251e-06, |
| "loss": 0.6997, |
| "step": 821 |
| }, |
| { |
| "epoch": 0.685, |
| "grad_norm": 0.5249111652374268, |
| "learning_rate": 4.8735057981907985e-06, |
| "loss": 0.6966, |
| "step": 822 |
| }, |
| { |
| "epoch": 0.6858333333333333, |
| "grad_norm": 0.5364351868629456, |
| "learning_rate": 4.873158151642633e-06, |
| "loss": 0.7089, |
| "step": 823 |
| }, |
| { |
| "epoch": 0.6866666666666666, |
| "grad_norm": 0.5414480566978455, |
| "learning_rate": 4.87281004046182e-06, |
| "loss": 0.7027, |
| "step": 824 |
| }, |
| { |
| "epoch": 0.6875, |
| "grad_norm": 0.5269333720207214, |
| "learning_rate": 4.8724614647165165e-06, |
| "loss": 0.6871, |
| "step": 825 |
| }, |
| { |
| "epoch": 0.6883333333333334, |
| "grad_norm": 0.5062053799629211, |
| "learning_rate": 4.8721124244749675e-06, |
| "loss": 0.7059, |
| "step": 826 |
| }, |
| { |
| "epoch": 0.6891666666666667, |
| "grad_norm": 0.5331844687461853, |
| "learning_rate": 4.871762919805509e-06, |
| "loss": 0.6924, |
| "step": 827 |
| }, |
| { |
| "epoch": 0.69, |
| "grad_norm": 0.5113570094108582, |
| "learning_rate": 4.871412950776572e-06, |
| "loss": 0.7176, |
| "step": 828 |
| }, |
| { |
| "epoch": 0.6908333333333333, |
| "grad_norm": 0.5091599822044373, |
| "learning_rate": 4.8710625174566746e-06, |
| "loss": 0.7009, |
| "step": 829 |
| }, |
| { |
| "epoch": 0.6916666666666667, |
| "grad_norm": 0.5157275795936584, |
| "learning_rate": 4.870711619914427e-06, |
| "loss": 0.6823, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.6925, |
| "grad_norm": 0.5111780762672424, |
| "learning_rate": 4.870360258218529e-06, |
| "loss": 0.7126, |
| "step": 831 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 0.5205333232879639, |
| "learning_rate": 4.870008432437775e-06, |
| "loss": 0.6862, |
| "step": 832 |
| }, |
| { |
| "epoch": 0.6941666666666667, |
| "grad_norm": 0.5357934832572937, |
| "learning_rate": 4.869656142641046e-06, |
| "loss": 0.6843, |
| "step": 833 |
| }, |
| { |
| "epoch": 0.695, |
| "grad_norm": 0.5192294716835022, |
| "learning_rate": 4.869303388897316e-06, |
| "loss": 0.7239, |
| "step": 834 |
| }, |
| { |
| "epoch": 0.6958333333333333, |
| "grad_norm": 0.5110365748405457, |
| "learning_rate": 4.86895017127565e-06, |
| "loss": 0.6775, |
| "step": 835 |
| }, |
| { |
| "epoch": 0.6966666666666667, |
| "grad_norm": 0.5330725312232971, |
| "learning_rate": 4.868596489845202e-06, |
| "loss": 0.6859, |
| "step": 836 |
| }, |
| { |
| "epoch": 0.6975, |
| "grad_norm": 0.5269964337348938, |
| "learning_rate": 4.8682423446752205e-06, |
| "loss": 0.68, |
| "step": 837 |
| }, |
| { |
| "epoch": 0.6983333333333334, |
| "grad_norm": 0.5197260975837708, |
| "learning_rate": 4.8678877358350395e-06, |
| "loss": 0.7141, |
| "step": 838 |
| }, |
| { |
| "epoch": 0.6991666666666667, |
| "grad_norm": 0.5159953832626343, |
| "learning_rate": 4.867532663394089e-06, |
| "loss": 0.7068, |
| "step": 839 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 0.5161412358283997, |
| "learning_rate": 4.867177127421886e-06, |
| "loss": 0.6867, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.7008333333333333, |
| "grad_norm": 0.5148288607597351, |
| "learning_rate": 4.866821127988041e-06, |
| "loss": 0.6788, |
| "step": 841 |
| }, |
| { |
| "epoch": 0.7016666666666667, |
| "grad_norm": 0.5343820452690125, |
| "learning_rate": 4.8664646651622525e-06, |
| "loss": 0.6934, |
| "step": 842 |
| }, |
| { |
| "epoch": 0.7025, |
| "grad_norm": 0.5303324460983276, |
| "learning_rate": 4.8661077390143116e-06, |
| "loss": 0.7257, |
| "step": 843 |
| }, |
| { |
| "epoch": 0.7033333333333334, |
| "grad_norm": 0.5165217518806458, |
| "learning_rate": 4.8657503496141e-06, |
| "loss": 0.7094, |
| "step": 844 |
| }, |
| { |
| "epoch": 0.7041666666666667, |
| "grad_norm": 0.5399205088615417, |
| "learning_rate": 4.86539249703159e-06, |
| "loss": 0.6867, |
| "step": 845 |
| }, |
| { |
| "epoch": 0.705, |
| "grad_norm": 0.5127713084220886, |
| "learning_rate": 4.865034181336843e-06, |
| "loss": 0.7245, |
| "step": 846 |
| }, |
| { |
| "epoch": 0.7058333333333333, |
| "grad_norm": 0.5517030358314514, |
| "learning_rate": 4.864675402600014e-06, |
| "loss": 0.7152, |
| "step": 847 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 0.5316351652145386, |
| "learning_rate": 4.864316160891347e-06, |
| "loss": 0.6969, |
| "step": 848 |
| }, |
| { |
| "epoch": 0.7075, |
| "grad_norm": 0.5376459956169128, |
| "learning_rate": 4.863956456281176e-06, |
| "loss": 0.6885, |
| "step": 849 |
| }, |
| { |
| "epoch": 0.7083333333333334, |
| "grad_norm": 0.5351783633232117, |
| "learning_rate": 4.863596288839926e-06, |
| "loss": 0.6858, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.7091666666666666, |
| "grad_norm": 0.5073575973510742, |
| "learning_rate": 4.863235658638114e-06, |
| "loss": 0.6926, |
| "step": 851 |
| }, |
| { |
| "epoch": 0.71, |
| "grad_norm": 0.5288323760032654, |
| "learning_rate": 4.862874565746346e-06, |
| "loss": 0.6655, |
| "step": 852 |
| }, |
| { |
| "epoch": 0.7108333333333333, |
| "grad_norm": 0.5252835750579834, |
| "learning_rate": 4.862513010235319e-06, |
| "loss": 0.6828, |
| "step": 853 |
| }, |
| { |
| "epoch": 0.7116666666666667, |
| "grad_norm": 0.5355015993118286, |
| "learning_rate": 4.862150992175821e-06, |
| "loss": 0.6983, |
| "step": 854 |
| }, |
| { |
| "epoch": 0.7125, |
| "grad_norm": 0.5402361750602722, |
| "learning_rate": 4.861788511638731e-06, |
| "loss": 0.6796, |
| "step": 855 |
| }, |
| { |
| "epoch": 0.7133333333333334, |
| "grad_norm": 0.555108904838562, |
| "learning_rate": 4.861425568695016e-06, |
| "loss": 0.6692, |
| "step": 856 |
| }, |
| { |
| "epoch": 0.7141666666666666, |
| "grad_norm": 0.5432515740394592, |
| "learning_rate": 4.861062163415737e-06, |
| "loss": 0.6953, |
| "step": 857 |
| }, |
| { |
| "epoch": 0.715, |
| "grad_norm": 0.5291070938110352, |
| "learning_rate": 4.860698295872044e-06, |
| "loss": 0.6832, |
| "step": 858 |
| }, |
| { |
| "epoch": 0.7158333333333333, |
| "grad_norm": 0.5087788701057434, |
| "learning_rate": 4.860333966135177e-06, |
| "loss": 0.6802, |
| "step": 859 |
| }, |
| { |
| "epoch": 0.7166666666666667, |
| "grad_norm": 0.5214117765426636, |
| "learning_rate": 4.859969174276465e-06, |
| "loss": 0.6958, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.7175, |
| "grad_norm": 0.5283812284469604, |
| "learning_rate": 4.859603920367333e-06, |
| "loss": 0.6857, |
| "step": 861 |
| }, |
| { |
| "epoch": 0.7183333333333334, |
| "grad_norm": 0.5406526327133179, |
| "learning_rate": 4.85923820447929e-06, |
| "loss": 0.7026, |
| "step": 862 |
| }, |
| { |
| "epoch": 0.7191666666666666, |
| "grad_norm": 0.5307414531707764, |
| "learning_rate": 4.8588720266839394e-06, |
| "loss": 0.7016, |
| "step": 863 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 0.5175375938415527, |
| "learning_rate": 4.858505387052974e-06, |
| "loss": 0.7003, |
| "step": 864 |
| }, |
| { |
| "epoch": 0.7208333333333333, |
| "grad_norm": 0.5153360366821289, |
| "learning_rate": 4.858138285658176e-06, |
| "loss": 0.6846, |
| "step": 865 |
| }, |
| { |
| "epoch": 0.7216666666666667, |
| "grad_norm": 0.5288724899291992, |
| "learning_rate": 4.85777072257142e-06, |
| "loss": 0.6662, |
| "step": 866 |
| }, |
| { |
| "epoch": 0.7225, |
| "grad_norm": 0.5373950004577637, |
| "learning_rate": 4.857402697864669e-06, |
| "loss": 0.6913, |
| "step": 867 |
| }, |
| { |
| "epoch": 0.7233333333333334, |
| "grad_norm": 0.540603518486023, |
| "learning_rate": 4.857034211609979e-06, |
| "loss": 0.677, |
| "step": 868 |
| }, |
| { |
| "epoch": 0.7241666666666666, |
| "grad_norm": 0.5345202088356018, |
| "learning_rate": 4.856665263879492e-06, |
| "loss": 0.6824, |
| "step": 869 |
| }, |
| { |
| "epoch": 0.725, |
| "grad_norm": 0.5688567161560059, |
| "learning_rate": 4.856295854745446e-06, |
| "loss": 0.7228, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.7258333333333333, |
| "grad_norm": 0.5296337604522705, |
| "learning_rate": 4.855925984280164e-06, |
| "loss": 0.6924, |
| "step": 871 |
| }, |
| { |
| "epoch": 0.7266666666666667, |
| "grad_norm": 0.5505181550979614, |
| "learning_rate": 4.855555652556063e-06, |
| "loss": 0.7014, |
| "step": 872 |
| }, |
| { |
| "epoch": 0.7275, |
| "grad_norm": 0.5318360328674316, |
| "learning_rate": 4.855184859645648e-06, |
| "loss": 0.7082, |
| "step": 873 |
| }, |
| { |
| "epoch": 0.7283333333333334, |
| "grad_norm": 0.533689558506012, |
| "learning_rate": 4.854813605621518e-06, |
| "loss": 0.7105, |
| "step": 874 |
| }, |
| { |
| "epoch": 0.7291666666666666, |
| "grad_norm": 0.5644373893737793, |
| "learning_rate": 4.8544418905563556e-06, |
| "loss": 0.6798, |
| "step": 875 |
| }, |
| { |
| "epoch": 0.73, |
| "grad_norm": 0.5328598618507385, |
| "learning_rate": 4.85406971452294e-06, |
| "loss": 0.6585, |
| "step": 876 |
| }, |
| { |
| "epoch": 0.7308333333333333, |
| "grad_norm": 0.5422435402870178, |
| "learning_rate": 4.853697077594139e-06, |
| "loss": 0.6833, |
| "step": 877 |
| }, |
| { |
| "epoch": 0.7316666666666667, |
| "grad_norm": 0.5485203266143799, |
| "learning_rate": 4.853323979842907e-06, |
| "loss": 0.7094, |
| "step": 878 |
| }, |
| { |
| "epoch": 0.7325, |
| "grad_norm": 0.5323787927627563, |
| "learning_rate": 4.852950421342294e-06, |
| "loss": 0.69, |
| "step": 879 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 0.5386905074119568, |
| "learning_rate": 4.852576402165436e-06, |
| "loss": 0.6926, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.7341666666666666, |
| "grad_norm": 0.5184804797172546, |
| "learning_rate": 4.852201922385564e-06, |
| "loss": 0.7036, |
| "step": 881 |
| }, |
| { |
| "epoch": 0.735, |
| "grad_norm": 0.5275572538375854, |
| "learning_rate": 4.851826982075993e-06, |
| "loss": 0.6837, |
| "step": 882 |
| }, |
| { |
| "epoch": 0.7358333333333333, |
| "grad_norm": 0.5331025123596191, |
| "learning_rate": 4.851451581310134e-06, |
| "loss": 0.6822, |
| "step": 883 |
| }, |
| { |
| "epoch": 0.7366666666666667, |
| "grad_norm": 0.5557110905647278, |
| "learning_rate": 4.851075720161482e-06, |
| "loss": 0.7043, |
| "step": 884 |
| }, |
| { |
| "epoch": 0.7375, |
| "grad_norm": 0.5354774594306946, |
| "learning_rate": 4.850699398703629e-06, |
| "loss": 0.6986, |
| "step": 885 |
| }, |
| { |
| "epoch": 0.7383333333333333, |
| "grad_norm": 0.5475578904151917, |
| "learning_rate": 4.850322617010251e-06, |
| "loss": 0.7064, |
| "step": 886 |
| }, |
| { |
| "epoch": 0.7391666666666666, |
| "grad_norm": 0.5287150144577026, |
| "learning_rate": 4.849945375155119e-06, |
| "loss": 0.6898, |
| "step": 887 |
| }, |
| { |
| "epoch": 0.74, |
| "grad_norm": 0.5327820777893066, |
| "learning_rate": 4.84956767321209e-06, |
| "loss": 0.7019, |
| "step": 888 |
| }, |
| { |
| "epoch": 0.7408333333333333, |
| "grad_norm": 0.5362345576286316, |
| "learning_rate": 4.849189511255115e-06, |
| "loss": 0.6977, |
| "step": 889 |
| }, |
| { |
| "epoch": 0.7416666666666667, |
| "grad_norm": 0.512047290802002, |
| "learning_rate": 4.848810889358232e-06, |
| "loss": 0.6945, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.7425, |
| "grad_norm": 0.5216673612594604, |
| "learning_rate": 4.848431807595569e-06, |
| "loss": 0.6769, |
| "step": 891 |
| }, |
| { |
| "epoch": 0.7433333333333333, |
| "grad_norm": 0.5360478758811951, |
| "learning_rate": 4.8480522660413476e-06, |
| "loss": 0.6755, |
| "step": 892 |
| }, |
| { |
| "epoch": 0.7441666666666666, |
| "grad_norm": 0.5182502865791321, |
| "learning_rate": 4.8476722647698745e-06, |
| "loss": 0.7005, |
| "step": 893 |
| }, |
| { |
| "epoch": 0.745, |
| "grad_norm": 0.5161767601966858, |
| "learning_rate": 4.847291803855551e-06, |
| "loss": 0.7003, |
| "step": 894 |
| }, |
| { |
| "epoch": 0.7458333333333333, |
| "grad_norm": 0.5291750431060791, |
| "learning_rate": 4.8469108833728655e-06, |
| "loss": 0.6688, |
| "step": 895 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 0.5470592379570007, |
| "learning_rate": 4.846529503396395e-06, |
| "loss": 0.7092, |
| "step": 896 |
| }, |
| { |
| "epoch": 0.7475, |
| "grad_norm": 0.5536440014839172, |
| "learning_rate": 4.8461476640008125e-06, |
| "loss": 0.7177, |
| "step": 897 |
| }, |
| { |
| "epoch": 0.7483333333333333, |
| "grad_norm": 0.5416380167007446, |
| "learning_rate": 4.845765365260874e-06, |
| "loss": 0.6917, |
| "step": 898 |
| }, |
| { |
| "epoch": 0.7491666666666666, |
| "grad_norm": 0.5404486656188965, |
| "learning_rate": 4.84538260725143e-06, |
| "loss": 0.7035, |
| "step": 899 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 0.5136855840682983, |
| "learning_rate": 4.844999390047419e-06, |
| "loss": 0.7087, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.7508333333333334, |
| "grad_norm": 0.5188578367233276, |
| "learning_rate": 4.84461571372387e-06, |
| "loss": 0.6981, |
| "step": 901 |
| }, |
| { |
| "epoch": 0.7516666666666667, |
| "grad_norm": 0.5364389419555664, |
| "learning_rate": 4.8442315783559005e-06, |
| "loss": 0.6794, |
| "step": 902 |
| }, |
| { |
| "epoch": 0.7525, |
| "grad_norm": 0.5432283878326416, |
| "learning_rate": 4.8438469840187206e-06, |
| "loss": 0.6994, |
| "step": 903 |
| }, |
| { |
| "epoch": 0.7533333333333333, |
| "grad_norm": 0.5308606028556824, |
| "learning_rate": 4.843461930787629e-06, |
| "loss": 0.7245, |
| "step": 904 |
| }, |
| { |
| "epoch": 0.7541666666666667, |
| "grad_norm": 0.5469908714294434, |
| "learning_rate": 4.843076418738012e-06, |
| "loss": 0.694, |
| "step": 905 |
| }, |
| { |
| "epoch": 0.755, |
| "grad_norm": 0.5533103346824646, |
| "learning_rate": 4.842690447945349e-06, |
| "loss": 0.6934, |
| "step": 906 |
| }, |
| { |
| "epoch": 0.7558333333333334, |
| "grad_norm": 0.5339813232421875, |
| "learning_rate": 4.842304018485208e-06, |
| "loss": 0.675, |
| "step": 907 |
| }, |
| { |
| "epoch": 0.7566666666666667, |
| "grad_norm": 0.5356221795082092, |
| "learning_rate": 4.841917130433246e-06, |
| "loss": 0.7119, |
| "step": 908 |
| }, |
| { |
| "epoch": 0.7575, |
| "grad_norm": 0.5247910022735596, |
| "learning_rate": 4.8415297838652106e-06, |
| "loss": 0.6911, |
| "step": 909 |
| }, |
| { |
| "epoch": 0.7583333333333333, |
| "grad_norm": 0.5224043726921082, |
| "learning_rate": 4.84114197885694e-06, |
| "loss": 0.6747, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.7591666666666667, |
| "grad_norm": 0.5057650208473206, |
| "learning_rate": 4.840753715484362e-06, |
| "loss": 0.6923, |
| "step": 911 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 0.5337413549423218, |
| "learning_rate": 4.84036499382349e-06, |
| "loss": 0.6881, |
| "step": 912 |
| }, |
| { |
| "epoch": 0.7608333333333334, |
| "grad_norm": 0.5334152579307556, |
| "learning_rate": 4.839975813950434e-06, |
| "loss": 0.6769, |
| "step": 913 |
| }, |
| { |
| "epoch": 0.7616666666666667, |
| "grad_norm": 0.526846170425415, |
| "learning_rate": 4.839586175941389e-06, |
| "loss": 0.6973, |
| "step": 914 |
| }, |
| { |
| "epoch": 0.7625, |
| "grad_norm": 0.542777419090271, |
| "learning_rate": 4.83919607987264e-06, |
| "loss": 0.6995, |
| "step": 915 |
| }, |
| { |
| "epoch": 0.7633333333333333, |
| "grad_norm": 0.5465850830078125, |
| "learning_rate": 4.838805525820563e-06, |
| "loss": 0.6937, |
| "step": 916 |
| }, |
| { |
| "epoch": 0.7641666666666667, |
| "grad_norm": 0.5348052382469177, |
| "learning_rate": 4.838414513861624e-06, |
| "loss": 0.6572, |
| "step": 917 |
| }, |
| { |
| "epoch": 0.765, |
| "grad_norm": 0.524090051651001, |
| "learning_rate": 4.8380230440723775e-06, |
| "loss": 0.6837, |
| "step": 918 |
| }, |
| { |
| "epoch": 0.7658333333333334, |
| "grad_norm": 0.5454646348953247, |
| "learning_rate": 4.837631116529468e-06, |
| "loss": 0.6876, |
| "step": 919 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 0.5396842360496521, |
| "learning_rate": 4.83723873130963e-06, |
| "loss": 0.6788, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.7675, |
| "grad_norm": 0.5233221054077148, |
| "learning_rate": 4.836845888489687e-06, |
| "loss": 0.7025, |
| "step": 921 |
| }, |
| { |
| "epoch": 0.7683333333333333, |
| "grad_norm": 0.54860520362854, |
| "learning_rate": 4.836452588146552e-06, |
| "loss": 0.6757, |
| "step": 922 |
| }, |
| { |
| "epoch": 0.7691666666666667, |
| "grad_norm": 0.5379807353019714, |
| "learning_rate": 4.836058830357229e-06, |
| "loss": 0.7022, |
| "step": 923 |
| }, |
| { |
| "epoch": 0.77, |
| "grad_norm": 0.5269885063171387, |
| "learning_rate": 4.835664615198808e-06, |
| "loss": 0.7005, |
| "step": 924 |
| }, |
| { |
| "epoch": 0.7708333333333334, |
| "grad_norm": 0.5360590815544128, |
| "learning_rate": 4.835269942748475e-06, |
| "loss": 0.6788, |
| "step": 925 |
| }, |
| { |
| "epoch": 0.7716666666666666, |
| "grad_norm": 0.5308401584625244, |
| "learning_rate": 4.834874813083499e-06, |
| "loss": 0.6915, |
| "step": 926 |
| }, |
| { |
| "epoch": 0.7725, |
| "grad_norm": 0.525095522403717, |
| "learning_rate": 4.834479226281241e-06, |
| "loss": 0.7025, |
| "step": 927 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 0.5442466139793396, |
| "learning_rate": 4.834083182419153e-06, |
| "loss": 0.6862, |
| "step": 928 |
| }, |
| { |
| "epoch": 0.7741666666666667, |
| "grad_norm": 0.5249763131141663, |
| "learning_rate": 4.833686681574774e-06, |
| "loss": 0.7004, |
| "step": 929 |
| }, |
| { |
| "epoch": 0.775, |
| "grad_norm": 0.558108925819397, |
| "learning_rate": 4.8332897238257335e-06, |
| "loss": 0.6897, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.7758333333333334, |
| "grad_norm": 0.5417056083679199, |
| "learning_rate": 4.832892309249751e-06, |
| "loss": 0.689, |
| "step": 931 |
| }, |
| { |
| "epoch": 0.7766666666666666, |
| "grad_norm": 0.549426257610321, |
| "learning_rate": 4.8324944379246355e-06, |
| "loss": 0.687, |
| "step": 932 |
| }, |
| { |
| "epoch": 0.7775, |
| "grad_norm": 0.5361883044242859, |
| "learning_rate": 4.832096109928284e-06, |
| "loss": 0.6948, |
| "step": 933 |
| }, |
| { |
| "epoch": 0.7783333333333333, |
| "grad_norm": 0.5358255505561829, |
| "learning_rate": 4.831697325338684e-06, |
| "loss": 0.7043, |
| "step": 934 |
| }, |
| { |
| "epoch": 0.7791666666666667, |
| "grad_norm": 0.5400095582008362, |
| "learning_rate": 4.831298084233912e-06, |
| "loss": 0.6859, |
| "step": 935 |
| }, |
| { |
| "epoch": 0.78, |
| "grad_norm": 0.5766608715057373, |
| "learning_rate": 4.830898386692133e-06, |
| "loss": 0.6808, |
| "step": 936 |
| }, |
| { |
| "epoch": 0.7808333333333334, |
| "grad_norm": 0.5335484147071838, |
| "learning_rate": 4.830498232791606e-06, |
| "loss": 0.708, |
| "step": 937 |
| }, |
| { |
| "epoch": 0.7816666666666666, |
| "grad_norm": 0.5256344079971313, |
| "learning_rate": 4.830097622610672e-06, |
| "loss": 0.6801, |
| "step": 938 |
| }, |
| { |
| "epoch": 0.7825, |
| "grad_norm": 0.5297211408615112, |
| "learning_rate": 4.8296965562277675e-06, |
| "loss": 0.7031, |
| "step": 939 |
| }, |
| { |
| "epoch": 0.7833333333333333, |
| "grad_norm": 0.5368627905845642, |
| "learning_rate": 4.829295033721415e-06, |
| "loss": 0.7011, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.7841666666666667, |
| "grad_norm": 0.5508820414543152, |
| "learning_rate": 4.828893055170228e-06, |
| "loss": 0.6943, |
| "step": 941 |
| }, |
| { |
| "epoch": 0.785, |
| "grad_norm": 0.536708652973175, |
| "learning_rate": 4.8284906206529056e-06, |
| "loss": 0.6958, |
| "step": 942 |
| }, |
| { |
| "epoch": 0.7858333333333334, |
| "grad_norm": 0.5180797576904297, |
| "learning_rate": 4.828087730248243e-06, |
| "loss": 0.6938, |
| "step": 943 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 0.5381445288658142, |
| "learning_rate": 4.827684384035119e-06, |
| "loss": 0.7108, |
| "step": 944 |
| }, |
| { |
| "epoch": 0.7875, |
| "grad_norm": 0.5434241890907288, |
| "learning_rate": 4.827280582092503e-06, |
| "loss": 0.7045, |
| "step": 945 |
| }, |
| { |
| "epoch": 0.7883333333333333, |
| "grad_norm": 0.5350834727287292, |
| "learning_rate": 4.826876324499455e-06, |
| "loss": 0.6886, |
| "step": 946 |
| }, |
| { |
| "epoch": 0.7891666666666667, |
| "grad_norm": 0.5226648449897766, |
| "learning_rate": 4.8264716113351226e-06, |
| "loss": 0.6708, |
| "step": 947 |
| }, |
| { |
| "epoch": 0.79, |
| "grad_norm": 0.5469403266906738, |
| "learning_rate": 4.826066442678744e-06, |
| "loss": 0.7029, |
| "step": 948 |
| }, |
| { |
| "epoch": 0.7908333333333334, |
| "grad_norm": 0.5216239094734192, |
| "learning_rate": 4.8256608186096445e-06, |
| "loss": 0.7043, |
| "step": 949 |
| }, |
| { |
| "epoch": 0.7916666666666666, |
| "grad_norm": 0.5428479909896851, |
| "learning_rate": 4.8252547392072415e-06, |
| "loss": 0.6977, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.7925, |
| "grad_norm": 0.5288153886795044, |
| "learning_rate": 4.824848204551037e-06, |
| "loss": 0.688, |
| "step": 951 |
| }, |
| { |
| "epoch": 0.7933333333333333, |
| "grad_norm": 0.5270776748657227, |
| "learning_rate": 4.824441214720629e-06, |
| "loss": 0.6809, |
| "step": 952 |
| }, |
| { |
| "epoch": 0.7941666666666667, |
| "grad_norm": 0.5376223921775818, |
| "learning_rate": 4.8240337697956976e-06, |
| "loss": 0.6683, |
| "step": 953 |
| }, |
| { |
| "epoch": 0.795, |
| "grad_norm": 0.5337541699409485, |
| "learning_rate": 4.823625869856017e-06, |
| "loss": 0.6995, |
| "step": 954 |
| }, |
| { |
| "epoch": 0.7958333333333333, |
| "grad_norm": 0.5436489582061768, |
| "learning_rate": 4.823217514981447e-06, |
| "loss": 0.6672, |
| "step": 955 |
| }, |
| { |
| "epoch": 0.7966666666666666, |
| "grad_norm": 0.5323599576950073, |
| "learning_rate": 4.822808705251939e-06, |
| "loss": 0.7188, |
| "step": 956 |
| }, |
| { |
| "epoch": 0.7975, |
| "grad_norm": 0.5533539652824402, |
| "learning_rate": 4.822399440747533e-06, |
| "loss": 0.6981, |
| "step": 957 |
| }, |
| { |
| "epoch": 0.7983333333333333, |
| "grad_norm": 0.5329532027244568, |
| "learning_rate": 4.821989721548356e-06, |
| "loss": 0.6736, |
| "step": 958 |
| }, |
| { |
| "epoch": 0.7991666666666667, |
| "grad_norm": 0.5280501246452332, |
| "learning_rate": 4.821579547734626e-06, |
| "loss": 0.6857, |
| "step": 959 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.5292397141456604, |
| "learning_rate": 4.82116891938665e-06, |
| "loss": 0.7014, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.8008333333333333, |
| "grad_norm": 0.5427101254463196, |
| "learning_rate": 4.820757836584824e-06, |
| "loss": 0.6781, |
| "step": 961 |
| }, |
| { |
| "epoch": 0.8016666666666666, |
| "grad_norm": 0.5340928435325623, |
| "learning_rate": 4.820346299409632e-06, |
| "loss": 0.6682, |
| "step": 962 |
| }, |
| { |
| "epoch": 0.8025, |
| "grad_norm": 0.5200477838516235, |
| "learning_rate": 4.819934307941647e-06, |
| "loss": 0.7215, |
| "step": 963 |
| }, |
| { |
| "epoch": 0.8033333333333333, |
| "grad_norm": 0.5545709133148193, |
| "learning_rate": 4.819521862261532e-06, |
| "loss": 0.7024, |
| "step": 964 |
| }, |
| { |
| "epoch": 0.8041666666666667, |
| "grad_norm": 0.5368270874023438, |
| "learning_rate": 4.819108962450037e-06, |
| "loss": 0.6959, |
| "step": 965 |
| }, |
| { |
| "epoch": 0.805, |
| "grad_norm": 0.5460261702537537, |
| "learning_rate": 4.818695608588005e-06, |
| "loss": 0.6836, |
| "step": 966 |
| }, |
| { |
| "epoch": 0.8058333333333333, |
| "grad_norm": 0.5270740985870361, |
| "learning_rate": 4.8182818007563625e-06, |
| "loss": 0.7292, |
| "step": 967 |
| }, |
| { |
| "epoch": 0.8066666666666666, |
| "grad_norm": 0.5230692625045776, |
| "learning_rate": 4.8178675390361295e-06, |
| "loss": 0.683, |
| "step": 968 |
| }, |
| { |
| "epoch": 0.8075, |
| "grad_norm": 0.5471054315567017, |
| "learning_rate": 4.817452823508412e-06, |
| "loss": 0.684, |
| "step": 969 |
| }, |
| { |
| "epoch": 0.8083333333333333, |
| "grad_norm": 0.5346125960350037, |
| "learning_rate": 4.817037654254405e-06, |
| "loss": 0.6845, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.8091666666666667, |
| "grad_norm": 0.5467856526374817, |
| "learning_rate": 4.8166220313553944e-06, |
| "loss": 0.7051, |
| "step": 971 |
| }, |
| { |
| "epoch": 0.81, |
| "grad_norm": 0.5343219041824341, |
| "learning_rate": 4.816205954892753e-06, |
| "loss": 0.7122, |
| "step": 972 |
| }, |
| { |
| "epoch": 0.8108333333333333, |
| "grad_norm": 0.5341103672981262, |
| "learning_rate": 4.815789424947943e-06, |
| "loss": 0.6817, |
| "step": 973 |
| }, |
| { |
| "epoch": 0.8116666666666666, |
| "grad_norm": 0.5252223610877991, |
| "learning_rate": 4.815372441602516e-06, |
| "loss": 0.7046, |
| "step": 974 |
| }, |
| { |
| "epoch": 0.8125, |
| "grad_norm": 0.5397008061408997, |
| "learning_rate": 4.814955004938111e-06, |
| "loss": 0.7016, |
| "step": 975 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 0.5315702557563782, |
| "learning_rate": 4.814537115036457e-06, |
| "loss": 0.6579, |
| "step": 976 |
| }, |
| { |
| "epoch": 0.8141666666666667, |
| "grad_norm": 0.5206130146980286, |
| "learning_rate": 4.814118771979371e-06, |
| "loss": 0.6899, |
| "step": 977 |
| }, |
| { |
| "epoch": 0.815, |
| "grad_norm": 0.5563502907752991, |
| "learning_rate": 4.813699975848758e-06, |
| "loss": 0.7034, |
| "step": 978 |
| }, |
| { |
| "epoch": 0.8158333333333333, |
| "grad_norm": 0.5461870431900024, |
| "learning_rate": 4.813280726726615e-06, |
| "loss": 0.6722, |
| "step": 979 |
| }, |
| { |
| "epoch": 0.8166666666666667, |
| "grad_norm": 0.5501440167427063, |
| "learning_rate": 4.812861024695024e-06, |
| "loss": 0.7042, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.8175, |
| "grad_norm": 0.5670163631439209, |
| "learning_rate": 4.812440869836157e-06, |
| "loss": 0.6947, |
| "step": 981 |
| }, |
| { |
| "epoch": 0.8183333333333334, |
| "grad_norm": 0.5279183387756348, |
| "learning_rate": 4.812020262232274e-06, |
| "loss": 0.6468, |
| "step": 982 |
| }, |
| { |
| "epoch": 0.8191666666666667, |
| "grad_norm": 0.5182305574417114, |
| "learning_rate": 4.811599201965727e-06, |
| "loss": 0.6933, |
| "step": 983 |
| }, |
| { |
| "epoch": 0.82, |
| "grad_norm": 0.5424363017082214, |
| "learning_rate": 4.81117768911895e-06, |
| "loss": 0.6863, |
| "step": 984 |
| }, |
| { |
| "epoch": 0.8208333333333333, |
| "grad_norm": 0.5456661581993103, |
| "learning_rate": 4.810755723774473e-06, |
| "loss": 0.6852, |
| "step": 985 |
| }, |
| { |
| "epoch": 0.8216666666666667, |
| "grad_norm": 0.5676931738853455, |
| "learning_rate": 4.81033330601491e-06, |
| "loss": 0.6857, |
| "step": 986 |
| }, |
| { |
| "epoch": 0.8225, |
| "grad_norm": 0.5600205659866333, |
| "learning_rate": 4.8099104359229645e-06, |
| "loss": 0.6913, |
| "step": 987 |
| }, |
| { |
| "epoch": 0.8233333333333334, |
| "grad_norm": 0.5599549412727356, |
| "learning_rate": 4.809487113581428e-06, |
| "loss": 0.6858, |
| "step": 988 |
| }, |
| { |
| "epoch": 0.8241666666666667, |
| "grad_norm": 0.5413509607315063, |
| "learning_rate": 4.809063339073184e-06, |
| "loss": 0.6813, |
| "step": 989 |
| }, |
| { |
| "epoch": 0.825, |
| "grad_norm": 0.5218127369880676, |
| "learning_rate": 4.808639112481199e-06, |
| "loss": 0.6726, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.8258333333333333, |
| "grad_norm": 0.5233421921730042, |
| "learning_rate": 4.808214433888533e-06, |
| "loss": 0.6965, |
| "step": 991 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 0.5167056918144226, |
| "learning_rate": 4.807789303378331e-06, |
| "loss": 0.7156, |
| "step": 992 |
| }, |
| { |
| "epoch": 0.8275, |
| "grad_norm": 0.5601177215576172, |
| "learning_rate": 4.807363721033829e-06, |
| "loss": 0.6911, |
| "step": 993 |
| }, |
| { |
| "epoch": 0.8283333333333334, |
| "grad_norm": 0.5393472909927368, |
| "learning_rate": 4.806937686938349e-06, |
| "loss": 0.6867, |
| "step": 994 |
| }, |
| { |
| "epoch": 0.8291666666666667, |
| "grad_norm": 0.5309321880340576, |
| "learning_rate": 4.8065112011753036e-06, |
| "loss": 0.711, |
| "step": 995 |
| }, |
| { |
| "epoch": 0.83, |
| "grad_norm": 0.560248613357544, |
| "learning_rate": 4.806084263828193e-06, |
| "loss": 0.6886, |
| "step": 996 |
| }, |
| { |
| "epoch": 0.8308333333333333, |
| "grad_norm": 0.5477662682533264, |
| "learning_rate": 4.805656874980606e-06, |
| "loss": 0.6665, |
| "step": 997 |
| }, |
| { |
| "epoch": 0.8316666666666667, |
| "grad_norm": 0.5480148196220398, |
| "learning_rate": 4.805229034716219e-06, |
| "loss": 0.7082, |
| "step": 998 |
| }, |
| { |
| "epoch": 0.8325, |
| "grad_norm": 0.5657473206520081, |
| "learning_rate": 4.804800743118798e-06, |
| "loss": 0.6772, |
| "step": 999 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.5312777757644653, |
| "learning_rate": 4.804372000272196e-06, |
| "loss": 0.6848, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.8341666666666666, |
| "grad_norm": 0.5284767746925354, |
| "learning_rate": 4.803942806260356e-06, |
| "loss": 0.6664, |
| "step": 1001 |
| }, |
| { |
| "epoch": 0.835, |
| "grad_norm": 0.5451256632804871, |
| "learning_rate": 4.803513161167309e-06, |
| "loss": 0.6726, |
| "step": 1002 |
| }, |
| { |
| "epoch": 0.8358333333333333, |
| "grad_norm": 0.5377514958381653, |
| "learning_rate": 4.803083065077172e-06, |
| "loss": 0.6862, |
| "step": 1003 |
| }, |
| { |
| "epoch": 0.8366666666666667, |
| "grad_norm": 0.538153350353241, |
| "learning_rate": 4.802652518074153e-06, |
| "loss": 0.6755, |
| "step": 1004 |
| }, |
| { |
| "epoch": 0.8375, |
| "grad_norm": 0.5532846450805664, |
| "learning_rate": 4.802221520242547e-06, |
| "loss": 0.699, |
| "step": 1005 |
| }, |
| { |
| "epoch": 0.8383333333333334, |
| "grad_norm": 0.5389847755432129, |
| "learning_rate": 4.801790071666739e-06, |
| "loss": 0.689, |
| "step": 1006 |
| }, |
| { |
| "epoch": 0.8391666666666666, |
| "grad_norm": 0.5523820519447327, |
| "learning_rate": 4.801358172431199e-06, |
| "loss": 0.7009, |
| "step": 1007 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 0.545132040977478, |
| "learning_rate": 4.800925822620487e-06, |
| "loss": 0.6931, |
| "step": 1008 |
| }, |
| { |
| "epoch": 0.8408333333333333, |
| "grad_norm": 0.5307531952857971, |
| "learning_rate": 4.800493022319254e-06, |
| "loss": 0.6799, |
| "step": 1009 |
| }, |
| { |
| "epoch": 0.8416666666666667, |
| "grad_norm": 0.5223236083984375, |
| "learning_rate": 4.800059771612234e-06, |
| "loss": 0.703, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.8425, |
| "grad_norm": 0.544477105140686, |
| "learning_rate": 4.799626070584252e-06, |
| "loss": 0.6481, |
| "step": 1011 |
| }, |
| { |
| "epoch": 0.8433333333333334, |
| "grad_norm": 0.5555903911590576, |
| "learning_rate": 4.799191919320221e-06, |
| "loss": 0.6984, |
| "step": 1012 |
| }, |
| { |
| "epoch": 0.8441666666666666, |
| "grad_norm": 0.5147600173950195, |
| "learning_rate": 4.7987573179051426e-06, |
| "loss": 0.7008, |
| "step": 1013 |
| }, |
| { |
| "epoch": 0.845, |
| "grad_norm": 0.5319939255714417, |
| "learning_rate": 4.7983222664241055e-06, |
| "loss": 0.6767, |
| "step": 1014 |
| }, |
| { |
| "epoch": 0.8458333333333333, |
| "grad_norm": 0.5582086443901062, |
| "learning_rate": 4.797886764962289e-06, |
| "loss": 0.6767, |
| "step": 1015 |
| }, |
| { |
| "epoch": 0.8466666666666667, |
| "grad_norm": 0.5470446348190308, |
| "learning_rate": 4.797450813604954e-06, |
| "loss": 0.7031, |
| "step": 1016 |
| }, |
| { |
| "epoch": 0.8475, |
| "grad_norm": 0.5527660250663757, |
| "learning_rate": 4.797014412437457e-06, |
| "loss": 0.6734, |
| "step": 1017 |
| }, |
| { |
| "epoch": 0.8483333333333334, |
| "grad_norm": 0.5340491533279419, |
| "learning_rate": 4.7965775615452395e-06, |
| "loss": 0.6721, |
| "step": 1018 |
| }, |
| { |
| "epoch": 0.8491666666666666, |
| "grad_norm": 0.5458944439888, |
| "learning_rate": 4.796140261013831e-06, |
| "loss": 0.6899, |
| "step": 1019 |
| }, |
| { |
| "epoch": 0.85, |
| "grad_norm": 0.5495284199714661, |
| "learning_rate": 4.795702510928848e-06, |
| "loss": 0.6759, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.8508333333333333, |
| "grad_norm": 0.544189453125, |
| "learning_rate": 4.795264311375997e-06, |
| "loss": 0.6689, |
| "step": 1021 |
| }, |
| { |
| "epoch": 0.8516666666666667, |
| "grad_norm": 0.5305647253990173, |
| "learning_rate": 4.794825662441072e-06, |
| "loss": 0.7005, |
| "step": 1022 |
| }, |
| { |
| "epoch": 0.8525, |
| "grad_norm": 0.5430959463119507, |
| "learning_rate": 4.794386564209953e-06, |
| "loss": 0.6753, |
| "step": 1023 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 0.5616235136985779, |
| "learning_rate": 4.7939470167686115e-06, |
| "loss": 0.6846, |
| "step": 1024 |
| }, |
| { |
| "epoch": 0.8541666666666666, |
| "grad_norm": 0.5440129041671753, |
| "learning_rate": 4.793507020203104e-06, |
| "loss": 0.6906, |
| "step": 1025 |
| }, |
| { |
| "epoch": 0.855, |
| "grad_norm": 0.5231167674064636, |
| "learning_rate": 4.793066574599576e-06, |
| "loss": 0.6926, |
| "step": 1026 |
| }, |
| { |
| "epoch": 0.8558333333333333, |
| "grad_norm": 0.5591561198234558, |
| "learning_rate": 4.79262568004426e-06, |
| "loss": 0.7114, |
| "step": 1027 |
| }, |
| { |
| "epoch": 0.8566666666666667, |
| "grad_norm": 0.5525199174880981, |
| "learning_rate": 4.7921843366234785e-06, |
| "loss": 0.6815, |
| "step": 1028 |
| }, |
| { |
| "epoch": 0.8575, |
| "grad_norm": 0.5386251211166382, |
| "learning_rate": 4.791742544423641e-06, |
| "loss": 0.6891, |
| "step": 1029 |
| }, |
| { |
| "epoch": 0.8583333333333333, |
| "grad_norm": 0.5424612164497375, |
| "learning_rate": 4.791300303531243e-06, |
| "loss": 0.6991, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.8591666666666666, |
| "grad_norm": 0.532472550868988, |
| "learning_rate": 4.790857614032871e-06, |
| "loss": 0.6762, |
| "step": 1031 |
| }, |
| { |
| "epoch": 0.86, |
| "grad_norm": 0.5242069959640503, |
| "learning_rate": 4.790414476015196e-06, |
| "loss": 0.6828, |
| "step": 1032 |
| }, |
| { |
| "epoch": 0.8608333333333333, |
| "grad_norm": 0.5251231789588928, |
| "learning_rate": 4.78997088956498e-06, |
| "loss": 0.6996, |
| "step": 1033 |
| }, |
| { |
| "epoch": 0.8616666666666667, |
| "grad_norm": 0.5173211693763733, |
| "learning_rate": 4.78952685476907e-06, |
| "loss": 0.7218, |
| "step": 1034 |
| }, |
| { |
| "epoch": 0.8625, |
| "grad_norm": 0.5456705689430237, |
| "learning_rate": 4.789082371714404e-06, |
| "loss": 0.666, |
| "step": 1035 |
| }, |
| { |
| "epoch": 0.8633333333333333, |
| "grad_norm": 0.537186324596405, |
| "learning_rate": 4.788637440488003e-06, |
| "loss": 0.6982, |
| "step": 1036 |
| }, |
| { |
| "epoch": 0.8641666666666666, |
| "grad_norm": 0.5428951978683472, |
| "learning_rate": 4.788192061176982e-06, |
| "loss": 0.6766, |
| "step": 1037 |
| }, |
| { |
| "epoch": 0.865, |
| "grad_norm": 0.548636257648468, |
| "learning_rate": 4.787746233868537e-06, |
| "loss": 0.6615, |
| "step": 1038 |
| }, |
| { |
| "epoch": 0.8658333333333333, |
| "grad_norm": 0.5503275394439697, |
| "learning_rate": 4.787299958649957e-06, |
| "loss": 0.7208, |
| "step": 1039 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 0.5472001433372498, |
| "learning_rate": 4.786853235608616e-06, |
| "loss": 0.6888, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.8675, |
| "grad_norm": 0.5650719404220581, |
| "learning_rate": 4.7864060648319765e-06, |
| "loss": 0.6656, |
| "step": 1041 |
| }, |
| { |
| "epoch": 0.8683333333333333, |
| "grad_norm": 0.5397439002990723, |
| "learning_rate": 4.7859584464075895e-06, |
| "loss": 0.6753, |
| "step": 1042 |
| }, |
| { |
| "epoch": 0.8691666666666666, |
| "grad_norm": 0.5307998061180115, |
| "learning_rate": 4.785510380423091e-06, |
| "loss": 0.705, |
| "step": 1043 |
| }, |
| { |
| "epoch": 0.87, |
| "grad_norm": 0.5306239128112793, |
| "learning_rate": 4.785061866966208e-06, |
| "loss": 0.6923, |
| "step": 1044 |
| }, |
| { |
| "epoch": 0.8708333333333333, |
| "grad_norm": 0.5280582904815674, |
| "learning_rate": 4.784612906124752e-06, |
| "loss": 0.6686, |
| "step": 1045 |
| }, |
| { |
| "epoch": 0.8716666666666667, |
| "grad_norm": 0.5160478353500366, |
| "learning_rate": 4.784163497986625e-06, |
| "loss": 0.6797, |
| "step": 1046 |
| }, |
| { |
| "epoch": 0.8725, |
| "grad_norm": 0.5494632720947266, |
| "learning_rate": 4.783713642639814e-06, |
| "loss": 0.7221, |
| "step": 1047 |
| }, |
| { |
| "epoch": 0.8733333333333333, |
| "grad_norm": 0.5483080148696899, |
| "learning_rate": 4.783263340172394e-06, |
| "loss": 0.6929, |
| "step": 1048 |
| }, |
| { |
| "epoch": 0.8741666666666666, |
| "grad_norm": 0.5433019399642944, |
| "learning_rate": 4.78281259067253e-06, |
| "loss": 0.689, |
| "step": 1049 |
| }, |
| { |
| "epoch": 0.875, |
| "grad_norm": 0.5325921177864075, |
| "learning_rate": 4.7823613942284716e-06, |
| "loss": 0.6757, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.8758333333333334, |
| "grad_norm": 0.5252819657325745, |
| "learning_rate": 4.781909750928558e-06, |
| "loss": 0.6934, |
| "step": 1051 |
| }, |
| { |
| "epoch": 0.8766666666666667, |
| "grad_norm": 0.5434681177139282, |
| "learning_rate": 4.781457660861214e-06, |
| "loss": 0.6739, |
| "step": 1052 |
| }, |
| { |
| "epoch": 0.8775, |
| "grad_norm": 0.5192910432815552, |
| "learning_rate": 4.781005124114953e-06, |
| "loss": 0.6974, |
| "step": 1053 |
| }, |
| { |
| "epoch": 0.8783333333333333, |
| "grad_norm": 0.5509209036827087, |
| "learning_rate": 4.780552140778376e-06, |
| "loss": 0.6786, |
| "step": 1054 |
| }, |
| { |
| "epoch": 0.8791666666666667, |
| "grad_norm": 0.5670494437217712, |
| "learning_rate": 4.78009871094017e-06, |
| "loss": 0.6971, |
| "step": 1055 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 0.5494702458381653, |
| "learning_rate": 4.779644834689112e-06, |
| "loss": 0.6719, |
| "step": 1056 |
| }, |
| { |
| "epoch": 0.8808333333333334, |
| "grad_norm": 0.5554876327514648, |
| "learning_rate": 4.779190512114063e-06, |
| "loss": 0.6744, |
| "step": 1057 |
| }, |
| { |
| "epoch": 0.8816666666666667, |
| "grad_norm": 0.5288978219032288, |
| "learning_rate": 4.778735743303976e-06, |
| "loss": 0.6982, |
| "step": 1058 |
| }, |
| { |
| "epoch": 0.8825, |
| "grad_norm": 0.5391525030136108, |
| "learning_rate": 4.778280528347887e-06, |
| "loss": 0.6771, |
| "step": 1059 |
| }, |
| { |
| "epoch": 0.8833333333333333, |
| "grad_norm": 0.5409436821937561, |
| "learning_rate": 4.77782486733492e-06, |
| "loss": 0.679, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.8841666666666667, |
| "grad_norm": 0.5622888803482056, |
| "learning_rate": 4.77736876035429e-06, |
| "loss": 0.6948, |
| "step": 1061 |
| }, |
| { |
| "epoch": 0.885, |
| "grad_norm": 0.5387107133865356, |
| "learning_rate": 4.776912207495294e-06, |
| "loss": 0.687, |
| "step": 1062 |
| }, |
| { |
| "epoch": 0.8858333333333334, |
| "grad_norm": 0.5317919254302979, |
| "learning_rate": 4.77645520884732e-06, |
| "loss": 0.6855, |
| "step": 1063 |
| }, |
| { |
| "epoch": 0.8866666666666667, |
| "grad_norm": 0.533784031867981, |
| "learning_rate": 4.775997764499843e-06, |
| "loss": 0.6989, |
| "step": 1064 |
| }, |
| { |
| "epoch": 0.8875, |
| "grad_norm": 0.5367893576622009, |
| "learning_rate": 4.775539874542423e-06, |
| "loss": 0.6715, |
| "step": 1065 |
| }, |
| { |
| "epoch": 0.8883333333333333, |
| "grad_norm": 0.5293227434158325, |
| "learning_rate": 4.77508153906471e-06, |
| "loss": 0.7038, |
| "step": 1066 |
| }, |
| { |
| "epoch": 0.8891666666666667, |
| "grad_norm": 0.5636188387870789, |
| "learning_rate": 4.77462275815644e-06, |
| "loss": 0.6986, |
| "step": 1067 |
| }, |
| { |
| "epoch": 0.89, |
| "grad_norm": 0.5615501999855042, |
| "learning_rate": 4.774163531907436e-06, |
| "loss": 0.6874, |
| "step": 1068 |
| }, |
| { |
| "epoch": 0.8908333333333334, |
| "grad_norm": 0.5406633615493774, |
| "learning_rate": 4.7737038604076055e-06, |
| "loss": 0.6495, |
| "step": 1069 |
| }, |
| { |
| "epoch": 0.8916666666666667, |
| "grad_norm": 0.5543058514595032, |
| "learning_rate": 4.77324374374695e-06, |
| "loss": 0.6881, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.8925, |
| "grad_norm": 0.5436853766441345, |
| "learning_rate": 4.772783182015554e-06, |
| "loss": 0.6962, |
| "step": 1071 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 0.5333845019340515, |
| "learning_rate": 4.7723221753035865e-06, |
| "loss": 0.6855, |
| "step": 1072 |
| }, |
| { |
| "epoch": 0.8941666666666667, |
| "grad_norm": 0.5417557954788208, |
| "learning_rate": 4.7718607237013085e-06, |
| "loss": 0.6698, |
| "step": 1073 |
| }, |
| { |
| "epoch": 0.895, |
| "grad_norm": 0.5388748645782471, |
| "learning_rate": 4.771398827299065e-06, |
| "loss": 0.6807, |
| "step": 1074 |
| }, |
| { |
| "epoch": 0.8958333333333334, |
| "grad_norm": 0.5663542747497559, |
| "learning_rate": 4.770936486187291e-06, |
| "loss": 0.6815, |
| "step": 1075 |
| }, |
| { |
| "epoch": 0.8966666666666666, |
| "grad_norm": 0.5452628135681152, |
| "learning_rate": 4.770473700456505e-06, |
| "loss": 0.6999, |
| "step": 1076 |
| }, |
| { |
| "epoch": 0.8975, |
| "grad_norm": 0.541050374507904, |
| "learning_rate": 4.770010470197314e-06, |
| "loss": 0.6719, |
| "step": 1077 |
| }, |
| { |
| "epoch": 0.8983333333333333, |
| "grad_norm": 0.5387743711471558, |
| "learning_rate": 4.769546795500414e-06, |
| "loss": 0.6736, |
| "step": 1078 |
| }, |
| { |
| "epoch": 0.8991666666666667, |
| "grad_norm": 0.5280100107192993, |
| "learning_rate": 4.769082676456585e-06, |
| "loss": 0.6858, |
| "step": 1079 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 0.535346269607544, |
| "learning_rate": 4.768618113156695e-06, |
| "loss": 0.689, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.9008333333333334, |
| "grad_norm": 0.5523096323013306, |
| "learning_rate": 4.7681531056917e-06, |
| "loss": 0.6826, |
| "step": 1081 |
| }, |
| { |
| "epoch": 0.9016666666666666, |
| "grad_norm": 0.5523461699485779, |
| "learning_rate": 4.767687654152642e-06, |
| "loss": 0.6838, |
| "step": 1082 |
| }, |
| { |
| "epoch": 0.9025, |
| "grad_norm": 0.5431815981864929, |
| "learning_rate": 4.767221758630651e-06, |
| "loss": 0.6921, |
| "step": 1083 |
| }, |
| { |
| "epoch": 0.9033333333333333, |
| "grad_norm": 0.5458906292915344, |
| "learning_rate": 4.766755419216942e-06, |
| "loss": 0.6931, |
| "step": 1084 |
| }, |
| { |
| "epoch": 0.9041666666666667, |
| "grad_norm": 0.5406618714332581, |
| "learning_rate": 4.766288636002818e-06, |
| "loss": 0.7017, |
| "step": 1085 |
| }, |
| { |
| "epoch": 0.905, |
| "grad_norm": 0.5302971601486206, |
| "learning_rate": 4.7658214090796705e-06, |
| "loss": 0.6681, |
| "step": 1086 |
| }, |
| { |
| "epoch": 0.9058333333333334, |
| "grad_norm": 0.5316381454467773, |
| "learning_rate": 4.7653537385389745e-06, |
| "loss": 0.6941, |
| "step": 1087 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 0.5475829243659973, |
| "learning_rate": 4.764885624472295e-06, |
| "loss": 0.7189, |
| "step": 1088 |
| }, |
| { |
| "epoch": 0.9075, |
| "grad_norm": 0.5711652040481567, |
| "learning_rate": 4.764417066971281e-06, |
| "loss": 0.6873, |
| "step": 1089 |
| }, |
| { |
| "epoch": 0.9083333333333333, |
| "grad_norm": 0.5479061603546143, |
| "learning_rate": 4.763948066127671e-06, |
| "loss": 0.6662, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.9091666666666667, |
| "grad_norm": 0.5251897573471069, |
| "learning_rate": 4.763478622033288e-06, |
| "loss": 0.6786, |
| "step": 1091 |
| }, |
| { |
| "epoch": 0.91, |
| "grad_norm": 0.5401804447174072, |
| "learning_rate": 4.763008734780044e-06, |
| "loss": 0.6851, |
| "step": 1092 |
| }, |
| { |
| "epoch": 0.9108333333333334, |
| "grad_norm": 0.5489534139633179, |
| "learning_rate": 4.762538404459937e-06, |
| "loss": 0.7017, |
| "step": 1093 |
| }, |
| { |
| "epoch": 0.9116666666666666, |
| "grad_norm": 0.5508617758750916, |
| "learning_rate": 4.762067631165049e-06, |
| "loss": 0.6776, |
| "step": 1094 |
| }, |
| { |
| "epoch": 0.9125, |
| "grad_norm": 0.5428087115287781, |
| "learning_rate": 4.761596414987553e-06, |
| "loss": 0.6748, |
| "step": 1095 |
| }, |
| { |
| "epoch": 0.9133333333333333, |
| "grad_norm": 0.54740309715271, |
| "learning_rate": 4.761124756019708e-06, |
| "loss": 0.6824, |
| "step": 1096 |
| }, |
| { |
| "epoch": 0.9141666666666667, |
| "grad_norm": 0.5550034046173096, |
| "learning_rate": 4.760652654353856e-06, |
| "loss": 0.7002, |
| "step": 1097 |
| }, |
| { |
| "epoch": 0.915, |
| "grad_norm": 0.5526885986328125, |
| "learning_rate": 4.76018011008243e-06, |
| "loss": 0.6636, |
| "step": 1098 |
| }, |
| { |
| "epoch": 0.9158333333333334, |
| "grad_norm": 0.5593960285186768, |
| "learning_rate": 4.7597071232979456e-06, |
| "loss": 0.6753, |
| "step": 1099 |
| }, |
| { |
| "epoch": 0.9166666666666666, |
| "grad_norm": 0.5551512241363525, |
| "learning_rate": 4.75923369409301e-06, |
| "loss": 0.6875, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.9175, |
| "grad_norm": 0.5616668462753296, |
| "learning_rate": 4.7587598225603125e-06, |
| "loss": 0.6963, |
| "step": 1101 |
| }, |
| { |
| "epoch": 0.9183333333333333, |
| "grad_norm": 0.5372278690338135, |
| "learning_rate": 4.7582855087926325e-06, |
| "loss": 0.6988, |
| "step": 1102 |
| }, |
| { |
| "epoch": 0.9191666666666667, |
| "grad_norm": 0.5442941784858704, |
| "learning_rate": 4.757810752882832e-06, |
| "loss": 0.6405, |
| "step": 1103 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 0.5227256417274475, |
| "learning_rate": 4.757335554923863e-06, |
| "loss": 0.6523, |
| "step": 1104 |
| }, |
| { |
| "epoch": 0.9208333333333333, |
| "grad_norm": 0.5390055775642395, |
| "learning_rate": 4.756859915008765e-06, |
| "loss": 0.6956, |
| "step": 1105 |
| }, |
| { |
| "epoch": 0.9216666666666666, |
| "grad_norm": 0.5312950015068054, |
| "learning_rate": 4.756383833230658e-06, |
| "loss": 0.6756, |
| "step": 1106 |
| }, |
| { |
| "epoch": 0.9225, |
| "grad_norm": 0.5549653768539429, |
| "learning_rate": 4.755907309682755e-06, |
| "loss": 0.6726, |
| "step": 1107 |
| }, |
| { |
| "epoch": 0.9233333333333333, |
| "grad_norm": 0.5344476103782654, |
| "learning_rate": 4.755430344458352e-06, |
| "loss": 0.6857, |
| "step": 1108 |
| }, |
| { |
| "epoch": 0.9241666666666667, |
| "grad_norm": 0.5309156179428101, |
| "learning_rate": 4.754952937650833e-06, |
| "loss": 0.698, |
| "step": 1109 |
| }, |
| { |
| "epoch": 0.925, |
| "grad_norm": 0.5390446782112122, |
| "learning_rate": 4.754475089353667e-06, |
| "loss": 0.685, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.9258333333333333, |
| "grad_norm": 0.5390679836273193, |
| "learning_rate": 4.753996799660412e-06, |
| "loss": 0.6838, |
| "step": 1111 |
| }, |
| { |
| "epoch": 0.9266666666666666, |
| "grad_norm": 0.5447319746017456, |
| "learning_rate": 4.7535180686647085e-06, |
| "loss": 0.6996, |
| "step": 1112 |
| }, |
| { |
| "epoch": 0.9275, |
| "grad_norm": 0.5378071069717407, |
| "learning_rate": 4.753038896460288e-06, |
| "loss": 0.6873, |
| "step": 1113 |
| }, |
| { |
| "epoch": 0.9283333333333333, |
| "grad_norm": 0.5611705183982849, |
| "learning_rate": 4.752559283140964e-06, |
| "loss": 0.6803, |
| "step": 1114 |
| }, |
| { |
| "epoch": 0.9291666666666667, |
| "grad_norm": 0.5532156229019165, |
| "learning_rate": 4.752079228800639e-06, |
| "loss": 0.6772, |
| "step": 1115 |
| }, |
| { |
| "epoch": 0.93, |
| "grad_norm": 0.5641983151435852, |
| "learning_rate": 4.751598733533302e-06, |
| "loss": 0.6821, |
| "step": 1116 |
| }, |
| { |
| "epoch": 0.9308333333333333, |
| "grad_norm": 0.5632778406143188, |
| "learning_rate": 4.751117797433027e-06, |
| "loss": 0.6781, |
| "step": 1117 |
| }, |
| { |
| "epoch": 0.9316666666666666, |
| "grad_norm": 0.5254220962524414, |
| "learning_rate": 4.7506364205939745e-06, |
| "loss": 0.674, |
| "step": 1118 |
| }, |
| { |
| "epoch": 0.9325, |
| "grad_norm": 0.547807514667511, |
| "learning_rate": 4.750154603110392e-06, |
| "loss": 0.6891, |
| "step": 1119 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 0.5461582541465759, |
| "learning_rate": 4.749672345076613e-06, |
| "loss": 0.7057, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.9341666666666667, |
| "grad_norm": 0.5285746455192566, |
| "learning_rate": 4.749189646587057e-06, |
| "loss": 0.6602, |
| "step": 1121 |
| }, |
| { |
| "epoch": 0.935, |
| "grad_norm": 0.5460460782051086, |
| "learning_rate": 4.748706507736229e-06, |
| "loss": 0.6683, |
| "step": 1122 |
| }, |
| { |
| "epoch": 0.9358333333333333, |
| "grad_norm": 0.5611393451690674, |
| "learning_rate": 4.7482229286187236e-06, |
| "loss": 0.677, |
| "step": 1123 |
| }, |
| { |
| "epoch": 0.9366666666666666, |
| "grad_norm": 0.5334330201148987, |
| "learning_rate": 4.747738909329216e-06, |
| "loss": 0.6835, |
| "step": 1124 |
| }, |
| { |
| "epoch": 0.9375, |
| "grad_norm": 0.5364940166473389, |
| "learning_rate": 4.747254449962474e-06, |
| "loss": 0.6797, |
| "step": 1125 |
| }, |
| { |
| "epoch": 0.9383333333333334, |
| "grad_norm": 0.5399084091186523, |
| "learning_rate": 4.746769550613346e-06, |
| "loss": 0.7012, |
| "step": 1126 |
| }, |
| { |
| "epoch": 0.9391666666666667, |
| "grad_norm": 0.5443120002746582, |
| "learning_rate": 4.746284211376769e-06, |
| "loss": 0.6521, |
| "step": 1127 |
| }, |
| { |
| "epoch": 0.94, |
| "grad_norm": 0.5568748712539673, |
| "learning_rate": 4.745798432347767e-06, |
| "loss": 0.7101, |
| "step": 1128 |
| }, |
| { |
| "epoch": 0.9408333333333333, |
| "grad_norm": 0.5697879195213318, |
| "learning_rate": 4.745312213621447e-06, |
| "loss": 0.706, |
| "step": 1129 |
| }, |
| { |
| "epoch": 0.9416666666666667, |
| "grad_norm": 0.556804358959198, |
| "learning_rate": 4.744825555293007e-06, |
| "loss": 0.6791, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.9425, |
| "grad_norm": 0.5465302467346191, |
| "learning_rate": 4.744338457457727e-06, |
| "loss": 0.6892, |
| "step": 1131 |
| }, |
| { |
| "epoch": 0.9433333333333334, |
| "grad_norm": 0.5576493144035339, |
| "learning_rate": 4.7438509202109725e-06, |
| "loss": 0.6663, |
| "step": 1132 |
| }, |
| { |
| "epoch": 0.9441666666666667, |
| "grad_norm": 0.5397078990936279, |
| "learning_rate": 4.743362943648199e-06, |
| "loss": 0.671, |
| "step": 1133 |
| }, |
| { |
| "epoch": 0.945, |
| "grad_norm": 0.5395886898040771, |
| "learning_rate": 4.7428745278649455e-06, |
| "loss": 0.6778, |
| "step": 1134 |
| }, |
| { |
| "epoch": 0.9458333333333333, |
| "grad_norm": 0.5800783634185791, |
| "learning_rate": 4.742385672956837e-06, |
| "loss": 0.6976, |
| "step": 1135 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 0.5482068061828613, |
| "learning_rate": 4.7418963790195825e-06, |
| "loss": 0.6797, |
| "step": 1136 |
| }, |
| { |
| "epoch": 0.9475, |
| "grad_norm": 0.5531644225120544, |
| "learning_rate": 4.7414066461489836e-06, |
| "loss": 0.6806, |
| "step": 1137 |
| }, |
| { |
| "epoch": 0.9483333333333334, |
| "grad_norm": 0.5455755591392517, |
| "learning_rate": 4.74091647444092e-06, |
| "loss": 0.6927, |
| "step": 1138 |
| }, |
| { |
| "epoch": 0.9491666666666667, |
| "grad_norm": 0.5663310885429382, |
| "learning_rate": 4.740425863991362e-06, |
| "loss": 0.6799, |
| "step": 1139 |
| }, |
| { |
| "epoch": 0.95, |
| "grad_norm": 0.5616320967674255, |
| "learning_rate": 4.7399348148963646e-06, |
| "loss": 0.6852, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.9508333333333333, |
| "grad_norm": 0.5891749262809753, |
| "learning_rate": 4.7394433272520686e-06, |
| "loss": 0.6737, |
| "step": 1141 |
| }, |
| { |
| "epoch": 0.9516666666666667, |
| "grad_norm": 0.555493950843811, |
| "learning_rate": 4.7389514011547e-06, |
| "loss": 0.6773, |
| "step": 1142 |
| }, |
| { |
| "epoch": 0.9525, |
| "grad_norm": 0.5803748369216919, |
| "learning_rate": 4.738459036700573e-06, |
| "loss": 0.7122, |
| "step": 1143 |
| }, |
| { |
| "epoch": 0.9533333333333334, |
| "grad_norm": 0.5740647315979004, |
| "learning_rate": 4.7379662339860844e-06, |
| "loss": 0.7011, |
| "step": 1144 |
| }, |
| { |
| "epoch": 0.9541666666666667, |
| "grad_norm": 0.5698148608207703, |
| "learning_rate": 4.7374729931077194e-06, |
| "loss": 0.6641, |
| "step": 1145 |
| }, |
| { |
| "epoch": 0.955, |
| "grad_norm": 0.5703817009925842, |
| "learning_rate": 4.7369793141620466e-06, |
| "loss": 0.6793, |
| "step": 1146 |
| }, |
| { |
| "epoch": 0.9558333333333333, |
| "grad_norm": 0.5403212308883667, |
| "learning_rate": 4.736485197245723e-06, |
| "loss": 0.685, |
| "step": 1147 |
| }, |
| { |
| "epoch": 0.9566666666666667, |
| "grad_norm": 0.5556619167327881, |
| "learning_rate": 4.73599064245549e-06, |
| "loss": 0.6775, |
| "step": 1148 |
| }, |
| { |
| "epoch": 0.9575, |
| "grad_norm": 0.5645613670349121, |
| "learning_rate": 4.735495649888175e-06, |
| "loss": 0.6778, |
| "step": 1149 |
| }, |
| { |
| "epoch": 0.9583333333333334, |
| "grad_norm": 0.5446354150772095, |
| "learning_rate": 4.735000219640689e-06, |
| "loss": 0.6932, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.9591666666666666, |
| "grad_norm": 0.5600216388702393, |
| "learning_rate": 4.734504351810034e-06, |
| "loss": 0.6897, |
| "step": 1151 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 0.5426549911499023, |
| "learning_rate": 4.734008046493291e-06, |
| "loss": 0.6467, |
| "step": 1152 |
| }, |
| { |
| "epoch": 0.9608333333333333, |
| "grad_norm": 0.5596107840538025, |
| "learning_rate": 4.733511303787633e-06, |
| "loss": 0.6803, |
| "step": 1153 |
| }, |
| { |
| "epoch": 0.9616666666666667, |
| "grad_norm": 0.556390106678009, |
| "learning_rate": 4.733014123790312e-06, |
| "loss": 0.6782, |
| "step": 1154 |
| }, |
| { |
| "epoch": 0.9625, |
| "grad_norm": 0.5332323312759399, |
| "learning_rate": 4.732516506598672e-06, |
| "loss": 0.698, |
| "step": 1155 |
| }, |
| { |
| "epoch": 0.9633333333333334, |
| "grad_norm": 0.545379638671875, |
| "learning_rate": 4.732018452310139e-06, |
| "loss": 0.6935, |
| "step": 1156 |
| }, |
| { |
| "epoch": 0.9641666666666666, |
| "grad_norm": 0.5710763931274414, |
| "learning_rate": 4.731519961022225e-06, |
| "loss": 0.6834, |
| "step": 1157 |
| }, |
| { |
| "epoch": 0.965, |
| "grad_norm": 0.5500915050506592, |
| "learning_rate": 4.7310210328325285e-06, |
| "loss": 0.6871, |
| "step": 1158 |
| }, |
| { |
| "epoch": 0.9658333333333333, |
| "grad_norm": 0.5522690415382385, |
| "learning_rate": 4.730521667838733e-06, |
| "loss": 0.6716, |
| "step": 1159 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 0.5778139233589172, |
| "learning_rate": 4.730021866138607e-06, |
| "loss": 0.7024, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.9675, |
| "grad_norm": 0.5582888722419739, |
| "learning_rate": 4.729521627830005e-06, |
| "loss": 0.7, |
| "step": 1161 |
| }, |
| { |
| "epoch": 0.9683333333333334, |
| "grad_norm": 0.5494309663772583, |
| "learning_rate": 4.729020953010867e-06, |
| "loss": 0.6887, |
| "step": 1162 |
| }, |
| { |
| "epoch": 0.9691666666666666, |
| "grad_norm": 0.5512510538101196, |
| "learning_rate": 4.728519841779219e-06, |
| "loss": 0.6736, |
| "step": 1163 |
| }, |
| { |
| "epoch": 0.97, |
| "grad_norm": 0.5724416971206665, |
| "learning_rate": 4.728018294233171e-06, |
| "loss": 0.6886, |
| "step": 1164 |
| }, |
| { |
| "epoch": 0.9708333333333333, |
| "grad_norm": 0.5454419851303101, |
| "learning_rate": 4.72751631047092e-06, |
| "loss": 0.6774, |
| "step": 1165 |
| }, |
| { |
| "epoch": 0.9716666666666667, |
| "grad_norm": 0.5404846668243408, |
| "learning_rate": 4.727013890590748e-06, |
| "loss": 0.7012, |
| "step": 1166 |
| }, |
| { |
| "epoch": 0.9725, |
| "grad_norm": 0.5304462313652039, |
| "learning_rate": 4.726511034691021e-06, |
| "loss": 0.6678, |
| "step": 1167 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 0.5502594113349915, |
| "learning_rate": 4.726007742870192e-06, |
| "loss": 0.6653, |
| "step": 1168 |
| }, |
| { |
| "epoch": 0.9741666666666666, |
| "grad_norm": 0.5499830842018127, |
| "learning_rate": 4.7255040152268e-06, |
| "loss": 0.7064, |
| "step": 1169 |
| }, |
| { |
| "epoch": 0.975, |
| "grad_norm": 0.5555225014686584, |
| "learning_rate": 4.724999851859465e-06, |
| "loss": 0.7001, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.9758333333333333, |
| "grad_norm": 0.5441496968269348, |
| "learning_rate": 4.724495252866899e-06, |
| "loss": 0.6817, |
| "step": 1171 |
| }, |
| { |
| "epoch": 0.9766666666666667, |
| "grad_norm": 0.5462631583213806, |
| "learning_rate": 4.723990218347893e-06, |
| "loss": 0.6888, |
| "step": 1172 |
| }, |
| { |
| "epoch": 0.9775, |
| "grad_norm": 0.5420259833335876, |
| "learning_rate": 4.723484748401329e-06, |
| "loss": 0.6811, |
| "step": 1173 |
| }, |
| { |
| "epoch": 0.9783333333333334, |
| "grad_norm": 0.5751280784606934, |
| "learning_rate": 4.722978843126168e-06, |
| "loss": 0.6722, |
| "step": 1174 |
| }, |
| { |
| "epoch": 0.9791666666666666, |
| "grad_norm": 0.5355557799339294, |
| "learning_rate": 4.722472502621462e-06, |
| "loss": 0.7011, |
| "step": 1175 |
| }, |
| { |
| "epoch": 0.98, |
| "grad_norm": 0.5431925654411316, |
| "learning_rate": 4.721965726986344e-06, |
| "loss": 0.6804, |
| "step": 1176 |
| }, |
| { |
| "epoch": 0.9808333333333333, |
| "grad_norm": 0.5622472167015076, |
| "learning_rate": 4.721458516320035e-06, |
| "loss": 0.6837, |
| "step": 1177 |
| }, |
| { |
| "epoch": 0.9816666666666667, |
| "grad_norm": 0.5559244155883789, |
| "learning_rate": 4.720950870721839e-06, |
| "loss": 0.6703, |
| "step": 1178 |
| }, |
| { |
| "epoch": 0.9825, |
| "grad_norm": 0.590329110622406, |
| "learning_rate": 4.720442790291147e-06, |
| "loss": 0.656, |
| "step": 1179 |
| }, |
| { |
| "epoch": 0.9833333333333333, |
| "grad_norm": 0.5614374279975891, |
| "learning_rate": 4.719934275127435e-06, |
| "loss": 0.6825, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.9841666666666666, |
| "grad_norm": 0.5458409786224365, |
| "learning_rate": 4.719425325330261e-06, |
| "loss": 0.6808, |
| "step": 1181 |
| }, |
| { |
| "epoch": 0.985, |
| "grad_norm": 0.5773490071296692, |
| "learning_rate": 4.718915940999274e-06, |
| "loss": 0.7012, |
| "step": 1182 |
| }, |
| { |
| "epoch": 0.9858333333333333, |
| "grad_norm": 0.5712911486625671, |
| "learning_rate": 4.7184061222342025e-06, |
| "loss": 0.6956, |
| "step": 1183 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 0.5503310561180115, |
| "learning_rate": 4.717895869134862e-06, |
| "loss": 0.6927, |
| "step": 1184 |
| }, |
| { |
| "epoch": 0.9875, |
| "grad_norm": 0.5725301504135132, |
| "learning_rate": 4.717385181801154e-06, |
| "loss": 0.6736, |
| "step": 1185 |
| }, |
| { |
| "epoch": 0.9883333333333333, |
| "grad_norm": 0.5685477256774902, |
| "learning_rate": 4.716874060333064e-06, |
| "loss": 0.6731, |
| "step": 1186 |
| }, |
| { |
| "epoch": 0.9891666666666666, |
| "grad_norm": 0.5521795749664307, |
| "learning_rate": 4.716362504830664e-06, |
| "loss": 0.7048, |
| "step": 1187 |
| }, |
| { |
| "epoch": 0.99, |
| "grad_norm": 0.5841538310050964, |
| "learning_rate": 4.715850515394108e-06, |
| "loss": 0.6782, |
| "step": 1188 |
| }, |
| { |
| "epoch": 0.9908333333333333, |
| "grad_norm": 0.563755989074707, |
| "learning_rate": 4.715338092123636e-06, |
| "loss": 0.6917, |
| "step": 1189 |
| }, |
| { |
| "epoch": 0.9916666666666667, |
| "grad_norm": 0.546774685382843, |
| "learning_rate": 4.714825235119576e-06, |
| "loss": 0.684, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.9925, |
| "grad_norm": 0.5788719654083252, |
| "learning_rate": 4.714311944482337e-06, |
| "loss": 0.6882, |
| "step": 1191 |
| }, |
| { |
| "epoch": 0.9933333333333333, |
| "grad_norm": 0.5720913410186768, |
| "learning_rate": 4.713798220312416e-06, |
| "loss": 0.7028, |
| "step": 1192 |
| }, |
| { |
| "epoch": 0.9941666666666666, |
| "grad_norm": 0.556336522102356, |
| "learning_rate": 4.713284062710391e-06, |
| "loss": 0.6831, |
| "step": 1193 |
| }, |
| { |
| "epoch": 0.995, |
| "grad_norm": 0.5456176996231079, |
| "learning_rate": 4.712769471776929e-06, |
| "loss": 0.7123, |
| "step": 1194 |
| }, |
| { |
| "epoch": 0.9958333333333333, |
| "grad_norm": 0.5574368834495544, |
| "learning_rate": 4.712254447612779e-06, |
| "loss": 0.7003, |
| "step": 1195 |
| }, |
| { |
| "epoch": 0.9966666666666667, |
| "grad_norm": 0.5731207132339478, |
| "learning_rate": 4.711738990318776e-06, |
| "loss": 0.6608, |
| "step": 1196 |
| }, |
| { |
| "epoch": 0.9975, |
| "grad_norm": 0.5490906834602356, |
| "learning_rate": 4.7112230999958405e-06, |
| "loss": 0.6543, |
| "step": 1197 |
| }, |
| { |
| "epoch": 0.9983333333333333, |
| "grad_norm": 0.5476967096328735, |
| "learning_rate": 4.710706776744976e-06, |
| "loss": 0.686, |
| "step": 1198 |
| }, |
| { |
| "epoch": 0.9991666666666666, |
| "grad_norm": 0.5661789774894714, |
| "learning_rate": 4.710190020667272e-06, |
| "loss": 0.682, |
| "step": 1199 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.5539546608924866, |
| "learning_rate": 4.709672831863903e-06, |
| "loss": 0.6406, |
| "step": 1200 |
| } |
| ], |
| "logging_steps": 1, |
| "max_steps": 7200, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 6, |
| "save_steps": 1200, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.6881716048101376e+18, |
| "train_batch_size": 6, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|