| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 501.6216216216216, | |
| "eval_steps": 500, | |
| "global_step": 1536, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.97, | |
| "learning_rate": 1.96875e-05, | |
| "loss": 3.1065, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 1.95, | |
| "learning_rate": 1.9375e-05, | |
| "loss": 3.0384, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 2.92, | |
| "learning_rate": 1.9062500000000003e-05, | |
| "loss": 2.9724, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 3.89, | |
| "learning_rate": 1.8750000000000002e-05, | |
| "loss": 2.9158, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 4.86, | |
| "learning_rate": 1.84375e-05, | |
| "loss": 2.8626, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 5.84, | |
| "learning_rate": 1.8125e-05, | |
| "loss": 2.8132, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 6.81, | |
| "learning_rate": 1.7812500000000003e-05, | |
| "loss": 2.7628, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 7.78, | |
| "learning_rate": 1.7500000000000002e-05, | |
| "loss": 2.7101, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 8.76, | |
| "learning_rate": 1.71875e-05, | |
| "loss": 2.6544, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 9.73, | |
| "learning_rate": 1.6875e-05, | |
| "loss": 2.601, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 10.7, | |
| "learning_rate": 1.6562500000000003e-05, | |
| "loss": 2.5435, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "learning_rate": 1.6145833333333334e-05, | |
| "loss": 1.8692, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 12.97, | |
| "learning_rate": 1.5833333333333333e-05, | |
| "loss": 2.4371, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 13.95, | |
| "learning_rate": 1.5520833333333332e-05, | |
| "loss": 2.3895, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 14.92, | |
| "learning_rate": 1.5208333333333333e-05, | |
| "loss": 2.344, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 15.89, | |
| "learning_rate": 1.4895833333333334e-05, | |
| "loss": 2.2952, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 16.86, | |
| "learning_rate": 1.4583333333333333e-05, | |
| "loss": 2.2481, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 17.84, | |
| "learning_rate": 1.4270833333333334e-05, | |
| "loss": 2.2068, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 18.81, | |
| "learning_rate": 1.3958333333333333e-05, | |
| "loss": 2.1665, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 19.78, | |
| "learning_rate": 1.3645833333333334e-05, | |
| "loss": 2.1258, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 20.76, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 2.0826, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 21.73, | |
| "learning_rate": 1.3020833333333334e-05, | |
| "loss": 2.0473, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 22.7, | |
| "learning_rate": 1.2708333333333333e-05, | |
| "loss": 2.0172, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 24.0, | |
| "learning_rate": 1.2291666666666668e-05, | |
| "loss": 1.4875, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 24.97, | |
| "learning_rate": 1.1979166666666669e-05, | |
| "loss": 1.9533, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 25.95, | |
| "learning_rate": 1.1666666666666668e-05, | |
| "loss": 1.9172, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 26.92, | |
| "learning_rate": 1.1354166666666669e-05, | |
| "loss": 1.8928, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 27.89, | |
| "learning_rate": 1.1041666666666668e-05, | |
| "loss": 1.8566, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 28.86, | |
| "learning_rate": 1.0729166666666669e-05, | |
| "loss": 1.8305, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 29.84, | |
| "learning_rate": 1.0416666666666668e-05, | |
| "loss": 1.804, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 30.81, | |
| "learning_rate": 1.0104166666666669e-05, | |
| "loss": 1.7778, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 31.78, | |
| "learning_rate": 9.791666666666666e-06, | |
| "loss": 1.7575, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 32.76, | |
| "learning_rate": 9.479166666666667e-06, | |
| "loss": 1.7317, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 33.73, | |
| "learning_rate": 9.166666666666666e-06, | |
| "loss": 1.7139, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 34.7, | |
| "learning_rate": 8.854166666666667e-06, | |
| "loss": 1.6907, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 36.0, | |
| "learning_rate": 8.4375e-06, | |
| "loss": 1.2573, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 36.97, | |
| "learning_rate": 8.125000000000001e-06, | |
| "loss": 1.6551, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 37.95, | |
| "learning_rate": 7.8125e-06, | |
| "loss": 1.641, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 38.92, | |
| "learning_rate": 7.500000000000001e-06, | |
| "loss": 1.6249, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 39.89, | |
| "learning_rate": 7.1875e-06, | |
| "loss": 1.6099, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 40.86, | |
| "learning_rate": 6.875e-06, | |
| "loss": 1.594, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 41.84, | |
| "learning_rate": 6.5625e-06, | |
| "loss": 1.5781, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 42.81, | |
| "learning_rate": 6.25e-06, | |
| "loss": 1.5634, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 43.78, | |
| "learning_rate": 5.9375e-06, | |
| "loss": 1.5502, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 44.76, | |
| "learning_rate": 5.625e-06, | |
| "loss": 1.5408, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 45.73, | |
| "learning_rate": 5.3125e-06, | |
| "loss": 1.5249, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 46.7, | |
| "learning_rate": 5e-06, | |
| "loss": 1.5144, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 48.0, | |
| "learning_rate": 4.583333333333333e-06, | |
| "loss": 1.1303, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 48.97, | |
| "learning_rate": 4.270833333333333e-06, | |
| "loss": 1.4962, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 49.95, | |
| "learning_rate": 3.958333333333333e-06, | |
| "loss": 1.489, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 50.92, | |
| "learning_rate": 3.6458333333333333e-06, | |
| "loss": 1.4794, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 51.89, | |
| "learning_rate": 3.3333333333333333e-06, | |
| "loss": 1.4712, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 52.86, | |
| "learning_rate": 3.0208333333333334e-06, | |
| "loss": 1.4613, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 53.84, | |
| "learning_rate": 2.7083333333333334e-06, | |
| "loss": 1.4528, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 54.81, | |
| "learning_rate": 2.395833333333334e-06, | |
| "loss": 1.4473, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 55.78, | |
| "learning_rate": 2.0833333333333334e-06, | |
| "loss": 1.4385, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 56.76, | |
| "learning_rate": 1.7708333333333337e-06, | |
| "loss": 1.4403, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 57.73, | |
| "learning_rate": 1.4583333333333335e-06, | |
| "loss": 1.4276, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 58.7, | |
| "learning_rate": 1.1458333333333333e-06, | |
| "loss": 1.4291, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 60.0, | |
| "learning_rate": 7.291666666666667e-07, | |
| "loss": 1.0688, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 60.97, | |
| "learning_rate": 4.1666666666666667e-07, | |
| "loss": 1.4217, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 61.95, | |
| "learning_rate": 1.0416666666666667e-07, | |
| "loss": 1.4242, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 62.27, | |
| "learning_rate": 0.0, | |
| "loss": 1.1326, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 64.97, | |
| "learning_rate": 9.84375e-06, | |
| "loss": 1.4213, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 65.95, | |
| "learning_rate": 9.6875e-06, | |
| "loss": 1.3989, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 66.92, | |
| "learning_rate": 9.531250000000001e-06, | |
| "loss": 1.3782, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 67.89, | |
| "learning_rate": 9.375000000000001e-06, | |
| "loss": 1.3594, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 68.86, | |
| "learning_rate": 9.21875e-06, | |
| "loss": 1.3425, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 69.84, | |
| "learning_rate": 9.0625e-06, | |
| "loss": 1.3209, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 70.81, | |
| "learning_rate": 8.906250000000001e-06, | |
| "loss": 1.3018, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 71.78, | |
| "learning_rate": 8.750000000000001e-06, | |
| "loss": 1.2872, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 72.76, | |
| "learning_rate": 8.59375e-06, | |
| "loss": 1.2717, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 73.73, | |
| "learning_rate": 8.4375e-06, | |
| "loss": 1.2531, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 74.7, | |
| "learning_rate": 8.281250000000001e-06, | |
| "loss": 1.2371, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 76.0, | |
| "learning_rate": 8.072916666666667e-06, | |
| "loss": 0.9161, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 76.97, | |
| "learning_rate": 7.916666666666667e-06, | |
| "loss": 1.2111, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 77.95, | |
| "learning_rate": 7.760416666666666e-06, | |
| "loss": 1.1966, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 78.92, | |
| "learning_rate": 7.6041666666666666e-06, | |
| "loss": 1.1775, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 79.89, | |
| "learning_rate": 7.447916666666667e-06, | |
| "loss": 1.1638, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 80.86, | |
| "learning_rate": 7.291666666666667e-06, | |
| "loss": 1.154, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 81.84, | |
| "learning_rate": 7.135416666666667e-06, | |
| "loss": 1.1335, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 82.81, | |
| "learning_rate": 6.979166666666667e-06, | |
| "loss": 1.1245, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 83.78, | |
| "learning_rate": 6.822916666666667e-06, | |
| "loss": 1.1195, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 84.76, | |
| "learning_rate": 6.666666666666667e-06, | |
| "loss": 1.1042, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 85.73, | |
| "learning_rate": 6.510416666666667e-06, | |
| "loss": 1.092, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 86.7, | |
| "learning_rate": 6.354166666666667e-06, | |
| "loss": 1.0786, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 88.0, | |
| "learning_rate": 6.145833333333334e-06, | |
| "loss": 0.8002, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 88.97, | |
| "learning_rate": 5.989583333333334e-06, | |
| "loss": 1.0561, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 89.95, | |
| "learning_rate": 5.833333333333334e-06, | |
| "loss": 1.0469, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 90.92, | |
| "learning_rate": 5.677083333333334e-06, | |
| "loss": 1.0395, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 91.89, | |
| "learning_rate": 5.520833333333334e-06, | |
| "loss": 1.0276, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 92.86, | |
| "learning_rate": 5.364583333333334e-06, | |
| "loss": 1.0149, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 93.84, | |
| "learning_rate": 5.208333333333334e-06, | |
| "loss": 1.0107, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 94.81, | |
| "learning_rate": 5.0520833333333344e-06, | |
| "loss": 0.9976, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 95.78, | |
| "learning_rate": 4.895833333333333e-06, | |
| "loss": 0.9843, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 96.76, | |
| "learning_rate": 4.739583333333334e-06, | |
| "loss": 0.9816, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 97.73, | |
| "learning_rate": 4.583333333333333e-06, | |
| "loss": 0.9702, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 98.7, | |
| "learning_rate": 4.427083333333334e-06, | |
| "loss": 0.9683, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 100.0, | |
| "learning_rate": 4.21875e-06, | |
| "loss": 0.7223, | |
| "step": 303 | |
| }, | |
| { | |
| "epoch": 100.97, | |
| "learning_rate": 4.0625000000000005e-06, | |
| "loss": 0.9523, | |
| "step": 306 | |
| }, | |
| { | |
| "epoch": 101.95, | |
| "learning_rate": 3.90625e-06, | |
| "loss": 0.9421, | |
| "step": 309 | |
| }, | |
| { | |
| "epoch": 102.92, | |
| "learning_rate": 3.7500000000000005e-06, | |
| "loss": 0.9471, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 103.89, | |
| "learning_rate": 3.59375e-06, | |
| "loss": 0.9351, | |
| "step": 315 | |
| }, | |
| { | |
| "epoch": 104.86, | |
| "learning_rate": 3.4375e-06, | |
| "loss": 0.924, | |
| "step": 318 | |
| }, | |
| { | |
| "epoch": 105.84, | |
| "learning_rate": 3.28125e-06, | |
| "loss": 0.9218, | |
| "step": 321 | |
| }, | |
| { | |
| "epoch": 106.81, | |
| "learning_rate": 3.125e-06, | |
| "loss": 0.9217, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 107.78, | |
| "learning_rate": 2.96875e-06, | |
| "loss": 0.9078, | |
| "step": 327 | |
| }, | |
| { | |
| "epoch": 108.76, | |
| "learning_rate": 2.8125e-06, | |
| "loss": 0.9082, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 109.73, | |
| "learning_rate": 2.65625e-06, | |
| "loss": 0.9068, | |
| "step": 333 | |
| }, | |
| { | |
| "epoch": 110.7, | |
| "learning_rate": 2.5e-06, | |
| "loss": 0.8969, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 112.0, | |
| "learning_rate": 2.2916666666666666e-06, | |
| "loss": 0.6673, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 112.97, | |
| "learning_rate": 2.1354166666666666e-06, | |
| "loss": 0.8892, | |
| "step": 343 | |
| }, | |
| { | |
| "epoch": 113.95, | |
| "learning_rate": 1.9791666666666666e-06, | |
| "loss": 0.8896, | |
| "step": 346 | |
| }, | |
| { | |
| "epoch": 114.92, | |
| "learning_rate": 1.8229166666666666e-06, | |
| "loss": 0.8764, | |
| "step": 349 | |
| }, | |
| { | |
| "epoch": 115.89, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 0.8754, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 116.86, | |
| "learning_rate": 1.5104166666666667e-06, | |
| "loss": 0.8729, | |
| "step": 355 | |
| }, | |
| { | |
| "epoch": 117.84, | |
| "learning_rate": 1.3541666666666667e-06, | |
| "loss": 0.8714, | |
| "step": 358 | |
| }, | |
| { | |
| "epoch": 118.81, | |
| "learning_rate": 1.197916666666667e-06, | |
| "loss": 0.8697, | |
| "step": 361 | |
| }, | |
| { | |
| "epoch": 119.78, | |
| "learning_rate": 1.0416666666666667e-06, | |
| "loss": 0.8646, | |
| "step": 364 | |
| }, | |
| { | |
| "epoch": 120.76, | |
| "learning_rate": 8.854166666666668e-07, | |
| "loss": 0.8601, | |
| "step": 367 | |
| }, | |
| { | |
| "epoch": 121.73, | |
| "learning_rate": 7.291666666666667e-07, | |
| "loss": 0.8579, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 122.7, | |
| "learning_rate": 5.729166666666667e-07, | |
| "loss": 0.8657, | |
| "step": 373 | |
| }, | |
| { | |
| "epoch": 124.0, | |
| "learning_rate": 3.6458333333333337e-07, | |
| "loss": 0.6457, | |
| "step": 377 | |
| }, | |
| { | |
| "epoch": 124.97, | |
| "learning_rate": 2.0833333333333333e-07, | |
| "loss": 0.8564, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 125.95, | |
| "learning_rate": 5.208333333333333e-08, | |
| "loss": 0.8588, | |
| "step": 383 | |
| }, | |
| { | |
| "epoch": 126.27, | |
| "learning_rate": 0.0, | |
| "loss": 0.7301, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 128.97, | |
| "learning_rate": 1.4960937500000002e-05, | |
| "loss": 0.8564, | |
| "step": 387 | |
| }, | |
| { | |
| "epoch": 129.95, | |
| "learning_rate": 1.4921875000000002e-05, | |
| "loss": 0.8371, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 130.92, | |
| "learning_rate": 1.4882812500000002e-05, | |
| "loss": 0.8192, | |
| "step": 393 | |
| }, | |
| { | |
| "epoch": 131.89, | |
| "learning_rate": 1.4843750000000002e-05, | |
| "loss": 0.7975, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 132.86, | |
| "learning_rate": 1.4804687500000002e-05, | |
| "loss": 0.7844, | |
| "step": 399 | |
| }, | |
| { | |
| "epoch": 133.84, | |
| "learning_rate": 1.4765625000000001e-05, | |
| "loss": 0.7674, | |
| "step": 402 | |
| }, | |
| { | |
| "epoch": 134.81, | |
| "learning_rate": 1.4726562500000001e-05, | |
| "loss": 0.7525, | |
| "step": 405 | |
| }, | |
| { | |
| "epoch": 135.78, | |
| "learning_rate": 1.4687500000000001e-05, | |
| "loss": 0.7345, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 136.76, | |
| "learning_rate": 1.4648437500000001e-05, | |
| "loss": 0.7159, | |
| "step": 411 | |
| }, | |
| { | |
| "epoch": 137.73, | |
| "learning_rate": 1.4609375000000001e-05, | |
| "loss": 0.7023, | |
| "step": 414 | |
| }, | |
| { | |
| "epoch": 138.7, | |
| "learning_rate": 1.4570312500000001e-05, | |
| "loss": 0.6946, | |
| "step": 417 | |
| }, | |
| { | |
| "epoch": 140.0, | |
| "learning_rate": 1.4518229166666669e-05, | |
| "loss": 0.5039, | |
| "step": 421 | |
| }, | |
| { | |
| "epoch": 140.97, | |
| "learning_rate": 1.4479166666666669e-05, | |
| "loss": 0.6631, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 141.95, | |
| "learning_rate": 1.4440104166666668e-05, | |
| "loss": 0.6543, | |
| "step": 427 | |
| }, | |
| { | |
| "epoch": 142.92, | |
| "learning_rate": 1.4401041666666668e-05, | |
| "loss": 0.6378, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 143.89, | |
| "learning_rate": 1.4361979166666668e-05, | |
| "loss": 0.6212, | |
| "step": 433 | |
| }, | |
| { | |
| "epoch": 144.86, | |
| "learning_rate": 1.4322916666666668e-05, | |
| "loss": 0.6069, | |
| "step": 436 | |
| }, | |
| { | |
| "epoch": 145.84, | |
| "learning_rate": 1.4283854166666668e-05, | |
| "loss": 0.5981, | |
| "step": 439 | |
| }, | |
| { | |
| "epoch": 146.81, | |
| "learning_rate": 1.4244791666666668e-05, | |
| "loss": 0.5923, | |
| "step": 442 | |
| }, | |
| { | |
| "epoch": 147.78, | |
| "learning_rate": 1.4205729166666668e-05, | |
| "loss": 0.5754, | |
| "step": 445 | |
| }, | |
| { | |
| "epoch": 148.76, | |
| "learning_rate": 1.416666666666667e-05, | |
| "loss": 0.5653, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 149.73, | |
| "learning_rate": 1.412760416666667e-05, | |
| "loss": 0.555, | |
| "step": 451 | |
| }, | |
| { | |
| "epoch": 150.7, | |
| "learning_rate": 1.408854166666667e-05, | |
| "loss": 0.5408, | |
| "step": 454 | |
| }, | |
| { | |
| "epoch": 152.0, | |
| "learning_rate": 1.4036458333333333e-05, | |
| "loss": 0.4004, | |
| "step": 458 | |
| }, | |
| { | |
| "epoch": 152.97, | |
| "learning_rate": 1.3997395833333333e-05, | |
| "loss": 0.5188, | |
| "step": 461 | |
| }, | |
| { | |
| "epoch": 153.95, | |
| "learning_rate": 1.3958333333333333e-05, | |
| "loss": 0.5146, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 154.92, | |
| "learning_rate": 1.3919270833333333e-05, | |
| "loss": 0.502, | |
| "step": 467 | |
| }, | |
| { | |
| "epoch": 155.89, | |
| "learning_rate": 1.3880208333333333e-05, | |
| "loss": 0.4932, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 156.86, | |
| "learning_rate": 1.3841145833333333e-05, | |
| "loss": 0.4822, | |
| "step": 473 | |
| }, | |
| { | |
| "epoch": 157.84, | |
| "learning_rate": 1.3802083333333335e-05, | |
| "loss": 0.4804, | |
| "step": 476 | |
| }, | |
| { | |
| "epoch": 158.81, | |
| "learning_rate": 1.3763020833333334e-05, | |
| "loss": 0.4648, | |
| "step": 479 | |
| }, | |
| { | |
| "epoch": 159.78, | |
| "learning_rate": 1.3723958333333334e-05, | |
| "loss": 0.4551, | |
| "step": 482 | |
| }, | |
| { | |
| "epoch": 160.76, | |
| "learning_rate": 1.3684895833333334e-05, | |
| "loss": 0.4473, | |
| "step": 485 | |
| }, | |
| { | |
| "epoch": 161.73, | |
| "learning_rate": 1.3645833333333334e-05, | |
| "loss": 0.4402, | |
| "step": 488 | |
| }, | |
| { | |
| "epoch": 162.7, | |
| "learning_rate": 1.3606770833333334e-05, | |
| "loss": 0.4293, | |
| "step": 491 | |
| }, | |
| { | |
| "epoch": 164.0, | |
| "learning_rate": 1.3554687500000002e-05, | |
| "loss": 0.3169, | |
| "step": 495 | |
| }, | |
| { | |
| "epoch": 164.97, | |
| "learning_rate": 1.3515625000000002e-05, | |
| "loss": 0.4116, | |
| "step": 498 | |
| }, | |
| { | |
| "epoch": 165.95, | |
| "learning_rate": 1.3476562500000001e-05, | |
| "loss": 0.4042, | |
| "step": 501 | |
| }, | |
| { | |
| "epoch": 166.92, | |
| "learning_rate": 1.3437500000000001e-05, | |
| "loss": 0.3975, | |
| "step": 504 | |
| }, | |
| { | |
| "epoch": 167.89, | |
| "learning_rate": 1.3398437500000001e-05, | |
| "loss": 0.379, | |
| "step": 507 | |
| }, | |
| { | |
| "epoch": 168.86, | |
| "learning_rate": 1.3359375000000001e-05, | |
| "loss": 0.3789, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 169.84, | |
| "learning_rate": 1.3320312500000001e-05, | |
| "loss": 0.3669, | |
| "step": 513 | |
| }, | |
| { | |
| "epoch": 170.81, | |
| "learning_rate": 1.3281250000000001e-05, | |
| "loss": 0.3595, | |
| "step": 516 | |
| }, | |
| { | |
| "epoch": 171.78, | |
| "learning_rate": 1.3242187500000001e-05, | |
| "loss": 0.3508, | |
| "step": 519 | |
| }, | |
| { | |
| "epoch": 172.76, | |
| "learning_rate": 1.3203125e-05, | |
| "loss": 0.3415, | |
| "step": 522 | |
| }, | |
| { | |
| "epoch": 173.73, | |
| "learning_rate": 1.31640625e-05, | |
| "loss": 0.3297, | |
| "step": 525 | |
| }, | |
| { | |
| "epoch": 174.7, | |
| "learning_rate": 1.3125e-05, | |
| "loss": 0.3316, | |
| "step": 528 | |
| }, | |
| { | |
| "epoch": 176.0, | |
| "learning_rate": 1.3072916666666668e-05, | |
| "loss": 0.2403, | |
| "step": 532 | |
| }, | |
| { | |
| "epoch": 176.97, | |
| "learning_rate": 1.3033854166666668e-05, | |
| "loss": 0.3148, | |
| "step": 535 | |
| }, | |
| { | |
| "epoch": 177.95, | |
| "learning_rate": 1.2994791666666668e-05, | |
| "loss": 0.3119, | |
| "step": 538 | |
| }, | |
| { | |
| "epoch": 178.92, | |
| "learning_rate": 1.2955729166666668e-05, | |
| "loss": 0.3013, | |
| "step": 541 | |
| }, | |
| { | |
| "epoch": 179.89, | |
| "learning_rate": 1.2916666666666668e-05, | |
| "loss": 0.2972, | |
| "step": 544 | |
| }, | |
| { | |
| "epoch": 180.86, | |
| "learning_rate": 1.2877604166666668e-05, | |
| "loss": 0.2894, | |
| "step": 547 | |
| }, | |
| { | |
| "epoch": 181.84, | |
| "learning_rate": 1.283854166666667e-05, | |
| "loss": 0.2837, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 182.81, | |
| "learning_rate": 1.279947916666667e-05, | |
| "loss": 0.278, | |
| "step": 553 | |
| }, | |
| { | |
| "epoch": 183.78, | |
| "learning_rate": 1.2760416666666669e-05, | |
| "loss": 0.2773, | |
| "step": 556 | |
| }, | |
| { | |
| "epoch": 184.76, | |
| "learning_rate": 1.2721354166666669e-05, | |
| "loss": 0.2768, | |
| "step": 559 | |
| }, | |
| { | |
| "epoch": 185.73, | |
| "learning_rate": 1.2682291666666669e-05, | |
| "loss": 0.2652, | |
| "step": 562 | |
| }, | |
| { | |
| "epoch": 186.7, | |
| "learning_rate": 1.2643229166666669e-05, | |
| "loss": 0.266, | |
| "step": 565 | |
| }, | |
| { | |
| "epoch": 188.0, | |
| "learning_rate": 1.2591145833333333e-05, | |
| "loss": 0.1962, | |
| "step": 569 | |
| }, | |
| { | |
| "epoch": 188.97, | |
| "learning_rate": 1.2552083333333333e-05, | |
| "loss": 0.259, | |
| "step": 572 | |
| }, | |
| { | |
| "epoch": 189.95, | |
| "learning_rate": 1.2513020833333333e-05, | |
| "loss": 0.2516, | |
| "step": 575 | |
| }, | |
| { | |
| "epoch": 190.92, | |
| "learning_rate": 1.2473958333333334e-05, | |
| "loss": 0.2501, | |
| "step": 578 | |
| }, | |
| { | |
| "epoch": 191.89, | |
| "learning_rate": 1.2434895833333334e-05, | |
| "loss": 0.243, | |
| "step": 581 | |
| }, | |
| { | |
| "epoch": 192.86, | |
| "learning_rate": 1.2395833333333334e-05, | |
| "loss": 0.2399, | |
| "step": 584 | |
| }, | |
| { | |
| "epoch": 193.84, | |
| "learning_rate": 1.2356770833333334e-05, | |
| "loss": 0.2396, | |
| "step": 587 | |
| }, | |
| { | |
| "epoch": 194.81, | |
| "learning_rate": 1.2317708333333334e-05, | |
| "loss": 0.2332, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 195.78, | |
| "learning_rate": 1.2278645833333334e-05, | |
| "loss": 0.2244, | |
| "step": 593 | |
| }, | |
| { | |
| "epoch": 196.76, | |
| "learning_rate": 1.2239583333333334e-05, | |
| "loss": 0.2224, | |
| "step": 596 | |
| }, | |
| { | |
| "epoch": 197.73, | |
| "learning_rate": 1.2200520833333334e-05, | |
| "loss": 0.2175, | |
| "step": 599 | |
| }, | |
| { | |
| "epoch": 198.7, | |
| "learning_rate": 1.2161458333333334e-05, | |
| "loss": 0.2191, | |
| "step": 602 | |
| }, | |
| { | |
| "epoch": 200.0, | |
| "learning_rate": 1.2109375000000001e-05, | |
| "loss": 0.1639, | |
| "step": 606 | |
| }, | |
| { | |
| "epoch": 200.97, | |
| "learning_rate": 1.2070312500000001e-05, | |
| "loss": 0.2124, | |
| "step": 609 | |
| }, | |
| { | |
| "epoch": 201.95, | |
| "learning_rate": 1.2031250000000001e-05, | |
| "loss": 0.2076, | |
| "step": 612 | |
| }, | |
| { | |
| "epoch": 202.92, | |
| "learning_rate": 1.1992187500000001e-05, | |
| "loss": 0.2042, | |
| "step": 615 | |
| }, | |
| { | |
| "epoch": 203.89, | |
| "learning_rate": 1.1953125000000001e-05, | |
| "loss": 0.2005, | |
| "step": 618 | |
| }, | |
| { | |
| "epoch": 204.86, | |
| "learning_rate": 1.19140625e-05, | |
| "loss": 0.1983, | |
| "step": 621 | |
| }, | |
| { | |
| "epoch": 205.84, | |
| "learning_rate": 1.1875e-05, | |
| "loss": 0.194, | |
| "step": 624 | |
| }, | |
| { | |
| "epoch": 206.81, | |
| "learning_rate": 1.18359375e-05, | |
| "loss": 0.1901, | |
| "step": 627 | |
| }, | |
| { | |
| "epoch": 207.78, | |
| "learning_rate": 1.1796875e-05, | |
| "loss": 0.1886, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 208.76, | |
| "learning_rate": 1.17578125e-05, | |
| "loss": 0.1817, | |
| "step": 633 | |
| }, | |
| { | |
| "epoch": 209.73, | |
| "learning_rate": 1.171875e-05, | |
| "loss": 0.1841, | |
| "step": 636 | |
| }, | |
| { | |
| "epoch": 210.7, | |
| "learning_rate": 1.16796875e-05, | |
| "loss": 0.1769, | |
| "step": 639 | |
| }, | |
| { | |
| "epoch": 212.0, | |
| "learning_rate": 1.1627604166666668e-05, | |
| "loss": 0.1352, | |
| "step": 643 | |
| }, | |
| { | |
| "epoch": 212.97, | |
| "learning_rate": 1.1588541666666668e-05, | |
| "loss": 0.1765, | |
| "step": 646 | |
| }, | |
| { | |
| "epoch": 213.95, | |
| "learning_rate": 1.1549479166666668e-05, | |
| "loss": 0.1696, | |
| "step": 649 | |
| }, | |
| { | |
| "epoch": 214.92, | |
| "learning_rate": 1.151041666666667e-05, | |
| "loss": 0.1679, | |
| "step": 652 | |
| }, | |
| { | |
| "epoch": 215.89, | |
| "learning_rate": 1.1471354166666669e-05, | |
| "loss": 0.1609, | |
| "step": 655 | |
| }, | |
| { | |
| "epoch": 216.86, | |
| "learning_rate": 1.1432291666666669e-05, | |
| "loss": 0.1633, | |
| "step": 658 | |
| }, | |
| { | |
| "epoch": 217.84, | |
| "learning_rate": 1.1393229166666669e-05, | |
| "loss": 0.1616, | |
| "step": 661 | |
| }, | |
| { | |
| "epoch": 218.81, | |
| "learning_rate": 1.1354166666666669e-05, | |
| "loss": 0.1589, | |
| "step": 664 | |
| }, | |
| { | |
| "epoch": 219.78, | |
| "learning_rate": 1.1315104166666669e-05, | |
| "loss": 0.158, | |
| "step": 667 | |
| }, | |
| { | |
| "epoch": 220.76, | |
| "learning_rate": 1.1276041666666669e-05, | |
| "loss": 0.1544, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 221.73, | |
| "learning_rate": 1.1236979166666668e-05, | |
| "loss": 0.154, | |
| "step": 673 | |
| }, | |
| { | |
| "epoch": 222.7, | |
| "learning_rate": 1.1197916666666668e-05, | |
| "loss": 0.1516, | |
| "step": 676 | |
| }, | |
| { | |
| "epoch": 224.0, | |
| "learning_rate": 1.1145833333333334e-05, | |
| "loss": 0.1152, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 224.97, | |
| "learning_rate": 1.1106770833333334e-05, | |
| "loss": 0.1516, | |
| "step": 683 | |
| }, | |
| { | |
| "epoch": 225.95, | |
| "learning_rate": 1.1067708333333334e-05, | |
| "loss": 0.145, | |
| "step": 686 | |
| }, | |
| { | |
| "epoch": 226.92, | |
| "learning_rate": 1.1028645833333334e-05, | |
| "loss": 0.1455, | |
| "step": 689 | |
| }, | |
| { | |
| "epoch": 227.89, | |
| "learning_rate": 1.0989583333333334e-05, | |
| "loss": 0.1437, | |
| "step": 692 | |
| }, | |
| { | |
| "epoch": 228.86, | |
| "learning_rate": 1.0950520833333334e-05, | |
| "loss": 0.1409, | |
| "step": 695 | |
| }, | |
| { | |
| "epoch": 229.84, | |
| "learning_rate": 1.0911458333333334e-05, | |
| "loss": 0.1452, | |
| "step": 698 | |
| }, | |
| { | |
| "epoch": 230.81, | |
| "learning_rate": 1.0872395833333334e-05, | |
| "loss": 0.1366, | |
| "step": 701 | |
| }, | |
| { | |
| "epoch": 231.78, | |
| "learning_rate": 1.0833333333333334e-05, | |
| "loss": 0.1367, | |
| "step": 704 | |
| }, | |
| { | |
| "epoch": 232.76, | |
| "learning_rate": 1.0794270833333333e-05, | |
| "loss": 0.1357, | |
| "step": 707 | |
| }, | |
| { | |
| "epoch": 233.73, | |
| "learning_rate": 1.0755208333333333e-05, | |
| "loss": 0.1342, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 234.7, | |
| "learning_rate": 1.0716145833333333e-05, | |
| "loss": 0.1276, | |
| "step": 713 | |
| }, | |
| { | |
| "epoch": 236.0, | |
| "learning_rate": 1.0664062500000001e-05, | |
| "loss": 0.0974, | |
| "step": 717 | |
| }, | |
| { | |
| "epoch": 236.97, | |
| "learning_rate": 1.0625e-05, | |
| "loss": 0.1325, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 237.95, | |
| "learning_rate": 1.05859375e-05, | |
| "loss": 0.1266, | |
| "step": 723 | |
| }, | |
| { | |
| "epoch": 238.92, | |
| "learning_rate": 1.0546875e-05, | |
| "loss": 0.1237, | |
| "step": 726 | |
| }, | |
| { | |
| "epoch": 239.89, | |
| "learning_rate": 1.05078125e-05, | |
| "loss": 0.1258, | |
| "step": 729 | |
| }, | |
| { | |
| "epoch": 240.86, | |
| "learning_rate": 1.046875e-05, | |
| "loss": 0.123, | |
| "step": 732 | |
| }, | |
| { | |
| "epoch": 241.84, | |
| "learning_rate": 1.04296875e-05, | |
| "loss": 0.1228, | |
| "step": 735 | |
| }, | |
| { | |
| "epoch": 242.81, | |
| "learning_rate": 1.0390625e-05, | |
| "loss": 0.12, | |
| "step": 738 | |
| }, | |
| { | |
| "epoch": 243.78, | |
| "learning_rate": 1.03515625e-05, | |
| "loss": 0.1174, | |
| "step": 741 | |
| }, | |
| { | |
| "epoch": 244.76, | |
| "learning_rate": 1.0312500000000002e-05, | |
| "loss": 0.118, | |
| "step": 744 | |
| }, | |
| { | |
| "epoch": 245.73, | |
| "learning_rate": 1.0273437500000002e-05, | |
| "loss": 0.1157, | |
| "step": 747 | |
| }, | |
| { | |
| "epoch": 246.7, | |
| "learning_rate": 1.0234375000000001e-05, | |
| "loss": 0.115, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 248.0, | |
| "learning_rate": 1.0182291666666667e-05, | |
| "loss": 0.0826, | |
| "step": 754 | |
| }, | |
| { | |
| "epoch": 248.97, | |
| "learning_rate": 1.0143229166666669e-05, | |
| "loss": 0.1094, | |
| "step": 757 | |
| }, | |
| { | |
| "epoch": 249.95, | |
| "learning_rate": 1.0104166666666669e-05, | |
| "loss": 0.1094, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 250.92, | |
| "learning_rate": 1.0065104166666669e-05, | |
| "loss": 0.111, | |
| "step": 763 | |
| }, | |
| { | |
| "epoch": 251.89, | |
| "learning_rate": 1.0026041666666669e-05, | |
| "loss": 0.1056, | |
| "step": 766 | |
| }, | |
| { | |
| "epoch": 252.86, | |
| "learning_rate": 9.986979166666667e-06, | |
| "loss": 0.1076, | |
| "step": 769 | |
| }, | |
| { | |
| "epoch": 253.84, | |
| "learning_rate": 9.947916666666667e-06, | |
| "loss": 0.1031, | |
| "step": 772 | |
| }, | |
| { | |
| "epoch": 254.81, | |
| "learning_rate": 9.908854166666667e-06, | |
| "loss": 0.1084, | |
| "step": 775 | |
| }, | |
| { | |
| "epoch": 255.78, | |
| "learning_rate": 9.869791666666667e-06, | |
| "loss": 0.1043, | |
| "step": 778 | |
| }, | |
| { | |
| "epoch": 256.76, | |
| "learning_rate": 9.830729166666666e-06, | |
| "loss": 0.0984, | |
| "step": 781 | |
| }, | |
| { | |
| "epoch": 257.73, | |
| "learning_rate": 9.791666666666666e-06, | |
| "loss": 0.098, | |
| "step": 784 | |
| }, | |
| { | |
| "epoch": 258.7, | |
| "learning_rate": 9.752604166666666e-06, | |
| "loss": 0.1013, | |
| "step": 787 | |
| }, | |
| { | |
| "epoch": 260.0, | |
| "learning_rate": 9.700520833333334e-06, | |
| "loss": 0.0743, | |
| "step": 791 | |
| }, | |
| { | |
| "epoch": 260.97, | |
| "learning_rate": 9.661458333333334e-06, | |
| "loss": 0.0947, | |
| "step": 794 | |
| }, | |
| { | |
| "epoch": 261.95, | |
| "learning_rate": 9.622395833333334e-06, | |
| "loss": 0.0965, | |
| "step": 797 | |
| }, | |
| { | |
| "epoch": 262.92, | |
| "learning_rate": 9.583333333333335e-06, | |
| "loss": 0.0947, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 263.89, | |
| "learning_rate": 9.544270833333335e-06, | |
| "loss": 0.0952, | |
| "step": 803 | |
| }, | |
| { | |
| "epoch": 264.86, | |
| "learning_rate": 9.505208333333335e-06, | |
| "loss": 0.0896, | |
| "step": 806 | |
| }, | |
| { | |
| "epoch": 265.84, | |
| "learning_rate": 9.466145833333335e-06, | |
| "loss": 0.0891, | |
| "step": 809 | |
| }, | |
| { | |
| "epoch": 266.81, | |
| "learning_rate": 9.427083333333335e-06, | |
| "loss": 0.0939, | |
| "step": 812 | |
| }, | |
| { | |
| "epoch": 267.78, | |
| "learning_rate": 9.388020833333335e-06, | |
| "loss": 0.0911, | |
| "step": 815 | |
| }, | |
| { | |
| "epoch": 268.76, | |
| "learning_rate": 9.348958333333335e-06, | |
| "loss": 0.0882, | |
| "step": 818 | |
| }, | |
| { | |
| "epoch": 269.73, | |
| "learning_rate": 9.309895833333335e-06, | |
| "loss": 0.0903, | |
| "step": 821 | |
| }, | |
| { | |
| "epoch": 270.7, | |
| "learning_rate": 9.270833333333334e-06, | |
| "loss": 0.0869, | |
| "step": 824 | |
| }, | |
| { | |
| "epoch": 272.0, | |
| "learning_rate": 9.21875e-06, | |
| "loss": 0.0664, | |
| "step": 828 | |
| }, | |
| { | |
| "epoch": 272.97, | |
| "learning_rate": 9.1796875e-06, | |
| "loss": 0.0868, | |
| "step": 831 | |
| }, | |
| { | |
| "epoch": 273.95, | |
| "learning_rate": 9.140625e-06, | |
| "loss": 0.0867, | |
| "step": 834 | |
| }, | |
| { | |
| "epoch": 274.92, | |
| "learning_rate": 9.1015625e-06, | |
| "loss": 0.0858, | |
| "step": 837 | |
| }, | |
| { | |
| "epoch": 275.89, | |
| "learning_rate": 9.0625e-06, | |
| "loss": 0.0842, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 276.86, | |
| "learning_rate": 9.0234375e-06, | |
| "loss": 0.0869, | |
| "step": 843 | |
| }, | |
| { | |
| "epoch": 277.84, | |
| "learning_rate": 8.984375000000002e-06, | |
| "loss": 0.0803, | |
| "step": 846 | |
| }, | |
| { | |
| "epoch": 278.81, | |
| "learning_rate": 8.945312500000001e-06, | |
| "loss": 0.0813, | |
| "step": 849 | |
| }, | |
| { | |
| "epoch": 279.78, | |
| "learning_rate": 8.906250000000001e-06, | |
| "loss": 0.084, | |
| "step": 852 | |
| }, | |
| { | |
| "epoch": 280.76, | |
| "learning_rate": 8.867187500000001e-06, | |
| "loss": 0.0814, | |
| "step": 855 | |
| }, | |
| { | |
| "epoch": 281.73, | |
| "learning_rate": 8.828125000000001e-06, | |
| "loss": 0.0782, | |
| "step": 858 | |
| }, | |
| { | |
| "epoch": 282.7, | |
| "learning_rate": 8.789062500000001e-06, | |
| "loss": 0.0803, | |
| "step": 861 | |
| }, | |
| { | |
| "epoch": 284.0, | |
| "learning_rate": 8.736979166666667e-06, | |
| "loss": 0.0596, | |
| "step": 865 | |
| }, | |
| { | |
| "epoch": 284.97, | |
| "learning_rate": 8.697916666666667e-06, | |
| "loss": 0.0787, | |
| "step": 868 | |
| }, | |
| { | |
| "epoch": 285.95, | |
| "learning_rate": 8.658854166666667e-06, | |
| "loss": 0.0748, | |
| "step": 871 | |
| }, | |
| { | |
| "epoch": 286.92, | |
| "learning_rate": 8.619791666666667e-06, | |
| "loss": 0.0816, | |
| "step": 874 | |
| }, | |
| { | |
| "epoch": 287.89, | |
| "learning_rate": 8.580729166666667e-06, | |
| "loss": 0.0776, | |
| "step": 877 | |
| }, | |
| { | |
| "epoch": 288.86, | |
| "learning_rate": 8.541666666666666e-06, | |
| "loss": 0.0749, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 289.84, | |
| "learning_rate": 8.502604166666666e-06, | |
| "loss": 0.0795, | |
| "step": 883 | |
| }, | |
| { | |
| "epoch": 290.81, | |
| "learning_rate": 8.463541666666666e-06, | |
| "loss": 0.075, | |
| "step": 886 | |
| }, | |
| { | |
| "epoch": 291.78, | |
| "learning_rate": 8.424479166666666e-06, | |
| "loss": 0.0756, | |
| "step": 889 | |
| }, | |
| { | |
| "epoch": 292.76, | |
| "learning_rate": 8.385416666666668e-06, | |
| "loss": 0.0755, | |
| "step": 892 | |
| }, | |
| { | |
| "epoch": 293.73, | |
| "learning_rate": 8.346354166666668e-06, | |
| "loss": 0.0721, | |
| "step": 895 | |
| }, | |
| { | |
| "epoch": 294.7, | |
| "learning_rate": 8.307291666666668e-06, | |
| "loss": 0.0745, | |
| "step": 898 | |
| }, | |
| { | |
| "epoch": 296.0, | |
| "learning_rate": 8.255208333333335e-06, | |
| "loss": 0.0535, | |
| "step": 902 | |
| }, | |
| { | |
| "epoch": 296.97, | |
| "learning_rate": 8.216145833333335e-06, | |
| "loss": 0.0743, | |
| "step": 905 | |
| }, | |
| { | |
| "epoch": 297.95, | |
| "learning_rate": 8.177083333333335e-06, | |
| "loss": 0.0756, | |
| "step": 908 | |
| }, | |
| { | |
| "epoch": 298.92, | |
| "learning_rate": 8.138020833333335e-06, | |
| "loss": 0.0728, | |
| "step": 911 | |
| }, | |
| { | |
| "epoch": 299.89, | |
| "learning_rate": 8.098958333333335e-06, | |
| "loss": 0.0744, | |
| "step": 914 | |
| }, | |
| { | |
| "epoch": 300.86, | |
| "learning_rate": 8.059895833333335e-06, | |
| "loss": 0.0713, | |
| "step": 917 | |
| }, | |
| { | |
| "epoch": 301.84, | |
| "learning_rate": 8.020833333333335e-06, | |
| "loss": 0.0707, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 302.81, | |
| "learning_rate": 7.981770833333335e-06, | |
| "loss": 0.0715, | |
| "step": 923 | |
| }, | |
| { | |
| "epoch": 303.78, | |
| "learning_rate": 7.942708333333334e-06, | |
| "loss": 0.0686, | |
| "step": 926 | |
| }, | |
| { | |
| "epoch": 304.76, | |
| "learning_rate": 7.903645833333334e-06, | |
| "loss": 0.0691, | |
| "step": 929 | |
| }, | |
| { | |
| "epoch": 305.73, | |
| "learning_rate": 7.864583333333334e-06, | |
| "loss": 0.0682, | |
| "step": 932 | |
| }, | |
| { | |
| "epoch": 306.7, | |
| "learning_rate": 7.825520833333334e-06, | |
| "loss": 0.0701, | |
| "step": 935 | |
| }, | |
| { | |
| "epoch": 308.0, | |
| "learning_rate": 7.7734375e-06, | |
| "loss": 0.0488, | |
| "step": 939 | |
| }, | |
| { | |
| "epoch": 308.97, | |
| "learning_rate": 7.734375e-06, | |
| "loss": 0.0689, | |
| "step": 942 | |
| }, | |
| { | |
| "epoch": 309.95, | |
| "learning_rate": 7.6953125e-06, | |
| "loss": 0.0685, | |
| "step": 945 | |
| }, | |
| { | |
| "epoch": 310.92, | |
| "learning_rate": 7.656250000000001e-06, | |
| "loss": 0.0688, | |
| "step": 948 | |
| }, | |
| { | |
| "epoch": 311.89, | |
| "learning_rate": 7.6171875000000005e-06, | |
| "loss": 0.0685, | |
| "step": 951 | |
| }, | |
| { | |
| "epoch": 312.86, | |
| "learning_rate": 7.578125e-06, | |
| "loss": 0.0688, | |
| "step": 954 | |
| }, | |
| { | |
| "epoch": 313.84, | |
| "learning_rate": 7.5390625e-06, | |
| "loss": 0.0656, | |
| "step": 957 | |
| }, | |
| { | |
| "epoch": 314.81, | |
| "learning_rate": 7.500000000000001e-06, | |
| "loss": 0.0666, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 315.78, | |
| "learning_rate": 7.460937500000001e-06, | |
| "loss": 0.0666, | |
| "step": 963 | |
| }, | |
| { | |
| "epoch": 316.76, | |
| "learning_rate": 7.421875000000001e-06, | |
| "loss": 0.0681, | |
| "step": 966 | |
| }, | |
| { | |
| "epoch": 317.73, | |
| "learning_rate": 7.382812500000001e-06, | |
| "loss": 0.0649, | |
| "step": 969 | |
| }, | |
| { | |
| "epoch": 318.7, | |
| "learning_rate": 7.343750000000001e-06, | |
| "loss": 0.0671, | |
| "step": 972 | |
| }, | |
| { | |
| "epoch": 320.0, | |
| "learning_rate": 7.291666666666667e-06, | |
| "loss": 0.0516, | |
| "step": 976 | |
| }, | |
| { | |
| "epoch": 320.97, | |
| "learning_rate": 7.2526041666666665e-06, | |
| "loss": 0.0644, | |
| "step": 979 | |
| }, | |
| { | |
| "epoch": 321.95, | |
| "learning_rate": 7.213541666666667e-06, | |
| "loss": 0.0652, | |
| "step": 982 | |
| }, | |
| { | |
| "epoch": 322.92, | |
| "learning_rate": 7.174479166666667e-06, | |
| "loss": 0.0658, | |
| "step": 985 | |
| }, | |
| { | |
| "epoch": 323.89, | |
| "learning_rate": 7.135416666666667e-06, | |
| "loss": 0.063, | |
| "step": 988 | |
| }, | |
| { | |
| "epoch": 324.86, | |
| "learning_rate": 7.096354166666667e-06, | |
| "loss": 0.0616, | |
| "step": 991 | |
| }, | |
| { | |
| "epoch": 325.84, | |
| "learning_rate": 7.057291666666667e-06, | |
| "loss": 0.0639, | |
| "step": 994 | |
| }, | |
| { | |
| "epoch": 326.81, | |
| "learning_rate": 7.018229166666667e-06, | |
| "loss": 0.0622, | |
| "step": 997 | |
| }, | |
| { | |
| "epoch": 327.78, | |
| "learning_rate": 6.979166666666667e-06, | |
| "loss": 0.0654, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 328.76, | |
| "learning_rate": 6.9401041666666665e-06, | |
| "loss": 0.0629, | |
| "step": 1003 | |
| }, | |
| { | |
| "epoch": 329.73, | |
| "learning_rate": 6.901041666666667e-06, | |
| "loss": 0.0625, | |
| "step": 1006 | |
| }, | |
| { | |
| "epoch": 330.7, | |
| "learning_rate": 6.861979166666667e-06, | |
| "loss": 0.0655, | |
| "step": 1009 | |
| }, | |
| { | |
| "epoch": 332.0, | |
| "learning_rate": 6.809895833333334e-06, | |
| "loss": 0.0468, | |
| "step": 1013 | |
| }, | |
| { | |
| "epoch": 332.97, | |
| "learning_rate": 6.770833333333334e-06, | |
| "loss": 0.0653, | |
| "step": 1016 | |
| }, | |
| { | |
| "epoch": 333.95, | |
| "learning_rate": 6.731770833333335e-06, | |
| "loss": 0.0632, | |
| "step": 1019 | |
| }, | |
| { | |
| "epoch": 334.92, | |
| "learning_rate": 6.6927083333333345e-06, | |
| "loss": 0.0603, | |
| "step": 1022 | |
| }, | |
| { | |
| "epoch": 335.89, | |
| "learning_rate": 6.653645833333334e-06, | |
| "loss": 0.0636, | |
| "step": 1025 | |
| }, | |
| { | |
| "epoch": 336.86, | |
| "learning_rate": 6.614583333333334e-06, | |
| "loss": 0.061, | |
| "step": 1028 | |
| }, | |
| { | |
| "epoch": 337.84, | |
| "learning_rate": 6.575520833333334e-06, | |
| "loss": 0.0626, | |
| "step": 1031 | |
| }, | |
| { | |
| "epoch": 338.81, | |
| "learning_rate": 6.536458333333334e-06, | |
| "loss": 0.0646, | |
| "step": 1034 | |
| }, | |
| { | |
| "epoch": 339.78, | |
| "learning_rate": 6.497395833333334e-06, | |
| "loss": 0.0613, | |
| "step": 1037 | |
| }, | |
| { | |
| "epoch": 340.76, | |
| "learning_rate": 6.458333333333334e-06, | |
| "loss": 0.0645, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 341.73, | |
| "learning_rate": 6.419270833333335e-06, | |
| "loss": 0.0607, | |
| "step": 1043 | |
| }, | |
| { | |
| "epoch": 342.7, | |
| "learning_rate": 6.3802083333333345e-06, | |
| "loss": 0.0622, | |
| "step": 1046 | |
| }, | |
| { | |
| "epoch": 344.0, | |
| "learning_rate": 6.3281250000000005e-06, | |
| "loss": 0.0441, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 344.97, | |
| "learning_rate": 6.2890625e-06, | |
| "loss": 0.0624, | |
| "step": 1053 | |
| }, | |
| { | |
| "epoch": 345.95, | |
| "learning_rate": 6.25e-06, | |
| "loss": 0.0641, | |
| "step": 1056 | |
| }, | |
| { | |
| "epoch": 346.92, | |
| "learning_rate": 6.2109375e-06, | |
| "loss": 0.0574, | |
| "step": 1059 | |
| }, | |
| { | |
| "epoch": 347.89, | |
| "learning_rate": 6.171875e-06, | |
| "loss": 0.0582, | |
| "step": 1062 | |
| }, | |
| { | |
| "epoch": 348.86, | |
| "learning_rate": 6.132812500000001e-06, | |
| "loss": 0.0592, | |
| "step": 1065 | |
| }, | |
| { | |
| "epoch": 349.84, | |
| "learning_rate": 6.093750000000001e-06, | |
| "loss": 0.0607, | |
| "step": 1068 | |
| }, | |
| { | |
| "epoch": 350.81, | |
| "learning_rate": 6.054687500000001e-06, | |
| "loss": 0.0598, | |
| "step": 1071 | |
| }, | |
| { | |
| "epoch": 351.78, | |
| "learning_rate": 6.0156250000000005e-06, | |
| "loss": 0.061, | |
| "step": 1074 | |
| }, | |
| { | |
| "epoch": 352.76, | |
| "learning_rate": 5.9765625000000004e-06, | |
| "loss": 0.0586, | |
| "step": 1077 | |
| }, | |
| { | |
| "epoch": 353.73, | |
| "learning_rate": 5.9375e-06, | |
| "loss": 0.059, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 354.7, | |
| "learning_rate": 5.8984375e-06, | |
| "loss": 0.0601, | |
| "step": 1083 | |
| }, | |
| { | |
| "epoch": 356.0, | |
| "learning_rate": 5.846354166666667e-06, | |
| "loss": 0.0447, | |
| "step": 1087 | |
| }, | |
| { | |
| "epoch": 356.97, | |
| "learning_rate": 5.807291666666667e-06, | |
| "loss": 0.0611, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 357.95, | |
| "learning_rate": 5.768229166666667e-06, | |
| "loss": 0.0575, | |
| "step": 1093 | |
| }, | |
| { | |
| "epoch": 358.92, | |
| "learning_rate": 5.729166666666667e-06, | |
| "loss": 0.0599, | |
| "step": 1096 | |
| }, | |
| { | |
| "epoch": 359.89, | |
| "learning_rate": 5.690104166666667e-06, | |
| "loss": 0.0585, | |
| "step": 1099 | |
| }, | |
| { | |
| "epoch": 360.86, | |
| "learning_rate": 5.6510416666666665e-06, | |
| "loss": 0.0571, | |
| "step": 1102 | |
| }, | |
| { | |
| "epoch": 361.84, | |
| "learning_rate": 5.611979166666666e-06, | |
| "loss": 0.0573, | |
| "step": 1105 | |
| }, | |
| { | |
| "epoch": 362.81, | |
| "learning_rate": 5.572916666666667e-06, | |
| "loss": 0.0588, | |
| "step": 1108 | |
| }, | |
| { | |
| "epoch": 363.78, | |
| "learning_rate": 5.533854166666667e-06, | |
| "loss": 0.0563, | |
| "step": 1111 | |
| }, | |
| { | |
| "epoch": 364.76, | |
| "learning_rate": 5.494791666666667e-06, | |
| "loss": 0.0567, | |
| "step": 1114 | |
| }, | |
| { | |
| "epoch": 365.73, | |
| "learning_rate": 5.455729166666667e-06, | |
| "loss": 0.0578, | |
| "step": 1117 | |
| }, | |
| { | |
| "epoch": 366.7, | |
| "learning_rate": 5.416666666666667e-06, | |
| "loss": 0.0579, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 368.0, | |
| "learning_rate": 5.364583333333334e-06, | |
| "loss": 0.0417, | |
| "step": 1124 | |
| }, | |
| { | |
| "epoch": 368.97, | |
| "learning_rate": 5.325520833333334e-06, | |
| "loss": 0.0563, | |
| "step": 1127 | |
| }, | |
| { | |
| "epoch": 369.95, | |
| "learning_rate": 5.286458333333334e-06, | |
| "loss": 0.0565, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 370.92, | |
| "learning_rate": 5.247395833333334e-06, | |
| "loss": 0.0558, | |
| "step": 1133 | |
| }, | |
| { | |
| "epoch": 371.89, | |
| "learning_rate": 5.208333333333334e-06, | |
| "loss": 0.0572, | |
| "step": 1136 | |
| }, | |
| { | |
| "epoch": 372.86, | |
| "learning_rate": 5.169270833333334e-06, | |
| "loss": 0.0553, | |
| "step": 1139 | |
| }, | |
| { | |
| "epoch": 373.84, | |
| "learning_rate": 5.130208333333334e-06, | |
| "loss": 0.0546, | |
| "step": 1142 | |
| }, | |
| { | |
| "epoch": 374.81, | |
| "learning_rate": 5.091145833333334e-06, | |
| "loss": 0.0582, | |
| "step": 1145 | |
| }, | |
| { | |
| "epoch": 375.78, | |
| "learning_rate": 5.0520833333333344e-06, | |
| "loss": 0.0545, | |
| "step": 1148 | |
| }, | |
| { | |
| "epoch": 376.76, | |
| "learning_rate": 5.013020833333334e-06, | |
| "loss": 0.0546, | |
| "step": 1151 | |
| }, | |
| { | |
| "epoch": 377.73, | |
| "learning_rate": 4.973958333333333e-06, | |
| "loss": 0.0543, | |
| "step": 1154 | |
| }, | |
| { | |
| "epoch": 378.7, | |
| "learning_rate": 4.934895833333333e-06, | |
| "loss": 0.0543, | |
| "step": 1157 | |
| }, | |
| { | |
| "epoch": 380.0, | |
| "learning_rate": 4.8828125e-06, | |
| "loss": 0.0405, | |
| "step": 1161 | |
| }, | |
| { | |
| "epoch": 380.97, | |
| "learning_rate": 4.84375e-06, | |
| "loss": 0.0553, | |
| "step": 1164 | |
| }, | |
| { | |
| "epoch": 381.95, | |
| "learning_rate": 4.804687500000001e-06, | |
| "loss": 0.0552, | |
| "step": 1167 | |
| }, | |
| { | |
| "epoch": 382.92, | |
| "learning_rate": 4.765625000000001e-06, | |
| "loss": 0.0567, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 383.89, | |
| "learning_rate": 4.7265625000000005e-06, | |
| "loss": 0.056, | |
| "step": 1173 | |
| }, | |
| { | |
| "epoch": 384.86, | |
| "learning_rate": 4.6875000000000004e-06, | |
| "loss": 0.0547, | |
| "step": 1176 | |
| }, | |
| { | |
| "epoch": 385.84, | |
| "learning_rate": 4.6484375e-06, | |
| "loss": 0.0559, | |
| "step": 1179 | |
| }, | |
| { | |
| "epoch": 386.81, | |
| "learning_rate": 4.609375e-06, | |
| "loss": 0.0551, | |
| "step": 1182 | |
| }, | |
| { | |
| "epoch": 387.78, | |
| "learning_rate": 4.5703125e-06, | |
| "loss": 0.0546, | |
| "step": 1185 | |
| }, | |
| { | |
| "epoch": 388.76, | |
| "learning_rate": 4.53125e-06, | |
| "loss": 0.0529, | |
| "step": 1188 | |
| }, | |
| { | |
| "epoch": 389.73, | |
| "learning_rate": 4.492187500000001e-06, | |
| "loss": 0.054, | |
| "step": 1191 | |
| }, | |
| { | |
| "epoch": 390.7, | |
| "learning_rate": 4.453125000000001e-06, | |
| "loss": 0.0554, | |
| "step": 1194 | |
| }, | |
| { | |
| "epoch": 392.0, | |
| "learning_rate": 4.4010416666666675e-06, | |
| "loss": 0.042, | |
| "step": 1198 | |
| }, | |
| { | |
| "epoch": 392.97, | |
| "learning_rate": 4.361979166666667e-06, | |
| "loss": 0.0556, | |
| "step": 1201 | |
| }, | |
| { | |
| "epoch": 393.95, | |
| "learning_rate": 4.322916666666667e-06, | |
| "loss": 0.0553, | |
| "step": 1204 | |
| }, | |
| { | |
| "epoch": 394.92, | |
| "learning_rate": 4.283854166666667e-06, | |
| "loss": 0.053, | |
| "step": 1207 | |
| }, | |
| { | |
| "epoch": 395.89, | |
| "learning_rate": 4.244791666666667e-06, | |
| "loss": 0.056, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 396.86, | |
| "learning_rate": 4.205729166666667e-06, | |
| "loss": 0.054, | |
| "step": 1213 | |
| }, | |
| { | |
| "epoch": 397.84, | |
| "learning_rate": 4.166666666666667e-06, | |
| "loss": 0.0555, | |
| "step": 1216 | |
| }, | |
| { | |
| "epoch": 398.81, | |
| "learning_rate": 4.127604166666668e-06, | |
| "loss": 0.0555, | |
| "step": 1219 | |
| }, | |
| { | |
| "epoch": 399.78, | |
| "learning_rate": 4.0885416666666675e-06, | |
| "loss": 0.0547, | |
| "step": 1222 | |
| }, | |
| { | |
| "epoch": 400.76, | |
| "learning_rate": 4.049479166666667e-06, | |
| "loss": 0.052, | |
| "step": 1225 | |
| }, | |
| { | |
| "epoch": 401.73, | |
| "learning_rate": 4.010416666666667e-06, | |
| "loss": 0.0535, | |
| "step": 1228 | |
| }, | |
| { | |
| "epoch": 402.7, | |
| "learning_rate": 3.971354166666667e-06, | |
| "loss": 0.0544, | |
| "step": 1231 | |
| }, | |
| { | |
| "epoch": 404.0, | |
| "learning_rate": 3.919270833333333e-06, | |
| "loss": 0.0404, | |
| "step": 1235 | |
| }, | |
| { | |
| "epoch": 404.97, | |
| "learning_rate": 3.880208333333333e-06, | |
| "loss": 0.0525, | |
| "step": 1238 | |
| }, | |
| { | |
| "epoch": 405.95, | |
| "learning_rate": 3.841145833333334e-06, | |
| "loss": 0.0552, | |
| "step": 1241 | |
| }, | |
| { | |
| "epoch": 406.92, | |
| "learning_rate": 3.8020833333333333e-06, | |
| "loss": 0.0544, | |
| "step": 1244 | |
| }, | |
| { | |
| "epoch": 407.89, | |
| "learning_rate": 3.7630208333333336e-06, | |
| "loss": 0.0529, | |
| "step": 1247 | |
| }, | |
| { | |
| "epoch": 408.86, | |
| "learning_rate": 3.7239583333333335e-06, | |
| "loss": 0.0538, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 409.84, | |
| "learning_rate": 3.6848958333333334e-06, | |
| "loss": 0.052, | |
| "step": 1253 | |
| }, | |
| { | |
| "epoch": 410.81, | |
| "learning_rate": 3.6458333333333333e-06, | |
| "loss": 0.0525, | |
| "step": 1256 | |
| }, | |
| { | |
| "epoch": 411.78, | |
| "learning_rate": 3.6067708333333336e-06, | |
| "loss": 0.0524, | |
| "step": 1259 | |
| }, | |
| { | |
| "epoch": 412.76, | |
| "learning_rate": 3.5677083333333335e-06, | |
| "loss": 0.0511, | |
| "step": 1262 | |
| }, | |
| { | |
| "epoch": 413.73, | |
| "learning_rate": 3.5286458333333334e-06, | |
| "loss": 0.0539, | |
| "step": 1265 | |
| }, | |
| { | |
| "epoch": 414.7, | |
| "learning_rate": 3.4895833333333333e-06, | |
| "loss": 0.0529, | |
| "step": 1268 | |
| }, | |
| { | |
| "epoch": 416.0, | |
| "learning_rate": 3.4375e-06, | |
| "loss": 0.0408, | |
| "step": 1272 | |
| }, | |
| { | |
| "epoch": 416.97, | |
| "learning_rate": 3.3984375000000004e-06, | |
| "loss": 0.0541, | |
| "step": 1275 | |
| }, | |
| { | |
| "epoch": 417.95, | |
| "learning_rate": 3.3593750000000003e-06, | |
| "loss": 0.0511, | |
| "step": 1278 | |
| }, | |
| { | |
| "epoch": 418.92, | |
| "learning_rate": 3.3203125000000002e-06, | |
| "loss": 0.0499, | |
| "step": 1281 | |
| }, | |
| { | |
| "epoch": 419.89, | |
| "learning_rate": 3.28125e-06, | |
| "loss": 0.0512, | |
| "step": 1284 | |
| }, | |
| { | |
| "epoch": 420.86, | |
| "learning_rate": 3.2421875000000005e-06, | |
| "loss": 0.0531, | |
| "step": 1287 | |
| }, | |
| { | |
| "epoch": 421.84, | |
| "learning_rate": 3.2031250000000004e-06, | |
| "loss": 0.0532, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 422.81, | |
| "learning_rate": 3.1640625000000003e-06, | |
| "loss": 0.0519, | |
| "step": 1293 | |
| }, | |
| { | |
| "epoch": 423.78, | |
| "learning_rate": 3.125e-06, | |
| "loss": 0.0521, | |
| "step": 1296 | |
| }, | |
| { | |
| "epoch": 424.76, | |
| "learning_rate": 3.0859375e-06, | |
| "loss": 0.0535, | |
| "step": 1299 | |
| }, | |
| { | |
| "epoch": 425.73, | |
| "learning_rate": 3.0468750000000004e-06, | |
| "loss": 0.0506, | |
| "step": 1302 | |
| }, | |
| { | |
| "epoch": 426.7, | |
| "learning_rate": 3.0078125000000003e-06, | |
| "loss": 0.0522, | |
| "step": 1305 | |
| }, | |
| { | |
| "epoch": 428.0, | |
| "learning_rate": 2.955729166666667e-06, | |
| "loss": 0.0392, | |
| "step": 1309 | |
| }, | |
| { | |
| "epoch": 428.97, | |
| "learning_rate": 2.916666666666667e-06, | |
| "loss": 0.0522, | |
| "step": 1312 | |
| }, | |
| { | |
| "epoch": 429.95, | |
| "learning_rate": 2.8776041666666673e-06, | |
| "loss": 0.0532, | |
| "step": 1315 | |
| }, | |
| { | |
| "epoch": 430.92, | |
| "learning_rate": 2.838541666666667e-06, | |
| "loss": 0.051, | |
| "step": 1318 | |
| }, | |
| { | |
| "epoch": 431.89, | |
| "learning_rate": 2.799479166666667e-06, | |
| "loss": 0.0537, | |
| "step": 1321 | |
| }, | |
| { | |
| "epoch": 432.86, | |
| "learning_rate": 2.760416666666667e-06, | |
| "loss": 0.0508, | |
| "step": 1324 | |
| }, | |
| { | |
| "epoch": 433.84, | |
| "learning_rate": 2.721354166666667e-06, | |
| "loss": 0.0518, | |
| "step": 1327 | |
| }, | |
| { | |
| "epoch": 434.81, | |
| "learning_rate": 2.682291666666667e-06, | |
| "loss": 0.052, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 435.78, | |
| "learning_rate": 2.643229166666667e-06, | |
| "loss": 0.054, | |
| "step": 1333 | |
| }, | |
| { | |
| "epoch": 436.76, | |
| "learning_rate": 2.604166666666667e-06, | |
| "loss": 0.0495, | |
| "step": 1336 | |
| }, | |
| { | |
| "epoch": 437.73, | |
| "learning_rate": 2.565104166666667e-06, | |
| "loss": 0.0523, | |
| "step": 1339 | |
| }, | |
| { | |
| "epoch": 438.7, | |
| "learning_rate": 2.5260416666666672e-06, | |
| "loss": 0.0517, | |
| "step": 1342 | |
| }, | |
| { | |
| "epoch": 440.0, | |
| "learning_rate": 2.4739583333333336e-06, | |
| "loss": 0.0382, | |
| "step": 1346 | |
| }, | |
| { | |
| "epoch": 440.97, | |
| "learning_rate": 2.4348958333333335e-06, | |
| "loss": 0.0524, | |
| "step": 1349 | |
| }, | |
| { | |
| "epoch": 441.95, | |
| "learning_rate": 2.395833333333334e-06, | |
| "loss": 0.0524, | |
| "step": 1352 | |
| }, | |
| { | |
| "epoch": 442.92, | |
| "learning_rate": 2.3567708333333337e-06, | |
| "loss": 0.0539, | |
| "step": 1355 | |
| }, | |
| { | |
| "epoch": 443.89, | |
| "learning_rate": 2.3177083333333336e-06, | |
| "loss": 0.05, | |
| "step": 1358 | |
| }, | |
| { | |
| "epoch": 444.86, | |
| "learning_rate": 2.2786458333333335e-06, | |
| "loss": 0.0507, | |
| "step": 1361 | |
| }, | |
| { | |
| "epoch": 445.84, | |
| "learning_rate": 2.2395833333333334e-06, | |
| "loss": 0.0505, | |
| "step": 1364 | |
| }, | |
| { | |
| "epoch": 446.81, | |
| "learning_rate": 2.2005208333333337e-06, | |
| "loss": 0.0518, | |
| "step": 1367 | |
| }, | |
| { | |
| "epoch": 447.78, | |
| "learning_rate": 2.1614583333333336e-06, | |
| "loss": 0.0509, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 448.76, | |
| "learning_rate": 2.1223958333333335e-06, | |
| "loss": 0.0504, | |
| "step": 1373 | |
| }, | |
| { | |
| "epoch": 449.73, | |
| "learning_rate": 2.0833333333333334e-06, | |
| "loss": 0.0498, | |
| "step": 1376 | |
| }, | |
| { | |
| "epoch": 450.7, | |
| "learning_rate": 2.0442708333333338e-06, | |
| "loss": 0.0518, | |
| "step": 1379 | |
| }, | |
| { | |
| "epoch": 452.0, | |
| "learning_rate": 1.9921875e-06, | |
| "loss": 0.0389, | |
| "step": 1383 | |
| }, | |
| { | |
| "epoch": 452.97, | |
| "learning_rate": 1.953125e-06, | |
| "loss": 0.0512, | |
| "step": 1386 | |
| }, | |
| { | |
| "epoch": 453.95, | |
| "learning_rate": 1.9140625000000004e-06, | |
| "loss": 0.0509, | |
| "step": 1389 | |
| }, | |
| { | |
| "epoch": 454.92, | |
| "learning_rate": 1.8750000000000003e-06, | |
| "loss": 0.0532, | |
| "step": 1392 | |
| }, | |
| { | |
| "epoch": 455.89, | |
| "learning_rate": 1.8359375000000002e-06, | |
| "loss": 0.0498, | |
| "step": 1395 | |
| }, | |
| { | |
| "epoch": 456.86, | |
| "learning_rate": 1.796875e-06, | |
| "loss": 0.05, | |
| "step": 1398 | |
| }, | |
| { | |
| "epoch": 457.84, | |
| "learning_rate": 1.7578125000000002e-06, | |
| "loss": 0.0526, | |
| "step": 1401 | |
| }, | |
| { | |
| "epoch": 458.81, | |
| "learning_rate": 1.71875e-06, | |
| "loss": 0.0514, | |
| "step": 1404 | |
| }, | |
| { | |
| "epoch": 459.78, | |
| "learning_rate": 1.6796875000000002e-06, | |
| "loss": 0.0529, | |
| "step": 1407 | |
| }, | |
| { | |
| "epoch": 460.76, | |
| "learning_rate": 1.640625e-06, | |
| "loss": 0.0501, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 461.73, | |
| "learning_rate": 1.6015625000000002e-06, | |
| "loss": 0.0508, | |
| "step": 1413 | |
| }, | |
| { | |
| "epoch": 462.7, | |
| "learning_rate": 1.5625e-06, | |
| "loss": 0.0509, | |
| "step": 1416 | |
| }, | |
| { | |
| "epoch": 464.0, | |
| "learning_rate": 1.5104166666666667e-06, | |
| "loss": 0.0385, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 464.97, | |
| "learning_rate": 1.4713541666666668e-06, | |
| "loss": 0.0533, | |
| "step": 1423 | |
| }, | |
| { | |
| "epoch": 465.95, | |
| "learning_rate": 1.4322916666666667e-06, | |
| "loss": 0.0504, | |
| "step": 1426 | |
| }, | |
| { | |
| "epoch": 466.92, | |
| "learning_rate": 1.3932291666666668e-06, | |
| "loss": 0.0512, | |
| "step": 1429 | |
| }, | |
| { | |
| "epoch": 467.89, | |
| "learning_rate": 1.3541666666666667e-06, | |
| "loss": 0.0517, | |
| "step": 1432 | |
| }, | |
| { | |
| "epoch": 468.86, | |
| "learning_rate": 1.3151041666666666e-06, | |
| "loss": 0.0484, | |
| "step": 1435 | |
| }, | |
| { | |
| "epoch": 469.84, | |
| "learning_rate": 1.2760416666666667e-06, | |
| "loss": 0.0511, | |
| "step": 1438 | |
| }, | |
| { | |
| "epoch": 470.81, | |
| "learning_rate": 1.2369791666666668e-06, | |
| "loss": 0.0515, | |
| "step": 1441 | |
| }, | |
| { | |
| "epoch": 471.78, | |
| "learning_rate": 1.197916666666667e-06, | |
| "loss": 0.0506, | |
| "step": 1444 | |
| }, | |
| { | |
| "epoch": 472.76, | |
| "learning_rate": 1.1588541666666668e-06, | |
| "loss": 0.0515, | |
| "step": 1447 | |
| }, | |
| { | |
| "epoch": 473.73, | |
| "learning_rate": 1.1197916666666667e-06, | |
| "loss": 0.0501, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 474.7, | |
| "learning_rate": 1.0807291666666668e-06, | |
| "loss": 0.0523, | |
| "step": 1453 | |
| }, | |
| { | |
| "epoch": 476.0, | |
| "learning_rate": 1.0286458333333334e-06, | |
| "loss": 0.0373, | |
| "step": 1457 | |
| }, | |
| { | |
| "epoch": 476.97, | |
| "learning_rate": 9.895833333333333e-07, | |
| "loss": 0.0504, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 477.95, | |
| "learning_rate": 9.505208333333333e-07, | |
| "loss": 0.0497, | |
| "step": 1463 | |
| }, | |
| { | |
| "epoch": 478.92, | |
| "learning_rate": 9.114583333333333e-07, | |
| "loss": 0.0496, | |
| "step": 1466 | |
| }, | |
| { | |
| "epoch": 479.89, | |
| "learning_rate": 8.723958333333333e-07, | |
| "loss": 0.0526, | |
| "step": 1469 | |
| }, | |
| { | |
| "epoch": 480.86, | |
| "learning_rate": 8.333333333333333e-07, | |
| "loss": 0.0491, | |
| "step": 1472 | |
| }, | |
| { | |
| "epoch": 481.84, | |
| "learning_rate": 7.942708333333333e-07, | |
| "loss": 0.0499, | |
| "step": 1475 | |
| }, | |
| { | |
| "epoch": 482.81, | |
| "learning_rate": 7.552083333333333e-07, | |
| "loss": 0.0519, | |
| "step": 1478 | |
| }, | |
| { | |
| "epoch": 483.78, | |
| "learning_rate": 7.161458333333333e-07, | |
| "loss": 0.0499, | |
| "step": 1481 | |
| }, | |
| { | |
| "epoch": 484.76, | |
| "learning_rate": 6.770833333333333e-07, | |
| "loss": 0.0516, | |
| "step": 1484 | |
| }, | |
| { | |
| "epoch": 485.73, | |
| "learning_rate": 6.380208333333333e-07, | |
| "loss": 0.0493, | |
| "step": 1487 | |
| }, | |
| { | |
| "epoch": 486.7, | |
| "learning_rate": 5.989583333333335e-07, | |
| "loss": 0.0513, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 488.0, | |
| "learning_rate": 5.468750000000001e-07, | |
| "loss": 0.0381, | |
| "step": 1494 | |
| }, | |
| { | |
| "epoch": 488.97, | |
| "learning_rate": 5.078125000000001e-07, | |
| "loss": 0.0518, | |
| "step": 1497 | |
| }, | |
| { | |
| "epoch": 489.95, | |
| "learning_rate": 4.6875000000000006e-07, | |
| "loss": 0.0489, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 490.92, | |
| "learning_rate": 4.296875e-07, | |
| "loss": 0.0497, | |
| "step": 1503 | |
| }, | |
| { | |
| "epoch": 491.89, | |
| "learning_rate": 3.90625e-07, | |
| "loss": 0.0492, | |
| "step": 1506 | |
| }, | |
| { | |
| "epoch": 492.86, | |
| "learning_rate": 3.515625e-07, | |
| "loss": 0.049, | |
| "step": 1509 | |
| }, | |
| { | |
| "epoch": 493.84, | |
| "learning_rate": 3.125e-07, | |
| "loss": 0.0487, | |
| "step": 1512 | |
| }, | |
| { | |
| "epoch": 494.81, | |
| "learning_rate": 2.7343750000000003e-07, | |
| "loss": 0.0495, | |
| "step": 1515 | |
| }, | |
| { | |
| "epoch": 495.78, | |
| "learning_rate": 2.3437500000000003e-07, | |
| "loss": 0.049, | |
| "step": 1518 | |
| }, | |
| { | |
| "epoch": 496.76, | |
| "learning_rate": 1.953125e-07, | |
| "loss": 0.0505, | |
| "step": 1521 | |
| }, | |
| { | |
| "epoch": 497.73, | |
| "learning_rate": 1.5625e-07, | |
| "loss": 0.0518, | |
| "step": 1524 | |
| }, | |
| { | |
| "epoch": 498.7, | |
| "learning_rate": 1.1718750000000002e-07, | |
| "loss": 0.0477, | |
| "step": 1527 | |
| }, | |
| { | |
| "epoch": 500.0, | |
| "learning_rate": 6.510416666666667e-08, | |
| "loss": 0.039, | |
| "step": 1531 | |
| }, | |
| { | |
| "epoch": 500.97, | |
| "learning_rate": 2.6041666666666667e-08, | |
| "loss": 0.0494, | |
| "step": 1534 | |
| }, | |
| { | |
| "epoch": 501.62, | |
| "learning_rate": 0.0, | |
| "loss": 0.0498, | |
| "step": 1536 | |
| }, | |
| { | |
| "epoch": 501.62, | |
| "step": 1536, | |
| "total_flos": 1.9358620133923584e+17, | |
| "train_loss": 0.10890851792161509, | |
| "train_runtime": 10408.3467, | |
| "train_samples_per_second": 288.507, | |
| "train_steps_per_second": 0.148 | |
| } | |
| ], | |
| "logging_steps": 500, | |
| "max_steps": 1536, | |
| "num_train_epochs": 512, | |
| "save_steps": 500, | |
| "total_flos": 1.9358620133923584e+17, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |