| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 501.6216216216216, |
| "eval_steps": 500, |
| "global_step": 1536, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.97, |
| "learning_rate": 1.96875e-05, |
| "loss": 3.1065, |
| "step": 3 |
| }, |
| { |
| "epoch": 1.95, |
| "learning_rate": 1.9375e-05, |
| "loss": 3.0384, |
| "step": 6 |
| }, |
| { |
| "epoch": 2.92, |
| "learning_rate": 1.9062500000000003e-05, |
| "loss": 2.9724, |
| "step": 9 |
| }, |
| { |
| "epoch": 3.89, |
| "learning_rate": 1.8750000000000002e-05, |
| "loss": 2.9158, |
| "step": 12 |
| }, |
| { |
| "epoch": 4.86, |
| "learning_rate": 1.84375e-05, |
| "loss": 2.8626, |
| "step": 15 |
| }, |
| { |
| "epoch": 5.84, |
| "learning_rate": 1.8125e-05, |
| "loss": 2.8132, |
| "step": 18 |
| }, |
| { |
| "epoch": 6.81, |
| "learning_rate": 1.7812500000000003e-05, |
| "loss": 2.7628, |
| "step": 21 |
| }, |
| { |
| "epoch": 7.78, |
| "learning_rate": 1.7500000000000002e-05, |
| "loss": 2.7101, |
| "step": 24 |
| }, |
| { |
| "epoch": 8.76, |
| "learning_rate": 1.71875e-05, |
| "loss": 2.6544, |
| "step": 27 |
| }, |
| { |
| "epoch": 9.73, |
| "learning_rate": 1.6875e-05, |
| "loss": 2.601, |
| "step": 30 |
| }, |
| { |
| "epoch": 10.7, |
| "learning_rate": 1.6562500000000003e-05, |
| "loss": 2.5435, |
| "step": 33 |
| }, |
| { |
| "epoch": 12.0, |
| "learning_rate": 1.6145833333333334e-05, |
| "loss": 1.8692, |
| "step": 37 |
| }, |
| { |
| "epoch": 12.97, |
| "learning_rate": 1.5833333333333333e-05, |
| "loss": 2.4371, |
| "step": 40 |
| }, |
| { |
| "epoch": 13.95, |
| "learning_rate": 1.5520833333333332e-05, |
| "loss": 2.3895, |
| "step": 43 |
| }, |
| { |
| "epoch": 14.92, |
| "learning_rate": 1.5208333333333333e-05, |
| "loss": 2.344, |
| "step": 46 |
| }, |
| { |
| "epoch": 15.89, |
| "learning_rate": 1.4895833333333334e-05, |
| "loss": 2.2952, |
| "step": 49 |
| }, |
| { |
| "epoch": 16.86, |
| "learning_rate": 1.4583333333333333e-05, |
| "loss": 2.2481, |
| "step": 52 |
| }, |
| { |
| "epoch": 17.84, |
| "learning_rate": 1.4270833333333334e-05, |
| "loss": 2.2068, |
| "step": 55 |
| }, |
| { |
| "epoch": 18.81, |
| "learning_rate": 1.3958333333333333e-05, |
| "loss": 2.1665, |
| "step": 58 |
| }, |
| { |
| "epoch": 19.78, |
| "learning_rate": 1.3645833333333334e-05, |
| "loss": 2.1258, |
| "step": 61 |
| }, |
| { |
| "epoch": 20.76, |
| "learning_rate": 1.3333333333333333e-05, |
| "loss": 2.0826, |
| "step": 64 |
| }, |
| { |
| "epoch": 21.73, |
| "learning_rate": 1.3020833333333334e-05, |
| "loss": 2.0473, |
| "step": 67 |
| }, |
| { |
| "epoch": 22.7, |
| "learning_rate": 1.2708333333333333e-05, |
| "loss": 2.0172, |
| "step": 70 |
| }, |
| { |
| "epoch": 24.0, |
| "learning_rate": 1.2291666666666668e-05, |
| "loss": 1.4875, |
| "step": 74 |
| }, |
| { |
| "epoch": 24.97, |
| "learning_rate": 1.1979166666666669e-05, |
| "loss": 1.9533, |
| "step": 77 |
| }, |
| { |
| "epoch": 25.95, |
| "learning_rate": 1.1666666666666668e-05, |
| "loss": 1.9172, |
| "step": 80 |
| }, |
| { |
| "epoch": 26.92, |
| "learning_rate": 1.1354166666666669e-05, |
| "loss": 1.8928, |
| "step": 83 |
| }, |
| { |
| "epoch": 27.89, |
| "learning_rate": 1.1041666666666668e-05, |
| "loss": 1.8566, |
| "step": 86 |
| }, |
| { |
| "epoch": 28.86, |
| "learning_rate": 1.0729166666666669e-05, |
| "loss": 1.8305, |
| "step": 89 |
| }, |
| { |
| "epoch": 29.84, |
| "learning_rate": 1.0416666666666668e-05, |
| "loss": 1.804, |
| "step": 92 |
| }, |
| { |
| "epoch": 30.81, |
| "learning_rate": 1.0104166666666669e-05, |
| "loss": 1.7778, |
| "step": 95 |
| }, |
| { |
| "epoch": 31.78, |
| "learning_rate": 9.791666666666666e-06, |
| "loss": 1.7575, |
| "step": 98 |
| }, |
| { |
| "epoch": 32.76, |
| "learning_rate": 9.479166666666667e-06, |
| "loss": 1.7317, |
| "step": 101 |
| }, |
| { |
| "epoch": 33.73, |
| "learning_rate": 9.166666666666666e-06, |
| "loss": 1.7139, |
| "step": 104 |
| }, |
| { |
| "epoch": 34.7, |
| "learning_rate": 8.854166666666667e-06, |
| "loss": 1.6907, |
| "step": 107 |
| }, |
| { |
| "epoch": 36.0, |
| "learning_rate": 8.4375e-06, |
| "loss": 1.2573, |
| "step": 111 |
| }, |
| { |
| "epoch": 36.97, |
| "learning_rate": 8.125000000000001e-06, |
| "loss": 1.6551, |
| "step": 114 |
| }, |
| { |
| "epoch": 37.95, |
| "learning_rate": 7.8125e-06, |
| "loss": 1.641, |
| "step": 117 |
| }, |
| { |
| "epoch": 38.92, |
| "learning_rate": 7.500000000000001e-06, |
| "loss": 1.6249, |
| "step": 120 |
| }, |
| { |
| "epoch": 39.89, |
| "learning_rate": 7.1875e-06, |
| "loss": 1.6099, |
| "step": 123 |
| }, |
| { |
| "epoch": 40.86, |
| "learning_rate": 6.875e-06, |
| "loss": 1.594, |
| "step": 126 |
| }, |
| { |
| "epoch": 41.84, |
| "learning_rate": 6.5625e-06, |
| "loss": 1.5781, |
| "step": 129 |
| }, |
| { |
| "epoch": 42.81, |
| "learning_rate": 6.25e-06, |
| "loss": 1.5634, |
| "step": 132 |
| }, |
| { |
| "epoch": 43.78, |
| "learning_rate": 5.9375e-06, |
| "loss": 1.5502, |
| "step": 135 |
| }, |
| { |
| "epoch": 44.76, |
| "learning_rate": 5.625e-06, |
| "loss": 1.5408, |
| "step": 138 |
| }, |
| { |
| "epoch": 45.73, |
| "learning_rate": 5.3125e-06, |
| "loss": 1.5249, |
| "step": 141 |
| }, |
| { |
| "epoch": 46.7, |
| "learning_rate": 5e-06, |
| "loss": 1.5144, |
| "step": 144 |
| }, |
| { |
| "epoch": 48.0, |
| "learning_rate": 4.583333333333333e-06, |
| "loss": 1.1303, |
| "step": 148 |
| }, |
| { |
| "epoch": 48.97, |
| "learning_rate": 4.270833333333333e-06, |
| "loss": 1.4962, |
| "step": 151 |
| }, |
| { |
| "epoch": 49.95, |
| "learning_rate": 3.958333333333333e-06, |
| "loss": 1.489, |
| "step": 154 |
| }, |
| { |
| "epoch": 50.92, |
| "learning_rate": 3.6458333333333333e-06, |
| "loss": 1.4794, |
| "step": 157 |
| }, |
| { |
| "epoch": 51.89, |
| "learning_rate": 3.3333333333333333e-06, |
| "loss": 1.4712, |
| "step": 160 |
| }, |
| { |
| "epoch": 52.86, |
| "learning_rate": 3.0208333333333334e-06, |
| "loss": 1.4613, |
| "step": 163 |
| }, |
| { |
| "epoch": 53.84, |
| "learning_rate": 2.7083333333333334e-06, |
| "loss": 1.4528, |
| "step": 166 |
| }, |
| { |
| "epoch": 54.81, |
| "learning_rate": 2.395833333333334e-06, |
| "loss": 1.4473, |
| "step": 169 |
| }, |
| { |
| "epoch": 55.78, |
| "learning_rate": 2.0833333333333334e-06, |
| "loss": 1.4385, |
| "step": 172 |
| }, |
| { |
| "epoch": 56.76, |
| "learning_rate": 1.7708333333333337e-06, |
| "loss": 1.4403, |
| "step": 175 |
| }, |
| { |
| "epoch": 57.73, |
| "learning_rate": 1.4583333333333335e-06, |
| "loss": 1.4276, |
| "step": 178 |
| }, |
| { |
| "epoch": 58.7, |
| "learning_rate": 1.1458333333333333e-06, |
| "loss": 1.4291, |
| "step": 181 |
| }, |
| { |
| "epoch": 60.0, |
| "learning_rate": 7.291666666666667e-07, |
| "loss": 1.0688, |
| "step": 185 |
| }, |
| { |
| "epoch": 60.97, |
| "learning_rate": 4.1666666666666667e-07, |
| "loss": 1.4217, |
| "step": 188 |
| }, |
| { |
| "epoch": 61.95, |
| "learning_rate": 1.0416666666666667e-07, |
| "loss": 1.4242, |
| "step": 191 |
| }, |
| { |
| "epoch": 62.27, |
| "learning_rate": 0.0, |
| "loss": 1.1326, |
| "step": 192 |
| }, |
| { |
| "epoch": 64.97, |
| "learning_rate": 9.84375e-06, |
| "loss": 1.4213, |
| "step": 195 |
| }, |
| { |
| "epoch": 65.95, |
| "learning_rate": 9.6875e-06, |
| "loss": 1.3989, |
| "step": 198 |
| }, |
| { |
| "epoch": 66.92, |
| "learning_rate": 9.531250000000001e-06, |
| "loss": 1.3782, |
| "step": 201 |
| }, |
| { |
| "epoch": 67.89, |
| "learning_rate": 9.375000000000001e-06, |
| "loss": 1.3594, |
| "step": 204 |
| }, |
| { |
| "epoch": 68.86, |
| "learning_rate": 9.21875e-06, |
| "loss": 1.3425, |
| "step": 207 |
| }, |
| { |
| "epoch": 69.84, |
| "learning_rate": 9.0625e-06, |
| "loss": 1.3209, |
| "step": 210 |
| }, |
| { |
| "epoch": 70.81, |
| "learning_rate": 8.906250000000001e-06, |
| "loss": 1.3018, |
| "step": 213 |
| }, |
| { |
| "epoch": 71.78, |
| "learning_rate": 8.750000000000001e-06, |
| "loss": 1.2872, |
| "step": 216 |
| }, |
| { |
| "epoch": 72.76, |
| "learning_rate": 8.59375e-06, |
| "loss": 1.2717, |
| "step": 219 |
| }, |
| { |
| "epoch": 73.73, |
| "learning_rate": 8.4375e-06, |
| "loss": 1.2531, |
| "step": 222 |
| }, |
| { |
| "epoch": 74.7, |
| "learning_rate": 8.281250000000001e-06, |
| "loss": 1.2371, |
| "step": 225 |
| }, |
| { |
| "epoch": 76.0, |
| "learning_rate": 8.072916666666667e-06, |
| "loss": 0.9161, |
| "step": 229 |
| }, |
| { |
| "epoch": 76.97, |
| "learning_rate": 7.916666666666667e-06, |
| "loss": 1.2111, |
| "step": 232 |
| }, |
| { |
| "epoch": 77.95, |
| "learning_rate": 7.760416666666666e-06, |
| "loss": 1.1966, |
| "step": 235 |
| }, |
| { |
| "epoch": 78.92, |
| "learning_rate": 7.6041666666666666e-06, |
| "loss": 1.1775, |
| "step": 238 |
| }, |
| { |
| "epoch": 79.89, |
| "learning_rate": 7.447916666666667e-06, |
| "loss": 1.1638, |
| "step": 241 |
| }, |
| { |
| "epoch": 80.86, |
| "learning_rate": 7.291666666666667e-06, |
| "loss": 1.154, |
| "step": 244 |
| }, |
| { |
| "epoch": 81.84, |
| "learning_rate": 7.135416666666667e-06, |
| "loss": 1.1335, |
| "step": 247 |
| }, |
| { |
| "epoch": 82.81, |
| "learning_rate": 6.979166666666667e-06, |
| "loss": 1.1245, |
| "step": 250 |
| }, |
| { |
| "epoch": 83.78, |
| "learning_rate": 6.822916666666667e-06, |
| "loss": 1.1195, |
| "step": 253 |
| }, |
| { |
| "epoch": 84.76, |
| "learning_rate": 6.666666666666667e-06, |
| "loss": 1.1042, |
| "step": 256 |
| }, |
| { |
| "epoch": 85.73, |
| "learning_rate": 6.510416666666667e-06, |
| "loss": 1.092, |
| "step": 259 |
| }, |
| { |
| "epoch": 86.7, |
| "learning_rate": 6.354166666666667e-06, |
| "loss": 1.0786, |
| "step": 262 |
| }, |
| { |
| "epoch": 88.0, |
| "learning_rate": 6.145833333333334e-06, |
| "loss": 0.8002, |
| "step": 266 |
| }, |
| { |
| "epoch": 88.97, |
| "learning_rate": 5.989583333333334e-06, |
| "loss": 1.0561, |
| "step": 269 |
| }, |
| { |
| "epoch": 89.95, |
| "learning_rate": 5.833333333333334e-06, |
| "loss": 1.0469, |
| "step": 272 |
| }, |
| { |
| "epoch": 90.92, |
| "learning_rate": 5.677083333333334e-06, |
| "loss": 1.0395, |
| "step": 275 |
| }, |
| { |
| "epoch": 91.89, |
| "learning_rate": 5.520833333333334e-06, |
| "loss": 1.0276, |
| "step": 278 |
| }, |
| { |
| "epoch": 92.86, |
| "learning_rate": 5.364583333333334e-06, |
| "loss": 1.0149, |
| "step": 281 |
| }, |
| { |
| "epoch": 93.84, |
| "learning_rate": 5.208333333333334e-06, |
| "loss": 1.0107, |
| "step": 284 |
| }, |
| { |
| "epoch": 94.81, |
| "learning_rate": 5.0520833333333344e-06, |
| "loss": 0.9976, |
| "step": 287 |
| }, |
| { |
| "epoch": 95.78, |
| "learning_rate": 4.895833333333333e-06, |
| "loss": 0.9843, |
| "step": 290 |
| }, |
| { |
| "epoch": 96.76, |
| "learning_rate": 4.739583333333334e-06, |
| "loss": 0.9816, |
| "step": 293 |
| }, |
| { |
| "epoch": 97.73, |
| "learning_rate": 4.583333333333333e-06, |
| "loss": 0.9702, |
| "step": 296 |
| }, |
| { |
| "epoch": 98.7, |
| "learning_rate": 4.427083333333334e-06, |
| "loss": 0.9683, |
| "step": 299 |
| }, |
| { |
| "epoch": 100.0, |
| "learning_rate": 4.21875e-06, |
| "loss": 0.7223, |
| "step": 303 |
| }, |
| { |
| "epoch": 100.97, |
| "learning_rate": 4.0625000000000005e-06, |
| "loss": 0.9523, |
| "step": 306 |
| }, |
| { |
| "epoch": 101.95, |
| "learning_rate": 3.90625e-06, |
| "loss": 0.9421, |
| "step": 309 |
| }, |
| { |
| "epoch": 102.92, |
| "learning_rate": 3.7500000000000005e-06, |
| "loss": 0.9471, |
| "step": 312 |
| }, |
| { |
| "epoch": 103.89, |
| "learning_rate": 3.59375e-06, |
| "loss": 0.9351, |
| "step": 315 |
| }, |
| { |
| "epoch": 104.86, |
| "learning_rate": 3.4375e-06, |
| "loss": 0.924, |
| "step": 318 |
| }, |
| { |
| "epoch": 105.84, |
| "learning_rate": 3.28125e-06, |
| "loss": 0.9218, |
| "step": 321 |
| }, |
| { |
| "epoch": 106.81, |
| "learning_rate": 3.125e-06, |
| "loss": 0.9217, |
| "step": 324 |
| }, |
| { |
| "epoch": 107.78, |
| "learning_rate": 2.96875e-06, |
| "loss": 0.9078, |
| "step": 327 |
| }, |
| { |
| "epoch": 108.76, |
| "learning_rate": 2.8125e-06, |
| "loss": 0.9082, |
| "step": 330 |
| }, |
| { |
| "epoch": 109.73, |
| "learning_rate": 2.65625e-06, |
| "loss": 0.9068, |
| "step": 333 |
| }, |
| { |
| "epoch": 110.7, |
| "learning_rate": 2.5e-06, |
| "loss": 0.8969, |
| "step": 336 |
| }, |
| { |
| "epoch": 112.0, |
| "learning_rate": 2.2916666666666666e-06, |
| "loss": 0.6673, |
| "step": 340 |
| }, |
| { |
| "epoch": 112.97, |
| "learning_rate": 2.1354166666666666e-06, |
| "loss": 0.8892, |
| "step": 343 |
| }, |
| { |
| "epoch": 113.95, |
| "learning_rate": 1.9791666666666666e-06, |
| "loss": 0.8896, |
| "step": 346 |
| }, |
| { |
| "epoch": 114.92, |
| "learning_rate": 1.8229166666666666e-06, |
| "loss": 0.8764, |
| "step": 349 |
| }, |
| { |
| "epoch": 115.89, |
| "learning_rate": 1.6666666666666667e-06, |
| "loss": 0.8754, |
| "step": 352 |
| }, |
| { |
| "epoch": 116.86, |
| "learning_rate": 1.5104166666666667e-06, |
| "loss": 0.8729, |
| "step": 355 |
| }, |
| { |
| "epoch": 117.84, |
| "learning_rate": 1.3541666666666667e-06, |
| "loss": 0.8714, |
| "step": 358 |
| }, |
| { |
| "epoch": 118.81, |
| "learning_rate": 1.197916666666667e-06, |
| "loss": 0.8697, |
| "step": 361 |
| }, |
| { |
| "epoch": 119.78, |
| "learning_rate": 1.0416666666666667e-06, |
| "loss": 0.8646, |
| "step": 364 |
| }, |
| { |
| "epoch": 120.76, |
| "learning_rate": 8.854166666666668e-07, |
| "loss": 0.8601, |
| "step": 367 |
| }, |
| { |
| "epoch": 121.73, |
| "learning_rate": 7.291666666666667e-07, |
| "loss": 0.8579, |
| "step": 370 |
| }, |
| { |
| "epoch": 122.7, |
| "learning_rate": 5.729166666666667e-07, |
| "loss": 0.8657, |
| "step": 373 |
| }, |
| { |
| "epoch": 124.0, |
| "learning_rate": 3.6458333333333337e-07, |
| "loss": 0.6457, |
| "step": 377 |
| }, |
| { |
| "epoch": 124.97, |
| "learning_rate": 2.0833333333333333e-07, |
| "loss": 0.8564, |
| "step": 380 |
| }, |
| { |
| "epoch": 125.95, |
| "learning_rate": 5.208333333333333e-08, |
| "loss": 0.8588, |
| "step": 383 |
| }, |
| { |
| "epoch": 126.27, |
| "learning_rate": 0.0, |
| "loss": 0.7301, |
| "step": 384 |
| }, |
| { |
| "epoch": 128.97, |
| "learning_rate": 1.4960937500000002e-05, |
| "loss": 0.8564, |
| "step": 387 |
| }, |
| { |
| "epoch": 129.95, |
| "learning_rate": 1.4921875000000002e-05, |
| "loss": 0.8371, |
| "step": 390 |
| }, |
| { |
| "epoch": 130.92, |
| "learning_rate": 1.4882812500000002e-05, |
| "loss": 0.8192, |
| "step": 393 |
| }, |
| { |
| "epoch": 131.89, |
| "learning_rate": 1.4843750000000002e-05, |
| "loss": 0.7975, |
| "step": 396 |
| }, |
| { |
| "epoch": 132.86, |
| "learning_rate": 1.4804687500000002e-05, |
| "loss": 0.7844, |
| "step": 399 |
| }, |
| { |
| "epoch": 133.84, |
| "learning_rate": 1.4765625000000001e-05, |
| "loss": 0.7674, |
| "step": 402 |
| }, |
| { |
| "epoch": 134.81, |
| "learning_rate": 1.4726562500000001e-05, |
| "loss": 0.7525, |
| "step": 405 |
| }, |
| { |
| "epoch": 135.78, |
| "learning_rate": 1.4687500000000001e-05, |
| "loss": 0.7345, |
| "step": 408 |
| }, |
| { |
| "epoch": 136.76, |
| "learning_rate": 1.4648437500000001e-05, |
| "loss": 0.7159, |
| "step": 411 |
| }, |
| { |
| "epoch": 137.73, |
| "learning_rate": 1.4609375000000001e-05, |
| "loss": 0.7023, |
| "step": 414 |
| }, |
| { |
| "epoch": 138.7, |
| "learning_rate": 1.4570312500000001e-05, |
| "loss": 0.6946, |
| "step": 417 |
| }, |
| { |
| "epoch": 140.0, |
| "learning_rate": 1.4518229166666669e-05, |
| "loss": 0.5039, |
| "step": 421 |
| }, |
| { |
| "epoch": 140.97, |
| "learning_rate": 1.4479166666666669e-05, |
| "loss": 0.6631, |
| "step": 424 |
| }, |
| { |
| "epoch": 141.95, |
| "learning_rate": 1.4440104166666668e-05, |
| "loss": 0.6543, |
| "step": 427 |
| }, |
| { |
| "epoch": 142.92, |
| "learning_rate": 1.4401041666666668e-05, |
| "loss": 0.6378, |
| "step": 430 |
| }, |
| { |
| "epoch": 143.89, |
| "learning_rate": 1.4361979166666668e-05, |
| "loss": 0.6212, |
| "step": 433 |
| }, |
| { |
| "epoch": 144.86, |
| "learning_rate": 1.4322916666666668e-05, |
| "loss": 0.6069, |
| "step": 436 |
| }, |
| { |
| "epoch": 145.84, |
| "learning_rate": 1.4283854166666668e-05, |
| "loss": 0.5981, |
| "step": 439 |
| }, |
| { |
| "epoch": 146.81, |
| "learning_rate": 1.4244791666666668e-05, |
| "loss": 0.5923, |
| "step": 442 |
| }, |
| { |
| "epoch": 147.78, |
| "learning_rate": 1.4205729166666668e-05, |
| "loss": 0.5754, |
| "step": 445 |
| }, |
| { |
| "epoch": 148.76, |
| "learning_rate": 1.416666666666667e-05, |
| "loss": 0.5653, |
| "step": 448 |
| }, |
| { |
| "epoch": 149.73, |
| "learning_rate": 1.412760416666667e-05, |
| "loss": 0.555, |
| "step": 451 |
| }, |
| { |
| "epoch": 150.7, |
| "learning_rate": 1.408854166666667e-05, |
| "loss": 0.5408, |
| "step": 454 |
| }, |
| { |
| "epoch": 152.0, |
| "learning_rate": 1.4036458333333333e-05, |
| "loss": 0.4004, |
| "step": 458 |
| }, |
| { |
| "epoch": 152.97, |
| "learning_rate": 1.3997395833333333e-05, |
| "loss": 0.5188, |
| "step": 461 |
| }, |
| { |
| "epoch": 153.95, |
| "learning_rate": 1.3958333333333333e-05, |
| "loss": 0.5146, |
| "step": 464 |
| }, |
| { |
| "epoch": 154.92, |
| "learning_rate": 1.3919270833333333e-05, |
| "loss": 0.502, |
| "step": 467 |
| }, |
| { |
| "epoch": 155.89, |
| "learning_rate": 1.3880208333333333e-05, |
| "loss": 0.4932, |
| "step": 470 |
| }, |
| { |
| "epoch": 156.86, |
| "learning_rate": 1.3841145833333333e-05, |
| "loss": 0.4822, |
| "step": 473 |
| }, |
| { |
| "epoch": 157.84, |
| "learning_rate": 1.3802083333333335e-05, |
| "loss": 0.4804, |
| "step": 476 |
| }, |
| { |
| "epoch": 158.81, |
| "learning_rate": 1.3763020833333334e-05, |
| "loss": 0.4648, |
| "step": 479 |
| }, |
| { |
| "epoch": 159.78, |
| "learning_rate": 1.3723958333333334e-05, |
| "loss": 0.4551, |
| "step": 482 |
| }, |
| { |
| "epoch": 160.76, |
| "learning_rate": 1.3684895833333334e-05, |
| "loss": 0.4473, |
| "step": 485 |
| }, |
| { |
| "epoch": 161.73, |
| "learning_rate": 1.3645833333333334e-05, |
| "loss": 0.4402, |
| "step": 488 |
| }, |
| { |
| "epoch": 162.7, |
| "learning_rate": 1.3606770833333334e-05, |
| "loss": 0.4293, |
| "step": 491 |
| }, |
| { |
| "epoch": 164.0, |
| "learning_rate": 1.3554687500000002e-05, |
| "loss": 0.3169, |
| "step": 495 |
| }, |
| { |
| "epoch": 164.97, |
| "learning_rate": 1.3515625000000002e-05, |
| "loss": 0.4116, |
| "step": 498 |
| }, |
| { |
| "epoch": 165.95, |
| "learning_rate": 1.3476562500000001e-05, |
| "loss": 0.4042, |
| "step": 501 |
| }, |
| { |
| "epoch": 166.92, |
| "learning_rate": 1.3437500000000001e-05, |
| "loss": 0.3975, |
| "step": 504 |
| }, |
| { |
| "epoch": 167.89, |
| "learning_rate": 1.3398437500000001e-05, |
| "loss": 0.379, |
| "step": 507 |
| }, |
| { |
| "epoch": 168.86, |
| "learning_rate": 1.3359375000000001e-05, |
| "loss": 0.3789, |
| "step": 510 |
| }, |
| { |
| "epoch": 169.84, |
| "learning_rate": 1.3320312500000001e-05, |
| "loss": 0.3669, |
| "step": 513 |
| }, |
| { |
| "epoch": 170.81, |
| "learning_rate": 1.3281250000000001e-05, |
| "loss": 0.3595, |
| "step": 516 |
| }, |
| { |
| "epoch": 171.78, |
| "learning_rate": 1.3242187500000001e-05, |
| "loss": 0.3508, |
| "step": 519 |
| }, |
| { |
| "epoch": 172.76, |
| "learning_rate": 1.3203125e-05, |
| "loss": 0.3415, |
| "step": 522 |
| }, |
| { |
| "epoch": 173.73, |
| "learning_rate": 1.31640625e-05, |
| "loss": 0.3297, |
| "step": 525 |
| }, |
| { |
| "epoch": 174.7, |
| "learning_rate": 1.3125e-05, |
| "loss": 0.3316, |
| "step": 528 |
| }, |
| { |
| "epoch": 176.0, |
| "learning_rate": 1.3072916666666668e-05, |
| "loss": 0.2403, |
| "step": 532 |
| }, |
| { |
| "epoch": 176.97, |
| "learning_rate": 1.3033854166666668e-05, |
| "loss": 0.3148, |
| "step": 535 |
| }, |
| { |
| "epoch": 177.95, |
| "learning_rate": 1.2994791666666668e-05, |
| "loss": 0.3119, |
| "step": 538 |
| }, |
| { |
| "epoch": 178.92, |
| "learning_rate": 1.2955729166666668e-05, |
| "loss": 0.3013, |
| "step": 541 |
| }, |
| { |
| "epoch": 179.89, |
| "learning_rate": 1.2916666666666668e-05, |
| "loss": 0.2972, |
| "step": 544 |
| }, |
| { |
| "epoch": 180.86, |
| "learning_rate": 1.2877604166666668e-05, |
| "loss": 0.2894, |
| "step": 547 |
| }, |
| { |
| "epoch": 181.84, |
| "learning_rate": 1.283854166666667e-05, |
| "loss": 0.2837, |
| "step": 550 |
| }, |
| { |
| "epoch": 182.81, |
| "learning_rate": 1.279947916666667e-05, |
| "loss": 0.278, |
| "step": 553 |
| }, |
| { |
| "epoch": 183.78, |
| "learning_rate": 1.2760416666666669e-05, |
| "loss": 0.2773, |
| "step": 556 |
| }, |
| { |
| "epoch": 184.76, |
| "learning_rate": 1.2721354166666669e-05, |
| "loss": 0.2768, |
| "step": 559 |
| }, |
| { |
| "epoch": 185.73, |
| "learning_rate": 1.2682291666666669e-05, |
| "loss": 0.2652, |
| "step": 562 |
| }, |
| { |
| "epoch": 186.7, |
| "learning_rate": 1.2643229166666669e-05, |
| "loss": 0.266, |
| "step": 565 |
| }, |
| { |
| "epoch": 188.0, |
| "learning_rate": 1.2591145833333333e-05, |
| "loss": 0.1962, |
| "step": 569 |
| }, |
| { |
| "epoch": 188.97, |
| "learning_rate": 1.2552083333333333e-05, |
| "loss": 0.259, |
| "step": 572 |
| }, |
| { |
| "epoch": 189.95, |
| "learning_rate": 1.2513020833333333e-05, |
| "loss": 0.2516, |
| "step": 575 |
| }, |
| { |
| "epoch": 190.92, |
| "learning_rate": 1.2473958333333334e-05, |
| "loss": 0.2501, |
| "step": 578 |
| }, |
| { |
| "epoch": 191.89, |
| "learning_rate": 1.2434895833333334e-05, |
| "loss": 0.243, |
| "step": 581 |
| }, |
| { |
| "epoch": 192.86, |
| "learning_rate": 1.2395833333333334e-05, |
| "loss": 0.2399, |
| "step": 584 |
| }, |
| { |
| "epoch": 193.84, |
| "learning_rate": 1.2356770833333334e-05, |
| "loss": 0.2396, |
| "step": 587 |
| }, |
| { |
| "epoch": 194.81, |
| "learning_rate": 1.2317708333333334e-05, |
| "loss": 0.2332, |
| "step": 590 |
| }, |
| { |
| "epoch": 195.78, |
| "learning_rate": 1.2278645833333334e-05, |
| "loss": 0.2244, |
| "step": 593 |
| }, |
| { |
| "epoch": 196.76, |
| "learning_rate": 1.2239583333333334e-05, |
| "loss": 0.2224, |
| "step": 596 |
| }, |
| { |
| "epoch": 197.73, |
| "learning_rate": 1.2200520833333334e-05, |
| "loss": 0.2175, |
| "step": 599 |
| }, |
| { |
| "epoch": 198.7, |
| "learning_rate": 1.2161458333333334e-05, |
| "loss": 0.2191, |
| "step": 602 |
| }, |
| { |
| "epoch": 200.0, |
| "learning_rate": 1.2109375000000001e-05, |
| "loss": 0.1639, |
| "step": 606 |
| }, |
| { |
| "epoch": 200.97, |
| "learning_rate": 1.2070312500000001e-05, |
| "loss": 0.2124, |
| "step": 609 |
| }, |
| { |
| "epoch": 201.95, |
| "learning_rate": 1.2031250000000001e-05, |
| "loss": 0.2076, |
| "step": 612 |
| }, |
| { |
| "epoch": 202.92, |
| "learning_rate": 1.1992187500000001e-05, |
| "loss": 0.2042, |
| "step": 615 |
| }, |
| { |
| "epoch": 203.89, |
| "learning_rate": 1.1953125000000001e-05, |
| "loss": 0.2005, |
| "step": 618 |
| }, |
| { |
| "epoch": 204.86, |
| "learning_rate": 1.19140625e-05, |
| "loss": 0.1983, |
| "step": 621 |
| }, |
| { |
| "epoch": 205.84, |
| "learning_rate": 1.1875e-05, |
| "loss": 0.194, |
| "step": 624 |
| }, |
| { |
| "epoch": 206.81, |
| "learning_rate": 1.18359375e-05, |
| "loss": 0.1901, |
| "step": 627 |
| }, |
| { |
| "epoch": 207.78, |
| "learning_rate": 1.1796875e-05, |
| "loss": 0.1886, |
| "step": 630 |
| }, |
| { |
| "epoch": 208.76, |
| "learning_rate": 1.17578125e-05, |
| "loss": 0.1817, |
| "step": 633 |
| }, |
| { |
| "epoch": 209.73, |
| "learning_rate": 1.171875e-05, |
| "loss": 0.1841, |
| "step": 636 |
| }, |
| { |
| "epoch": 210.7, |
| "learning_rate": 1.16796875e-05, |
| "loss": 0.1769, |
| "step": 639 |
| }, |
| { |
| "epoch": 212.0, |
| "learning_rate": 1.1627604166666668e-05, |
| "loss": 0.1352, |
| "step": 643 |
| }, |
| { |
| "epoch": 212.97, |
| "learning_rate": 1.1588541666666668e-05, |
| "loss": 0.1765, |
| "step": 646 |
| }, |
| { |
| "epoch": 213.95, |
| "learning_rate": 1.1549479166666668e-05, |
| "loss": 0.1696, |
| "step": 649 |
| }, |
| { |
| "epoch": 214.92, |
| "learning_rate": 1.151041666666667e-05, |
| "loss": 0.1679, |
| "step": 652 |
| }, |
| { |
| "epoch": 215.89, |
| "learning_rate": 1.1471354166666669e-05, |
| "loss": 0.1609, |
| "step": 655 |
| }, |
| { |
| "epoch": 216.86, |
| "learning_rate": 1.1432291666666669e-05, |
| "loss": 0.1633, |
| "step": 658 |
| }, |
| { |
| "epoch": 217.84, |
| "learning_rate": 1.1393229166666669e-05, |
| "loss": 0.1616, |
| "step": 661 |
| }, |
| { |
| "epoch": 218.81, |
| "learning_rate": 1.1354166666666669e-05, |
| "loss": 0.1589, |
| "step": 664 |
| }, |
| { |
| "epoch": 219.78, |
| "learning_rate": 1.1315104166666669e-05, |
| "loss": 0.158, |
| "step": 667 |
| }, |
| { |
| "epoch": 220.76, |
| "learning_rate": 1.1276041666666669e-05, |
| "loss": 0.1544, |
| "step": 670 |
| }, |
| { |
| "epoch": 221.73, |
| "learning_rate": 1.1236979166666668e-05, |
| "loss": 0.154, |
| "step": 673 |
| }, |
| { |
| "epoch": 222.7, |
| "learning_rate": 1.1197916666666668e-05, |
| "loss": 0.1516, |
| "step": 676 |
| }, |
| { |
| "epoch": 224.0, |
| "learning_rate": 1.1145833333333334e-05, |
| "loss": 0.1152, |
| "step": 680 |
| }, |
| { |
| "epoch": 224.97, |
| "learning_rate": 1.1106770833333334e-05, |
| "loss": 0.1516, |
| "step": 683 |
| }, |
| { |
| "epoch": 225.95, |
| "learning_rate": 1.1067708333333334e-05, |
| "loss": 0.145, |
| "step": 686 |
| }, |
| { |
| "epoch": 226.92, |
| "learning_rate": 1.1028645833333334e-05, |
| "loss": 0.1455, |
| "step": 689 |
| }, |
| { |
| "epoch": 227.89, |
| "learning_rate": 1.0989583333333334e-05, |
| "loss": 0.1437, |
| "step": 692 |
| }, |
| { |
| "epoch": 228.86, |
| "learning_rate": 1.0950520833333334e-05, |
| "loss": 0.1409, |
| "step": 695 |
| }, |
| { |
| "epoch": 229.84, |
| "learning_rate": 1.0911458333333334e-05, |
| "loss": 0.1452, |
| "step": 698 |
| }, |
| { |
| "epoch": 230.81, |
| "learning_rate": 1.0872395833333334e-05, |
| "loss": 0.1366, |
| "step": 701 |
| }, |
| { |
| "epoch": 231.78, |
| "learning_rate": 1.0833333333333334e-05, |
| "loss": 0.1367, |
| "step": 704 |
| }, |
| { |
| "epoch": 232.76, |
| "learning_rate": 1.0794270833333333e-05, |
| "loss": 0.1357, |
| "step": 707 |
| }, |
| { |
| "epoch": 233.73, |
| "learning_rate": 1.0755208333333333e-05, |
| "loss": 0.1342, |
| "step": 710 |
| }, |
| { |
| "epoch": 234.7, |
| "learning_rate": 1.0716145833333333e-05, |
| "loss": 0.1276, |
| "step": 713 |
| }, |
| { |
| "epoch": 236.0, |
| "learning_rate": 1.0664062500000001e-05, |
| "loss": 0.0974, |
| "step": 717 |
| }, |
| { |
| "epoch": 236.97, |
| "learning_rate": 1.0625e-05, |
| "loss": 0.1325, |
| "step": 720 |
| }, |
| { |
| "epoch": 237.95, |
| "learning_rate": 1.05859375e-05, |
| "loss": 0.1266, |
| "step": 723 |
| }, |
| { |
| "epoch": 238.92, |
| "learning_rate": 1.0546875e-05, |
| "loss": 0.1237, |
| "step": 726 |
| }, |
| { |
| "epoch": 239.89, |
| "learning_rate": 1.05078125e-05, |
| "loss": 0.1258, |
| "step": 729 |
| }, |
| { |
| "epoch": 240.86, |
| "learning_rate": 1.046875e-05, |
| "loss": 0.123, |
| "step": 732 |
| }, |
| { |
| "epoch": 241.84, |
| "learning_rate": 1.04296875e-05, |
| "loss": 0.1228, |
| "step": 735 |
| }, |
| { |
| "epoch": 242.81, |
| "learning_rate": 1.0390625e-05, |
| "loss": 0.12, |
| "step": 738 |
| }, |
| { |
| "epoch": 243.78, |
| "learning_rate": 1.03515625e-05, |
| "loss": 0.1174, |
| "step": 741 |
| }, |
| { |
| "epoch": 244.76, |
| "learning_rate": 1.0312500000000002e-05, |
| "loss": 0.118, |
| "step": 744 |
| }, |
| { |
| "epoch": 245.73, |
| "learning_rate": 1.0273437500000002e-05, |
| "loss": 0.1157, |
| "step": 747 |
| }, |
| { |
| "epoch": 246.7, |
| "learning_rate": 1.0234375000000001e-05, |
| "loss": 0.115, |
| "step": 750 |
| }, |
| { |
| "epoch": 248.0, |
| "learning_rate": 1.0182291666666667e-05, |
| "loss": 0.0826, |
| "step": 754 |
| }, |
| { |
| "epoch": 248.97, |
| "learning_rate": 1.0143229166666669e-05, |
| "loss": 0.1094, |
| "step": 757 |
| }, |
| { |
| "epoch": 249.95, |
| "learning_rate": 1.0104166666666669e-05, |
| "loss": 0.1094, |
| "step": 760 |
| }, |
| { |
| "epoch": 250.92, |
| "learning_rate": 1.0065104166666669e-05, |
| "loss": 0.111, |
| "step": 763 |
| }, |
| { |
| "epoch": 251.89, |
| "learning_rate": 1.0026041666666669e-05, |
| "loss": 0.1056, |
| "step": 766 |
| }, |
| { |
| "epoch": 252.86, |
| "learning_rate": 9.986979166666667e-06, |
| "loss": 0.1076, |
| "step": 769 |
| }, |
| { |
| "epoch": 253.84, |
| "learning_rate": 9.947916666666667e-06, |
| "loss": 0.1031, |
| "step": 772 |
| }, |
| { |
| "epoch": 254.81, |
| "learning_rate": 9.908854166666667e-06, |
| "loss": 0.1084, |
| "step": 775 |
| }, |
| { |
| "epoch": 255.78, |
| "learning_rate": 9.869791666666667e-06, |
| "loss": 0.1043, |
| "step": 778 |
| }, |
| { |
| "epoch": 256.76, |
| "learning_rate": 9.830729166666666e-06, |
| "loss": 0.0984, |
| "step": 781 |
| }, |
| { |
| "epoch": 257.73, |
| "learning_rate": 9.791666666666666e-06, |
| "loss": 0.098, |
| "step": 784 |
| }, |
| { |
| "epoch": 258.7, |
| "learning_rate": 9.752604166666666e-06, |
| "loss": 0.1013, |
| "step": 787 |
| }, |
| { |
| "epoch": 260.0, |
| "learning_rate": 9.700520833333334e-06, |
| "loss": 0.0743, |
| "step": 791 |
| }, |
| { |
| "epoch": 260.97, |
| "learning_rate": 9.661458333333334e-06, |
| "loss": 0.0947, |
| "step": 794 |
| }, |
| { |
| "epoch": 261.95, |
| "learning_rate": 9.622395833333334e-06, |
| "loss": 0.0965, |
| "step": 797 |
| }, |
| { |
| "epoch": 262.92, |
| "learning_rate": 9.583333333333335e-06, |
| "loss": 0.0947, |
| "step": 800 |
| }, |
| { |
| "epoch": 263.89, |
| "learning_rate": 9.544270833333335e-06, |
| "loss": 0.0952, |
| "step": 803 |
| }, |
| { |
| "epoch": 264.86, |
| "learning_rate": 9.505208333333335e-06, |
| "loss": 0.0896, |
| "step": 806 |
| }, |
| { |
| "epoch": 265.84, |
| "learning_rate": 9.466145833333335e-06, |
| "loss": 0.0891, |
| "step": 809 |
| }, |
| { |
| "epoch": 266.81, |
| "learning_rate": 9.427083333333335e-06, |
| "loss": 0.0939, |
| "step": 812 |
| }, |
| { |
| "epoch": 267.78, |
| "learning_rate": 9.388020833333335e-06, |
| "loss": 0.0911, |
| "step": 815 |
| }, |
| { |
| "epoch": 268.76, |
| "learning_rate": 9.348958333333335e-06, |
| "loss": 0.0882, |
| "step": 818 |
| }, |
| { |
| "epoch": 269.73, |
| "learning_rate": 9.309895833333335e-06, |
| "loss": 0.0903, |
| "step": 821 |
| }, |
| { |
| "epoch": 270.7, |
| "learning_rate": 9.270833333333334e-06, |
| "loss": 0.0869, |
| "step": 824 |
| }, |
| { |
| "epoch": 272.0, |
| "learning_rate": 9.21875e-06, |
| "loss": 0.0664, |
| "step": 828 |
| }, |
| { |
| "epoch": 272.97, |
| "learning_rate": 9.1796875e-06, |
| "loss": 0.0868, |
| "step": 831 |
| }, |
| { |
| "epoch": 273.95, |
| "learning_rate": 9.140625e-06, |
| "loss": 0.0867, |
| "step": 834 |
| }, |
| { |
| "epoch": 274.92, |
| "learning_rate": 9.1015625e-06, |
| "loss": 0.0858, |
| "step": 837 |
| }, |
| { |
| "epoch": 275.89, |
| "learning_rate": 9.0625e-06, |
| "loss": 0.0842, |
| "step": 840 |
| }, |
| { |
| "epoch": 276.86, |
| "learning_rate": 9.0234375e-06, |
| "loss": 0.0869, |
| "step": 843 |
| }, |
| { |
| "epoch": 277.84, |
| "learning_rate": 8.984375000000002e-06, |
| "loss": 0.0803, |
| "step": 846 |
| }, |
| { |
| "epoch": 278.81, |
| "learning_rate": 8.945312500000001e-06, |
| "loss": 0.0813, |
| "step": 849 |
| }, |
| { |
| "epoch": 279.78, |
| "learning_rate": 8.906250000000001e-06, |
| "loss": 0.084, |
| "step": 852 |
| }, |
| { |
| "epoch": 280.76, |
| "learning_rate": 8.867187500000001e-06, |
| "loss": 0.0814, |
| "step": 855 |
| }, |
| { |
| "epoch": 281.73, |
| "learning_rate": 8.828125000000001e-06, |
| "loss": 0.0782, |
| "step": 858 |
| }, |
| { |
| "epoch": 282.7, |
| "learning_rate": 8.789062500000001e-06, |
| "loss": 0.0803, |
| "step": 861 |
| }, |
| { |
| "epoch": 284.0, |
| "learning_rate": 8.736979166666667e-06, |
| "loss": 0.0596, |
| "step": 865 |
| }, |
| { |
| "epoch": 284.97, |
| "learning_rate": 8.697916666666667e-06, |
| "loss": 0.0787, |
| "step": 868 |
| }, |
| { |
| "epoch": 285.95, |
| "learning_rate": 8.658854166666667e-06, |
| "loss": 0.0748, |
| "step": 871 |
| }, |
| { |
| "epoch": 286.92, |
| "learning_rate": 8.619791666666667e-06, |
| "loss": 0.0816, |
| "step": 874 |
| }, |
| { |
| "epoch": 287.89, |
| "learning_rate": 8.580729166666667e-06, |
| "loss": 0.0776, |
| "step": 877 |
| }, |
| { |
| "epoch": 288.86, |
| "learning_rate": 8.541666666666666e-06, |
| "loss": 0.0749, |
| "step": 880 |
| }, |
| { |
| "epoch": 289.84, |
| "learning_rate": 8.502604166666666e-06, |
| "loss": 0.0795, |
| "step": 883 |
| }, |
| { |
| "epoch": 290.81, |
| "learning_rate": 8.463541666666666e-06, |
| "loss": 0.075, |
| "step": 886 |
| }, |
| { |
| "epoch": 291.78, |
| "learning_rate": 8.424479166666666e-06, |
| "loss": 0.0756, |
| "step": 889 |
| }, |
| { |
| "epoch": 292.76, |
| "learning_rate": 8.385416666666668e-06, |
| "loss": 0.0755, |
| "step": 892 |
| }, |
| { |
| "epoch": 293.73, |
| "learning_rate": 8.346354166666668e-06, |
| "loss": 0.0721, |
| "step": 895 |
| }, |
| { |
| "epoch": 294.7, |
| "learning_rate": 8.307291666666668e-06, |
| "loss": 0.0745, |
| "step": 898 |
| }, |
| { |
| "epoch": 296.0, |
| "learning_rate": 8.255208333333335e-06, |
| "loss": 0.0535, |
| "step": 902 |
| }, |
| { |
| "epoch": 296.97, |
| "learning_rate": 8.216145833333335e-06, |
| "loss": 0.0743, |
| "step": 905 |
| }, |
| { |
| "epoch": 297.95, |
| "learning_rate": 8.177083333333335e-06, |
| "loss": 0.0756, |
| "step": 908 |
| }, |
| { |
| "epoch": 298.92, |
| "learning_rate": 8.138020833333335e-06, |
| "loss": 0.0728, |
| "step": 911 |
| }, |
| { |
| "epoch": 299.89, |
| "learning_rate": 8.098958333333335e-06, |
| "loss": 0.0744, |
| "step": 914 |
| }, |
| { |
| "epoch": 300.86, |
| "learning_rate": 8.059895833333335e-06, |
| "loss": 0.0713, |
| "step": 917 |
| }, |
| { |
| "epoch": 301.84, |
| "learning_rate": 8.020833333333335e-06, |
| "loss": 0.0707, |
| "step": 920 |
| }, |
| { |
| "epoch": 302.81, |
| "learning_rate": 7.981770833333335e-06, |
| "loss": 0.0715, |
| "step": 923 |
| }, |
| { |
| "epoch": 303.78, |
| "learning_rate": 7.942708333333334e-06, |
| "loss": 0.0686, |
| "step": 926 |
| }, |
| { |
| "epoch": 304.76, |
| "learning_rate": 7.903645833333334e-06, |
| "loss": 0.0691, |
| "step": 929 |
| }, |
| { |
| "epoch": 305.73, |
| "learning_rate": 7.864583333333334e-06, |
| "loss": 0.0682, |
| "step": 932 |
| }, |
| { |
| "epoch": 306.7, |
| "learning_rate": 7.825520833333334e-06, |
| "loss": 0.0701, |
| "step": 935 |
| }, |
| { |
| "epoch": 308.0, |
| "learning_rate": 7.7734375e-06, |
| "loss": 0.0488, |
| "step": 939 |
| }, |
| { |
| "epoch": 308.97, |
| "learning_rate": 7.734375e-06, |
| "loss": 0.0689, |
| "step": 942 |
| }, |
| { |
| "epoch": 309.95, |
| "learning_rate": 7.6953125e-06, |
| "loss": 0.0685, |
| "step": 945 |
| }, |
| { |
| "epoch": 310.92, |
| "learning_rate": 7.656250000000001e-06, |
| "loss": 0.0688, |
| "step": 948 |
| }, |
| { |
| "epoch": 311.89, |
| "learning_rate": 7.6171875000000005e-06, |
| "loss": 0.0685, |
| "step": 951 |
| }, |
| { |
| "epoch": 312.86, |
| "learning_rate": 7.578125e-06, |
| "loss": 0.0688, |
| "step": 954 |
| }, |
| { |
| "epoch": 313.84, |
| "learning_rate": 7.5390625e-06, |
| "loss": 0.0656, |
| "step": 957 |
| }, |
| { |
| "epoch": 314.81, |
| "learning_rate": 7.500000000000001e-06, |
| "loss": 0.0666, |
| "step": 960 |
| }, |
| { |
| "epoch": 315.78, |
| "learning_rate": 7.460937500000001e-06, |
| "loss": 0.0666, |
| "step": 963 |
| }, |
| { |
| "epoch": 316.76, |
| "learning_rate": 7.421875000000001e-06, |
| "loss": 0.0681, |
| "step": 966 |
| }, |
| { |
| "epoch": 317.73, |
| "learning_rate": 7.382812500000001e-06, |
| "loss": 0.0649, |
| "step": 969 |
| }, |
| { |
| "epoch": 318.7, |
| "learning_rate": 7.343750000000001e-06, |
| "loss": 0.0671, |
| "step": 972 |
| }, |
| { |
| "epoch": 320.0, |
| "learning_rate": 7.291666666666667e-06, |
| "loss": 0.0516, |
| "step": 976 |
| }, |
| { |
| "epoch": 320.97, |
| "learning_rate": 7.2526041666666665e-06, |
| "loss": 0.0644, |
| "step": 979 |
| }, |
| { |
| "epoch": 321.95, |
| "learning_rate": 7.213541666666667e-06, |
| "loss": 0.0652, |
| "step": 982 |
| }, |
| { |
| "epoch": 322.92, |
| "learning_rate": 7.174479166666667e-06, |
| "loss": 0.0658, |
| "step": 985 |
| }, |
| { |
| "epoch": 323.89, |
| "learning_rate": 7.135416666666667e-06, |
| "loss": 0.063, |
| "step": 988 |
| }, |
| { |
| "epoch": 324.86, |
| "learning_rate": 7.096354166666667e-06, |
| "loss": 0.0616, |
| "step": 991 |
| }, |
| { |
| "epoch": 325.84, |
| "learning_rate": 7.057291666666667e-06, |
| "loss": 0.0639, |
| "step": 994 |
| }, |
| { |
| "epoch": 326.81, |
| "learning_rate": 7.018229166666667e-06, |
| "loss": 0.0622, |
| "step": 997 |
| }, |
| { |
| "epoch": 327.78, |
| "learning_rate": 6.979166666666667e-06, |
| "loss": 0.0654, |
| "step": 1000 |
| }, |
| { |
| "epoch": 328.76, |
| "learning_rate": 6.9401041666666665e-06, |
| "loss": 0.0629, |
| "step": 1003 |
| }, |
| { |
| "epoch": 329.73, |
| "learning_rate": 6.901041666666667e-06, |
| "loss": 0.0625, |
| "step": 1006 |
| }, |
| { |
| "epoch": 330.7, |
| "learning_rate": 6.861979166666667e-06, |
| "loss": 0.0655, |
| "step": 1009 |
| }, |
| { |
| "epoch": 332.0, |
| "learning_rate": 6.809895833333334e-06, |
| "loss": 0.0468, |
| "step": 1013 |
| }, |
| { |
| "epoch": 332.97, |
| "learning_rate": 6.770833333333334e-06, |
| "loss": 0.0653, |
| "step": 1016 |
| }, |
| { |
| "epoch": 333.95, |
| "learning_rate": 6.731770833333335e-06, |
| "loss": 0.0632, |
| "step": 1019 |
| }, |
| { |
| "epoch": 334.92, |
| "learning_rate": 6.6927083333333345e-06, |
| "loss": 0.0603, |
| "step": 1022 |
| }, |
| { |
| "epoch": 335.89, |
| "learning_rate": 6.653645833333334e-06, |
| "loss": 0.0636, |
| "step": 1025 |
| }, |
| { |
| "epoch": 336.86, |
| "learning_rate": 6.614583333333334e-06, |
| "loss": 0.061, |
| "step": 1028 |
| }, |
| { |
| "epoch": 337.84, |
| "learning_rate": 6.575520833333334e-06, |
| "loss": 0.0626, |
| "step": 1031 |
| }, |
| { |
| "epoch": 338.81, |
| "learning_rate": 6.536458333333334e-06, |
| "loss": 0.0646, |
| "step": 1034 |
| }, |
| { |
| "epoch": 339.78, |
| "learning_rate": 6.497395833333334e-06, |
| "loss": 0.0613, |
| "step": 1037 |
| }, |
| { |
| "epoch": 340.76, |
| "learning_rate": 6.458333333333334e-06, |
| "loss": 0.0645, |
| "step": 1040 |
| }, |
| { |
| "epoch": 341.73, |
| "learning_rate": 6.419270833333335e-06, |
| "loss": 0.0607, |
| "step": 1043 |
| }, |
| { |
| "epoch": 342.7, |
| "learning_rate": 6.3802083333333345e-06, |
| "loss": 0.0622, |
| "step": 1046 |
| }, |
| { |
| "epoch": 344.0, |
| "learning_rate": 6.3281250000000005e-06, |
| "loss": 0.0441, |
| "step": 1050 |
| }, |
| { |
| "epoch": 344.97, |
| "learning_rate": 6.2890625e-06, |
| "loss": 0.0624, |
| "step": 1053 |
| }, |
| { |
| "epoch": 345.95, |
| "learning_rate": 6.25e-06, |
| "loss": 0.0641, |
| "step": 1056 |
| }, |
| { |
| "epoch": 346.92, |
| "learning_rate": 6.2109375e-06, |
| "loss": 0.0574, |
| "step": 1059 |
| }, |
| { |
| "epoch": 347.89, |
| "learning_rate": 6.171875e-06, |
| "loss": 0.0582, |
| "step": 1062 |
| }, |
| { |
| "epoch": 348.86, |
| "learning_rate": 6.132812500000001e-06, |
| "loss": 0.0592, |
| "step": 1065 |
| }, |
| { |
| "epoch": 349.84, |
| "learning_rate": 6.093750000000001e-06, |
| "loss": 0.0607, |
| "step": 1068 |
| }, |
| { |
| "epoch": 350.81, |
| "learning_rate": 6.054687500000001e-06, |
| "loss": 0.0598, |
| "step": 1071 |
| }, |
| { |
| "epoch": 351.78, |
| "learning_rate": 6.0156250000000005e-06, |
| "loss": 0.061, |
| "step": 1074 |
| }, |
| { |
| "epoch": 352.76, |
| "learning_rate": 5.9765625000000004e-06, |
| "loss": 0.0586, |
| "step": 1077 |
| }, |
| { |
| "epoch": 353.73, |
| "learning_rate": 5.9375e-06, |
| "loss": 0.059, |
| "step": 1080 |
| }, |
| { |
| "epoch": 354.7, |
| "learning_rate": 5.8984375e-06, |
| "loss": 0.0601, |
| "step": 1083 |
| }, |
| { |
| "epoch": 356.0, |
| "learning_rate": 5.846354166666667e-06, |
| "loss": 0.0447, |
| "step": 1087 |
| }, |
| { |
| "epoch": 356.97, |
| "learning_rate": 5.807291666666667e-06, |
| "loss": 0.0611, |
| "step": 1090 |
| }, |
| { |
| "epoch": 357.95, |
| "learning_rate": 5.768229166666667e-06, |
| "loss": 0.0575, |
| "step": 1093 |
| }, |
| { |
| "epoch": 358.92, |
| "learning_rate": 5.729166666666667e-06, |
| "loss": 0.0599, |
| "step": 1096 |
| }, |
| { |
| "epoch": 359.89, |
| "learning_rate": 5.690104166666667e-06, |
| "loss": 0.0585, |
| "step": 1099 |
| }, |
| { |
| "epoch": 360.86, |
| "learning_rate": 5.6510416666666665e-06, |
| "loss": 0.0571, |
| "step": 1102 |
| }, |
| { |
| "epoch": 361.84, |
| "learning_rate": 5.611979166666666e-06, |
| "loss": 0.0573, |
| "step": 1105 |
| }, |
| { |
| "epoch": 362.81, |
| "learning_rate": 5.572916666666667e-06, |
| "loss": 0.0588, |
| "step": 1108 |
| }, |
| { |
| "epoch": 363.78, |
| "learning_rate": 5.533854166666667e-06, |
| "loss": 0.0563, |
| "step": 1111 |
| }, |
| { |
| "epoch": 364.76, |
| "learning_rate": 5.494791666666667e-06, |
| "loss": 0.0567, |
| "step": 1114 |
| }, |
| { |
| "epoch": 365.73, |
| "learning_rate": 5.455729166666667e-06, |
| "loss": 0.0578, |
| "step": 1117 |
| }, |
| { |
| "epoch": 366.7, |
| "learning_rate": 5.416666666666667e-06, |
| "loss": 0.0579, |
| "step": 1120 |
| }, |
| { |
| "epoch": 368.0, |
| "learning_rate": 5.364583333333334e-06, |
| "loss": 0.0417, |
| "step": 1124 |
| }, |
| { |
| "epoch": 368.97, |
| "learning_rate": 5.325520833333334e-06, |
| "loss": 0.0563, |
| "step": 1127 |
| }, |
| { |
| "epoch": 369.95, |
| "learning_rate": 5.286458333333334e-06, |
| "loss": 0.0565, |
| "step": 1130 |
| }, |
| { |
| "epoch": 370.92, |
| "learning_rate": 5.247395833333334e-06, |
| "loss": 0.0558, |
| "step": 1133 |
| }, |
| { |
| "epoch": 371.89, |
| "learning_rate": 5.208333333333334e-06, |
| "loss": 0.0572, |
| "step": 1136 |
| }, |
| { |
| "epoch": 372.86, |
| "learning_rate": 5.169270833333334e-06, |
| "loss": 0.0553, |
| "step": 1139 |
| }, |
| { |
| "epoch": 373.84, |
| "learning_rate": 5.130208333333334e-06, |
| "loss": 0.0546, |
| "step": 1142 |
| }, |
| { |
| "epoch": 374.81, |
| "learning_rate": 5.091145833333334e-06, |
| "loss": 0.0582, |
| "step": 1145 |
| }, |
| { |
| "epoch": 375.78, |
| "learning_rate": 5.0520833333333344e-06, |
| "loss": 0.0545, |
| "step": 1148 |
| }, |
| { |
| "epoch": 376.76, |
| "learning_rate": 5.013020833333334e-06, |
| "loss": 0.0546, |
| "step": 1151 |
| }, |
| { |
| "epoch": 377.73, |
| "learning_rate": 4.973958333333333e-06, |
| "loss": 0.0543, |
| "step": 1154 |
| }, |
| { |
| "epoch": 378.7, |
| "learning_rate": 4.934895833333333e-06, |
| "loss": 0.0543, |
| "step": 1157 |
| }, |
| { |
| "epoch": 380.0, |
| "learning_rate": 4.8828125e-06, |
| "loss": 0.0405, |
| "step": 1161 |
| }, |
| { |
| "epoch": 380.97, |
| "learning_rate": 4.84375e-06, |
| "loss": 0.0553, |
| "step": 1164 |
| }, |
| { |
| "epoch": 381.95, |
| "learning_rate": 4.804687500000001e-06, |
| "loss": 0.0552, |
| "step": 1167 |
| }, |
| { |
| "epoch": 382.92, |
| "learning_rate": 4.765625000000001e-06, |
| "loss": 0.0567, |
| "step": 1170 |
| }, |
| { |
| "epoch": 383.89, |
| "learning_rate": 4.7265625000000005e-06, |
| "loss": 0.056, |
| "step": 1173 |
| }, |
| { |
| "epoch": 384.86, |
| "learning_rate": 4.6875000000000004e-06, |
| "loss": 0.0547, |
| "step": 1176 |
| }, |
| { |
| "epoch": 385.84, |
| "learning_rate": 4.6484375e-06, |
| "loss": 0.0559, |
| "step": 1179 |
| }, |
| { |
| "epoch": 386.81, |
| "learning_rate": 4.609375e-06, |
| "loss": 0.0551, |
| "step": 1182 |
| }, |
| { |
| "epoch": 387.78, |
| "learning_rate": 4.5703125e-06, |
| "loss": 0.0546, |
| "step": 1185 |
| }, |
| { |
| "epoch": 388.76, |
| "learning_rate": 4.53125e-06, |
| "loss": 0.0529, |
| "step": 1188 |
| }, |
| { |
| "epoch": 389.73, |
| "learning_rate": 4.492187500000001e-06, |
| "loss": 0.054, |
| "step": 1191 |
| }, |
| { |
| "epoch": 390.7, |
| "learning_rate": 4.453125000000001e-06, |
| "loss": 0.0554, |
| "step": 1194 |
| }, |
| { |
| "epoch": 392.0, |
| "learning_rate": 4.4010416666666675e-06, |
| "loss": 0.042, |
| "step": 1198 |
| }, |
| { |
| "epoch": 392.97, |
| "learning_rate": 4.361979166666667e-06, |
| "loss": 0.0556, |
| "step": 1201 |
| }, |
| { |
| "epoch": 393.95, |
| "learning_rate": 4.322916666666667e-06, |
| "loss": 0.0553, |
| "step": 1204 |
| }, |
| { |
| "epoch": 394.92, |
| "learning_rate": 4.283854166666667e-06, |
| "loss": 0.053, |
| "step": 1207 |
| }, |
| { |
| "epoch": 395.89, |
| "learning_rate": 4.244791666666667e-06, |
| "loss": 0.056, |
| "step": 1210 |
| }, |
| { |
| "epoch": 396.86, |
| "learning_rate": 4.205729166666667e-06, |
| "loss": 0.054, |
| "step": 1213 |
| }, |
| { |
| "epoch": 397.84, |
| "learning_rate": 4.166666666666667e-06, |
| "loss": 0.0555, |
| "step": 1216 |
| }, |
| { |
| "epoch": 398.81, |
| "learning_rate": 4.127604166666668e-06, |
| "loss": 0.0555, |
| "step": 1219 |
| }, |
| { |
| "epoch": 399.78, |
| "learning_rate": 4.0885416666666675e-06, |
| "loss": 0.0547, |
| "step": 1222 |
| }, |
| { |
| "epoch": 400.76, |
| "learning_rate": 4.049479166666667e-06, |
| "loss": 0.052, |
| "step": 1225 |
| }, |
| { |
| "epoch": 401.73, |
| "learning_rate": 4.010416666666667e-06, |
| "loss": 0.0535, |
| "step": 1228 |
| }, |
| { |
| "epoch": 402.7, |
| "learning_rate": 3.971354166666667e-06, |
| "loss": 0.0544, |
| "step": 1231 |
| }, |
| { |
| "epoch": 404.0, |
| "learning_rate": 3.919270833333333e-06, |
| "loss": 0.0404, |
| "step": 1235 |
| }, |
| { |
| "epoch": 404.97, |
| "learning_rate": 3.880208333333333e-06, |
| "loss": 0.0525, |
| "step": 1238 |
| }, |
| { |
| "epoch": 405.95, |
| "learning_rate": 3.841145833333334e-06, |
| "loss": 0.0552, |
| "step": 1241 |
| }, |
| { |
| "epoch": 406.92, |
| "learning_rate": 3.8020833333333333e-06, |
| "loss": 0.0544, |
| "step": 1244 |
| }, |
| { |
| "epoch": 407.89, |
| "learning_rate": 3.7630208333333336e-06, |
| "loss": 0.0529, |
| "step": 1247 |
| }, |
| { |
| "epoch": 408.86, |
| "learning_rate": 3.7239583333333335e-06, |
| "loss": 0.0538, |
| "step": 1250 |
| }, |
| { |
| "epoch": 409.84, |
| "learning_rate": 3.6848958333333334e-06, |
| "loss": 0.052, |
| "step": 1253 |
| }, |
| { |
| "epoch": 410.81, |
| "learning_rate": 3.6458333333333333e-06, |
| "loss": 0.0525, |
| "step": 1256 |
| }, |
| { |
| "epoch": 411.78, |
| "learning_rate": 3.6067708333333336e-06, |
| "loss": 0.0524, |
| "step": 1259 |
| }, |
| { |
| "epoch": 412.76, |
| "learning_rate": 3.5677083333333335e-06, |
| "loss": 0.0511, |
| "step": 1262 |
| }, |
| { |
| "epoch": 413.73, |
| "learning_rate": 3.5286458333333334e-06, |
| "loss": 0.0539, |
| "step": 1265 |
| }, |
| { |
| "epoch": 414.7, |
| "learning_rate": 3.4895833333333333e-06, |
| "loss": 0.0529, |
| "step": 1268 |
| }, |
| { |
| "epoch": 416.0, |
| "learning_rate": 3.4375e-06, |
| "loss": 0.0408, |
| "step": 1272 |
| }, |
| { |
| "epoch": 416.97, |
| "learning_rate": 3.3984375000000004e-06, |
| "loss": 0.0541, |
| "step": 1275 |
| }, |
| { |
| "epoch": 417.95, |
| "learning_rate": 3.3593750000000003e-06, |
| "loss": 0.0511, |
| "step": 1278 |
| }, |
| { |
| "epoch": 418.92, |
| "learning_rate": 3.3203125000000002e-06, |
| "loss": 0.0499, |
| "step": 1281 |
| }, |
| { |
| "epoch": 419.89, |
| "learning_rate": 3.28125e-06, |
| "loss": 0.0512, |
| "step": 1284 |
| }, |
| { |
| "epoch": 420.86, |
| "learning_rate": 3.2421875000000005e-06, |
| "loss": 0.0531, |
| "step": 1287 |
| }, |
| { |
| "epoch": 421.84, |
| "learning_rate": 3.2031250000000004e-06, |
| "loss": 0.0532, |
| "step": 1290 |
| }, |
| { |
| "epoch": 422.81, |
| "learning_rate": 3.1640625000000003e-06, |
| "loss": 0.0519, |
| "step": 1293 |
| }, |
| { |
| "epoch": 423.78, |
| "learning_rate": 3.125e-06, |
| "loss": 0.0521, |
| "step": 1296 |
| }, |
| { |
| "epoch": 424.76, |
| "learning_rate": 3.0859375e-06, |
| "loss": 0.0535, |
| "step": 1299 |
| }, |
| { |
| "epoch": 425.73, |
| "learning_rate": 3.0468750000000004e-06, |
| "loss": 0.0506, |
| "step": 1302 |
| }, |
| { |
| "epoch": 426.7, |
| "learning_rate": 3.0078125000000003e-06, |
| "loss": 0.0522, |
| "step": 1305 |
| }, |
| { |
| "epoch": 428.0, |
| "learning_rate": 2.955729166666667e-06, |
| "loss": 0.0392, |
| "step": 1309 |
| }, |
| { |
| "epoch": 428.97, |
| "learning_rate": 2.916666666666667e-06, |
| "loss": 0.0522, |
| "step": 1312 |
| }, |
| { |
| "epoch": 429.95, |
| "learning_rate": 2.8776041666666673e-06, |
| "loss": 0.0532, |
| "step": 1315 |
| }, |
| { |
| "epoch": 430.92, |
| "learning_rate": 2.838541666666667e-06, |
| "loss": 0.051, |
| "step": 1318 |
| }, |
| { |
| "epoch": 431.89, |
| "learning_rate": 2.799479166666667e-06, |
| "loss": 0.0537, |
| "step": 1321 |
| }, |
| { |
| "epoch": 432.86, |
| "learning_rate": 2.760416666666667e-06, |
| "loss": 0.0508, |
| "step": 1324 |
| }, |
| { |
| "epoch": 433.84, |
| "learning_rate": 2.721354166666667e-06, |
| "loss": 0.0518, |
| "step": 1327 |
| }, |
| { |
| "epoch": 434.81, |
| "learning_rate": 2.682291666666667e-06, |
| "loss": 0.052, |
| "step": 1330 |
| }, |
| { |
| "epoch": 435.78, |
| "learning_rate": 2.643229166666667e-06, |
| "loss": 0.054, |
| "step": 1333 |
| }, |
| { |
| "epoch": 436.76, |
| "learning_rate": 2.604166666666667e-06, |
| "loss": 0.0495, |
| "step": 1336 |
| }, |
| { |
| "epoch": 437.73, |
| "learning_rate": 2.565104166666667e-06, |
| "loss": 0.0523, |
| "step": 1339 |
| }, |
| { |
| "epoch": 438.7, |
| "learning_rate": 2.5260416666666672e-06, |
| "loss": 0.0517, |
| "step": 1342 |
| }, |
| { |
| "epoch": 440.0, |
| "learning_rate": 2.4739583333333336e-06, |
| "loss": 0.0382, |
| "step": 1346 |
| }, |
| { |
| "epoch": 440.97, |
| "learning_rate": 2.4348958333333335e-06, |
| "loss": 0.0524, |
| "step": 1349 |
| }, |
| { |
| "epoch": 441.95, |
| "learning_rate": 2.395833333333334e-06, |
| "loss": 0.0524, |
| "step": 1352 |
| }, |
| { |
| "epoch": 442.92, |
| "learning_rate": 2.3567708333333337e-06, |
| "loss": 0.0539, |
| "step": 1355 |
| }, |
| { |
| "epoch": 443.89, |
| "learning_rate": 2.3177083333333336e-06, |
| "loss": 0.05, |
| "step": 1358 |
| }, |
| { |
| "epoch": 444.86, |
| "learning_rate": 2.2786458333333335e-06, |
| "loss": 0.0507, |
| "step": 1361 |
| }, |
| { |
| "epoch": 445.84, |
| "learning_rate": 2.2395833333333334e-06, |
| "loss": 0.0505, |
| "step": 1364 |
| }, |
| { |
| "epoch": 446.81, |
| "learning_rate": 2.2005208333333337e-06, |
| "loss": 0.0518, |
| "step": 1367 |
| }, |
| { |
| "epoch": 447.78, |
| "learning_rate": 2.1614583333333336e-06, |
| "loss": 0.0509, |
| "step": 1370 |
| }, |
| { |
| "epoch": 448.76, |
| "learning_rate": 2.1223958333333335e-06, |
| "loss": 0.0504, |
| "step": 1373 |
| }, |
| { |
| "epoch": 449.73, |
| "learning_rate": 2.0833333333333334e-06, |
| "loss": 0.0498, |
| "step": 1376 |
| }, |
| { |
| "epoch": 450.7, |
| "learning_rate": 2.0442708333333338e-06, |
| "loss": 0.0518, |
| "step": 1379 |
| }, |
| { |
| "epoch": 452.0, |
| "learning_rate": 1.9921875e-06, |
| "loss": 0.0389, |
| "step": 1383 |
| }, |
| { |
| "epoch": 452.97, |
| "learning_rate": 1.953125e-06, |
| "loss": 0.0512, |
| "step": 1386 |
| }, |
| { |
| "epoch": 453.95, |
| "learning_rate": 1.9140625000000004e-06, |
| "loss": 0.0509, |
| "step": 1389 |
| }, |
| { |
| "epoch": 454.92, |
| "learning_rate": 1.8750000000000003e-06, |
| "loss": 0.0532, |
| "step": 1392 |
| }, |
| { |
| "epoch": 455.89, |
| "learning_rate": 1.8359375000000002e-06, |
| "loss": 0.0498, |
| "step": 1395 |
| }, |
| { |
| "epoch": 456.86, |
| "learning_rate": 1.796875e-06, |
| "loss": 0.05, |
| "step": 1398 |
| }, |
| { |
| "epoch": 457.84, |
| "learning_rate": 1.7578125000000002e-06, |
| "loss": 0.0526, |
| "step": 1401 |
| }, |
| { |
| "epoch": 458.81, |
| "learning_rate": 1.71875e-06, |
| "loss": 0.0514, |
| "step": 1404 |
| }, |
| { |
| "epoch": 459.78, |
| "learning_rate": 1.6796875000000002e-06, |
| "loss": 0.0529, |
| "step": 1407 |
| }, |
| { |
| "epoch": 460.76, |
| "learning_rate": 1.640625e-06, |
| "loss": 0.0501, |
| "step": 1410 |
| }, |
| { |
| "epoch": 461.73, |
| "learning_rate": 1.6015625000000002e-06, |
| "loss": 0.0508, |
| "step": 1413 |
| }, |
| { |
| "epoch": 462.7, |
| "learning_rate": 1.5625e-06, |
| "loss": 0.0509, |
| "step": 1416 |
| }, |
| { |
| "epoch": 464.0, |
| "learning_rate": 1.5104166666666667e-06, |
| "loss": 0.0385, |
| "step": 1420 |
| }, |
| { |
| "epoch": 464.97, |
| "learning_rate": 1.4713541666666668e-06, |
| "loss": 0.0533, |
| "step": 1423 |
| }, |
| { |
| "epoch": 465.95, |
| "learning_rate": 1.4322916666666667e-06, |
| "loss": 0.0504, |
| "step": 1426 |
| }, |
| { |
| "epoch": 466.92, |
| "learning_rate": 1.3932291666666668e-06, |
| "loss": 0.0512, |
| "step": 1429 |
| }, |
| { |
| "epoch": 467.89, |
| "learning_rate": 1.3541666666666667e-06, |
| "loss": 0.0517, |
| "step": 1432 |
| }, |
| { |
| "epoch": 468.86, |
| "learning_rate": 1.3151041666666666e-06, |
| "loss": 0.0484, |
| "step": 1435 |
| }, |
| { |
| "epoch": 469.84, |
| "learning_rate": 1.2760416666666667e-06, |
| "loss": 0.0511, |
| "step": 1438 |
| }, |
| { |
| "epoch": 470.81, |
| "learning_rate": 1.2369791666666668e-06, |
| "loss": 0.0515, |
| "step": 1441 |
| }, |
| { |
| "epoch": 471.78, |
| "learning_rate": 1.197916666666667e-06, |
| "loss": 0.0506, |
| "step": 1444 |
| }, |
| { |
| "epoch": 472.76, |
| "learning_rate": 1.1588541666666668e-06, |
| "loss": 0.0515, |
| "step": 1447 |
| }, |
| { |
| "epoch": 473.73, |
| "learning_rate": 1.1197916666666667e-06, |
| "loss": 0.0501, |
| "step": 1450 |
| }, |
| { |
| "epoch": 474.7, |
| "learning_rate": 1.0807291666666668e-06, |
| "loss": 0.0523, |
| "step": 1453 |
| }, |
| { |
| "epoch": 476.0, |
| "learning_rate": 1.0286458333333334e-06, |
| "loss": 0.0373, |
| "step": 1457 |
| }, |
| { |
| "epoch": 476.97, |
| "learning_rate": 9.895833333333333e-07, |
| "loss": 0.0504, |
| "step": 1460 |
| }, |
| { |
| "epoch": 477.95, |
| "learning_rate": 9.505208333333333e-07, |
| "loss": 0.0497, |
| "step": 1463 |
| }, |
| { |
| "epoch": 478.92, |
| "learning_rate": 9.114583333333333e-07, |
| "loss": 0.0496, |
| "step": 1466 |
| }, |
| { |
| "epoch": 479.89, |
| "learning_rate": 8.723958333333333e-07, |
| "loss": 0.0526, |
| "step": 1469 |
| }, |
| { |
| "epoch": 480.86, |
| "learning_rate": 8.333333333333333e-07, |
| "loss": 0.0491, |
| "step": 1472 |
| }, |
| { |
| "epoch": 481.84, |
| "learning_rate": 7.942708333333333e-07, |
| "loss": 0.0499, |
| "step": 1475 |
| }, |
| { |
| "epoch": 482.81, |
| "learning_rate": 7.552083333333333e-07, |
| "loss": 0.0519, |
| "step": 1478 |
| }, |
| { |
| "epoch": 483.78, |
| "learning_rate": 7.161458333333333e-07, |
| "loss": 0.0499, |
| "step": 1481 |
| }, |
| { |
| "epoch": 484.76, |
| "learning_rate": 6.770833333333333e-07, |
| "loss": 0.0516, |
| "step": 1484 |
| }, |
| { |
| "epoch": 485.73, |
| "learning_rate": 6.380208333333333e-07, |
| "loss": 0.0493, |
| "step": 1487 |
| }, |
| { |
| "epoch": 486.7, |
| "learning_rate": 5.989583333333335e-07, |
| "loss": 0.0513, |
| "step": 1490 |
| }, |
| { |
| "epoch": 488.0, |
| "learning_rate": 5.468750000000001e-07, |
| "loss": 0.0381, |
| "step": 1494 |
| }, |
| { |
| "epoch": 488.97, |
| "learning_rate": 5.078125000000001e-07, |
| "loss": 0.0518, |
| "step": 1497 |
| }, |
| { |
| "epoch": 489.95, |
| "learning_rate": 4.6875000000000006e-07, |
| "loss": 0.0489, |
| "step": 1500 |
| }, |
| { |
| "epoch": 490.92, |
| "learning_rate": 4.296875e-07, |
| "loss": 0.0497, |
| "step": 1503 |
| }, |
| { |
| "epoch": 491.89, |
| "learning_rate": 3.90625e-07, |
| "loss": 0.0492, |
| "step": 1506 |
| }, |
| { |
| "epoch": 492.86, |
| "learning_rate": 3.515625e-07, |
| "loss": 0.049, |
| "step": 1509 |
| }, |
| { |
| "epoch": 493.84, |
| "learning_rate": 3.125e-07, |
| "loss": 0.0487, |
| "step": 1512 |
| }, |
| { |
| "epoch": 494.81, |
| "learning_rate": 2.7343750000000003e-07, |
| "loss": 0.0495, |
| "step": 1515 |
| }, |
| { |
| "epoch": 495.78, |
| "learning_rate": 2.3437500000000003e-07, |
| "loss": 0.049, |
| "step": 1518 |
| }, |
| { |
| "epoch": 496.76, |
| "learning_rate": 1.953125e-07, |
| "loss": 0.0505, |
| "step": 1521 |
| }, |
| { |
| "epoch": 497.73, |
| "learning_rate": 1.5625e-07, |
| "loss": 0.0518, |
| "step": 1524 |
| }, |
| { |
| "epoch": 498.7, |
| "learning_rate": 1.1718750000000002e-07, |
| "loss": 0.0477, |
| "step": 1527 |
| }, |
| { |
| "epoch": 500.0, |
| "learning_rate": 6.510416666666667e-08, |
| "loss": 0.039, |
| "step": 1531 |
| }, |
| { |
| "epoch": 500.97, |
| "learning_rate": 2.6041666666666667e-08, |
| "loss": 0.0494, |
| "step": 1534 |
| }, |
| { |
| "epoch": 501.62, |
| "learning_rate": 0.0, |
| "loss": 0.0498, |
| "step": 1536 |
| }, |
| { |
| "epoch": 501.62, |
| "step": 1536, |
| "total_flos": 1.9358620133923584e+17, |
| "train_loss": 0.10890851792161509, |
| "train_runtime": 10408.3467, |
| "train_samples_per_second": 288.507, |
| "train_steps_per_second": 0.148 |
| } |
| ], |
| "logging_steps": 500, |
| "max_steps": 1536, |
| "num_train_epochs": 512, |
| "save_steps": 500, |
| "total_flos": 1.9358620133923584e+17, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|