{ "best_metric": null, "best_model_checkpoint": null, "epoch": 501.6216216216216, "eval_steps": 500, "global_step": 1536, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.97, "learning_rate": 1.96875e-05, "loss": 3.1065, "step": 3 }, { "epoch": 1.95, "learning_rate": 1.9375e-05, "loss": 3.0384, "step": 6 }, { "epoch": 2.92, "learning_rate": 1.9062500000000003e-05, "loss": 2.9724, "step": 9 }, { "epoch": 3.89, "learning_rate": 1.8750000000000002e-05, "loss": 2.9158, "step": 12 }, { "epoch": 4.86, "learning_rate": 1.84375e-05, "loss": 2.8626, "step": 15 }, { "epoch": 5.84, "learning_rate": 1.8125e-05, "loss": 2.8132, "step": 18 }, { "epoch": 6.81, "learning_rate": 1.7812500000000003e-05, "loss": 2.7628, "step": 21 }, { "epoch": 7.78, "learning_rate": 1.7500000000000002e-05, "loss": 2.7101, "step": 24 }, { "epoch": 8.76, "learning_rate": 1.71875e-05, "loss": 2.6544, "step": 27 }, { "epoch": 9.73, "learning_rate": 1.6875e-05, "loss": 2.601, "step": 30 }, { "epoch": 10.7, "learning_rate": 1.6562500000000003e-05, "loss": 2.5435, "step": 33 }, { "epoch": 12.0, "learning_rate": 1.6145833333333334e-05, "loss": 1.8692, "step": 37 }, { "epoch": 12.97, "learning_rate": 1.5833333333333333e-05, "loss": 2.4371, "step": 40 }, { "epoch": 13.95, "learning_rate": 1.5520833333333332e-05, "loss": 2.3895, "step": 43 }, { "epoch": 14.92, "learning_rate": 1.5208333333333333e-05, "loss": 2.344, "step": 46 }, { "epoch": 15.89, "learning_rate": 1.4895833333333334e-05, "loss": 2.2952, "step": 49 }, { "epoch": 16.86, "learning_rate": 1.4583333333333333e-05, "loss": 2.2481, "step": 52 }, { "epoch": 17.84, "learning_rate": 1.4270833333333334e-05, "loss": 2.2068, "step": 55 }, { "epoch": 18.81, "learning_rate": 1.3958333333333333e-05, "loss": 2.1665, "step": 58 }, { "epoch": 19.78, "learning_rate": 1.3645833333333334e-05, "loss": 2.1258, "step": 61 }, { "epoch": 20.76, "learning_rate": 1.3333333333333333e-05, "loss": 2.0826, "step": 64 }, { "epoch": 21.73, "learning_rate": 1.3020833333333334e-05, "loss": 2.0473, "step": 67 }, { "epoch": 22.7, "learning_rate": 1.2708333333333333e-05, "loss": 2.0172, "step": 70 }, { "epoch": 24.0, "learning_rate": 1.2291666666666668e-05, "loss": 1.4875, "step": 74 }, { "epoch": 24.97, "learning_rate": 1.1979166666666669e-05, "loss": 1.9533, "step": 77 }, { "epoch": 25.95, "learning_rate": 1.1666666666666668e-05, "loss": 1.9172, "step": 80 }, { "epoch": 26.92, "learning_rate": 1.1354166666666669e-05, "loss": 1.8928, "step": 83 }, { "epoch": 27.89, "learning_rate": 1.1041666666666668e-05, "loss": 1.8566, "step": 86 }, { "epoch": 28.86, "learning_rate": 1.0729166666666669e-05, "loss": 1.8305, "step": 89 }, { "epoch": 29.84, "learning_rate": 1.0416666666666668e-05, "loss": 1.804, "step": 92 }, { "epoch": 30.81, "learning_rate": 1.0104166666666669e-05, "loss": 1.7778, "step": 95 }, { "epoch": 31.78, "learning_rate": 9.791666666666666e-06, "loss": 1.7575, "step": 98 }, { "epoch": 32.76, "learning_rate": 9.479166666666667e-06, "loss": 1.7317, "step": 101 }, { "epoch": 33.73, "learning_rate": 9.166666666666666e-06, "loss": 1.7139, "step": 104 }, { "epoch": 34.7, "learning_rate": 8.854166666666667e-06, "loss": 1.6907, "step": 107 }, { "epoch": 36.0, "learning_rate": 8.4375e-06, "loss": 1.2573, "step": 111 }, { "epoch": 36.97, "learning_rate": 8.125000000000001e-06, "loss": 1.6551, "step": 114 }, { "epoch": 37.95, "learning_rate": 7.8125e-06, "loss": 1.641, "step": 117 }, { "epoch": 38.92, "learning_rate": 7.500000000000001e-06, "loss": 1.6249, "step": 120 }, { "epoch": 39.89, "learning_rate": 7.1875e-06, "loss": 1.6099, "step": 123 }, { "epoch": 40.86, "learning_rate": 6.875e-06, "loss": 1.594, "step": 126 }, { "epoch": 41.84, "learning_rate": 6.5625e-06, "loss": 1.5781, "step": 129 }, { "epoch": 42.81, "learning_rate": 6.25e-06, "loss": 1.5634, "step": 132 }, { "epoch": 43.78, "learning_rate": 5.9375e-06, "loss": 1.5502, "step": 135 }, { "epoch": 44.76, "learning_rate": 5.625e-06, "loss": 1.5408, "step": 138 }, { "epoch": 45.73, "learning_rate": 5.3125e-06, "loss": 1.5249, "step": 141 }, { "epoch": 46.7, "learning_rate": 5e-06, "loss": 1.5144, "step": 144 }, { "epoch": 48.0, "learning_rate": 4.583333333333333e-06, "loss": 1.1303, "step": 148 }, { "epoch": 48.97, "learning_rate": 4.270833333333333e-06, "loss": 1.4962, "step": 151 }, { "epoch": 49.95, "learning_rate": 3.958333333333333e-06, "loss": 1.489, "step": 154 }, { "epoch": 50.92, "learning_rate": 3.6458333333333333e-06, "loss": 1.4794, "step": 157 }, { "epoch": 51.89, "learning_rate": 3.3333333333333333e-06, "loss": 1.4712, "step": 160 }, { "epoch": 52.86, "learning_rate": 3.0208333333333334e-06, "loss": 1.4613, "step": 163 }, { "epoch": 53.84, "learning_rate": 2.7083333333333334e-06, "loss": 1.4528, "step": 166 }, { "epoch": 54.81, "learning_rate": 2.395833333333334e-06, "loss": 1.4473, "step": 169 }, { "epoch": 55.78, "learning_rate": 2.0833333333333334e-06, "loss": 1.4385, "step": 172 }, { "epoch": 56.76, "learning_rate": 1.7708333333333337e-06, "loss": 1.4403, "step": 175 }, { "epoch": 57.73, "learning_rate": 1.4583333333333335e-06, "loss": 1.4276, "step": 178 }, { "epoch": 58.7, "learning_rate": 1.1458333333333333e-06, "loss": 1.4291, "step": 181 }, { "epoch": 60.0, "learning_rate": 7.291666666666667e-07, "loss": 1.0688, "step": 185 }, { "epoch": 60.97, "learning_rate": 4.1666666666666667e-07, "loss": 1.4217, "step": 188 }, { "epoch": 61.95, "learning_rate": 1.0416666666666667e-07, "loss": 1.4242, "step": 191 }, { "epoch": 62.27, "learning_rate": 0.0, "loss": 1.1326, "step": 192 }, { "epoch": 64.97, "learning_rate": 9.84375e-06, "loss": 1.4213, "step": 195 }, { "epoch": 65.95, "learning_rate": 9.6875e-06, "loss": 1.3989, "step": 198 }, { "epoch": 66.92, "learning_rate": 9.531250000000001e-06, "loss": 1.3782, "step": 201 }, { "epoch": 67.89, "learning_rate": 9.375000000000001e-06, "loss": 1.3594, "step": 204 }, { "epoch": 68.86, "learning_rate": 9.21875e-06, "loss": 1.3425, "step": 207 }, { "epoch": 69.84, "learning_rate": 9.0625e-06, "loss": 1.3209, "step": 210 }, { "epoch": 70.81, "learning_rate": 8.906250000000001e-06, "loss": 1.3018, "step": 213 }, { "epoch": 71.78, "learning_rate": 8.750000000000001e-06, "loss": 1.2872, "step": 216 }, { "epoch": 72.76, "learning_rate": 8.59375e-06, "loss": 1.2717, "step": 219 }, { "epoch": 73.73, "learning_rate": 8.4375e-06, "loss": 1.2531, "step": 222 }, { "epoch": 74.7, "learning_rate": 8.281250000000001e-06, "loss": 1.2371, "step": 225 }, { "epoch": 76.0, "learning_rate": 8.072916666666667e-06, "loss": 0.9161, "step": 229 }, { "epoch": 76.97, "learning_rate": 7.916666666666667e-06, "loss": 1.2111, "step": 232 }, { "epoch": 77.95, "learning_rate": 7.760416666666666e-06, "loss": 1.1966, "step": 235 }, { "epoch": 78.92, "learning_rate": 7.6041666666666666e-06, "loss": 1.1775, "step": 238 }, { "epoch": 79.89, "learning_rate": 7.447916666666667e-06, "loss": 1.1638, "step": 241 }, { "epoch": 80.86, "learning_rate": 7.291666666666667e-06, "loss": 1.154, "step": 244 }, { "epoch": 81.84, "learning_rate": 7.135416666666667e-06, "loss": 1.1335, "step": 247 }, { "epoch": 82.81, "learning_rate": 6.979166666666667e-06, "loss": 1.1245, "step": 250 }, { "epoch": 83.78, "learning_rate": 6.822916666666667e-06, "loss": 1.1195, "step": 253 }, { "epoch": 84.76, "learning_rate": 6.666666666666667e-06, "loss": 1.1042, "step": 256 }, { "epoch": 85.73, "learning_rate": 6.510416666666667e-06, "loss": 1.092, "step": 259 }, { "epoch": 86.7, "learning_rate": 6.354166666666667e-06, "loss": 1.0786, "step": 262 }, { "epoch": 88.0, "learning_rate": 6.145833333333334e-06, "loss": 0.8002, "step": 266 }, { "epoch": 88.97, "learning_rate": 5.989583333333334e-06, "loss": 1.0561, "step": 269 }, { "epoch": 89.95, "learning_rate": 5.833333333333334e-06, "loss": 1.0469, "step": 272 }, { "epoch": 90.92, "learning_rate": 5.677083333333334e-06, "loss": 1.0395, "step": 275 }, { "epoch": 91.89, "learning_rate": 5.520833333333334e-06, "loss": 1.0276, "step": 278 }, { "epoch": 92.86, "learning_rate": 5.364583333333334e-06, "loss": 1.0149, "step": 281 }, { "epoch": 93.84, "learning_rate": 5.208333333333334e-06, "loss": 1.0107, "step": 284 }, { "epoch": 94.81, "learning_rate": 5.0520833333333344e-06, "loss": 0.9976, "step": 287 }, { "epoch": 95.78, "learning_rate": 4.895833333333333e-06, "loss": 0.9843, "step": 290 }, { "epoch": 96.76, "learning_rate": 4.739583333333334e-06, "loss": 0.9816, "step": 293 }, { "epoch": 97.73, "learning_rate": 4.583333333333333e-06, "loss": 0.9702, "step": 296 }, { "epoch": 98.7, "learning_rate": 4.427083333333334e-06, "loss": 0.9683, "step": 299 }, { "epoch": 100.0, "learning_rate": 4.21875e-06, "loss": 0.7223, "step": 303 }, { "epoch": 100.97, "learning_rate": 4.0625000000000005e-06, "loss": 0.9523, "step": 306 }, { "epoch": 101.95, "learning_rate": 3.90625e-06, "loss": 0.9421, "step": 309 }, { "epoch": 102.92, "learning_rate": 3.7500000000000005e-06, "loss": 0.9471, "step": 312 }, { "epoch": 103.89, "learning_rate": 3.59375e-06, "loss": 0.9351, "step": 315 }, { "epoch": 104.86, "learning_rate": 3.4375e-06, "loss": 0.924, "step": 318 }, { "epoch": 105.84, "learning_rate": 3.28125e-06, "loss": 0.9218, "step": 321 }, { "epoch": 106.81, "learning_rate": 3.125e-06, "loss": 0.9217, "step": 324 }, { "epoch": 107.78, "learning_rate": 2.96875e-06, "loss": 0.9078, "step": 327 }, { "epoch": 108.76, "learning_rate": 2.8125e-06, "loss": 0.9082, "step": 330 }, { "epoch": 109.73, "learning_rate": 2.65625e-06, "loss": 0.9068, "step": 333 }, { "epoch": 110.7, "learning_rate": 2.5e-06, "loss": 0.8969, "step": 336 }, { "epoch": 112.0, "learning_rate": 2.2916666666666666e-06, "loss": 0.6673, "step": 340 }, { "epoch": 112.97, "learning_rate": 2.1354166666666666e-06, "loss": 0.8892, "step": 343 }, { "epoch": 113.95, "learning_rate": 1.9791666666666666e-06, "loss": 0.8896, "step": 346 }, { "epoch": 114.92, "learning_rate": 1.8229166666666666e-06, "loss": 0.8764, "step": 349 }, { "epoch": 115.89, "learning_rate": 1.6666666666666667e-06, "loss": 0.8754, "step": 352 }, { "epoch": 116.86, "learning_rate": 1.5104166666666667e-06, "loss": 0.8729, "step": 355 }, { "epoch": 117.84, "learning_rate": 1.3541666666666667e-06, "loss": 0.8714, "step": 358 }, { "epoch": 118.81, "learning_rate": 1.197916666666667e-06, "loss": 0.8697, "step": 361 }, { "epoch": 119.78, "learning_rate": 1.0416666666666667e-06, "loss": 0.8646, "step": 364 }, { "epoch": 120.76, "learning_rate": 8.854166666666668e-07, "loss": 0.8601, "step": 367 }, { "epoch": 121.73, "learning_rate": 7.291666666666667e-07, "loss": 0.8579, "step": 370 }, { "epoch": 122.7, "learning_rate": 5.729166666666667e-07, "loss": 0.8657, "step": 373 }, { "epoch": 124.0, "learning_rate": 3.6458333333333337e-07, "loss": 0.6457, "step": 377 }, { "epoch": 124.97, "learning_rate": 2.0833333333333333e-07, "loss": 0.8564, "step": 380 }, { "epoch": 125.95, "learning_rate": 5.208333333333333e-08, "loss": 0.8588, "step": 383 }, { "epoch": 126.27, "learning_rate": 0.0, "loss": 0.7301, "step": 384 }, { "epoch": 128.97, "learning_rate": 1.4960937500000002e-05, "loss": 0.8564, "step": 387 }, { "epoch": 129.95, "learning_rate": 1.4921875000000002e-05, "loss": 0.8371, "step": 390 }, { "epoch": 130.92, "learning_rate": 1.4882812500000002e-05, "loss": 0.8192, "step": 393 }, { "epoch": 131.89, "learning_rate": 1.4843750000000002e-05, "loss": 0.7975, "step": 396 }, { "epoch": 132.86, "learning_rate": 1.4804687500000002e-05, "loss": 0.7844, "step": 399 }, { "epoch": 133.84, "learning_rate": 1.4765625000000001e-05, "loss": 0.7674, "step": 402 }, { "epoch": 134.81, "learning_rate": 1.4726562500000001e-05, "loss": 0.7525, "step": 405 }, { "epoch": 135.78, "learning_rate": 1.4687500000000001e-05, "loss": 0.7345, "step": 408 }, { "epoch": 136.76, "learning_rate": 1.4648437500000001e-05, "loss": 0.7159, "step": 411 }, { "epoch": 137.73, "learning_rate": 1.4609375000000001e-05, "loss": 0.7023, "step": 414 }, { "epoch": 138.7, "learning_rate": 1.4570312500000001e-05, "loss": 0.6946, "step": 417 }, { "epoch": 140.0, "learning_rate": 1.4518229166666669e-05, "loss": 0.5039, "step": 421 }, { "epoch": 140.97, "learning_rate": 1.4479166666666669e-05, "loss": 0.6631, "step": 424 }, { "epoch": 141.95, "learning_rate": 1.4440104166666668e-05, "loss": 0.6543, "step": 427 }, { "epoch": 142.92, "learning_rate": 1.4401041666666668e-05, "loss": 0.6378, "step": 430 }, { "epoch": 143.89, "learning_rate": 1.4361979166666668e-05, "loss": 0.6212, "step": 433 }, { "epoch": 144.86, "learning_rate": 1.4322916666666668e-05, "loss": 0.6069, "step": 436 }, { "epoch": 145.84, "learning_rate": 1.4283854166666668e-05, "loss": 0.5981, "step": 439 }, { "epoch": 146.81, "learning_rate": 1.4244791666666668e-05, "loss": 0.5923, "step": 442 }, { "epoch": 147.78, "learning_rate": 1.4205729166666668e-05, "loss": 0.5754, "step": 445 }, { "epoch": 148.76, "learning_rate": 1.416666666666667e-05, "loss": 0.5653, "step": 448 }, { "epoch": 149.73, "learning_rate": 1.412760416666667e-05, "loss": 0.555, "step": 451 }, { "epoch": 150.7, "learning_rate": 1.408854166666667e-05, "loss": 0.5408, "step": 454 }, { "epoch": 152.0, "learning_rate": 1.4036458333333333e-05, "loss": 0.4004, "step": 458 }, { "epoch": 152.97, "learning_rate": 1.3997395833333333e-05, "loss": 0.5188, "step": 461 }, { "epoch": 153.95, "learning_rate": 1.3958333333333333e-05, "loss": 0.5146, "step": 464 }, { "epoch": 154.92, "learning_rate": 1.3919270833333333e-05, "loss": 0.502, "step": 467 }, { "epoch": 155.89, "learning_rate": 1.3880208333333333e-05, "loss": 0.4932, "step": 470 }, { "epoch": 156.86, "learning_rate": 1.3841145833333333e-05, "loss": 0.4822, "step": 473 }, { "epoch": 157.84, "learning_rate": 1.3802083333333335e-05, "loss": 0.4804, "step": 476 }, { "epoch": 158.81, "learning_rate": 1.3763020833333334e-05, "loss": 0.4648, "step": 479 }, { "epoch": 159.78, "learning_rate": 1.3723958333333334e-05, "loss": 0.4551, "step": 482 }, { "epoch": 160.76, "learning_rate": 1.3684895833333334e-05, "loss": 0.4473, "step": 485 }, { "epoch": 161.73, "learning_rate": 1.3645833333333334e-05, "loss": 0.4402, "step": 488 }, { "epoch": 162.7, "learning_rate": 1.3606770833333334e-05, "loss": 0.4293, "step": 491 }, { "epoch": 164.0, "learning_rate": 1.3554687500000002e-05, "loss": 0.3169, "step": 495 }, { "epoch": 164.97, "learning_rate": 1.3515625000000002e-05, "loss": 0.4116, "step": 498 }, { "epoch": 165.95, "learning_rate": 1.3476562500000001e-05, "loss": 0.4042, "step": 501 }, { "epoch": 166.92, "learning_rate": 1.3437500000000001e-05, "loss": 0.3975, "step": 504 }, { "epoch": 167.89, "learning_rate": 1.3398437500000001e-05, "loss": 0.379, "step": 507 }, { "epoch": 168.86, "learning_rate": 1.3359375000000001e-05, "loss": 0.3789, "step": 510 }, { "epoch": 169.84, "learning_rate": 1.3320312500000001e-05, "loss": 0.3669, "step": 513 }, { "epoch": 170.81, "learning_rate": 1.3281250000000001e-05, "loss": 0.3595, "step": 516 }, { "epoch": 171.78, "learning_rate": 1.3242187500000001e-05, "loss": 0.3508, "step": 519 }, { "epoch": 172.76, "learning_rate": 1.3203125e-05, "loss": 0.3415, "step": 522 }, { "epoch": 173.73, "learning_rate": 1.31640625e-05, "loss": 0.3297, "step": 525 }, { "epoch": 174.7, "learning_rate": 1.3125e-05, "loss": 0.3316, "step": 528 }, { "epoch": 176.0, "learning_rate": 1.3072916666666668e-05, "loss": 0.2403, "step": 532 }, { "epoch": 176.97, "learning_rate": 1.3033854166666668e-05, "loss": 0.3148, "step": 535 }, { "epoch": 177.95, "learning_rate": 1.2994791666666668e-05, "loss": 0.3119, "step": 538 }, { "epoch": 178.92, "learning_rate": 1.2955729166666668e-05, "loss": 0.3013, "step": 541 }, { "epoch": 179.89, "learning_rate": 1.2916666666666668e-05, "loss": 0.2972, "step": 544 }, { "epoch": 180.86, "learning_rate": 1.2877604166666668e-05, "loss": 0.2894, "step": 547 }, { "epoch": 181.84, "learning_rate": 1.283854166666667e-05, "loss": 0.2837, "step": 550 }, { "epoch": 182.81, "learning_rate": 1.279947916666667e-05, "loss": 0.278, "step": 553 }, { "epoch": 183.78, "learning_rate": 1.2760416666666669e-05, "loss": 0.2773, "step": 556 }, { "epoch": 184.76, "learning_rate": 1.2721354166666669e-05, "loss": 0.2768, "step": 559 }, { "epoch": 185.73, "learning_rate": 1.2682291666666669e-05, "loss": 0.2652, "step": 562 }, { "epoch": 186.7, "learning_rate": 1.2643229166666669e-05, "loss": 0.266, "step": 565 }, { "epoch": 188.0, "learning_rate": 1.2591145833333333e-05, "loss": 0.1962, "step": 569 }, { "epoch": 188.97, "learning_rate": 1.2552083333333333e-05, "loss": 0.259, "step": 572 }, { "epoch": 189.95, "learning_rate": 1.2513020833333333e-05, "loss": 0.2516, "step": 575 }, { "epoch": 190.92, "learning_rate": 1.2473958333333334e-05, "loss": 0.2501, "step": 578 }, { "epoch": 191.89, "learning_rate": 1.2434895833333334e-05, "loss": 0.243, "step": 581 }, { "epoch": 192.86, "learning_rate": 1.2395833333333334e-05, "loss": 0.2399, "step": 584 }, { "epoch": 193.84, "learning_rate": 1.2356770833333334e-05, "loss": 0.2396, "step": 587 }, { "epoch": 194.81, "learning_rate": 1.2317708333333334e-05, "loss": 0.2332, "step": 590 }, { "epoch": 195.78, "learning_rate": 1.2278645833333334e-05, "loss": 0.2244, "step": 593 }, { "epoch": 196.76, "learning_rate": 1.2239583333333334e-05, "loss": 0.2224, "step": 596 }, { "epoch": 197.73, "learning_rate": 1.2200520833333334e-05, "loss": 0.2175, "step": 599 }, { "epoch": 198.7, "learning_rate": 1.2161458333333334e-05, "loss": 0.2191, "step": 602 }, { "epoch": 200.0, "learning_rate": 1.2109375000000001e-05, "loss": 0.1639, "step": 606 }, { "epoch": 200.97, "learning_rate": 1.2070312500000001e-05, "loss": 0.2124, "step": 609 }, { "epoch": 201.95, "learning_rate": 1.2031250000000001e-05, "loss": 0.2076, "step": 612 }, { "epoch": 202.92, "learning_rate": 1.1992187500000001e-05, "loss": 0.2042, "step": 615 }, { "epoch": 203.89, "learning_rate": 1.1953125000000001e-05, "loss": 0.2005, "step": 618 }, { "epoch": 204.86, "learning_rate": 1.19140625e-05, "loss": 0.1983, "step": 621 }, { "epoch": 205.84, "learning_rate": 1.1875e-05, "loss": 0.194, "step": 624 }, { "epoch": 206.81, "learning_rate": 1.18359375e-05, "loss": 0.1901, "step": 627 }, { "epoch": 207.78, "learning_rate": 1.1796875e-05, "loss": 0.1886, "step": 630 }, { "epoch": 208.76, "learning_rate": 1.17578125e-05, "loss": 0.1817, "step": 633 }, { "epoch": 209.73, "learning_rate": 1.171875e-05, "loss": 0.1841, "step": 636 }, { "epoch": 210.7, "learning_rate": 1.16796875e-05, "loss": 0.1769, "step": 639 }, { "epoch": 212.0, "learning_rate": 1.1627604166666668e-05, "loss": 0.1352, "step": 643 }, { "epoch": 212.97, "learning_rate": 1.1588541666666668e-05, "loss": 0.1765, "step": 646 }, { "epoch": 213.95, "learning_rate": 1.1549479166666668e-05, "loss": 0.1696, "step": 649 }, { "epoch": 214.92, "learning_rate": 1.151041666666667e-05, "loss": 0.1679, "step": 652 }, { "epoch": 215.89, "learning_rate": 1.1471354166666669e-05, "loss": 0.1609, "step": 655 }, { "epoch": 216.86, "learning_rate": 1.1432291666666669e-05, "loss": 0.1633, "step": 658 }, { "epoch": 217.84, "learning_rate": 1.1393229166666669e-05, "loss": 0.1616, "step": 661 }, { "epoch": 218.81, "learning_rate": 1.1354166666666669e-05, "loss": 0.1589, "step": 664 }, { "epoch": 219.78, "learning_rate": 1.1315104166666669e-05, "loss": 0.158, "step": 667 }, { "epoch": 220.76, "learning_rate": 1.1276041666666669e-05, "loss": 0.1544, "step": 670 }, { "epoch": 221.73, "learning_rate": 1.1236979166666668e-05, "loss": 0.154, "step": 673 }, { "epoch": 222.7, "learning_rate": 1.1197916666666668e-05, "loss": 0.1516, "step": 676 }, { "epoch": 224.0, "learning_rate": 1.1145833333333334e-05, "loss": 0.1152, "step": 680 }, { "epoch": 224.97, "learning_rate": 1.1106770833333334e-05, "loss": 0.1516, "step": 683 }, { "epoch": 225.95, "learning_rate": 1.1067708333333334e-05, "loss": 0.145, "step": 686 }, { "epoch": 226.92, "learning_rate": 1.1028645833333334e-05, "loss": 0.1455, "step": 689 }, { "epoch": 227.89, "learning_rate": 1.0989583333333334e-05, "loss": 0.1437, "step": 692 }, { "epoch": 228.86, "learning_rate": 1.0950520833333334e-05, "loss": 0.1409, "step": 695 }, { "epoch": 229.84, "learning_rate": 1.0911458333333334e-05, "loss": 0.1452, "step": 698 }, { "epoch": 230.81, "learning_rate": 1.0872395833333334e-05, "loss": 0.1366, "step": 701 }, { "epoch": 231.78, "learning_rate": 1.0833333333333334e-05, "loss": 0.1367, "step": 704 }, { "epoch": 232.76, "learning_rate": 1.0794270833333333e-05, "loss": 0.1357, "step": 707 }, { "epoch": 233.73, "learning_rate": 1.0755208333333333e-05, "loss": 0.1342, "step": 710 }, { "epoch": 234.7, "learning_rate": 1.0716145833333333e-05, "loss": 0.1276, "step": 713 }, { "epoch": 236.0, "learning_rate": 1.0664062500000001e-05, "loss": 0.0974, "step": 717 }, { "epoch": 236.97, "learning_rate": 1.0625e-05, "loss": 0.1325, "step": 720 }, { "epoch": 237.95, "learning_rate": 1.05859375e-05, "loss": 0.1266, "step": 723 }, { "epoch": 238.92, "learning_rate": 1.0546875e-05, "loss": 0.1237, "step": 726 }, { "epoch": 239.89, "learning_rate": 1.05078125e-05, "loss": 0.1258, "step": 729 }, { "epoch": 240.86, "learning_rate": 1.046875e-05, "loss": 0.123, "step": 732 }, { "epoch": 241.84, "learning_rate": 1.04296875e-05, "loss": 0.1228, "step": 735 }, { "epoch": 242.81, "learning_rate": 1.0390625e-05, "loss": 0.12, "step": 738 }, { "epoch": 243.78, "learning_rate": 1.03515625e-05, "loss": 0.1174, "step": 741 }, { "epoch": 244.76, "learning_rate": 1.0312500000000002e-05, "loss": 0.118, "step": 744 }, { "epoch": 245.73, "learning_rate": 1.0273437500000002e-05, "loss": 0.1157, "step": 747 }, { "epoch": 246.7, "learning_rate": 1.0234375000000001e-05, "loss": 0.115, "step": 750 }, { "epoch": 248.0, "learning_rate": 1.0182291666666667e-05, "loss": 0.0826, "step": 754 }, { "epoch": 248.97, "learning_rate": 1.0143229166666669e-05, "loss": 0.1094, "step": 757 }, { "epoch": 249.95, "learning_rate": 1.0104166666666669e-05, "loss": 0.1094, "step": 760 }, { "epoch": 250.92, "learning_rate": 1.0065104166666669e-05, "loss": 0.111, "step": 763 }, { "epoch": 251.89, "learning_rate": 1.0026041666666669e-05, "loss": 0.1056, "step": 766 }, { "epoch": 252.86, "learning_rate": 9.986979166666667e-06, "loss": 0.1076, "step": 769 }, { "epoch": 253.84, "learning_rate": 9.947916666666667e-06, "loss": 0.1031, "step": 772 }, { "epoch": 254.81, "learning_rate": 9.908854166666667e-06, "loss": 0.1084, "step": 775 }, { "epoch": 255.78, "learning_rate": 9.869791666666667e-06, "loss": 0.1043, "step": 778 }, { "epoch": 256.76, "learning_rate": 9.830729166666666e-06, "loss": 0.0984, "step": 781 }, { "epoch": 257.73, "learning_rate": 9.791666666666666e-06, "loss": 0.098, "step": 784 }, { "epoch": 258.7, "learning_rate": 9.752604166666666e-06, "loss": 0.1013, "step": 787 }, { "epoch": 260.0, "learning_rate": 9.700520833333334e-06, "loss": 0.0743, "step": 791 }, { "epoch": 260.97, "learning_rate": 9.661458333333334e-06, "loss": 0.0947, "step": 794 }, { "epoch": 261.95, "learning_rate": 9.622395833333334e-06, "loss": 0.0965, "step": 797 }, { "epoch": 262.92, "learning_rate": 9.583333333333335e-06, "loss": 0.0947, "step": 800 }, { "epoch": 263.89, "learning_rate": 9.544270833333335e-06, "loss": 0.0952, "step": 803 }, { "epoch": 264.86, "learning_rate": 9.505208333333335e-06, "loss": 0.0896, "step": 806 }, { "epoch": 265.84, "learning_rate": 9.466145833333335e-06, "loss": 0.0891, "step": 809 }, { "epoch": 266.81, "learning_rate": 9.427083333333335e-06, "loss": 0.0939, "step": 812 }, { "epoch": 267.78, "learning_rate": 9.388020833333335e-06, "loss": 0.0911, "step": 815 }, { "epoch": 268.76, "learning_rate": 9.348958333333335e-06, "loss": 0.0882, "step": 818 }, { "epoch": 269.73, "learning_rate": 9.309895833333335e-06, "loss": 0.0903, "step": 821 }, { "epoch": 270.7, "learning_rate": 9.270833333333334e-06, "loss": 0.0869, "step": 824 }, { "epoch": 272.0, "learning_rate": 9.21875e-06, "loss": 0.0664, "step": 828 }, { "epoch": 272.97, "learning_rate": 9.1796875e-06, "loss": 0.0868, "step": 831 }, { "epoch": 273.95, "learning_rate": 9.140625e-06, "loss": 0.0867, "step": 834 }, { "epoch": 274.92, "learning_rate": 9.1015625e-06, "loss": 0.0858, "step": 837 }, { "epoch": 275.89, "learning_rate": 9.0625e-06, "loss": 0.0842, "step": 840 }, { "epoch": 276.86, "learning_rate": 9.0234375e-06, "loss": 0.0869, "step": 843 }, { "epoch": 277.84, "learning_rate": 8.984375000000002e-06, "loss": 0.0803, "step": 846 }, { "epoch": 278.81, "learning_rate": 8.945312500000001e-06, "loss": 0.0813, "step": 849 }, { "epoch": 279.78, "learning_rate": 8.906250000000001e-06, "loss": 0.084, "step": 852 }, { "epoch": 280.76, "learning_rate": 8.867187500000001e-06, "loss": 0.0814, "step": 855 }, { "epoch": 281.73, "learning_rate": 8.828125000000001e-06, "loss": 0.0782, "step": 858 }, { "epoch": 282.7, "learning_rate": 8.789062500000001e-06, "loss": 0.0803, "step": 861 }, { "epoch": 284.0, "learning_rate": 8.736979166666667e-06, "loss": 0.0596, "step": 865 }, { "epoch": 284.97, "learning_rate": 8.697916666666667e-06, "loss": 0.0787, "step": 868 }, { "epoch": 285.95, "learning_rate": 8.658854166666667e-06, "loss": 0.0748, "step": 871 }, { "epoch": 286.92, "learning_rate": 8.619791666666667e-06, "loss": 0.0816, "step": 874 }, { "epoch": 287.89, "learning_rate": 8.580729166666667e-06, "loss": 0.0776, "step": 877 }, { "epoch": 288.86, "learning_rate": 8.541666666666666e-06, "loss": 0.0749, "step": 880 }, { "epoch": 289.84, "learning_rate": 8.502604166666666e-06, "loss": 0.0795, "step": 883 }, { "epoch": 290.81, "learning_rate": 8.463541666666666e-06, "loss": 0.075, "step": 886 }, { "epoch": 291.78, "learning_rate": 8.424479166666666e-06, "loss": 0.0756, "step": 889 }, { "epoch": 292.76, "learning_rate": 8.385416666666668e-06, "loss": 0.0755, "step": 892 }, { "epoch": 293.73, "learning_rate": 8.346354166666668e-06, "loss": 0.0721, "step": 895 }, { "epoch": 294.7, "learning_rate": 8.307291666666668e-06, "loss": 0.0745, "step": 898 }, { "epoch": 296.0, "learning_rate": 8.255208333333335e-06, "loss": 0.0535, "step": 902 }, { "epoch": 296.97, "learning_rate": 8.216145833333335e-06, "loss": 0.0743, "step": 905 }, { "epoch": 297.95, "learning_rate": 8.177083333333335e-06, "loss": 0.0756, "step": 908 }, { "epoch": 298.92, "learning_rate": 8.138020833333335e-06, "loss": 0.0728, "step": 911 }, { "epoch": 299.89, "learning_rate": 8.098958333333335e-06, "loss": 0.0744, "step": 914 }, { "epoch": 300.86, "learning_rate": 8.059895833333335e-06, "loss": 0.0713, "step": 917 }, { "epoch": 301.84, "learning_rate": 8.020833333333335e-06, "loss": 0.0707, "step": 920 }, { "epoch": 302.81, "learning_rate": 7.981770833333335e-06, "loss": 0.0715, "step": 923 }, { "epoch": 303.78, "learning_rate": 7.942708333333334e-06, "loss": 0.0686, "step": 926 }, { "epoch": 304.76, "learning_rate": 7.903645833333334e-06, "loss": 0.0691, "step": 929 }, { "epoch": 305.73, "learning_rate": 7.864583333333334e-06, "loss": 0.0682, "step": 932 }, { "epoch": 306.7, "learning_rate": 7.825520833333334e-06, "loss": 0.0701, "step": 935 }, { "epoch": 308.0, "learning_rate": 7.7734375e-06, "loss": 0.0488, "step": 939 }, { "epoch": 308.97, "learning_rate": 7.734375e-06, "loss": 0.0689, "step": 942 }, { "epoch": 309.95, "learning_rate": 7.6953125e-06, "loss": 0.0685, "step": 945 }, { "epoch": 310.92, "learning_rate": 7.656250000000001e-06, "loss": 0.0688, "step": 948 }, { "epoch": 311.89, "learning_rate": 7.6171875000000005e-06, "loss": 0.0685, "step": 951 }, { "epoch": 312.86, "learning_rate": 7.578125e-06, "loss": 0.0688, "step": 954 }, { "epoch": 313.84, "learning_rate": 7.5390625e-06, "loss": 0.0656, "step": 957 }, { "epoch": 314.81, "learning_rate": 7.500000000000001e-06, "loss": 0.0666, "step": 960 }, { "epoch": 315.78, "learning_rate": 7.460937500000001e-06, "loss": 0.0666, "step": 963 }, { "epoch": 316.76, "learning_rate": 7.421875000000001e-06, "loss": 0.0681, "step": 966 }, { "epoch": 317.73, "learning_rate": 7.382812500000001e-06, "loss": 0.0649, "step": 969 }, { "epoch": 318.7, "learning_rate": 7.343750000000001e-06, "loss": 0.0671, "step": 972 }, { "epoch": 320.0, "learning_rate": 7.291666666666667e-06, "loss": 0.0516, "step": 976 }, { "epoch": 320.97, "learning_rate": 7.2526041666666665e-06, "loss": 0.0644, "step": 979 }, { "epoch": 321.95, "learning_rate": 7.213541666666667e-06, "loss": 0.0652, "step": 982 }, { "epoch": 322.92, "learning_rate": 7.174479166666667e-06, "loss": 0.0658, "step": 985 }, { "epoch": 323.89, "learning_rate": 7.135416666666667e-06, "loss": 0.063, "step": 988 }, { "epoch": 324.86, "learning_rate": 7.096354166666667e-06, "loss": 0.0616, "step": 991 }, { "epoch": 325.84, "learning_rate": 7.057291666666667e-06, "loss": 0.0639, "step": 994 }, { "epoch": 326.81, "learning_rate": 7.018229166666667e-06, "loss": 0.0622, "step": 997 }, { "epoch": 327.78, "learning_rate": 6.979166666666667e-06, "loss": 0.0654, "step": 1000 }, { "epoch": 328.76, "learning_rate": 6.9401041666666665e-06, "loss": 0.0629, "step": 1003 }, { "epoch": 329.73, "learning_rate": 6.901041666666667e-06, "loss": 0.0625, "step": 1006 }, { "epoch": 330.7, "learning_rate": 6.861979166666667e-06, "loss": 0.0655, "step": 1009 }, { "epoch": 332.0, "learning_rate": 6.809895833333334e-06, "loss": 0.0468, "step": 1013 }, { "epoch": 332.97, "learning_rate": 6.770833333333334e-06, "loss": 0.0653, "step": 1016 }, { "epoch": 333.95, "learning_rate": 6.731770833333335e-06, "loss": 0.0632, "step": 1019 }, { "epoch": 334.92, "learning_rate": 6.6927083333333345e-06, "loss": 0.0603, "step": 1022 }, { "epoch": 335.89, "learning_rate": 6.653645833333334e-06, "loss": 0.0636, "step": 1025 }, { "epoch": 336.86, "learning_rate": 6.614583333333334e-06, "loss": 0.061, "step": 1028 }, { "epoch": 337.84, "learning_rate": 6.575520833333334e-06, "loss": 0.0626, "step": 1031 }, { "epoch": 338.81, "learning_rate": 6.536458333333334e-06, "loss": 0.0646, "step": 1034 }, { "epoch": 339.78, "learning_rate": 6.497395833333334e-06, "loss": 0.0613, "step": 1037 }, { "epoch": 340.76, "learning_rate": 6.458333333333334e-06, "loss": 0.0645, "step": 1040 }, { "epoch": 341.73, "learning_rate": 6.419270833333335e-06, "loss": 0.0607, "step": 1043 }, { "epoch": 342.7, "learning_rate": 6.3802083333333345e-06, "loss": 0.0622, "step": 1046 }, { "epoch": 344.0, "learning_rate": 6.3281250000000005e-06, "loss": 0.0441, "step": 1050 }, { "epoch": 344.97, "learning_rate": 6.2890625e-06, "loss": 0.0624, "step": 1053 }, { "epoch": 345.95, "learning_rate": 6.25e-06, "loss": 0.0641, "step": 1056 }, { "epoch": 346.92, "learning_rate": 6.2109375e-06, "loss": 0.0574, "step": 1059 }, { "epoch": 347.89, "learning_rate": 6.171875e-06, "loss": 0.0582, "step": 1062 }, { "epoch": 348.86, "learning_rate": 6.132812500000001e-06, "loss": 0.0592, "step": 1065 }, { "epoch": 349.84, "learning_rate": 6.093750000000001e-06, "loss": 0.0607, "step": 1068 }, { "epoch": 350.81, "learning_rate": 6.054687500000001e-06, "loss": 0.0598, "step": 1071 }, { "epoch": 351.78, "learning_rate": 6.0156250000000005e-06, "loss": 0.061, "step": 1074 }, { "epoch": 352.76, "learning_rate": 5.9765625000000004e-06, "loss": 0.0586, "step": 1077 }, { "epoch": 353.73, "learning_rate": 5.9375e-06, "loss": 0.059, "step": 1080 }, { "epoch": 354.7, "learning_rate": 5.8984375e-06, "loss": 0.0601, "step": 1083 }, { "epoch": 356.0, "learning_rate": 5.846354166666667e-06, "loss": 0.0447, "step": 1087 }, { "epoch": 356.97, "learning_rate": 5.807291666666667e-06, "loss": 0.0611, "step": 1090 }, { "epoch": 357.95, "learning_rate": 5.768229166666667e-06, "loss": 0.0575, "step": 1093 }, { "epoch": 358.92, "learning_rate": 5.729166666666667e-06, "loss": 0.0599, "step": 1096 }, { "epoch": 359.89, "learning_rate": 5.690104166666667e-06, "loss": 0.0585, "step": 1099 }, { "epoch": 360.86, "learning_rate": 5.6510416666666665e-06, "loss": 0.0571, "step": 1102 }, { "epoch": 361.84, "learning_rate": 5.611979166666666e-06, "loss": 0.0573, "step": 1105 }, { "epoch": 362.81, "learning_rate": 5.572916666666667e-06, "loss": 0.0588, "step": 1108 }, { "epoch": 363.78, "learning_rate": 5.533854166666667e-06, "loss": 0.0563, "step": 1111 }, { "epoch": 364.76, "learning_rate": 5.494791666666667e-06, "loss": 0.0567, "step": 1114 }, { "epoch": 365.73, "learning_rate": 5.455729166666667e-06, "loss": 0.0578, "step": 1117 }, { "epoch": 366.7, "learning_rate": 5.416666666666667e-06, "loss": 0.0579, "step": 1120 }, { "epoch": 368.0, "learning_rate": 5.364583333333334e-06, "loss": 0.0417, "step": 1124 }, { "epoch": 368.97, "learning_rate": 5.325520833333334e-06, "loss": 0.0563, "step": 1127 }, { "epoch": 369.95, "learning_rate": 5.286458333333334e-06, "loss": 0.0565, "step": 1130 }, { "epoch": 370.92, "learning_rate": 5.247395833333334e-06, "loss": 0.0558, "step": 1133 }, { "epoch": 371.89, "learning_rate": 5.208333333333334e-06, "loss": 0.0572, "step": 1136 }, { "epoch": 372.86, "learning_rate": 5.169270833333334e-06, "loss": 0.0553, "step": 1139 }, { "epoch": 373.84, "learning_rate": 5.130208333333334e-06, "loss": 0.0546, "step": 1142 }, { "epoch": 374.81, "learning_rate": 5.091145833333334e-06, "loss": 0.0582, "step": 1145 }, { "epoch": 375.78, "learning_rate": 5.0520833333333344e-06, "loss": 0.0545, "step": 1148 }, { "epoch": 376.76, "learning_rate": 5.013020833333334e-06, "loss": 0.0546, "step": 1151 }, { "epoch": 377.73, "learning_rate": 4.973958333333333e-06, "loss": 0.0543, "step": 1154 }, { "epoch": 378.7, "learning_rate": 4.934895833333333e-06, "loss": 0.0543, "step": 1157 }, { "epoch": 380.0, "learning_rate": 4.8828125e-06, "loss": 0.0405, "step": 1161 }, { "epoch": 380.97, "learning_rate": 4.84375e-06, "loss": 0.0553, "step": 1164 }, { "epoch": 381.95, "learning_rate": 4.804687500000001e-06, "loss": 0.0552, "step": 1167 }, { "epoch": 382.92, "learning_rate": 4.765625000000001e-06, "loss": 0.0567, "step": 1170 }, { "epoch": 383.89, "learning_rate": 4.7265625000000005e-06, "loss": 0.056, "step": 1173 }, { "epoch": 384.86, "learning_rate": 4.6875000000000004e-06, "loss": 0.0547, "step": 1176 }, { "epoch": 385.84, "learning_rate": 4.6484375e-06, "loss": 0.0559, "step": 1179 }, { "epoch": 386.81, "learning_rate": 4.609375e-06, "loss": 0.0551, "step": 1182 }, { "epoch": 387.78, "learning_rate": 4.5703125e-06, "loss": 0.0546, "step": 1185 }, { "epoch": 388.76, "learning_rate": 4.53125e-06, "loss": 0.0529, "step": 1188 }, { "epoch": 389.73, "learning_rate": 4.492187500000001e-06, "loss": 0.054, "step": 1191 }, { "epoch": 390.7, "learning_rate": 4.453125000000001e-06, "loss": 0.0554, "step": 1194 }, { "epoch": 392.0, "learning_rate": 4.4010416666666675e-06, "loss": 0.042, "step": 1198 }, { "epoch": 392.97, "learning_rate": 4.361979166666667e-06, "loss": 0.0556, "step": 1201 }, { "epoch": 393.95, "learning_rate": 4.322916666666667e-06, "loss": 0.0553, "step": 1204 }, { "epoch": 394.92, "learning_rate": 4.283854166666667e-06, "loss": 0.053, "step": 1207 }, { "epoch": 395.89, "learning_rate": 4.244791666666667e-06, "loss": 0.056, "step": 1210 }, { "epoch": 396.86, "learning_rate": 4.205729166666667e-06, "loss": 0.054, "step": 1213 }, { "epoch": 397.84, "learning_rate": 4.166666666666667e-06, "loss": 0.0555, "step": 1216 }, { "epoch": 398.81, "learning_rate": 4.127604166666668e-06, "loss": 0.0555, "step": 1219 }, { "epoch": 399.78, "learning_rate": 4.0885416666666675e-06, "loss": 0.0547, "step": 1222 }, { "epoch": 400.76, "learning_rate": 4.049479166666667e-06, "loss": 0.052, "step": 1225 }, { "epoch": 401.73, "learning_rate": 4.010416666666667e-06, "loss": 0.0535, "step": 1228 }, { "epoch": 402.7, "learning_rate": 3.971354166666667e-06, "loss": 0.0544, "step": 1231 }, { "epoch": 404.0, "learning_rate": 3.919270833333333e-06, "loss": 0.0404, "step": 1235 }, { "epoch": 404.97, "learning_rate": 3.880208333333333e-06, "loss": 0.0525, "step": 1238 }, { "epoch": 405.95, "learning_rate": 3.841145833333334e-06, "loss": 0.0552, "step": 1241 }, { "epoch": 406.92, "learning_rate": 3.8020833333333333e-06, "loss": 0.0544, "step": 1244 }, { "epoch": 407.89, "learning_rate": 3.7630208333333336e-06, "loss": 0.0529, "step": 1247 }, { "epoch": 408.86, "learning_rate": 3.7239583333333335e-06, "loss": 0.0538, "step": 1250 }, { "epoch": 409.84, "learning_rate": 3.6848958333333334e-06, "loss": 0.052, "step": 1253 }, { "epoch": 410.81, "learning_rate": 3.6458333333333333e-06, "loss": 0.0525, "step": 1256 }, { "epoch": 411.78, "learning_rate": 3.6067708333333336e-06, "loss": 0.0524, "step": 1259 }, { "epoch": 412.76, "learning_rate": 3.5677083333333335e-06, "loss": 0.0511, "step": 1262 }, { "epoch": 413.73, "learning_rate": 3.5286458333333334e-06, "loss": 0.0539, "step": 1265 }, { "epoch": 414.7, "learning_rate": 3.4895833333333333e-06, "loss": 0.0529, "step": 1268 }, { "epoch": 416.0, "learning_rate": 3.4375e-06, "loss": 0.0408, "step": 1272 }, { "epoch": 416.97, "learning_rate": 3.3984375000000004e-06, "loss": 0.0541, "step": 1275 }, { "epoch": 417.95, "learning_rate": 3.3593750000000003e-06, "loss": 0.0511, "step": 1278 }, { "epoch": 418.92, "learning_rate": 3.3203125000000002e-06, "loss": 0.0499, "step": 1281 }, { "epoch": 419.89, "learning_rate": 3.28125e-06, "loss": 0.0512, "step": 1284 }, { "epoch": 420.86, "learning_rate": 3.2421875000000005e-06, "loss": 0.0531, "step": 1287 }, { "epoch": 421.84, "learning_rate": 3.2031250000000004e-06, "loss": 0.0532, "step": 1290 }, { "epoch": 422.81, "learning_rate": 3.1640625000000003e-06, "loss": 0.0519, "step": 1293 }, { "epoch": 423.78, "learning_rate": 3.125e-06, "loss": 0.0521, "step": 1296 }, { "epoch": 424.76, "learning_rate": 3.0859375e-06, "loss": 0.0535, "step": 1299 }, { "epoch": 425.73, "learning_rate": 3.0468750000000004e-06, "loss": 0.0506, "step": 1302 }, { "epoch": 426.7, "learning_rate": 3.0078125000000003e-06, "loss": 0.0522, "step": 1305 }, { "epoch": 428.0, "learning_rate": 2.955729166666667e-06, "loss": 0.0392, "step": 1309 }, { "epoch": 428.97, "learning_rate": 2.916666666666667e-06, "loss": 0.0522, "step": 1312 }, { "epoch": 429.95, "learning_rate": 2.8776041666666673e-06, "loss": 0.0532, "step": 1315 }, { "epoch": 430.92, "learning_rate": 2.838541666666667e-06, "loss": 0.051, "step": 1318 }, { "epoch": 431.89, "learning_rate": 2.799479166666667e-06, "loss": 0.0537, "step": 1321 }, { "epoch": 432.86, "learning_rate": 2.760416666666667e-06, "loss": 0.0508, "step": 1324 }, { "epoch": 433.84, "learning_rate": 2.721354166666667e-06, "loss": 0.0518, "step": 1327 }, { "epoch": 434.81, "learning_rate": 2.682291666666667e-06, "loss": 0.052, "step": 1330 }, { "epoch": 435.78, "learning_rate": 2.643229166666667e-06, "loss": 0.054, "step": 1333 }, { "epoch": 436.76, "learning_rate": 2.604166666666667e-06, "loss": 0.0495, "step": 1336 }, { "epoch": 437.73, "learning_rate": 2.565104166666667e-06, "loss": 0.0523, "step": 1339 }, { "epoch": 438.7, "learning_rate": 2.5260416666666672e-06, "loss": 0.0517, "step": 1342 }, { "epoch": 440.0, "learning_rate": 2.4739583333333336e-06, "loss": 0.0382, "step": 1346 }, { "epoch": 440.97, "learning_rate": 2.4348958333333335e-06, "loss": 0.0524, "step": 1349 }, { "epoch": 441.95, "learning_rate": 2.395833333333334e-06, "loss": 0.0524, "step": 1352 }, { "epoch": 442.92, "learning_rate": 2.3567708333333337e-06, "loss": 0.0539, "step": 1355 }, { "epoch": 443.89, "learning_rate": 2.3177083333333336e-06, "loss": 0.05, "step": 1358 }, { "epoch": 444.86, "learning_rate": 2.2786458333333335e-06, "loss": 0.0507, "step": 1361 }, { "epoch": 445.84, "learning_rate": 2.2395833333333334e-06, "loss": 0.0505, "step": 1364 }, { "epoch": 446.81, "learning_rate": 2.2005208333333337e-06, "loss": 0.0518, "step": 1367 }, { "epoch": 447.78, "learning_rate": 2.1614583333333336e-06, "loss": 0.0509, "step": 1370 }, { "epoch": 448.76, "learning_rate": 2.1223958333333335e-06, "loss": 0.0504, "step": 1373 }, { "epoch": 449.73, "learning_rate": 2.0833333333333334e-06, "loss": 0.0498, "step": 1376 }, { "epoch": 450.7, "learning_rate": 2.0442708333333338e-06, "loss": 0.0518, "step": 1379 }, { "epoch": 452.0, "learning_rate": 1.9921875e-06, "loss": 0.0389, "step": 1383 }, { "epoch": 452.97, "learning_rate": 1.953125e-06, "loss": 0.0512, "step": 1386 }, { "epoch": 453.95, "learning_rate": 1.9140625000000004e-06, "loss": 0.0509, "step": 1389 }, { "epoch": 454.92, "learning_rate": 1.8750000000000003e-06, "loss": 0.0532, "step": 1392 }, { "epoch": 455.89, "learning_rate": 1.8359375000000002e-06, "loss": 0.0498, "step": 1395 }, { "epoch": 456.86, "learning_rate": 1.796875e-06, "loss": 0.05, "step": 1398 }, { "epoch": 457.84, "learning_rate": 1.7578125000000002e-06, "loss": 0.0526, "step": 1401 }, { "epoch": 458.81, "learning_rate": 1.71875e-06, "loss": 0.0514, "step": 1404 }, { "epoch": 459.78, "learning_rate": 1.6796875000000002e-06, "loss": 0.0529, "step": 1407 }, { "epoch": 460.76, "learning_rate": 1.640625e-06, "loss": 0.0501, "step": 1410 }, { "epoch": 461.73, "learning_rate": 1.6015625000000002e-06, "loss": 0.0508, "step": 1413 }, { "epoch": 462.7, "learning_rate": 1.5625e-06, "loss": 0.0509, "step": 1416 }, { "epoch": 464.0, "learning_rate": 1.5104166666666667e-06, "loss": 0.0385, "step": 1420 }, { "epoch": 464.97, "learning_rate": 1.4713541666666668e-06, "loss": 0.0533, "step": 1423 }, { "epoch": 465.95, "learning_rate": 1.4322916666666667e-06, "loss": 0.0504, "step": 1426 }, { "epoch": 466.92, "learning_rate": 1.3932291666666668e-06, "loss": 0.0512, "step": 1429 }, { "epoch": 467.89, "learning_rate": 1.3541666666666667e-06, "loss": 0.0517, "step": 1432 }, { "epoch": 468.86, "learning_rate": 1.3151041666666666e-06, "loss": 0.0484, "step": 1435 }, { "epoch": 469.84, "learning_rate": 1.2760416666666667e-06, "loss": 0.0511, "step": 1438 }, { "epoch": 470.81, "learning_rate": 1.2369791666666668e-06, "loss": 0.0515, "step": 1441 }, { "epoch": 471.78, "learning_rate": 1.197916666666667e-06, "loss": 0.0506, "step": 1444 }, { "epoch": 472.76, "learning_rate": 1.1588541666666668e-06, "loss": 0.0515, "step": 1447 }, { "epoch": 473.73, "learning_rate": 1.1197916666666667e-06, "loss": 0.0501, "step": 1450 }, { "epoch": 474.7, "learning_rate": 1.0807291666666668e-06, "loss": 0.0523, "step": 1453 }, { "epoch": 476.0, "learning_rate": 1.0286458333333334e-06, "loss": 0.0373, "step": 1457 }, { "epoch": 476.97, "learning_rate": 9.895833333333333e-07, "loss": 0.0504, "step": 1460 }, { "epoch": 477.95, "learning_rate": 9.505208333333333e-07, "loss": 0.0497, "step": 1463 }, { "epoch": 478.92, "learning_rate": 9.114583333333333e-07, "loss": 0.0496, "step": 1466 }, { "epoch": 479.89, "learning_rate": 8.723958333333333e-07, "loss": 0.0526, "step": 1469 }, { "epoch": 480.86, "learning_rate": 8.333333333333333e-07, "loss": 0.0491, "step": 1472 }, { "epoch": 481.84, "learning_rate": 7.942708333333333e-07, "loss": 0.0499, "step": 1475 }, { "epoch": 482.81, "learning_rate": 7.552083333333333e-07, "loss": 0.0519, "step": 1478 }, { "epoch": 483.78, "learning_rate": 7.161458333333333e-07, "loss": 0.0499, "step": 1481 }, { "epoch": 484.76, "learning_rate": 6.770833333333333e-07, "loss": 0.0516, "step": 1484 }, { "epoch": 485.73, "learning_rate": 6.380208333333333e-07, "loss": 0.0493, "step": 1487 }, { "epoch": 486.7, "learning_rate": 5.989583333333335e-07, "loss": 0.0513, "step": 1490 }, { "epoch": 488.0, "learning_rate": 5.468750000000001e-07, "loss": 0.0381, "step": 1494 }, { "epoch": 488.97, "learning_rate": 5.078125000000001e-07, "loss": 0.0518, "step": 1497 }, { "epoch": 489.95, "learning_rate": 4.6875000000000006e-07, "loss": 0.0489, "step": 1500 }, { "epoch": 490.92, "learning_rate": 4.296875e-07, "loss": 0.0497, "step": 1503 }, { "epoch": 491.89, "learning_rate": 3.90625e-07, "loss": 0.0492, "step": 1506 }, { "epoch": 492.86, "learning_rate": 3.515625e-07, "loss": 0.049, "step": 1509 }, { "epoch": 493.84, "learning_rate": 3.125e-07, "loss": 0.0487, "step": 1512 }, { "epoch": 494.81, "learning_rate": 2.7343750000000003e-07, "loss": 0.0495, "step": 1515 }, { "epoch": 495.78, "learning_rate": 2.3437500000000003e-07, "loss": 0.049, "step": 1518 }, { "epoch": 496.76, "learning_rate": 1.953125e-07, "loss": 0.0505, "step": 1521 }, { "epoch": 497.73, "learning_rate": 1.5625e-07, "loss": 0.0518, "step": 1524 }, { "epoch": 498.7, "learning_rate": 1.1718750000000002e-07, "loss": 0.0477, "step": 1527 }, { "epoch": 500.0, "learning_rate": 6.510416666666667e-08, "loss": 0.039, "step": 1531 }, { "epoch": 500.97, "learning_rate": 2.6041666666666667e-08, "loss": 0.0494, "step": 1534 }, { "epoch": 501.62, "learning_rate": 0.0, "loss": 0.0498, "step": 1536 }, { "epoch": 501.62, "step": 1536, "total_flos": 1.9358620133923584e+17, "train_loss": 0.10890851792161509, "train_runtime": 10408.3467, "train_samples_per_second": 288.507, "train_steps_per_second": 0.148 } ], "logging_steps": 500, "max_steps": 1536, "num_train_epochs": 512, "save_steps": 500, "total_flos": 1.9358620133923584e+17, "trial_name": null, "trial_params": null }