mi23's picture
End of training
156c75e
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 501.6216216216216,
"eval_steps": 500,
"global_step": 1536,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.97,
"learning_rate": 1.96875e-05,
"loss": 3.1065,
"step": 3
},
{
"epoch": 1.95,
"learning_rate": 1.9375e-05,
"loss": 3.0384,
"step": 6
},
{
"epoch": 2.92,
"learning_rate": 1.9062500000000003e-05,
"loss": 2.9724,
"step": 9
},
{
"epoch": 3.89,
"learning_rate": 1.8750000000000002e-05,
"loss": 2.9158,
"step": 12
},
{
"epoch": 4.86,
"learning_rate": 1.84375e-05,
"loss": 2.8626,
"step": 15
},
{
"epoch": 5.84,
"learning_rate": 1.8125e-05,
"loss": 2.8132,
"step": 18
},
{
"epoch": 6.81,
"learning_rate": 1.7812500000000003e-05,
"loss": 2.7628,
"step": 21
},
{
"epoch": 7.78,
"learning_rate": 1.7500000000000002e-05,
"loss": 2.7101,
"step": 24
},
{
"epoch": 8.76,
"learning_rate": 1.71875e-05,
"loss": 2.6544,
"step": 27
},
{
"epoch": 9.73,
"learning_rate": 1.6875e-05,
"loss": 2.601,
"step": 30
},
{
"epoch": 10.7,
"learning_rate": 1.6562500000000003e-05,
"loss": 2.5435,
"step": 33
},
{
"epoch": 12.0,
"learning_rate": 1.6145833333333334e-05,
"loss": 1.8692,
"step": 37
},
{
"epoch": 12.97,
"learning_rate": 1.5833333333333333e-05,
"loss": 2.4371,
"step": 40
},
{
"epoch": 13.95,
"learning_rate": 1.5520833333333332e-05,
"loss": 2.3895,
"step": 43
},
{
"epoch": 14.92,
"learning_rate": 1.5208333333333333e-05,
"loss": 2.344,
"step": 46
},
{
"epoch": 15.89,
"learning_rate": 1.4895833333333334e-05,
"loss": 2.2952,
"step": 49
},
{
"epoch": 16.86,
"learning_rate": 1.4583333333333333e-05,
"loss": 2.2481,
"step": 52
},
{
"epoch": 17.84,
"learning_rate": 1.4270833333333334e-05,
"loss": 2.2068,
"step": 55
},
{
"epoch": 18.81,
"learning_rate": 1.3958333333333333e-05,
"loss": 2.1665,
"step": 58
},
{
"epoch": 19.78,
"learning_rate": 1.3645833333333334e-05,
"loss": 2.1258,
"step": 61
},
{
"epoch": 20.76,
"learning_rate": 1.3333333333333333e-05,
"loss": 2.0826,
"step": 64
},
{
"epoch": 21.73,
"learning_rate": 1.3020833333333334e-05,
"loss": 2.0473,
"step": 67
},
{
"epoch": 22.7,
"learning_rate": 1.2708333333333333e-05,
"loss": 2.0172,
"step": 70
},
{
"epoch": 24.0,
"learning_rate": 1.2291666666666668e-05,
"loss": 1.4875,
"step": 74
},
{
"epoch": 24.97,
"learning_rate": 1.1979166666666669e-05,
"loss": 1.9533,
"step": 77
},
{
"epoch": 25.95,
"learning_rate": 1.1666666666666668e-05,
"loss": 1.9172,
"step": 80
},
{
"epoch": 26.92,
"learning_rate": 1.1354166666666669e-05,
"loss": 1.8928,
"step": 83
},
{
"epoch": 27.89,
"learning_rate": 1.1041666666666668e-05,
"loss": 1.8566,
"step": 86
},
{
"epoch": 28.86,
"learning_rate": 1.0729166666666669e-05,
"loss": 1.8305,
"step": 89
},
{
"epoch": 29.84,
"learning_rate": 1.0416666666666668e-05,
"loss": 1.804,
"step": 92
},
{
"epoch": 30.81,
"learning_rate": 1.0104166666666669e-05,
"loss": 1.7778,
"step": 95
},
{
"epoch": 31.78,
"learning_rate": 9.791666666666666e-06,
"loss": 1.7575,
"step": 98
},
{
"epoch": 32.76,
"learning_rate": 9.479166666666667e-06,
"loss": 1.7317,
"step": 101
},
{
"epoch": 33.73,
"learning_rate": 9.166666666666666e-06,
"loss": 1.7139,
"step": 104
},
{
"epoch": 34.7,
"learning_rate": 8.854166666666667e-06,
"loss": 1.6907,
"step": 107
},
{
"epoch": 36.0,
"learning_rate": 8.4375e-06,
"loss": 1.2573,
"step": 111
},
{
"epoch": 36.97,
"learning_rate": 8.125000000000001e-06,
"loss": 1.6551,
"step": 114
},
{
"epoch": 37.95,
"learning_rate": 7.8125e-06,
"loss": 1.641,
"step": 117
},
{
"epoch": 38.92,
"learning_rate": 7.500000000000001e-06,
"loss": 1.6249,
"step": 120
},
{
"epoch": 39.89,
"learning_rate": 7.1875e-06,
"loss": 1.6099,
"step": 123
},
{
"epoch": 40.86,
"learning_rate": 6.875e-06,
"loss": 1.594,
"step": 126
},
{
"epoch": 41.84,
"learning_rate": 6.5625e-06,
"loss": 1.5781,
"step": 129
},
{
"epoch": 42.81,
"learning_rate": 6.25e-06,
"loss": 1.5634,
"step": 132
},
{
"epoch": 43.78,
"learning_rate": 5.9375e-06,
"loss": 1.5502,
"step": 135
},
{
"epoch": 44.76,
"learning_rate": 5.625e-06,
"loss": 1.5408,
"step": 138
},
{
"epoch": 45.73,
"learning_rate": 5.3125e-06,
"loss": 1.5249,
"step": 141
},
{
"epoch": 46.7,
"learning_rate": 5e-06,
"loss": 1.5144,
"step": 144
},
{
"epoch": 48.0,
"learning_rate": 4.583333333333333e-06,
"loss": 1.1303,
"step": 148
},
{
"epoch": 48.97,
"learning_rate": 4.270833333333333e-06,
"loss": 1.4962,
"step": 151
},
{
"epoch": 49.95,
"learning_rate": 3.958333333333333e-06,
"loss": 1.489,
"step": 154
},
{
"epoch": 50.92,
"learning_rate": 3.6458333333333333e-06,
"loss": 1.4794,
"step": 157
},
{
"epoch": 51.89,
"learning_rate": 3.3333333333333333e-06,
"loss": 1.4712,
"step": 160
},
{
"epoch": 52.86,
"learning_rate": 3.0208333333333334e-06,
"loss": 1.4613,
"step": 163
},
{
"epoch": 53.84,
"learning_rate": 2.7083333333333334e-06,
"loss": 1.4528,
"step": 166
},
{
"epoch": 54.81,
"learning_rate": 2.395833333333334e-06,
"loss": 1.4473,
"step": 169
},
{
"epoch": 55.78,
"learning_rate": 2.0833333333333334e-06,
"loss": 1.4385,
"step": 172
},
{
"epoch": 56.76,
"learning_rate": 1.7708333333333337e-06,
"loss": 1.4403,
"step": 175
},
{
"epoch": 57.73,
"learning_rate": 1.4583333333333335e-06,
"loss": 1.4276,
"step": 178
},
{
"epoch": 58.7,
"learning_rate": 1.1458333333333333e-06,
"loss": 1.4291,
"step": 181
},
{
"epoch": 60.0,
"learning_rate": 7.291666666666667e-07,
"loss": 1.0688,
"step": 185
},
{
"epoch": 60.97,
"learning_rate": 4.1666666666666667e-07,
"loss": 1.4217,
"step": 188
},
{
"epoch": 61.95,
"learning_rate": 1.0416666666666667e-07,
"loss": 1.4242,
"step": 191
},
{
"epoch": 62.27,
"learning_rate": 0.0,
"loss": 1.1326,
"step": 192
},
{
"epoch": 64.97,
"learning_rate": 9.84375e-06,
"loss": 1.4213,
"step": 195
},
{
"epoch": 65.95,
"learning_rate": 9.6875e-06,
"loss": 1.3989,
"step": 198
},
{
"epoch": 66.92,
"learning_rate": 9.531250000000001e-06,
"loss": 1.3782,
"step": 201
},
{
"epoch": 67.89,
"learning_rate": 9.375000000000001e-06,
"loss": 1.3594,
"step": 204
},
{
"epoch": 68.86,
"learning_rate": 9.21875e-06,
"loss": 1.3425,
"step": 207
},
{
"epoch": 69.84,
"learning_rate": 9.0625e-06,
"loss": 1.3209,
"step": 210
},
{
"epoch": 70.81,
"learning_rate": 8.906250000000001e-06,
"loss": 1.3018,
"step": 213
},
{
"epoch": 71.78,
"learning_rate": 8.750000000000001e-06,
"loss": 1.2872,
"step": 216
},
{
"epoch": 72.76,
"learning_rate": 8.59375e-06,
"loss": 1.2717,
"step": 219
},
{
"epoch": 73.73,
"learning_rate": 8.4375e-06,
"loss": 1.2531,
"step": 222
},
{
"epoch": 74.7,
"learning_rate": 8.281250000000001e-06,
"loss": 1.2371,
"step": 225
},
{
"epoch": 76.0,
"learning_rate": 8.072916666666667e-06,
"loss": 0.9161,
"step": 229
},
{
"epoch": 76.97,
"learning_rate": 7.916666666666667e-06,
"loss": 1.2111,
"step": 232
},
{
"epoch": 77.95,
"learning_rate": 7.760416666666666e-06,
"loss": 1.1966,
"step": 235
},
{
"epoch": 78.92,
"learning_rate": 7.6041666666666666e-06,
"loss": 1.1775,
"step": 238
},
{
"epoch": 79.89,
"learning_rate": 7.447916666666667e-06,
"loss": 1.1638,
"step": 241
},
{
"epoch": 80.86,
"learning_rate": 7.291666666666667e-06,
"loss": 1.154,
"step": 244
},
{
"epoch": 81.84,
"learning_rate": 7.135416666666667e-06,
"loss": 1.1335,
"step": 247
},
{
"epoch": 82.81,
"learning_rate": 6.979166666666667e-06,
"loss": 1.1245,
"step": 250
},
{
"epoch": 83.78,
"learning_rate": 6.822916666666667e-06,
"loss": 1.1195,
"step": 253
},
{
"epoch": 84.76,
"learning_rate": 6.666666666666667e-06,
"loss": 1.1042,
"step": 256
},
{
"epoch": 85.73,
"learning_rate": 6.510416666666667e-06,
"loss": 1.092,
"step": 259
},
{
"epoch": 86.7,
"learning_rate": 6.354166666666667e-06,
"loss": 1.0786,
"step": 262
},
{
"epoch": 88.0,
"learning_rate": 6.145833333333334e-06,
"loss": 0.8002,
"step": 266
},
{
"epoch": 88.97,
"learning_rate": 5.989583333333334e-06,
"loss": 1.0561,
"step": 269
},
{
"epoch": 89.95,
"learning_rate": 5.833333333333334e-06,
"loss": 1.0469,
"step": 272
},
{
"epoch": 90.92,
"learning_rate": 5.677083333333334e-06,
"loss": 1.0395,
"step": 275
},
{
"epoch": 91.89,
"learning_rate": 5.520833333333334e-06,
"loss": 1.0276,
"step": 278
},
{
"epoch": 92.86,
"learning_rate": 5.364583333333334e-06,
"loss": 1.0149,
"step": 281
},
{
"epoch": 93.84,
"learning_rate": 5.208333333333334e-06,
"loss": 1.0107,
"step": 284
},
{
"epoch": 94.81,
"learning_rate": 5.0520833333333344e-06,
"loss": 0.9976,
"step": 287
},
{
"epoch": 95.78,
"learning_rate": 4.895833333333333e-06,
"loss": 0.9843,
"step": 290
},
{
"epoch": 96.76,
"learning_rate": 4.739583333333334e-06,
"loss": 0.9816,
"step": 293
},
{
"epoch": 97.73,
"learning_rate": 4.583333333333333e-06,
"loss": 0.9702,
"step": 296
},
{
"epoch": 98.7,
"learning_rate": 4.427083333333334e-06,
"loss": 0.9683,
"step": 299
},
{
"epoch": 100.0,
"learning_rate": 4.21875e-06,
"loss": 0.7223,
"step": 303
},
{
"epoch": 100.97,
"learning_rate": 4.0625000000000005e-06,
"loss": 0.9523,
"step": 306
},
{
"epoch": 101.95,
"learning_rate": 3.90625e-06,
"loss": 0.9421,
"step": 309
},
{
"epoch": 102.92,
"learning_rate": 3.7500000000000005e-06,
"loss": 0.9471,
"step": 312
},
{
"epoch": 103.89,
"learning_rate": 3.59375e-06,
"loss": 0.9351,
"step": 315
},
{
"epoch": 104.86,
"learning_rate": 3.4375e-06,
"loss": 0.924,
"step": 318
},
{
"epoch": 105.84,
"learning_rate": 3.28125e-06,
"loss": 0.9218,
"step": 321
},
{
"epoch": 106.81,
"learning_rate": 3.125e-06,
"loss": 0.9217,
"step": 324
},
{
"epoch": 107.78,
"learning_rate": 2.96875e-06,
"loss": 0.9078,
"step": 327
},
{
"epoch": 108.76,
"learning_rate": 2.8125e-06,
"loss": 0.9082,
"step": 330
},
{
"epoch": 109.73,
"learning_rate": 2.65625e-06,
"loss": 0.9068,
"step": 333
},
{
"epoch": 110.7,
"learning_rate": 2.5e-06,
"loss": 0.8969,
"step": 336
},
{
"epoch": 112.0,
"learning_rate": 2.2916666666666666e-06,
"loss": 0.6673,
"step": 340
},
{
"epoch": 112.97,
"learning_rate": 2.1354166666666666e-06,
"loss": 0.8892,
"step": 343
},
{
"epoch": 113.95,
"learning_rate": 1.9791666666666666e-06,
"loss": 0.8896,
"step": 346
},
{
"epoch": 114.92,
"learning_rate": 1.8229166666666666e-06,
"loss": 0.8764,
"step": 349
},
{
"epoch": 115.89,
"learning_rate": 1.6666666666666667e-06,
"loss": 0.8754,
"step": 352
},
{
"epoch": 116.86,
"learning_rate": 1.5104166666666667e-06,
"loss": 0.8729,
"step": 355
},
{
"epoch": 117.84,
"learning_rate": 1.3541666666666667e-06,
"loss": 0.8714,
"step": 358
},
{
"epoch": 118.81,
"learning_rate": 1.197916666666667e-06,
"loss": 0.8697,
"step": 361
},
{
"epoch": 119.78,
"learning_rate": 1.0416666666666667e-06,
"loss": 0.8646,
"step": 364
},
{
"epoch": 120.76,
"learning_rate": 8.854166666666668e-07,
"loss": 0.8601,
"step": 367
},
{
"epoch": 121.73,
"learning_rate": 7.291666666666667e-07,
"loss": 0.8579,
"step": 370
},
{
"epoch": 122.7,
"learning_rate": 5.729166666666667e-07,
"loss": 0.8657,
"step": 373
},
{
"epoch": 124.0,
"learning_rate": 3.6458333333333337e-07,
"loss": 0.6457,
"step": 377
},
{
"epoch": 124.97,
"learning_rate": 2.0833333333333333e-07,
"loss": 0.8564,
"step": 380
},
{
"epoch": 125.95,
"learning_rate": 5.208333333333333e-08,
"loss": 0.8588,
"step": 383
},
{
"epoch": 126.27,
"learning_rate": 0.0,
"loss": 0.7301,
"step": 384
},
{
"epoch": 128.97,
"learning_rate": 1.4960937500000002e-05,
"loss": 0.8564,
"step": 387
},
{
"epoch": 129.95,
"learning_rate": 1.4921875000000002e-05,
"loss": 0.8371,
"step": 390
},
{
"epoch": 130.92,
"learning_rate": 1.4882812500000002e-05,
"loss": 0.8192,
"step": 393
},
{
"epoch": 131.89,
"learning_rate": 1.4843750000000002e-05,
"loss": 0.7975,
"step": 396
},
{
"epoch": 132.86,
"learning_rate": 1.4804687500000002e-05,
"loss": 0.7844,
"step": 399
},
{
"epoch": 133.84,
"learning_rate": 1.4765625000000001e-05,
"loss": 0.7674,
"step": 402
},
{
"epoch": 134.81,
"learning_rate": 1.4726562500000001e-05,
"loss": 0.7525,
"step": 405
},
{
"epoch": 135.78,
"learning_rate": 1.4687500000000001e-05,
"loss": 0.7345,
"step": 408
},
{
"epoch": 136.76,
"learning_rate": 1.4648437500000001e-05,
"loss": 0.7159,
"step": 411
},
{
"epoch": 137.73,
"learning_rate": 1.4609375000000001e-05,
"loss": 0.7023,
"step": 414
},
{
"epoch": 138.7,
"learning_rate": 1.4570312500000001e-05,
"loss": 0.6946,
"step": 417
},
{
"epoch": 140.0,
"learning_rate": 1.4518229166666669e-05,
"loss": 0.5039,
"step": 421
},
{
"epoch": 140.97,
"learning_rate": 1.4479166666666669e-05,
"loss": 0.6631,
"step": 424
},
{
"epoch": 141.95,
"learning_rate": 1.4440104166666668e-05,
"loss": 0.6543,
"step": 427
},
{
"epoch": 142.92,
"learning_rate": 1.4401041666666668e-05,
"loss": 0.6378,
"step": 430
},
{
"epoch": 143.89,
"learning_rate": 1.4361979166666668e-05,
"loss": 0.6212,
"step": 433
},
{
"epoch": 144.86,
"learning_rate": 1.4322916666666668e-05,
"loss": 0.6069,
"step": 436
},
{
"epoch": 145.84,
"learning_rate": 1.4283854166666668e-05,
"loss": 0.5981,
"step": 439
},
{
"epoch": 146.81,
"learning_rate": 1.4244791666666668e-05,
"loss": 0.5923,
"step": 442
},
{
"epoch": 147.78,
"learning_rate": 1.4205729166666668e-05,
"loss": 0.5754,
"step": 445
},
{
"epoch": 148.76,
"learning_rate": 1.416666666666667e-05,
"loss": 0.5653,
"step": 448
},
{
"epoch": 149.73,
"learning_rate": 1.412760416666667e-05,
"loss": 0.555,
"step": 451
},
{
"epoch": 150.7,
"learning_rate": 1.408854166666667e-05,
"loss": 0.5408,
"step": 454
},
{
"epoch": 152.0,
"learning_rate": 1.4036458333333333e-05,
"loss": 0.4004,
"step": 458
},
{
"epoch": 152.97,
"learning_rate": 1.3997395833333333e-05,
"loss": 0.5188,
"step": 461
},
{
"epoch": 153.95,
"learning_rate": 1.3958333333333333e-05,
"loss": 0.5146,
"step": 464
},
{
"epoch": 154.92,
"learning_rate": 1.3919270833333333e-05,
"loss": 0.502,
"step": 467
},
{
"epoch": 155.89,
"learning_rate": 1.3880208333333333e-05,
"loss": 0.4932,
"step": 470
},
{
"epoch": 156.86,
"learning_rate": 1.3841145833333333e-05,
"loss": 0.4822,
"step": 473
},
{
"epoch": 157.84,
"learning_rate": 1.3802083333333335e-05,
"loss": 0.4804,
"step": 476
},
{
"epoch": 158.81,
"learning_rate": 1.3763020833333334e-05,
"loss": 0.4648,
"step": 479
},
{
"epoch": 159.78,
"learning_rate": 1.3723958333333334e-05,
"loss": 0.4551,
"step": 482
},
{
"epoch": 160.76,
"learning_rate": 1.3684895833333334e-05,
"loss": 0.4473,
"step": 485
},
{
"epoch": 161.73,
"learning_rate": 1.3645833333333334e-05,
"loss": 0.4402,
"step": 488
},
{
"epoch": 162.7,
"learning_rate": 1.3606770833333334e-05,
"loss": 0.4293,
"step": 491
},
{
"epoch": 164.0,
"learning_rate": 1.3554687500000002e-05,
"loss": 0.3169,
"step": 495
},
{
"epoch": 164.97,
"learning_rate": 1.3515625000000002e-05,
"loss": 0.4116,
"step": 498
},
{
"epoch": 165.95,
"learning_rate": 1.3476562500000001e-05,
"loss": 0.4042,
"step": 501
},
{
"epoch": 166.92,
"learning_rate": 1.3437500000000001e-05,
"loss": 0.3975,
"step": 504
},
{
"epoch": 167.89,
"learning_rate": 1.3398437500000001e-05,
"loss": 0.379,
"step": 507
},
{
"epoch": 168.86,
"learning_rate": 1.3359375000000001e-05,
"loss": 0.3789,
"step": 510
},
{
"epoch": 169.84,
"learning_rate": 1.3320312500000001e-05,
"loss": 0.3669,
"step": 513
},
{
"epoch": 170.81,
"learning_rate": 1.3281250000000001e-05,
"loss": 0.3595,
"step": 516
},
{
"epoch": 171.78,
"learning_rate": 1.3242187500000001e-05,
"loss": 0.3508,
"step": 519
},
{
"epoch": 172.76,
"learning_rate": 1.3203125e-05,
"loss": 0.3415,
"step": 522
},
{
"epoch": 173.73,
"learning_rate": 1.31640625e-05,
"loss": 0.3297,
"step": 525
},
{
"epoch": 174.7,
"learning_rate": 1.3125e-05,
"loss": 0.3316,
"step": 528
},
{
"epoch": 176.0,
"learning_rate": 1.3072916666666668e-05,
"loss": 0.2403,
"step": 532
},
{
"epoch": 176.97,
"learning_rate": 1.3033854166666668e-05,
"loss": 0.3148,
"step": 535
},
{
"epoch": 177.95,
"learning_rate": 1.2994791666666668e-05,
"loss": 0.3119,
"step": 538
},
{
"epoch": 178.92,
"learning_rate": 1.2955729166666668e-05,
"loss": 0.3013,
"step": 541
},
{
"epoch": 179.89,
"learning_rate": 1.2916666666666668e-05,
"loss": 0.2972,
"step": 544
},
{
"epoch": 180.86,
"learning_rate": 1.2877604166666668e-05,
"loss": 0.2894,
"step": 547
},
{
"epoch": 181.84,
"learning_rate": 1.283854166666667e-05,
"loss": 0.2837,
"step": 550
},
{
"epoch": 182.81,
"learning_rate": 1.279947916666667e-05,
"loss": 0.278,
"step": 553
},
{
"epoch": 183.78,
"learning_rate": 1.2760416666666669e-05,
"loss": 0.2773,
"step": 556
},
{
"epoch": 184.76,
"learning_rate": 1.2721354166666669e-05,
"loss": 0.2768,
"step": 559
},
{
"epoch": 185.73,
"learning_rate": 1.2682291666666669e-05,
"loss": 0.2652,
"step": 562
},
{
"epoch": 186.7,
"learning_rate": 1.2643229166666669e-05,
"loss": 0.266,
"step": 565
},
{
"epoch": 188.0,
"learning_rate": 1.2591145833333333e-05,
"loss": 0.1962,
"step": 569
},
{
"epoch": 188.97,
"learning_rate": 1.2552083333333333e-05,
"loss": 0.259,
"step": 572
},
{
"epoch": 189.95,
"learning_rate": 1.2513020833333333e-05,
"loss": 0.2516,
"step": 575
},
{
"epoch": 190.92,
"learning_rate": 1.2473958333333334e-05,
"loss": 0.2501,
"step": 578
},
{
"epoch": 191.89,
"learning_rate": 1.2434895833333334e-05,
"loss": 0.243,
"step": 581
},
{
"epoch": 192.86,
"learning_rate": 1.2395833333333334e-05,
"loss": 0.2399,
"step": 584
},
{
"epoch": 193.84,
"learning_rate": 1.2356770833333334e-05,
"loss": 0.2396,
"step": 587
},
{
"epoch": 194.81,
"learning_rate": 1.2317708333333334e-05,
"loss": 0.2332,
"step": 590
},
{
"epoch": 195.78,
"learning_rate": 1.2278645833333334e-05,
"loss": 0.2244,
"step": 593
},
{
"epoch": 196.76,
"learning_rate": 1.2239583333333334e-05,
"loss": 0.2224,
"step": 596
},
{
"epoch": 197.73,
"learning_rate": 1.2200520833333334e-05,
"loss": 0.2175,
"step": 599
},
{
"epoch": 198.7,
"learning_rate": 1.2161458333333334e-05,
"loss": 0.2191,
"step": 602
},
{
"epoch": 200.0,
"learning_rate": 1.2109375000000001e-05,
"loss": 0.1639,
"step": 606
},
{
"epoch": 200.97,
"learning_rate": 1.2070312500000001e-05,
"loss": 0.2124,
"step": 609
},
{
"epoch": 201.95,
"learning_rate": 1.2031250000000001e-05,
"loss": 0.2076,
"step": 612
},
{
"epoch": 202.92,
"learning_rate": 1.1992187500000001e-05,
"loss": 0.2042,
"step": 615
},
{
"epoch": 203.89,
"learning_rate": 1.1953125000000001e-05,
"loss": 0.2005,
"step": 618
},
{
"epoch": 204.86,
"learning_rate": 1.19140625e-05,
"loss": 0.1983,
"step": 621
},
{
"epoch": 205.84,
"learning_rate": 1.1875e-05,
"loss": 0.194,
"step": 624
},
{
"epoch": 206.81,
"learning_rate": 1.18359375e-05,
"loss": 0.1901,
"step": 627
},
{
"epoch": 207.78,
"learning_rate": 1.1796875e-05,
"loss": 0.1886,
"step": 630
},
{
"epoch": 208.76,
"learning_rate": 1.17578125e-05,
"loss": 0.1817,
"step": 633
},
{
"epoch": 209.73,
"learning_rate": 1.171875e-05,
"loss": 0.1841,
"step": 636
},
{
"epoch": 210.7,
"learning_rate": 1.16796875e-05,
"loss": 0.1769,
"step": 639
},
{
"epoch": 212.0,
"learning_rate": 1.1627604166666668e-05,
"loss": 0.1352,
"step": 643
},
{
"epoch": 212.97,
"learning_rate": 1.1588541666666668e-05,
"loss": 0.1765,
"step": 646
},
{
"epoch": 213.95,
"learning_rate": 1.1549479166666668e-05,
"loss": 0.1696,
"step": 649
},
{
"epoch": 214.92,
"learning_rate": 1.151041666666667e-05,
"loss": 0.1679,
"step": 652
},
{
"epoch": 215.89,
"learning_rate": 1.1471354166666669e-05,
"loss": 0.1609,
"step": 655
},
{
"epoch": 216.86,
"learning_rate": 1.1432291666666669e-05,
"loss": 0.1633,
"step": 658
},
{
"epoch": 217.84,
"learning_rate": 1.1393229166666669e-05,
"loss": 0.1616,
"step": 661
},
{
"epoch": 218.81,
"learning_rate": 1.1354166666666669e-05,
"loss": 0.1589,
"step": 664
},
{
"epoch": 219.78,
"learning_rate": 1.1315104166666669e-05,
"loss": 0.158,
"step": 667
},
{
"epoch": 220.76,
"learning_rate": 1.1276041666666669e-05,
"loss": 0.1544,
"step": 670
},
{
"epoch": 221.73,
"learning_rate": 1.1236979166666668e-05,
"loss": 0.154,
"step": 673
},
{
"epoch": 222.7,
"learning_rate": 1.1197916666666668e-05,
"loss": 0.1516,
"step": 676
},
{
"epoch": 224.0,
"learning_rate": 1.1145833333333334e-05,
"loss": 0.1152,
"step": 680
},
{
"epoch": 224.97,
"learning_rate": 1.1106770833333334e-05,
"loss": 0.1516,
"step": 683
},
{
"epoch": 225.95,
"learning_rate": 1.1067708333333334e-05,
"loss": 0.145,
"step": 686
},
{
"epoch": 226.92,
"learning_rate": 1.1028645833333334e-05,
"loss": 0.1455,
"step": 689
},
{
"epoch": 227.89,
"learning_rate": 1.0989583333333334e-05,
"loss": 0.1437,
"step": 692
},
{
"epoch": 228.86,
"learning_rate": 1.0950520833333334e-05,
"loss": 0.1409,
"step": 695
},
{
"epoch": 229.84,
"learning_rate": 1.0911458333333334e-05,
"loss": 0.1452,
"step": 698
},
{
"epoch": 230.81,
"learning_rate": 1.0872395833333334e-05,
"loss": 0.1366,
"step": 701
},
{
"epoch": 231.78,
"learning_rate": 1.0833333333333334e-05,
"loss": 0.1367,
"step": 704
},
{
"epoch": 232.76,
"learning_rate": 1.0794270833333333e-05,
"loss": 0.1357,
"step": 707
},
{
"epoch": 233.73,
"learning_rate": 1.0755208333333333e-05,
"loss": 0.1342,
"step": 710
},
{
"epoch": 234.7,
"learning_rate": 1.0716145833333333e-05,
"loss": 0.1276,
"step": 713
},
{
"epoch": 236.0,
"learning_rate": 1.0664062500000001e-05,
"loss": 0.0974,
"step": 717
},
{
"epoch": 236.97,
"learning_rate": 1.0625e-05,
"loss": 0.1325,
"step": 720
},
{
"epoch": 237.95,
"learning_rate": 1.05859375e-05,
"loss": 0.1266,
"step": 723
},
{
"epoch": 238.92,
"learning_rate": 1.0546875e-05,
"loss": 0.1237,
"step": 726
},
{
"epoch": 239.89,
"learning_rate": 1.05078125e-05,
"loss": 0.1258,
"step": 729
},
{
"epoch": 240.86,
"learning_rate": 1.046875e-05,
"loss": 0.123,
"step": 732
},
{
"epoch": 241.84,
"learning_rate": 1.04296875e-05,
"loss": 0.1228,
"step": 735
},
{
"epoch": 242.81,
"learning_rate": 1.0390625e-05,
"loss": 0.12,
"step": 738
},
{
"epoch": 243.78,
"learning_rate": 1.03515625e-05,
"loss": 0.1174,
"step": 741
},
{
"epoch": 244.76,
"learning_rate": 1.0312500000000002e-05,
"loss": 0.118,
"step": 744
},
{
"epoch": 245.73,
"learning_rate": 1.0273437500000002e-05,
"loss": 0.1157,
"step": 747
},
{
"epoch": 246.7,
"learning_rate": 1.0234375000000001e-05,
"loss": 0.115,
"step": 750
},
{
"epoch": 248.0,
"learning_rate": 1.0182291666666667e-05,
"loss": 0.0826,
"step": 754
},
{
"epoch": 248.97,
"learning_rate": 1.0143229166666669e-05,
"loss": 0.1094,
"step": 757
},
{
"epoch": 249.95,
"learning_rate": 1.0104166666666669e-05,
"loss": 0.1094,
"step": 760
},
{
"epoch": 250.92,
"learning_rate": 1.0065104166666669e-05,
"loss": 0.111,
"step": 763
},
{
"epoch": 251.89,
"learning_rate": 1.0026041666666669e-05,
"loss": 0.1056,
"step": 766
},
{
"epoch": 252.86,
"learning_rate": 9.986979166666667e-06,
"loss": 0.1076,
"step": 769
},
{
"epoch": 253.84,
"learning_rate": 9.947916666666667e-06,
"loss": 0.1031,
"step": 772
},
{
"epoch": 254.81,
"learning_rate": 9.908854166666667e-06,
"loss": 0.1084,
"step": 775
},
{
"epoch": 255.78,
"learning_rate": 9.869791666666667e-06,
"loss": 0.1043,
"step": 778
},
{
"epoch": 256.76,
"learning_rate": 9.830729166666666e-06,
"loss": 0.0984,
"step": 781
},
{
"epoch": 257.73,
"learning_rate": 9.791666666666666e-06,
"loss": 0.098,
"step": 784
},
{
"epoch": 258.7,
"learning_rate": 9.752604166666666e-06,
"loss": 0.1013,
"step": 787
},
{
"epoch": 260.0,
"learning_rate": 9.700520833333334e-06,
"loss": 0.0743,
"step": 791
},
{
"epoch": 260.97,
"learning_rate": 9.661458333333334e-06,
"loss": 0.0947,
"step": 794
},
{
"epoch": 261.95,
"learning_rate": 9.622395833333334e-06,
"loss": 0.0965,
"step": 797
},
{
"epoch": 262.92,
"learning_rate": 9.583333333333335e-06,
"loss": 0.0947,
"step": 800
},
{
"epoch": 263.89,
"learning_rate": 9.544270833333335e-06,
"loss": 0.0952,
"step": 803
},
{
"epoch": 264.86,
"learning_rate": 9.505208333333335e-06,
"loss": 0.0896,
"step": 806
},
{
"epoch": 265.84,
"learning_rate": 9.466145833333335e-06,
"loss": 0.0891,
"step": 809
},
{
"epoch": 266.81,
"learning_rate": 9.427083333333335e-06,
"loss": 0.0939,
"step": 812
},
{
"epoch": 267.78,
"learning_rate": 9.388020833333335e-06,
"loss": 0.0911,
"step": 815
},
{
"epoch": 268.76,
"learning_rate": 9.348958333333335e-06,
"loss": 0.0882,
"step": 818
},
{
"epoch": 269.73,
"learning_rate": 9.309895833333335e-06,
"loss": 0.0903,
"step": 821
},
{
"epoch": 270.7,
"learning_rate": 9.270833333333334e-06,
"loss": 0.0869,
"step": 824
},
{
"epoch": 272.0,
"learning_rate": 9.21875e-06,
"loss": 0.0664,
"step": 828
},
{
"epoch": 272.97,
"learning_rate": 9.1796875e-06,
"loss": 0.0868,
"step": 831
},
{
"epoch": 273.95,
"learning_rate": 9.140625e-06,
"loss": 0.0867,
"step": 834
},
{
"epoch": 274.92,
"learning_rate": 9.1015625e-06,
"loss": 0.0858,
"step": 837
},
{
"epoch": 275.89,
"learning_rate": 9.0625e-06,
"loss": 0.0842,
"step": 840
},
{
"epoch": 276.86,
"learning_rate": 9.0234375e-06,
"loss": 0.0869,
"step": 843
},
{
"epoch": 277.84,
"learning_rate": 8.984375000000002e-06,
"loss": 0.0803,
"step": 846
},
{
"epoch": 278.81,
"learning_rate": 8.945312500000001e-06,
"loss": 0.0813,
"step": 849
},
{
"epoch": 279.78,
"learning_rate": 8.906250000000001e-06,
"loss": 0.084,
"step": 852
},
{
"epoch": 280.76,
"learning_rate": 8.867187500000001e-06,
"loss": 0.0814,
"step": 855
},
{
"epoch": 281.73,
"learning_rate": 8.828125000000001e-06,
"loss": 0.0782,
"step": 858
},
{
"epoch": 282.7,
"learning_rate": 8.789062500000001e-06,
"loss": 0.0803,
"step": 861
},
{
"epoch": 284.0,
"learning_rate": 8.736979166666667e-06,
"loss": 0.0596,
"step": 865
},
{
"epoch": 284.97,
"learning_rate": 8.697916666666667e-06,
"loss": 0.0787,
"step": 868
},
{
"epoch": 285.95,
"learning_rate": 8.658854166666667e-06,
"loss": 0.0748,
"step": 871
},
{
"epoch": 286.92,
"learning_rate": 8.619791666666667e-06,
"loss": 0.0816,
"step": 874
},
{
"epoch": 287.89,
"learning_rate": 8.580729166666667e-06,
"loss": 0.0776,
"step": 877
},
{
"epoch": 288.86,
"learning_rate": 8.541666666666666e-06,
"loss": 0.0749,
"step": 880
},
{
"epoch": 289.84,
"learning_rate": 8.502604166666666e-06,
"loss": 0.0795,
"step": 883
},
{
"epoch": 290.81,
"learning_rate": 8.463541666666666e-06,
"loss": 0.075,
"step": 886
},
{
"epoch": 291.78,
"learning_rate": 8.424479166666666e-06,
"loss": 0.0756,
"step": 889
},
{
"epoch": 292.76,
"learning_rate": 8.385416666666668e-06,
"loss": 0.0755,
"step": 892
},
{
"epoch": 293.73,
"learning_rate": 8.346354166666668e-06,
"loss": 0.0721,
"step": 895
},
{
"epoch": 294.7,
"learning_rate": 8.307291666666668e-06,
"loss": 0.0745,
"step": 898
},
{
"epoch": 296.0,
"learning_rate": 8.255208333333335e-06,
"loss": 0.0535,
"step": 902
},
{
"epoch": 296.97,
"learning_rate": 8.216145833333335e-06,
"loss": 0.0743,
"step": 905
},
{
"epoch": 297.95,
"learning_rate": 8.177083333333335e-06,
"loss": 0.0756,
"step": 908
},
{
"epoch": 298.92,
"learning_rate": 8.138020833333335e-06,
"loss": 0.0728,
"step": 911
},
{
"epoch": 299.89,
"learning_rate": 8.098958333333335e-06,
"loss": 0.0744,
"step": 914
},
{
"epoch": 300.86,
"learning_rate": 8.059895833333335e-06,
"loss": 0.0713,
"step": 917
},
{
"epoch": 301.84,
"learning_rate": 8.020833333333335e-06,
"loss": 0.0707,
"step": 920
},
{
"epoch": 302.81,
"learning_rate": 7.981770833333335e-06,
"loss": 0.0715,
"step": 923
},
{
"epoch": 303.78,
"learning_rate": 7.942708333333334e-06,
"loss": 0.0686,
"step": 926
},
{
"epoch": 304.76,
"learning_rate": 7.903645833333334e-06,
"loss": 0.0691,
"step": 929
},
{
"epoch": 305.73,
"learning_rate": 7.864583333333334e-06,
"loss": 0.0682,
"step": 932
},
{
"epoch": 306.7,
"learning_rate": 7.825520833333334e-06,
"loss": 0.0701,
"step": 935
},
{
"epoch": 308.0,
"learning_rate": 7.7734375e-06,
"loss": 0.0488,
"step": 939
},
{
"epoch": 308.97,
"learning_rate": 7.734375e-06,
"loss": 0.0689,
"step": 942
},
{
"epoch": 309.95,
"learning_rate": 7.6953125e-06,
"loss": 0.0685,
"step": 945
},
{
"epoch": 310.92,
"learning_rate": 7.656250000000001e-06,
"loss": 0.0688,
"step": 948
},
{
"epoch": 311.89,
"learning_rate": 7.6171875000000005e-06,
"loss": 0.0685,
"step": 951
},
{
"epoch": 312.86,
"learning_rate": 7.578125e-06,
"loss": 0.0688,
"step": 954
},
{
"epoch": 313.84,
"learning_rate": 7.5390625e-06,
"loss": 0.0656,
"step": 957
},
{
"epoch": 314.81,
"learning_rate": 7.500000000000001e-06,
"loss": 0.0666,
"step": 960
},
{
"epoch": 315.78,
"learning_rate": 7.460937500000001e-06,
"loss": 0.0666,
"step": 963
},
{
"epoch": 316.76,
"learning_rate": 7.421875000000001e-06,
"loss": 0.0681,
"step": 966
},
{
"epoch": 317.73,
"learning_rate": 7.382812500000001e-06,
"loss": 0.0649,
"step": 969
},
{
"epoch": 318.7,
"learning_rate": 7.343750000000001e-06,
"loss": 0.0671,
"step": 972
},
{
"epoch": 320.0,
"learning_rate": 7.291666666666667e-06,
"loss": 0.0516,
"step": 976
},
{
"epoch": 320.97,
"learning_rate": 7.2526041666666665e-06,
"loss": 0.0644,
"step": 979
},
{
"epoch": 321.95,
"learning_rate": 7.213541666666667e-06,
"loss": 0.0652,
"step": 982
},
{
"epoch": 322.92,
"learning_rate": 7.174479166666667e-06,
"loss": 0.0658,
"step": 985
},
{
"epoch": 323.89,
"learning_rate": 7.135416666666667e-06,
"loss": 0.063,
"step": 988
},
{
"epoch": 324.86,
"learning_rate": 7.096354166666667e-06,
"loss": 0.0616,
"step": 991
},
{
"epoch": 325.84,
"learning_rate": 7.057291666666667e-06,
"loss": 0.0639,
"step": 994
},
{
"epoch": 326.81,
"learning_rate": 7.018229166666667e-06,
"loss": 0.0622,
"step": 997
},
{
"epoch": 327.78,
"learning_rate": 6.979166666666667e-06,
"loss": 0.0654,
"step": 1000
},
{
"epoch": 328.76,
"learning_rate": 6.9401041666666665e-06,
"loss": 0.0629,
"step": 1003
},
{
"epoch": 329.73,
"learning_rate": 6.901041666666667e-06,
"loss": 0.0625,
"step": 1006
},
{
"epoch": 330.7,
"learning_rate": 6.861979166666667e-06,
"loss": 0.0655,
"step": 1009
},
{
"epoch": 332.0,
"learning_rate": 6.809895833333334e-06,
"loss": 0.0468,
"step": 1013
},
{
"epoch": 332.97,
"learning_rate": 6.770833333333334e-06,
"loss": 0.0653,
"step": 1016
},
{
"epoch": 333.95,
"learning_rate": 6.731770833333335e-06,
"loss": 0.0632,
"step": 1019
},
{
"epoch": 334.92,
"learning_rate": 6.6927083333333345e-06,
"loss": 0.0603,
"step": 1022
},
{
"epoch": 335.89,
"learning_rate": 6.653645833333334e-06,
"loss": 0.0636,
"step": 1025
},
{
"epoch": 336.86,
"learning_rate": 6.614583333333334e-06,
"loss": 0.061,
"step": 1028
},
{
"epoch": 337.84,
"learning_rate": 6.575520833333334e-06,
"loss": 0.0626,
"step": 1031
},
{
"epoch": 338.81,
"learning_rate": 6.536458333333334e-06,
"loss": 0.0646,
"step": 1034
},
{
"epoch": 339.78,
"learning_rate": 6.497395833333334e-06,
"loss": 0.0613,
"step": 1037
},
{
"epoch": 340.76,
"learning_rate": 6.458333333333334e-06,
"loss": 0.0645,
"step": 1040
},
{
"epoch": 341.73,
"learning_rate": 6.419270833333335e-06,
"loss": 0.0607,
"step": 1043
},
{
"epoch": 342.7,
"learning_rate": 6.3802083333333345e-06,
"loss": 0.0622,
"step": 1046
},
{
"epoch": 344.0,
"learning_rate": 6.3281250000000005e-06,
"loss": 0.0441,
"step": 1050
},
{
"epoch": 344.97,
"learning_rate": 6.2890625e-06,
"loss": 0.0624,
"step": 1053
},
{
"epoch": 345.95,
"learning_rate": 6.25e-06,
"loss": 0.0641,
"step": 1056
},
{
"epoch": 346.92,
"learning_rate": 6.2109375e-06,
"loss": 0.0574,
"step": 1059
},
{
"epoch": 347.89,
"learning_rate": 6.171875e-06,
"loss": 0.0582,
"step": 1062
},
{
"epoch": 348.86,
"learning_rate": 6.132812500000001e-06,
"loss": 0.0592,
"step": 1065
},
{
"epoch": 349.84,
"learning_rate": 6.093750000000001e-06,
"loss": 0.0607,
"step": 1068
},
{
"epoch": 350.81,
"learning_rate": 6.054687500000001e-06,
"loss": 0.0598,
"step": 1071
},
{
"epoch": 351.78,
"learning_rate": 6.0156250000000005e-06,
"loss": 0.061,
"step": 1074
},
{
"epoch": 352.76,
"learning_rate": 5.9765625000000004e-06,
"loss": 0.0586,
"step": 1077
},
{
"epoch": 353.73,
"learning_rate": 5.9375e-06,
"loss": 0.059,
"step": 1080
},
{
"epoch": 354.7,
"learning_rate": 5.8984375e-06,
"loss": 0.0601,
"step": 1083
},
{
"epoch": 356.0,
"learning_rate": 5.846354166666667e-06,
"loss": 0.0447,
"step": 1087
},
{
"epoch": 356.97,
"learning_rate": 5.807291666666667e-06,
"loss": 0.0611,
"step": 1090
},
{
"epoch": 357.95,
"learning_rate": 5.768229166666667e-06,
"loss": 0.0575,
"step": 1093
},
{
"epoch": 358.92,
"learning_rate": 5.729166666666667e-06,
"loss": 0.0599,
"step": 1096
},
{
"epoch": 359.89,
"learning_rate": 5.690104166666667e-06,
"loss": 0.0585,
"step": 1099
},
{
"epoch": 360.86,
"learning_rate": 5.6510416666666665e-06,
"loss": 0.0571,
"step": 1102
},
{
"epoch": 361.84,
"learning_rate": 5.611979166666666e-06,
"loss": 0.0573,
"step": 1105
},
{
"epoch": 362.81,
"learning_rate": 5.572916666666667e-06,
"loss": 0.0588,
"step": 1108
},
{
"epoch": 363.78,
"learning_rate": 5.533854166666667e-06,
"loss": 0.0563,
"step": 1111
},
{
"epoch": 364.76,
"learning_rate": 5.494791666666667e-06,
"loss": 0.0567,
"step": 1114
},
{
"epoch": 365.73,
"learning_rate": 5.455729166666667e-06,
"loss": 0.0578,
"step": 1117
},
{
"epoch": 366.7,
"learning_rate": 5.416666666666667e-06,
"loss": 0.0579,
"step": 1120
},
{
"epoch": 368.0,
"learning_rate": 5.364583333333334e-06,
"loss": 0.0417,
"step": 1124
},
{
"epoch": 368.97,
"learning_rate": 5.325520833333334e-06,
"loss": 0.0563,
"step": 1127
},
{
"epoch": 369.95,
"learning_rate": 5.286458333333334e-06,
"loss": 0.0565,
"step": 1130
},
{
"epoch": 370.92,
"learning_rate": 5.247395833333334e-06,
"loss": 0.0558,
"step": 1133
},
{
"epoch": 371.89,
"learning_rate": 5.208333333333334e-06,
"loss": 0.0572,
"step": 1136
},
{
"epoch": 372.86,
"learning_rate": 5.169270833333334e-06,
"loss": 0.0553,
"step": 1139
},
{
"epoch": 373.84,
"learning_rate": 5.130208333333334e-06,
"loss": 0.0546,
"step": 1142
},
{
"epoch": 374.81,
"learning_rate": 5.091145833333334e-06,
"loss": 0.0582,
"step": 1145
},
{
"epoch": 375.78,
"learning_rate": 5.0520833333333344e-06,
"loss": 0.0545,
"step": 1148
},
{
"epoch": 376.76,
"learning_rate": 5.013020833333334e-06,
"loss": 0.0546,
"step": 1151
},
{
"epoch": 377.73,
"learning_rate": 4.973958333333333e-06,
"loss": 0.0543,
"step": 1154
},
{
"epoch": 378.7,
"learning_rate": 4.934895833333333e-06,
"loss": 0.0543,
"step": 1157
},
{
"epoch": 380.0,
"learning_rate": 4.8828125e-06,
"loss": 0.0405,
"step": 1161
},
{
"epoch": 380.97,
"learning_rate": 4.84375e-06,
"loss": 0.0553,
"step": 1164
},
{
"epoch": 381.95,
"learning_rate": 4.804687500000001e-06,
"loss": 0.0552,
"step": 1167
},
{
"epoch": 382.92,
"learning_rate": 4.765625000000001e-06,
"loss": 0.0567,
"step": 1170
},
{
"epoch": 383.89,
"learning_rate": 4.7265625000000005e-06,
"loss": 0.056,
"step": 1173
},
{
"epoch": 384.86,
"learning_rate": 4.6875000000000004e-06,
"loss": 0.0547,
"step": 1176
},
{
"epoch": 385.84,
"learning_rate": 4.6484375e-06,
"loss": 0.0559,
"step": 1179
},
{
"epoch": 386.81,
"learning_rate": 4.609375e-06,
"loss": 0.0551,
"step": 1182
},
{
"epoch": 387.78,
"learning_rate": 4.5703125e-06,
"loss": 0.0546,
"step": 1185
},
{
"epoch": 388.76,
"learning_rate": 4.53125e-06,
"loss": 0.0529,
"step": 1188
},
{
"epoch": 389.73,
"learning_rate": 4.492187500000001e-06,
"loss": 0.054,
"step": 1191
},
{
"epoch": 390.7,
"learning_rate": 4.453125000000001e-06,
"loss": 0.0554,
"step": 1194
},
{
"epoch": 392.0,
"learning_rate": 4.4010416666666675e-06,
"loss": 0.042,
"step": 1198
},
{
"epoch": 392.97,
"learning_rate": 4.361979166666667e-06,
"loss": 0.0556,
"step": 1201
},
{
"epoch": 393.95,
"learning_rate": 4.322916666666667e-06,
"loss": 0.0553,
"step": 1204
},
{
"epoch": 394.92,
"learning_rate": 4.283854166666667e-06,
"loss": 0.053,
"step": 1207
},
{
"epoch": 395.89,
"learning_rate": 4.244791666666667e-06,
"loss": 0.056,
"step": 1210
},
{
"epoch": 396.86,
"learning_rate": 4.205729166666667e-06,
"loss": 0.054,
"step": 1213
},
{
"epoch": 397.84,
"learning_rate": 4.166666666666667e-06,
"loss": 0.0555,
"step": 1216
},
{
"epoch": 398.81,
"learning_rate": 4.127604166666668e-06,
"loss": 0.0555,
"step": 1219
},
{
"epoch": 399.78,
"learning_rate": 4.0885416666666675e-06,
"loss": 0.0547,
"step": 1222
},
{
"epoch": 400.76,
"learning_rate": 4.049479166666667e-06,
"loss": 0.052,
"step": 1225
},
{
"epoch": 401.73,
"learning_rate": 4.010416666666667e-06,
"loss": 0.0535,
"step": 1228
},
{
"epoch": 402.7,
"learning_rate": 3.971354166666667e-06,
"loss": 0.0544,
"step": 1231
},
{
"epoch": 404.0,
"learning_rate": 3.919270833333333e-06,
"loss": 0.0404,
"step": 1235
},
{
"epoch": 404.97,
"learning_rate": 3.880208333333333e-06,
"loss": 0.0525,
"step": 1238
},
{
"epoch": 405.95,
"learning_rate": 3.841145833333334e-06,
"loss": 0.0552,
"step": 1241
},
{
"epoch": 406.92,
"learning_rate": 3.8020833333333333e-06,
"loss": 0.0544,
"step": 1244
},
{
"epoch": 407.89,
"learning_rate": 3.7630208333333336e-06,
"loss": 0.0529,
"step": 1247
},
{
"epoch": 408.86,
"learning_rate": 3.7239583333333335e-06,
"loss": 0.0538,
"step": 1250
},
{
"epoch": 409.84,
"learning_rate": 3.6848958333333334e-06,
"loss": 0.052,
"step": 1253
},
{
"epoch": 410.81,
"learning_rate": 3.6458333333333333e-06,
"loss": 0.0525,
"step": 1256
},
{
"epoch": 411.78,
"learning_rate": 3.6067708333333336e-06,
"loss": 0.0524,
"step": 1259
},
{
"epoch": 412.76,
"learning_rate": 3.5677083333333335e-06,
"loss": 0.0511,
"step": 1262
},
{
"epoch": 413.73,
"learning_rate": 3.5286458333333334e-06,
"loss": 0.0539,
"step": 1265
},
{
"epoch": 414.7,
"learning_rate": 3.4895833333333333e-06,
"loss": 0.0529,
"step": 1268
},
{
"epoch": 416.0,
"learning_rate": 3.4375e-06,
"loss": 0.0408,
"step": 1272
},
{
"epoch": 416.97,
"learning_rate": 3.3984375000000004e-06,
"loss": 0.0541,
"step": 1275
},
{
"epoch": 417.95,
"learning_rate": 3.3593750000000003e-06,
"loss": 0.0511,
"step": 1278
},
{
"epoch": 418.92,
"learning_rate": 3.3203125000000002e-06,
"loss": 0.0499,
"step": 1281
},
{
"epoch": 419.89,
"learning_rate": 3.28125e-06,
"loss": 0.0512,
"step": 1284
},
{
"epoch": 420.86,
"learning_rate": 3.2421875000000005e-06,
"loss": 0.0531,
"step": 1287
},
{
"epoch": 421.84,
"learning_rate": 3.2031250000000004e-06,
"loss": 0.0532,
"step": 1290
},
{
"epoch": 422.81,
"learning_rate": 3.1640625000000003e-06,
"loss": 0.0519,
"step": 1293
},
{
"epoch": 423.78,
"learning_rate": 3.125e-06,
"loss": 0.0521,
"step": 1296
},
{
"epoch": 424.76,
"learning_rate": 3.0859375e-06,
"loss": 0.0535,
"step": 1299
},
{
"epoch": 425.73,
"learning_rate": 3.0468750000000004e-06,
"loss": 0.0506,
"step": 1302
},
{
"epoch": 426.7,
"learning_rate": 3.0078125000000003e-06,
"loss": 0.0522,
"step": 1305
},
{
"epoch": 428.0,
"learning_rate": 2.955729166666667e-06,
"loss": 0.0392,
"step": 1309
},
{
"epoch": 428.97,
"learning_rate": 2.916666666666667e-06,
"loss": 0.0522,
"step": 1312
},
{
"epoch": 429.95,
"learning_rate": 2.8776041666666673e-06,
"loss": 0.0532,
"step": 1315
},
{
"epoch": 430.92,
"learning_rate": 2.838541666666667e-06,
"loss": 0.051,
"step": 1318
},
{
"epoch": 431.89,
"learning_rate": 2.799479166666667e-06,
"loss": 0.0537,
"step": 1321
},
{
"epoch": 432.86,
"learning_rate": 2.760416666666667e-06,
"loss": 0.0508,
"step": 1324
},
{
"epoch": 433.84,
"learning_rate": 2.721354166666667e-06,
"loss": 0.0518,
"step": 1327
},
{
"epoch": 434.81,
"learning_rate": 2.682291666666667e-06,
"loss": 0.052,
"step": 1330
},
{
"epoch": 435.78,
"learning_rate": 2.643229166666667e-06,
"loss": 0.054,
"step": 1333
},
{
"epoch": 436.76,
"learning_rate": 2.604166666666667e-06,
"loss": 0.0495,
"step": 1336
},
{
"epoch": 437.73,
"learning_rate": 2.565104166666667e-06,
"loss": 0.0523,
"step": 1339
},
{
"epoch": 438.7,
"learning_rate": 2.5260416666666672e-06,
"loss": 0.0517,
"step": 1342
},
{
"epoch": 440.0,
"learning_rate": 2.4739583333333336e-06,
"loss": 0.0382,
"step": 1346
},
{
"epoch": 440.97,
"learning_rate": 2.4348958333333335e-06,
"loss": 0.0524,
"step": 1349
},
{
"epoch": 441.95,
"learning_rate": 2.395833333333334e-06,
"loss": 0.0524,
"step": 1352
},
{
"epoch": 442.92,
"learning_rate": 2.3567708333333337e-06,
"loss": 0.0539,
"step": 1355
},
{
"epoch": 443.89,
"learning_rate": 2.3177083333333336e-06,
"loss": 0.05,
"step": 1358
},
{
"epoch": 444.86,
"learning_rate": 2.2786458333333335e-06,
"loss": 0.0507,
"step": 1361
},
{
"epoch": 445.84,
"learning_rate": 2.2395833333333334e-06,
"loss": 0.0505,
"step": 1364
},
{
"epoch": 446.81,
"learning_rate": 2.2005208333333337e-06,
"loss": 0.0518,
"step": 1367
},
{
"epoch": 447.78,
"learning_rate": 2.1614583333333336e-06,
"loss": 0.0509,
"step": 1370
},
{
"epoch": 448.76,
"learning_rate": 2.1223958333333335e-06,
"loss": 0.0504,
"step": 1373
},
{
"epoch": 449.73,
"learning_rate": 2.0833333333333334e-06,
"loss": 0.0498,
"step": 1376
},
{
"epoch": 450.7,
"learning_rate": 2.0442708333333338e-06,
"loss": 0.0518,
"step": 1379
},
{
"epoch": 452.0,
"learning_rate": 1.9921875e-06,
"loss": 0.0389,
"step": 1383
},
{
"epoch": 452.97,
"learning_rate": 1.953125e-06,
"loss": 0.0512,
"step": 1386
},
{
"epoch": 453.95,
"learning_rate": 1.9140625000000004e-06,
"loss": 0.0509,
"step": 1389
},
{
"epoch": 454.92,
"learning_rate": 1.8750000000000003e-06,
"loss": 0.0532,
"step": 1392
},
{
"epoch": 455.89,
"learning_rate": 1.8359375000000002e-06,
"loss": 0.0498,
"step": 1395
},
{
"epoch": 456.86,
"learning_rate": 1.796875e-06,
"loss": 0.05,
"step": 1398
},
{
"epoch": 457.84,
"learning_rate": 1.7578125000000002e-06,
"loss": 0.0526,
"step": 1401
},
{
"epoch": 458.81,
"learning_rate": 1.71875e-06,
"loss": 0.0514,
"step": 1404
},
{
"epoch": 459.78,
"learning_rate": 1.6796875000000002e-06,
"loss": 0.0529,
"step": 1407
},
{
"epoch": 460.76,
"learning_rate": 1.640625e-06,
"loss": 0.0501,
"step": 1410
},
{
"epoch": 461.73,
"learning_rate": 1.6015625000000002e-06,
"loss": 0.0508,
"step": 1413
},
{
"epoch": 462.7,
"learning_rate": 1.5625e-06,
"loss": 0.0509,
"step": 1416
},
{
"epoch": 464.0,
"learning_rate": 1.5104166666666667e-06,
"loss": 0.0385,
"step": 1420
},
{
"epoch": 464.97,
"learning_rate": 1.4713541666666668e-06,
"loss": 0.0533,
"step": 1423
},
{
"epoch": 465.95,
"learning_rate": 1.4322916666666667e-06,
"loss": 0.0504,
"step": 1426
},
{
"epoch": 466.92,
"learning_rate": 1.3932291666666668e-06,
"loss": 0.0512,
"step": 1429
},
{
"epoch": 467.89,
"learning_rate": 1.3541666666666667e-06,
"loss": 0.0517,
"step": 1432
},
{
"epoch": 468.86,
"learning_rate": 1.3151041666666666e-06,
"loss": 0.0484,
"step": 1435
},
{
"epoch": 469.84,
"learning_rate": 1.2760416666666667e-06,
"loss": 0.0511,
"step": 1438
},
{
"epoch": 470.81,
"learning_rate": 1.2369791666666668e-06,
"loss": 0.0515,
"step": 1441
},
{
"epoch": 471.78,
"learning_rate": 1.197916666666667e-06,
"loss": 0.0506,
"step": 1444
},
{
"epoch": 472.76,
"learning_rate": 1.1588541666666668e-06,
"loss": 0.0515,
"step": 1447
},
{
"epoch": 473.73,
"learning_rate": 1.1197916666666667e-06,
"loss": 0.0501,
"step": 1450
},
{
"epoch": 474.7,
"learning_rate": 1.0807291666666668e-06,
"loss": 0.0523,
"step": 1453
},
{
"epoch": 476.0,
"learning_rate": 1.0286458333333334e-06,
"loss": 0.0373,
"step": 1457
},
{
"epoch": 476.97,
"learning_rate": 9.895833333333333e-07,
"loss": 0.0504,
"step": 1460
},
{
"epoch": 477.95,
"learning_rate": 9.505208333333333e-07,
"loss": 0.0497,
"step": 1463
},
{
"epoch": 478.92,
"learning_rate": 9.114583333333333e-07,
"loss": 0.0496,
"step": 1466
},
{
"epoch": 479.89,
"learning_rate": 8.723958333333333e-07,
"loss": 0.0526,
"step": 1469
},
{
"epoch": 480.86,
"learning_rate": 8.333333333333333e-07,
"loss": 0.0491,
"step": 1472
},
{
"epoch": 481.84,
"learning_rate": 7.942708333333333e-07,
"loss": 0.0499,
"step": 1475
},
{
"epoch": 482.81,
"learning_rate": 7.552083333333333e-07,
"loss": 0.0519,
"step": 1478
},
{
"epoch": 483.78,
"learning_rate": 7.161458333333333e-07,
"loss": 0.0499,
"step": 1481
},
{
"epoch": 484.76,
"learning_rate": 6.770833333333333e-07,
"loss": 0.0516,
"step": 1484
},
{
"epoch": 485.73,
"learning_rate": 6.380208333333333e-07,
"loss": 0.0493,
"step": 1487
},
{
"epoch": 486.7,
"learning_rate": 5.989583333333335e-07,
"loss": 0.0513,
"step": 1490
},
{
"epoch": 488.0,
"learning_rate": 5.468750000000001e-07,
"loss": 0.0381,
"step": 1494
},
{
"epoch": 488.97,
"learning_rate": 5.078125000000001e-07,
"loss": 0.0518,
"step": 1497
},
{
"epoch": 489.95,
"learning_rate": 4.6875000000000006e-07,
"loss": 0.0489,
"step": 1500
},
{
"epoch": 490.92,
"learning_rate": 4.296875e-07,
"loss": 0.0497,
"step": 1503
},
{
"epoch": 491.89,
"learning_rate": 3.90625e-07,
"loss": 0.0492,
"step": 1506
},
{
"epoch": 492.86,
"learning_rate": 3.515625e-07,
"loss": 0.049,
"step": 1509
},
{
"epoch": 493.84,
"learning_rate": 3.125e-07,
"loss": 0.0487,
"step": 1512
},
{
"epoch": 494.81,
"learning_rate": 2.7343750000000003e-07,
"loss": 0.0495,
"step": 1515
},
{
"epoch": 495.78,
"learning_rate": 2.3437500000000003e-07,
"loss": 0.049,
"step": 1518
},
{
"epoch": 496.76,
"learning_rate": 1.953125e-07,
"loss": 0.0505,
"step": 1521
},
{
"epoch": 497.73,
"learning_rate": 1.5625e-07,
"loss": 0.0518,
"step": 1524
},
{
"epoch": 498.7,
"learning_rate": 1.1718750000000002e-07,
"loss": 0.0477,
"step": 1527
},
{
"epoch": 500.0,
"learning_rate": 6.510416666666667e-08,
"loss": 0.039,
"step": 1531
},
{
"epoch": 500.97,
"learning_rate": 2.6041666666666667e-08,
"loss": 0.0494,
"step": 1534
},
{
"epoch": 501.62,
"learning_rate": 0.0,
"loss": 0.0498,
"step": 1536
},
{
"epoch": 501.62,
"step": 1536,
"total_flos": 1.9358620133923584e+17,
"train_loss": 0.10890851792161509,
"train_runtime": 10408.3467,
"train_samples_per_second": 288.507,
"train_steps_per_second": 0.148
}
],
"logging_steps": 500,
"max_steps": 1536,
"num_train_epochs": 512,
"save_steps": 500,
"total_flos": 1.9358620133923584e+17,
"trial_name": null,
"trial_params": null
}