responsible_iddistilbert-base-uncased / trainer_state.json

End of training

156c75e over 2 years ago

60.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 501.6216216216216,
	"eval_steps": 500,
	"global_step": 1536,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.97,
	"learning_rate": 1.96875e-05,
	"loss": 3.1065,
	"step": 3
	},
	{
	"epoch": 1.95,
	"learning_rate": 1.9375e-05,
	"loss": 3.0384,
	"step": 6
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.9062500000000003e-05,
	"loss": 2.9724,
	"step": 9
	},
	{
	"epoch": 3.89,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 2.9158,
	"step": 12
	},
	{
	"epoch": 4.86,
	"learning_rate": 1.84375e-05,
	"loss": 2.8626,
	"step": 15
	},
	{
	"epoch": 5.84,
	"learning_rate": 1.8125e-05,
	"loss": 2.8132,
	"step": 18
	},
	{
	"epoch": 6.81,
	"learning_rate": 1.7812500000000003e-05,
	"loss": 2.7628,
	"step": 21
	},
	{
	"epoch": 7.78,
	"learning_rate": 1.7500000000000002e-05,
	"loss": 2.7101,
	"step": 24
	},
	{
	"epoch": 8.76,
	"learning_rate": 1.71875e-05,
	"loss": 2.6544,
	"step": 27
	},
	{
	"epoch": 9.73,
	"learning_rate": 1.6875e-05,
	"loss": 2.601,
	"step": 30
	},
	{
	"epoch": 10.7,
	"learning_rate": 1.6562500000000003e-05,
	"loss": 2.5435,
	"step": 33
	},
	{
	"epoch": 12.0,
	"learning_rate": 1.6145833333333334e-05,
	"loss": 1.8692,
	"step": 37
	},
	{
	"epoch": 12.97,
	"learning_rate": 1.5833333333333333e-05,
	"loss": 2.4371,
	"step": 40
	},
	{
	"epoch": 13.95,
	"learning_rate": 1.5520833333333332e-05,
	"loss": 2.3895,
	"step": 43
	},
	{
	"epoch": 14.92,
	"learning_rate": 1.5208333333333333e-05,
	"loss": 2.344,
	"step": 46
	},
	{
	"epoch": 15.89,
	"learning_rate": 1.4895833333333334e-05,
	"loss": 2.2952,
	"step": 49
	},
	{
	"epoch": 16.86,
	"learning_rate": 1.4583333333333333e-05,
	"loss": 2.2481,
	"step": 52
	},
	{
	"epoch": 17.84,
	"learning_rate": 1.4270833333333334e-05,
	"loss": 2.2068,
	"step": 55
	},
	{
	"epoch": 18.81,
	"learning_rate": 1.3958333333333333e-05,
	"loss": 2.1665,
	"step": 58
	},
	{
	"epoch": 19.78,
	"learning_rate": 1.3645833333333334e-05,
	"loss": 2.1258,
	"step": 61
	},
	{
	"epoch": 20.76,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 2.0826,
	"step": 64
	},
	{
	"epoch": 21.73,
	"learning_rate": 1.3020833333333334e-05,
	"loss": 2.0473,
	"step": 67
	},
	{
	"epoch": 22.7,
	"learning_rate": 1.2708333333333333e-05,
	"loss": 2.0172,
	"step": 70
	},
	{
	"epoch": 24.0,
	"learning_rate": 1.2291666666666668e-05,
	"loss": 1.4875,
	"step": 74
	},
	{
	"epoch": 24.97,
	"learning_rate": 1.1979166666666669e-05,
	"loss": 1.9533,
	"step": 77
	},
	{
	"epoch": 25.95,
	"learning_rate": 1.1666666666666668e-05,
	"loss": 1.9172,
	"step": 80
	},
	{
	"epoch": 26.92,
	"learning_rate": 1.1354166666666669e-05,
	"loss": 1.8928,
	"step": 83
	},
	{
	"epoch": 27.89,
	"learning_rate": 1.1041666666666668e-05,
	"loss": 1.8566,
	"step": 86
	},
	{
	"epoch": 28.86,
	"learning_rate": 1.0729166666666669e-05,
	"loss": 1.8305,
	"step": 89
	},
	{
	"epoch": 29.84,
	"learning_rate": 1.0416666666666668e-05,
	"loss": 1.804,
	"step": 92
	},
	{
	"epoch": 30.81,
	"learning_rate": 1.0104166666666669e-05,
	"loss": 1.7778,
	"step": 95
	},
	{
	"epoch": 31.78,
	"learning_rate": 9.791666666666666e-06,
	"loss": 1.7575,
	"step": 98
	},
	{
	"epoch": 32.76,
	"learning_rate": 9.479166666666667e-06,
	"loss": 1.7317,
	"step": 101
	},
	{
	"epoch": 33.73,
	"learning_rate": 9.166666666666666e-06,
	"loss": 1.7139,
	"step": 104
	},
	{
	"epoch": 34.7,
	"learning_rate": 8.854166666666667e-06,
	"loss": 1.6907,
	"step": 107
	},
	{
	"epoch": 36.0,
	"learning_rate": 8.4375e-06,
	"loss": 1.2573,
	"step": 111
	},
	{
	"epoch": 36.97,
	"learning_rate": 8.125000000000001e-06,
	"loss": 1.6551,
	"step": 114
	},
	{
	"epoch": 37.95,
	"learning_rate": 7.8125e-06,
	"loss": 1.641,
	"step": 117
	},
	{
	"epoch": 38.92,
	"learning_rate": 7.500000000000001e-06,
	"loss": 1.6249,
	"step": 120
	},
	{
	"epoch": 39.89,
	"learning_rate": 7.1875e-06,
	"loss": 1.6099,
	"step": 123
	},
	{
	"epoch": 40.86,
	"learning_rate": 6.875e-06,
	"loss": 1.594,
	"step": 126
	},
	{
	"epoch": 41.84,
	"learning_rate": 6.5625e-06,
	"loss": 1.5781,
	"step": 129
	},
	{
	"epoch": 42.81,
	"learning_rate": 6.25e-06,
	"loss": 1.5634,
	"step": 132
	},
	{
	"epoch": 43.78,
	"learning_rate": 5.9375e-06,
	"loss": 1.5502,
	"step": 135
	},
	{
	"epoch": 44.76,
	"learning_rate": 5.625e-06,
	"loss": 1.5408,
	"step": 138
	},
	{
	"epoch": 45.73,
	"learning_rate": 5.3125e-06,
	"loss": 1.5249,
	"step": 141
	},
	{
	"epoch": 46.7,
	"learning_rate": 5e-06,
	"loss": 1.5144,
	"step": 144
	},
	{
	"epoch": 48.0,
	"learning_rate": 4.583333333333333e-06,
	"loss": 1.1303,
	"step": 148
	},
	{
	"epoch": 48.97,
	"learning_rate": 4.270833333333333e-06,
	"loss": 1.4962,
	"step": 151
	},
	{
	"epoch": 49.95,
	"learning_rate": 3.958333333333333e-06,
	"loss": 1.489,
	"step": 154
	},
	{
	"epoch": 50.92,
	"learning_rate": 3.6458333333333333e-06,
	"loss": 1.4794,
	"step": 157
	},
	{
	"epoch": 51.89,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.4712,
	"step": 160
	},
	{
	"epoch": 52.86,
	"learning_rate": 3.0208333333333334e-06,
	"loss": 1.4613,
	"step": 163
	},
	{
	"epoch": 53.84,
	"learning_rate": 2.7083333333333334e-06,
	"loss": 1.4528,
	"step": 166
	},
	{
	"epoch": 54.81,
	"learning_rate": 2.395833333333334e-06,
	"loss": 1.4473,
	"step": 169
	},
	{
	"epoch": 55.78,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 1.4385,
	"step": 172
	},
	{
	"epoch": 56.76,
	"learning_rate": 1.7708333333333337e-06,
	"loss": 1.4403,
	"step": 175
	},
	{
	"epoch": 57.73,
	"learning_rate": 1.4583333333333335e-06,
	"loss": 1.4276,
	"step": 178
	},
	{
	"epoch": 58.7,
	"learning_rate": 1.1458333333333333e-06,
	"loss": 1.4291,
	"step": 181
	},
	{
	"epoch": 60.0,
	"learning_rate": 7.291666666666667e-07,
	"loss": 1.0688,
	"step": 185
	},
	{
	"epoch": 60.97,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 1.4217,
	"step": 188
	},
	{
	"epoch": 61.95,
	"learning_rate": 1.0416666666666667e-07,
	"loss": 1.4242,
	"step": 191
	},
	{
	"epoch": 62.27,
	"learning_rate": 0.0,
	"loss": 1.1326,
	"step": 192
	},
	{
	"epoch": 64.97,
	"learning_rate": 9.84375e-06,
	"loss": 1.4213,
	"step": 195
	},
	{
	"epoch": 65.95,
	"learning_rate": 9.6875e-06,
	"loss": 1.3989,
	"step": 198
	},
	{
	"epoch": 66.92,
	"learning_rate": 9.531250000000001e-06,
	"loss": 1.3782,
	"step": 201
	},
	{
	"epoch": 67.89,
	"learning_rate": 9.375000000000001e-06,
	"loss": 1.3594,
	"step": 204
	},
	{
	"epoch": 68.86,
	"learning_rate": 9.21875e-06,
	"loss": 1.3425,
	"step": 207
	},
	{
	"epoch": 69.84,
	"learning_rate": 9.0625e-06,
	"loss": 1.3209,
	"step": 210
	},
	{
	"epoch": 70.81,
	"learning_rate": 8.906250000000001e-06,
	"loss": 1.3018,
	"step": 213
	},
	{
	"epoch": 71.78,
	"learning_rate": 8.750000000000001e-06,
	"loss": 1.2872,
	"step": 216
	},
	{
	"epoch": 72.76,
	"learning_rate": 8.59375e-06,
	"loss": 1.2717,
	"step": 219
	},
	{
	"epoch": 73.73,
	"learning_rate": 8.4375e-06,
	"loss": 1.2531,
	"step": 222
	},
	{
	"epoch": 74.7,
	"learning_rate": 8.281250000000001e-06,
	"loss": 1.2371,
	"step": 225
	},
	{
	"epoch": 76.0,
	"learning_rate": 8.072916666666667e-06,
	"loss": 0.9161,
	"step": 229
	},
	{
	"epoch": 76.97,
	"learning_rate": 7.916666666666667e-06,
	"loss": 1.2111,
	"step": 232
	},
	{
	"epoch": 77.95,
	"learning_rate": 7.760416666666666e-06,
	"loss": 1.1966,
	"step": 235
	},
	{
	"epoch": 78.92,
	"learning_rate": 7.6041666666666666e-06,
	"loss": 1.1775,
	"step": 238
	},
	{
	"epoch": 79.89,
	"learning_rate": 7.447916666666667e-06,
	"loss": 1.1638,
	"step": 241
	},
	{
	"epoch": 80.86,
	"learning_rate": 7.291666666666667e-06,
	"loss": 1.154,
	"step": 244
	},
	{
	"epoch": 81.84,
	"learning_rate": 7.135416666666667e-06,
	"loss": 1.1335,
	"step": 247
	},
	{
	"epoch": 82.81,
	"learning_rate": 6.979166666666667e-06,
	"loss": 1.1245,
	"step": 250
	},
	{
	"epoch": 83.78,
	"learning_rate": 6.822916666666667e-06,
	"loss": 1.1195,
	"step": 253
	},
	{
	"epoch": 84.76,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.1042,
	"step": 256
	},
	{
	"epoch": 85.73,
	"learning_rate": 6.510416666666667e-06,
	"loss": 1.092,
	"step": 259
	},
	{
	"epoch": 86.7,
	"learning_rate": 6.354166666666667e-06,
	"loss": 1.0786,
	"step": 262
	},
	{
	"epoch": 88.0,
	"learning_rate": 6.145833333333334e-06,
	"loss": 0.8002,
	"step": 266
	},
	{
	"epoch": 88.97,
	"learning_rate": 5.989583333333334e-06,
	"loss": 1.0561,
	"step": 269
	},
	{
	"epoch": 89.95,
	"learning_rate": 5.833333333333334e-06,
	"loss": 1.0469,
	"step": 272
	},
	{
	"epoch": 90.92,
	"learning_rate": 5.677083333333334e-06,
	"loss": 1.0395,
	"step": 275
	},
	{
	"epoch": 91.89,
	"learning_rate": 5.520833333333334e-06,
	"loss": 1.0276,
	"step": 278
	},
	{
	"epoch": 92.86,
	"learning_rate": 5.364583333333334e-06,
	"loss": 1.0149,
	"step": 281
	},
	{
	"epoch": 93.84,
	"learning_rate": 5.208333333333334e-06,
	"loss": 1.0107,
	"step": 284
	},
	{
	"epoch": 94.81,
	"learning_rate": 5.0520833333333344e-06,
	"loss": 0.9976,
	"step": 287
	},
	{
	"epoch": 95.78,
	"learning_rate": 4.895833333333333e-06,
	"loss": 0.9843,
	"step": 290
	},
	{
	"epoch": 96.76,
	"learning_rate": 4.739583333333334e-06,
	"loss": 0.9816,
	"step": 293
	},
	{
	"epoch": 97.73,
	"learning_rate": 4.583333333333333e-06,
	"loss": 0.9702,
	"step": 296
	},
	{
	"epoch": 98.7,
	"learning_rate": 4.427083333333334e-06,
	"loss": 0.9683,
	"step": 299
	},
	{
	"epoch": 100.0,
	"learning_rate": 4.21875e-06,
	"loss": 0.7223,
	"step": 303
	},
	{
	"epoch": 100.97,
	"learning_rate": 4.0625000000000005e-06,
	"loss": 0.9523,
	"step": 306
	},
	{
	"epoch": 101.95,
	"learning_rate": 3.90625e-06,
	"loss": 0.9421,
	"step": 309
	},
	{
	"epoch": 102.92,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.9471,
	"step": 312
	},
	{
	"epoch": 103.89,
	"learning_rate": 3.59375e-06,
	"loss": 0.9351,
	"step": 315
	},
	{
	"epoch": 104.86,
	"learning_rate": 3.4375e-06,
	"loss": 0.924,
	"step": 318
	},
	{
	"epoch": 105.84,
	"learning_rate": 3.28125e-06,
	"loss": 0.9218,
	"step": 321
	},
	{
	"epoch": 106.81,
	"learning_rate": 3.125e-06,
	"loss": 0.9217,
	"step": 324
	},
	{
	"epoch": 107.78,
	"learning_rate": 2.96875e-06,
	"loss": 0.9078,
	"step": 327
	},
	{
	"epoch": 108.76,
	"learning_rate": 2.8125e-06,
	"loss": 0.9082,
	"step": 330
	},
	{
	"epoch": 109.73,
	"learning_rate": 2.65625e-06,
	"loss": 0.9068,
	"step": 333
	},
	{
	"epoch": 110.7,
	"learning_rate": 2.5e-06,
	"loss": 0.8969,
	"step": 336
	},
	{
	"epoch": 112.0,
	"learning_rate": 2.2916666666666666e-06,
	"loss": 0.6673,
	"step": 340
	},
	{
	"epoch": 112.97,
	"learning_rate": 2.1354166666666666e-06,
	"loss": 0.8892,
	"step": 343
	},
	{
	"epoch": 113.95,
	"learning_rate": 1.9791666666666666e-06,
	"loss": 0.8896,
	"step": 346
	},
	{
	"epoch": 114.92,
	"learning_rate": 1.8229166666666666e-06,
	"loss": 0.8764,
	"step": 349
	},
	{
	"epoch": 115.89,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.8754,
	"step": 352
	},
	{
	"epoch": 116.86,
	"learning_rate": 1.5104166666666667e-06,
	"loss": 0.8729,
	"step": 355
	},
	{
	"epoch": 117.84,
	"learning_rate": 1.3541666666666667e-06,
	"loss": 0.8714,
	"step": 358
	},
	{
	"epoch": 118.81,
	"learning_rate": 1.197916666666667e-06,
	"loss": 0.8697,
	"step": 361
	},
	{
	"epoch": 119.78,
	"learning_rate": 1.0416666666666667e-06,
	"loss": 0.8646,
	"step": 364
	},
	{
	"epoch": 120.76,
	"learning_rate": 8.854166666666668e-07,
	"loss": 0.8601,
	"step": 367
	},
	{
	"epoch": 121.73,
	"learning_rate": 7.291666666666667e-07,
	"loss": 0.8579,
	"step": 370
	},
	{
	"epoch": 122.7,
	"learning_rate": 5.729166666666667e-07,
	"loss": 0.8657,
	"step": 373
	},
	{
	"epoch": 124.0,
	"learning_rate": 3.6458333333333337e-07,
	"loss": 0.6457,
	"step": 377
	},
	{
	"epoch": 124.97,
	"learning_rate": 2.0833333333333333e-07,
	"loss": 0.8564,
	"step": 380
	},
	{
	"epoch": 125.95,
	"learning_rate": 5.208333333333333e-08,
	"loss": 0.8588,
	"step": 383
	},
	{
	"epoch": 126.27,
	"learning_rate": 0.0,
	"loss": 0.7301,
	"step": 384
	},
	{
	"epoch": 128.97,
	"learning_rate": 1.4960937500000002e-05,
	"loss": 0.8564,
	"step": 387
	},
	{
	"epoch": 129.95,
	"learning_rate": 1.4921875000000002e-05,
	"loss": 0.8371,
	"step": 390
	},
	{
	"epoch": 130.92,
	"learning_rate": 1.4882812500000002e-05,
	"loss": 0.8192,
	"step": 393
	},
	{
	"epoch": 131.89,
	"learning_rate": 1.4843750000000002e-05,
	"loss": 0.7975,
	"step": 396
	},
	{
	"epoch": 132.86,
	"learning_rate": 1.4804687500000002e-05,
	"loss": 0.7844,
	"step": 399
	},
	{
	"epoch": 133.84,
	"learning_rate": 1.4765625000000001e-05,
	"loss": 0.7674,
	"step": 402
	},
	{
	"epoch": 134.81,
	"learning_rate": 1.4726562500000001e-05,
	"loss": 0.7525,
	"step": 405
	},
	{
	"epoch": 135.78,
	"learning_rate": 1.4687500000000001e-05,
	"loss": 0.7345,
	"step": 408
	},
	{
	"epoch": 136.76,
	"learning_rate": 1.4648437500000001e-05,
	"loss": 0.7159,
	"step": 411
	},
	{
	"epoch": 137.73,
	"learning_rate": 1.4609375000000001e-05,
	"loss": 0.7023,
	"step": 414
	},
	{
	"epoch": 138.7,
	"learning_rate": 1.4570312500000001e-05,
	"loss": 0.6946,
	"step": 417
	},
	{
	"epoch": 140.0,
	"learning_rate": 1.4518229166666669e-05,
	"loss": 0.5039,
	"step": 421
	},
	{
	"epoch": 140.97,
	"learning_rate": 1.4479166666666669e-05,
	"loss": 0.6631,
	"step": 424
	},
	{
	"epoch": 141.95,
	"learning_rate": 1.4440104166666668e-05,
	"loss": 0.6543,
	"step": 427
	},
	{
	"epoch": 142.92,
	"learning_rate": 1.4401041666666668e-05,
	"loss": 0.6378,
	"step": 430
	},
	{
	"epoch": 143.89,
	"learning_rate": 1.4361979166666668e-05,
	"loss": 0.6212,
	"step": 433
	},
	{
	"epoch": 144.86,
	"learning_rate": 1.4322916666666668e-05,
	"loss": 0.6069,
	"step": 436
	},
	{
	"epoch": 145.84,
	"learning_rate": 1.4283854166666668e-05,
	"loss": 0.5981,
	"step": 439
	},
	{
	"epoch": 146.81,
	"learning_rate": 1.4244791666666668e-05,
	"loss": 0.5923,
	"step": 442
	},
	{
	"epoch": 147.78,
	"learning_rate": 1.4205729166666668e-05,
	"loss": 0.5754,
	"step": 445
	},
	{
	"epoch": 148.76,
	"learning_rate": 1.416666666666667e-05,
	"loss": 0.5653,
	"step": 448
	},
	{
	"epoch": 149.73,
	"learning_rate": 1.412760416666667e-05,
	"loss": 0.555,
	"step": 451
	},
	{
	"epoch": 150.7,
	"learning_rate": 1.408854166666667e-05,
	"loss": 0.5408,
	"step": 454
	},
	{
	"epoch": 152.0,
	"learning_rate": 1.4036458333333333e-05,
	"loss": 0.4004,
	"step": 458
	},
	{
	"epoch": 152.97,
	"learning_rate": 1.3997395833333333e-05,
	"loss": 0.5188,
	"step": 461
	},
	{
	"epoch": 153.95,
	"learning_rate": 1.3958333333333333e-05,
	"loss": 0.5146,
	"step": 464
	},
	{
	"epoch": 154.92,
	"learning_rate": 1.3919270833333333e-05,
	"loss": 0.502,
	"step": 467
	},
	{
	"epoch": 155.89,
	"learning_rate": 1.3880208333333333e-05,
	"loss": 0.4932,
	"step": 470
	},
	{
	"epoch": 156.86,
	"learning_rate": 1.3841145833333333e-05,
	"loss": 0.4822,
	"step": 473
	},
	{
	"epoch": 157.84,
	"learning_rate": 1.3802083333333335e-05,
	"loss": 0.4804,
	"step": 476
	},
	{
	"epoch": 158.81,
	"learning_rate": 1.3763020833333334e-05,
	"loss": 0.4648,
	"step": 479
	},
	{
	"epoch": 159.78,
	"learning_rate": 1.3723958333333334e-05,
	"loss": 0.4551,
	"step": 482
	},
	{
	"epoch": 160.76,
	"learning_rate": 1.3684895833333334e-05,
	"loss": 0.4473,
	"step": 485
	},
	{
	"epoch": 161.73,
	"learning_rate": 1.3645833333333334e-05,
	"loss": 0.4402,
	"step": 488
	},
	{
	"epoch": 162.7,
	"learning_rate": 1.3606770833333334e-05,
	"loss": 0.4293,
	"step": 491
	},
	{
	"epoch": 164.0,
	"learning_rate": 1.3554687500000002e-05,
	"loss": 0.3169,
	"step": 495
	},
	{
	"epoch": 164.97,
	"learning_rate": 1.3515625000000002e-05,
	"loss": 0.4116,
	"step": 498
	},
	{
	"epoch": 165.95,
	"learning_rate": 1.3476562500000001e-05,
	"loss": 0.4042,
	"step": 501
	},
	{
	"epoch": 166.92,
	"learning_rate": 1.3437500000000001e-05,
	"loss": 0.3975,
	"step": 504
	},
	{
	"epoch": 167.89,
	"learning_rate": 1.3398437500000001e-05,
	"loss": 0.379,
	"step": 507
	},
	{
	"epoch": 168.86,
	"learning_rate": 1.3359375000000001e-05,
	"loss": 0.3789,
	"step": 510
	},
	{
	"epoch": 169.84,
	"learning_rate": 1.3320312500000001e-05,
	"loss": 0.3669,
	"step": 513
	},
	{
	"epoch": 170.81,
	"learning_rate": 1.3281250000000001e-05,
	"loss": 0.3595,
	"step": 516
	},
	{
	"epoch": 171.78,
	"learning_rate": 1.3242187500000001e-05,
	"loss": 0.3508,
	"step": 519
	},
	{
	"epoch": 172.76,
	"learning_rate": 1.3203125e-05,
	"loss": 0.3415,
	"step": 522
	},
	{
	"epoch": 173.73,
	"learning_rate": 1.31640625e-05,
	"loss": 0.3297,
	"step": 525
	},
	{
	"epoch": 174.7,
	"learning_rate": 1.3125e-05,
	"loss": 0.3316,
	"step": 528
	},
	{
	"epoch": 176.0,
	"learning_rate": 1.3072916666666668e-05,
	"loss": 0.2403,
	"step": 532
	},
	{
	"epoch": 176.97,
	"learning_rate": 1.3033854166666668e-05,
	"loss": 0.3148,
	"step": 535
	},
	{
	"epoch": 177.95,
	"learning_rate": 1.2994791666666668e-05,
	"loss": 0.3119,
	"step": 538
	},
	{
	"epoch": 178.92,
	"learning_rate": 1.2955729166666668e-05,
	"loss": 0.3013,
	"step": 541
	},
	{
	"epoch": 179.89,
	"learning_rate": 1.2916666666666668e-05,
	"loss": 0.2972,
	"step": 544
	},
	{
	"epoch": 180.86,
	"learning_rate": 1.2877604166666668e-05,
	"loss": 0.2894,
	"step": 547
	},
	{
	"epoch": 181.84,
	"learning_rate": 1.283854166666667e-05,
	"loss": 0.2837,
	"step": 550
	},
	{
	"epoch": 182.81,
	"learning_rate": 1.279947916666667e-05,
	"loss": 0.278,
	"step": 553
	},
	{
	"epoch": 183.78,
	"learning_rate": 1.2760416666666669e-05,
	"loss": 0.2773,
	"step": 556
	},
	{
	"epoch": 184.76,
	"learning_rate": 1.2721354166666669e-05,
	"loss": 0.2768,
	"step": 559
	},
	{
	"epoch": 185.73,
	"learning_rate": 1.2682291666666669e-05,
	"loss": 0.2652,
	"step": 562
	},
	{
	"epoch": 186.7,
	"learning_rate": 1.2643229166666669e-05,
	"loss": 0.266,
	"step": 565
	},
	{
	"epoch": 188.0,
	"learning_rate": 1.2591145833333333e-05,
	"loss": 0.1962,
	"step": 569
	},
	{
	"epoch": 188.97,
	"learning_rate": 1.2552083333333333e-05,
	"loss": 0.259,
	"step": 572
	},
	{
	"epoch": 189.95,
	"learning_rate": 1.2513020833333333e-05,
	"loss": 0.2516,
	"step": 575
	},
	{
	"epoch": 190.92,
	"learning_rate": 1.2473958333333334e-05,
	"loss": 0.2501,
	"step": 578
	},
	{
	"epoch": 191.89,
	"learning_rate": 1.2434895833333334e-05,
	"loss": 0.243,
	"step": 581
	},
	{
	"epoch": 192.86,
	"learning_rate": 1.2395833333333334e-05,
	"loss": 0.2399,
	"step": 584
	},
	{
	"epoch": 193.84,
	"learning_rate": 1.2356770833333334e-05,
	"loss": 0.2396,
	"step": 587
	},
	{
	"epoch": 194.81,
	"learning_rate": 1.2317708333333334e-05,
	"loss": 0.2332,
	"step": 590
	},
	{
	"epoch": 195.78,
	"learning_rate": 1.2278645833333334e-05,
	"loss": 0.2244,
	"step": 593
	},
	{
	"epoch": 196.76,
	"learning_rate": 1.2239583333333334e-05,
	"loss": 0.2224,
	"step": 596
	},
	{
	"epoch": 197.73,
	"learning_rate": 1.2200520833333334e-05,
	"loss": 0.2175,
	"step": 599
	},
	{
	"epoch": 198.7,
	"learning_rate": 1.2161458333333334e-05,
	"loss": 0.2191,
	"step": 602
	},
	{
	"epoch": 200.0,
	"learning_rate": 1.2109375000000001e-05,
	"loss": 0.1639,
	"step": 606
	},
	{
	"epoch": 200.97,
	"learning_rate": 1.2070312500000001e-05,
	"loss": 0.2124,
	"step": 609
	},
	{
	"epoch": 201.95,
	"learning_rate": 1.2031250000000001e-05,
	"loss": 0.2076,
	"step": 612
	},
	{
	"epoch": 202.92,
	"learning_rate": 1.1992187500000001e-05,
	"loss": 0.2042,
	"step": 615
	},
	{
	"epoch": 203.89,
	"learning_rate": 1.1953125000000001e-05,
	"loss": 0.2005,
	"step": 618
	},
	{
	"epoch": 204.86,
	"learning_rate": 1.19140625e-05,
	"loss": 0.1983,
	"step": 621
	},
	{
	"epoch": 205.84,
	"learning_rate": 1.1875e-05,
	"loss": 0.194,
	"step": 624
	},
	{
	"epoch": 206.81,
	"learning_rate": 1.18359375e-05,
	"loss": 0.1901,
	"step": 627
	},
	{
	"epoch": 207.78,
	"learning_rate": 1.1796875e-05,
	"loss": 0.1886,
	"step": 630
	},
	{
	"epoch": 208.76,
	"learning_rate": 1.17578125e-05,
	"loss": 0.1817,
	"step": 633
	},
	{
	"epoch": 209.73,
	"learning_rate": 1.171875e-05,
	"loss": 0.1841,
	"step": 636
	},
	{
	"epoch": 210.7,
	"learning_rate": 1.16796875e-05,
	"loss": 0.1769,
	"step": 639
	},
	{
	"epoch": 212.0,
	"learning_rate": 1.1627604166666668e-05,
	"loss": 0.1352,
	"step": 643
	},
	{
	"epoch": 212.97,
	"learning_rate": 1.1588541666666668e-05,
	"loss": 0.1765,
	"step": 646
	},
	{
	"epoch": 213.95,
	"learning_rate": 1.1549479166666668e-05,
	"loss": 0.1696,
	"step": 649
	},
	{
	"epoch": 214.92,
	"learning_rate": 1.151041666666667e-05,
	"loss": 0.1679,
	"step": 652
	},
	{
	"epoch": 215.89,
	"learning_rate": 1.1471354166666669e-05,
	"loss": 0.1609,
	"step": 655
	},
	{
	"epoch": 216.86,
	"learning_rate": 1.1432291666666669e-05,
	"loss": 0.1633,
	"step": 658
	},
	{
	"epoch": 217.84,
	"learning_rate": 1.1393229166666669e-05,
	"loss": 0.1616,
	"step": 661
	},
	{
	"epoch": 218.81,
	"learning_rate": 1.1354166666666669e-05,
	"loss": 0.1589,
	"step": 664
	},
	{
	"epoch": 219.78,
	"learning_rate": 1.1315104166666669e-05,
	"loss": 0.158,
	"step": 667
	},
	{
	"epoch": 220.76,
	"learning_rate": 1.1276041666666669e-05,
	"loss": 0.1544,
	"step": 670
	},
	{
	"epoch": 221.73,
	"learning_rate": 1.1236979166666668e-05,
	"loss": 0.154,
	"step": 673
	},
	{
	"epoch": 222.7,
	"learning_rate": 1.1197916666666668e-05,
	"loss": 0.1516,
	"step": 676
	},
	{
	"epoch": 224.0,
	"learning_rate": 1.1145833333333334e-05,
	"loss": 0.1152,
	"step": 680
	},
	{
	"epoch": 224.97,
	"learning_rate": 1.1106770833333334e-05,
	"loss": 0.1516,
	"step": 683
	},
	{
	"epoch": 225.95,
	"learning_rate": 1.1067708333333334e-05,
	"loss": 0.145,
	"step": 686
	},
	{
	"epoch": 226.92,
	"learning_rate": 1.1028645833333334e-05,
	"loss": 0.1455,
	"step": 689
	},
	{
	"epoch": 227.89,
	"learning_rate": 1.0989583333333334e-05,
	"loss": 0.1437,
	"step": 692
	},
	{
	"epoch": 228.86,
	"learning_rate": 1.0950520833333334e-05,
	"loss": 0.1409,
	"step": 695
	},
	{
	"epoch": 229.84,
	"learning_rate": 1.0911458333333334e-05,
	"loss": 0.1452,
	"step": 698
	},
	{
	"epoch": 230.81,
	"learning_rate": 1.0872395833333334e-05,
	"loss": 0.1366,
	"step": 701
	},
	{
	"epoch": 231.78,
	"learning_rate": 1.0833333333333334e-05,
	"loss": 0.1367,
	"step": 704
	},
	{
	"epoch": 232.76,
	"learning_rate": 1.0794270833333333e-05,
	"loss": 0.1357,
	"step": 707
	},
	{
	"epoch": 233.73,
	"learning_rate": 1.0755208333333333e-05,
	"loss": 0.1342,
	"step": 710
	},
	{
	"epoch": 234.7,
	"learning_rate": 1.0716145833333333e-05,
	"loss": 0.1276,
	"step": 713
	},
	{
	"epoch": 236.0,
	"learning_rate": 1.0664062500000001e-05,
	"loss": 0.0974,
	"step": 717
	},
	{
	"epoch": 236.97,
	"learning_rate": 1.0625e-05,
	"loss": 0.1325,
	"step": 720
	},
	{
	"epoch": 237.95,
	"learning_rate": 1.05859375e-05,
	"loss": 0.1266,
	"step": 723
	},
	{
	"epoch": 238.92,
	"learning_rate": 1.0546875e-05,
	"loss": 0.1237,
	"step": 726
	},
	{
	"epoch": 239.89,
	"learning_rate": 1.05078125e-05,
	"loss": 0.1258,
	"step": 729
	},
	{
	"epoch": 240.86,
	"learning_rate": 1.046875e-05,
	"loss": 0.123,
	"step": 732
	},
	{
	"epoch": 241.84,
	"learning_rate": 1.04296875e-05,
	"loss": 0.1228,
	"step": 735
	},
	{
	"epoch": 242.81,
	"learning_rate": 1.0390625e-05,
	"loss": 0.12,
	"step": 738
	},
	{
	"epoch": 243.78,
	"learning_rate": 1.03515625e-05,
	"loss": 0.1174,
	"step": 741
	},
	{
	"epoch": 244.76,
	"learning_rate": 1.0312500000000002e-05,
	"loss": 0.118,
	"step": 744
	},
	{
	"epoch": 245.73,
	"learning_rate": 1.0273437500000002e-05,
	"loss": 0.1157,
	"step": 747
	},
	{
	"epoch": 246.7,
	"learning_rate": 1.0234375000000001e-05,
	"loss": 0.115,
	"step": 750
	},
	{
	"epoch": 248.0,
	"learning_rate": 1.0182291666666667e-05,
	"loss": 0.0826,
	"step": 754
	},
	{
	"epoch": 248.97,
	"learning_rate": 1.0143229166666669e-05,
	"loss": 0.1094,
	"step": 757
	},
	{
	"epoch": 249.95,
	"learning_rate": 1.0104166666666669e-05,
	"loss": 0.1094,
	"step": 760
	},
	{
	"epoch": 250.92,
	"learning_rate": 1.0065104166666669e-05,
	"loss": 0.111,
	"step": 763
	},
	{
	"epoch": 251.89,
	"learning_rate": 1.0026041666666669e-05,
	"loss": 0.1056,
	"step": 766
	},
	{
	"epoch": 252.86,
	"learning_rate": 9.986979166666667e-06,
	"loss": 0.1076,
	"step": 769
	},
	{
	"epoch": 253.84,
	"learning_rate": 9.947916666666667e-06,
	"loss": 0.1031,
	"step": 772
	},
	{
	"epoch": 254.81,
	"learning_rate": 9.908854166666667e-06,
	"loss": 0.1084,
	"step": 775
	},
	{
	"epoch": 255.78,
	"learning_rate": 9.869791666666667e-06,
	"loss": 0.1043,
	"step": 778
	},
	{
	"epoch": 256.76,
	"learning_rate": 9.830729166666666e-06,
	"loss": 0.0984,
	"step": 781
	},
	{
	"epoch": 257.73,
	"learning_rate": 9.791666666666666e-06,
	"loss": 0.098,
	"step": 784
	},
	{
	"epoch": 258.7,
	"learning_rate": 9.752604166666666e-06,
	"loss": 0.1013,
	"step": 787
	},
	{
	"epoch": 260.0,
	"learning_rate": 9.700520833333334e-06,
	"loss": 0.0743,
	"step": 791
	},
	{
	"epoch": 260.97,
	"learning_rate": 9.661458333333334e-06,
	"loss": 0.0947,
	"step": 794
	},
	{
	"epoch": 261.95,
	"learning_rate": 9.622395833333334e-06,
	"loss": 0.0965,
	"step": 797
	},
	{
	"epoch": 262.92,
	"learning_rate": 9.583333333333335e-06,
	"loss": 0.0947,
	"step": 800
	},
	{
	"epoch": 263.89,
	"learning_rate": 9.544270833333335e-06,
	"loss": 0.0952,
	"step": 803
	},
	{
	"epoch": 264.86,
	"learning_rate": 9.505208333333335e-06,
	"loss": 0.0896,
	"step": 806
	},
	{
	"epoch": 265.84,
	"learning_rate": 9.466145833333335e-06,
	"loss": 0.0891,
	"step": 809
	},
	{
	"epoch": 266.81,
	"learning_rate": 9.427083333333335e-06,
	"loss": 0.0939,
	"step": 812
	},
	{
	"epoch": 267.78,
	"learning_rate": 9.388020833333335e-06,
	"loss": 0.0911,
	"step": 815
	},
	{
	"epoch": 268.76,
	"learning_rate": 9.348958333333335e-06,
	"loss": 0.0882,
	"step": 818
	},
	{
	"epoch": 269.73,
	"learning_rate": 9.309895833333335e-06,
	"loss": 0.0903,
	"step": 821
	},
	{
	"epoch": 270.7,
	"learning_rate": 9.270833333333334e-06,
	"loss": 0.0869,
	"step": 824
	},
	{
	"epoch": 272.0,
	"learning_rate": 9.21875e-06,
	"loss": 0.0664,
	"step": 828
	},
	{
	"epoch": 272.97,
	"learning_rate": 9.1796875e-06,
	"loss": 0.0868,
	"step": 831
	},
	{
	"epoch": 273.95,
	"learning_rate": 9.140625e-06,
	"loss": 0.0867,
	"step": 834
	},
	{
	"epoch": 274.92,
	"learning_rate": 9.1015625e-06,
	"loss": 0.0858,
	"step": 837
	},
	{
	"epoch": 275.89,
	"learning_rate": 9.0625e-06,
	"loss": 0.0842,
	"step": 840
	},
	{
	"epoch": 276.86,
	"learning_rate": 9.0234375e-06,
	"loss": 0.0869,
	"step": 843
	},
	{
	"epoch": 277.84,
	"learning_rate": 8.984375000000002e-06,
	"loss": 0.0803,
	"step": 846
	},
	{
	"epoch": 278.81,
	"learning_rate": 8.945312500000001e-06,
	"loss": 0.0813,
	"step": 849
	},
	{
	"epoch": 279.78,
	"learning_rate": 8.906250000000001e-06,
	"loss": 0.084,
	"step": 852
	},
	{
	"epoch": 280.76,
	"learning_rate": 8.867187500000001e-06,
	"loss": 0.0814,
	"step": 855
	},
	{
	"epoch": 281.73,
	"learning_rate": 8.828125000000001e-06,
	"loss": 0.0782,
	"step": 858
	},
	{
	"epoch": 282.7,
	"learning_rate": 8.789062500000001e-06,
	"loss": 0.0803,
	"step": 861
	},
	{
	"epoch": 284.0,
	"learning_rate": 8.736979166666667e-06,
	"loss": 0.0596,
	"step": 865
	},
	{
	"epoch": 284.97,
	"learning_rate": 8.697916666666667e-06,
	"loss": 0.0787,
	"step": 868
	},
	{
	"epoch": 285.95,
	"learning_rate": 8.658854166666667e-06,
	"loss": 0.0748,
	"step": 871
	},
	{
	"epoch": 286.92,
	"learning_rate": 8.619791666666667e-06,
	"loss": 0.0816,
	"step": 874
	},
	{
	"epoch": 287.89,
	"learning_rate": 8.580729166666667e-06,
	"loss": 0.0776,
	"step": 877
	},
	{
	"epoch": 288.86,
	"learning_rate": 8.541666666666666e-06,
	"loss": 0.0749,
	"step": 880
	},
	{
	"epoch": 289.84,
	"learning_rate": 8.502604166666666e-06,
	"loss": 0.0795,
	"step": 883
	},
	{
	"epoch": 290.81,
	"learning_rate": 8.463541666666666e-06,
	"loss": 0.075,
	"step": 886
	},
	{
	"epoch": 291.78,
	"learning_rate": 8.424479166666666e-06,
	"loss": 0.0756,
	"step": 889
	},
	{
	"epoch": 292.76,
	"learning_rate": 8.385416666666668e-06,
	"loss": 0.0755,
	"step": 892
	},
	{
	"epoch": 293.73,
	"learning_rate": 8.346354166666668e-06,
	"loss": 0.0721,
	"step": 895
	},
	{
	"epoch": 294.7,
	"learning_rate": 8.307291666666668e-06,
	"loss": 0.0745,
	"step": 898
	},
	{
	"epoch": 296.0,
	"learning_rate": 8.255208333333335e-06,
	"loss": 0.0535,
	"step": 902
	},
	{
	"epoch": 296.97,
	"learning_rate": 8.216145833333335e-06,
	"loss": 0.0743,
	"step": 905
	},
	{
	"epoch": 297.95,
	"learning_rate": 8.177083333333335e-06,
	"loss": 0.0756,
	"step": 908
	},
	{
	"epoch": 298.92,
	"learning_rate": 8.138020833333335e-06,
	"loss": 0.0728,
	"step": 911
	},
	{
	"epoch": 299.89,
	"learning_rate": 8.098958333333335e-06,
	"loss": 0.0744,
	"step": 914
	},
	{
	"epoch": 300.86,
	"learning_rate": 8.059895833333335e-06,
	"loss": 0.0713,
	"step": 917
	},
	{
	"epoch": 301.84,
	"learning_rate": 8.020833333333335e-06,
	"loss": 0.0707,
	"step": 920
	},
	{
	"epoch": 302.81,
	"learning_rate": 7.981770833333335e-06,
	"loss": 0.0715,
	"step": 923
	},
	{
	"epoch": 303.78,
	"learning_rate": 7.942708333333334e-06,
	"loss": 0.0686,
	"step": 926
	},
	{
	"epoch": 304.76,
	"learning_rate": 7.903645833333334e-06,
	"loss": 0.0691,
	"step": 929
	},
	{
	"epoch": 305.73,
	"learning_rate": 7.864583333333334e-06,
	"loss": 0.0682,
	"step": 932
	},
	{
	"epoch": 306.7,
	"learning_rate": 7.825520833333334e-06,
	"loss": 0.0701,
	"step": 935
	},
	{
	"epoch": 308.0,
	"learning_rate": 7.7734375e-06,
	"loss": 0.0488,
	"step": 939
	},
	{
	"epoch": 308.97,
	"learning_rate": 7.734375e-06,
	"loss": 0.0689,
	"step": 942
	},
	{
	"epoch": 309.95,
	"learning_rate": 7.6953125e-06,
	"loss": 0.0685,
	"step": 945
	},
	{
	"epoch": 310.92,
	"learning_rate": 7.656250000000001e-06,
	"loss": 0.0688,
	"step": 948
	},
	{
	"epoch": 311.89,
	"learning_rate": 7.6171875000000005e-06,
	"loss": 0.0685,
	"step": 951
	},
	{
	"epoch": 312.86,
	"learning_rate": 7.578125e-06,
	"loss": 0.0688,
	"step": 954
	},
	{
	"epoch": 313.84,
	"learning_rate": 7.5390625e-06,
	"loss": 0.0656,
	"step": 957
	},
	{
	"epoch": 314.81,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.0666,
	"step": 960
	},
	{
	"epoch": 315.78,
	"learning_rate": 7.460937500000001e-06,
	"loss": 0.0666,
	"step": 963
	},
	{
	"epoch": 316.76,
	"learning_rate": 7.421875000000001e-06,
	"loss": 0.0681,
	"step": 966
	},
	{
	"epoch": 317.73,
	"learning_rate": 7.382812500000001e-06,
	"loss": 0.0649,
	"step": 969
	},
	{
	"epoch": 318.7,
	"learning_rate": 7.343750000000001e-06,
	"loss": 0.0671,
	"step": 972
	},
	{
	"epoch": 320.0,
	"learning_rate": 7.291666666666667e-06,
	"loss": 0.0516,
	"step": 976
	},
	{
	"epoch": 320.97,
	"learning_rate": 7.2526041666666665e-06,
	"loss": 0.0644,
	"step": 979
	},
	{
	"epoch": 321.95,
	"learning_rate": 7.213541666666667e-06,
	"loss": 0.0652,
	"step": 982
	},
	{
	"epoch": 322.92,
	"learning_rate": 7.174479166666667e-06,
	"loss": 0.0658,
	"step": 985
	},
	{
	"epoch": 323.89,
	"learning_rate": 7.135416666666667e-06,
	"loss": 0.063,
	"step": 988
	},
	{
	"epoch": 324.86,
	"learning_rate": 7.096354166666667e-06,
	"loss": 0.0616,
	"step": 991
	},
	{
	"epoch": 325.84,
	"learning_rate": 7.057291666666667e-06,
	"loss": 0.0639,
	"step": 994
	},
	{
	"epoch": 326.81,
	"learning_rate": 7.018229166666667e-06,
	"loss": 0.0622,
	"step": 997
	},
	{
	"epoch": 327.78,
	"learning_rate": 6.979166666666667e-06,
	"loss": 0.0654,
	"step": 1000
	},
	{
	"epoch": 328.76,
	"learning_rate": 6.9401041666666665e-06,
	"loss": 0.0629,
	"step": 1003
	},
	{
	"epoch": 329.73,
	"learning_rate": 6.901041666666667e-06,
	"loss": 0.0625,
	"step": 1006
	},
	{
	"epoch": 330.7,
	"learning_rate": 6.861979166666667e-06,
	"loss": 0.0655,
	"step": 1009
	},
	{
	"epoch": 332.0,
	"learning_rate": 6.809895833333334e-06,
	"loss": 0.0468,
	"step": 1013
	},
	{
	"epoch": 332.97,
	"learning_rate": 6.770833333333334e-06,
	"loss": 0.0653,
	"step": 1016
	},
	{
	"epoch": 333.95,
	"learning_rate": 6.731770833333335e-06,
	"loss": 0.0632,
	"step": 1019
	},
	{
	"epoch": 334.92,
	"learning_rate": 6.6927083333333345e-06,
	"loss": 0.0603,
	"step": 1022
	},
	{
	"epoch": 335.89,
	"learning_rate": 6.653645833333334e-06,
	"loss": 0.0636,
	"step": 1025
	},
	{
	"epoch": 336.86,
	"learning_rate": 6.614583333333334e-06,
	"loss": 0.061,
	"step": 1028
	},
	{
	"epoch": 337.84,
	"learning_rate": 6.575520833333334e-06,
	"loss": 0.0626,
	"step": 1031
	},
	{
	"epoch": 338.81,
	"learning_rate": 6.536458333333334e-06,
	"loss": 0.0646,
	"step": 1034
	},
	{
	"epoch": 339.78,
	"learning_rate": 6.497395833333334e-06,
	"loss": 0.0613,
	"step": 1037
	},
	{
	"epoch": 340.76,
	"learning_rate": 6.458333333333334e-06,
	"loss": 0.0645,
	"step": 1040
	},
	{
	"epoch": 341.73,
	"learning_rate": 6.419270833333335e-06,
	"loss": 0.0607,
	"step": 1043
	},
	{
	"epoch": 342.7,
	"learning_rate": 6.3802083333333345e-06,
	"loss": 0.0622,
	"step": 1046
	},
	{
	"epoch": 344.0,
	"learning_rate": 6.3281250000000005e-06,
	"loss": 0.0441,
	"step": 1050
	},
	{
	"epoch": 344.97,
	"learning_rate": 6.2890625e-06,
	"loss": 0.0624,
	"step": 1053
	},
	{
	"epoch": 345.95,
	"learning_rate": 6.25e-06,
	"loss": 0.0641,
	"step": 1056
	},
	{
	"epoch": 346.92,
	"learning_rate": 6.2109375e-06,
	"loss": 0.0574,
	"step": 1059
	},
	{
	"epoch": 347.89,
	"learning_rate": 6.171875e-06,
	"loss": 0.0582,
	"step": 1062
	},
	{
	"epoch": 348.86,
	"learning_rate": 6.132812500000001e-06,
	"loss": 0.0592,
	"step": 1065
	},
	{
	"epoch": 349.84,
	"learning_rate": 6.093750000000001e-06,
	"loss": 0.0607,
	"step": 1068
	},
	{
	"epoch": 350.81,
	"learning_rate": 6.054687500000001e-06,
	"loss": 0.0598,
	"step": 1071
	},
	{
	"epoch": 351.78,
	"learning_rate": 6.0156250000000005e-06,
	"loss": 0.061,
	"step": 1074
	},
	{
	"epoch": 352.76,
	"learning_rate": 5.9765625000000004e-06,
	"loss": 0.0586,
	"step": 1077
	},
	{
	"epoch": 353.73,
	"learning_rate": 5.9375e-06,
	"loss": 0.059,
	"step": 1080
	},
	{
	"epoch": 354.7,
	"learning_rate": 5.8984375e-06,
	"loss": 0.0601,
	"step": 1083
	},
	{
	"epoch": 356.0,
	"learning_rate": 5.846354166666667e-06,
	"loss": 0.0447,
	"step": 1087
	},
	{
	"epoch": 356.97,
	"learning_rate": 5.807291666666667e-06,
	"loss": 0.0611,
	"step": 1090
	},
	{
	"epoch": 357.95,
	"learning_rate": 5.768229166666667e-06,
	"loss": 0.0575,
	"step": 1093
	},
	{
	"epoch": 358.92,
	"learning_rate": 5.729166666666667e-06,
	"loss": 0.0599,
	"step": 1096
	},
	{
	"epoch": 359.89,
	"learning_rate": 5.690104166666667e-06,
	"loss": 0.0585,
	"step": 1099
	},
	{
	"epoch": 360.86,
	"learning_rate": 5.6510416666666665e-06,
	"loss": 0.0571,
	"step": 1102
	},
	{
	"epoch": 361.84,
	"learning_rate": 5.611979166666666e-06,
	"loss": 0.0573,
	"step": 1105
	},
	{
	"epoch": 362.81,
	"learning_rate": 5.572916666666667e-06,
	"loss": 0.0588,
	"step": 1108
	},
	{
	"epoch": 363.78,
	"learning_rate": 5.533854166666667e-06,
	"loss": 0.0563,
	"step": 1111
	},
	{
	"epoch": 364.76,
	"learning_rate": 5.494791666666667e-06,
	"loss": 0.0567,
	"step": 1114
	},
	{
	"epoch": 365.73,
	"learning_rate": 5.455729166666667e-06,
	"loss": 0.0578,
	"step": 1117
	},
	{
	"epoch": 366.7,
	"learning_rate": 5.416666666666667e-06,
	"loss": 0.0579,
	"step": 1120
	},
	{
	"epoch": 368.0,
	"learning_rate": 5.364583333333334e-06,
	"loss": 0.0417,
	"step": 1124
	},
	{
	"epoch": 368.97,
	"learning_rate": 5.325520833333334e-06,
	"loss": 0.0563,
	"step": 1127
	},
	{
	"epoch": 369.95,
	"learning_rate": 5.286458333333334e-06,
	"loss": 0.0565,
	"step": 1130
	},
	{
	"epoch": 370.92,
	"learning_rate": 5.247395833333334e-06,
	"loss": 0.0558,
	"step": 1133
	},
	{
	"epoch": 371.89,
	"learning_rate": 5.208333333333334e-06,
	"loss": 0.0572,
	"step": 1136
	},
	{
	"epoch": 372.86,
	"learning_rate": 5.169270833333334e-06,
	"loss": 0.0553,
	"step": 1139
	},
	{
	"epoch": 373.84,
	"learning_rate": 5.130208333333334e-06,
	"loss": 0.0546,
	"step": 1142
	},
	{
	"epoch": 374.81,
	"learning_rate": 5.091145833333334e-06,
	"loss": 0.0582,
	"step": 1145
	},
	{
	"epoch": 375.78,
	"learning_rate": 5.0520833333333344e-06,
	"loss": 0.0545,
	"step": 1148
	},
	{
	"epoch": 376.76,
	"learning_rate": 5.013020833333334e-06,
	"loss": 0.0546,
	"step": 1151
	},
	{
	"epoch": 377.73,
	"learning_rate": 4.973958333333333e-06,
	"loss": 0.0543,
	"step": 1154
	},
	{
	"epoch": 378.7,
	"learning_rate": 4.934895833333333e-06,
	"loss": 0.0543,
	"step": 1157
	},
	{
	"epoch": 380.0,
	"learning_rate": 4.8828125e-06,
	"loss": 0.0405,
	"step": 1161
	},
	{
	"epoch": 380.97,
	"learning_rate": 4.84375e-06,
	"loss": 0.0553,
	"step": 1164
	},
	{
	"epoch": 381.95,
	"learning_rate": 4.804687500000001e-06,
	"loss": 0.0552,
	"step": 1167
	},
	{
	"epoch": 382.92,
	"learning_rate": 4.765625000000001e-06,
	"loss": 0.0567,
	"step": 1170
	},
	{
	"epoch": 383.89,
	"learning_rate": 4.7265625000000005e-06,
	"loss": 0.056,
	"step": 1173
	},
	{
	"epoch": 384.86,
	"learning_rate": 4.6875000000000004e-06,
	"loss": 0.0547,
	"step": 1176
	},
	{
	"epoch": 385.84,
	"learning_rate": 4.6484375e-06,
	"loss": 0.0559,
	"step": 1179
	},
	{
	"epoch": 386.81,
	"learning_rate": 4.609375e-06,
	"loss": 0.0551,
	"step": 1182
	},
	{
	"epoch": 387.78,
	"learning_rate": 4.5703125e-06,
	"loss": 0.0546,
	"step": 1185
	},
	{
	"epoch": 388.76,
	"learning_rate": 4.53125e-06,
	"loss": 0.0529,
	"step": 1188
	},
	{
	"epoch": 389.73,
	"learning_rate": 4.492187500000001e-06,
	"loss": 0.054,
	"step": 1191
	},
	{
	"epoch": 390.7,
	"learning_rate": 4.453125000000001e-06,
	"loss": 0.0554,
	"step": 1194
	},
	{
	"epoch": 392.0,
	"learning_rate": 4.4010416666666675e-06,
	"loss": 0.042,
	"step": 1198
	},
	{
	"epoch": 392.97,
	"learning_rate": 4.361979166666667e-06,
	"loss": 0.0556,
	"step": 1201
	},
	{
	"epoch": 393.95,
	"learning_rate": 4.322916666666667e-06,
	"loss": 0.0553,
	"step": 1204
	},
	{
	"epoch": 394.92,
	"learning_rate": 4.283854166666667e-06,
	"loss": 0.053,
	"step": 1207
	},
	{
	"epoch": 395.89,
	"learning_rate": 4.244791666666667e-06,
	"loss": 0.056,
	"step": 1210
	},
	{
	"epoch": 396.86,
	"learning_rate": 4.205729166666667e-06,
	"loss": 0.054,
	"step": 1213
	},
	{
	"epoch": 397.84,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.0555,
	"step": 1216
	},
	{
	"epoch": 398.81,
	"learning_rate": 4.127604166666668e-06,
	"loss": 0.0555,
	"step": 1219
	},
	{
	"epoch": 399.78,
	"learning_rate": 4.0885416666666675e-06,
	"loss": 0.0547,
	"step": 1222
	},
	{
	"epoch": 400.76,
	"learning_rate": 4.049479166666667e-06,
	"loss": 0.052,
	"step": 1225
	},
	{
	"epoch": 401.73,
	"learning_rate": 4.010416666666667e-06,
	"loss": 0.0535,
	"step": 1228
	},
	{
	"epoch": 402.7,
	"learning_rate": 3.971354166666667e-06,
	"loss": 0.0544,
	"step": 1231
	},
	{
	"epoch": 404.0,
	"learning_rate": 3.919270833333333e-06,
	"loss": 0.0404,
	"step": 1235
	},
	{
	"epoch": 404.97,
	"learning_rate": 3.880208333333333e-06,
	"loss": 0.0525,
	"step": 1238
	},
	{
	"epoch": 405.95,
	"learning_rate": 3.841145833333334e-06,
	"loss": 0.0552,
	"step": 1241
	},
	{
	"epoch": 406.92,
	"learning_rate": 3.8020833333333333e-06,
	"loss": 0.0544,
	"step": 1244
	},
	{
	"epoch": 407.89,
	"learning_rate": 3.7630208333333336e-06,
	"loss": 0.0529,
	"step": 1247
	},
	{
	"epoch": 408.86,
	"learning_rate": 3.7239583333333335e-06,
	"loss": 0.0538,
	"step": 1250
	},
	{
	"epoch": 409.84,
	"learning_rate": 3.6848958333333334e-06,
	"loss": 0.052,
	"step": 1253
	},
	{
	"epoch": 410.81,
	"learning_rate": 3.6458333333333333e-06,
	"loss": 0.0525,
	"step": 1256
	},
	{
	"epoch": 411.78,
	"learning_rate": 3.6067708333333336e-06,
	"loss": 0.0524,
	"step": 1259
	},
	{
	"epoch": 412.76,
	"learning_rate": 3.5677083333333335e-06,
	"loss": 0.0511,
	"step": 1262
	},
	{
	"epoch": 413.73,
	"learning_rate": 3.5286458333333334e-06,
	"loss": 0.0539,
	"step": 1265
	},
	{
	"epoch": 414.7,
	"learning_rate": 3.4895833333333333e-06,
	"loss": 0.0529,
	"step": 1268
	},
	{
	"epoch": 416.0,
	"learning_rate": 3.4375e-06,
	"loss": 0.0408,
	"step": 1272
	},
	{
	"epoch": 416.97,
	"learning_rate": 3.3984375000000004e-06,
	"loss": 0.0541,
	"step": 1275
	},
	{
	"epoch": 417.95,
	"learning_rate": 3.3593750000000003e-06,
	"loss": 0.0511,
	"step": 1278
	},
	{
	"epoch": 418.92,
	"learning_rate": 3.3203125000000002e-06,
	"loss": 0.0499,
	"step": 1281
	},
	{
	"epoch": 419.89,
	"learning_rate": 3.28125e-06,
	"loss": 0.0512,
	"step": 1284
	},
	{
	"epoch": 420.86,
	"learning_rate": 3.2421875000000005e-06,
	"loss": 0.0531,
	"step": 1287
	},
	{
	"epoch": 421.84,
	"learning_rate": 3.2031250000000004e-06,
	"loss": 0.0532,
	"step": 1290
	},
	{
	"epoch": 422.81,
	"learning_rate": 3.1640625000000003e-06,
	"loss": 0.0519,
	"step": 1293
	},
	{
	"epoch": 423.78,
	"learning_rate": 3.125e-06,
	"loss": 0.0521,
	"step": 1296
	},
	{
	"epoch": 424.76,
	"learning_rate": 3.0859375e-06,
	"loss": 0.0535,
	"step": 1299
	},
	{
	"epoch": 425.73,
	"learning_rate": 3.0468750000000004e-06,
	"loss": 0.0506,
	"step": 1302
	},
	{
	"epoch": 426.7,
	"learning_rate": 3.0078125000000003e-06,
	"loss": 0.0522,
	"step": 1305
	},
	{
	"epoch": 428.0,
	"learning_rate": 2.955729166666667e-06,
	"loss": 0.0392,
	"step": 1309
	},
	{
	"epoch": 428.97,
	"learning_rate": 2.916666666666667e-06,
	"loss": 0.0522,
	"step": 1312
	},
	{
	"epoch": 429.95,
	"learning_rate": 2.8776041666666673e-06,
	"loss": 0.0532,
	"step": 1315
	},
	{
	"epoch": 430.92,
	"learning_rate": 2.838541666666667e-06,
	"loss": 0.051,
	"step": 1318
	},
	{
	"epoch": 431.89,
	"learning_rate": 2.799479166666667e-06,
	"loss": 0.0537,
	"step": 1321
	},
	{
	"epoch": 432.86,
	"learning_rate": 2.760416666666667e-06,
	"loss": 0.0508,
	"step": 1324
	},
	{
	"epoch": 433.84,
	"learning_rate": 2.721354166666667e-06,
	"loss": 0.0518,
	"step": 1327
	},
	{
	"epoch": 434.81,
	"learning_rate": 2.682291666666667e-06,
	"loss": 0.052,
	"step": 1330
	},
	{
	"epoch": 435.78,
	"learning_rate": 2.643229166666667e-06,
	"loss": 0.054,
	"step": 1333
	},
	{
	"epoch": 436.76,
	"learning_rate": 2.604166666666667e-06,
	"loss": 0.0495,
	"step": 1336
	},
	{
	"epoch": 437.73,
	"learning_rate": 2.565104166666667e-06,
	"loss": 0.0523,
	"step": 1339
	},
	{
	"epoch": 438.7,
	"learning_rate": 2.5260416666666672e-06,
	"loss": 0.0517,
	"step": 1342
	},
	{
	"epoch": 440.0,
	"learning_rate": 2.4739583333333336e-06,
	"loss": 0.0382,
	"step": 1346
	},
	{
	"epoch": 440.97,
	"learning_rate": 2.4348958333333335e-06,
	"loss": 0.0524,
	"step": 1349
	},
	{
	"epoch": 441.95,
	"learning_rate": 2.395833333333334e-06,
	"loss": 0.0524,
	"step": 1352
	},
	{
	"epoch": 442.92,
	"learning_rate": 2.3567708333333337e-06,
	"loss": 0.0539,
	"step": 1355
	},
	{
	"epoch": 443.89,
	"learning_rate": 2.3177083333333336e-06,
	"loss": 0.05,
	"step": 1358
	},
	{
	"epoch": 444.86,
	"learning_rate": 2.2786458333333335e-06,
	"loss": 0.0507,
	"step": 1361
	},
	{
	"epoch": 445.84,
	"learning_rate": 2.2395833333333334e-06,
	"loss": 0.0505,
	"step": 1364
	},
	{
	"epoch": 446.81,
	"learning_rate": 2.2005208333333337e-06,
	"loss": 0.0518,
	"step": 1367
	},
	{
	"epoch": 447.78,
	"learning_rate": 2.1614583333333336e-06,
	"loss": 0.0509,
	"step": 1370
	},
	{
	"epoch": 448.76,
	"learning_rate": 2.1223958333333335e-06,
	"loss": 0.0504,
	"step": 1373
	},
	{
	"epoch": 449.73,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 0.0498,
	"step": 1376
	},
	{
	"epoch": 450.7,
	"learning_rate": 2.0442708333333338e-06,
	"loss": 0.0518,
	"step": 1379
	},
	{
	"epoch": 452.0,
	"learning_rate": 1.9921875e-06,
	"loss": 0.0389,
	"step": 1383
	},
	{
	"epoch": 452.97,
	"learning_rate": 1.953125e-06,
	"loss": 0.0512,
	"step": 1386
	},
	{
	"epoch": 453.95,
	"learning_rate": 1.9140625000000004e-06,
	"loss": 0.0509,
	"step": 1389
	},
	{
	"epoch": 454.92,
	"learning_rate": 1.8750000000000003e-06,
	"loss": 0.0532,
	"step": 1392
	},
	{
	"epoch": 455.89,
	"learning_rate": 1.8359375000000002e-06,
	"loss": 0.0498,
	"step": 1395
	},
	{
	"epoch": 456.86,
	"learning_rate": 1.796875e-06,
	"loss": 0.05,
	"step": 1398
	},
	{
	"epoch": 457.84,
	"learning_rate": 1.7578125000000002e-06,
	"loss": 0.0526,
	"step": 1401
	},
	{
	"epoch": 458.81,
	"learning_rate": 1.71875e-06,
	"loss": 0.0514,
	"step": 1404
	},
	{
	"epoch": 459.78,
	"learning_rate": 1.6796875000000002e-06,
	"loss": 0.0529,
	"step": 1407
	},
	{
	"epoch": 460.76,
	"learning_rate": 1.640625e-06,
	"loss": 0.0501,
	"step": 1410
	},
	{
	"epoch": 461.73,
	"learning_rate": 1.6015625000000002e-06,
	"loss": 0.0508,
	"step": 1413
	},
	{
	"epoch": 462.7,
	"learning_rate": 1.5625e-06,
	"loss": 0.0509,
	"step": 1416
	},
	{
	"epoch": 464.0,
	"learning_rate": 1.5104166666666667e-06,
	"loss": 0.0385,
	"step": 1420
	},
	{
	"epoch": 464.97,
	"learning_rate": 1.4713541666666668e-06,
	"loss": 0.0533,
	"step": 1423
	},
	{
	"epoch": 465.95,
	"learning_rate": 1.4322916666666667e-06,
	"loss": 0.0504,
	"step": 1426
	},
	{
	"epoch": 466.92,
	"learning_rate": 1.3932291666666668e-06,
	"loss": 0.0512,
	"step": 1429
	},
	{
	"epoch": 467.89,
	"learning_rate": 1.3541666666666667e-06,
	"loss": 0.0517,
	"step": 1432
	},
	{
	"epoch": 468.86,
	"learning_rate": 1.3151041666666666e-06,
	"loss": 0.0484,
	"step": 1435
	},
	{
	"epoch": 469.84,
	"learning_rate": 1.2760416666666667e-06,
	"loss": 0.0511,
	"step": 1438
	},
	{
	"epoch": 470.81,
	"learning_rate": 1.2369791666666668e-06,
	"loss": 0.0515,
	"step": 1441
	},
	{
	"epoch": 471.78,
	"learning_rate": 1.197916666666667e-06,
	"loss": 0.0506,
	"step": 1444
	},
	{
	"epoch": 472.76,
	"learning_rate": 1.1588541666666668e-06,
	"loss": 0.0515,
	"step": 1447
	},
	{
	"epoch": 473.73,
	"learning_rate": 1.1197916666666667e-06,
	"loss": 0.0501,
	"step": 1450
	},
	{
	"epoch": 474.7,
	"learning_rate": 1.0807291666666668e-06,
	"loss": 0.0523,
	"step": 1453
	},
	{
	"epoch": 476.0,
	"learning_rate": 1.0286458333333334e-06,
	"loss": 0.0373,
	"step": 1457
	},
	{
	"epoch": 476.97,
	"learning_rate": 9.895833333333333e-07,
	"loss": 0.0504,
	"step": 1460
	},
	{
	"epoch": 477.95,
	"learning_rate": 9.505208333333333e-07,
	"loss": 0.0497,
	"step": 1463
	},
	{
	"epoch": 478.92,
	"learning_rate": 9.114583333333333e-07,
	"loss": 0.0496,
	"step": 1466
	},
	{
	"epoch": 479.89,
	"learning_rate": 8.723958333333333e-07,
	"loss": 0.0526,
	"step": 1469
	},
	{
	"epoch": 480.86,
	"learning_rate": 8.333333333333333e-07,
	"loss": 0.0491,
	"step": 1472
	},
	{
	"epoch": 481.84,
	"learning_rate": 7.942708333333333e-07,
	"loss": 0.0499,
	"step": 1475
	},
	{
	"epoch": 482.81,
	"learning_rate": 7.552083333333333e-07,
	"loss": 0.0519,
	"step": 1478
	},
	{
	"epoch": 483.78,
	"learning_rate": 7.161458333333333e-07,
	"loss": 0.0499,
	"step": 1481
	},
	{
	"epoch": 484.76,
	"learning_rate": 6.770833333333333e-07,
	"loss": 0.0516,
	"step": 1484
	},
	{
	"epoch": 485.73,
	"learning_rate": 6.380208333333333e-07,
	"loss": 0.0493,
	"step": 1487
	},
	{
	"epoch": 486.7,
	"learning_rate": 5.989583333333335e-07,
	"loss": 0.0513,
	"step": 1490
	},
	{
	"epoch": 488.0,
	"learning_rate": 5.468750000000001e-07,
	"loss": 0.0381,
	"step": 1494
	},
	{
	"epoch": 488.97,
	"learning_rate": 5.078125000000001e-07,
	"loss": 0.0518,
	"step": 1497
	},
	{
	"epoch": 489.95,
	"learning_rate": 4.6875000000000006e-07,
	"loss": 0.0489,
	"step": 1500
	},
	{
	"epoch": 490.92,
	"learning_rate": 4.296875e-07,
	"loss": 0.0497,
	"step": 1503
	},
	{
	"epoch": 491.89,
	"learning_rate": 3.90625e-07,
	"loss": 0.0492,
	"step": 1506
	},
	{
	"epoch": 492.86,
	"learning_rate": 3.515625e-07,
	"loss": 0.049,
	"step": 1509
	},
	{
	"epoch": 493.84,
	"learning_rate": 3.125e-07,
	"loss": 0.0487,
	"step": 1512
	},
	{
	"epoch": 494.81,
	"learning_rate": 2.7343750000000003e-07,
	"loss": 0.0495,
	"step": 1515
	},
	{
	"epoch": 495.78,
	"learning_rate": 2.3437500000000003e-07,
	"loss": 0.049,
	"step": 1518
	},
	{
	"epoch": 496.76,
	"learning_rate": 1.953125e-07,
	"loss": 0.0505,
	"step": 1521
	},
	{
	"epoch": 497.73,
	"learning_rate": 1.5625e-07,
	"loss": 0.0518,
	"step": 1524
	},
	{
	"epoch": 498.7,
	"learning_rate": 1.1718750000000002e-07,
	"loss": 0.0477,
	"step": 1527
	},
	{
	"epoch": 500.0,
	"learning_rate": 6.510416666666667e-08,
	"loss": 0.039,
	"step": 1531
	},
	{
	"epoch": 500.97,
	"learning_rate": 2.6041666666666667e-08,
	"loss": 0.0494,
	"step": 1534
	},
	{
	"epoch": 501.62,
	"learning_rate": 0.0,
	"loss": 0.0498,
	"step": 1536
	},
	{
	"epoch": 501.62,
	"step": 1536,
	"total_flos": 1.9358620133923584e+17,
	"train_loss": 0.10890851792161509,
	"train_runtime": 10408.3467,
	"train_samples_per_second": 288.507,
	"train_steps_per_second": 0.148
	}
	],
	"logging_steps": 500,
	"max_steps": 1536,
	"num_train_epochs": 512,
	"save_steps": 500,
	"total_flos": 1.9358620133923584e+17,
	"trial_name": null,
	"trial_params": null
	}