outputs / trainer_state.json
pminervini's picture
Training in progress, step 32
ee53f1b verified
{
"best_metric": 0.38298845291137695,
"best_model_checkpoint": "outputs/checkpoint-512",
"epoch": 3.002932551319648,
"eval_steps": 32,
"global_step": 512,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.05,
"grad_norm": 0.08740234375,
"learning_rate": 0.000125,
"loss": 1.2568,
"step": 8
},
{
"epoch": 0.09,
"grad_norm": 0.09375,
"learning_rate": 0.00025,
"loss": 1.1087,
"step": 16
},
{
"epoch": 0.14,
"grad_norm": 0.08251953125,
"learning_rate": 0.000375,
"loss": 0.8374,
"step": 24
},
{
"epoch": 0.19,
"grad_norm": 0.076171875,
"learning_rate": 0.0005,
"loss": 0.7087,
"step": 32
},
{
"epoch": 0.19,
"eval_loss": 0.582936704158783,
"eval_runtime": 2.9206,
"eval_samples_per_second": 16.435,
"eval_steps_per_second": 2.054,
"step": 32
},
{
"epoch": 0.23,
"grad_norm": 0.07470703125,
"learning_rate": 0.0004916666666666666,
"loss": 0.6099,
"step": 40
},
{
"epoch": 0.28,
"grad_norm": 0.0751953125,
"learning_rate": 0.00048333333333333334,
"loss": 0.5956,
"step": 48
},
{
"epoch": 0.33,
"grad_norm": 0.06982421875,
"learning_rate": 0.000475,
"loss": 0.5691,
"step": 56
},
{
"epoch": 0.38,
"grad_norm": 0.09375,
"learning_rate": 0.00046666666666666666,
"loss": 0.5675,
"step": 64
},
{
"epoch": 0.38,
"eval_loss": 0.47926369309425354,
"eval_runtime": 2.1968,
"eval_samples_per_second": 21.85,
"eval_steps_per_second": 2.731,
"step": 64
},
{
"epoch": 0.42,
"grad_norm": 0.058349609375,
"learning_rate": 0.0004583333333333333,
"loss": 0.5528,
"step": 72
},
{
"epoch": 0.47,
"grad_norm": 0.0595703125,
"learning_rate": 0.00045000000000000004,
"loss": 0.535,
"step": 80
},
{
"epoch": 0.52,
"grad_norm": 0.056396484375,
"learning_rate": 0.00044166666666666665,
"loss": 0.5055,
"step": 88
},
{
"epoch": 0.56,
"grad_norm": 0.05224609375,
"learning_rate": 0.00043333333333333337,
"loss": 0.5163,
"step": 96
},
{
"epoch": 0.56,
"eval_loss": 0.44680991768836975,
"eval_runtime": 2.197,
"eval_samples_per_second": 21.848,
"eval_steps_per_second": 2.731,
"step": 96
},
{
"epoch": 0.61,
"grad_norm": 0.048828125,
"learning_rate": 0.000425,
"loss": 0.513,
"step": 104
},
{
"epoch": 0.66,
"grad_norm": 0.053955078125,
"learning_rate": 0.0004166666666666667,
"loss": 0.4927,
"step": 112
},
{
"epoch": 0.7,
"grad_norm": 0.056396484375,
"learning_rate": 0.00040833333333333336,
"loss": 0.5163,
"step": 120
},
{
"epoch": 0.75,
"grad_norm": 0.047607421875,
"learning_rate": 0.0004,
"loss": 0.4923,
"step": 128
},
{
"epoch": 0.75,
"eval_loss": 0.4288952052593231,
"eval_runtime": 2.2003,
"eval_samples_per_second": 21.815,
"eval_steps_per_second": 2.727,
"step": 128
},
{
"epoch": 0.8,
"grad_norm": 0.05078125,
"learning_rate": 0.0003916666666666667,
"loss": 0.484,
"step": 136
},
{
"epoch": 0.84,
"grad_norm": 0.052001953125,
"learning_rate": 0.00038333333333333334,
"loss": 0.4698,
"step": 144
},
{
"epoch": 0.89,
"grad_norm": 0.057861328125,
"learning_rate": 0.000375,
"loss": 0.4682,
"step": 152
},
{
"epoch": 0.94,
"grad_norm": 0.0517578125,
"learning_rate": 0.00036666666666666667,
"loss": 0.4661,
"step": 160
},
{
"epoch": 0.94,
"eval_loss": 0.4169415235519409,
"eval_runtime": 2.1996,
"eval_samples_per_second": 21.822,
"eval_steps_per_second": 2.728,
"step": 160
},
{
"epoch": 0.99,
"grad_norm": 0.050048828125,
"learning_rate": 0.00035833333333333333,
"loss": 0.4717,
"step": 168
},
{
"epoch": 1.03,
"grad_norm": 0.059326171875,
"learning_rate": 0.00035,
"loss": 0.4706,
"step": 176
},
{
"epoch": 1.08,
"grad_norm": 0.05224609375,
"learning_rate": 0.00034166666666666666,
"loss": 0.4541,
"step": 184
},
{
"epoch": 1.13,
"grad_norm": 0.055908203125,
"learning_rate": 0.0003333333333333333,
"loss": 0.4428,
"step": 192
},
{
"epoch": 1.13,
"eval_loss": 0.4122503697872162,
"eval_runtime": 2.1981,
"eval_samples_per_second": 21.837,
"eval_steps_per_second": 2.73,
"step": 192
},
{
"epoch": 1.17,
"grad_norm": 0.0576171875,
"learning_rate": 0.00032500000000000004,
"loss": 0.4415,
"step": 200
},
{
"epoch": 1.22,
"grad_norm": 0.0625,
"learning_rate": 0.00031666666666666665,
"loss": 0.4701,
"step": 208
},
{
"epoch": 1.27,
"grad_norm": 0.0546875,
"learning_rate": 0.00030833333333333337,
"loss": 0.4445,
"step": 216
},
{
"epoch": 1.31,
"grad_norm": 0.060302734375,
"learning_rate": 0.0003,
"loss": 0.4311,
"step": 224
},
{
"epoch": 1.31,
"eval_loss": 0.4041053056716919,
"eval_runtime": 2.1997,
"eval_samples_per_second": 21.821,
"eval_steps_per_second": 2.728,
"step": 224
},
{
"epoch": 1.36,
"grad_norm": 0.0556640625,
"learning_rate": 0.0002916666666666667,
"loss": 0.4614,
"step": 232
},
{
"epoch": 1.41,
"grad_norm": 0.05859375,
"learning_rate": 0.00028333333333333335,
"loss": 0.4434,
"step": 240
},
{
"epoch": 1.45,
"grad_norm": 0.062255859375,
"learning_rate": 0.000275,
"loss": 0.427,
"step": 248
},
{
"epoch": 1.5,
"grad_norm": 0.059814453125,
"learning_rate": 0.0002666666666666667,
"loss": 0.4554,
"step": 256
},
{
"epoch": 1.5,
"eval_loss": 0.3991839587688446,
"eval_runtime": 2.2002,
"eval_samples_per_second": 21.816,
"eval_steps_per_second": 2.727,
"step": 256
},
{
"epoch": 1.55,
"grad_norm": 0.05224609375,
"learning_rate": 0.00025833333333333334,
"loss": 0.4375,
"step": 264
},
{
"epoch": 1.6,
"grad_norm": 0.059814453125,
"learning_rate": 0.00025,
"loss": 0.4379,
"step": 272
},
{
"epoch": 1.64,
"grad_norm": 0.057861328125,
"learning_rate": 0.00024166666666666667,
"loss": 0.4335,
"step": 280
},
{
"epoch": 1.69,
"grad_norm": 0.056396484375,
"learning_rate": 0.00023333333333333333,
"loss": 0.4451,
"step": 288
},
{
"epoch": 1.69,
"eval_loss": 0.3925025165081024,
"eval_runtime": 2.2103,
"eval_samples_per_second": 21.716,
"eval_steps_per_second": 2.715,
"step": 288
},
{
"epoch": 1.74,
"grad_norm": 0.050537109375,
"learning_rate": 0.00022500000000000002,
"loss": 0.4681,
"step": 296
},
{
"epoch": 1.78,
"grad_norm": 0.06494140625,
"learning_rate": 0.00021666666666666668,
"loss": 0.4313,
"step": 304
},
{
"epoch": 1.83,
"grad_norm": 0.05224609375,
"learning_rate": 0.00020833333333333335,
"loss": 0.4539,
"step": 312
},
{
"epoch": 1.88,
"grad_norm": 0.0634765625,
"learning_rate": 0.0002,
"loss": 0.4364,
"step": 320
},
{
"epoch": 1.88,
"eval_loss": 0.3885883390903473,
"eval_runtime": 2.2015,
"eval_samples_per_second": 21.804,
"eval_steps_per_second": 2.725,
"step": 320
},
{
"epoch": 1.92,
"grad_norm": 0.049560546875,
"learning_rate": 0.00019166666666666667,
"loss": 0.4425,
"step": 328
},
{
"epoch": 1.97,
"grad_norm": 0.0625,
"learning_rate": 0.00018333333333333334,
"loss": 0.4327,
"step": 336
},
{
"epoch": 2.02,
"grad_norm": 0.052978515625,
"learning_rate": 0.000175,
"loss": 0.4296,
"step": 344
},
{
"epoch": 2.06,
"grad_norm": 0.0625,
"learning_rate": 0.00016666666666666666,
"loss": 0.417,
"step": 352
},
{
"epoch": 2.06,
"eval_loss": 0.3900233209133148,
"eval_runtime": 2.2074,
"eval_samples_per_second": 21.745,
"eval_steps_per_second": 2.718,
"step": 352
},
{
"epoch": 2.11,
"grad_norm": 0.05615234375,
"learning_rate": 0.00015833333333333332,
"loss": 0.3998,
"step": 360
},
{
"epoch": 2.16,
"grad_norm": 0.0576171875,
"learning_rate": 0.00015,
"loss": 0.4019,
"step": 368
},
{
"epoch": 2.21,
"grad_norm": 0.054443359375,
"learning_rate": 0.00014166666666666668,
"loss": 0.4096,
"step": 376
},
{
"epoch": 2.25,
"grad_norm": 0.0673828125,
"learning_rate": 0.00013333333333333334,
"loss": 0.4349,
"step": 384
},
{
"epoch": 2.25,
"eval_loss": 0.38732287287712097,
"eval_runtime": 2.1995,
"eval_samples_per_second": 21.823,
"eval_steps_per_second": 2.728,
"step": 384
},
{
"epoch": 2.3,
"grad_norm": 0.06201171875,
"learning_rate": 0.000125,
"loss": 0.4235,
"step": 392
},
{
"epoch": 2.35,
"grad_norm": 0.0625,
"learning_rate": 0.00011666666666666667,
"loss": 0.4056,
"step": 400
},
{
"epoch": 2.39,
"grad_norm": 0.06396484375,
"learning_rate": 0.00010833333333333334,
"loss": 0.4116,
"step": 408
},
{
"epoch": 2.44,
"grad_norm": 0.0634765625,
"learning_rate": 0.0001,
"loss": 0.416,
"step": 416
},
{
"epoch": 2.44,
"eval_loss": 0.3866064250469208,
"eval_runtime": 2.2006,
"eval_samples_per_second": 21.812,
"eval_steps_per_second": 2.727,
"step": 416
},
{
"epoch": 2.49,
"grad_norm": 0.06787109375,
"learning_rate": 9.166666666666667e-05,
"loss": 0.4214,
"step": 424
},
{
"epoch": 2.53,
"grad_norm": 0.060791015625,
"learning_rate": 8.333333333333333e-05,
"loss": 0.386,
"step": 432
},
{
"epoch": 2.58,
"grad_norm": 0.062255859375,
"learning_rate": 7.5e-05,
"loss": 0.3994,
"step": 440
},
{
"epoch": 2.63,
"grad_norm": 0.06103515625,
"learning_rate": 6.666666666666667e-05,
"loss": 0.4169,
"step": 448
},
{
"epoch": 2.63,
"eval_loss": 0.38443723320961,
"eval_runtime": 2.2022,
"eval_samples_per_second": 21.796,
"eval_steps_per_second": 2.725,
"step": 448
},
{
"epoch": 2.67,
"grad_norm": 0.0654296875,
"learning_rate": 5.833333333333333e-05,
"loss": 0.392,
"step": 456
},
{
"epoch": 2.72,
"grad_norm": 0.064453125,
"learning_rate": 5e-05,
"loss": 0.4002,
"step": 464
},
{
"epoch": 2.77,
"grad_norm": 0.0615234375,
"learning_rate": 4.1666666666666665e-05,
"loss": 0.4362,
"step": 472
},
{
"epoch": 2.82,
"grad_norm": 0.061279296875,
"learning_rate": 3.3333333333333335e-05,
"loss": 0.3852,
"step": 480
},
{
"epoch": 2.82,
"eval_loss": 0.38356801867485046,
"eval_runtime": 2.2009,
"eval_samples_per_second": 21.809,
"eval_steps_per_second": 2.726,
"step": 480
},
{
"epoch": 2.86,
"grad_norm": 0.06201171875,
"learning_rate": 2.5e-05,
"loss": 0.3989,
"step": 488
},
{
"epoch": 2.91,
"grad_norm": 0.0634765625,
"learning_rate": 1.6666666666666667e-05,
"loss": 0.4017,
"step": 496
},
{
"epoch": 2.96,
"grad_norm": 0.0634765625,
"learning_rate": 8.333333333333334e-06,
"loss": 0.4178,
"step": 504
},
{
"epoch": 3.0,
"grad_norm": 0.058837890625,
"learning_rate": 0.0,
"loss": 0.3916,
"step": 512
},
{
"epoch": 3.0,
"eval_loss": 0.38298845291137695,
"eval_runtime": 2.1989,
"eval_samples_per_second": 21.829,
"eval_steps_per_second": 2.729,
"step": 512
},
{
"epoch": 3.0,
"step": 512,
"total_flos": 1.005493534658642e+17,
"train_loss": 0.4858610653318465,
"train_runtime": 1143.2565,
"train_samples_per_second": 7.165,
"train_steps_per_second": 0.448
}
],
"logging_steps": 8,
"max_steps": 512,
"num_input_tokens_seen": 0,
"num_train_epochs": 4,
"save_steps": 32,
"total_flos": 1.005493534658642e+17,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}