outputs / trainer_state.json

Training in progress, step 32

ee53f1b verified almost 2 years ago

13.5 kB

	{
	"best_metric": 0.38298845291137695,
	"best_model_checkpoint": "outputs/checkpoint-512",
	"epoch": 3.002932551319648,
	"eval_steps": 32,
	"global_step": 512,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.000125,
	"loss": 1.2568,
	"step": 8
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.09375,
	"learning_rate": 0.00025,
	"loss": 1.1087,
	"step": 16
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.08251953125,
	"learning_rate": 0.000375,
	"loss": 0.8374,
	"step": 24
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.076171875,
	"learning_rate": 0.0005,
	"loss": 0.7087,
	"step": 32
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.582936704158783,
	"eval_runtime": 2.9206,
	"eval_samples_per_second": 16.435,
	"eval_steps_per_second": 2.054,
	"step": 32
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.07470703125,
	"learning_rate": 0.0004916666666666666,
	"loss": 0.6099,
	"step": 40
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.0751953125,
	"learning_rate": 0.00048333333333333334,
	"loss": 0.5956,
	"step": 48
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.06982421875,
	"learning_rate": 0.000475,
	"loss": 0.5691,
	"step": 56
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.09375,
	"learning_rate": 0.00046666666666666666,
	"loss": 0.5675,
	"step": 64
	},
	{
	"epoch": 0.38,
	"eval_loss": 0.47926369309425354,
	"eval_runtime": 2.1968,
	"eval_samples_per_second": 21.85,
	"eval_steps_per_second": 2.731,
	"step": 64
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.058349609375,
	"learning_rate": 0.0004583333333333333,
	"loss": 0.5528,
	"step": 72
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.0595703125,
	"learning_rate": 0.00045000000000000004,
	"loss": 0.535,
	"step": 80
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.056396484375,
	"learning_rate": 0.00044166666666666665,
	"loss": 0.5055,
	"step": 88
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.00043333333333333337,
	"loss": 0.5163,
	"step": 96
	},
	{
	"epoch": 0.56,
	"eval_loss": 0.44680991768836975,
	"eval_runtime": 2.197,
	"eval_samples_per_second": 21.848,
	"eval_steps_per_second": 2.731,
	"step": 96
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.048828125,
	"learning_rate": 0.000425,
	"loss": 0.513,
	"step": 104
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.053955078125,
	"learning_rate": 0.0004166666666666667,
	"loss": 0.4927,
	"step": 112
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.056396484375,
	"learning_rate": 0.00040833333333333336,
	"loss": 0.5163,
	"step": 120
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.0004,
	"loss": 0.4923,
	"step": 128
	},
	{
	"epoch": 0.75,
	"eval_loss": 0.4288952052593231,
	"eval_runtime": 2.2003,
	"eval_samples_per_second": 21.815,
	"eval_steps_per_second": 2.727,
	"step": 128
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.05078125,
	"learning_rate": 0.0003916666666666667,
	"loss": 0.484,
	"step": 136
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.052001953125,
	"learning_rate": 0.00038333333333333334,
	"loss": 0.4698,
	"step": 144
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.057861328125,
	"learning_rate": 0.000375,
	"loss": 0.4682,
	"step": 152
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.0517578125,
	"learning_rate": 0.00036666666666666667,
	"loss": 0.4661,
	"step": 160
	},
	{
	"epoch": 0.94,
	"eval_loss": 0.4169415235519409,
	"eval_runtime": 2.1996,
	"eval_samples_per_second": 21.822,
	"eval_steps_per_second": 2.728,
	"step": 160
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.00035833333333333333,
	"loss": 0.4717,
	"step": 168
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00035,
	"loss": 0.4706,
	"step": 176
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.00034166666666666666,
	"loss": 0.4541,
	"step": 184
	},
	{
	"epoch": 1.13,
	"grad_norm": 0.055908203125,
	"learning_rate": 0.0003333333333333333,
	"loss": 0.4428,
	"step": 192
	},
	{
	"epoch": 1.13,
	"eval_loss": 0.4122503697872162,
	"eval_runtime": 2.1981,
	"eval_samples_per_second": 21.837,
	"eval_steps_per_second": 2.73,
	"step": 192
	},
	{
	"epoch": 1.17,
	"grad_norm": 0.0576171875,
	"learning_rate": 0.00032500000000000004,
	"loss": 0.4415,
	"step": 200
	},
	{
	"epoch": 1.22,
	"grad_norm": 0.0625,
	"learning_rate": 0.00031666666666666665,
	"loss": 0.4701,
	"step": 208
	},
	{
	"epoch": 1.27,
	"grad_norm": 0.0546875,
	"learning_rate": 0.00030833333333333337,
	"loss": 0.4445,
	"step": 216
	},
	{
	"epoch": 1.31,
	"grad_norm": 0.060302734375,
	"learning_rate": 0.0003,
	"loss": 0.4311,
	"step": 224
	},
	{
	"epoch": 1.31,
	"eval_loss": 0.4041053056716919,
	"eval_runtime": 2.1997,
	"eval_samples_per_second": 21.821,
	"eval_steps_per_second": 2.728,
	"step": 224
	},
	{
	"epoch": 1.36,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.0002916666666666667,
	"loss": 0.4614,
	"step": 232
	},
	{
	"epoch": 1.41,
	"grad_norm": 0.05859375,
	"learning_rate": 0.00028333333333333335,
	"loss": 0.4434,
	"step": 240
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.062255859375,
	"learning_rate": 0.000275,
	"loss": 0.427,
	"step": 248
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.0002666666666666667,
	"loss": 0.4554,
	"step": 256
	},
	{
	"epoch": 1.5,
	"eval_loss": 0.3991839587688446,
	"eval_runtime": 2.2002,
	"eval_samples_per_second": 21.816,
	"eval_steps_per_second": 2.727,
	"step": 256
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.00025833333333333334,
	"loss": 0.4375,
	"step": 264
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00025,
	"loss": 0.4379,
	"step": 272
	},
	{
	"epoch": 1.64,
	"grad_norm": 0.057861328125,
	"learning_rate": 0.00024166666666666667,
	"loss": 0.4335,
	"step": 280
	},
	{
	"epoch": 1.69,
	"grad_norm": 0.056396484375,
	"learning_rate": 0.00023333333333333333,
	"loss": 0.4451,
	"step": 288
	},
	{
	"epoch": 1.69,
	"eval_loss": 0.3925025165081024,
	"eval_runtime": 2.2103,
	"eval_samples_per_second": 21.716,
	"eval_steps_per_second": 2.715,
	"step": 288
	},
	{
	"epoch": 1.74,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.00022500000000000002,
	"loss": 0.4681,
	"step": 296
	},
	{
	"epoch": 1.78,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00021666666666666668,
	"loss": 0.4313,
	"step": 304
	},
	{
	"epoch": 1.83,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.00020833333333333335,
	"loss": 0.4539,
	"step": 312
	},
	{
	"epoch": 1.88,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.0002,
	"loss": 0.4364,
	"step": 320
	},
	{
	"epoch": 1.88,
	"eval_loss": 0.3885883390903473,
	"eval_runtime": 2.2015,
	"eval_samples_per_second": 21.804,
	"eval_steps_per_second": 2.725,
	"step": 320
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.049560546875,
	"learning_rate": 0.00019166666666666667,
	"loss": 0.4425,
	"step": 328
	},
	{
	"epoch": 1.97,
	"grad_norm": 0.0625,
	"learning_rate": 0.00018333333333333334,
	"loss": 0.4327,
	"step": 336
	},
	{
	"epoch": 2.02,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.000175,
	"loss": 0.4296,
	"step": 344
	},
	{
	"epoch": 2.06,
	"grad_norm": 0.0625,
	"learning_rate": 0.00016666666666666666,
	"loss": 0.417,
	"step": 352
	},
	{
	"epoch": 2.06,
	"eval_loss": 0.3900233209133148,
	"eval_runtime": 2.2074,
	"eval_samples_per_second": 21.745,
	"eval_steps_per_second": 2.718,
	"step": 352
	},
	{
	"epoch": 2.11,
	"grad_norm": 0.05615234375,
	"learning_rate": 0.00015833333333333332,
	"loss": 0.3998,
	"step": 360
	},
	{
	"epoch": 2.16,
	"grad_norm": 0.0576171875,
	"learning_rate": 0.00015,
	"loss": 0.4019,
	"step": 368
	},
	{
	"epoch": 2.21,
	"grad_norm": 0.054443359375,
	"learning_rate": 0.00014166666666666668,
	"loss": 0.4096,
	"step": 376
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.0673828125,
	"learning_rate": 0.00013333333333333334,
	"loss": 0.4349,
	"step": 384
	},
	{
	"epoch": 2.25,
	"eval_loss": 0.38732287287712097,
	"eval_runtime": 2.1995,
	"eval_samples_per_second": 21.823,
	"eval_steps_per_second": 2.728,
	"step": 384
	},
	{
	"epoch": 2.3,
	"grad_norm": 0.06201171875,
	"learning_rate": 0.000125,
	"loss": 0.4235,
	"step": 392
	},
	{
	"epoch": 2.35,
	"grad_norm": 0.0625,
	"learning_rate": 0.00011666666666666667,
	"loss": 0.4056,
	"step": 400
	},
	{
	"epoch": 2.39,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.00010833333333333334,
	"loss": 0.4116,
	"step": 408
	},
	{
	"epoch": 2.44,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.0001,
	"loss": 0.416,
	"step": 416
	},
	{
	"epoch": 2.44,
	"eval_loss": 0.3866064250469208,
	"eval_runtime": 2.2006,
	"eval_samples_per_second": 21.812,
	"eval_steps_per_second": 2.727,
	"step": 416
	},
	{
	"epoch": 2.49,
	"grad_norm": 0.06787109375,
	"learning_rate": 9.166666666666667e-05,
	"loss": 0.4214,
	"step": 424
	},
	{
	"epoch": 2.53,
	"grad_norm": 0.060791015625,
	"learning_rate": 8.333333333333333e-05,
	"loss": 0.386,
	"step": 432
	},
	{
	"epoch": 2.58,
	"grad_norm": 0.062255859375,
	"learning_rate": 7.5e-05,
	"loss": 0.3994,
	"step": 440
	},
	{
	"epoch": 2.63,
	"grad_norm": 0.06103515625,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.4169,
	"step": 448
	},
	{
	"epoch": 2.63,
	"eval_loss": 0.38443723320961,
	"eval_runtime": 2.2022,
	"eval_samples_per_second": 21.796,
	"eval_steps_per_second": 2.725,
	"step": 448
	},
	{
	"epoch": 2.67,
	"grad_norm": 0.0654296875,
	"learning_rate": 5.833333333333333e-05,
	"loss": 0.392,
	"step": 456
	},
	{
	"epoch": 2.72,
	"grad_norm": 0.064453125,
	"learning_rate": 5e-05,
	"loss": 0.4002,
	"step": 464
	},
	{
	"epoch": 2.77,
	"grad_norm": 0.0615234375,
	"learning_rate": 4.1666666666666665e-05,
	"loss": 0.4362,
	"step": 472
	},
	{
	"epoch": 2.82,
	"grad_norm": 0.061279296875,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.3852,
	"step": 480
	},
	{
	"epoch": 2.82,
	"eval_loss": 0.38356801867485046,
	"eval_runtime": 2.2009,
	"eval_samples_per_second": 21.809,
	"eval_steps_per_second": 2.726,
	"step": 480
	},
	{
	"epoch": 2.86,
	"grad_norm": 0.06201171875,
	"learning_rate": 2.5e-05,
	"loss": 0.3989,
	"step": 488
	},
	{
	"epoch": 2.91,
	"grad_norm": 0.0634765625,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.4017,
	"step": 496
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.0634765625,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.4178,
	"step": 504
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.0,
	"loss": 0.3916,
	"step": 512
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.38298845291137695,
	"eval_runtime": 2.1989,
	"eval_samples_per_second": 21.829,
	"eval_steps_per_second": 2.729,
	"step": 512
	},
	{
	"epoch": 3.0,
	"step": 512,
	"total_flos": 1.005493534658642e+17,
	"train_loss": 0.4858610653318465,
	"train_runtime": 1143.2565,
	"train_samples_per_second": 7.165,
	"train_steps_per_second": 0.448
	}
	],
	"logging_steps": 8,
	"max_steps": 512,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 32,
	"total_flos": 1.005493534658642e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}