| { | |
| "best_metric": 0.38298845291137695, | |
| "best_model_checkpoint": "outputs/checkpoint-512", | |
| "epoch": 3.002932551319648, | |
| "eval_steps": 32, | |
| "global_step": 512, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.08740234375, | |
| "learning_rate": 0.000125, | |
| "loss": 1.2568, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 0.09375, | |
| "learning_rate": 0.00025, | |
| "loss": 1.1087, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 0.08251953125, | |
| "learning_rate": 0.000375, | |
| "loss": 0.8374, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "grad_norm": 0.076171875, | |
| "learning_rate": 0.0005, | |
| "loss": 0.7087, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "eval_loss": 0.582936704158783, | |
| "eval_runtime": 2.9206, | |
| "eval_samples_per_second": 16.435, | |
| "eval_steps_per_second": 2.054, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.23, | |
| "grad_norm": 0.07470703125, | |
| "learning_rate": 0.0004916666666666666, | |
| "loss": 0.6099, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.0751953125, | |
| "learning_rate": 0.00048333333333333334, | |
| "loss": 0.5956, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.33, | |
| "grad_norm": 0.06982421875, | |
| "learning_rate": 0.000475, | |
| "loss": 0.5691, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 0.09375, | |
| "learning_rate": 0.00046666666666666666, | |
| "loss": 0.5675, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "eval_loss": 0.47926369309425354, | |
| "eval_runtime": 2.1968, | |
| "eval_samples_per_second": 21.85, | |
| "eval_steps_per_second": 2.731, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 0.058349609375, | |
| "learning_rate": 0.0004583333333333333, | |
| "loss": 0.5528, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.47, | |
| "grad_norm": 0.0595703125, | |
| "learning_rate": 0.00045000000000000004, | |
| "loss": 0.535, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 0.056396484375, | |
| "learning_rate": 0.00044166666666666665, | |
| "loss": 0.5055, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.05224609375, | |
| "learning_rate": 0.00043333333333333337, | |
| "loss": 0.5163, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "eval_loss": 0.44680991768836975, | |
| "eval_runtime": 2.197, | |
| "eval_samples_per_second": 21.848, | |
| "eval_steps_per_second": 2.731, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.61, | |
| "grad_norm": 0.048828125, | |
| "learning_rate": 0.000425, | |
| "loss": 0.513, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "grad_norm": 0.053955078125, | |
| "learning_rate": 0.0004166666666666667, | |
| "loss": 0.4927, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.056396484375, | |
| "learning_rate": 0.00040833333333333336, | |
| "loss": 0.5163, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 0.047607421875, | |
| "learning_rate": 0.0004, | |
| "loss": 0.4923, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "eval_loss": 0.4288952052593231, | |
| "eval_runtime": 2.2003, | |
| "eval_samples_per_second": 21.815, | |
| "eval_steps_per_second": 2.727, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.05078125, | |
| "learning_rate": 0.0003916666666666667, | |
| "loss": 0.484, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 0.052001953125, | |
| "learning_rate": 0.00038333333333333334, | |
| "loss": 0.4698, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 0.89, | |
| "grad_norm": 0.057861328125, | |
| "learning_rate": 0.000375, | |
| "loss": 0.4682, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "grad_norm": 0.0517578125, | |
| "learning_rate": 0.00036666666666666667, | |
| "loss": 0.4661, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "eval_loss": 0.4169415235519409, | |
| "eval_runtime": 2.1996, | |
| "eval_samples_per_second": 21.822, | |
| "eval_steps_per_second": 2.728, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.99, | |
| "grad_norm": 0.050048828125, | |
| "learning_rate": 0.00035833333333333333, | |
| "loss": 0.4717, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 1.03, | |
| "grad_norm": 0.059326171875, | |
| "learning_rate": 0.00035, | |
| "loss": 0.4706, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 0.05224609375, | |
| "learning_rate": 0.00034166666666666666, | |
| "loss": 0.4541, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 1.13, | |
| "grad_norm": 0.055908203125, | |
| "learning_rate": 0.0003333333333333333, | |
| "loss": 0.4428, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 1.13, | |
| "eval_loss": 0.4122503697872162, | |
| "eval_runtime": 2.1981, | |
| "eval_samples_per_second": 21.837, | |
| "eval_steps_per_second": 2.73, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 1.17, | |
| "grad_norm": 0.0576171875, | |
| "learning_rate": 0.00032500000000000004, | |
| "loss": 0.4415, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 1.22, | |
| "grad_norm": 0.0625, | |
| "learning_rate": 0.00031666666666666665, | |
| "loss": 0.4701, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 1.27, | |
| "grad_norm": 0.0546875, | |
| "learning_rate": 0.00030833333333333337, | |
| "loss": 0.4445, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 1.31, | |
| "grad_norm": 0.060302734375, | |
| "learning_rate": 0.0003, | |
| "loss": 0.4311, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 1.31, | |
| "eval_loss": 0.4041053056716919, | |
| "eval_runtime": 2.1997, | |
| "eval_samples_per_second": 21.821, | |
| "eval_steps_per_second": 2.728, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 1.36, | |
| "grad_norm": 0.0556640625, | |
| "learning_rate": 0.0002916666666666667, | |
| "loss": 0.4614, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 1.41, | |
| "grad_norm": 0.05859375, | |
| "learning_rate": 0.00028333333333333335, | |
| "loss": 0.4434, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 1.45, | |
| "grad_norm": 0.062255859375, | |
| "learning_rate": 0.000275, | |
| "loss": 0.427, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.059814453125, | |
| "learning_rate": 0.0002666666666666667, | |
| "loss": 0.4554, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "eval_loss": 0.3991839587688446, | |
| "eval_runtime": 2.2002, | |
| "eval_samples_per_second": 21.816, | |
| "eval_steps_per_second": 2.727, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 1.55, | |
| "grad_norm": 0.05224609375, | |
| "learning_rate": 0.00025833333333333334, | |
| "loss": 0.4375, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.059814453125, | |
| "learning_rate": 0.00025, | |
| "loss": 0.4379, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 1.64, | |
| "grad_norm": 0.057861328125, | |
| "learning_rate": 0.00024166666666666667, | |
| "loss": 0.4335, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 1.69, | |
| "grad_norm": 0.056396484375, | |
| "learning_rate": 0.00023333333333333333, | |
| "loss": 0.4451, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 1.69, | |
| "eval_loss": 0.3925025165081024, | |
| "eval_runtime": 2.2103, | |
| "eval_samples_per_second": 21.716, | |
| "eval_steps_per_second": 2.715, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "grad_norm": 0.050537109375, | |
| "learning_rate": 0.00022500000000000002, | |
| "loss": 0.4681, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "grad_norm": 0.06494140625, | |
| "learning_rate": 0.00021666666666666668, | |
| "loss": 0.4313, | |
| "step": 304 | |
| }, | |
| { | |
| "epoch": 1.83, | |
| "grad_norm": 0.05224609375, | |
| "learning_rate": 0.00020833333333333335, | |
| "loss": 0.4539, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 0.0634765625, | |
| "learning_rate": 0.0002, | |
| "loss": 0.4364, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "eval_loss": 0.3885883390903473, | |
| "eval_runtime": 2.2015, | |
| "eval_samples_per_second": 21.804, | |
| "eval_steps_per_second": 2.725, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 0.049560546875, | |
| "learning_rate": 0.00019166666666666667, | |
| "loss": 0.4425, | |
| "step": 328 | |
| }, | |
| { | |
| "epoch": 1.97, | |
| "grad_norm": 0.0625, | |
| "learning_rate": 0.00018333333333333334, | |
| "loss": 0.4327, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 2.02, | |
| "grad_norm": 0.052978515625, | |
| "learning_rate": 0.000175, | |
| "loss": 0.4296, | |
| "step": 344 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "grad_norm": 0.0625, | |
| "learning_rate": 0.00016666666666666666, | |
| "loss": 0.417, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "eval_loss": 0.3900233209133148, | |
| "eval_runtime": 2.2074, | |
| "eval_samples_per_second": 21.745, | |
| "eval_steps_per_second": 2.718, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 2.11, | |
| "grad_norm": 0.05615234375, | |
| "learning_rate": 0.00015833333333333332, | |
| "loss": 0.3998, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 2.16, | |
| "grad_norm": 0.0576171875, | |
| "learning_rate": 0.00015, | |
| "loss": 0.4019, | |
| "step": 368 | |
| }, | |
| { | |
| "epoch": 2.21, | |
| "grad_norm": 0.054443359375, | |
| "learning_rate": 0.00014166666666666668, | |
| "loss": 0.4096, | |
| "step": 376 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 0.0673828125, | |
| "learning_rate": 0.00013333333333333334, | |
| "loss": 0.4349, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "eval_loss": 0.38732287287712097, | |
| "eval_runtime": 2.1995, | |
| "eval_samples_per_second": 21.823, | |
| "eval_steps_per_second": 2.728, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.06201171875, | |
| "learning_rate": 0.000125, | |
| "loss": 0.4235, | |
| "step": 392 | |
| }, | |
| { | |
| "epoch": 2.35, | |
| "grad_norm": 0.0625, | |
| "learning_rate": 0.00011666666666666667, | |
| "loss": 0.4056, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 2.39, | |
| "grad_norm": 0.06396484375, | |
| "learning_rate": 0.00010833333333333334, | |
| "loss": 0.4116, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 2.44, | |
| "grad_norm": 0.0634765625, | |
| "learning_rate": 0.0001, | |
| "loss": 0.416, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 2.44, | |
| "eval_loss": 0.3866064250469208, | |
| "eval_runtime": 2.2006, | |
| "eval_samples_per_second": 21.812, | |
| "eval_steps_per_second": 2.727, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 2.49, | |
| "grad_norm": 0.06787109375, | |
| "learning_rate": 9.166666666666667e-05, | |
| "loss": 0.4214, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 2.53, | |
| "grad_norm": 0.060791015625, | |
| "learning_rate": 8.333333333333333e-05, | |
| "loss": 0.386, | |
| "step": 432 | |
| }, | |
| { | |
| "epoch": 2.58, | |
| "grad_norm": 0.062255859375, | |
| "learning_rate": 7.5e-05, | |
| "loss": 0.3994, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 2.63, | |
| "grad_norm": 0.06103515625, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 0.4169, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 2.63, | |
| "eval_loss": 0.38443723320961, | |
| "eval_runtime": 2.2022, | |
| "eval_samples_per_second": 21.796, | |
| "eval_steps_per_second": 2.725, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 2.67, | |
| "grad_norm": 0.0654296875, | |
| "learning_rate": 5.833333333333333e-05, | |
| "loss": 0.392, | |
| "step": 456 | |
| }, | |
| { | |
| "epoch": 2.72, | |
| "grad_norm": 0.064453125, | |
| "learning_rate": 5e-05, | |
| "loss": 0.4002, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 2.77, | |
| "grad_norm": 0.0615234375, | |
| "learning_rate": 4.1666666666666665e-05, | |
| "loss": 0.4362, | |
| "step": 472 | |
| }, | |
| { | |
| "epoch": 2.82, | |
| "grad_norm": 0.061279296875, | |
| "learning_rate": 3.3333333333333335e-05, | |
| "loss": 0.3852, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 2.82, | |
| "eval_loss": 0.38356801867485046, | |
| "eval_runtime": 2.2009, | |
| "eval_samples_per_second": 21.809, | |
| "eval_steps_per_second": 2.726, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 2.86, | |
| "grad_norm": 0.06201171875, | |
| "learning_rate": 2.5e-05, | |
| "loss": 0.3989, | |
| "step": 488 | |
| }, | |
| { | |
| "epoch": 2.91, | |
| "grad_norm": 0.0634765625, | |
| "learning_rate": 1.6666666666666667e-05, | |
| "loss": 0.4017, | |
| "step": 496 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 0.0634765625, | |
| "learning_rate": 8.333333333333334e-06, | |
| "loss": 0.4178, | |
| "step": 504 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.058837890625, | |
| "learning_rate": 0.0, | |
| "loss": 0.3916, | |
| "step": 512 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_loss": 0.38298845291137695, | |
| "eval_runtime": 2.1989, | |
| "eval_samples_per_second": 21.829, | |
| "eval_steps_per_second": 2.729, | |
| "step": 512 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "step": 512, | |
| "total_flos": 1.005493534658642e+17, | |
| "train_loss": 0.4858610653318465, | |
| "train_runtime": 1143.2565, | |
| "train_samples_per_second": 7.165, | |
| "train_steps_per_second": 0.448 | |
| } | |
| ], | |
| "logging_steps": 8, | |
| "max_steps": 512, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 4, | |
| "save_steps": 32, | |
| "total_flos": 1.005493534658642e+17, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |