{ "best_metric": 0.38298845291137695, "best_model_checkpoint": "outputs/checkpoint-512", "epoch": 3.002932551319648, "eval_steps": 32, "global_step": 512, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.05, "grad_norm": 0.08740234375, "learning_rate": 0.000125, "loss": 1.2568, "step": 8 }, { "epoch": 0.09, "grad_norm": 0.09375, "learning_rate": 0.00025, "loss": 1.1087, "step": 16 }, { "epoch": 0.14, "grad_norm": 0.08251953125, "learning_rate": 0.000375, "loss": 0.8374, "step": 24 }, { "epoch": 0.19, "grad_norm": 0.076171875, "learning_rate": 0.0005, "loss": 0.7087, "step": 32 }, { "epoch": 0.19, "eval_loss": 0.582936704158783, "eval_runtime": 2.9206, "eval_samples_per_second": 16.435, "eval_steps_per_second": 2.054, "step": 32 }, { "epoch": 0.23, "grad_norm": 0.07470703125, "learning_rate": 0.0004916666666666666, "loss": 0.6099, "step": 40 }, { "epoch": 0.28, "grad_norm": 0.0751953125, "learning_rate": 0.00048333333333333334, "loss": 0.5956, "step": 48 }, { "epoch": 0.33, "grad_norm": 0.06982421875, "learning_rate": 0.000475, "loss": 0.5691, "step": 56 }, { "epoch": 0.38, "grad_norm": 0.09375, "learning_rate": 0.00046666666666666666, "loss": 0.5675, "step": 64 }, { "epoch": 0.38, "eval_loss": 0.47926369309425354, "eval_runtime": 2.1968, "eval_samples_per_second": 21.85, "eval_steps_per_second": 2.731, "step": 64 }, { "epoch": 0.42, "grad_norm": 0.058349609375, "learning_rate": 0.0004583333333333333, "loss": 0.5528, "step": 72 }, { "epoch": 0.47, "grad_norm": 0.0595703125, "learning_rate": 0.00045000000000000004, "loss": 0.535, "step": 80 }, { "epoch": 0.52, "grad_norm": 0.056396484375, "learning_rate": 0.00044166666666666665, "loss": 0.5055, "step": 88 }, { "epoch": 0.56, "grad_norm": 0.05224609375, "learning_rate": 0.00043333333333333337, "loss": 0.5163, "step": 96 }, { "epoch": 0.56, "eval_loss": 0.44680991768836975, "eval_runtime": 2.197, "eval_samples_per_second": 21.848, "eval_steps_per_second": 2.731, "step": 96 }, { "epoch": 0.61, "grad_norm": 0.048828125, "learning_rate": 0.000425, "loss": 0.513, "step": 104 }, { "epoch": 0.66, "grad_norm": 0.053955078125, "learning_rate": 0.0004166666666666667, "loss": 0.4927, "step": 112 }, { "epoch": 0.7, "grad_norm": 0.056396484375, "learning_rate": 0.00040833333333333336, "loss": 0.5163, "step": 120 }, { "epoch": 0.75, "grad_norm": 0.047607421875, "learning_rate": 0.0004, "loss": 0.4923, "step": 128 }, { "epoch": 0.75, "eval_loss": 0.4288952052593231, "eval_runtime": 2.2003, "eval_samples_per_second": 21.815, "eval_steps_per_second": 2.727, "step": 128 }, { "epoch": 0.8, "grad_norm": 0.05078125, "learning_rate": 0.0003916666666666667, "loss": 0.484, "step": 136 }, { "epoch": 0.84, "grad_norm": 0.052001953125, "learning_rate": 0.00038333333333333334, "loss": 0.4698, "step": 144 }, { "epoch": 0.89, "grad_norm": 0.057861328125, "learning_rate": 0.000375, "loss": 0.4682, "step": 152 }, { "epoch": 0.94, "grad_norm": 0.0517578125, "learning_rate": 0.00036666666666666667, "loss": 0.4661, "step": 160 }, { "epoch": 0.94, "eval_loss": 0.4169415235519409, "eval_runtime": 2.1996, "eval_samples_per_second": 21.822, "eval_steps_per_second": 2.728, "step": 160 }, { "epoch": 0.99, "grad_norm": 0.050048828125, "learning_rate": 0.00035833333333333333, "loss": 0.4717, "step": 168 }, { "epoch": 1.03, "grad_norm": 0.059326171875, "learning_rate": 0.00035, "loss": 0.4706, "step": 176 }, { "epoch": 1.08, "grad_norm": 0.05224609375, "learning_rate": 0.00034166666666666666, "loss": 0.4541, "step": 184 }, { "epoch": 1.13, "grad_norm": 0.055908203125, "learning_rate": 0.0003333333333333333, "loss": 0.4428, "step": 192 }, { "epoch": 1.13, "eval_loss": 0.4122503697872162, "eval_runtime": 2.1981, "eval_samples_per_second": 21.837, "eval_steps_per_second": 2.73, "step": 192 }, { "epoch": 1.17, "grad_norm": 0.0576171875, "learning_rate": 0.00032500000000000004, "loss": 0.4415, "step": 200 }, { "epoch": 1.22, "grad_norm": 0.0625, "learning_rate": 0.00031666666666666665, "loss": 0.4701, "step": 208 }, { "epoch": 1.27, "grad_norm": 0.0546875, "learning_rate": 0.00030833333333333337, "loss": 0.4445, "step": 216 }, { "epoch": 1.31, "grad_norm": 0.060302734375, "learning_rate": 0.0003, "loss": 0.4311, "step": 224 }, { "epoch": 1.31, "eval_loss": 0.4041053056716919, "eval_runtime": 2.1997, "eval_samples_per_second": 21.821, "eval_steps_per_second": 2.728, "step": 224 }, { "epoch": 1.36, "grad_norm": 0.0556640625, "learning_rate": 0.0002916666666666667, "loss": 0.4614, "step": 232 }, { "epoch": 1.41, "grad_norm": 0.05859375, "learning_rate": 0.00028333333333333335, "loss": 0.4434, "step": 240 }, { "epoch": 1.45, "grad_norm": 0.062255859375, "learning_rate": 0.000275, "loss": 0.427, "step": 248 }, { "epoch": 1.5, "grad_norm": 0.059814453125, "learning_rate": 0.0002666666666666667, "loss": 0.4554, "step": 256 }, { "epoch": 1.5, "eval_loss": 0.3991839587688446, "eval_runtime": 2.2002, "eval_samples_per_second": 21.816, "eval_steps_per_second": 2.727, "step": 256 }, { "epoch": 1.55, "grad_norm": 0.05224609375, "learning_rate": 0.00025833333333333334, "loss": 0.4375, "step": 264 }, { "epoch": 1.6, "grad_norm": 0.059814453125, "learning_rate": 0.00025, "loss": 0.4379, "step": 272 }, { "epoch": 1.64, "grad_norm": 0.057861328125, "learning_rate": 0.00024166666666666667, "loss": 0.4335, "step": 280 }, { "epoch": 1.69, "grad_norm": 0.056396484375, "learning_rate": 0.00023333333333333333, "loss": 0.4451, "step": 288 }, { "epoch": 1.69, "eval_loss": 0.3925025165081024, "eval_runtime": 2.2103, "eval_samples_per_second": 21.716, "eval_steps_per_second": 2.715, "step": 288 }, { "epoch": 1.74, "grad_norm": 0.050537109375, "learning_rate": 0.00022500000000000002, "loss": 0.4681, "step": 296 }, { "epoch": 1.78, "grad_norm": 0.06494140625, "learning_rate": 0.00021666666666666668, "loss": 0.4313, "step": 304 }, { "epoch": 1.83, "grad_norm": 0.05224609375, "learning_rate": 0.00020833333333333335, "loss": 0.4539, "step": 312 }, { "epoch": 1.88, "grad_norm": 0.0634765625, "learning_rate": 0.0002, "loss": 0.4364, "step": 320 }, { "epoch": 1.88, "eval_loss": 0.3885883390903473, "eval_runtime": 2.2015, "eval_samples_per_second": 21.804, "eval_steps_per_second": 2.725, "step": 320 }, { "epoch": 1.92, "grad_norm": 0.049560546875, "learning_rate": 0.00019166666666666667, "loss": 0.4425, "step": 328 }, { "epoch": 1.97, "grad_norm": 0.0625, "learning_rate": 0.00018333333333333334, "loss": 0.4327, "step": 336 }, { "epoch": 2.02, "grad_norm": 0.052978515625, "learning_rate": 0.000175, "loss": 0.4296, "step": 344 }, { "epoch": 2.06, "grad_norm": 0.0625, "learning_rate": 0.00016666666666666666, "loss": 0.417, "step": 352 }, { "epoch": 2.06, "eval_loss": 0.3900233209133148, "eval_runtime": 2.2074, "eval_samples_per_second": 21.745, "eval_steps_per_second": 2.718, "step": 352 }, { "epoch": 2.11, "grad_norm": 0.05615234375, "learning_rate": 0.00015833333333333332, "loss": 0.3998, "step": 360 }, { "epoch": 2.16, "grad_norm": 0.0576171875, "learning_rate": 0.00015, "loss": 0.4019, "step": 368 }, { "epoch": 2.21, "grad_norm": 0.054443359375, "learning_rate": 0.00014166666666666668, "loss": 0.4096, "step": 376 }, { "epoch": 2.25, "grad_norm": 0.0673828125, "learning_rate": 0.00013333333333333334, "loss": 0.4349, "step": 384 }, { "epoch": 2.25, "eval_loss": 0.38732287287712097, "eval_runtime": 2.1995, "eval_samples_per_second": 21.823, "eval_steps_per_second": 2.728, "step": 384 }, { "epoch": 2.3, "grad_norm": 0.06201171875, "learning_rate": 0.000125, "loss": 0.4235, "step": 392 }, { "epoch": 2.35, "grad_norm": 0.0625, "learning_rate": 0.00011666666666666667, "loss": 0.4056, "step": 400 }, { "epoch": 2.39, "grad_norm": 0.06396484375, "learning_rate": 0.00010833333333333334, "loss": 0.4116, "step": 408 }, { "epoch": 2.44, "grad_norm": 0.0634765625, "learning_rate": 0.0001, "loss": 0.416, "step": 416 }, { "epoch": 2.44, "eval_loss": 0.3866064250469208, "eval_runtime": 2.2006, "eval_samples_per_second": 21.812, "eval_steps_per_second": 2.727, "step": 416 }, { "epoch": 2.49, "grad_norm": 0.06787109375, "learning_rate": 9.166666666666667e-05, "loss": 0.4214, "step": 424 }, { "epoch": 2.53, "grad_norm": 0.060791015625, "learning_rate": 8.333333333333333e-05, "loss": 0.386, "step": 432 }, { "epoch": 2.58, "grad_norm": 0.062255859375, "learning_rate": 7.5e-05, "loss": 0.3994, "step": 440 }, { "epoch": 2.63, "grad_norm": 0.06103515625, "learning_rate": 6.666666666666667e-05, "loss": 0.4169, "step": 448 }, { "epoch": 2.63, "eval_loss": 0.38443723320961, "eval_runtime": 2.2022, "eval_samples_per_second": 21.796, "eval_steps_per_second": 2.725, "step": 448 }, { "epoch": 2.67, "grad_norm": 0.0654296875, "learning_rate": 5.833333333333333e-05, "loss": 0.392, "step": 456 }, { "epoch": 2.72, "grad_norm": 0.064453125, "learning_rate": 5e-05, "loss": 0.4002, "step": 464 }, { "epoch": 2.77, "grad_norm": 0.0615234375, "learning_rate": 4.1666666666666665e-05, "loss": 0.4362, "step": 472 }, { "epoch": 2.82, "grad_norm": 0.061279296875, "learning_rate": 3.3333333333333335e-05, "loss": 0.3852, "step": 480 }, { "epoch": 2.82, "eval_loss": 0.38356801867485046, "eval_runtime": 2.2009, "eval_samples_per_second": 21.809, "eval_steps_per_second": 2.726, "step": 480 }, { "epoch": 2.86, "grad_norm": 0.06201171875, "learning_rate": 2.5e-05, "loss": 0.3989, "step": 488 }, { "epoch": 2.91, "grad_norm": 0.0634765625, "learning_rate": 1.6666666666666667e-05, "loss": 0.4017, "step": 496 }, { "epoch": 2.96, "grad_norm": 0.0634765625, "learning_rate": 8.333333333333334e-06, "loss": 0.4178, "step": 504 }, { "epoch": 3.0, "grad_norm": 0.058837890625, "learning_rate": 0.0, "loss": 0.3916, "step": 512 }, { "epoch": 3.0, "eval_loss": 0.38298845291137695, "eval_runtime": 2.1989, "eval_samples_per_second": 21.829, "eval_steps_per_second": 2.729, "step": 512 }, { "epoch": 3.0, "step": 512, "total_flos": 1.005493534658642e+17, "train_loss": 0.4858610653318465, "train_runtime": 1143.2565, "train_samples_per_second": 7.165, "train_steps_per_second": 0.448 } ], "logging_steps": 8, "max_steps": 512, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 32, "total_flos": 1.005493534658642e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }