| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 33.333333333333336, | |
| "eval_steps": 500, | |
| "global_step": 400, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 13.07447624206543, | |
| "learning_rate": 9.916666666666667e-05, | |
| "loss": 0.56, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_loss": 0.025616448372602463, | |
| "eval_mse": 0.025616448372602463, | |
| "eval_runtime": 1.0225, | |
| "eval_samples_per_second": 9.78, | |
| "eval_steps_per_second": 1.956, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 10.742788314819336, | |
| "learning_rate": 9.833333333333333e-05, | |
| "loss": 0.0214, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_loss": 0.07678178697824478, | |
| "eval_mse": 0.07678178697824478, | |
| "eval_runtime": 1.6318, | |
| "eval_samples_per_second": 6.128, | |
| "eval_steps_per_second": 1.226, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 11.96033763885498, | |
| "learning_rate": 9.75e-05, | |
| "loss": 0.0595, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_loss": 0.0654543861746788, | |
| "eval_mse": 0.0654543861746788, | |
| "eval_runtime": 0.9333, | |
| "eval_samples_per_second": 10.715, | |
| "eval_steps_per_second": 2.143, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 15.946290016174316, | |
| "learning_rate": 9.666666666666667e-05, | |
| "loss": 0.0701, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "eval_loss": 0.016676615923643112, | |
| "eval_mse": 0.016676615923643112, | |
| "eval_runtime": 0.9363, | |
| "eval_samples_per_second": 10.68, | |
| "eval_steps_per_second": 2.136, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 2.655425786972046, | |
| "learning_rate": 9.583333333333334e-05, | |
| "loss": 0.0557, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 2.651514768600464, | |
| "learning_rate": 9.5e-05, | |
| "loss": 0.0163, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "eval_loss": 0.017047178000211716, | |
| "eval_mse": 0.017047178000211716, | |
| "eval_runtime": 0.9851, | |
| "eval_samples_per_second": 10.151, | |
| "eval_steps_per_second": 2.03, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 0.5332293510437012, | |
| "learning_rate": 9.416666666666667e-05, | |
| "loss": 0.0098, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 6.0, | |
| "eval_loss": 0.010980404913425446, | |
| "eval_mse": 0.01098040584474802, | |
| "eval_runtime": 0.9298, | |
| "eval_samples_per_second": 10.756, | |
| "eval_steps_per_second": 2.151, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 8.73061752319336, | |
| "learning_rate": 9.333333333333334e-05, | |
| "loss": 0.0176, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 7.0, | |
| "eval_loss": 0.057986367493867874, | |
| "eval_mse": 0.057986367493867874, | |
| "eval_runtime": 1.6366, | |
| "eval_samples_per_second": 6.11, | |
| "eval_steps_per_second": 1.222, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 5.609442234039307, | |
| "learning_rate": 9.250000000000001e-05, | |
| "loss": 0.0213, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 8.0, | |
| "eval_loss": 0.009501439519226551, | |
| "eval_mse": 0.009501439519226551, | |
| "eval_runtime": 0.9348, | |
| "eval_samples_per_second": 10.697, | |
| "eval_steps_per_second": 2.139, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 1.0403064489364624, | |
| "learning_rate": 9.166666666666667e-05, | |
| "loss": 0.009, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 9.0, | |
| "eval_loss": 0.015423273667693138, | |
| "eval_mse": 0.015423273667693138, | |
| "eval_runtime": 0.9222, | |
| "eval_samples_per_second": 10.843, | |
| "eval_steps_per_second": 2.169, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 4.6708173751831055, | |
| "learning_rate": 9.083333333333334e-05, | |
| "loss": 0.0059, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 3.153209686279297, | |
| "learning_rate": 9e-05, | |
| "loss": 0.0076, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "eval_loss": 0.013172024860978127, | |
| "eval_mse": 0.013172025792300701, | |
| "eval_runtime": 1.0158, | |
| "eval_samples_per_second": 9.844, | |
| "eval_steps_per_second": 1.969, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 10.833333333333334, | |
| "grad_norm": 5.980560302734375, | |
| "learning_rate": 8.916666666666667e-05, | |
| "loss": 0.0085, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 11.0, | |
| "eval_loss": 0.014298426918685436, | |
| "eval_mse": 0.014298425987362862, | |
| "eval_runtime": 0.943, | |
| "eval_samples_per_second": 10.604, | |
| "eval_steps_per_second": 2.121, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 11.666666666666666, | |
| "grad_norm": 0.19257651269435883, | |
| "learning_rate": 8.833333333333333e-05, | |
| "loss": 0.0057, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "eval_loss": 0.00729939341545105, | |
| "eval_mse": 0.00729939341545105, | |
| "eval_runtime": 1.485, | |
| "eval_samples_per_second": 6.734, | |
| "eval_steps_per_second": 1.347, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 12.5, | |
| "grad_norm": 0.6362859606742859, | |
| "learning_rate": 8.75e-05, | |
| "loss": 0.0011, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 13.0, | |
| "eval_loss": 0.0055463844910264015, | |
| "eval_mse": 0.0055463844910264015, | |
| "eval_runtime": 0.9257, | |
| "eval_samples_per_second": 10.802, | |
| "eval_steps_per_second": 2.16, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 13.333333333333334, | |
| "grad_norm": 1.1605561971664429, | |
| "learning_rate": 8.666666666666667e-05, | |
| "loss": 0.0009, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 14.0, | |
| "eval_loss": 0.006429512985050678, | |
| "eval_mse": 0.006429512985050678, | |
| "eval_runtime": 1.2335, | |
| "eval_samples_per_second": 8.107, | |
| "eval_steps_per_second": 1.621, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 14.166666666666666, | |
| "grad_norm": 0.21375474333763123, | |
| "learning_rate": 8.583333333333334e-05, | |
| "loss": 0.0008, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "grad_norm": 1.4405007362365723, | |
| "learning_rate": 8.5e-05, | |
| "loss": 0.0009, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "eval_loss": 0.005366006400436163, | |
| "eval_mse": 0.005366006400436163, | |
| "eval_runtime": 1.8814, | |
| "eval_samples_per_second": 5.315, | |
| "eval_steps_per_second": 1.063, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 15.833333333333334, | |
| "grad_norm": 1.5905839204788208, | |
| "learning_rate": 8.416666666666668e-05, | |
| "loss": 0.0017, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 16.0, | |
| "eval_loss": 0.005547891370952129, | |
| "eval_mse": 0.005547891836613417, | |
| "eval_runtime": 0.9239, | |
| "eval_samples_per_second": 10.824, | |
| "eval_steps_per_second": 2.165, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 16.666666666666668, | |
| "grad_norm": 1.6494227647781372, | |
| "learning_rate": 8.333333333333334e-05, | |
| "loss": 0.0029, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 17.0, | |
| "eval_loss": 0.005408396478742361, | |
| "eval_mse": 0.005408396478742361, | |
| "eval_runtime": 0.9668, | |
| "eval_samples_per_second": 10.343, | |
| "eval_steps_per_second": 2.069, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 17.5, | |
| "grad_norm": 0.61334627866745, | |
| "learning_rate": 8.25e-05, | |
| "loss": 0.0031, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 18.0, | |
| "eval_loss": 0.007544847670942545, | |
| "eval_mse": 0.007544847670942545, | |
| "eval_runtime": 0.9278, | |
| "eval_samples_per_second": 10.778, | |
| "eval_steps_per_second": 2.156, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 18.333333333333332, | |
| "grad_norm": 0.8942199349403381, | |
| "learning_rate": 8.166666666666667e-05, | |
| "loss": 0.0015, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 19.0, | |
| "eval_loss": 0.008514616638422012, | |
| "eval_mse": 0.008514615707099438, | |
| "eval_runtime": 1.6517, | |
| "eval_samples_per_second": 6.055, | |
| "eval_steps_per_second": 1.211, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 19.166666666666668, | |
| "grad_norm": 1.6490943431854248, | |
| "learning_rate": 8.083333333333334e-05, | |
| "loss": 0.0015, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "grad_norm": 1.4641326665878296, | |
| "learning_rate": 8e-05, | |
| "loss": 0.0014, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "eval_loss": 0.008396068587899208, | |
| "eval_mse": 0.008396068587899208, | |
| "eval_runtime": 1.058, | |
| "eval_samples_per_second": 9.452, | |
| "eval_steps_per_second": 1.89, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 20.833333333333332, | |
| "grad_norm": 2.196040153503418, | |
| "learning_rate": 7.916666666666666e-05, | |
| "loss": 0.0018, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 21.0, | |
| "eval_loss": 0.008127102628350258, | |
| "eval_mse": 0.008127102628350258, | |
| "eval_runtime": 0.9631, | |
| "eval_samples_per_second": 10.383, | |
| "eval_steps_per_second": 2.077, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 21.666666666666668, | |
| "grad_norm": 1.2884770631790161, | |
| "learning_rate": 7.833333333333333e-05, | |
| "loss": 0.0021, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 22.0, | |
| "eval_loss": 0.007328727748245001, | |
| "eval_mse": 0.007328727748245001, | |
| "eval_runtime": 0.9238, | |
| "eval_samples_per_second": 10.824, | |
| "eval_steps_per_second": 2.165, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 22.5, | |
| "grad_norm": 0.9456672668457031, | |
| "learning_rate": 7.75e-05, | |
| "loss": 0.0008, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 23.0, | |
| "eval_loss": 0.004704700317233801, | |
| "eval_mse": 0.004704700317233801, | |
| "eval_runtime": 0.9456, | |
| "eval_samples_per_second": 10.576, | |
| "eval_steps_per_second": 2.115, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 23.333333333333332, | |
| "grad_norm": 0.35770225524902344, | |
| "learning_rate": 7.666666666666667e-05, | |
| "loss": 0.0006, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 24.0, | |
| "eval_loss": 0.004532460123300552, | |
| "eval_mse": 0.004532460123300552, | |
| "eval_runtime": 0.9918, | |
| "eval_samples_per_second": 10.083, | |
| "eval_steps_per_second": 2.017, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 24.166666666666668, | |
| "grad_norm": 1.7567228078842163, | |
| "learning_rate": 7.583333333333334e-05, | |
| "loss": 0.0006, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 25.0, | |
| "grad_norm": 0.47638174891471863, | |
| "learning_rate": 7.500000000000001e-05, | |
| "loss": 0.0007, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 25.0, | |
| "eval_loss": 0.00664373766630888, | |
| "eval_mse": 0.00664373766630888, | |
| "eval_runtime": 1.874, | |
| "eval_samples_per_second": 5.336, | |
| "eval_steps_per_second": 1.067, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 25.833333333333332, | |
| "grad_norm": 2.5677366256713867, | |
| "learning_rate": 7.416666666666668e-05, | |
| "loss": 0.0017, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 26.0, | |
| "eval_loss": 0.007896892726421356, | |
| "eval_mse": 0.007896892726421356, | |
| "eval_runtime": 0.9578, | |
| "eval_samples_per_second": 10.441, | |
| "eval_steps_per_second": 2.088, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 26.666666666666668, | |
| "grad_norm": 0.6687202453613281, | |
| "learning_rate": 7.333333333333333e-05, | |
| "loss": 0.0006, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 27.0, | |
| "eval_loss": 0.00685582309961319, | |
| "eval_mse": 0.00685582309961319, | |
| "eval_runtime": 0.9377, | |
| "eval_samples_per_second": 10.664, | |
| "eval_steps_per_second": 2.133, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 27.5, | |
| "grad_norm": 1.1073424816131592, | |
| "learning_rate": 7.25e-05, | |
| "loss": 0.0007, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 28.0, | |
| "eval_loss": 0.006450907792896032, | |
| "eval_mse": 0.006450907792896032, | |
| "eval_runtime": 0.9419, | |
| "eval_samples_per_second": 10.617, | |
| "eval_steps_per_second": 2.123, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 28.333333333333332, | |
| "grad_norm": 0.6167001128196716, | |
| "learning_rate": 7.166666666666667e-05, | |
| "loss": 0.0004, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 29.0, | |
| "eval_loss": 0.005170729011297226, | |
| "eval_mse": 0.005170729476958513, | |
| "eval_runtime": 0.9258, | |
| "eval_samples_per_second": 10.801, | |
| "eval_steps_per_second": 2.16, | |
| "step": 348 | |
| }, | |
| { | |
| "epoch": 29.166666666666668, | |
| "grad_norm": 0.26554998755455017, | |
| "learning_rate": 7.083333333333334e-05, | |
| "loss": 0.0004, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 30.0, | |
| "grad_norm": 0.755969762802124, | |
| "learning_rate": 7e-05, | |
| "loss": 0.0003, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 30.0, | |
| "eval_loss": 0.005034693516790867, | |
| "eval_mse": 0.005034693516790867, | |
| "eval_runtime": 1.7333, | |
| "eval_samples_per_second": 5.769, | |
| "eval_steps_per_second": 1.154, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 30.833333333333332, | |
| "grad_norm": 0.7286393046379089, | |
| "learning_rate": 6.916666666666666e-05, | |
| "loss": 0.0004, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 31.0, | |
| "eval_loss": 0.0060684266500175, | |
| "eval_mse": 0.0060684266500175, | |
| "eval_runtime": 0.9883, | |
| "eval_samples_per_second": 10.118, | |
| "eval_steps_per_second": 2.024, | |
| "step": 372 | |
| }, | |
| { | |
| "epoch": 31.666666666666668, | |
| "grad_norm": 1.2103056907653809, | |
| "learning_rate": 6.833333333333333e-05, | |
| "loss": 0.0006, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 32.0, | |
| "eval_loss": 0.005998858716338873, | |
| "eval_mse": 0.005998858250677586, | |
| "eval_runtime": 0.9499, | |
| "eval_samples_per_second": 10.527, | |
| "eval_steps_per_second": 2.105, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 32.5, | |
| "grad_norm": 0.4944589138031006, | |
| "learning_rate": 6.750000000000001e-05, | |
| "loss": 0.0006, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 33.0, | |
| "eval_loss": 0.006172865629196167, | |
| "eval_mse": 0.006172865629196167, | |
| "eval_runtime": 0.9416, | |
| "eval_samples_per_second": 10.621, | |
| "eval_steps_per_second": 2.124, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 33.333333333333336, | |
| "grad_norm": 1.0801491737365723, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 0.0006, | |
| "step": 400 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 1200, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 100, | |
| "save_steps": 10, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 0.0, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |