{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 33.333333333333336, "eval_steps": 500, "global_step": 400, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.8333333333333334, "grad_norm": 13.07447624206543, "learning_rate": 9.916666666666667e-05, "loss": 0.56, "step": 10 }, { "epoch": 1.0, "eval_loss": 0.025616448372602463, "eval_mse": 0.025616448372602463, "eval_runtime": 1.0225, "eval_samples_per_second": 9.78, "eval_steps_per_second": 1.956, "step": 12 }, { "epoch": 1.6666666666666665, "grad_norm": 10.742788314819336, "learning_rate": 9.833333333333333e-05, "loss": 0.0214, "step": 20 }, { "epoch": 2.0, "eval_loss": 0.07678178697824478, "eval_mse": 0.07678178697824478, "eval_runtime": 1.6318, "eval_samples_per_second": 6.128, "eval_steps_per_second": 1.226, "step": 24 }, { "epoch": 2.5, "grad_norm": 11.96033763885498, "learning_rate": 9.75e-05, "loss": 0.0595, "step": 30 }, { "epoch": 3.0, "eval_loss": 0.0654543861746788, "eval_mse": 0.0654543861746788, "eval_runtime": 0.9333, "eval_samples_per_second": 10.715, "eval_steps_per_second": 2.143, "step": 36 }, { "epoch": 3.3333333333333335, "grad_norm": 15.946290016174316, "learning_rate": 9.666666666666667e-05, "loss": 0.0701, "step": 40 }, { "epoch": 4.0, "eval_loss": 0.016676615923643112, "eval_mse": 0.016676615923643112, "eval_runtime": 0.9363, "eval_samples_per_second": 10.68, "eval_steps_per_second": 2.136, "step": 48 }, { "epoch": 4.166666666666667, "grad_norm": 2.655425786972046, "learning_rate": 9.583333333333334e-05, "loss": 0.0557, "step": 50 }, { "epoch": 5.0, "grad_norm": 2.651514768600464, "learning_rate": 9.5e-05, "loss": 0.0163, "step": 60 }, { "epoch": 5.0, "eval_loss": 0.017047178000211716, "eval_mse": 0.017047178000211716, "eval_runtime": 0.9851, "eval_samples_per_second": 10.151, "eval_steps_per_second": 2.03, "step": 60 }, { "epoch": 5.833333333333333, "grad_norm": 0.5332293510437012, "learning_rate": 9.416666666666667e-05, "loss": 0.0098, "step": 70 }, { "epoch": 6.0, "eval_loss": 0.010980404913425446, "eval_mse": 0.01098040584474802, "eval_runtime": 0.9298, "eval_samples_per_second": 10.756, "eval_steps_per_second": 2.151, "step": 72 }, { "epoch": 6.666666666666667, "grad_norm": 8.73061752319336, "learning_rate": 9.333333333333334e-05, "loss": 0.0176, "step": 80 }, { "epoch": 7.0, "eval_loss": 0.057986367493867874, "eval_mse": 0.057986367493867874, "eval_runtime": 1.6366, "eval_samples_per_second": 6.11, "eval_steps_per_second": 1.222, "step": 84 }, { "epoch": 7.5, "grad_norm": 5.609442234039307, "learning_rate": 9.250000000000001e-05, "loss": 0.0213, "step": 90 }, { "epoch": 8.0, "eval_loss": 0.009501439519226551, "eval_mse": 0.009501439519226551, "eval_runtime": 0.9348, "eval_samples_per_second": 10.697, "eval_steps_per_second": 2.139, "step": 96 }, { "epoch": 8.333333333333334, "grad_norm": 1.0403064489364624, "learning_rate": 9.166666666666667e-05, "loss": 0.009, "step": 100 }, { "epoch": 9.0, "eval_loss": 0.015423273667693138, "eval_mse": 0.015423273667693138, "eval_runtime": 0.9222, "eval_samples_per_second": 10.843, "eval_steps_per_second": 2.169, "step": 108 }, { "epoch": 9.166666666666666, "grad_norm": 4.6708173751831055, "learning_rate": 9.083333333333334e-05, "loss": 0.0059, "step": 110 }, { "epoch": 10.0, "grad_norm": 3.153209686279297, "learning_rate": 9e-05, "loss": 0.0076, "step": 120 }, { "epoch": 10.0, "eval_loss": 0.013172024860978127, "eval_mse": 0.013172025792300701, "eval_runtime": 1.0158, "eval_samples_per_second": 9.844, "eval_steps_per_second": 1.969, "step": 120 }, { "epoch": 10.833333333333334, "grad_norm": 5.980560302734375, "learning_rate": 8.916666666666667e-05, "loss": 0.0085, "step": 130 }, { "epoch": 11.0, "eval_loss": 0.014298426918685436, "eval_mse": 0.014298425987362862, "eval_runtime": 0.943, "eval_samples_per_second": 10.604, "eval_steps_per_second": 2.121, "step": 132 }, { "epoch": 11.666666666666666, "grad_norm": 0.19257651269435883, "learning_rate": 8.833333333333333e-05, "loss": 0.0057, "step": 140 }, { "epoch": 12.0, "eval_loss": 0.00729939341545105, "eval_mse": 0.00729939341545105, "eval_runtime": 1.485, "eval_samples_per_second": 6.734, "eval_steps_per_second": 1.347, "step": 144 }, { "epoch": 12.5, "grad_norm": 0.6362859606742859, "learning_rate": 8.75e-05, "loss": 0.0011, "step": 150 }, { "epoch": 13.0, "eval_loss": 0.0055463844910264015, "eval_mse": 0.0055463844910264015, "eval_runtime": 0.9257, "eval_samples_per_second": 10.802, "eval_steps_per_second": 2.16, "step": 156 }, { "epoch": 13.333333333333334, "grad_norm": 1.1605561971664429, "learning_rate": 8.666666666666667e-05, "loss": 0.0009, "step": 160 }, { "epoch": 14.0, "eval_loss": 0.006429512985050678, "eval_mse": 0.006429512985050678, "eval_runtime": 1.2335, "eval_samples_per_second": 8.107, "eval_steps_per_second": 1.621, "step": 168 }, { "epoch": 14.166666666666666, "grad_norm": 0.21375474333763123, "learning_rate": 8.583333333333334e-05, "loss": 0.0008, "step": 170 }, { "epoch": 15.0, "grad_norm": 1.4405007362365723, "learning_rate": 8.5e-05, "loss": 0.0009, "step": 180 }, { "epoch": 15.0, "eval_loss": 0.005366006400436163, "eval_mse": 0.005366006400436163, "eval_runtime": 1.8814, "eval_samples_per_second": 5.315, "eval_steps_per_second": 1.063, "step": 180 }, { "epoch": 15.833333333333334, "grad_norm": 1.5905839204788208, "learning_rate": 8.416666666666668e-05, "loss": 0.0017, "step": 190 }, { "epoch": 16.0, "eval_loss": 0.005547891370952129, "eval_mse": 0.005547891836613417, "eval_runtime": 0.9239, "eval_samples_per_second": 10.824, "eval_steps_per_second": 2.165, "step": 192 }, { "epoch": 16.666666666666668, "grad_norm": 1.6494227647781372, "learning_rate": 8.333333333333334e-05, "loss": 0.0029, "step": 200 }, { "epoch": 17.0, "eval_loss": 0.005408396478742361, "eval_mse": 0.005408396478742361, "eval_runtime": 0.9668, "eval_samples_per_second": 10.343, "eval_steps_per_second": 2.069, "step": 204 }, { "epoch": 17.5, "grad_norm": 0.61334627866745, "learning_rate": 8.25e-05, "loss": 0.0031, "step": 210 }, { "epoch": 18.0, "eval_loss": 0.007544847670942545, "eval_mse": 0.007544847670942545, "eval_runtime": 0.9278, "eval_samples_per_second": 10.778, "eval_steps_per_second": 2.156, "step": 216 }, { "epoch": 18.333333333333332, "grad_norm": 0.8942199349403381, "learning_rate": 8.166666666666667e-05, "loss": 0.0015, "step": 220 }, { "epoch": 19.0, "eval_loss": 0.008514616638422012, "eval_mse": 0.008514615707099438, "eval_runtime": 1.6517, "eval_samples_per_second": 6.055, "eval_steps_per_second": 1.211, "step": 228 }, { "epoch": 19.166666666666668, "grad_norm": 1.6490943431854248, "learning_rate": 8.083333333333334e-05, "loss": 0.0015, "step": 230 }, { "epoch": 20.0, "grad_norm": 1.4641326665878296, "learning_rate": 8e-05, "loss": 0.0014, "step": 240 }, { "epoch": 20.0, "eval_loss": 0.008396068587899208, "eval_mse": 0.008396068587899208, "eval_runtime": 1.058, "eval_samples_per_second": 9.452, "eval_steps_per_second": 1.89, "step": 240 }, { "epoch": 20.833333333333332, "grad_norm": 2.196040153503418, "learning_rate": 7.916666666666666e-05, "loss": 0.0018, "step": 250 }, { "epoch": 21.0, "eval_loss": 0.008127102628350258, "eval_mse": 0.008127102628350258, "eval_runtime": 0.9631, "eval_samples_per_second": 10.383, "eval_steps_per_second": 2.077, "step": 252 }, { "epoch": 21.666666666666668, "grad_norm": 1.2884770631790161, "learning_rate": 7.833333333333333e-05, "loss": 0.0021, "step": 260 }, { "epoch": 22.0, "eval_loss": 0.007328727748245001, "eval_mse": 0.007328727748245001, "eval_runtime": 0.9238, "eval_samples_per_second": 10.824, "eval_steps_per_second": 2.165, "step": 264 }, { "epoch": 22.5, "grad_norm": 0.9456672668457031, "learning_rate": 7.75e-05, "loss": 0.0008, "step": 270 }, { "epoch": 23.0, "eval_loss": 0.004704700317233801, "eval_mse": 0.004704700317233801, "eval_runtime": 0.9456, "eval_samples_per_second": 10.576, "eval_steps_per_second": 2.115, "step": 276 }, { "epoch": 23.333333333333332, "grad_norm": 0.35770225524902344, "learning_rate": 7.666666666666667e-05, "loss": 0.0006, "step": 280 }, { "epoch": 24.0, "eval_loss": 0.004532460123300552, "eval_mse": 0.004532460123300552, "eval_runtime": 0.9918, "eval_samples_per_second": 10.083, "eval_steps_per_second": 2.017, "step": 288 }, { "epoch": 24.166666666666668, "grad_norm": 1.7567228078842163, "learning_rate": 7.583333333333334e-05, "loss": 0.0006, "step": 290 }, { "epoch": 25.0, "grad_norm": 0.47638174891471863, "learning_rate": 7.500000000000001e-05, "loss": 0.0007, "step": 300 }, { "epoch": 25.0, "eval_loss": 0.00664373766630888, "eval_mse": 0.00664373766630888, "eval_runtime": 1.874, "eval_samples_per_second": 5.336, "eval_steps_per_second": 1.067, "step": 300 }, { "epoch": 25.833333333333332, "grad_norm": 2.5677366256713867, "learning_rate": 7.416666666666668e-05, "loss": 0.0017, "step": 310 }, { "epoch": 26.0, "eval_loss": 0.007896892726421356, "eval_mse": 0.007896892726421356, "eval_runtime": 0.9578, "eval_samples_per_second": 10.441, "eval_steps_per_second": 2.088, "step": 312 }, { "epoch": 26.666666666666668, "grad_norm": 0.6687202453613281, "learning_rate": 7.333333333333333e-05, "loss": 0.0006, "step": 320 }, { "epoch": 27.0, "eval_loss": 0.00685582309961319, "eval_mse": 0.00685582309961319, "eval_runtime": 0.9377, "eval_samples_per_second": 10.664, "eval_steps_per_second": 2.133, "step": 324 }, { "epoch": 27.5, "grad_norm": 1.1073424816131592, "learning_rate": 7.25e-05, "loss": 0.0007, "step": 330 }, { "epoch": 28.0, "eval_loss": 0.006450907792896032, "eval_mse": 0.006450907792896032, "eval_runtime": 0.9419, "eval_samples_per_second": 10.617, "eval_steps_per_second": 2.123, "step": 336 }, { "epoch": 28.333333333333332, "grad_norm": 0.6167001128196716, "learning_rate": 7.166666666666667e-05, "loss": 0.0004, "step": 340 }, { "epoch": 29.0, "eval_loss": 0.005170729011297226, "eval_mse": 0.005170729476958513, "eval_runtime": 0.9258, "eval_samples_per_second": 10.801, "eval_steps_per_second": 2.16, "step": 348 }, { "epoch": 29.166666666666668, "grad_norm": 0.26554998755455017, "learning_rate": 7.083333333333334e-05, "loss": 0.0004, "step": 350 }, { "epoch": 30.0, "grad_norm": 0.755969762802124, "learning_rate": 7e-05, "loss": 0.0003, "step": 360 }, { "epoch": 30.0, "eval_loss": 0.005034693516790867, "eval_mse": 0.005034693516790867, "eval_runtime": 1.7333, "eval_samples_per_second": 5.769, "eval_steps_per_second": 1.154, "step": 360 }, { "epoch": 30.833333333333332, "grad_norm": 0.7286393046379089, "learning_rate": 6.916666666666666e-05, "loss": 0.0004, "step": 370 }, { "epoch": 31.0, "eval_loss": 0.0060684266500175, "eval_mse": 0.0060684266500175, "eval_runtime": 0.9883, "eval_samples_per_second": 10.118, "eval_steps_per_second": 2.024, "step": 372 }, { "epoch": 31.666666666666668, "grad_norm": 1.2103056907653809, "learning_rate": 6.833333333333333e-05, "loss": 0.0006, "step": 380 }, { "epoch": 32.0, "eval_loss": 0.005998858716338873, "eval_mse": 0.005998858250677586, "eval_runtime": 0.9499, "eval_samples_per_second": 10.527, "eval_steps_per_second": 2.105, "step": 384 }, { "epoch": 32.5, "grad_norm": 0.4944589138031006, "learning_rate": 6.750000000000001e-05, "loss": 0.0006, "step": 390 }, { "epoch": 33.0, "eval_loss": 0.006172865629196167, "eval_mse": 0.006172865629196167, "eval_runtime": 0.9416, "eval_samples_per_second": 10.621, "eval_steps_per_second": 2.124, "step": 396 }, { "epoch": 33.333333333333336, "grad_norm": 1.0801491737365723, "learning_rate": 6.666666666666667e-05, "loss": 0.0006, "step": 400 } ], "logging_steps": 10, "max_steps": 1200, "num_input_tokens_seen": 0, "num_train_epochs": 100, "save_steps": 10, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 8, "trial_name": null, "trial_params": null }