| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 5.271084337349397, |
| "eval_steps": 500, |
| "global_step": 7000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.08, |
| "learning_rate": 5.000000000000001e-07, |
| "loss": 0.2303, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.15, |
| "learning_rate": 1.0000000000000002e-06, |
| "loss": 0.21, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.23, |
| "learning_rate": 1.5e-06, |
| "loss": 0.2118, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.3, |
| "learning_rate": 2.0000000000000003e-06, |
| "loss": 0.2131, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.38, |
| "learning_rate": 2.5e-06, |
| "loss": 0.2076, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.45, |
| "learning_rate": 3e-06, |
| "loss": 0.2116, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.53, |
| "learning_rate": 3.5e-06, |
| "loss": 0.2154, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.6, |
| "learning_rate": 4.000000000000001e-06, |
| "loss": 0.2129, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.68, |
| "learning_rate": 4.5e-06, |
| "loss": 0.211, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.75, |
| "learning_rate": 5e-06, |
| "loss": 0.2178, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.83, |
| "learning_rate": 5.500000000000001e-06, |
| "loss": 0.2104, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.9, |
| "learning_rate": 6e-06, |
| "loss": 0.215, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.98, |
| "learning_rate": 6.5000000000000004e-06, |
| "loss": 0.2107, |
| "step": 1300 |
| }, |
| { |
| "epoch": 1.05, |
| "learning_rate": 7e-06, |
| "loss": 0.2091, |
| "step": 1400 |
| }, |
| { |
| "epoch": 1.13, |
| "learning_rate": 7.500000000000001e-06, |
| "loss": 0.207, |
| "step": 1500 |
| }, |
| { |
| "epoch": 1.2, |
| "learning_rate": 8.000000000000001e-06, |
| "loss": 0.1942, |
| "step": 1600 |
| }, |
| { |
| "epoch": 1.28, |
| "learning_rate": 8.5e-06, |
| "loss": 0.2037, |
| "step": 1700 |
| }, |
| { |
| "epoch": 1.36, |
| "learning_rate": 9e-06, |
| "loss": 0.2071, |
| "step": 1800 |
| }, |
| { |
| "epoch": 1.43, |
| "learning_rate": 9.5e-06, |
| "loss": 0.2072, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.51, |
| "learning_rate": 1e-05, |
| "loss": 0.2035, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.58, |
| "learning_rate": 9.666666666666667e-06, |
| "loss": 0.21, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.66, |
| "learning_rate": 9.333333333333334e-06, |
| "loss": 0.2062, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.73, |
| "learning_rate": 9e-06, |
| "loss": 0.2067, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.81, |
| "learning_rate": 8.666666666666668e-06, |
| "loss": 0.2043, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.88, |
| "learning_rate": 8.333333333333334e-06, |
| "loss": 0.1953, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.96, |
| "learning_rate": 8.000000000000001e-06, |
| "loss": 0.2021, |
| "step": 2600 |
| }, |
| { |
| "epoch": 2.03, |
| "learning_rate": 7.666666666666667e-06, |
| "loss": 0.1764, |
| "step": 2700 |
| }, |
| { |
| "epoch": 2.11, |
| "learning_rate": 7.333333333333333e-06, |
| "loss": 0.1506, |
| "step": 2800 |
| }, |
| { |
| "epoch": 2.18, |
| "learning_rate": 7e-06, |
| "loss": 0.152, |
| "step": 2900 |
| }, |
| { |
| "epoch": 2.26, |
| "learning_rate": 6.666666666666667e-06, |
| "loss": 0.1539, |
| "step": 3000 |
| }, |
| { |
| "epoch": 2.33, |
| "learning_rate": 6.333333333333333e-06, |
| "loss": 0.1509, |
| "step": 3100 |
| }, |
| { |
| "epoch": 2.41, |
| "learning_rate": 6e-06, |
| "loss": 0.1504, |
| "step": 3200 |
| }, |
| { |
| "epoch": 2.48, |
| "learning_rate": 5.666666666666667e-06, |
| "loss": 0.1484, |
| "step": 3300 |
| }, |
| { |
| "epoch": 2.56, |
| "learning_rate": 5.333333333333334e-06, |
| "loss": 0.1501, |
| "step": 3400 |
| }, |
| { |
| "epoch": 2.64, |
| "learning_rate": 5e-06, |
| "loss": 0.1479, |
| "step": 3500 |
| }, |
| { |
| "epoch": 2.71, |
| "learning_rate": 4.666666666666667e-06, |
| "loss": 0.1489, |
| "step": 3600 |
| }, |
| { |
| "epoch": 2.79, |
| "learning_rate": 4.333333333333334e-06, |
| "loss": 0.1494, |
| "step": 3700 |
| }, |
| { |
| "epoch": 2.86, |
| "learning_rate": 4.000000000000001e-06, |
| "loss": 0.1481, |
| "step": 3800 |
| }, |
| { |
| "epoch": 2.94, |
| "learning_rate": 3.6666666666666666e-06, |
| "loss": 0.1478, |
| "step": 3900 |
| }, |
| { |
| "epoch": 3.01, |
| "learning_rate": 3.3333333333333333e-06, |
| "loss": 0.1355, |
| "step": 4000 |
| }, |
| { |
| "epoch": 3.09, |
| "learning_rate": 3e-06, |
| "loss": 0.0891, |
| "step": 4100 |
| }, |
| { |
| "epoch": 3.16, |
| "learning_rate": 2.666666666666667e-06, |
| "loss": 0.089, |
| "step": 4200 |
| }, |
| { |
| "epoch": 3.24, |
| "learning_rate": 2.3333333333333336e-06, |
| "loss": 0.0848, |
| "step": 4300 |
| }, |
| { |
| "epoch": 3.31, |
| "learning_rate": 2.0000000000000003e-06, |
| "loss": 0.0842, |
| "step": 4400 |
| }, |
| { |
| "epoch": 3.39, |
| "learning_rate": 1.6666666666666667e-06, |
| "loss": 0.0885, |
| "step": 4500 |
| }, |
| { |
| "epoch": 3.46, |
| "learning_rate": 1.3333333333333334e-06, |
| "loss": 0.1122, |
| "step": 4600 |
| }, |
| { |
| "epoch": 3.54, |
| "learning_rate": 1.0000000000000002e-06, |
| "loss": 0.1053, |
| "step": 4700 |
| }, |
| { |
| "epoch": 3.61, |
| "learning_rate": 6.666666666666667e-07, |
| "loss": 0.1032, |
| "step": 4800 |
| }, |
| { |
| "epoch": 3.69, |
| "learning_rate": 3.3333333333333335e-07, |
| "loss": 0.1016, |
| "step": 4900 |
| }, |
| { |
| "epoch": 3.77, |
| "learning_rate": 0.0, |
| "loss": 0.1031, |
| "step": 5000 |
| }, |
| { |
| "epoch": 3.84, |
| "learning_rate": 6.125000000000001e-06, |
| "loss": 0.1106, |
| "step": 5100 |
| }, |
| { |
| "epoch": 3.92, |
| "learning_rate": 6e-06, |
| "loss": 0.1184, |
| "step": 5200 |
| }, |
| { |
| "epoch": 3.99, |
| "learning_rate": 5.8750000000000005e-06, |
| "loss": 0.1195, |
| "step": 5300 |
| }, |
| { |
| "epoch": 4.07, |
| "learning_rate": 5.75e-06, |
| "loss": 0.0922, |
| "step": 5400 |
| }, |
| { |
| "epoch": 4.14, |
| "learning_rate": 5.625e-06, |
| "loss": 0.0909, |
| "step": 5500 |
| }, |
| { |
| "epoch": 4.22, |
| "learning_rate": 5.500000000000001e-06, |
| "loss": 0.0893, |
| "step": 5600 |
| }, |
| { |
| "epoch": 4.29, |
| "learning_rate": 5.375e-06, |
| "loss": 0.0918, |
| "step": 5700 |
| }, |
| { |
| "epoch": 4.37, |
| "learning_rate": 5.2500000000000006e-06, |
| "loss": 0.0917, |
| "step": 5800 |
| }, |
| { |
| "epoch": 4.44, |
| "learning_rate": 5.125e-06, |
| "loss": 0.0912, |
| "step": 5900 |
| }, |
| { |
| "epoch": 4.52, |
| "learning_rate": 5e-06, |
| "loss": 0.0913, |
| "step": 6000 |
| }, |
| { |
| "epoch": 4.59, |
| "learning_rate": 4.875e-06, |
| "loss": 0.0907, |
| "step": 6100 |
| }, |
| { |
| "epoch": 4.67, |
| "learning_rate": 4.75e-06, |
| "loss": 0.0925, |
| "step": 6200 |
| }, |
| { |
| "epoch": 4.74, |
| "learning_rate": 4.625000000000001e-06, |
| "loss": 0.0913, |
| "step": 6300 |
| }, |
| { |
| "epoch": 4.82, |
| "learning_rate": 4.5e-06, |
| "loss": 0.0906, |
| "step": 6400 |
| }, |
| { |
| "epoch": 4.89, |
| "learning_rate": 4.3750000000000005e-06, |
| "loss": 0.0916, |
| "step": 6500 |
| }, |
| { |
| "epoch": 4.97, |
| "learning_rate": 4.25e-06, |
| "loss": 0.0903, |
| "step": 6600 |
| }, |
| { |
| "epoch": 5.05, |
| "learning_rate": 4.125e-06, |
| "loss": 0.0719, |
| "step": 6700 |
| }, |
| { |
| "epoch": 5.12, |
| "learning_rate": 4.000000000000001e-06, |
| "loss": 0.058, |
| "step": 6800 |
| }, |
| { |
| "epoch": 5.2, |
| "learning_rate": 3.875e-06, |
| "loss": 0.0563, |
| "step": 6900 |
| }, |
| { |
| "epoch": 5.27, |
| "learning_rate": 3.7500000000000005e-06, |
| "loss": 0.0581, |
| "step": 7000 |
| } |
| ], |
| "logging_steps": 100, |
| "max_steps": 10000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 8, |
| "save_steps": 1000, |
| "total_flos": 1.61593394909184e+19, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|