{ "best_global_step": 6000, "best_metric": 0.7824317216873169, "best_model_checkpoint": "results\\checkpoint-6000", "epoch": 5.0, "eval_steps": 1000, "global_step": 6000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.08333333333333333, "grad_norm": 1.8858007192611694, "learning_rate": 0.000165, "loss": 23.215, "step": 100 }, { "epoch": 0.16666666666666666, "grad_norm": 0.17990389466285706, "learning_rate": 0.0003316666666666667, "loss": 2.1264, "step": 200 }, { "epoch": 0.25, "grad_norm": 0.162213996052742, "learning_rate": 0.0004983333333333334, "loss": 0.9398, "step": 300 }, { "epoch": 0.3333333333333333, "grad_norm": 0.15034538507461548, "learning_rate": 0.0004913157894736842, "loss": 0.9165, "step": 400 }, { "epoch": 0.4166666666666667, "grad_norm": 0.1454722136259079, "learning_rate": 0.0004825438596491228, "loss": 0.8424, "step": 500 }, { "epoch": 0.5, "grad_norm": 0.12470711767673492, "learning_rate": 0.0004737719298245614, "loss": 0.8874, "step": 600 }, { "epoch": 0.5833333333333334, "grad_norm": 0.09494169801473618, "learning_rate": 0.000465, "loss": 0.8784, "step": 700 }, { "epoch": 0.6666666666666666, "grad_norm": 0.1456226408481598, "learning_rate": 0.0004562280701754386, "loss": 0.8622, "step": 800 }, { "epoch": 0.75, "grad_norm": 0.1623910665512085, "learning_rate": 0.00044745614035087723, "loss": 0.9006, "step": 900 }, { "epoch": 0.8333333333333334, "grad_norm": 0.13629059493541718, "learning_rate": 0.0004386842105263158, "loss": 0.8702, "step": 1000 }, { "epoch": 0.8333333333333334, "eval_loss": 0.7877687811851501, "eval_rouge1": 0.382, "eval_rouge2": 0.1541, "eval_rougeL": 0.2714, "eval_rougeLsum": 0.2715, "eval_runtime": 1349.6776, "eval_samples_per_second": 0.889, "eval_steps_per_second": 0.222, "step": 1000 }, { "epoch": 0.9166666666666666, "grad_norm": 0.14377427101135254, "learning_rate": 0.00042991228070175444, "loss": 0.9231, "step": 1100 }, { "epoch": 1.0, "grad_norm": 0.1454974114894867, "learning_rate": 0.000421140350877193, "loss": 0.8752, "step": 1200 }, { "epoch": 1.0833333333333333, "grad_norm": 0.14425410330295563, "learning_rate": 0.0004123684210526316, "loss": 0.8895, "step": 1300 }, { "epoch": 1.1666666666666667, "grad_norm": 0.09587734937667847, "learning_rate": 0.0004035964912280702, "loss": 0.837, "step": 1400 }, { "epoch": 1.25, "grad_norm": 0.13110461831092834, "learning_rate": 0.00039482456140350875, "loss": 0.8488, "step": 1500 }, { "epoch": 1.3333333333333333, "grad_norm": 0.1459980010986328, "learning_rate": 0.00038605263157894735, "loss": 0.8795, "step": 1600 }, { "epoch": 1.4166666666666667, "grad_norm": 0.09983498603105545, "learning_rate": 0.00037728070175438596, "loss": 0.8449, "step": 1700 }, { "epoch": 1.5, "grad_norm": 0.13172173500061035, "learning_rate": 0.00036850877192982456, "loss": 0.8977, "step": 1800 }, { "epoch": 1.5833333333333335, "grad_norm": 0.10697636008262634, "learning_rate": 0.00035973684210526317, "loss": 0.9018, "step": 1900 }, { "epoch": 1.6666666666666665, "grad_norm": 0.15373478829860687, "learning_rate": 0.00035096491228070177, "loss": 0.8847, "step": 2000 }, { "epoch": 1.6666666666666665, "eval_loss": 0.7850176095962524, "eval_rouge1": 0.3881, "eval_rouge2": 0.1563, "eval_rougeL": 0.2745, "eval_rougeLsum": 0.2746, "eval_runtime": 1411.9277, "eval_samples_per_second": 0.85, "eval_steps_per_second": 0.212, "step": 2000 }, { "epoch": 1.75, "grad_norm": 0.14189960062503815, "learning_rate": 0.0003421929824561403, "loss": 0.8162, "step": 2100 }, { "epoch": 1.8333333333333335, "grad_norm": 0.11188172549009323, "learning_rate": 0.000333421052631579, "loss": 0.8098, "step": 2200 }, { "epoch": 1.9166666666666665, "grad_norm": 0.12888970971107483, "learning_rate": 0.0003246491228070175, "loss": 0.914, "step": 2300 }, { "epoch": 2.0, "grad_norm": 0.15828001499176025, "learning_rate": 0.00031587719298245613, "loss": 0.8815, "step": 2400 }, { "epoch": 2.0833333333333335, "grad_norm": 0.12439479678869247, "learning_rate": 0.00030710526315789473, "loss": 0.8685, "step": 2500 }, { "epoch": 2.1666666666666665, "grad_norm": 0.12364527583122253, "learning_rate": 0.00029833333333333334, "loss": 0.8185, "step": 2600 }, { "epoch": 2.25, "grad_norm": 7.694972038269043, "learning_rate": 0.0002895614035087719, "loss": 0.8721, "step": 2700 }, { "epoch": 2.3333333333333335, "grad_norm": 0.17389440536499023, "learning_rate": 0.00028078947368421055, "loss": 0.9235, "step": 2800 }, { "epoch": 2.4166666666666665, "grad_norm": 0.13395565748214722, "learning_rate": 0.0002720175438596491, "loss": 0.8668, "step": 2900 }, { "epoch": 2.5, "grad_norm": 0.11639299243688583, "learning_rate": 0.00026324561403508775, "loss": 0.8637, "step": 3000 }, { "epoch": 2.5, "eval_loss": 0.7873790860176086, "eval_rouge1": 0.3909, "eval_rouge2": 0.1587, "eval_rougeL": 0.2753, "eval_rougeLsum": 0.2752, "eval_runtime": 1346.5604, "eval_samples_per_second": 0.891, "eval_steps_per_second": 0.223, "step": 3000 }, { "epoch": 2.5833333333333335, "grad_norm": 0.2207750380039215, "learning_rate": 0.0002544736842105263, "loss": 0.8495, "step": 3100 }, { "epoch": 2.6666666666666665, "grad_norm": 0.14125679433345795, "learning_rate": 0.0002457017543859649, "loss": 0.8236, "step": 3200 }, { "epoch": 2.75, "grad_norm": 0.16702750325202942, "learning_rate": 0.0002369298245614035, "loss": 0.8369, "step": 3300 }, { "epoch": 2.8333333333333335, "grad_norm": 0.17848503589630127, "learning_rate": 0.00022815789473684212, "loss": 0.8555, "step": 3400 }, { "epoch": 2.9166666666666665, "grad_norm": 0.17648929357528687, "learning_rate": 0.00021938596491228072, "loss": 0.8519, "step": 3500 }, { "epoch": 3.0, "grad_norm": 0.1409672498703003, "learning_rate": 0.00021061403508771932, "loss": 0.9162, "step": 3600 }, { "epoch": 3.0833333333333335, "grad_norm": 0.18376924097537994, "learning_rate": 0.0002018421052631579, "loss": 0.8468, "step": 3700 }, { "epoch": 3.1666666666666665, "grad_norm": 0.20083250105381012, "learning_rate": 0.0001930701754385965, "loss": 0.8802, "step": 3800 }, { "epoch": 3.25, "grad_norm": 0.18047745525836945, "learning_rate": 0.0001842982456140351, "loss": 0.8162, "step": 3900 }, { "epoch": 3.3333333333333335, "grad_norm": 0.16132934391498566, "learning_rate": 0.0001755263157894737, "loss": 0.8417, "step": 4000 }, { "epoch": 3.3333333333333335, "eval_loss": 0.7860187888145447, "eval_rouge1": 0.392, "eval_rouge2": 0.1608, "eval_rougeL": 0.2756, "eval_rougeLsum": 0.2756, "eval_runtime": 1399.5278, "eval_samples_per_second": 0.857, "eval_steps_per_second": 0.214, "step": 4000 }, { "epoch": 3.4166666666666665, "grad_norm": 0.2105809897184372, "learning_rate": 0.0001667543859649123, "loss": 0.8855, "step": 4100 }, { "epoch": 3.5, "grad_norm": 0.18433880805969238, "learning_rate": 0.0001579824561403509, "loss": 0.8405, "step": 4200 }, { "epoch": 3.5833333333333335, "grad_norm": 0.13414153456687927, "learning_rate": 0.00014921052631578947, "loss": 0.8356, "step": 4300 }, { "epoch": 3.6666666666666665, "grad_norm": 0.12219959497451782, "learning_rate": 0.00014043859649122805, "loss": 0.8142, "step": 4400 }, { "epoch": 3.75, "grad_norm": 0.15552708506584167, "learning_rate": 0.00013166666666666665, "loss": 0.8198, "step": 4500 }, { "epoch": 3.8333333333333335, "grad_norm": 0.15773844718933105, "learning_rate": 0.00012289473684210525, "loss": 0.8432, "step": 4600 }, { "epoch": 3.9166666666666665, "grad_norm": 0.19309180974960327, "learning_rate": 0.00011412280701754386, "loss": 0.8577, "step": 4700 }, { "epoch": 4.0, "grad_norm": 0.14865143597126007, "learning_rate": 0.00010535087719298246, "loss": 0.8575, "step": 4800 }, { "epoch": 4.083333333333333, "grad_norm": 0.15284916758537292, "learning_rate": 9.657894736842105e-05, "loss": 0.8227, "step": 4900 }, { "epoch": 4.166666666666667, "grad_norm": 0.22305266559123993, "learning_rate": 8.780701754385966e-05, "loss": 0.833, "step": 5000 }, { "epoch": 4.166666666666667, "eval_loss": 0.7827907204627991, "eval_rouge1": 0.391, "eval_rouge2": 0.1599, "eval_rougeL": 0.2764, "eval_rougeLsum": 0.2764, "eval_runtime": 1349.7759, "eval_samples_per_second": 0.889, "eval_steps_per_second": 0.222, "step": 5000 }, { "epoch": 4.25, "grad_norm": 0.21298357844352722, "learning_rate": 7.903508771929825e-05, "loss": 0.8483, "step": 5100 }, { "epoch": 4.333333333333333, "grad_norm": 0.19737210869789124, "learning_rate": 7.026315789473685e-05, "loss": 0.7888, "step": 5200 }, { "epoch": 4.416666666666667, "grad_norm": 0.21889951825141907, "learning_rate": 6.149122807017544e-05, "loss": 0.8418, "step": 5300 }, { "epoch": 4.5, "grad_norm": 0.13705947995185852, "learning_rate": 5.271929824561403e-05, "loss": 0.8639, "step": 5400 }, { "epoch": 4.583333333333333, "grad_norm": 0.17922119796276093, "learning_rate": 4.394736842105263e-05, "loss": 0.8368, "step": 5500 }, { "epoch": 4.666666666666667, "grad_norm": 0.21064095199108124, "learning_rate": 3.5175438596491226e-05, "loss": 0.8273, "step": 5600 }, { "epoch": 4.75, "grad_norm": 0.17207187414169312, "learning_rate": 2.6403508771929826e-05, "loss": 0.921, "step": 5700 }, { "epoch": 4.833333333333333, "grad_norm": 0.19569571316242218, "learning_rate": 1.7631578947368424e-05, "loss": 0.7884, "step": 5800 }, { "epoch": 4.916666666666667, "grad_norm": 0.17810054123401642, "learning_rate": 8.859649122807017e-06, "loss": 0.8292, "step": 5900 }, { "epoch": 5.0, "grad_norm": 0.19543497264385223, "learning_rate": 8.771929824561403e-08, "loss": 0.8396, "step": 6000 }, { "epoch": 5.0, "eval_loss": 0.7824317216873169, "eval_rouge1": 0.3925, "eval_rouge2": 0.1608, "eval_rougeL": 0.2776, "eval_rougeLsum": 0.2776, "eval_runtime": 1367.3028, "eval_samples_per_second": 0.878, "eval_steps_per_second": 0.219, "step": 6000 } ], "logging_steps": 100, "max_steps": 6000, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3.3912029970432e+16, "train_batch_size": 4, "trial_name": null, "trial_params": null }