| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.6666666666666666, | |
| "eval_steps": 10, | |
| "global_step": 40, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.0, | |
| "learning_rate": 0, | |
| "loss": 0.6115, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.0, | |
| "learning_rate": 0, | |
| "loss": 0.3864, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.0, | |
| "learning_rate": 0, | |
| "loss": 0.6927, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 19.340276501798407, | |
| "learning_rate": 0.0, | |
| "loss": 0.2759, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 23.635250390786137, | |
| "learning_rate": 4.30676558073393e-07, | |
| "loss": 0.5341, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 18.32023170957666, | |
| "learning_rate": 6.826061944859853e-07, | |
| "loss": 0.3237, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 22.992808668979116, | |
| "learning_rate": 8.61353116146786e-07, | |
| "loss": 0.5046, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 22.992808668979116, | |
| "learning_rate": 8.61353116146786e-07, | |
| "loss": 0.6481, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 78.06457663370756, | |
| "learning_rate": 1e-06, | |
| "loss": 0.8268, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 21.040225059552967, | |
| "learning_rate": 1e-06, | |
| "loss": 0.6063, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "eval_loss": 0.4745715260505676, | |
| "eval_runtime": 82.5774, | |
| "eval_samples_per_second": 0.363, | |
| "eval_steps_per_second": 0.182, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 18.275514090804755, | |
| "learning_rate": 1e-06, | |
| "loss": 0.362, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 21.939783395899433, | |
| "learning_rate": 1e-06, | |
| "loss": 0.7011, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 13.538998823241776, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3093, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 15.066863508260852, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3859, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 17.511916980391526, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2982, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 24.51472248776934, | |
| "learning_rate": 1e-06, | |
| "loss": 0.4318, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 17.70508835924277, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2826, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 24.09449475989017, | |
| "learning_rate": 1e-06, | |
| "loss": 0.9326, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 16.93121063464416, | |
| "learning_rate": 1e-06, | |
| "loss": 0.7623, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 16.47139132489221, | |
| "learning_rate": 1e-06, | |
| "loss": 0.4869, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "eval_loss": 0.39905643463134766, | |
| "eval_runtime": 86.161, | |
| "eval_samples_per_second": 0.348, | |
| "eval_steps_per_second": 0.174, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 13.353254948686084, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3214, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 15.60815644877678, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3531, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 10.67603065821911, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2338, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 14.185334834442026, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2733, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 41.2581742019271, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2923, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 31.043373528646374, | |
| "learning_rate": 1e-06, | |
| "loss": 0.5414, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 23.723534545016552, | |
| "learning_rate": 1e-06, | |
| "loss": 0.5977, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 10.5258615897717, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2245, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 14.978248083451351, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2496, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 13.904234733715963, | |
| "learning_rate": 1e-06, | |
| "loss": 0.2581, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "eval_loss": 0.36848002672195435, | |
| "eval_runtime": 83.1811, | |
| "eval_samples_per_second": 0.361, | |
| "eval_steps_per_second": 0.18, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 7.805045027080617, | |
| "learning_rate": 1e-06, | |
| "loss": 0.1419, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 16.171216396613268, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3105, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 19.385896633409814, | |
| "learning_rate": 1e-06, | |
| "loss": 0.4161, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 16.85224250337557, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3111, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 20.96740518228531, | |
| "learning_rate": 1e-06, | |
| "loss": 0.5486, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 8.543503676953911, | |
| "learning_rate": 1e-06, | |
| "loss": 0.1977, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 12.313382964255357, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3224, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 18.142221411776074, | |
| "learning_rate": 1e-06, | |
| "loss": 0.3998, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "grad_norm": 16.746965275752668, | |
| "learning_rate": 1e-06, | |
| "loss": 0.5016, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 13.820322988796189, | |
| "learning_rate": 1e-06, | |
| "loss": 0.321, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "eval_loss": 0.36720359325408936, | |
| "eval_runtime": 83.5123, | |
| "eval_samples_per_second": 0.359, | |
| "eval_steps_per_second": 0.18, | |
| "step": 40 | |
| } | |
| ], | |
| "logging_steps": 1.0, | |
| "max_steps": 500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9, | |
| "save_steps": 10, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 353980428288.0, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |