{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 100, "global_step": 225, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 0.16145890951156616, "learning_rate": 8.695652173913044e-05, "loss": 0.5835, "step": 5 }, { "epoch": 0.13333333333333333, "grad_norm": 0.16309808194637299, "learning_rate": 0.0001956521739130435, "loss": 0.6482, "step": 10 }, { "epoch": 0.2, "grad_norm": 0.13111482560634613, "learning_rate": 0.00030434782608695655, "loss": 0.566, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 0.10666251927614212, "learning_rate": 0.0004130434782608696, "loss": 0.5803, "step": 20 }, { "epoch": 0.3333333333333333, "grad_norm": 0.12014622241258621, "learning_rate": 0.0004999697658150374, "loss": 0.5898, "step": 25 }, { "epoch": 0.4, "grad_norm": 0.10439501702785492, "learning_rate": 0.0004989123369922546, "loss": 0.5948, "step": 30 }, { "epoch": 0.4666666666666667, "grad_norm": 0.09919652342796326, "learning_rate": 0.0004963505038221703, "loss": 0.5853, "step": 35 }, { "epoch": 0.5333333333333333, "grad_norm": 0.08807212114334106, "learning_rate": 0.0004922997497999166, "loss": 0.5324, "step": 40 }, { "epoch": 0.6, "grad_norm": 0.1061202809214592, "learning_rate": 0.00048678455732775007, "loss": 0.554, "step": 45 }, { "epoch": 0.6666666666666666, "grad_norm": 0.10958874970674515, "learning_rate": 0.00047983825974555906, "loss": 0.6044, "step": 50 }, { "epoch": 0.7333333333333333, "grad_norm": 0.09531711041927338, "learning_rate": 0.0004715028398670787, "loss": 0.5653, "step": 55 }, { "epoch": 0.8, "grad_norm": 0.11301957815885544, "learning_rate": 0.00046182867623944434, "loss": 0.5539, "step": 60 }, { "epoch": 0.8666666666666667, "grad_norm": 0.1083487942814827, "learning_rate": 0.00045087423865966894, "loss": 0.5267, "step": 65 }, { "epoch": 0.9333333333333333, "grad_norm": 0.10189539939165115, "learning_rate": 0.0004387057347883143, "loss": 0.5533, "step": 70 }, { "epoch": 1.0, "grad_norm": 0.09216652810573578, "learning_rate": 0.0004253967099961942, "loss": 0.5016, "step": 75 }, { "epoch": 1.0666666666666667, "grad_norm": 0.10134831815958023, "learning_rate": 0.0004110276028625994, "loss": 0.4856, "step": 80 }, { "epoch": 1.1333333333333333, "grad_norm": 0.1001599058508873, "learning_rate": 0.00039568525901157527, "loss": 0.4632, "step": 85 }, { "epoch": 1.2, "grad_norm": 0.09839078038930893, "learning_rate": 0.0003794624062245813, "loss": 0.5097, "step": 90 }, { "epoch": 1.2666666666666666, "grad_norm": 0.102094367146492, "learning_rate": 0.000362457094001909, "loss": 0.4476, "step": 95 }, { "epoch": 1.3333333333333333, "grad_norm": 0.11247370392084122, "learning_rate": 0.00034477210096009486, "loss": 0.4919, "step": 100 }, { "epoch": 1.3333333333333333, "eval_loss": 0.506523609161377, "eval_runtime": 45.0985, "eval_samples_per_second": 0.377, "eval_steps_per_second": 0.377, "step": 100 }, { "epoch": 1.4, "grad_norm": 0.10984684526920319, "learning_rate": 0.00032651431364697186, "loss": 0.3816, "step": 105 }, { "epoch": 1.4666666666666668, "grad_norm": 0.10393229871988297, "learning_rate": 0.0003077940805287425, "loss": 0.4784, "step": 110 }, { "epoch": 1.5333333333333332, "grad_norm": 0.11296918988227844, "learning_rate": 0.00028872454505352117, "loss": 0.4422, "step": 115 }, { "epoch": 1.6, "grad_norm": 0.10333701968193054, "learning_rate": 0.0002694209618222516, "loss": 0.4828, "step": 120 }, { "epoch": 1.6666666666666665, "grad_norm": 0.09766612201929092, "learning_rate": 0.00025, "loss": 0.4853, "step": 125 }, { "epoch": 1.7333333333333334, "grad_norm": 0.09704718738794327, "learning_rate": 0.00023057903817774841, "loss": 0.4392, "step": 130 }, { "epoch": 1.8, "grad_norm": 0.11206477135419846, "learning_rate": 0.00021127545494647882, "loss": 0.4489, "step": 135 }, { "epoch": 1.8666666666666667, "grad_norm": 0.11189498007297516, "learning_rate": 0.00019220591947125766, "loss": 0.4856, "step": 140 }, { "epoch": 1.9333333333333333, "grad_norm": 0.1053239181637764, "learning_rate": 0.0001734856863530282, "loss": 0.4406, "step": 145 }, { "epoch": 2.0, "grad_norm": 0.10603803396224976, "learning_rate": 0.0001552278990399052, "loss": 0.4405, "step": 150 }, { "epoch": 2.066666666666667, "grad_norm": 0.1078822985291481, "learning_rate": 0.00013754290599809105, "loss": 0.3784, "step": 155 }, { "epoch": 2.1333333333333333, "grad_norm": 0.09372378885746002, "learning_rate": 0.00012053759377541865, "loss": 0.4102, "step": 160 }, { "epoch": 2.2, "grad_norm": 0.11487775295972824, "learning_rate": 0.00010431474098842477, "loss": 0.3926, "step": 165 }, { "epoch": 2.2666666666666666, "grad_norm": 0.110216423869133, "learning_rate": 8.897239713740058e-05, "loss": 0.4028, "step": 170 }, { "epoch": 2.3333333333333335, "grad_norm": 0.12020918726921082, "learning_rate": 7.460329000380586e-05, "loss": 0.4216, "step": 175 }, { "epoch": 2.4, "grad_norm": 0.11179473251104355, "learning_rate": 6.12942652116858e-05, "loss": 0.4194, "step": 180 }, { "epoch": 2.466666666666667, "grad_norm": 0.1162172257900238, "learning_rate": 4.912576134033106e-05, "loss": 0.3448, "step": 185 }, { "epoch": 2.533333333333333, "grad_norm": 0.12591737508773804, "learning_rate": 3.8171323760555655e-05, "loss": 0.3779, "step": 190 }, { "epoch": 2.6, "grad_norm": 0.12023098766803741, "learning_rate": 2.8497160132921336e-05, "loss": 0.3846, "step": 195 }, { "epoch": 2.6666666666666665, "grad_norm": 0.12184033542871475, "learning_rate": 2.0161740254440898e-05, "loss": 0.3998, "step": 200 }, { "epoch": 2.6666666666666665, "eval_loss": 0.5051587224006653, "eval_runtime": 45.0327, "eval_samples_per_second": 0.378, "eval_steps_per_second": 0.378, "step": 200 }, { "epoch": 2.7333333333333334, "grad_norm": 0.13668841123580933, "learning_rate": 1.3215442672249972e-05, "loss": 0.4098, "step": 205 }, { "epoch": 2.8, "grad_norm": 0.11291203647851944, "learning_rate": 7.70025020008347e-06, "loss": 0.3316, "step": 210 }, { "epoch": 2.8666666666666667, "grad_norm": 0.1049598902463913, "learning_rate": 3.64949617782967e-06, "loss": 0.3406, "step": 215 }, { "epoch": 2.9333333333333336, "grad_norm": 0.10330229252576828, "learning_rate": 1.0876630077453487e-06, "loss": 0.3846, "step": 220 }, { "epoch": 3.0, "grad_norm": 0.11973880231380463, "learning_rate": 3.023418496261865e-08, "loss": 0.3517, "step": 225 }, { "epoch": 3.0, "step": 225, "total_flos": 7437909605990400.0, "train_loss": 0.471399851375156, "train_runtime": 7246.2151, "train_samples_per_second": 0.124, "train_steps_per_second": 0.031 } ], "logging_steps": 5, "max_steps": 225, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 40, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 7437909605990400.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }