{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 30.0, "eval_steps": 500, "global_step": 240, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.6666666666666666, "grad_norm": 0.8689901232719421, "learning_rate": 1.6666666666666667e-05, "loss": 2.3654, "step": 5 }, { "epoch": 1.2666666666666666, "grad_norm": 0.7568275928497314, "learning_rate": 3.7500000000000003e-05, "loss": 1.8161, "step": 10 }, { "epoch": 1.9333333333333333, "grad_norm": 0.7656272053718567, "learning_rate": 5.833333333333334e-05, "loss": 1.4996, "step": 15 }, { "epoch": 2.533333333333333, "grad_norm": 0.7185885906219482, "learning_rate": 7.916666666666666e-05, "loss": 1.1473, "step": 20 }, { "epoch": 3.1333333333333333, "grad_norm": 1.1223357915878296, "learning_rate": 0.0001, "loss": 0.8881, "step": 25 }, { "epoch": 3.8, "grad_norm": 0.852708637714386, "learning_rate": 9.986784583502862e-05, "loss": 0.4632, "step": 30 }, { "epoch": 4.4, "grad_norm": 0.6442459225654602, "learning_rate": 9.947208192904722e-05, "loss": 0.2705, "step": 35 }, { "epoch": 5.0, "grad_norm": 0.8184784054756165, "learning_rate": 9.881480035599667e-05, "loss": 0.1617, "step": 40 }, { "epoch": 5.666666666666667, "grad_norm": 0.5641859769821167, "learning_rate": 9.789947561577445e-05, "loss": 0.0784, "step": 45 }, { "epoch": 6.266666666666667, "grad_norm": 0.3222081661224365, "learning_rate": 9.673094626744942e-05, "loss": 0.0533, "step": 50 }, { "epoch": 6.933333333333334, "grad_norm": 0.34017637372016907, "learning_rate": 9.53153893518325e-05, "loss": 0.0341, "step": 55 }, { "epoch": 7.533333333333333, "grad_norm": 0.375735342502594, "learning_rate": 9.36602877386098e-05, "loss": 0.0245, "step": 60 }, { "epoch": 8.133333333333333, "grad_norm": 0.14678707718849182, "learning_rate": 9.177439057064683e-05, "loss": 0.0208, "step": 65 }, { "epoch": 8.8, "grad_norm": 0.22148066759109497, "learning_rate": 8.966766701456177e-05, "loss": 0.0176, "step": 70 }, { "epoch": 9.4, "grad_norm": 0.21415655314922333, "learning_rate": 8.73512535620498e-05, "loss": 0.0102, "step": 75 }, { "epoch": 10.0, "grad_norm": 0.2622195780277252, "learning_rate": 8.483739516053276e-05, "loss": 0.0087, "step": 80 }, { "epoch": 10.666666666666666, "grad_norm": 0.16748470067977905, "learning_rate": 8.213938048432697e-05, "loss": 0.0055, "step": 85 }, { "epoch": 11.266666666666667, "grad_norm": 0.16798754036426544, "learning_rate": 7.927147168849704e-05, "loss": 0.0058, "step": 90 }, { "epoch": 11.933333333333334, "grad_norm": 0.14203017950057983, "learning_rate": 7.6248829016728e-05, "loss": 0.0052, "step": 95 }, { "epoch": 12.533333333333333, "grad_norm": 0.18258453905582428, "learning_rate": 7.308743066175172e-05, "loss": 0.0022, "step": 100 }, { "epoch": 13.133333333333333, "grad_norm": 0.015843752771615982, "learning_rate": 6.980398830195785e-05, "loss": 0.0022, "step": 105 }, { "epoch": 13.8, "grad_norm": 0.07418923079967499, "learning_rate": 6.641585876067807e-05, "loss": 0.0017, "step": 110 }, { "epoch": 14.4, "grad_norm": 0.023140624165534973, "learning_rate": 6.294095225512603e-05, "loss": 0.0012, "step": 115 }, { "epoch": 15.0, "grad_norm": 0.25409796833992004, "learning_rate": 5.9397637720005595e-05, "loss": 0.0032, "step": 120 }, { "epoch": 15.666666666666666, "grad_norm": 0.05325435474514961, "learning_rate": 5.5804645706261514e-05, "loss": 0.0007, "step": 125 }, { "epoch": 16.266666666666666, "grad_norm": 0.023507924750447273, "learning_rate": 5.218096936826681e-05, "loss": 0.0012, "step": 130 }, { "epoch": 16.933333333333334, "grad_norm": 0.10688629001379013, "learning_rate": 4.854576406284443e-05, "loss": 0.0022, "step": 135 }, { "epoch": 17.533333333333335, "grad_norm": 0.014077894389629364, "learning_rate": 4.491824609085991e-05, "loss": 0.0011, "step": 140 }, { "epoch": 18.133333333333333, "grad_norm": 0.01724964752793312, "learning_rate": 4.131759111665349e-05, "loss": 0.0009, "step": 145 }, { "epoch": 18.8, "grad_norm": 0.07156306505203247, "learning_rate": 3.776283280228381e-05, "loss": 0.0012, "step": 150 }, { "epoch": 19.4, "grad_norm": 0.0061793080531060696, "learning_rate": 3.427276219241933e-05, "loss": 0.0005, "step": 155 }, { "epoch": 20.0, "grad_norm": 0.007031604181975126, "learning_rate": 3.086582838174551e-05, "loss": 0.0005, "step": 160 }, { "epoch": 20.666666666666668, "grad_norm": 0.006758078932762146, "learning_rate": 2.7560040989976892e-05, "loss": 0.0003, "step": 165 }, { "epoch": 21.266666666666666, "grad_norm": 0.0022400650195777416, "learning_rate": 2.4372874960006743e-05, "loss": 0.0002, "step": 170 }, { "epoch": 21.933333333333334, "grad_norm": 0.005241368897259235, "learning_rate": 2.132117818244771e-05, "loss": 0.0003, "step": 175 }, { "epoch": 22.533333333333335, "grad_norm": 0.005505857989192009, "learning_rate": 1.842108243487513e-05, "loss": 0.0002, "step": 180 }, { "epoch": 23.133333333333333, "grad_norm": 0.0022109781857579947, "learning_rate": 1.5687918106563326e-05, "loss": 0.0002, "step": 185 }, { "epoch": 23.8, "grad_norm": 0.002861538203433156, "learning_rate": 1.3136133159493802e-05, "loss": 0.0002, "step": 190 }, { "epoch": 24.4, "grad_norm": 0.001845506951212883, "learning_rate": 1.0779216754021215e-05, "loss": 0.0001, "step": 195 }, { "epoch": 25.0, "grad_norm": 0.0022635224740952253, "learning_rate": 8.629627942924473e-06, "loss": 0.0002, "step": 200 }, { "epoch": 25.666666666666668, "grad_norm": 0.0018658298067748547, "learning_rate": 6.698729810778065e-06, "loss": 0.0001, "step": 205 }, { "epoch": 26.266666666666666, "grad_norm": 0.002295706421136856, "learning_rate": 4.996729406793943e-06, "loss": 0.0002, "step": 210 }, { "epoch": 26.933333333333334, "grad_norm": 0.00466426694765687, "learning_rate": 3.5326237886588732e-06, "loss": 0.0001, "step": 215 }, { "epoch": 27.533333333333335, "grad_norm": 0.0056126974523067474, "learning_rate": 2.314152462588659e-06, "loss": 0.0002, "step": 220 }, { "epoch": 28.133333333333333, "grad_norm": 0.005923236720263958, "learning_rate": 1.3477564710088098e-06, "loss": 0.0001, "step": 225 }, { "epoch": 28.8, "grad_norm": 0.0023947993759065866, "learning_rate": 6.385443441312978e-07, "loss": 0.0001, "step": 230 }, { "epoch": 29.4, "grad_norm": 0.001765914843417704, "learning_rate": 1.9026509541272275e-07, "loss": 0.0001, "step": 235 }, { "epoch": 30.0, "grad_norm": 0.0020649449434131384, "learning_rate": 5.2884036446265714e-09, "loss": 0.0001, "step": 240 }, { "epoch": 30.0, "step": 240, "total_flos": 1.6497175945019392e+17, "train_loss": 0.18536781801400745, "train_runtime": 7707.7803, "train_samples_per_second": 0.93, "train_steps_per_second": 0.031 } ], "logging_steps": 5, "max_steps": 240, "num_input_tokens_seen": 0, "num_train_epochs": 30, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.6497175945019392e+17, "train_batch_size": 2, "trial_name": null, "trial_params": null }