{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 5.333333333333333, "eval_steps": 500, "global_step": 2000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.13333333333333333, "grad_norm": 1.4453125, "learning_rate": 9.8e-06, "loss": 1.4362579345703126, "step": 50 }, { "epoch": 0.26666666666666666, "grad_norm": 1.109375, "learning_rate": 1.98e-05, "loss": 1.2353227996826173, "step": 100 }, { "epoch": 0.4, "grad_norm": 1.359375, "learning_rate": 2.98e-05, "loss": 1.1962551879882812, "step": 150 }, { "epoch": 0.5333333333333333, "grad_norm": 1.0, "learning_rate": 2.997812450643705e-05, "loss": 1.1289045715332031, "step": 200 }, { "epoch": 0.6666666666666666, "grad_norm": 1.1640625, "learning_rate": 2.991077005423577e-05, "loss": 1.1314387512207031, "step": 250 }, { "epoch": 0.8, "grad_norm": 1.140625, "learning_rate": 2.979813208344657e-05, "loss": 1.1489389038085938, "step": 300 }, { "epoch": 0.9333333333333333, "grad_norm": 1.0703125, "learning_rate": 2.964055267188472e-05, "loss": 1.1160533142089843, "step": 350 }, { "epoch": 1.0666666666666667, "grad_norm": 1.0625, "learning_rate": 2.943851038304401e-05, "loss": 1.040457763671875, "step": 400 }, { "epoch": 1.2, "grad_norm": 1.140625, "learning_rate": 2.9192618812715216e-05, "loss": 0.924019775390625, "step": 450 }, { "epoch": 1.3333333333333333, "grad_norm": 1.15625, "learning_rate": 2.8903624725515786e-05, "loss": 0.8882070922851563, "step": 500 }, { "epoch": 1.4666666666666668, "grad_norm": 1.140625, "learning_rate": 2.8572405786990293e-05, "loss": 0.8971571350097656, "step": 550 }, { "epoch": 1.6, "grad_norm": 1.1015625, "learning_rate": 2.819996789816898e-05, "loss": 0.9332583618164062, "step": 600 }, { "epoch": 1.7333333333333334, "grad_norm": 1.203125, "learning_rate": 2.7787442140679422e-05, "loss": 0.8832476806640625, "step": 650 }, { "epoch": 1.8666666666666667, "grad_norm": 1.2578125, "learning_rate": 2.7336081341688787e-05, "loss": 0.9302313232421875, "step": 700 }, { "epoch": 2.0, "grad_norm": 1.15625, "learning_rate": 2.684725626910889e-05, "loss": 0.9123858642578125, "step": 750 }, { "epoch": 2.1333333333333333, "grad_norm": 1.34375, "learning_rate": 2.632245146861912e-05, "loss": 0.6757525634765625, "step": 800 }, { "epoch": 2.2666666666666666, "grad_norm": 1.4296875, "learning_rate": 2.5763260755150013e-05, "loss": 0.6670223999023438, "step": 850 }, { "epoch": 2.4, "grad_norm": 1.34375, "learning_rate": 2.5171382372519647e-05, "loss": 0.6872428894042969, "step": 900 }, { "epoch": 2.533333333333333, "grad_norm": 1.2109375, "learning_rate": 2.4548613835923026e-05, "loss": 0.6917278289794921, "step": 950 }, { "epoch": 2.6666666666666665, "grad_norm": 1.25, "learning_rate": 2.389684647293749e-05, "loss": 0.6836544036865234, "step": 1000 }, { "epoch": 2.8, "grad_norm": 1.5625, "learning_rate": 2.3218059679623026e-05, "loss": 0.6740491485595703, "step": 1050 }, { "epoch": 2.9333333333333336, "grad_norm": 1.265625, "learning_rate": 2.2514314909161486e-05, "loss": 0.6897286987304687, "step": 1100 }, { "epoch": 3.066666666666667, "grad_norm": 1.53125, "learning_rate": 2.1787749411291056e-05, "loss": 0.6019991302490234, "step": 1150 }, { "epoch": 3.2, "grad_norm": 1.578125, "learning_rate": 2.1040569741549002e-05, "loss": 0.49853515625, "step": 1200 }, { "epoch": 3.3333333333333335, "grad_norm": 1.625, "learning_rate": 2.0275045060035044e-05, "loss": 0.5089201354980468, "step": 1250 }, { "epoch": 3.466666666666667, "grad_norm": 1.5234375, "learning_rate": 1.9493500240046727e-05, "loss": 0.5025421142578125, "step": 1300 }, { "epoch": 3.6, "grad_norm": 1.3203125, "learning_rate": 1.8698308807515613e-05, "loss": 0.5206479263305664, "step": 1350 }, { "epoch": 3.7333333333333334, "grad_norm": 1.4140625, "learning_rate": 1.7891885732687026e-05, "loss": 0.5091935729980469, "step": 1400 }, { "epoch": 3.8666666666666667, "grad_norm": 1.3359375, "learning_rate": 1.7076680095934813e-05, "loss": 0.5084111785888672, "step": 1450 }, { "epoch": 4.0, "grad_norm": 1.390625, "learning_rate": 1.6255167649984738e-05, "loss": 0.522473373413086, "step": 1500 }, { "epoch": 4.133333333333334, "grad_norm": 1.40625, "learning_rate": 1.5429843301134782e-05, "loss": 0.4226302337646484, "step": 1550 }, { "epoch": 4.266666666666667, "grad_norm": 1.5078125, "learning_rate": 1.4603213532306782e-05, "loss": 0.40151473999023435, "step": 1600 }, { "epoch": 4.4, "grad_norm": 1.1953125, "learning_rate": 1.3777788790940136e-05, "loss": 0.39469322204589846, "step": 1650 }, { "epoch": 4.533333333333333, "grad_norm": 1.265625, "learning_rate": 1.2956075864845435e-05, "loss": 0.3755529022216797, "step": 1700 }, { "epoch": 4.666666666666667, "grad_norm": 1.6953125, "learning_rate": 1.21405702691723e-05, "loss": 0.4053420257568359, "step": 1750 }, { "epoch": 4.8, "grad_norm": 1.5859375, "learning_rate": 1.1333748667611854e-05, "loss": 0.3910691833496094, "step": 1800 }, { "epoch": 4.933333333333334, "grad_norm": 1.515625, "learning_rate": 1.0538061350850545e-05, "loss": 0.41198493957519533, "step": 1850 }, { "epoch": 5.066666666666666, "grad_norm": 1.3984375, "learning_rate": 9.755924795117798e-06, "loss": 0.3768700408935547, "step": 1900 }, { "epoch": 5.2, "grad_norm": 1.5, "learning_rate": 8.989714323427191e-06, "loss": 0.3425804901123047, "step": 1950 }, { "epoch": 5.333333333333333, "grad_norm": 1.4140625, "learning_rate": 8.241756891798485e-06, "loss": 0.3398160934448242, "step": 2000 } ], "logging_steps": 50, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 8, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 2.2167532241472717e+18, "train_batch_size": 4, "trial_name": null, "trial_params": null }