| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 6.666666666666667, |
| "eval_steps": 500, |
| "global_step": 2500, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 1.4453125, |
| "learning_rate": 9.8e-06, |
| "loss": 1.4362579345703126, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 1.109375, |
| "learning_rate": 1.98e-05, |
| "loss": 1.2353227996826173, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 1.359375, |
| "learning_rate": 2.98e-05, |
| "loss": 1.1962551879882812, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 1.0, |
| "learning_rate": 2.997812450643705e-05, |
| "loss": 1.1289045715332031, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 1.1640625, |
| "learning_rate": 2.991077005423577e-05, |
| "loss": 1.1314387512207031, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 1.140625, |
| "learning_rate": 2.979813208344657e-05, |
| "loss": 1.1489389038085938, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 1.0703125, |
| "learning_rate": 2.964055267188472e-05, |
| "loss": 1.1160533142089843, |
| "step": 350 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 1.0625, |
| "learning_rate": 2.943851038304401e-05, |
| "loss": 1.040457763671875, |
| "step": 400 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 1.140625, |
| "learning_rate": 2.9192618812715216e-05, |
| "loss": 0.924019775390625, |
| "step": 450 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 1.15625, |
| "learning_rate": 2.8903624725515786e-05, |
| "loss": 0.8882070922851563, |
| "step": 500 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 1.140625, |
| "learning_rate": 2.8572405786990293e-05, |
| "loss": 0.8971571350097656, |
| "step": 550 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 1.1015625, |
| "learning_rate": 2.819996789816898e-05, |
| "loss": 0.9332583618164062, |
| "step": 600 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 1.203125, |
| "learning_rate": 2.7787442140679422e-05, |
| "loss": 0.8832476806640625, |
| "step": 650 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 1.2578125, |
| "learning_rate": 2.7336081341688787e-05, |
| "loss": 0.9302313232421875, |
| "step": 700 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 1.15625, |
| "learning_rate": 2.684725626910889e-05, |
| "loss": 0.9123858642578125, |
| "step": 750 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 1.34375, |
| "learning_rate": 2.632245146861912e-05, |
| "loss": 0.6757525634765625, |
| "step": 800 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 1.4296875, |
| "learning_rate": 2.5763260755150013e-05, |
| "loss": 0.6670223999023438, |
| "step": 850 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 1.34375, |
| "learning_rate": 2.5171382372519647e-05, |
| "loss": 0.6872428894042969, |
| "step": 900 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 1.2109375, |
| "learning_rate": 2.4548613835923026e-05, |
| "loss": 0.6917278289794921, |
| "step": 950 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 1.25, |
| "learning_rate": 2.389684647293749e-05, |
| "loss": 0.6836544036865234, |
| "step": 1000 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 1.5625, |
| "learning_rate": 2.3218059679623026e-05, |
| "loss": 0.6740491485595703, |
| "step": 1050 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 1.265625, |
| "learning_rate": 2.2514314909161486e-05, |
| "loss": 0.6897286987304687, |
| "step": 1100 |
| }, |
| { |
| "epoch": 3.066666666666667, |
| "grad_norm": 1.53125, |
| "learning_rate": 2.1787749411291056e-05, |
| "loss": 0.6019991302490234, |
| "step": 1150 |
| }, |
| { |
| "epoch": 3.2, |
| "grad_norm": 1.578125, |
| "learning_rate": 2.1040569741549002e-05, |
| "loss": 0.49853515625, |
| "step": 1200 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "grad_norm": 1.625, |
| "learning_rate": 2.0275045060035044e-05, |
| "loss": 0.5089201354980468, |
| "step": 1250 |
| }, |
| { |
| "epoch": 3.466666666666667, |
| "grad_norm": 1.5234375, |
| "learning_rate": 1.9493500240046727e-05, |
| "loss": 0.5025421142578125, |
| "step": 1300 |
| }, |
| { |
| "epoch": 3.6, |
| "grad_norm": 1.3203125, |
| "learning_rate": 1.8698308807515613e-05, |
| "loss": 0.5206479263305664, |
| "step": 1350 |
| }, |
| { |
| "epoch": 3.7333333333333334, |
| "grad_norm": 1.4140625, |
| "learning_rate": 1.7891885732687026e-05, |
| "loss": 0.5091935729980469, |
| "step": 1400 |
| }, |
| { |
| "epoch": 3.8666666666666667, |
| "grad_norm": 1.3359375, |
| "learning_rate": 1.7076680095934813e-05, |
| "loss": 0.5084111785888672, |
| "step": 1450 |
| }, |
| { |
| "epoch": 4.0, |
| "grad_norm": 1.390625, |
| "learning_rate": 1.6255167649984738e-05, |
| "loss": 0.522473373413086, |
| "step": 1500 |
| }, |
| { |
| "epoch": 4.133333333333334, |
| "grad_norm": 1.40625, |
| "learning_rate": 1.5429843301134782e-05, |
| "loss": 0.4226302337646484, |
| "step": 1550 |
| }, |
| { |
| "epoch": 4.266666666666667, |
| "grad_norm": 1.5078125, |
| "learning_rate": 1.4603213532306782e-05, |
| "loss": 0.40151473999023435, |
| "step": 1600 |
| }, |
| { |
| "epoch": 4.4, |
| "grad_norm": 1.1953125, |
| "learning_rate": 1.3777788790940136e-05, |
| "loss": 0.39469322204589846, |
| "step": 1650 |
| }, |
| { |
| "epoch": 4.533333333333333, |
| "grad_norm": 1.265625, |
| "learning_rate": 1.2956075864845435e-05, |
| "loss": 0.3755529022216797, |
| "step": 1700 |
| }, |
| { |
| "epoch": 4.666666666666667, |
| "grad_norm": 1.6953125, |
| "learning_rate": 1.21405702691723e-05, |
| "loss": 0.4053420257568359, |
| "step": 1750 |
| }, |
| { |
| "epoch": 4.8, |
| "grad_norm": 1.5859375, |
| "learning_rate": 1.1333748667611854e-05, |
| "loss": 0.3910691833496094, |
| "step": 1800 |
| }, |
| { |
| "epoch": 4.933333333333334, |
| "grad_norm": 1.515625, |
| "learning_rate": 1.0538061350850545e-05, |
| "loss": 0.41198493957519533, |
| "step": 1850 |
| }, |
| { |
| "epoch": 5.066666666666666, |
| "grad_norm": 1.3984375, |
| "learning_rate": 9.755924795117798e-06, |
| "loss": 0.3768700408935547, |
| "step": 1900 |
| }, |
| { |
| "epoch": 5.2, |
| "grad_norm": 1.5, |
| "learning_rate": 8.989714323427191e-06, |
| "loss": 0.3425804901123047, |
| "step": 1950 |
| }, |
| { |
| "epoch": 5.333333333333333, |
| "grad_norm": 1.4140625, |
| "learning_rate": 8.241756891798485e-06, |
| "loss": 0.3398160934448242, |
| "step": 2000 |
| }, |
| { |
| "epoch": 5.466666666666667, |
| "grad_norm": 1.953125, |
| "learning_rate": 7.5143240223686934e-06, |
| "loss": 0.33743438720703123, |
| "step": 2050 |
| }, |
| { |
| "epoch": 5.6, |
| "grad_norm": 1.2421875, |
| "learning_rate": 6.809624904854006e-06, |
| "loss": 0.3318545532226562, |
| "step": 2100 |
| }, |
| { |
| "epoch": 5.733333333333333, |
| "grad_norm": 1.6171875, |
| "learning_rate": 6.12979968731323e-06, |
| "loss": 0.33765140533447263, |
| "step": 2150 |
| }, |
| { |
| "epoch": 5.866666666666667, |
| "grad_norm": 1.5703125, |
| "learning_rate": 5.4769129765884716e-06, |
| "loss": 0.34544857025146486, |
| "step": 2200 |
| }, |
| { |
| "epoch": 6.0, |
| "grad_norm": 1.4453125, |
| "learning_rate": 4.852947568162011e-06, |
| "loss": 0.34912044525146485, |
| "step": 2250 |
| }, |
| { |
| "epoch": 6.133333333333334, |
| "grad_norm": 1.7109375, |
| "learning_rate": 4.2597984244716e-06, |
| "loss": 0.32130874633789064, |
| "step": 2300 |
| }, |
| { |
| "epoch": 6.266666666666667, |
| "grad_norm": 1.4296875, |
| "learning_rate": 3.699266919971811e-06, |
| "loss": 0.32198089599609375, |
| "step": 2350 |
| }, |
| { |
| "epoch": 6.4, |
| "grad_norm": 1.3125, |
| "learning_rate": 3.1730553704190283e-06, |
| "loss": 0.3156669425964356, |
| "step": 2400 |
| }, |
| { |
| "epoch": 6.533333333333333, |
| "grad_norm": 1.5078125, |
| "learning_rate": 2.6827618629944394e-06, |
| "loss": 0.33737548828125, |
| "step": 2450 |
| }, |
| { |
| "epoch": 6.666666666666667, |
| "grad_norm": 1.4609375, |
| "learning_rate": 2.229875402965799e-06, |
| "loss": 0.31845829010009763, |
| "step": 2500 |
| } |
| ], |
| "logging_steps": 50, |
| "max_steps": 3000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 8, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.7709415301840896e+18, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|