{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.976, "eval_steps": 500, "global_step": 279, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.10666666666666667, "grad_norm": 17.45661163330078, "learning_rate": 3.571428571428572e-05, "loss": 3.6222, "step": 10 }, { "epoch": 0.21333333333333335, "grad_norm": 8.673617362976074, "learning_rate": 7.142857142857143e-05, "loss": 3.0899, "step": 20 }, { "epoch": 0.32, "grad_norm": 10.062810897827148, "learning_rate": 9.998433502797095e-05, "loss": 2.454, "step": 30 }, { "epoch": 0.4266666666666667, "grad_norm": 9.1910400390625, "learning_rate": 9.943709096197335e-05, "loss": 1.966, "step": 40 }, { "epoch": 0.5333333333333333, "grad_norm": 8.12932014465332, "learning_rate": 9.811638633800287e-05, "loss": 1.7396, "step": 50 }, { "epoch": 0.64, "grad_norm": 3.6093671321868896, "learning_rate": 9.604288404126363e-05, "loss": 1.5828, "step": 60 }, { "epoch": 0.7466666666666667, "grad_norm": 3.726036787033081, "learning_rate": 9.324902473952528e-05, "loss": 1.4139, "step": 70 }, { "epoch": 0.8533333333333334, "grad_norm": 3.4635419845581055, "learning_rate": 8.977851933754316e-05, "loss": 1.2741, "step": 80 }, { "epoch": 0.96, "grad_norm": 3.984370708465576, "learning_rate": 8.568566510468391e-05, "loss": 1.1804, "step": 90 }, { "epoch": 1.0666666666666667, "grad_norm": 3.675642251968384, "learning_rate": 8.103449617517851e-05, "loss": 1.0946, "step": 100 }, { "epoch": 1.1733333333333333, "grad_norm": 4.17114782333374, "learning_rate": 7.589778171172322e-05, "loss": 1.0283, "step": 110 }, { "epoch": 1.28, "grad_norm": 4.227255821228027, "learning_rate": 7.03558874065087e-05, "loss": 0.9494, "step": 120 }, { "epoch": 1.3866666666666667, "grad_norm": 3.9516170024871826, "learning_rate": 6.44955181318915e-05, "loss": 0.9208, "step": 130 }, { "epoch": 1.4933333333333334, "grad_norm": 3.8902292251586914, "learning_rate": 5.840836141237748e-05, "loss": 0.8828, "step": 140 }, { "epoch": 1.6, "grad_norm": 3.771127223968506, "learning_rate": 5.218965294127155e-05, "loss": 0.8493, "step": 150 }, { "epoch": 1.7066666666666666, "grad_norm": 4.620998859405518, "learning_rate": 4.593668658498738e-05, "loss": 0.8215, "step": 160 }, { "epoch": 1.8133333333333335, "grad_norm": 4.313019752502441, "learning_rate": 3.9747292186519456e-05, "loss": 0.7784, "step": 170 }, { "epoch": 1.92, "grad_norm": 4.598724365234375, "learning_rate": 3.371830498337475e-05, "loss": 0.7599, "step": 180 }, { "epoch": 2.026666666666667, "grad_norm": 4.347992897033691, "learning_rate": 2.7944050586454214e-05, "loss": 0.732, "step": 190 }, { "epoch": 2.1333333333333333, "grad_norm": 4.4160614013671875, "learning_rate": 2.2514869222919572e-05, "loss": 0.7355, "step": 200 }, { "epoch": 2.24, "grad_norm": 4.84663724899292, "learning_rate": 1.7515702331780753e-05, "loss": 0.718, "step": 210 }, { "epoch": 2.3466666666666667, "grad_norm": 5.274021625518799, "learning_rate": 1.3024763625410024e-05, "loss": 0.6818, "step": 220 }, { "epoch": 2.453333333333333, "grad_norm": 4.033024311065674, "learning_rate": 9.112315408689414e-06, "loss": 0.6774, "step": 230 }, { "epoch": 2.56, "grad_norm": 4.596868515014648, "learning_rate": 5.839569300706127e-06, "loss": 0.669, "step": 240 }, { "epoch": 2.6666666666666665, "grad_norm": 4.825071811676025, "learning_rate": 3.2577285575889017e-06, "loss": 0.6577, "step": 250 }, { "epoch": 2.7733333333333334, "grad_norm": 4.4525532722473145, "learning_rate": 1.4071869796789428e-06, "loss": 0.6689, "step": 260 }, { "epoch": 2.88, "grad_norm": 4.968774795532227, "learning_rate": 3.168969364128527e-07, "loss": 0.6753, "step": 270 } ], "logging_steps": 10, "max_steps": 279, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.308778386576041e+16, "train_batch_size": 4, "trial_name": null, "trial_params": null }