{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 225, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 229145.765625, "learning_rate": 9.822222222222223e-06, "loss": 16.173309326171875, "step": 5 }, { "epoch": 0.13333333333333333, "grad_norm": 8094.95263671875, "learning_rate": 9.600000000000001e-06, "loss": 7.825453186035157, "step": 10 }, { "epoch": 0.2, "grad_norm": 2778.5576171875, "learning_rate": 9.377777777777779e-06, "loss": 6.035641479492187, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 1442.43798828125, "learning_rate": 9.155555555555557e-06, "loss": 6.153137969970703, "step": 20 }, { "epoch": 0.3333333333333333, "grad_norm": 1512.045166015625, "learning_rate": 8.933333333333333e-06, "loss": 4.782123184204101, "step": 25 }, { "epoch": 0.4, "grad_norm": 590.5863647460938, "learning_rate": 8.711111111111111e-06, "loss": 4.474009323120117, "step": 30 }, { "epoch": 0.4666666666666667, "grad_norm": 525.0798950195312, "learning_rate": 8.48888888888889e-06, "loss": 4.116173171997071, "step": 35 }, { "epoch": 0.5333333333333333, "grad_norm": 1079.447021484375, "learning_rate": 8.266666666666667e-06, "loss": 3.823623275756836, "step": 40 }, { "epoch": 0.6, "grad_norm": 285.1473693847656, "learning_rate": 8.044444444444444e-06, "loss": 4.289837646484375, "step": 45 }, { "epoch": 0.6666666666666666, "grad_norm": 299.2480773925781, "learning_rate": 7.822222222222224e-06, "loss": 3.389053726196289, "step": 50 }, { "epoch": 0.7333333333333333, "grad_norm": 198.16490173339844, "learning_rate": 7.600000000000001e-06, "loss": 3.5861175537109373, "step": 55 }, { "epoch": 0.8, "grad_norm": 201.42086791992188, "learning_rate": 7.377777777777778e-06, "loss": 3.3245033264160155, "step": 60 }, { "epoch": 0.8666666666666667, "grad_norm": 262.3726806640625, "learning_rate": 7.155555555555556e-06, "loss": 3.4898094177246093, "step": 65 }, { "epoch": 0.9333333333333333, "grad_norm": 243.12596130371094, "learning_rate": 6.9333333333333344e-06, "loss": 3.410463333129883, "step": 70 }, { "epoch": 1.0, "grad_norm": 139.89517211914062, "learning_rate": 6.711111111111111e-06, "loss": 3.2573917388916014, "step": 75 }, { "epoch": 1.0666666666666667, "grad_norm": 183.97857666015625, "learning_rate": 6.488888888888889e-06, "loss": 3.107708740234375, "step": 80 }, { "epoch": 1.1333333333333333, "grad_norm": 295.6236877441406, "learning_rate": 6.266666666666668e-06, "loss": 2.9228172302246094, "step": 85 }, { "epoch": 1.2, "grad_norm": 172.896240234375, "learning_rate": 6.044444444444445e-06, "loss": 2.9557708740234374, "step": 90 }, { "epoch": 1.2666666666666666, "grad_norm": 205.54364013671875, "learning_rate": 5.822222222222223e-06, "loss": 3.166803550720215, "step": 95 }, { "epoch": 1.3333333333333333, "grad_norm": 181.99195861816406, "learning_rate": 5.600000000000001e-06, "loss": 2.7849218368530275, "step": 100 }, { "epoch": 1.4, "grad_norm": 221.8919219970703, "learning_rate": 5.3777777777777784e-06, "loss": 2.717535972595215, "step": 105 }, { "epoch": 1.4666666666666668, "grad_norm": 287.3135986328125, "learning_rate": 5.155555555555556e-06, "loss": 2.6949533462524413, "step": 110 }, { "epoch": 1.5333333333333332, "grad_norm": 205.33518981933594, "learning_rate": 4.933333333333334e-06, "loss": 2.640820121765137, "step": 115 }, { "epoch": 1.6, "grad_norm": 147.30516052246094, "learning_rate": 4.711111111111111e-06, "loss": 2.8770988464355467, "step": 120 }, { "epoch": 1.6666666666666665, "grad_norm": 147.8615264892578, "learning_rate": 4.488888888888889e-06, "loss": 2.816021728515625, "step": 125 }, { "epoch": 1.7333333333333334, "grad_norm": 162.8851318359375, "learning_rate": 4.266666666666668e-06, "loss": 3.0483516693115233, "step": 130 }, { "epoch": 1.8, "grad_norm": 213.7952423095703, "learning_rate": 4.044444444444445e-06, "loss": 2.7300251007080076, "step": 135 }, { "epoch": 1.8666666666666667, "grad_norm": 144.31881713867188, "learning_rate": 3.8222222222222224e-06, "loss": 2.626852607727051, "step": 140 }, { "epoch": 1.9333333333333333, "grad_norm": 231.2946319580078, "learning_rate": 3.6000000000000003e-06, "loss": 2.8113380432128907, "step": 145 }, { "epoch": 2.0, "grad_norm": 158.30702209472656, "learning_rate": 3.377777777777778e-06, "loss": 2.838680076599121, "step": 150 }, { "epoch": 2.066666666666667, "grad_norm": 148.84310913085938, "learning_rate": 3.1555555555555555e-06, "loss": 2.4718008041381836, "step": 155 }, { "epoch": 2.1333333333333333, "grad_norm": 179.0776824951172, "learning_rate": 2.9333333333333338e-06, "loss": 2.117970275878906, "step": 160 }, { "epoch": 2.2, "grad_norm": 197.58935546875, "learning_rate": 2.7111111111111116e-06, "loss": 2.429534339904785, "step": 165 }, { "epoch": 2.2666666666666666, "grad_norm": 292.959228515625, "learning_rate": 2.488888888888889e-06, "loss": 1.9730237960815429, "step": 170 }, { "epoch": 2.3333333333333335, "grad_norm": 273.8014221191406, "learning_rate": 2.266666666666667e-06, "loss": 2.140243148803711, "step": 175 }, { "epoch": 2.4, "grad_norm": 258.5754699707031, "learning_rate": 2.0444444444444447e-06, "loss": 2.2509164810180664, "step": 180 }, { "epoch": 2.466666666666667, "grad_norm": 176.2709197998047, "learning_rate": 1.8222222222222225e-06, "loss": 2.1858346939086912, "step": 185 }, { "epoch": 2.533333333333333, "grad_norm": 160.72109985351562, "learning_rate": 1.6000000000000001e-06, "loss": 2.271809768676758, "step": 190 }, { "epoch": 2.6, "grad_norm": 230.0686798095703, "learning_rate": 1.377777777777778e-06, "loss": 2.1346473693847656, "step": 195 }, { "epoch": 2.6666666666666665, "grad_norm": 137.5487060546875, "learning_rate": 1.1555555555555556e-06, "loss": 1.9859970092773438, "step": 200 }, { "epoch": 2.7333333333333334, "grad_norm": 205.5894775390625, "learning_rate": 9.333333333333334e-07, "loss": 2.199711227416992, "step": 205 }, { "epoch": 2.8, "grad_norm": 187.48687744140625, "learning_rate": 7.111111111111112e-07, "loss": 1.8161199569702149, "step": 210 }, { "epoch": 2.8666666666666667, "grad_norm": 238.51434326171875, "learning_rate": 4.88888888888889e-07, "loss": 2.2019865036010744, "step": 215 }, { "epoch": 2.9333333333333336, "grad_norm": 267.350341796875, "learning_rate": 2.666666666666667e-07, "loss": 1.8696622848510742, "step": 220 }, { "epoch": 3.0, "grad_norm": 177.90528869628906, "learning_rate": 4.444444444444445e-08, "loss": 2.1522560119628906, "step": 225 } ], "logging_steps": 5, "max_steps": 225, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 75, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.7194118749320608e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }