| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 3.0, |
| "eval_steps": 500, |
| "global_step": 225, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 21.035737991333008, |
| "learning_rate": 1e-05, |
| "loss": 1.7623, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 73.40924835205078, |
| "learning_rate": 1e-05, |
| "loss": 1.8717, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 24.24871063232422, |
| "learning_rate": 1e-05, |
| "loss": 1.6929, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 10.224760055541992, |
| "learning_rate": 1e-05, |
| "loss": 1.5267, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 11.5455961227417, |
| "learning_rate": 1e-05, |
| "loss": 1.34, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 11.319619178771973, |
| "learning_rate": 1e-05, |
| "loss": 1.2342, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 12.954507827758789, |
| "learning_rate": 1e-05, |
| "loss": 1.2709, |
| "step": 70 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 20.694766998291016, |
| "learning_rate": 1e-05, |
| "loss": 1.1789, |
| "step": 80 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 46.492828369140625, |
| "learning_rate": 1e-05, |
| "loss": 1.1776, |
| "step": 90 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 26.529247283935547, |
| "learning_rate": 1e-05, |
| "loss": 0.8886, |
| "step": 100 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 13.626594543457031, |
| "learning_rate": 1e-05, |
| "loss": 0.8433, |
| "step": 110 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 5.45139217376709, |
| "learning_rate": 1e-05, |
| "loss": 0.8895, |
| "step": 120 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 6.296970844268799, |
| "learning_rate": 1e-05, |
| "loss": 0.5259, |
| "step": 130 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 4.23496675491333, |
| "learning_rate": 1e-05, |
| "loss": 0.723, |
| "step": 140 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 5.098907470703125, |
| "learning_rate": 1e-05, |
| "loss": 0.62, |
| "step": 150 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 5.362251281738281, |
| "learning_rate": 1e-05, |
| "loss": 0.6641, |
| "step": 160 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 3.3865599632263184, |
| "learning_rate": 1e-05, |
| "loss": 0.5109, |
| "step": 170 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 4.6352219581604, |
| "learning_rate": 1e-05, |
| "loss": 0.5095, |
| "step": 180 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 5.9464826583862305, |
| "learning_rate": 1e-05, |
| "loss": 0.5312, |
| "step": 190 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 3.783493995666504, |
| "learning_rate": 1e-05, |
| "loss": 0.5359, |
| "step": 200 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 5.349966049194336, |
| "learning_rate": 1e-05, |
| "loss": 0.4619, |
| "step": 210 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 3.667267084121704, |
| "learning_rate": 1e-05, |
| "loss": 0.3688, |
| "step": 220 |
| }, |
| { |
| "epoch": 3.0, |
| "step": 225, |
| "total_flos": 1.05836359974912e+16, |
| "train_loss": 0.9544052187601725, |
| "train_runtime": 512.2588, |
| "train_samples_per_second": 0.439, |
| "train_steps_per_second": 0.439 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 225, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 1.05836359974912e+16, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|