| { | |
| "best_global_step": 600, | |
| "best_metric": 0.07363789528608322, | |
| "best_model_checkpoint": "results/checkpoint-600", | |
| "epoch": 2.0, | |
| "eval_steps": 100, | |
| "global_step": 600, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 9.697060585021973, | |
| "learning_rate": 3.6e-07, | |
| "loss": 7.2438, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 8.801666259765625, | |
| "learning_rate": 7.600000000000001e-07, | |
| "loss": 7.156, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 7.470696926116943, | |
| "learning_rate": 1.16e-06, | |
| "loss": 6.9673, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 6.263430595397949, | |
| "learning_rate": 1.56e-06, | |
| "loss": 6.7094, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 5.286303520202637, | |
| "learning_rate": 1.96e-06, | |
| "loss": 6.3714, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 4.652409076690674, | |
| "learning_rate": 2.36e-06, | |
| "loss": 5.9859, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 4.126605987548828, | |
| "learning_rate": 2.7600000000000003e-06, | |
| "loss": 5.5458, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 3.8642539978027344, | |
| "learning_rate": 3.16e-06, | |
| "loss": 5.0487, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 3.7739064693450928, | |
| "learning_rate": 3.5600000000000002e-06, | |
| "loss": 4.4878, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 3.5410406589508057, | |
| "learning_rate": 3.96e-06, | |
| "loss": 3.8707, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "eval_loss": 0.8786314725875854, | |
| "eval_runtime": 130.6011, | |
| "eval_samples_per_second": 18.377, | |
| "eval_steps_per_second": 1.531, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 3.659569501876831, | |
| "learning_rate": 4.360000000000001e-06, | |
| "loss": 3.2011, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 3.39253306388855, | |
| "learning_rate": 4.76e-06, | |
| "loss": 2.4442, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 2.4652178287506104, | |
| "learning_rate": 5.16e-06, | |
| "loss": 1.7345, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 1.445365309715271, | |
| "learning_rate": 5.56e-06, | |
| "loss": 1.2175, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.7545905113220215, | |
| "learning_rate": 5.96e-06, | |
| "loss": 0.9318, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.6413900256156921, | |
| "learning_rate": 5.994080185284815e-06, | |
| "loss": 0.7965, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 0.5500534176826477, | |
| "learning_rate": 5.973646620754625e-06, | |
| "loss": 0.7122, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.5907195210456848, | |
| "learning_rate": 5.938725748798032e-06, | |
| "loss": 0.6514, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 0.5499018430709839, | |
| "learning_rate": 5.889487700392975e-06, | |
| "loss": 0.6073, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.601067304611206, | |
| "learning_rate": 5.82617235836189e-06, | |
| "loss": 0.5703, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "eval_loss": 0.1373768150806427, | |
| "eval_runtime": 130.1499, | |
| "eval_samples_per_second": 18.44, | |
| "eval_steps_per_second": 1.537, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.6595374345779419, | |
| "learning_rate": 5.749088188686719e-06, | |
| "loss": 0.5374, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 0.7147516012191772, | |
| "learning_rate": 5.658610737693644e-06, | |
| "loss": 0.5085, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 0.7410432696342468, | |
| "learning_rate": 5.555180802429143e-06, | |
| "loss": 0.4852, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.6519659757614136, | |
| "learning_rate": 5.439302283141083e-06, | |
| "loss": 0.4643, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 0.44764214754104614, | |
| "learning_rate": 5.311539728327368e-06, | |
| "loss": 0.4464, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 0.48451387882232666, | |
| "learning_rate": 5.172515584312403e-06, | |
| "loss": 0.4267, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.6145723462104797, | |
| "learning_rate": 5.02290716275117e-06, | |
| "loss": 0.4102, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.6194537281990051, | |
| "learning_rate": 4.863443340834931e-06, | |
| "loss": 0.3958, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 0.5969278216362, | |
| "learning_rate": 4.694901010274814e-06, | |
| "loss": 0.3839, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.5556809306144714, | |
| "learning_rate": 4.518101292363491e-06, | |
| "loss": 0.3699, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_loss": 0.0905652716755867, | |
| "eval_runtime": 130.206, | |
| "eval_samples_per_second": 18.432, | |
| "eval_steps_per_second": 1.536, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 0.588930070400238, | |
| "learning_rate": 4.333905537554782e-06, | |
| "loss": 0.3568, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 0.6096176505088806, | |
| "learning_rate": 4.143211129050823e-06, | |
| "loss": 0.3458, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.5085943937301636, | |
| "learning_rate": 3.946947110841308e-06, | |
| "loss": 0.335, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 0.37106063961982727, | |
| "learning_rate": 3.746069661494565e-06, | |
| "loss": 0.3275, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.30709022283554077, | |
| "learning_rate": 3.5415574357516803e-06, | |
| "loss": 0.3227, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.3143058717250824, | |
| "learning_rate": 3.334406796618976e-06, | |
| "loss": 0.3189, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 0.37548017501831055, | |
| "learning_rate": 3.125626961187599e-06, | |
| "loss": 0.3138, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 0.3183898627758026, | |
| "learning_rate": 2.916235083829294e-06, | |
| "loss": 0.3136, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.38318926095962524, | |
| "learning_rate": 2.707251300722552e-06, | |
| "loss": 0.3103, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.3728318512439728, | |
| "learning_rate": 2.4996937598516936e-06, | |
| "loss": 0.3079, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "eval_loss": 0.07631697505712509, | |
| "eval_runtime": 130.1373, | |
| "eval_samples_per_second": 18.442, | |
| "eval_steps_per_second": 1.537, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 0.33388274908065796, | |
| "learning_rate": 2.29457366069223e-06, | |
| "loss": 0.3057, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.3089640438556671, | |
| "learning_rate": 2.0928903277486667e-06, | |
| "loss": 0.3051, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 0.3750895857810974, | |
| "learning_rate": 1.8956263419459662e-06, | |
| "loss": 0.3031, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 0.2710581421852112, | |
| "learning_rate": 1.7037427535940527e-06, | |
| "loss": 0.3026, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.272029310464859, | |
| "learning_rate": 1.5181744002473076e-06, | |
| "loss": 0.3004, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 0.35962343215942383, | |
| "learning_rate": 1.339825352269968e-06, | |
| "loss": 0.2999, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 0.3471361994743347, | |
| "learning_rate": 1.1695645082961973e-06, | |
| "loss": 0.2986, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.30093762278556824, | |
| "learning_rate": 1.0082213620432753e-06, | |
| "loss": 0.2981, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 0.31187185645103455, | |
| "learning_rate": 8.565819611015906e-07, | |
| "loss": 0.2982, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.3007357716560364, | |
| "learning_rate": 7.153850773897903e-07, | |
| "loss": 0.2972, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "eval_loss": 0.07405494153499603, | |
| "eval_runtime": 130.2794, | |
| "eval_samples_per_second": 18.422, | |
| "eval_steps_per_second": 1.535, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.3840883672237396, | |
| "learning_rate": 5.853186079322579e-07, | |
| "loss": 0.2969, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 0.28318050503730774, | |
| "learning_rate": 4.6701622349395544e-07, | |
| "loss": 0.2957, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 0.33587414026260376, | |
| "learning_rate": 3.6105428140015095e-07, | |
| "loss": 0.2953, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.3025602400302887, | |
| "learning_rate": 2.6794901758146895e-07, | |
| "loss": 0.2958, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 0.3313562273979187, | |
| "learning_rate": 1.8815403152432564e-07, | |
| "loss": 0.2953, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 0.29559338092803955, | |
| "learning_rate": 1.2205807637982747e-07, | |
| "loss": 0.2946, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.32724061608314514, | |
| "learning_rate": 6.998316499749624e-08, | |
| "loss": 0.2957, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 0.24922741949558258, | |
| "learning_rate": 3.2183001111035e-08, | |
| "loss": 0.2952, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 1.9666666666666668, | |
| "grad_norm": 0.30010986328125, | |
| "learning_rate": 8.84174331923926e-09, | |
| "loss": 0.2957, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.3091154396533966, | |
| "learning_rate": 7.31078838157595e-11, | |
| "loss": 0.2949, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_loss": 0.07363789528608322, | |
| "eval_runtime": 130.171, | |
| "eval_samples_per_second": 18.437, | |
| "eval_steps_per_second": 1.536, | |
| "step": 600 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 600, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 8.586752390332416e+17, | |
| "train_batch_size": 48, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |