{ "best_global_step": 600, "best_metric": 0.07363789528608322, "best_model_checkpoint": "results/checkpoint-600", "epoch": 2.0, "eval_steps": 100, "global_step": 600, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 9.697060585021973, "learning_rate": 3.6e-07, "loss": 7.2438, "step": 10 }, { "epoch": 0.06666666666666667, "grad_norm": 8.801666259765625, "learning_rate": 7.600000000000001e-07, "loss": 7.156, "step": 20 }, { "epoch": 0.1, "grad_norm": 7.470696926116943, "learning_rate": 1.16e-06, "loss": 6.9673, "step": 30 }, { "epoch": 0.13333333333333333, "grad_norm": 6.263430595397949, "learning_rate": 1.56e-06, "loss": 6.7094, "step": 40 }, { "epoch": 0.16666666666666666, "grad_norm": 5.286303520202637, "learning_rate": 1.96e-06, "loss": 6.3714, "step": 50 }, { "epoch": 0.2, "grad_norm": 4.652409076690674, "learning_rate": 2.36e-06, "loss": 5.9859, "step": 60 }, { "epoch": 0.23333333333333334, "grad_norm": 4.126605987548828, "learning_rate": 2.7600000000000003e-06, "loss": 5.5458, "step": 70 }, { "epoch": 0.26666666666666666, "grad_norm": 3.8642539978027344, "learning_rate": 3.16e-06, "loss": 5.0487, "step": 80 }, { "epoch": 0.3, "grad_norm": 3.7739064693450928, "learning_rate": 3.5600000000000002e-06, "loss": 4.4878, "step": 90 }, { "epoch": 0.3333333333333333, "grad_norm": 3.5410406589508057, "learning_rate": 3.96e-06, "loss": 3.8707, "step": 100 }, { "epoch": 0.3333333333333333, "eval_loss": 0.8786314725875854, "eval_runtime": 130.6011, "eval_samples_per_second": 18.377, "eval_steps_per_second": 1.531, "step": 100 }, { "epoch": 0.36666666666666664, "grad_norm": 3.659569501876831, "learning_rate": 4.360000000000001e-06, "loss": 3.2011, "step": 110 }, { "epoch": 0.4, "grad_norm": 3.39253306388855, "learning_rate": 4.76e-06, "loss": 2.4442, "step": 120 }, { "epoch": 0.43333333333333335, "grad_norm": 2.4652178287506104, "learning_rate": 5.16e-06, "loss": 1.7345, "step": 130 }, { "epoch": 0.4666666666666667, "grad_norm": 1.445365309715271, "learning_rate": 5.56e-06, "loss": 1.2175, "step": 140 }, { "epoch": 0.5, "grad_norm": 0.7545905113220215, "learning_rate": 5.96e-06, "loss": 0.9318, "step": 150 }, { "epoch": 0.5333333333333333, "grad_norm": 0.6413900256156921, "learning_rate": 5.994080185284815e-06, "loss": 0.7965, "step": 160 }, { "epoch": 0.5666666666666667, "grad_norm": 0.5500534176826477, "learning_rate": 5.973646620754625e-06, "loss": 0.7122, "step": 170 }, { "epoch": 0.6, "grad_norm": 0.5907195210456848, "learning_rate": 5.938725748798032e-06, "loss": 0.6514, "step": 180 }, { "epoch": 0.6333333333333333, "grad_norm": 0.5499018430709839, "learning_rate": 5.889487700392975e-06, "loss": 0.6073, "step": 190 }, { "epoch": 0.6666666666666666, "grad_norm": 0.601067304611206, "learning_rate": 5.82617235836189e-06, "loss": 0.5703, "step": 200 }, { "epoch": 0.6666666666666666, "eval_loss": 0.1373768150806427, "eval_runtime": 130.1499, "eval_samples_per_second": 18.44, "eval_steps_per_second": 1.537, "step": 200 }, { "epoch": 0.7, "grad_norm": 0.6595374345779419, "learning_rate": 5.749088188686719e-06, "loss": 0.5374, "step": 210 }, { "epoch": 0.7333333333333333, "grad_norm": 0.7147516012191772, "learning_rate": 5.658610737693644e-06, "loss": 0.5085, "step": 220 }, { "epoch": 0.7666666666666667, "grad_norm": 0.7410432696342468, "learning_rate": 5.555180802429143e-06, "loss": 0.4852, "step": 230 }, { "epoch": 0.8, "grad_norm": 0.6519659757614136, "learning_rate": 5.439302283141083e-06, "loss": 0.4643, "step": 240 }, { "epoch": 0.8333333333333334, "grad_norm": 0.44764214754104614, "learning_rate": 5.311539728327368e-06, "loss": 0.4464, "step": 250 }, { "epoch": 0.8666666666666667, "grad_norm": 0.48451387882232666, "learning_rate": 5.172515584312403e-06, "loss": 0.4267, "step": 260 }, { "epoch": 0.9, "grad_norm": 0.6145723462104797, "learning_rate": 5.02290716275117e-06, "loss": 0.4102, "step": 270 }, { "epoch": 0.9333333333333333, "grad_norm": 0.6194537281990051, "learning_rate": 4.863443340834931e-06, "loss": 0.3958, "step": 280 }, { "epoch": 0.9666666666666667, "grad_norm": 0.5969278216362, "learning_rate": 4.694901010274814e-06, "loss": 0.3839, "step": 290 }, { "epoch": 1.0, "grad_norm": 0.5556809306144714, "learning_rate": 4.518101292363491e-06, "loss": 0.3699, "step": 300 }, { "epoch": 1.0, "eval_loss": 0.0905652716755867, "eval_runtime": 130.206, "eval_samples_per_second": 18.432, "eval_steps_per_second": 1.536, "step": 300 }, { "epoch": 1.0333333333333334, "grad_norm": 0.588930070400238, "learning_rate": 4.333905537554782e-06, "loss": 0.3568, "step": 310 }, { "epoch": 1.0666666666666667, "grad_norm": 0.6096176505088806, "learning_rate": 4.143211129050823e-06, "loss": 0.3458, "step": 320 }, { "epoch": 1.1, "grad_norm": 0.5085943937301636, "learning_rate": 3.946947110841308e-06, "loss": 0.335, "step": 330 }, { "epoch": 1.1333333333333333, "grad_norm": 0.37106063961982727, "learning_rate": 3.746069661494565e-06, "loss": 0.3275, "step": 340 }, { "epoch": 1.1666666666666667, "grad_norm": 0.30709022283554077, "learning_rate": 3.5415574357516803e-06, "loss": 0.3227, "step": 350 }, { "epoch": 1.2, "grad_norm": 0.3143058717250824, "learning_rate": 3.334406796618976e-06, "loss": 0.3189, "step": 360 }, { "epoch": 1.2333333333333334, "grad_norm": 0.37548017501831055, "learning_rate": 3.125626961187599e-06, "loss": 0.3138, "step": 370 }, { "epoch": 1.2666666666666666, "grad_norm": 0.3183898627758026, "learning_rate": 2.916235083829294e-06, "loss": 0.3136, "step": 380 }, { "epoch": 1.3, "grad_norm": 0.38318926095962524, "learning_rate": 2.707251300722552e-06, "loss": 0.3103, "step": 390 }, { "epoch": 1.3333333333333333, "grad_norm": 0.3728318512439728, "learning_rate": 2.4996937598516936e-06, "loss": 0.3079, "step": 400 }, { "epoch": 1.3333333333333333, "eval_loss": 0.07631697505712509, "eval_runtime": 130.1373, "eval_samples_per_second": 18.442, "eval_steps_per_second": 1.537, "step": 400 }, { "epoch": 1.3666666666666667, "grad_norm": 0.33388274908065796, "learning_rate": 2.29457366069223e-06, "loss": 0.3057, "step": 410 }, { "epoch": 1.4, "grad_norm": 0.3089640438556671, "learning_rate": 2.0928903277486667e-06, "loss": 0.3051, "step": 420 }, { "epoch": 1.4333333333333333, "grad_norm": 0.3750895857810974, "learning_rate": 1.8956263419459662e-06, "loss": 0.3031, "step": 430 }, { "epoch": 1.4666666666666668, "grad_norm": 0.2710581421852112, "learning_rate": 1.7037427535940527e-06, "loss": 0.3026, "step": 440 }, { "epoch": 1.5, "grad_norm": 0.272029310464859, "learning_rate": 1.5181744002473076e-06, "loss": 0.3004, "step": 450 }, { "epoch": 1.5333333333333332, "grad_norm": 0.35962343215942383, "learning_rate": 1.339825352269968e-06, "loss": 0.2999, "step": 460 }, { "epoch": 1.5666666666666667, "grad_norm": 0.3471361994743347, "learning_rate": 1.1695645082961973e-06, "loss": 0.2986, "step": 470 }, { "epoch": 1.6, "grad_norm": 0.30093762278556824, "learning_rate": 1.0082213620432753e-06, "loss": 0.2981, "step": 480 }, { "epoch": 1.6333333333333333, "grad_norm": 0.31187185645103455, "learning_rate": 8.565819611015906e-07, "loss": 0.2982, "step": 490 }, { "epoch": 1.6666666666666665, "grad_norm": 0.3007357716560364, "learning_rate": 7.153850773897903e-07, "loss": 0.2972, "step": 500 }, { "epoch": 1.6666666666666665, "eval_loss": 0.07405494153499603, "eval_runtime": 130.2794, "eval_samples_per_second": 18.422, "eval_steps_per_second": 1.535, "step": 500 }, { "epoch": 1.7, "grad_norm": 0.3840883672237396, "learning_rate": 5.853186079322579e-07, "loss": 0.2969, "step": 510 }, { "epoch": 1.7333333333333334, "grad_norm": 0.28318050503730774, "learning_rate": 4.6701622349395544e-07, "loss": 0.2957, "step": 520 }, { "epoch": 1.7666666666666666, "grad_norm": 0.33587414026260376, "learning_rate": 3.6105428140015095e-07, "loss": 0.2953, "step": 530 }, { "epoch": 1.8, "grad_norm": 0.3025602400302887, "learning_rate": 2.6794901758146895e-07, "loss": 0.2958, "step": 540 }, { "epoch": 1.8333333333333335, "grad_norm": 0.3313562273979187, "learning_rate": 1.8815403152432564e-07, "loss": 0.2953, "step": 550 }, { "epoch": 1.8666666666666667, "grad_norm": 0.29559338092803955, "learning_rate": 1.2205807637982747e-07, "loss": 0.2946, "step": 560 }, { "epoch": 1.9, "grad_norm": 0.32724061608314514, "learning_rate": 6.998316499749624e-08, "loss": 0.2957, "step": 570 }, { "epoch": 1.9333333333333333, "grad_norm": 0.24922741949558258, "learning_rate": 3.2183001111035e-08, "loss": 0.2952, "step": 580 }, { "epoch": 1.9666666666666668, "grad_norm": 0.30010986328125, "learning_rate": 8.84174331923926e-09, "loss": 0.2957, "step": 590 }, { "epoch": 2.0, "grad_norm": 0.3091154396533966, "learning_rate": 7.31078838157595e-11, "loss": 0.2949, "step": 600 }, { "epoch": 2.0, "eval_loss": 0.07363789528608322, "eval_runtime": 130.171, "eval_samples_per_second": 18.437, "eval_steps_per_second": 1.536, "step": 600 } ], "logging_steps": 10, "max_steps": 600, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 8.586752390332416e+17, "train_batch_size": 48, "trial_name": null, "trial_params": null }