| { |
| "best_global_step": 425, |
| "best_metric": 0.7616031169891357, |
| "best_model_checkpoint": "./peft-training-1765506126/checkpoint-425", |
| "epoch": 6.333333333333333, |
| "eval_steps": 25, |
| "global_step": 950, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.5185418128967285, |
| "learning_rate": 0.0001953953953953954, |
| "loss": 1.6287, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "eval_loss": 1.1943494081497192, |
| "eval_runtime": 7.8779, |
| "eval_samples_per_second": 9.52, |
| "eval_steps_per_second": 1.269, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.4658413231372833, |
| "learning_rate": 0.0001903903903903904, |
| "loss": 1.2089, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "eval_loss": 1.0838648080825806, |
| "eval_runtime": 7.9179, |
| "eval_samples_per_second": 9.472, |
| "eval_steps_per_second": 1.263, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.5783963799476624, |
| "learning_rate": 0.0001853853853853854, |
| "loss": 1.1048, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.5, |
| "eval_loss": 1.0301096439361572, |
| "eval_runtime": 8.0045, |
| "eval_samples_per_second": 9.37, |
| "eval_steps_per_second": 1.249, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.7437633275985718, |
| "learning_rate": 0.00018038038038038038, |
| "loss": 0.9992, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "eval_loss": 0.9715732932090759, |
| "eval_runtime": 8.1321, |
| "eval_samples_per_second": 9.223, |
| "eval_steps_per_second": 1.23, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.6317485570907593, |
| "learning_rate": 0.0001753753753753754, |
| "loss": 0.9682, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "eval_loss": 0.8958341479301453, |
| "eval_runtime": 8.071, |
| "eval_samples_per_second": 9.292, |
| "eval_steps_per_second": 1.239, |
| "step": 125 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.6393910646438599, |
| "learning_rate": 0.00017037037037037037, |
| "loss": 0.9305, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_loss": 0.850964367389679, |
| "eval_runtime": 8.0731, |
| "eval_samples_per_second": 9.29, |
| "eval_steps_per_second": 1.239, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 0.6799701452255249, |
| "learning_rate": 0.00016536536536536538, |
| "loss": 0.8001, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "eval_loss": 0.8286964893341064, |
| "eval_runtime": 8.169, |
| "eval_samples_per_second": 9.181, |
| "eval_steps_per_second": 1.224, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.6322960257530212, |
| "learning_rate": 0.00016036036036036038, |
| "loss": 0.8127, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "eval_loss": 0.8321937918663025, |
| "eval_runtime": 8.0654, |
| "eval_samples_per_second": 9.299, |
| "eval_steps_per_second": 1.24, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.7983316779136658, |
| "learning_rate": 0.00015535535535535536, |
| "loss": 0.7993, |
| "step": 225 |
| }, |
| { |
| "epoch": 1.5, |
| "eval_loss": 0.8144381046295166, |
| "eval_runtime": 8.1192, |
| "eval_samples_per_second": 9.237, |
| "eval_steps_per_second": 1.232, |
| "step": 225 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 0.9085017442703247, |
| "learning_rate": 0.00015035035035035037, |
| "loss": 0.752, |
| "step": 250 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "eval_loss": 0.8039693236351013, |
| "eval_runtime": 8.0983, |
| "eval_samples_per_second": 9.261, |
| "eval_steps_per_second": 1.235, |
| "step": 250 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 0.8100693821907043, |
| "learning_rate": 0.00014534534534534535, |
| "loss": 0.8037, |
| "step": 275 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "eval_loss": 0.788352370262146, |
| "eval_runtime": 8.0901, |
| "eval_samples_per_second": 9.271, |
| "eval_steps_per_second": 1.236, |
| "step": 275 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.8451388478279114, |
| "learning_rate": 0.00014034034034034033, |
| "loss": 0.7554, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_loss": 0.781154990196228, |
| "eval_runtime": 8.1633, |
| "eval_samples_per_second": 9.187, |
| "eval_steps_per_second": 1.225, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "grad_norm": 0.7118980884552002, |
| "learning_rate": 0.00013533533533533534, |
| "loss": 0.6184, |
| "step": 325 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "eval_loss": 0.7906728386878967, |
| "eval_runtime": 7.9925, |
| "eval_samples_per_second": 9.384, |
| "eval_steps_per_second": 1.251, |
| "step": 325 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 0.8570656180381775, |
| "learning_rate": 0.00013033033033033032, |
| "loss": 0.628, |
| "step": 350 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "eval_loss": 0.7763153314590454, |
| "eval_runtime": 8.2086, |
| "eval_samples_per_second": 9.137, |
| "eval_steps_per_second": 1.218, |
| "step": 350 |
| }, |
| { |
| "epoch": 2.5, |
| "grad_norm": 1.0108901262283325, |
| "learning_rate": 0.00012532532532532532, |
| "loss": 0.6231, |
| "step": 375 |
| }, |
| { |
| "epoch": 2.5, |
| "eval_loss": 0.8008123636245728, |
| "eval_runtime": 8.0594, |
| "eval_samples_per_second": 9.306, |
| "eval_steps_per_second": 1.241, |
| "step": 375 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 0.8207873702049255, |
| "learning_rate": 0.00012032032032032032, |
| "loss": 0.6527, |
| "step": 400 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "eval_loss": 0.7790418267250061, |
| "eval_runtime": 7.9512, |
| "eval_samples_per_second": 9.432, |
| "eval_steps_per_second": 1.258, |
| "step": 400 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "grad_norm": 0.8165165781974792, |
| "learning_rate": 0.00011531531531531532, |
| "loss": 0.6505, |
| "step": 425 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "eval_loss": 0.7616031169891357, |
| "eval_runtime": 8.1356, |
| "eval_samples_per_second": 9.219, |
| "eval_steps_per_second": 1.229, |
| "step": 425 |
| }, |
| { |
| "epoch": 3.0, |
| "grad_norm": 0.867491602897644, |
| "learning_rate": 0.00011031031031031032, |
| "loss": 0.6369, |
| "step": 450 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_loss": 0.7752596139907837, |
| "eval_runtime": 8.0719, |
| "eval_samples_per_second": 9.291, |
| "eval_steps_per_second": 1.239, |
| "step": 450 |
| }, |
| { |
| "epoch": 3.1666666666666665, |
| "grad_norm": 1.0152531862258911, |
| "learning_rate": 0.00010530530530530531, |
| "loss": 0.5307, |
| "step": 475 |
| }, |
| { |
| "epoch": 3.1666666666666665, |
| "eval_loss": 0.8101945519447327, |
| "eval_runtime": 8.1223, |
| "eval_samples_per_second": 9.234, |
| "eval_steps_per_second": 1.231, |
| "step": 475 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "grad_norm": 0.9028003215789795, |
| "learning_rate": 0.0001003003003003003, |
| "loss": 0.4961, |
| "step": 500 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "eval_loss": 0.7841376662254333, |
| "eval_runtime": 8.0974, |
| "eval_samples_per_second": 9.262, |
| "eval_steps_per_second": 1.235, |
| "step": 500 |
| }, |
| { |
| "epoch": 3.5, |
| "grad_norm": 1.1697221994400024, |
| "learning_rate": 9.52952952952953e-05, |
| "loss": 0.4837, |
| "step": 525 |
| }, |
| { |
| "epoch": 3.5, |
| "eval_loss": 0.8512283563613892, |
| "eval_runtime": 8.1016, |
| "eval_samples_per_second": 9.257, |
| "eval_steps_per_second": 1.234, |
| "step": 525 |
| }, |
| { |
| "epoch": 3.6666666666666665, |
| "grad_norm": 1.1582658290863037, |
| "learning_rate": 9.029029029029029e-05, |
| "loss": 0.5256, |
| "step": 550 |
| }, |
| { |
| "epoch": 3.6666666666666665, |
| "eval_loss": 0.7872542142868042, |
| "eval_runtime": 8.0014, |
| "eval_samples_per_second": 9.373, |
| "eval_steps_per_second": 1.25, |
| "step": 550 |
| }, |
| { |
| "epoch": 3.8333333333333335, |
| "grad_norm": 1.1904007196426392, |
| "learning_rate": 8.528528528528528e-05, |
| "loss": 0.514, |
| "step": 575 |
| }, |
| { |
| "epoch": 3.8333333333333335, |
| "eval_loss": 0.7778905034065247, |
| "eval_runtime": 8.1432, |
| "eval_samples_per_second": 9.21, |
| "eval_steps_per_second": 1.228, |
| "step": 575 |
| }, |
| { |
| "epoch": 4.0, |
| "grad_norm": 1.269479751586914, |
| "learning_rate": 8.028028028028028e-05, |
| "loss": 0.4832, |
| "step": 600 |
| }, |
| { |
| "epoch": 4.0, |
| "eval_loss": 0.8140440583229065, |
| "eval_runtime": 8.081, |
| "eval_samples_per_second": 9.281, |
| "eval_steps_per_second": 1.237, |
| "step": 600 |
| }, |
| { |
| "epoch": 4.166666666666667, |
| "grad_norm": 1.2266520261764526, |
| "learning_rate": 7.527527527527528e-05, |
| "loss": 0.3844, |
| "step": 625 |
| }, |
| { |
| "epoch": 4.166666666666667, |
| "eval_loss": 0.8540133833885193, |
| "eval_runtime": 8.0107, |
| "eval_samples_per_second": 9.363, |
| "eval_steps_per_second": 1.248, |
| "step": 625 |
| }, |
| { |
| "epoch": 4.333333333333333, |
| "grad_norm": 1.2630023956298828, |
| "learning_rate": 7.027027027027028e-05, |
| "loss": 0.4126, |
| "step": 650 |
| }, |
| { |
| "epoch": 4.333333333333333, |
| "eval_loss": 0.8340082764625549, |
| "eval_runtime": 8.0801, |
| "eval_samples_per_second": 9.282, |
| "eval_steps_per_second": 1.238, |
| "step": 650 |
| }, |
| { |
| "epoch": 4.5, |
| "grad_norm": 1.322835087776184, |
| "learning_rate": 6.526526526526526e-05, |
| "loss": 0.3551, |
| "step": 675 |
| }, |
| { |
| "epoch": 4.5, |
| "eval_loss": 0.8775853514671326, |
| "eval_runtime": 8.1634, |
| "eval_samples_per_second": 9.187, |
| "eval_steps_per_second": 1.225, |
| "step": 675 |
| }, |
| { |
| "epoch": 4.666666666666667, |
| "grad_norm": 1.1975810527801514, |
| "learning_rate": 6.026026026026026e-05, |
| "loss": 0.4012, |
| "step": 700 |
| }, |
| { |
| "epoch": 4.666666666666667, |
| "eval_loss": 0.8283132910728455, |
| "eval_runtime": 8.0886, |
| "eval_samples_per_second": 9.272, |
| "eval_steps_per_second": 1.236, |
| "step": 700 |
| }, |
| { |
| "epoch": 4.833333333333333, |
| "grad_norm": 1.1000736951828003, |
| "learning_rate": 5.525525525525526e-05, |
| "loss": 0.4223, |
| "step": 725 |
| }, |
| { |
| "epoch": 4.833333333333333, |
| "eval_loss": 0.8352371454238892, |
| "eval_runtime": 8.0865, |
| "eval_samples_per_second": 9.275, |
| "eval_steps_per_second": 1.237, |
| "step": 725 |
| }, |
| { |
| "epoch": 5.0, |
| "grad_norm": 1.5616406202316284, |
| "learning_rate": 5.025025025025025e-05, |
| "loss": 0.3755, |
| "step": 750 |
| }, |
| { |
| "epoch": 5.0, |
| "eval_loss": 0.8656957745552063, |
| "eval_runtime": 8.0858, |
| "eval_samples_per_second": 9.276, |
| "eval_steps_per_second": 1.237, |
| "step": 750 |
| }, |
| { |
| "epoch": 5.166666666666667, |
| "grad_norm": 1.3552511930465698, |
| "learning_rate": 4.524524524524525e-05, |
| "loss": 0.3031, |
| "step": 775 |
| }, |
| { |
| "epoch": 5.166666666666667, |
| "eval_loss": 0.9091250896453857, |
| "eval_runtime": 8.1558, |
| "eval_samples_per_second": 9.196, |
| "eval_steps_per_second": 1.226, |
| "step": 775 |
| }, |
| { |
| "epoch": 5.333333333333333, |
| "grad_norm": 1.40362548828125, |
| "learning_rate": 4.024024024024024e-05, |
| "loss": 0.3174, |
| "step": 800 |
| }, |
| { |
| "epoch": 5.333333333333333, |
| "eval_loss": 0.903062641620636, |
| "eval_runtime": 8.0554, |
| "eval_samples_per_second": 9.311, |
| "eval_steps_per_second": 1.241, |
| "step": 800 |
| }, |
| { |
| "epoch": 5.5, |
| "grad_norm": 1.4606057405471802, |
| "learning_rate": 3.523523523523524e-05, |
| "loss": 0.3018, |
| "step": 825 |
| }, |
| { |
| "epoch": 5.5, |
| "eval_loss": 0.9386046528816223, |
| "eval_runtime": 8.0522, |
| "eval_samples_per_second": 9.314, |
| "eval_steps_per_second": 1.242, |
| "step": 825 |
| }, |
| { |
| "epoch": 5.666666666666667, |
| "grad_norm": 1.4143881797790527, |
| "learning_rate": 3.0230230230230232e-05, |
| "loss": 0.2974, |
| "step": 850 |
| }, |
| { |
| "epoch": 5.666666666666667, |
| "eval_loss": 0.9121726751327515, |
| "eval_runtime": 8.1531, |
| "eval_samples_per_second": 9.199, |
| "eval_steps_per_second": 1.227, |
| "step": 850 |
| }, |
| { |
| "epoch": 5.833333333333333, |
| "grad_norm": 1.2999259233474731, |
| "learning_rate": 2.5225225225225222e-05, |
| "loss": 0.2995, |
| "step": 875 |
| }, |
| { |
| "epoch": 5.833333333333333, |
| "eval_loss": 0.9133585691452026, |
| "eval_runtime": 8.0986, |
| "eval_samples_per_second": 9.261, |
| "eval_steps_per_second": 1.235, |
| "step": 875 |
| }, |
| { |
| "epoch": 6.0, |
| "grad_norm": 1.4181129932403564, |
| "learning_rate": 2.022022022022022e-05, |
| "loss": 0.2831, |
| "step": 900 |
| }, |
| { |
| "epoch": 6.0, |
| "eval_loss": 0.9149025678634644, |
| "eval_runtime": 8.0723, |
| "eval_samples_per_second": 9.291, |
| "eval_steps_per_second": 1.239, |
| "step": 900 |
| }, |
| { |
| "epoch": 6.166666666666667, |
| "grad_norm": 1.1531511545181274, |
| "learning_rate": 1.5215215215215218e-05, |
| "loss": 0.2528, |
| "step": 925 |
| }, |
| { |
| "epoch": 6.166666666666667, |
| "eval_loss": 0.9582380056381226, |
| "eval_runtime": 8.0227, |
| "eval_samples_per_second": 9.349, |
| "eval_steps_per_second": 1.246, |
| "step": 925 |
| }, |
| { |
| "epoch": 6.333333333333333, |
| "grad_norm": 1.2480926513671875, |
| "learning_rate": 1.0210210210210211e-05, |
| "loss": 0.2532, |
| "step": 950 |
| }, |
| { |
| "epoch": 6.333333333333333, |
| "eval_loss": 0.9721483588218689, |
| "eval_runtime": 8.0636, |
| "eval_samples_per_second": 9.301, |
| "eval_steps_per_second": 1.24, |
| "step": 950 |
| } |
| ], |
| "logging_steps": 25, |
| "max_steps": 1000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 7, |
| "save_steps": 25, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.527800667510579e+16, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|