| { |
| "best_global_step": 425, |
| "best_metric": 0.7616031169891357, |
| "best_model_checkpoint": "./peft-training-1765506126/checkpoint-425", |
| "epoch": 4.333333333333333, |
| "eval_steps": 25, |
| "global_step": 650, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.5185418128967285, |
| "learning_rate": 0.0001953953953953954, |
| "loss": 1.6287, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "eval_loss": 1.1943494081497192, |
| "eval_runtime": 7.8779, |
| "eval_samples_per_second": 9.52, |
| "eval_steps_per_second": 1.269, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.4658413231372833, |
| "learning_rate": 0.0001903903903903904, |
| "loss": 1.2089, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "eval_loss": 1.0838648080825806, |
| "eval_runtime": 7.9179, |
| "eval_samples_per_second": 9.472, |
| "eval_steps_per_second": 1.263, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.5783963799476624, |
| "learning_rate": 0.0001853853853853854, |
| "loss": 1.1048, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.5, |
| "eval_loss": 1.0301096439361572, |
| "eval_runtime": 8.0045, |
| "eval_samples_per_second": 9.37, |
| "eval_steps_per_second": 1.249, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.7437633275985718, |
| "learning_rate": 0.00018038038038038038, |
| "loss": 0.9992, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "eval_loss": 0.9715732932090759, |
| "eval_runtime": 8.1321, |
| "eval_samples_per_second": 9.223, |
| "eval_steps_per_second": 1.23, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.6317485570907593, |
| "learning_rate": 0.0001753753753753754, |
| "loss": 0.9682, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "eval_loss": 0.8958341479301453, |
| "eval_runtime": 8.071, |
| "eval_samples_per_second": 9.292, |
| "eval_steps_per_second": 1.239, |
| "step": 125 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.6393910646438599, |
| "learning_rate": 0.00017037037037037037, |
| "loss": 0.9305, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_loss": 0.850964367389679, |
| "eval_runtime": 8.0731, |
| "eval_samples_per_second": 9.29, |
| "eval_steps_per_second": 1.239, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 0.6799701452255249, |
| "learning_rate": 0.00016536536536536538, |
| "loss": 0.8001, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "eval_loss": 0.8286964893341064, |
| "eval_runtime": 8.169, |
| "eval_samples_per_second": 9.181, |
| "eval_steps_per_second": 1.224, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.6322960257530212, |
| "learning_rate": 0.00016036036036036038, |
| "loss": 0.8127, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "eval_loss": 0.8321937918663025, |
| "eval_runtime": 8.0654, |
| "eval_samples_per_second": 9.299, |
| "eval_steps_per_second": 1.24, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.7983316779136658, |
| "learning_rate": 0.00015535535535535536, |
| "loss": 0.7993, |
| "step": 225 |
| }, |
| { |
| "epoch": 1.5, |
| "eval_loss": 0.8144381046295166, |
| "eval_runtime": 8.1192, |
| "eval_samples_per_second": 9.237, |
| "eval_steps_per_second": 1.232, |
| "step": 225 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 0.9085017442703247, |
| "learning_rate": 0.00015035035035035037, |
| "loss": 0.752, |
| "step": 250 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "eval_loss": 0.8039693236351013, |
| "eval_runtime": 8.0983, |
| "eval_samples_per_second": 9.261, |
| "eval_steps_per_second": 1.235, |
| "step": 250 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 0.8100693821907043, |
| "learning_rate": 0.00014534534534534535, |
| "loss": 0.8037, |
| "step": 275 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "eval_loss": 0.788352370262146, |
| "eval_runtime": 8.0901, |
| "eval_samples_per_second": 9.271, |
| "eval_steps_per_second": 1.236, |
| "step": 275 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.8451388478279114, |
| "learning_rate": 0.00014034034034034033, |
| "loss": 0.7554, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_loss": 0.781154990196228, |
| "eval_runtime": 8.1633, |
| "eval_samples_per_second": 9.187, |
| "eval_steps_per_second": 1.225, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "grad_norm": 0.7118980884552002, |
| "learning_rate": 0.00013533533533533534, |
| "loss": 0.6184, |
| "step": 325 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "eval_loss": 0.7906728386878967, |
| "eval_runtime": 7.9925, |
| "eval_samples_per_second": 9.384, |
| "eval_steps_per_second": 1.251, |
| "step": 325 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 0.8570656180381775, |
| "learning_rate": 0.00013033033033033032, |
| "loss": 0.628, |
| "step": 350 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "eval_loss": 0.7763153314590454, |
| "eval_runtime": 8.2086, |
| "eval_samples_per_second": 9.137, |
| "eval_steps_per_second": 1.218, |
| "step": 350 |
| }, |
| { |
| "epoch": 2.5, |
| "grad_norm": 1.0108901262283325, |
| "learning_rate": 0.00012532532532532532, |
| "loss": 0.6231, |
| "step": 375 |
| }, |
| { |
| "epoch": 2.5, |
| "eval_loss": 0.8008123636245728, |
| "eval_runtime": 8.0594, |
| "eval_samples_per_second": 9.306, |
| "eval_steps_per_second": 1.241, |
| "step": 375 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 0.8207873702049255, |
| "learning_rate": 0.00012032032032032032, |
| "loss": 0.6527, |
| "step": 400 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "eval_loss": 0.7790418267250061, |
| "eval_runtime": 7.9512, |
| "eval_samples_per_second": 9.432, |
| "eval_steps_per_second": 1.258, |
| "step": 400 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "grad_norm": 0.8165165781974792, |
| "learning_rate": 0.00011531531531531532, |
| "loss": 0.6505, |
| "step": 425 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "eval_loss": 0.7616031169891357, |
| "eval_runtime": 8.1356, |
| "eval_samples_per_second": 9.219, |
| "eval_steps_per_second": 1.229, |
| "step": 425 |
| }, |
| { |
| "epoch": 3.0, |
| "grad_norm": 0.867491602897644, |
| "learning_rate": 0.00011031031031031032, |
| "loss": 0.6369, |
| "step": 450 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_loss": 0.7752596139907837, |
| "eval_runtime": 8.0719, |
| "eval_samples_per_second": 9.291, |
| "eval_steps_per_second": 1.239, |
| "step": 450 |
| }, |
| { |
| "epoch": 3.1666666666666665, |
| "grad_norm": 1.0152531862258911, |
| "learning_rate": 0.00010530530530530531, |
| "loss": 0.5307, |
| "step": 475 |
| }, |
| { |
| "epoch": 3.1666666666666665, |
| "eval_loss": 0.8101945519447327, |
| "eval_runtime": 8.1223, |
| "eval_samples_per_second": 9.234, |
| "eval_steps_per_second": 1.231, |
| "step": 475 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "grad_norm": 0.9028003215789795, |
| "learning_rate": 0.0001003003003003003, |
| "loss": 0.4961, |
| "step": 500 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "eval_loss": 0.7841376662254333, |
| "eval_runtime": 8.0974, |
| "eval_samples_per_second": 9.262, |
| "eval_steps_per_second": 1.235, |
| "step": 500 |
| }, |
| { |
| "epoch": 3.5, |
| "grad_norm": 1.1697221994400024, |
| "learning_rate": 9.52952952952953e-05, |
| "loss": 0.4837, |
| "step": 525 |
| }, |
| { |
| "epoch": 3.5, |
| "eval_loss": 0.8512283563613892, |
| "eval_runtime": 8.1016, |
| "eval_samples_per_second": 9.257, |
| "eval_steps_per_second": 1.234, |
| "step": 525 |
| }, |
| { |
| "epoch": 3.6666666666666665, |
| "grad_norm": 1.1582658290863037, |
| "learning_rate": 9.029029029029029e-05, |
| "loss": 0.5256, |
| "step": 550 |
| }, |
| { |
| "epoch": 3.6666666666666665, |
| "eval_loss": 0.7872542142868042, |
| "eval_runtime": 8.0014, |
| "eval_samples_per_second": 9.373, |
| "eval_steps_per_second": 1.25, |
| "step": 550 |
| }, |
| { |
| "epoch": 3.8333333333333335, |
| "grad_norm": 1.1904007196426392, |
| "learning_rate": 8.528528528528528e-05, |
| "loss": 0.514, |
| "step": 575 |
| }, |
| { |
| "epoch": 3.8333333333333335, |
| "eval_loss": 0.7778905034065247, |
| "eval_runtime": 8.1432, |
| "eval_samples_per_second": 9.21, |
| "eval_steps_per_second": 1.228, |
| "step": 575 |
| }, |
| { |
| "epoch": 4.0, |
| "grad_norm": 1.269479751586914, |
| "learning_rate": 8.028028028028028e-05, |
| "loss": 0.4832, |
| "step": 600 |
| }, |
| { |
| "epoch": 4.0, |
| "eval_loss": 0.8140440583229065, |
| "eval_runtime": 8.081, |
| "eval_samples_per_second": 9.281, |
| "eval_steps_per_second": 1.237, |
| "step": 600 |
| }, |
| { |
| "epoch": 4.166666666666667, |
| "grad_norm": 1.2266520261764526, |
| "learning_rate": 7.527527527527528e-05, |
| "loss": 0.3844, |
| "step": 625 |
| }, |
| { |
| "epoch": 4.166666666666667, |
| "eval_loss": 0.8540133833885193, |
| "eval_runtime": 8.0107, |
| "eval_samples_per_second": 9.363, |
| "eval_steps_per_second": 1.248, |
| "step": 625 |
| }, |
| { |
| "epoch": 4.333333333333333, |
| "grad_norm": 1.2630023956298828, |
| "learning_rate": 7.027027027027028e-05, |
| "loss": 0.4126, |
| "step": 650 |
| }, |
| { |
| "epoch": 4.333333333333333, |
| "eval_loss": 0.8340082764625549, |
| "eval_runtime": 8.0801, |
| "eval_samples_per_second": 9.282, |
| "eval_steps_per_second": 1.238, |
| "step": 650 |
| } |
| ], |
| "logging_steps": 25, |
| "max_steps": 1000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 7, |
| "save_steps": 25, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 1.730118965458944e+16, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|