{ "best_global_step": 150, "best_metric": 0.09639734774827957, "best_model_checkpoint": "/workspace/Paper/Llama-Factory-out-FINAL/checkpoint-150", "epoch": 1.0, "eval_steps": 50, "global_step": 469, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.021333333333333333, "grad_norm": 6.965007305145264, "learning_rate": 1.9148936170212767e-06, "loss": 0.5826, "step": 10 }, { "epoch": 0.042666666666666665, "grad_norm": 8.343825340270996, "learning_rate": 4.042553191489362e-06, "loss": 0.221, "step": 20 }, { "epoch": 0.064, "grad_norm": 4.366076946258545, "learning_rate": 6.170212765957447e-06, "loss": 0.1193, "step": 30 }, { "epoch": 0.08533333333333333, "grad_norm": 6.206355571746826, "learning_rate": 8.297872340425532e-06, "loss": 0.0886, "step": 40 }, { "epoch": 0.10666666666666667, "grad_norm": 5.6667680740356445, "learning_rate": 9.99944579961847e-06, "loss": 0.0802, "step": 50 }, { "epoch": 0.10666666666666667, "eval_loss": 0.10694650560617447, "eval_runtime": 97.3131, "eval_samples_per_second": 10.276, "eval_steps_per_second": 1.028, "step": 50 }, { "epoch": 0.128, "grad_norm": 4.066320419311523, "learning_rate": 9.980061683013594e-06, "loss": 0.0673, "step": 60 }, { "epoch": 0.14933333333333335, "grad_norm": 5.067573547363281, "learning_rate": 9.93309028019428e-06, "loss": 0.0708, "step": 70 }, { "epoch": 0.17066666666666666, "grad_norm": 3.1410481929779053, "learning_rate": 9.858791791458431e-06, "loss": 0.048, "step": 80 }, { "epoch": 0.192, "grad_norm": 3.2491090297698975, "learning_rate": 9.757577796783268e-06, "loss": 0.0558, "step": 90 }, { "epoch": 0.21333333333333335, "grad_norm": 1.984602451324463, "learning_rate": 9.630008975858667e-06, "loss": 0.0405, "step": 100 }, { "epoch": 0.21333333333333335, "eval_loss": 0.11375788599252701, "eval_runtime": 96.5254, "eval_samples_per_second": 10.36, "eval_steps_per_second": 1.036, "step": 100 }, { "epoch": 0.23466666666666666, "grad_norm": 4.064432621002197, "learning_rate": 9.476792002175621e-06, "loss": 0.0487, "step": 110 }, { "epoch": 0.256, "grad_norm": 4.923866271972656, "learning_rate": 9.29877562837515e-06, "loss": 0.0341, "step": 120 }, { "epoch": 0.2773333333333333, "grad_norm": 4.464139938354492, "learning_rate": 9.096945984543082e-06, "loss": 0.0377, "step": 130 }, { "epoch": 0.2986666666666667, "grad_norm": 4.207685470581055, "learning_rate": 8.872421115495996e-06, "loss": 0.0301, "step": 140 }, { "epoch": 0.32, "grad_norm": 3.483502149581909, "learning_rate": 8.62644478731932e-06, "loss": 0.0456, "step": 150 }, { "epoch": 0.32, "eval_loss": 0.09639734774827957, "eval_runtime": 96.7578, "eval_samples_per_second": 10.335, "eval_steps_per_second": 1.034, "step": 150 }, { "epoch": 0.3413333333333333, "grad_norm": 2.220848321914673, "learning_rate": 8.360379597466519e-06, "loss": 0.0333, "step": 160 }, { "epoch": 0.3626666666666667, "grad_norm": 0.7694166302680969, "learning_rate": 8.075699426586345e-06, "loss": 0.0356, "step": 170 }, { "epoch": 0.384, "grad_norm": 0.7014467120170593, "learning_rate": 7.773981273891563e-06, "loss": 0.0296, "step": 180 }, { "epoch": 0.4053333333333333, "grad_norm": 11.522379875183105, "learning_rate": 7.456896521297554e-06, "loss": 0.0287, "step": 190 }, { "epoch": 0.4266666666666667, "grad_norm": 3.0580711364746094, "learning_rate": 7.126201674723493e-06, "loss": 0.0441, "step": 200 }, { "epoch": 0.4266666666666667, "eval_loss": 0.10796768218278885, "eval_runtime": 93.5705, "eval_samples_per_second": 10.687, "eval_steps_per_second": 1.069, "step": 200 }, { "epoch": 0.448, "grad_norm": 1.6532104015350342, "learning_rate": 6.783728633845076e-06, "loss": 0.0355, "step": 210 }, { "epoch": 0.4693333333333333, "grad_norm": 4.158193111419678, "learning_rate": 6.431374544200013e-06, "loss": 0.0393, "step": 220 }, { "epoch": 0.49066666666666664, "grad_norm": 0.9233776926994324, "learning_rate": 6.071091287860973e-06, "loss": 0.0383, "step": 230 }, { "epoch": 0.512, "grad_norm": 0.443118155002594, "learning_rate": 5.7048746708929295e-06, "loss": 0.0338, "step": 240 }, { "epoch": 0.5333333333333333, "grad_norm": 0.7420737147331238, "learning_rate": 5.33475336749147e-06, "loss": 0.0268, "step": 250 }, { "epoch": 0.5333333333333333, "eval_loss": 0.1099962517619133, "eval_runtime": 94.2519, "eval_samples_per_second": 10.61, "eval_steps_per_second": 1.061, "step": 250 }, { "epoch": 0.5546666666666666, "grad_norm": 6.573488235473633, "learning_rate": 4.962777682046565e-06, "loss": 0.0306, "step": 260 }, { "epoch": 0.576, "grad_norm": 0.7128705382347107, "learning_rate": 4.591008191384839e-06, "loss": 0.033, "step": 270 }, { "epoch": 0.5973333333333334, "grad_norm": 3.958656072616577, "learning_rate": 4.221504330107204e-06, "loss": 0.0334, "step": 280 }, { "epoch": 0.6186666666666667, "grad_norm": 1.2071937322616577, "learning_rate": 3.856312982253909e-06, "loss": 0.0374, "step": 290 }, { "epoch": 0.64, "grad_norm": 1.0882517099380493, "learning_rate": 3.4974571424940008e-06, "loss": 0.0352, "step": 300 }, { "epoch": 0.64, "eval_loss": 0.11102046072483063, "eval_runtime": 96.6838, "eval_samples_per_second": 10.343, "eval_steps_per_second": 1.034, "step": 300 }, { "epoch": 0.6613333333333333, "grad_norm": 1.3209381103515625, "learning_rate": 3.1469247096510893e-06, "loss": 0.0344, "step": 310 }, { "epoch": 0.6826666666666666, "grad_norm": 1.4569178819656372, "learning_rate": 2.8066574746442044e-06, "loss": 0.0298, "step": 320 }, { "epoch": 0.704, "grad_norm": 1.3207861185073853, "learning_rate": 2.4785403638455537e-06, "loss": 0.0262, "step": 330 }, { "epoch": 0.7253333333333334, "grad_norm": 1.223027229309082, "learning_rate": 2.1643909974421167e-06, "loss": 0.0366, "step": 340 }, { "epoch": 0.7466666666666667, "grad_norm": 10.417492866516113, "learning_rate": 1.8659496206430306e-06, "loss": 0.0466, "step": 350 }, { "epoch": 0.7466666666666667, "eval_loss": 0.11615587025880814, "eval_runtime": 95.1488, "eval_samples_per_second": 10.51, "eval_steps_per_second": 1.051, "step": 350 }, { "epoch": 0.768, "grad_norm": 0.6926187872886658, "learning_rate": 1.58486946350929e-06, "loss": 0.0332, "step": 360 }, { "epoch": 0.7893333333333333, "grad_norm": 0.1623552292585373, "learning_rate": 1.3227075828079833e-06, "loss": 0.021, "step": 370 }, { "epoch": 0.8106666666666666, "grad_norm": 1.2165261507034302, "learning_rate": 1.0809162366229996e-06, "loss": 0.0295, "step": 380 }, { "epoch": 0.832, "grad_norm": 6.5908918380737305, "learning_rate": 8.608348395029859e-07, "loss": 0.0351, "step": 390 }, { "epoch": 0.8533333333333334, "grad_norm": 0.6747581958770752, "learning_rate": 6.636825427113719e-07, "loss": 0.0308, "step": 400 }, { "epoch": 0.8533333333333334, "eval_loss": 0.11269181966781616, "eval_runtime": 95.2731, "eval_samples_per_second": 10.496, "eval_steps_per_second": 1.05, "step": 400 }, { "epoch": 0.8746666666666667, "grad_norm": 1.3703091144561768, "learning_rate": 4.905514806805456e-07, "loss": 0.0304, "step": 410 }, { "epoch": 0.896, "grad_norm": 0.5667533278465271, "learning_rate": 3.424007210817248e-07, "loss": 0.0307, "step": 420 }, { "epoch": 0.9173333333333333, "grad_norm": 1.5054301023483276, "learning_rate": 2.200509520244326e-07, "loss": 0.0154, "step": 430 }, { "epoch": 0.9386666666666666, "grad_norm": 2.8148467540740967, "learning_rate": 1.2417993581606446e-07, "loss": 0.0331, "step": 440 }, { "epoch": 0.96, "grad_norm": 1.3720769882202148, "learning_rate": 5.5318754465671366e-08, "loss": 0.0315, "step": 450 }, { "epoch": 0.96, "eval_loss": 0.1133466511964798, "eval_runtime": 96.6743, "eval_samples_per_second": 10.344, "eval_steps_per_second": 1.034, "step": 450 }, { "epoch": 0.9813333333333333, "grad_norm": 0.2468981146812439, "learning_rate": 1.3848867730158477e-08, "loss": 0.0265, "step": 460 } ], "logging_steps": 10, "max_steps": 469, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 50, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.6387352710191514e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }