| { | |
| "best_global_step": 750, | |
| "best_metric": 0.9994999999861112, | |
| "best_model_checkpoint": "./results/checkpoint-750", | |
| "epoch": 1.0, | |
| "eval_steps": 500, | |
| "global_step": 750, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 4.2009477615356445, | |
| "learning_rate": 1.9920000000000002e-05, | |
| "loss": 0.5793, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 5.8630290031433105, | |
| "learning_rate": 1.9831111111111113e-05, | |
| "loss": 0.3539, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 2.211989402770996, | |
| "learning_rate": 1.9742222222222223e-05, | |
| "loss": 0.1573, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 1.2404732704162598, | |
| "learning_rate": 1.9653333333333334e-05, | |
| "loss": 0.0594, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.19655780494213104, | |
| "learning_rate": 1.9564444444444444e-05, | |
| "loss": 0.0144, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.09529717266559601, | |
| "learning_rate": 1.9475555555555558e-05, | |
| "loss": 0.023, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 0.06829739362001419, | |
| "learning_rate": 1.938666666666667e-05, | |
| "loss": 0.0116, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 12.565340995788574, | |
| "learning_rate": 1.929777777777778e-05, | |
| "loss": 0.0297, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 5.317912578582764, | |
| "learning_rate": 1.920888888888889e-05, | |
| "loss": 0.0085, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.029530808329582214, | |
| "learning_rate": 1.912e-05, | |
| "loss": 0.019, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 0.03396850824356079, | |
| "learning_rate": 1.9031111111111114e-05, | |
| "loss": 0.0189, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.033129382878541946, | |
| "learning_rate": 1.8942222222222224e-05, | |
| "loss": 0.0235, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 1.7287143468856812, | |
| "learning_rate": 1.8853333333333335e-05, | |
| "loss": 0.0063, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 15.222946166992188, | |
| "learning_rate": 1.8764444444444445e-05, | |
| "loss": 0.0143, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.05714699253439903, | |
| "learning_rate": 1.867555555555556e-05, | |
| "loss": 0.0011, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 0.016429800540208817, | |
| "learning_rate": 1.858666666666667e-05, | |
| "loss": 0.0121, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 0.019843479618430138, | |
| "learning_rate": 1.849777777777778e-05, | |
| "loss": 0.0017, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 7.414809226989746, | |
| "learning_rate": 1.840888888888889e-05, | |
| "loss": 0.0237, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 0.015916986390948296, | |
| "learning_rate": 1.832e-05, | |
| "loss": 0.0008, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.0964478999376297, | |
| "learning_rate": 1.823111111111111e-05, | |
| "loss": 0.0008, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.010824169963598251, | |
| "learning_rate": 1.814222222222222e-05, | |
| "loss": 0.0006, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 0.01576155610382557, | |
| "learning_rate": 1.8053333333333332e-05, | |
| "loss": 0.0006, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 0.07949530333280563, | |
| "learning_rate": 1.7964444444444446e-05, | |
| "loss": 0.0005, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.008866013959050179, | |
| "learning_rate": 1.7875555555555556e-05, | |
| "loss": 0.0005, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.009053224697709084, | |
| "learning_rate": 1.7786666666666667e-05, | |
| "loss": 0.0004, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 0.007565929088741541, | |
| "learning_rate": 1.7697777777777777e-05, | |
| "loss": 0.0004, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 5.090193271636963, | |
| "learning_rate": 1.760888888888889e-05, | |
| "loss": 0.0127, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 0.07115495949983597, | |
| "learning_rate": 1.752e-05, | |
| "loss": 0.002, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 6.205690860748291, | |
| "learning_rate": 1.7431111111111112e-05, | |
| "loss": 0.0014, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.0062888432294130325, | |
| "learning_rate": 1.7342222222222226e-05, | |
| "loss": 0.0051, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 0.006533649750053883, | |
| "learning_rate": 1.7253333333333336e-05, | |
| "loss": 0.0328, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 0.006772203836590052, | |
| "learning_rate": 1.7164444444444447e-05, | |
| "loss": 0.0003, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 0.011663462966680527, | |
| "learning_rate": 1.7075555555555557e-05, | |
| "loss": 0.0249, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 0.010735326446592808, | |
| "learning_rate": 1.6986666666666668e-05, | |
| "loss": 0.0068, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 0.10516713559627533, | |
| "learning_rate": 1.6897777777777778e-05, | |
| "loss": 0.0308, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.01908380538225174, | |
| "learning_rate": 1.680888888888889e-05, | |
| "loss": 0.0015, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 0.007610603701323271, | |
| "learning_rate": 1.672e-05, | |
| "loss": 0.0203, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 0.006722429767251015, | |
| "learning_rate": 1.6631111111111113e-05, | |
| "loss": 0.0003, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 0.0061662993393838406, | |
| "learning_rate": 1.6542222222222223e-05, | |
| "loss": 0.0003, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 7.585030555725098, | |
| "learning_rate": 1.6453333333333334e-05, | |
| "loss": 0.0334, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 0.008586220443248749, | |
| "learning_rate": 1.6364444444444444e-05, | |
| "loss": 0.0004, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.006108617875725031, | |
| "learning_rate": 1.6275555555555558e-05, | |
| "loss": 0.0017, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 0.2832947373390198, | |
| "learning_rate": 1.618666666666667e-05, | |
| "loss": 0.0004, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 0.004175846930593252, | |
| "learning_rate": 1.609777777777778e-05, | |
| "loss": 0.0004, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.004677283577620983, | |
| "learning_rate": 1.600888888888889e-05, | |
| "loss": 0.0038, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 0.004427958279848099, | |
| "learning_rate": 1.5920000000000003e-05, | |
| "loss": 0.0002, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 0.24659259617328644, | |
| "learning_rate": 1.5831111111111114e-05, | |
| "loss": 0.0125, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 0.003993011079728603, | |
| "learning_rate": 1.5742222222222224e-05, | |
| "loss": 0.0068, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.6533333333333333, | |
| "grad_norm": 5.769199371337891, | |
| "learning_rate": 1.5653333333333335e-05, | |
| "loss": 0.0013, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.0035064038820564747, | |
| "learning_rate": 1.5564444444444445e-05, | |
| "loss": 0.0012, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 0.027934523299336433, | |
| "learning_rate": 1.5475555555555556e-05, | |
| "loss": 0.0001, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 0.015728602185845375, | |
| "learning_rate": 1.5386666666666666e-05, | |
| "loss": 0.0271, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.7066666666666667, | |
| "grad_norm": 0.019892141222953796, | |
| "learning_rate": 1.5297777777777777e-05, | |
| "loss": 0.0029, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 0.013008343055844307, | |
| "learning_rate": 1.520888888888889e-05, | |
| "loss": 0.0148, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 0.00606475630775094, | |
| "learning_rate": 1.5120000000000001e-05, | |
| "loss": 0.0003, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 0.006063585169613361, | |
| "learning_rate": 1.5031111111111111e-05, | |
| "loss": 0.01, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 0.06981518119573593, | |
| "learning_rate": 1.4942222222222222e-05, | |
| "loss": 0.0003, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 0.0042991722002625465, | |
| "learning_rate": 1.4853333333333336e-05, | |
| "loss": 0.0303, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.7866666666666666, | |
| "grad_norm": 0.010419433005154133, | |
| "learning_rate": 1.4764444444444446e-05, | |
| "loss": 0.0092, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.009145410731434822, | |
| "learning_rate": 1.4675555555555557e-05, | |
| "loss": 0.0038, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.8133333333333334, | |
| "grad_norm": 0.32218819856643677, | |
| "learning_rate": 1.4586666666666667e-05, | |
| "loss": 0.0181, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 0.018776364624500275, | |
| "learning_rate": 1.449777777777778e-05, | |
| "loss": 0.0034, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 0.046578943729400635, | |
| "learning_rate": 1.440888888888889e-05, | |
| "loss": 0.0033, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 0.007687447592616081, | |
| "learning_rate": 1.432e-05, | |
| "loss": 0.0004, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 0.006212145555764437, | |
| "learning_rate": 1.4231111111111114e-05, | |
| "loss": 0.0005, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 0.005200870335102081, | |
| "learning_rate": 1.4142222222222224e-05, | |
| "loss": 0.0002, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.8933333333333333, | |
| "grad_norm": 0.004263885784894228, | |
| "learning_rate": 1.4053333333333335e-05, | |
| "loss": 0.0036, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 0.018244730308651924, | |
| "learning_rate": 1.3964444444444445e-05, | |
| "loss": 0.0218, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 0.0318700410425663, | |
| "learning_rate": 1.3875555555555557e-05, | |
| "loss": 0.0005, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.008346239104866982, | |
| "learning_rate": 1.3786666666666668e-05, | |
| "loss": 0.003, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.9466666666666667, | |
| "grad_norm": 0.004403337836265564, | |
| "learning_rate": 1.3697777777777778e-05, | |
| "loss": 0.0012, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 24.84230613708496, | |
| "learning_rate": 1.3608888888888889e-05, | |
| "loss": 0.0068, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.9733333333333334, | |
| "grad_norm": 0.0038202879950404167, | |
| "learning_rate": 1.3520000000000003e-05, | |
| "loss": 0.0002, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 0.0034862267784774303, | |
| "learning_rate": 1.3431111111111113e-05, | |
| "loss": 0.0004, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.005799445789307356, | |
| "learning_rate": 1.3342222222222224e-05, | |
| "loss": 0.0002, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_accuracy": 0.9995, | |
| "eval_f1": 0.9994999999861112, | |
| "eval_loss": 0.002998237032443285, | |
| "eval_runtime": 31.8484, | |
| "eval_samples_per_second": 188.393, | |
| "eval_steps_per_second": 5.903, | |
| "step": 750 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 2250, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "EarlyStoppingCallback": { | |
| "args": { | |
| "early_stopping_patience": 2, | |
| "early_stopping_threshold": 0.0 | |
| }, | |
| "attributes": { | |
| "early_stopping_patience_counter": 0 | |
| } | |
| }, | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1578666332160000.0, | |
| "train_batch_size": 32, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |