{ "best_global_step": 750, "best_metric": 0.9994999999861112, "best_model_checkpoint": "./results/checkpoint-750", "epoch": 1.0, "eval_steps": 500, "global_step": 750, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.013333333333333334, "grad_norm": 4.2009477615356445, "learning_rate": 1.9920000000000002e-05, "loss": 0.5793, "step": 10 }, { "epoch": 0.02666666666666667, "grad_norm": 5.8630290031433105, "learning_rate": 1.9831111111111113e-05, "loss": 0.3539, "step": 20 }, { "epoch": 0.04, "grad_norm": 2.211989402770996, "learning_rate": 1.9742222222222223e-05, "loss": 0.1573, "step": 30 }, { "epoch": 0.05333333333333334, "grad_norm": 1.2404732704162598, "learning_rate": 1.9653333333333334e-05, "loss": 0.0594, "step": 40 }, { "epoch": 0.06666666666666667, "grad_norm": 0.19655780494213104, "learning_rate": 1.9564444444444444e-05, "loss": 0.0144, "step": 50 }, { "epoch": 0.08, "grad_norm": 0.09529717266559601, "learning_rate": 1.9475555555555558e-05, "loss": 0.023, "step": 60 }, { "epoch": 0.09333333333333334, "grad_norm": 0.06829739362001419, "learning_rate": 1.938666666666667e-05, "loss": 0.0116, "step": 70 }, { "epoch": 0.10666666666666667, "grad_norm": 12.565340995788574, "learning_rate": 1.929777777777778e-05, "loss": 0.0297, "step": 80 }, { "epoch": 0.12, "grad_norm": 5.317912578582764, "learning_rate": 1.920888888888889e-05, "loss": 0.0085, "step": 90 }, { "epoch": 0.13333333333333333, "grad_norm": 0.029530808329582214, "learning_rate": 1.912e-05, "loss": 0.019, "step": 100 }, { "epoch": 0.14666666666666667, "grad_norm": 0.03396850824356079, "learning_rate": 1.9031111111111114e-05, "loss": 0.0189, "step": 110 }, { "epoch": 0.16, "grad_norm": 0.033129382878541946, "learning_rate": 1.8942222222222224e-05, "loss": 0.0235, "step": 120 }, { "epoch": 0.17333333333333334, "grad_norm": 1.7287143468856812, "learning_rate": 1.8853333333333335e-05, "loss": 0.0063, "step": 130 }, { "epoch": 0.18666666666666668, "grad_norm": 15.222946166992188, "learning_rate": 1.8764444444444445e-05, "loss": 0.0143, "step": 140 }, { "epoch": 0.2, "grad_norm": 0.05714699253439903, "learning_rate": 1.867555555555556e-05, "loss": 0.0011, "step": 150 }, { "epoch": 0.21333333333333335, "grad_norm": 0.016429800540208817, "learning_rate": 1.858666666666667e-05, "loss": 0.0121, "step": 160 }, { "epoch": 0.22666666666666666, "grad_norm": 0.019843479618430138, "learning_rate": 1.849777777777778e-05, "loss": 0.0017, "step": 170 }, { "epoch": 0.24, "grad_norm": 7.414809226989746, "learning_rate": 1.840888888888889e-05, "loss": 0.0237, "step": 180 }, { "epoch": 0.25333333333333335, "grad_norm": 0.015916986390948296, "learning_rate": 1.832e-05, "loss": 0.0008, "step": 190 }, { "epoch": 0.26666666666666666, "grad_norm": 0.0964478999376297, "learning_rate": 1.823111111111111e-05, "loss": 0.0008, "step": 200 }, { "epoch": 0.28, "grad_norm": 0.010824169963598251, "learning_rate": 1.814222222222222e-05, "loss": 0.0006, "step": 210 }, { "epoch": 0.29333333333333333, "grad_norm": 0.01576155610382557, "learning_rate": 1.8053333333333332e-05, "loss": 0.0006, "step": 220 }, { "epoch": 0.30666666666666664, "grad_norm": 0.07949530333280563, "learning_rate": 1.7964444444444446e-05, "loss": 0.0005, "step": 230 }, { "epoch": 0.32, "grad_norm": 0.008866013959050179, "learning_rate": 1.7875555555555556e-05, "loss": 0.0005, "step": 240 }, { "epoch": 0.3333333333333333, "grad_norm": 0.009053224697709084, "learning_rate": 1.7786666666666667e-05, "loss": 0.0004, "step": 250 }, { "epoch": 0.3466666666666667, "grad_norm": 0.007565929088741541, "learning_rate": 1.7697777777777777e-05, "loss": 0.0004, "step": 260 }, { "epoch": 0.36, "grad_norm": 5.090193271636963, "learning_rate": 1.760888888888889e-05, "loss": 0.0127, "step": 270 }, { "epoch": 0.37333333333333335, "grad_norm": 0.07115495949983597, "learning_rate": 1.752e-05, "loss": 0.002, "step": 280 }, { "epoch": 0.38666666666666666, "grad_norm": 6.205690860748291, "learning_rate": 1.7431111111111112e-05, "loss": 0.0014, "step": 290 }, { "epoch": 0.4, "grad_norm": 0.0062888432294130325, "learning_rate": 1.7342222222222226e-05, "loss": 0.0051, "step": 300 }, { "epoch": 0.41333333333333333, "grad_norm": 0.006533649750053883, "learning_rate": 1.7253333333333336e-05, "loss": 0.0328, "step": 310 }, { "epoch": 0.4266666666666667, "grad_norm": 0.006772203836590052, "learning_rate": 1.7164444444444447e-05, "loss": 0.0003, "step": 320 }, { "epoch": 0.44, "grad_norm": 0.011663462966680527, "learning_rate": 1.7075555555555557e-05, "loss": 0.0249, "step": 330 }, { "epoch": 0.4533333333333333, "grad_norm": 0.010735326446592808, "learning_rate": 1.6986666666666668e-05, "loss": 0.0068, "step": 340 }, { "epoch": 0.4666666666666667, "grad_norm": 0.10516713559627533, "learning_rate": 1.6897777777777778e-05, "loss": 0.0308, "step": 350 }, { "epoch": 0.48, "grad_norm": 0.01908380538225174, "learning_rate": 1.680888888888889e-05, "loss": 0.0015, "step": 360 }, { "epoch": 0.49333333333333335, "grad_norm": 0.007610603701323271, "learning_rate": 1.672e-05, "loss": 0.0203, "step": 370 }, { "epoch": 0.5066666666666667, "grad_norm": 0.006722429767251015, "learning_rate": 1.6631111111111113e-05, "loss": 0.0003, "step": 380 }, { "epoch": 0.52, "grad_norm": 0.0061662993393838406, "learning_rate": 1.6542222222222223e-05, "loss": 0.0003, "step": 390 }, { "epoch": 0.5333333333333333, "grad_norm": 7.585030555725098, "learning_rate": 1.6453333333333334e-05, "loss": 0.0334, "step": 400 }, { "epoch": 0.5466666666666666, "grad_norm": 0.008586220443248749, "learning_rate": 1.6364444444444444e-05, "loss": 0.0004, "step": 410 }, { "epoch": 0.56, "grad_norm": 0.006108617875725031, "learning_rate": 1.6275555555555558e-05, "loss": 0.0017, "step": 420 }, { "epoch": 0.5733333333333334, "grad_norm": 0.2832947373390198, "learning_rate": 1.618666666666667e-05, "loss": 0.0004, "step": 430 }, { "epoch": 0.5866666666666667, "grad_norm": 0.004175846930593252, "learning_rate": 1.609777777777778e-05, "loss": 0.0004, "step": 440 }, { "epoch": 0.6, "grad_norm": 0.004677283577620983, "learning_rate": 1.600888888888889e-05, "loss": 0.0038, "step": 450 }, { "epoch": 0.6133333333333333, "grad_norm": 0.004427958279848099, "learning_rate": 1.5920000000000003e-05, "loss": 0.0002, "step": 460 }, { "epoch": 0.6266666666666667, "grad_norm": 0.24659259617328644, "learning_rate": 1.5831111111111114e-05, "loss": 0.0125, "step": 470 }, { "epoch": 0.64, "grad_norm": 0.003993011079728603, "learning_rate": 1.5742222222222224e-05, "loss": 0.0068, "step": 480 }, { "epoch": 0.6533333333333333, "grad_norm": 5.769199371337891, "learning_rate": 1.5653333333333335e-05, "loss": 0.0013, "step": 490 }, { "epoch": 0.6666666666666666, "grad_norm": 0.0035064038820564747, "learning_rate": 1.5564444444444445e-05, "loss": 0.0012, "step": 500 }, { "epoch": 0.68, "grad_norm": 0.027934523299336433, "learning_rate": 1.5475555555555556e-05, "loss": 0.0001, "step": 510 }, { "epoch": 0.6933333333333334, "grad_norm": 0.015728602185845375, "learning_rate": 1.5386666666666666e-05, "loss": 0.0271, "step": 520 }, { "epoch": 0.7066666666666667, "grad_norm": 0.019892141222953796, "learning_rate": 1.5297777777777777e-05, "loss": 0.0029, "step": 530 }, { "epoch": 0.72, "grad_norm": 0.013008343055844307, "learning_rate": 1.520888888888889e-05, "loss": 0.0148, "step": 540 }, { "epoch": 0.7333333333333333, "grad_norm": 0.00606475630775094, "learning_rate": 1.5120000000000001e-05, "loss": 0.0003, "step": 550 }, { "epoch": 0.7466666666666667, "grad_norm": 0.006063585169613361, "learning_rate": 1.5031111111111111e-05, "loss": 0.01, "step": 560 }, { "epoch": 0.76, "grad_norm": 0.06981518119573593, "learning_rate": 1.4942222222222222e-05, "loss": 0.0003, "step": 570 }, { "epoch": 0.7733333333333333, "grad_norm": 0.0042991722002625465, "learning_rate": 1.4853333333333336e-05, "loss": 0.0303, "step": 580 }, { "epoch": 0.7866666666666666, "grad_norm": 0.010419433005154133, "learning_rate": 1.4764444444444446e-05, "loss": 0.0092, "step": 590 }, { "epoch": 0.8, "grad_norm": 0.009145410731434822, "learning_rate": 1.4675555555555557e-05, "loss": 0.0038, "step": 600 }, { "epoch": 0.8133333333333334, "grad_norm": 0.32218819856643677, "learning_rate": 1.4586666666666667e-05, "loss": 0.0181, "step": 610 }, { "epoch": 0.8266666666666667, "grad_norm": 0.018776364624500275, "learning_rate": 1.449777777777778e-05, "loss": 0.0034, "step": 620 }, { "epoch": 0.84, "grad_norm": 0.046578943729400635, "learning_rate": 1.440888888888889e-05, "loss": 0.0033, "step": 630 }, { "epoch": 0.8533333333333334, "grad_norm": 0.007687447592616081, "learning_rate": 1.432e-05, "loss": 0.0004, "step": 640 }, { "epoch": 0.8666666666666667, "grad_norm": 0.006212145555764437, "learning_rate": 1.4231111111111114e-05, "loss": 0.0005, "step": 650 }, { "epoch": 0.88, "grad_norm": 0.005200870335102081, "learning_rate": 1.4142222222222224e-05, "loss": 0.0002, "step": 660 }, { "epoch": 0.8933333333333333, "grad_norm": 0.004263885784894228, "learning_rate": 1.4053333333333335e-05, "loss": 0.0036, "step": 670 }, { "epoch": 0.9066666666666666, "grad_norm": 0.018244730308651924, "learning_rate": 1.3964444444444445e-05, "loss": 0.0218, "step": 680 }, { "epoch": 0.92, "grad_norm": 0.0318700410425663, "learning_rate": 1.3875555555555557e-05, "loss": 0.0005, "step": 690 }, { "epoch": 0.9333333333333333, "grad_norm": 0.008346239104866982, "learning_rate": 1.3786666666666668e-05, "loss": 0.003, "step": 700 }, { "epoch": 0.9466666666666667, "grad_norm": 0.004403337836265564, "learning_rate": 1.3697777777777778e-05, "loss": 0.0012, "step": 710 }, { "epoch": 0.96, "grad_norm": 24.84230613708496, "learning_rate": 1.3608888888888889e-05, "loss": 0.0068, "step": 720 }, { "epoch": 0.9733333333333334, "grad_norm": 0.0038202879950404167, "learning_rate": 1.3520000000000003e-05, "loss": 0.0002, "step": 730 }, { "epoch": 0.9866666666666667, "grad_norm": 0.0034862267784774303, "learning_rate": 1.3431111111111113e-05, "loss": 0.0004, "step": 740 }, { "epoch": 1.0, "grad_norm": 0.005799445789307356, "learning_rate": 1.3342222222222224e-05, "loss": 0.0002, "step": 750 }, { "epoch": 1.0, "eval_accuracy": 0.9995, "eval_f1": 0.9994999999861112, "eval_loss": 0.002998237032443285, "eval_runtime": 31.8484, "eval_samples_per_second": 188.393, "eval_steps_per_second": 5.903, "step": 750 } ], "logging_steps": 10, "max_steps": 2250, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 2, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1578666332160000.0, "train_batch_size": 32, "trial_name": null, "trial_params": null }