{ "best_global_step": 225, "best_metric": 0.9645740739756267, "best_model_checkpoint": "./vit_tom_jerry_mdl/checkpoint-200", "epoch": 5.0, "eval_steps": 25, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.16666666666666666, "grad_norm": 1.179008960723877, "learning_rate": 0.000194, "loss": 1.2461, "step": 10 }, { "epoch": 0.3333333333333333, "grad_norm": 1.6004935503005981, "learning_rate": 0.00018733333333333335, "loss": 0.8223, "step": 20 }, { "epoch": 0.4166666666666667, "eval_accuracy": 0.889294403892944, "eval_f1": 0.8742397689620669, "eval_loss": 0.450603187084198, "eval_precision": 0.8939126626626628, "eval_recall": 0.8652641370683252, "eval_runtime": 3.461, "eval_samples_per_second": 237.503, "eval_steps_per_second": 3.756, "step": 25 }, { "epoch": 0.5, "grad_norm": 1.335172414779663, "learning_rate": 0.00018066666666666668, "loss": 0.4994, "step": 30 }, { "epoch": 0.6666666666666666, "grad_norm": 1.348803162574768, "learning_rate": 0.000174, "loss": 0.3169, "step": 40 }, { "epoch": 0.8333333333333334, "grad_norm": 1.2741419076919556, "learning_rate": 0.00016733333333333335, "loss": 0.2676, "step": 50 }, { "epoch": 0.8333333333333334, "eval_accuracy": 0.9391727493917275, "eval_f1": 0.9356370716759485, "eval_loss": 0.21945379674434662, "eval_precision": 0.9342880020745046, "eval_recall": 0.9375607233423536, "eval_runtime": 3.409, "eval_samples_per_second": 241.126, "eval_steps_per_second": 3.813, "step": 50 }, { "epoch": 1.0, "grad_norm": 1.302258849143982, "learning_rate": 0.00016066666666666668, "loss": 0.2316, "step": 60 }, { "epoch": 1.1666666666666667, "grad_norm": 1.284261703491211, "learning_rate": 0.000154, "loss": 0.1896, "step": 70 }, { "epoch": 1.25, "eval_accuracy": 0.9525547445255474, "eval_f1": 0.9493014762192153, "eval_loss": 0.1816127747297287, "eval_precision": 0.9489785971260434, "eval_recall": 0.9503527850213396, "eval_runtime": 3.4233, "eval_samples_per_second": 240.119, "eval_steps_per_second": 3.798, "step": 75 }, { "epoch": 1.3333333333333333, "grad_norm": 1.1670647859573364, "learning_rate": 0.00014733333333333335, "loss": 0.1451, "step": 80 }, { "epoch": 1.5, "grad_norm": 0.9231269359588623, "learning_rate": 0.00014066666666666668, "loss": 0.1246, "step": 90 }, { "epoch": 1.6666666666666665, "grad_norm": 1.229040503501892, "learning_rate": 0.000134, "loss": 0.1085, "step": 100 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.9379562043795621, "eval_f1": 0.9344160814351121, "eval_loss": 0.19404640793800354, "eval_precision": 0.9315772279233091, "eval_recall": 0.9380771013895641, "eval_runtime": 3.4388, "eval_samples_per_second": 239.035, "eval_steps_per_second": 3.78, "step": 100 }, { "epoch": 1.8333333333333335, "grad_norm": 1.5356346368789673, "learning_rate": 0.00012733333333333336, "loss": 0.1379, "step": 110 }, { "epoch": 2.0, "grad_norm": 0.9422320127487183, "learning_rate": 0.00012066666666666668, "loss": 0.1618, "step": 120 }, { "epoch": 2.0833333333333335, "eval_accuracy": 0.9476885644768857, "eval_f1": 0.9433613445349764, "eval_loss": 0.1806175410747528, "eval_precision": 0.9389737449498523, "eval_recall": 0.94927038162268, "eval_runtime": 3.417, "eval_samples_per_second": 240.564, "eval_steps_per_second": 3.805, "step": 125 }, { "epoch": 2.1666666666666665, "grad_norm": 0.40647202730178833, "learning_rate": 0.00011399999999999999, "loss": 0.0831, "step": 130 }, { "epoch": 2.3333333333333335, "grad_norm": 0.5886309146881104, "learning_rate": 0.00010733333333333333, "loss": 0.0784, "step": 140 }, { "epoch": 2.5, "grad_norm": 0.3857206404209137, "learning_rate": 0.00010066666666666667, "loss": 0.0784, "step": 150 }, { "epoch": 2.5, "eval_accuracy": 0.9574209245742092, "eval_f1": 0.954610584452178, "eval_loss": 0.1581779420375824, "eval_precision": 0.9523814232432715, "eval_recall": 0.957049310025567, "eval_runtime": 3.4015, "eval_samples_per_second": 241.656, "eval_steps_per_second": 3.822, "step": 150 }, { "epoch": 2.6666666666666665, "grad_norm": 0.7096158266067505, "learning_rate": 9.4e-05, "loss": 0.0726, "step": 160 }, { "epoch": 2.8333333333333335, "grad_norm": 2.3420352935791016, "learning_rate": 8.733333333333333e-05, "loss": 0.071, "step": 170 }, { "epoch": 2.9166666666666665, "eval_accuracy": 0.9416058394160584, "eval_f1": 0.9385804706284082, "eval_loss": 0.18030095100402832, "eval_precision": 0.9364433325083628, "eval_recall": 0.9413294616863843, "eval_runtime": 3.4018, "eval_samples_per_second": 241.637, "eval_steps_per_second": 3.822, "step": 175 }, { "epoch": 3.0, "grad_norm": 2.018068552017212, "learning_rate": 8.066666666666667e-05, "loss": 0.0739, "step": 180 }, { "epoch": 3.1666666666666665, "grad_norm": 0.5890735387802124, "learning_rate": 7.4e-05, "loss": 0.0586, "step": 190 }, { "epoch": 3.3333333333333335, "grad_norm": 0.2291577160358429, "learning_rate": 6.733333333333333e-05, "loss": 0.0533, "step": 200 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.9610705596107056, "eval_f1": 0.9604590740790521, "eval_loss": 0.15387743711471558, "eval_precision": 0.9622977817571188, "eval_recall": 0.9600399492969355, "eval_runtime": 3.3928, "eval_samples_per_second": 242.28, "eval_steps_per_second": 3.832, "step": 200 }, { "epoch": 3.5, "grad_norm": 0.08786796778440475, "learning_rate": 6.066666666666667e-05, "loss": 0.0463, "step": 210 }, { "epoch": 3.6666666666666665, "grad_norm": 0.22060526907444, "learning_rate": 5.4000000000000005e-05, "loss": 0.0383, "step": 220 }, { "epoch": 3.75, "eval_accuracy": 0.9647201946472019, "eval_f1": 0.9645740739756267, "eval_loss": 0.14463135600090027, "eval_precision": 0.9653599801235093, "eval_recall": 0.9641853092636594, "eval_runtime": 3.3707, "eval_samples_per_second": 243.868, "eval_steps_per_second": 3.857, "step": 225 }, { "epoch": 3.8333333333333335, "grad_norm": 0.07651939243078232, "learning_rate": 4.7333333333333336e-05, "loss": 0.0439, "step": 230 }, { "epoch": 4.0, "grad_norm": 1.2403360605239868, "learning_rate": 4.066666666666667e-05, "loss": 0.0557, "step": 240 }, { "epoch": 4.166666666666667, "grad_norm": 0.15227381885051727, "learning_rate": 3.4000000000000007e-05, "loss": 0.0264, "step": 250 }, { "epoch": 4.166666666666667, "eval_accuracy": 0.9513381995133819, "eval_f1": 0.9487974655404795, "eval_loss": 0.16188818216323853, "eval_precision": 0.9447150174035173, "eval_recall": 0.9546121976142474, "eval_runtime": 3.414, "eval_samples_per_second": 240.77, "eval_steps_per_second": 3.808, "step": 250 }, { "epoch": 4.333333333333333, "grad_norm": 0.1498788446187973, "learning_rate": 2.733333333333333e-05, "loss": 0.0274, "step": 260 }, { "epoch": 4.5, "grad_norm": 0.07677994668483734, "learning_rate": 2.0666666666666666e-05, "loss": 0.0227, "step": 270 }, { "epoch": 4.583333333333333, "eval_accuracy": 0.9549878345498783, "eval_f1": 0.9531194945497546, "eval_loss": 0.15235914289951324, "eval_precision": 0.9497723508669295, "eval_recall": 0.9579100556580387, "eval_runtime": 3.4275, "eval_samples_per_second": 239.824, "eval_steps_per_second": 3.793, "step": 275 }, { "epoch": 4.666666666666667, "grad_norm": 0.1796388328075409, "learning_rate": 1.4000000000000001e-05, "loss": 0.023, "step": 280 }, { "epoch": 4.833333333333333, "grad_norm": 0.5997887849807739, "learning_rate": 7.333333333333334e-06, "loss": 0.0244, "step": 290 }, { "epoch": 5.0, "grad_norm": 0.06375733017921448, "learning_rate": 6.666666666666667e-07, "loss": 0.0343, "step": 300 }, { "epoch": 5.0, "eval_accuracy": 0.9562043795620438, "eval_f1": 0.9552724576163357, "eval_loss": 0.1529521346092224, "eval_precision": 0.9525861346195577, "eval_recall": 0.9587138585290341, "eval_runtime": 3.421, "eval_samples_per_second": 240.277, "eval_steps_per_second": 3.8, "step": 300 }, { "epoch": 5.0, "step": 300, "total_flos": 1.48554806942933e+18, "train_loss": 0.17210483262936274, "train_runtime": 149.2973, "train_samples_per_second": 128.402, "train_steps_per_second": 2.009 } ], "logging_steps": 10, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 100, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 3, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 3 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.48554806942933e+18, "train_batch_size": 64, "trial_name": null, "trial_params": null }