| { | |
| "best_global_step": 225, | |
| "best_metric": 0.9645740739756267, | |
| "best_model_checkpoint": "./vit_tom_jerry_mdl/checkpoint-200", | |
| "epoch": 5.0, | |
| "eval_steps": 25, | |
| "global_step": 300, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 1.179008960723877, | |
| "learning_rate": 0.000194, | |
| "loss": 1.2461, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 1.6004935503005981, | |
| "learning_rate": 0.00018733333333333335, | |
| "loss": 0.8223, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "eval_accuracy": 0.889294403892944, | |
| "eval_f1": 0.8742397689620669, | |
| "eval_loss": 0.450603187084198, | |
| "eval_precision": 0.8939126626626628, | |
| "eval_recall": 0.8652641370683252, | |
| "eval_runtime": 3.461, | |
| "eval_samples_per_second": 237.503, | |
| "eval_steps_per_second": 3.756, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 1.335172414779663, | |
| "learning_rate": 0.00018066666666666668, | |
| "loss": 0.4994, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 1.348803162574768, | |
| "learning_rate": 0.000174, | |
| "loss": 0.3169, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 1.2741419076919556, | |
| "learning_rate": 0.00016733333333333335, | |
| "loss": 0.2676, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "eval_accuracy": 0.9391727493917275, | |
| "eval_f1": 0.9356370716759485, | |
| "eval_loss": 0.21945379674434662, | |
| "eval_precision": 0.9342880020745046, | |
| "eval_recall": 0.9375607233423536, | |
| "eval_runtime": 3.409, | |
| "eval_samples_per_second": 241.126, | |
| "eval_steps_per_second": 3.813, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 1.302258849143982, | |
| "learning_rate": 0.00016066666666666668, | |
| "loss": 0.2316, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 1.284261703491211, | |
| "learning_rate": 0.000154, | |
| "loss": 0.1896, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "eval_accuracy": 0.9525547445255474, | |
| "eval_f1": 0.9493014762192153, | |
| "eval_loss": 0.1816127747297287, | |
| "eval_precision": 0.9489785971260434, | |
| "eval_recall": 0.9503527850213396, | |
| "eval_runtime": 3.4233, | |
| "eval_samples_per_second": 240.119, | |
| "eval_steps_per_second": 3.798, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 1.1670647859573364, | |
| "learning_rate": 0.00014733333333333335, | |
| "loss": 0.1451, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.9231269359588623, | |
| "learning_rate": 0.00014066666666666668, | |
| "loss": 0.1246, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 1.229040503501892, | |
| "learning_rate": 0.000134, | |
| "loss": 0.1085, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "eval_accuracy": 0.9379562043795621, | |
| "eval_f1": 0.9344160814351121, | |
| "eval_loss": 0.19404640793800354, | |
| "eval_precision": 0.9315772279233091, | |
| "eval_recall": 0.9380771013895641, | |
| "eval_runtime": 3.4388, | |
| "eval_samples_per_second": 239.035, | |
| "eval_steps_per_second": 3.78, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 1.5356346368789673, | |
| "learning_rate": 0.00012733333333333336, | |
| "loss": 0.1379, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.9422320127487183, | |
| "learning_rate": 0.00012066666666666668, | |
| "loss": 0.1618, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "eval_accuracy": 0.9476885644768857, | |
| "eval_f1": 0.9433613445349764, | |
| "eval_loss": 0.1806175410747528, | |
| "eval_precision": 0.9389737449498523, | |
| "eval_recall": 0.94927038162268, | |
| "eval_runtime": 3.417, | |
| "eval_samples_per_second": 240.564, | |
| "eval_steps_per_second": 3.805, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 0.40647202730178833, | |
| "learning_rate": 0.00011399999999999999, | |
| "loss": 0.0831, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 0.5886309146881104, | |
| "learning_rate": 0.00010733333333333333, | |
| "loss": 0.0784, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.3857206404209137, | |
| "learning_rate": 0.00010066666666666667, | |
| "loss": 0.0784, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "eval_accuracy": 0.9574209245742092, | |
| "eval_f1": 0.954610584452178, | |
| "eval_loss": 0.1581779420375824, | |
| "eval_precision": 0.9523814232432715, | |
| "eval_recall": 0.957049310025567, | |
| "eval_runtime": 3.4015, | |
| "eval_samples_per_second": 241.656, | |
| "eval_steps_per_second": 3.822, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 0.7096158266067505, | |
| "learning_rate": 9.4e-05, | |
| "loss": 0.0726, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 2.3420352935791016, | |
| "learning_rate": 8.733333333333333e-05, | |
| "loss": 0.071, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "eval_accuracy": 0.9416058394160584, | |
| "eval_f1": 0.9385804706284082, | |
| "eval_loss": 0.18030095100402832, | |
| "eval_precision": 0.9364433325083628, | |
| "eval_recall": 0.9413294616863843, | |
| "eval_runtime": 3.4018, | |
| "eval_samples_per_second": 241.637, | |
| "eval_steps_per_second": 3.822, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 2.018068552017212, | |
| "learning_rate": 8.066666666666667e-05, | |
| "loss": 0.0739, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 0.5890735387802124, | |
| "learning_rate": 7.4e-05, | |
| "loss": 0.0586, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 0.2291577160358429, | |
| "learning_rate": 6.733333333333333e-05, | |
| "loss": 0.0533, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "eval_accuracy": 0.9610705596107056, | |
| "eval_f1": 0.9604590740790521, | |
| "eval_loss": 0.15387743711471558, | |
| "eval_precision": 0.9622977817571188, | |
| "eval_recall": 0.9600399492969355, | |
| "eval_runtime": 3.3928, | |
| "eval_samples_per_second": 242.28, | |
| "eval_steps_per_second": 3.832, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 0.08786796778440475, | |
| "learning_rate": 6.066666666666667e-05, | |
| "loss": 0.0463, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 0.22060526907444, | |
| "learning_rate": 5.4000000000000005e-05, | |
| "loss": 0.0383, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "eval_accuracy": 0.9647201946472019, | |
| "eval_f1": 0.9645740739756267, | |
| "eval_loss": 0.14463135600090027, | |
| "eval_precision": 0.9653599801235093, | |
| "eval_recall": 0.9641853092636594, | |
| "eval_runtime": 3.3707, | |
| "eval_samples_per_second": 243.868, | |
| "eval_steps_per_second": 3.857, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 0.07651939243078232, | |
| "learning_rate": 4.7333333333333336e-05, | |
| "loss": 0.0439, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 1.2403360605239868, | |
| "learning_rate": 4.066666666666667e-05, | |
| "loss": 0.0557, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 0.15227381885051727, | |
| "learning_rate": 3.4000000000000007e-05, | |
| "loss": 0.0264, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "eval_accuracy": 0.9513381995133819, | |
| "eval_f1": 0.9487974655404795, | |
| "eval_loss": 0.16188818216323853, | |
| "eval_precision": 0.9447150174035173, | |
| "eval_recall": 0.9546121976142474, | |
| "eval_runtime": 3.414, | |
| "eval_samples_per_second": 240.77, | |
| "eval_steps_per_second": 3.808, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 4.333333333333333, | |
| "grad_norm": 0.1498788446187973, | |
| "learning_rate": 2.733333333333333e-05, | |
| "loss": 0.0274, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 4.5, | |
| "grad_norm": 0.07677994668483734, | |
| "learning_rate": 2.0666666666666666e-05, | |
| "loss": 0.0227, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 4.583333333333333, | |
| "eval_accuracy": 0.9549878345498783, | |
| "eval_f1": 0.9531194945497546, | |
| "eval_loss": 0.15235914289951324, | |
| "eval_precision": 0.9497723508669295, | |
| "eval_recall": 0.9579100556580387, | |
| "eval_runtime": 3.4275, | |
| "eval_samples_per_second": 239.824, | |
| "eval_steps_per_second": 3.793, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 4.666666666666667, | |
| "grad_norm": 0.1796388328075409, | |
| "learning_rate": 1.4000000000000001e-05, | |
| "loss": 0.023, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 4.833333333333333, | |
| "grad_norm": 0.5997887849807739, | |
| "learning_rate": 7.333333333333334e-06, | |
| "loss": 0.0244, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 0.06375733017921448, | |
| "learning_rate": 6.666666666666667e-07, | |
| "loss": 0.0343, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "eval_accuracy": 0.9562043795620438, | |
| "eval_f1": 0.9552724576163357, | |
| "eval_loss": 0.1529521346092224, | |
| "eval_precision": 0.9525861346195577, | |
| "eval_recall": 0.9587138585290341, | |
| "eval_runtime": 3.421, | |
| "eval_samples_per_second": 240.277, | |
| "eval_steps_per_second": 3.8, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "step": 300, | |
| "total_flos": 1.48554806942933e+18, | |
| "train_loss": 0.17210483262936274, | |
| "train_runtime": 149.2973, | |
| "train_samples_per_second": 128.402, | |
| "train_steps_per_second": 2.009 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 300, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 5, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "EarlyStoppingCallback": { | |
| "args": { | |
| "early_stopping_patience": 3, | |
| "early_stopping_threshold": 0.0 | |
| }, | |
| "attributes": { | |
| "early_stopping_patience_counter": 3 | |
| } | |
| }, | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.48554806942933e+18, | |
| "train_batch_size": 64, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |