| { |
| "best_metric": 0.9166666666666666, |
| "best_model_checkpoint": "deit-base-distilled-patch16-224-hasta-75-fold2/checkpoint-3", |
| "epoch": 100.0, |
| "eval_steps": 500, |
| "global_step": 100, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 1.0, |
| "eval_accuracy": 0.5833333333333334, |
| "eval_loss": 0.8720913529396057, |
| "eval_runtime": 0.1698, |
| "eval_samples_per_second": 70.658, |
| "eval_steps_per_second": 5.888, |
| "step": 1 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_accuracy": 0.8333333333333334, |
| "eval_loss": 0.7323735356330872, |
| "eval_runtime": 0.1691, |
| "eval_samples_per_second": 70.944, |
| "eval_steps_per_second": 5.912, |
| "step": 2 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.5329805016517639, |
| "eval_runtime": 0.1666, |
| "eval_samples_per_second": 72.024, |
| "eval_steps_per_second": 6.002, |
| "step": 3 |
| }, |
| { |
| "epoch": 4.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.40223073959350586, |
| "eval_runtime": 0.1663, |
| "eval_samples_per_second": 72.176, |
| "eval_steps_per_second": 6.015, |
| "step": 4 |
| }, |
| { |
| "epoch": 5.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.37940993905067444, |
| "eval_runtime": 0.1672, |
| "eval_samples_per_second": 71.777, |
| "eval_steps_per_second": 5.981, |
| "step": 5 |
| }, |
| { |
| "epoch": 6.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3909720480442047, |
| "eval_runtime": 0.1661, |
| "eval_samples_per_second": 72.266, |
| "eval_steps_per_second": 6.022, |
| "step": 6 |
| }, |
| { |
| "epoch": 7.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.38322678208351135, |
| "eval_runtime": 0.1706, |
| "eval_samples_per_second": 70.333, |
| "eval_steps_per_second": 5.861, |
| "step": 7 |
| }, |
| { |
| "epoch": 8.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.35240688920021057, |
| "eval_runtime": 0.1735, |
| "eval_samples_per_second": 69.157, |
| "eval_steps_per_second": 5.763, |
| "step": 8 |
| }, |
| { |
| "epoch": 9.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.42801758646965027, |
| "eval_runtime": 0.1695, |
| "eval_samples_per_second": 70.791, |
| "eval_steps_per_second": 5.899, |
| "step": 9 |
| }, |
| { |
| "epoch": 10.0, |
| "grad_norm": 2.422982692718506, |
| "learning_rate": 5e-05, |
| "loss": 0.3237, |
| "step": 10 |
| }, |
| { |
| "epoch": 10.0, |
| "eval_accuracy": 0.8333333333333334, |
| "eval_loss": 0.5285831093788147, |
| "eval_runtime": 0.1377, |
| "eval_samples_per_second": 87.118, |
| "eval_steps_per_second": 7.26, |
| "step": 10 |
| }, |
| { |
| "epoch": 11.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.40043577551841736, |
| "eval_runtime": 0.1787, |
| "eval_samples_per_second": 67.154, |
| "eval_steps_per_second": 5.596, |
| "step": 11 |
| }, |
| { |
| "epoch": 12.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3326685130596161, |
| "eval_runtime": 0.1778, |
| "eval_samples_per_second": 67.485, |
| "eval_steps_per_second": 5.624, |
| "step": 12 |
| }, |
| { |
| "epoch": 13.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3136296570301056, |
| "eval_runtime": 0.1766, |
| "eval_samples_per_second": 67.964, |
| "eval_steps_per_second": 5.664, |
| "step": 13 |
| }, |
| { |
| "epoch": 14.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2844066619873047, |
| "eval_runtime": 0.1699, |
| "eval_samples_per_second": 70.645, |
| "eval_steps_per_second": 5.887, |
| "step": 14 |
| }, |
| { |
| "epoch": 15.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2493000477552414, |
| "eval_runtime": 0.171, |
| "eval_samples_per_second": 70.169, |
| "eval_steps_per_second": 5.847, |
| "step": 15 |
| }, |
| { |
| "epoch": 16.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.21895883977413177, |
| "eval_runtime": 0.1724, |
| "eval_samples_per_second": 69.618, |
| "eval_steps_per_second": 5.801, |
| "step": 16 |
| }, |
| { |
| "epoch": 17.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.1924806833267212, |
| "eval_runtime": 0.1735, |
| "eval_samples_per_second": 69.181, |
| "eval_steps_per_second": 5.765, |
| "step": 17 |
| }, |
| { |
| "epoch": 18.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.17224393784999847, |
| "eval_runtime": 0.1653, |
| "eval_samples_per_second": 72.584, |
| "eval_steps_per_second": 6.049, |
| "step": 18 |
| }, |
| { |
| "epoch": 19.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.13865721225738525, |
| "eval_runtime": 0.1654, |
| "eval_samples_per_second": 72.571, |
| "eval_steps_per_second": 6.048, |
| "step": 19 |
| }, |
| { |
| "epoch": 20.0, |
| "grad_norm": 1.1507097482681274, |
| "learning_rate": 4.4444444444444447e-05, |
| "loss": 0.142, |
| "step": 20 |
| }, |
| { |
| "epoch": 20.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.1259305626153946, |
| "eval_runtime": 0.1685, |
| "eval_samples_per_second": 71.23, |
| "eval_steps_per_second": 5.936, |
| "step": 20 |
| }, |
| { |
| "epoch": 21.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.14431725442409515, |
| "eval_runtime": 0.1721, |
| "eval_samples_per_second": 69.746, |
| "eval_steps_per_second": 5.812, |
| "step": 21 |
| }, |
| { |
| "epoch": 22.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.13721048831939697, |
| "eval_runtime": 0.1656, |
| "eval_samples_per_second": 72.451, |
| "eval_steps_per_second": 6.038, |
| "step": 22 |
| }, |
| { |
| "epoch": 23.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.1043337807059288, |
| "eval_runtime": 0.1759, |
| "eval_samples_per_second": 68.214, |
| "eval_steps_per_second": 5.684, |
| "step": 23 |
| }, |
| { |
| "epoch": 24.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.10220253467559814, |
| "eval_runtime": 0.1695, |
| "eval_samples_per_second": 70.807, |
| "eval_steps_per_second": 5.901, |
| "step": 24 |
| }, |
| { |
| "epoch": 25.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.13269709050655365, |
| "eval_runtime": 0.1726, |
| "eval_samples_per_second": 69.522, |
| "eval_steps_per_second": 5.793, |
| "step": 25 |
| }, |
| { |
| "epoch": 26.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.22126537561416626, |
| "eval_runtime": 0.1677, |
| "eval_samples_per_second": 71.558, |
| "eval_steps_per_second": 5.963, |
| "step": 26 |
| }, |
| { |
| "epoch": 27.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2586672902107239, |
| "eval_runtime": 0.1739, |
| "eval_samples_per_second": 69.008, |
| "eval_steps_per_second": 5.751, |
| "step": 27 |
| }, |
| { |
| "epoch": 28.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.24109001457691193, |
| "eval_runtime": 0.1749, |
| "eval_samples_per_second": 68.594, |
| "eval_steps_per_second": 5.716, |
| "step": 28 |
| }, |
| { |
| "epoch": 29.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.19154836237430573, |
| "eval_runtime": 0.1725, |
| "eval_samples_per_second": 69.556, |
| "eval_steps_per_second": 5.796, |
| "step": 29 |
| }, |
| { |
| "epoch": 30.0, |
| "grad_norm": 1.0745893716812134, |
| "learning_rate": 3.888888888888889e-05, |
| "loss": 0.0723, |
| "step": 30 |
| }, |
| { |
| "epoch": 30.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.14182350039482117, |
| "eval_runtime": 0.1668, |
| "eval_samples_per_second": 71.96, |
| "eval_steps_per_second": 5.997, |
| "step": 30 |
| }, |
| { |
| "epoch": 31.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.13689707219600677, |
| "eval_runtime": 0.1741, |
| "eval_samples_per_second": 68.934, |
| "eval_steps_per_second": 5.745, |
| "step": 31 |
| }, |
| { |
| "epoch": 32.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.17487381398677826, |
| "eval_runtime": 0.1759, |
| "eval_samples_per_second": 68.203, |
| "eval_steps_per_second": 5.684, |
| "step": 32 |
| }, |
| { |
| "epoch": 33.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.26065701246261597, |
| "eval_runtime": 0.1726, |
| "eval_samples_per_second": 69.505, |
| "eval_steps_per_second": 5.792, |
| "step": 33 |
| }, |
| { |
| "epoch": 34.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.30491724610328674, |
| "eval_runtime": 0.1756, |
| "eval_samples_per_second": 68.331, |
| "eval_steps_per_second": 5.694, |
| "step": 34 |
| }, |
| { |
| "epoch": 35.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.31028005480766296, |
| "eval_runtime": 0.1771, |
| "eval_samples_per_second": 67.761, |
| "eval_steps_per_second": 5.647, |
| "step": 35 |
| }, |
| { |
| "epoch": 36.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29723936319351196, |
| "eval_runtime": 0.1699, |
| "eval_samples_per_second": 70.634, |
| "eval_steps_per_second": 5.886, |
| "step": 36 |
| }, |
| { |
| "epoch": 37.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29005223512649536, |
| "eval_runtime": 0.1743, |
| "eval_samples_per_second": 68.839, |
| "eval_steps_per_second": 5.737, |
| "step": 37 |
| }, |
| { |
| "epoch": 38.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.24904292821884155, |
| "eval_runtime": 0.1731, |
| "eval_samples_per_second": 69.334, |
| "eval_steps_per_second": 5.778, |
| "step": 38 |
| }, |
| { |
| "epoch": 39.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2046637088060379, |
| "eval_runtime": 0.1752, |
| "eval_samples_per_second": 68.481, |
| "eval_steps_per_second": 5.707, |
| "step": 39 |
| }, |
| { |
| "epoch": 40.0, |
| "grad_norm": 0.9144790768623352, |
| "learning_rate": 3.3333333333333335e-05, |
| "loss": 0.0458, |
| "step": 40 |
| }, |
| { |
| "epoch": 40.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.17810501158237457, |
| "eval_runtime": 0.1667, |
| "eval_samples_per_second": 71.997, |
| "eval_steps_per_second": 6.0, |
| "step": 40 |
| }, |
| { |
| "epoch": 41.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.17116980254650116, |
| "eval_runtime": 0.1667, |
| "eval_samples_per_second": 71.983, |
| "eval_steps_per_second": 5.999, |
| "step": 41 |
| }, |
| { |
| "epoch": 42.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.21135766804218292, |
| "eval_runtime": 0.1743, |
| "eval_samples_per_second": 68.833, |
| "eval_steps_per_second": 5.736, |
| "step": 42 |
| }, |
| { |
| "epoch": 43.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.283724844455719, |
| "eval_runtime": 0.1722, |
| "eval_samples_per_second": 69.693, |
| "eval_steps_per_second": 5.808, |
| "step": 43 |
| }, |
| { |
| "epoch": 44.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3335089683532715, |
| "eval_runtime": 0.1714, |
| "eval_samples_per_second": 70.011, |
| "eval_steps_per_second": 5.834, |
| "step": 44 |
| }, |
| { |
| "epoch": 45.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3599604666233063, |
| "eval_runtime": 0.1764, |
| "eval_samples_per_second": 68.023, |
| "eval_steps_per_second": 5.669, |
| "step": 45 |
| }, |
| { |
| "epoch": 46.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3697707951068878, |
| "eval_runtime": 0.1729, |
| "eval_samples_per_second": 69.407, |
| "eval_steps_per_second": 5.784, |
| "step": 46 |
| }, |
| { |
| "epoch": 47.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.36070874333381653, |
| "eval_runtime": 0.1751, |
| "eval_samples_per_second": 68.539, |
| "eval_steps_per_second": 5.712, |
| "step": 47 |
| }, |
| { |
| "epoch": 48.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3492753207683563, |
| "eval_runtime": 0.1698, |
| "eval_samples_per_second": 70.679, |
| "eval_steps_per_second": 5.89, |
| "step": 48 |
| }, |
| { |
| "epoch": 49.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3408198058605194, |
| "eval_runtime": 0.1709, |
| "eval_samples_per_second": 70.228, |
| "eval_steps_per_second": 5.852, |
| "step": 49 |
| }, |
| { |
| "epoch": 50.0, |
| "grad_norm": 1.056391716003418, |
| "learning_rate": 2.777777777777778e-05, |
| "loss": 0.0478, |
| "step": 50 |
| }, |
| { |
| "epoch": 50.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.35375237464904785, |
| "eval_runtime": 0.1661, |
| "eval_samples_per_second": 72.251, |
| "eval_steps_per_second": 6.021, |
| "step": 50 |
| }, |
| { |
| "epoch": 51.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.348070353269577, |
| "eval_runtime": 0.1768, |
| "eval_samples_per_second": 67.859, |
| "eval_steps_per_second": 5.655, |
| "step": 51 |
| }, |
| { |
| "epoch": 52.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.351346880197525, |
| "eval_runtime": 0.1696, |
| "eval_samples_per_second": 70.735, |
| "eval_steps_per_second": 5.895, |
| "step": 52 |
| }, |
| { |
| "epoch": 53.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3336377441883087, |
| "eval_runtime": 0.176, |
| "eval_samples_per_second": 68.172, |
| "eval_steps_per_second": 5.681, |
| "step": 53 |
| }, |
| { |
| "epoch": 54.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3044058680534363, |
| "eval_runtime": 0.1695, |
| "eval_samples_per_second": 70.811, |
| "eval_steps_per_second": 5.901, |
| "step": 54 |
| }, |
| { |
| "epoch": 55.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.28441691398620605, |
| "eval_runtime": 0.1709, |
| "eval_samples_per_second": 70.226, |
| "eval_steps_per_second": 5.852, |
| "step": 55 |
| }, |
| { |
| "epoch": 56.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.27895253896713257, |
| "eval_runtime": 0.1747, |
| "eval_samples_per_second": 68.695, |
| "eval_steps_per_second": 5.725, |
| "step": 56 |
| }, |
| { |
| "epoch": 57.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29900282621383667, |
| "eval_runtime": 0.172, |
| "eval_samples_per_second": 69.759, |
| "eval_steps_per_second": 5.813, |
| "step": 57 |
| }, |
| { |
| "epoch": 58.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.32653525471687317, |
| "eval_runtime": 0.1717, |
| "eval_samples_per_second": 69.881, |
| "eval_steps_per_second": 5.823, |
| "step": 58 |
| }, |
| { |
| "epoch": 59.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.36821117997169495, |
| "eval_runtime": 0.1721, |
| "eval_samples_per_second": 69.714, |
| "eval_steps_per_second": 5.81, |
| "step": 59 |
| }, |
| { |
| "epoch": 60.0, |
| "grad_norm": 0.5951845049858093, |
| "learning_rate": 2.2222222222222223e-05, |
| "loss": 0.0145, |
| "step": 60 |
| }, |
| { |
| "epoch": 60.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3937649726867676, |
| "eval_runtime": 0.1703, |
| "eval_samples_per_second": 70.452, |
| "eval_steps_per_second": 5.871, |
| "step": 60 |
| }, |
| { |
| "epoch": 61.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.40179547667503357, |
| "eval_runtime": 0.1708, |
| "eval_samples_per_second": 70.276, |
| "eval_steps_per_second": 5.856, |
| "step": 61 |
| }, |
| { |
| "epoch": 62.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.38166213035583496, |
| "eval_runtime": 0.1722, |
| "eval_samples_per_second": 69.67, |
| "eval_steps_per_second": 5.806, |
| "step": 62 |
| }, |
| { |
| "epoch": 63.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.33762046694755554, |
| "eval_runtime": 0.1699, |
| "eval_samples_per_second": 70.648, |
| "eval_steps_per_second": 5.887, |
| "step": 63 |
| }, |
| { |
| "epoch": 64.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2811855971813202, |
| "eval_runtime": 0.1756, |
| "eval_samples_per_second": 68.35, |
| "eval_steps_per_second": 5.696, |
| "step": 64 |
| }, |
| { |
| "epoch": 65.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.20290589332580566, |
| "eval_runtime": 0.1765, |
| "eval_samples_per_second": 67.98, |
| "eval_steps_per_second": 5.665, |
| "step": 65 |
| }, |
| { |
| "epoch": 66.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.13432539999485016, |
| "eval_runtime": 0.1746, |
| "eval_samples_per_second": 68.746, |
| "eval_steps_per_second": 5.729, |
| "step": 66 |
| }, |
| { |
| "epoch": 67.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.09964919835329056, |
| "eval_runtime": 0.1809, |
| "eval_samples_per_second": 66.321, |
| "eval_steps_per_second": 5.527, |
| "step": 67 |
| }, |
| { |
| "epoch": 68.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.08114797621965408, |
| "eval_runtime": 0.1748, |
| "eval_samples_per_second": 68.668, |
| "eval_steps_per_second": 5.722, |
| "step": 68 |
| }, |
| { |
| "epoch": 69.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.0662108063697815, |
| "eval_runtime": 0.1739, |
| "eval_samples_per_second": 68.996, |
| "eval_steps_per_second": 5.75, |
| "step": 69 |
| }, |
| { |
| "epoch": 70.0, |
| "grad_norm": 2.5851542949676514, |
| "learning_rate": 1.6666666666666667e-05, |
| "loss": 0.0447, |
| "step": 70 |
| }, |
| { |
| "epoch": 70.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.07450823485851288, |
| "eval_runtime": 0.1693, |
| "eval_samples_per_second": 70.859, |
| "eval_steps_per_second": 5.905, |
| "step": 70 |
| }, |
| { |
| "epoch": 71.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.10530906915664673, |
| "eval_runtime": 0.1726, |
| "eval_samples_per_second": 69.53, |
| "eval_steps_per_second": 5.794, |
| "step": 71 |
| }, |
| { |
| "epoch": 72.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.1643170267343521, |
| "eval_runtime": 0.1797, |
| "eval_samples_per_second": 66.772, |
| "eval_steps_per_second": 5.564, |
| "step": 72 |
| }, |
| { |
| "epoch": 73.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.23526543378829956, |
| "eval_runtime": 0.172, |
| "eval_samples_per_second": 69.747, |
| "eval_steps_per_second": 5.812, |
| "step": 73 |
| }, |
| { |
| "epoch": 74.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.31551238894462585, |
| "eval_runtime": 0.1749, |
| "eval_samples_per_second": 68.611, |
| "eval_steps_per_second": 5.718, |
| "step": 74 |
| }, |
| { |
| "epoch": 75.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3678317964076996, |
| "eval_runtime": 0.1658, |
| "eval_samples_per_second": 72.385, |
| "eval_steps_per_second": 6.032, |
| "step": 75 |
| }, |
| { |
| "epoch": 76.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.39456072449684143, |
| "eval_runtime": 0.1698, |
| "eval_samples_per_second": 70.653, |
| "eval_steps_per_second": 5.888, |
| "step": 76 |
| }, |
| { |
| "epoch": 77.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.402536541223526, |
| "eval_runtime": 0.171, |
| "eval_samples_per_second": 70.159, |
| "eval_steps_per_second": 5.847, |
| "step": 77 |
| }, |
| { |
| "epoch": 78.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.41056111454963684, |
| "eval_runtime": 0.1703, |
| "eval_samples_per_second": 70.461, |
| "eval_steps_per_second": 5.872, |
| "step": 78 |
| }, |
| { |
| "epoch": 79.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.41467317938804626, |
| "eval_runtime": 0.1734, |
| "eval_samples_per_second": 69.21, |
| "eval_steps_per_second": 5.768, |
| "step": 79 |
| }, |
| { |
| "epoch": 80.0, |
| "grad_norm": 0.8985244631767273, |
| "learning_rate": 1.1111111111111112e-05, |
| "loss": 0.0229, |
| "step": 80 |
| }, |
| { |
| "epoch": 80.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.41082563996315, |
| "eval_runtime": 0.1656, |
| "eval_samples_per_second": 72.472, |
| "eval_steps_per_second": 6.039, |
| "step": 80 |
| }, |
| { |
| "epoch": 81.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3993450105190277, |
| "eval_runtime": 0.1765, |
| "eval_samples_per_second": 67.973, |
| "eval_steps_per_second": 5.664, |
| "step": 81 |
| }, |
| { |
| "epoch": 82.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.385741263628006, |
| "eval_runtime": 0.1709, |
| "eval_samples_per_second": 70.212, |
| "eval_steps_per_second": 5.851, |
| "step": 82 |
| }, |
| { |
| "epoch": 83.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3644443452358246, |
| "eval_runtime": 0.1714, |
| "eval_samples_per_second": 70.018, |
| "eval_steps_per_second": 5.835, |
| "step": 83 |
| }, |
| { |
| "epoch": 84.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.34224358201026917, |
| "eval_runtime": 0.1725, |
| "eval_samples_per_second": 69.556, |
| "eval_steps_per_second": 5.796, |
| "step": 84 |
| }, |
| { |
| "epoch": 85.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.32803669571876526, |
| "eval_runtime": 0.1727, |
| "eval_samples_per_second": 69.488, |
| "eval_steps_per_second": 5.791, |
| "step": 85 |
| }, |
| { |
| "epoch": 86.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.3107913136482239, |
| "eval_runtime": 0.1666, |
| "eval_samples_per_second": 72.04, |
| "eval_steps_per_second": 6.003, |
| "step": 86 |
| }, |
| { |
| "epoch": 87.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29360252618789673, |
| "eval_runtime": 0.1675, |
| "eval_samples_per_second": 71.655, |
| "eval_steps_per_second": 5.971, |
| "step": 87 |
| }, |
| { |
| "epoch": 88.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2846314609050751, |
| "eval_runtime": 0.1638, |
| "eval_samples_per_second": 73.25, |
| "eval_steps_per_second": 6.104, |
| "step": 88 |
| }, |
| { |
| "epoch": 89.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2860603630542755, |
| "eval_runtime": 0.1648, |
| "eval_samples_per_second": 72.799, |
| "eval_steps_per_second": 6.067, |
| "step": 89 |
| }, |
| { |
| "epoch": 90.0, |
| "grad_norm": 0.7478493452072144, |
| "learning_rate": 5.555555555555556e-06, |
| "loss": 0.0317, |
| "step": 90 |
| }, |
| { |
| "epoch": 90.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2909441292285919, |
| "eval_runtime": 0.1705, |
| "eval_samples_per_second": 70.395, |
| "eval_steps_per_second": 5.866, |
| "step": 90 |
| }, |
| { |
| "epoch": 91.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2921387553215027, |
| "eval_runtime": 0.1756, |
| "eval_samples_per_second": 68.319, |
| "eval_steps_per_second": 5.693, |
| "step": 91 |
| }, |
| { |
| "epoch": 92.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2937867045402527, |
| "eval_runtime": 0.1697, |
| "eval_samples_per_second": 70.718, |
| "eval_steps_per_second": 5.893, |
| "step": 92 |
| }, |
| { |
| "epoch": 93.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29735085368156433, |
| "eval_runtime": 0.1748, |
| "eval_samples_per_second": 68.655, |
| "eval_steps_per_second": 5.721, |
| "step": 93 |
| }, |
| { |
| "epoch": 94.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29975274205207825, |
| "eval_runtime": 0.1714, |
| "eval_samples_per_second": 70.019, |
| "eval_steps_per_second": 5.835, |
| "step": 94 |
| }, |
| { |
| "epoch": 95.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29944273829460144, |
| "eval_runtime": 0.1715, |
| "eval_samples_per_second": 69.957, |
| "eval_steps_per_second": 5.83, |
| "step": 95 |
| }, |
| { |
| "epoch": 96.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29923388361930847, |
| "eval_runtime": 0.1712, |
| "eval_samples_per_second": 70.092, |
| "eval_steps_per_second": 5.841, |
| "step": 96 |
| }, |
| { |
| "epoch": 97.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.297267884016037, |
| "eval_runtime": 0.1718, |
| "eval_samples_per_second": 69.837, |
| "eval_steps_per_second": 5.82, |
| "step": 97 |
| }, |
| { |
| "epoch": 98.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.2969224750995636, |
| "eval_runtime": 0.1756, |
| "eval_samples_per_second": 68.32, |
| "eval_steps_per_second": 5.693, |
| "step": 98 |
| }, |
| { |
| "epoch": 99.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29703596234321594, |
| "eval_runtime": 0.1728, |
| "eval_samples_per_second": 69.426, |
| "eval_steps_per_second": 5.786, |
| "step": 99 |
| }, |
| { |
| "epoch": 100.0, |
| "grad_norm": 0.3336535096168518, |
| "learning_rate": 0.0, |
| "loss": 0.0283, |
| "step": 100 |
| }, |
| { |
| "epoch": 100.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.29728010296821594, |
| "eval_runtime": 0.1698, |
| "eval_samples_per_second": 70.654, |
| "eval_steps_per_second": 5.888, |
| "step": 100 |
| }, |
| { |
| "epoch": 100.0, |
| "step": 100, |
| "total_flos": 4.804632427843584e+17, |
| "train_loss": 0.07737909317016602, |
| "train_runtime": 420.8735, |
| "train_samples_per_second": 14.731, |
| "train_steps_per_second": 0.238 |
| }, |
| { |
| "epoch": 100.0, |
| "eval_accuracy": 0.9166666666666666, |
| "eval_loss": 0.5329805016517639, |
| "eval_runtime": 0.2356, |
| "eval_samples_per_second": 50.925, |
| "eval_steps_per_second": 4.244, |
| "step": 100 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 100, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 100, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 4.804632427843584e+17, |
| "train_batch_size": 32, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|