{
  "best_metric": 0.9014084507042254,
  "best_model_checkpoint": "beit-base-patch16-224-65-fold5/checkpoint-227",
  "epoch": 92.3076923076923,
  "eval_steps": 500,
  "global_step": 300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.9230769230769231,
      "eval_accuracy": 0.4507042253521127,
      "eval_loss": 0.7741583585739136,
      "eval_runtime": 1.1683,
      "eval_samples_per_second": 60.771,
      "eval_steps_per_second": 2.568,
      "step": 3
    },
    {
      "epoch": 1.8461538461538463,
      "eval_accuracy": 0.49295774647887325,
      "eval_loss": 0.7185438871383667,
      "eval_runtime": 1.1211,
      "eval_samples_per_second": 63.33,
      "eval_steps_per_second": 2.676,
      "step": 6
    },
    {
      "epoch": 2.769230769230769,
      "eval_accuracy": 0.5633802816901409,
      "eval_loss": 0.66248619556427,
      "eval_runtime": 1.0772,
      "eval_samples_per_second": 65.911,
      "eval_steps_per_second": 2.785,
      "step": 9
    },
    {
      "epoch": 3.076923076923077,
      "grad_norm": 5.283283710479736,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.7338,
      "step": 10
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.7183098591549296,
      "eval_loss": 0.6136082410812378,
      "eval_runtime": 1.074,
      "eval_samples_per_second": 66.108,
      "eval_steps_per_second": 2.793,
      "step": 13
    },
    {
      "epoch": 4.923076923076923,
      "eval_accuracy": 0.647887323943662,
      "eval_loss": 0.5973507761955261,
      "eval_runtime": 1.1268,
      "eval_samples_per_second": 63.013,
      "eval_steps_per_second": 2.663,
      "step": 16
    },
    {
      "epoch": 5.846153846153846,
      "eval_accuracy": 0.6338028169014085,
      "eval_loss": 0.5770555734634399,
      "eval_runtime": 1.1277,
      "eval_samples_per_second": 62.959,
      "eval_steps_per_second": 2.66,
      "step": 19
    },
    {
      "epoch": 6.153846153846154,
      "grad_norm": 8.139087677001953,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.6191,
      "step": 20
    },
    {
      "epoch": 6.769230769230769,
      "eval_accuracy": 0.704225352112676,
      "eval_loss": 0.5399986505508423,
      "eval_runtime": 1.099,
      "eval_samples_per_second": 64.604,
      "eval_steps_per_second": 2.73,
      "step": 22
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.7183098591549296,
      "eval_loss": 0.512728750705719,
      "eval_runtime": 1.1005,
      "eval_samples_per_second": 64.517,
      "eval_steps_per_second": 2.726,
      "step": 26
    },
    {
      "epoch": 8.923076923076923,
      "eval_accuracy": 0.7323943661971831,
      "eval_loss": 0.5341445803642273,
      "eval_runtime": 1.1021,
      "eval_samples_per_second": 64.42,
      "eval_steps_per_second": 2.722,
      "step": 29
    },
    {
      "epoch": 9.23076923076923,
      "grad_norm": 13.560836791992188,
      "learning_rate": 5e-05,
      "loss": 0.5723,
      "step": 30
    },
    {
      "epoch": 9.846153846153847,
      "eval_accuracy": 0.7887323943661971,
      "eval_loss": 0.4877415597438812,
      "eval_runtime": 1.1126,
      "eval_samples_per_second": 63.815,
      "eval_steps_per_second": 2.696,
      "step": 32
    },
    {
      "epoch": 10.76923076923077,
      "eval_accuracy": 0.6197183098591549,
      "eval_loss": 0.665893018245697,
      "eval_runtime": 1.0831,
      "eval_samples_per_second": 65.555,
      "eval_steps_per_second": 2.77,
      "step": 35
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.676056338028169,
      "eval_loss": 0.5790109634399414,
      "eval_runtime": 1.0752,
      "eval_samples_per_second": 66.035,
      "eval_steps_per_second": 2.79,
      "step": 39
    },
    {
      "epoch": 12.307692307692308,
      "grad_norm": 4.327651023864746,
      "learning_rate": 4.814814814814815e-05,
      "loss": 0.5161,
      "step": 40
    },
    {
      "epoch": 12.923076923076923,
      "eval_accuracy": 0.7605633802816901,
      "eval_loss": 0.5000666975975037,
      "eval_runtime": 1.0997,
      "eval_samples_per_second": 64.565,
      "eval_steps_per_second": 2.728,
      "step": 42
    },
    {
      "epoch": 13.846153846153847,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.4194885492324829,
      "eval_runtime": 1.0882,
      "eval_samples_per_second": 65.245,
      "eval_steps_per_second": 2.757,
      "step": 45
    },
    {
      "epoch": 14.76923076923077,
      "eval_accuracy": 0.7746478873239436,
      "eval_loss": 0.48060446977615356,
      "eval_runtime": 1.0991,
      "eval_samples_per_second": 64.599,
      "eval_steps_per_second": 2.73,
      "step": 48
    },
    {
      "epoch": 15.384615384615385,
      "grad_norm": 4.219672679901123,
      "learning_rate": 4.62962962962963e-05,
      "loss": 0.4982,
      "step": 50
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.8028169014084507,
      "eval_loss": 0.40128326416015625,
      "eval_runtime": 1.1121,
      "eval_samples_per_second": 63.846,
      "eval_steps_per_second": 2.698,
      "step": 52
    },
    {
      "epoch": 16.923076923076923,
      "eval_accuracy": 0.8028169014084507,
      "eval_loss": 0.41885918378829956,
      "eval_runtime": 1.1068,
      "eval_samples_per_second": 64.149,
      "eval_steps_per_second": 2.711,
      "step": 55
    },
    {
      "epoch": 17.846153846153847,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.4018459916114807,
      "eval_runtime": 1.0712,
      "eval_samples_per_second": 66.279,
      "eval_steps_per_second": 2.801,
      "step": 58
    },
    {
      "epoch": 18.46153846153846,
      "grad_norm": 14.24777603149414,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.438,
      "step": 60
    },
    {
      "epoch": 18.76923076923077,
      "eval_accuracy": 0.7183098591549296,
      "eval_loss": 0.5229994654655457,
      "eval_runtime": 1.0893,
      "eval_samples_per_second": 65.178,
      "eval_steps_per_second": 2.754,
      "step": 61
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.7464788732394366,
      "eval_loss": 0.47676166892051697,
      "eval_runtime": 1.0953,
      "eval_samples_per_second": 64.821,
      "eval_steps_per_second": 2.739,
      "step": 65
    },
    {
      "epoch": 20.923076923076923,
      "eval_accuracy": 0.7887323943661971,
      "eval_loss": 0.44281619787216187,
      "eval_runtime": 1.0989,
      "eval_samples_per_second": 64.611,
      "eval_steps_per_second": 2.73,
      "step": 68
    },
    {
      "epoch": 21.53846153846154,
      "grad_norm": 9.833477020263672,
      "learning_rate": 4.259259259259259e-05,
      "loss": 0.4641,
      "step": 70
    },
    {
      "epoch": 21.846153846153847,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.41216400265693665,
      "eval_runtime": 1.0967,
      "eval_samples_per_second": 64.739,
      "eval_steps_per_second": 2.735,
      "step": 71
    },
    {
      "epoch": 22.76923076923077,
      "eval_accuracy": 0.7746478873239436,
      "eval_loss": 0.4537404477596283,
      "eval_runtime": 1.1041,
      "eval_samples_per_second": 64.303,
      "eval_steps_per_second": 2.717,
      "step": 74
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.3837529718875885,
      "eval_runtime": 1.1001,
      "eval_samples_per_second": 64.539,
      "eval_steps_per_second": 2.727,
      "step": 78
    },
    {
      "epoch": 24.615384615384617,
      "grad_norm": 4.286314487457275,
      "learning_rate": 4.074074074074074e-05,
      "loss": 0.308,
      "step": 80
    },
    {
      "epoch": 24.923076923076923,
      "eval_accuracy": 0.8028169014084507,
      "eval_loss": 0.45856019854545593,
      "eval_runtime": 1.1183,
      "eval_samples_per_second": 63.491,
      "eval_steps_per_second": 2.683,
      "step": 81
    },
    {
      "epoch": 25.846153846153847,
      "eval_accuracy": 0.8028169014084507,
      "eval_loss": 0.5623330473899841,
      "eval_runtime": 1.0972,
      "eval_samples_per_second": 64.712,
      "eval_steps_per_second": 2.734,
      "step": 84
    },
    {
      "epoch": 26.76923076923077,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.40498673915863037,
      "eval_runtime": 1.1106,
      "eval_samples_per_second": 63.932,
      "eval_steps_per_second": 2.701,
      "step": 87
    },
    {
      "epoch": 27.692307692307693,
      "grad_norm": 5.639131546020508,
      "learning_rate": 3.888888888888889e-05,
      "loss": 0.2766,
      "step": 90
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.3860090672969818,
      "eval_runtime": 1.0979,
      "eval_samples_per_second": 64.67,
      "eval_steps_per_second": 2.733,
      "step": 91
    },
    {
      "epoch": 28.923076923076923,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.4062126874923706,
      "eval_runtime": 1.1026,
      "eval_samples_per_second": 64.392,
      "eval_steps_per_second": 2.721,
      "step": 94
    },
    {
      "epoch": 29.846153846153847,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.6190576553344727,
      "eval_runtime": 1.0954,
      "eval_samples_per_second": 64.818,
      "eval_steps_per_second": 2.739,
      "step": 97
    },
    {
      "epoch": 30.76923076923077,
      "grad_norm": 8.735210418701172,
      "learning_rate": 3.7037037037037037e-05,
      "loss": 0.288,
      "step": 100
    },
    {
      "epoch": 30.76923076923077,
      "eval_accuracy": 0.7746478873239436,
      "eval_loss": 0.607646644115448,
      "eval_runtime": 1.1075,
      "eval_samples_per_second": 64.11,
      "eval_steps_per_second": 2.709,
      "step": 100
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.5299555063247681,
      "eval_runtime": 1.1314,
      "eval_samples_per_second": 62.755,
      "eval_steps_per_second": 2.652,
      "step": 104
    },
    {
      "epoch": 32.92307692307692,
      "eval_accuracy": 0.7605633802816901,
      "eval_loss": 0.6177523732185364,
      "eval_runtime": 1.1027,
      "eval_samples_per_second": 64.39,
      "eval_steps_per_second": 2.721,
      "step": 107
    },
    {
      "epoch": 33.84615384615385,
      "grad_norm": 5.108108997344971,
      "learning_rate": 3.518518518518519e-05,
      "loss": 0.2676,
      "step": 110
    },
    {
      "epoch": 33.84615384615385,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.44654786586761475,
      "eval_runtime": 1.1073,
      "eval_samples_per_second": 64.12,
      "eval_steps_per_second": 2.709,
      "step": 110
    },
    {
      "epoch": 34.76923076923077,
      "eval_accuracy": 0.7605633802816901,
      "eval_loss": 0.5892550945281982,
      "eval_runtime": 1.1175,
      "eval_samples_per_second": 63.536,
      "eval_steps_per_second": 2.685,
      "step": 113
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.47821930050849915,
      "eval_runtime": 1.1023,
      "eval_samples_per_second": 64.412,
      "eval_steps_per_second": 2.722,
      "step": 117
    },
    {
      "epoch": 36.92307692307692,
      "grad_norm": 5.657026290893555,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.2306,
      "step": 120
    },
    {
      "epoch": 36.92307692307692,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.4945947825908661,
      "eval_runtime": 1.1187,
      "eval_samples_per_second": 63.467,
      "eval_steps_per_second": 2.682,
      "step": 120
    },
    {
      "epoch": 37.84615384615385,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.45339256525039673,
      "eval_runtime": 1.1115,
      "eval_samples_per_second": 63.876,
      "eval_steps_per_second": 2.699,
      "step": 123
    },
    {
      "epoch": 38.76923076923077,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.46032822132110596,
      "eval_runtime": 1.0889,
      "eval_samples_per_second": 65.204,
      "eval_steps_per_second": 2.755,
      "step": 126
    },
    {
      "epoch": 40.0,
      "grad_norm": 5.189781665802002,
      "learning_rate": 3.148148148148148e-05,
      "loss": 0.2095,
      "step": 130
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.8028169014084507,
      "eval_loss": 0.5838778614997864,
      "eval_runtime": 1.1098,
      "eval_samples_per_second": 63.977,
      "eval_steps_per_second": 2.703,
      "step": 130
    },
    {
      "epoch": 40.92307692307692,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.4535942077636719,
      "eval_runtime": 1.0706,
      "eval_samples_per_second": 66.316,
      "eval_steps_per_second": 2.802,
      "step": 133
    },
    {
      "epoch": 41.84615384615385,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.4616604745388031,
      "eval_runtime": 1.1161,
      "eval_samples_per_second": 63.616,
      "eval_steps_per_second": 2.688,
      "step": 136
    },
    {
      "epoch": 42.76923076923077,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.45306605100631714,
      "eval_runtime": 1.104,
      "eval_samples_per_second": 64.31,
      "eval_steps_per_second": 2.717,
      "step": 139
    },
    {
      "epoch": 43.07692307692308,
      "grad_norm": 7.957688808441162,
      "learning_rate": 2.962962962962963e-05,
      "loss": 0.2171,
      "step": 140
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.4325302839279175,
      "eval_runtime": 1.1093,
      "eval_samples_per_second": 64.002,
      "eval_steps_per_second": 2.704,
      "step": 143
    },
    {
      "epoch": 44.92307692307692,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.47318896651268005,
      "eval_runtime": 1.1084,
      "eval_samples_per_second": 64.059,
      "eval_steps_per_second": 2.707,
      "step": 146
    },
    {
      "epoch": 45.84615384615385,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.4779146611690521,
      "eval_runtime": 1.1022,
      "eval_samples_per_second": 64.417,
      "eval_steps_per_second": 2.722,
      "step": 149
    },
    {
      "epoch": 46.15384615384615,
      "grad_norm": 6.514852046966553,
      "learning_rate": 2.777777777777778e-05,
      "loss": 0.1686,
      "step": 150
    },
    {
      "epoch": 46.76923076923077,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.4840743839740753,
      "eval_runtime": 1.0998,
      "eval_samples_per_second": 64.555,
      "eval_steps_per_second": 2.728,
      "step": 152
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.568954586982727,
      "eval_runtime": 1.1342,
      "eval_samples_per_second": 62.599,
      "eval_steps_per_second": 2.645,
      "step": 156
    },
    {
      "epoch": 48.92307692307692,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5476661920547485,
      "eval_runtime": 1.0717,
      "eval_samples_per_second": 66.247,
      "eval_steps_per_second": 2.799,
      "step": 159
    },
    {
      "epoch": 49.23076923076923,
      "grad_norm": 4.51823616027832,
      "learning_rate": 2.5925925925925925e-05,
      "loss": 0.1644,
      "step": 160
    },
    {
      "epoch": 49.84615384615385,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.5844295024871826,
      "eval_runtime": 1.0943,
      "eval_samples_per_second": 64.881,
      "eval_steps_per_second": 2.741,
      "step": 162
    },
    {
      "epoch": 50.76923076923077,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.5818286538124084,
      "eval_runtime": 1.1027,
      "eval_samples_per_second": 64.387,
      "eval_steps_per_second": 2.721,
      "step": 165
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.4673917591571808,
      "eval_runtime": 1.1022,
      "eval_samples_per_second": 64.417,
      "eval_steps_per_second": 2.722,
      "step": 169
    },
    {
      "epoch": 52.30769230769231,
      "grad_norm": 8.422873497009277,
      "learning_rate": 2.4074074074074074e-05,
      "loss": 0.1915,
      "step": 170
    },
    {
      "epoch": 52.92307692307692,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.5319780111312866,
      "eval_runtime": 1.0964,
      "eval_samples_per_second": 64.759,
      "eval_steps_per_second": 2.736,
      "step": 172
    },
    {
      "epoch": 53.84615384615385,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.49328184127807617,
      "eval_runtime": 1.0661,
      "eval_samples_per_second": 66.598,
      "eval_steps_per_second": 2.814,
      "step": 175
    },
    {
      "epoch": 54.76923076923077,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5089565515518188,
      "eval_runtime": 1.117,
      "eval_samples_per_second": 63.56,
      "eval_steps_per_second": 2.686,
      "step": 178
    },
    {
      "epoch": 55.38461538461539,
      "grad_norm": 4.653059005737305,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.1561,
      "step": 180
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.4864402413368225,
      "eval_runtime": 1.0975,
      "eval_samples_per_second": 64.695,
      "eval_steps_per_second": 2.734,
      "step": 182
    },
    {
      "epoch": 56.92307692307692,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.4652234613895416,
      "eval_runtime": 1.0985,
      "eval_samples_per_second": 64.633,
      "eval_steps_per_second": 2.731,
      "step": 185
    },
    {
      "epoch": 57.84615384615385,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5113447904586792,
      "eval_runtime": 1.1072,
      "eval_samples_per_second": 64.126,
      "eval_steps_per_second": 2.71,
      "step": 188
    },
    {
      "epoch": 58.46153846153846,
      "grad_norm": 3.066495418548584,
      "learning_rate": 2.037037037037037e-05,
      "loss": 0.1298,
      "step": 190
    },
    {
      "epoch": 58.76923076923077,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.48026394844055176,
      "eval_runtime": 1.1184,
      "eval_samples_per_second": 63.482,
      "eval_steps_per_second": 2.682,
      "step": 191
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.4793626070022583,
      "eval_runtime": 1.103,
      "eval_samples_per_second": 64.371,
      "eval_steps_per_second": 2.72,
      "step": 195
    },
    {
      "epoch": 60.92307692307692,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.47432461380958557,
      "eval_runtime": 1.1174,
      "eval_samples_per_second": 63.54,
      "eval_steps_per_second": 2.685,
      "step": 198
    },
    {
      "epoch": 61.53846153846154,
      "grad_norm": 4.923564910888672,
      "learning_rate": 1.8518518518518518e-05,
      "loss": 0.1467,
      "step": 200
    },
    {
      "epoch": 61.84615384615385,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.4738529324531555,
      "eval_runtime": 1.1015,
      "eval_samples_per_second": 64.459,
      "eval_steps_per_second": 2.724,
      "step": 201
    },
    {
      "epoch": 62.76923076923077,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5210826396942139,
      "eval_runtime": 1.0969,
      "eval_samples_per_second": 64.727,
      "eval_steps_per_second": 2.735,
      "step": 204
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5315064191818237,
      "eval_runtime": 1.1088,
      "eval_samples_per_second": 64.03,
      "eval_steps_per_second": 2.706,
      "step": 208
    },
    {
      "epoch": 64.61538461538461,
      "grad_norm": 3.5882034301757812,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.1363,
      "step": 210
    },
    {
      "epoch": 64.92307692307692,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5181633234024048,
      "eval_runtime": 1.0897,
      "eval_samples_per_second": 65.156,
      "eval_steps_per_second": 2.753,
      "step": 211
    },
    {
      "epoch": 65.84615384615384,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5160353183746338,
      "eval_runtime": 1.099,
      "eval_samples_per_second": 64.604,
      "eval_steps_per_second": 2.73,
      "step": 214
    },
    {
      "epoch": 66.76923076923077,
      "eval_accuracy": 0.8169014084507042,
      "eval_loss": 0.6169556379318237,
      "eval_runtime": 1.0967,
      "eval_samples_per_second": 64.74,
      "eval_steps_per_second": 2.736,
      "step": 217
    },
    {
      "epoch": 67.6923076923077,
      "grad_norm": 4.3899359703063965,
      "learning_rate": 1.4814814814814815e-05,
      "loss": 0.154,
      "step": 220
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.4856686592102051,
      "eval_runtime": 1.0921,
      "eval_samples_per_second": 65.015,
      "eval_steps_per_second": 2.747,
      "step": 221
    },
    {
      "epoch": 68.92307692307692,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.4762696325778961,
      "eval_runtime": 1.0728,
      "eval_samples_per_second": 66.18,
      "eval_steps_per_second": 2.796,
      "step": 224
    },
    {
      "epoch": 69.84615384615384,
      "eval_accuracy": 0.9014084507042254,
      "eval_loss": 0.49371322989463806,
      "eval_runtime": 1.1011,
      "eval_samples_per_second": 64.481,
      "eval_steps_per_second": 2.725,
      "step": 227
    },
    {
      "epoch": 70.76923076923077,
      "grad_norm": 5.669313430786133,
      "learning_rate": 1.2962962962962962e-05,
      "loss": 0.141,
      "step": 230
    },
    {
      "epoch": 70.76923076923077,
      "eval_accuracy": 0.8873239436619719,
      "eval_loss": 0.5038084983825684,
      "eval_runtime": 1.0863,
      "eval_samples_per_second": 65.357,
      "eval_steps_per_second": 2.762,
      "step": 230
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5025742053985596,
      "eval_runtime": 1.1011,
      "eval_samples_per_second": 64.48,
      "eval_steps_per_second": 2.725,
      "step": 234
    },
    {
      "epoch": 72.92307692307692,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5019357204437256,
      "eval_runtime": 1.0996,
      "eval_samples_per_second": 64.57,
      "eval_steps_per_second": 2.728,
      "step": 237
    },
    {
      "epoch": 73.84615384615384,
      "grad_norm": 2.5774917602539062,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.1166,
      "step": 240
    },
    {
      "epoch": 73.84615384615384,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5027952790260315,
      "eval_runtime": 1.0795,
      "eval_samples_per_second": 65.773,
      "eval_steps_per_second": 2.779,
      "step": 240
    },
    {
      "epoch": 74.76923076923077,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5225813388824463,
      "eval_runtime": 1.0831,
      "eval_samples_per_second": 65.555,
      "eval_steps_per_second": 2.77,
      "step": 243
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.5295461416244507,
      "eval_runtime": 1.0961,
      "eval_samples_per_second": 64.776,
      "eval_steps_per_second": 2.737,
      "step": 247
    },
    {
      "epoch": 76.92307692307692,
      "grad_norm": 5.766895771026611,
      "learning_rate": 9.259259259259259e-06,
      "loss": 0.117,
      "step": 250
    },
    {
      "epoch": 76.92307692307692,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.5073444843292236,
      "eval_runtime": 1.1171,
      "eval_samples_per_second": 63.557,
      "eval_steps_per_second": 2.686,
      "step": 250
    },
    {
      "epoch": 77.84615384615384,
      "eval_accuracy": 0.8732394366197183,
      "eval_loss": 0.508054792881012,
      "eval_runtime": 1.133,
      "eval_samples_per_second": 62.666,
      "eval_steps_per_second": 2.648,
      "step": 253
    },
    {
      "epoch": 78.76923076923077,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5036078095436096,
      "eval_runtime": 1.0797,
      "eval_samples_per_second": 65.757,
      "eval_steps_per_second": 2.778,
      "step": 256
    },
    {
      "epoch": 80.0,
      "grad_norm": 3.9738874435424805,
      "learning_rate": 7.4074074074074075e-06,
      "loss": 0.1037,
      "step": 260
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5037922859191895,
      "eval_runtime": 1.092,
      "eval_samples_per_second": 65.018,
      "eval_steps_per_second": 2.747,
      "step": 260
    },
    {
      "epoch": 80.92307692307692,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5072393417358398,
      "eval_runtime": 1.1002,
      "eval_samples_per_second": 64.531,
      "eval_steps_per_second": 2.727,
      "step": 263
    },
    {
      "epoch": 81.84615384615384,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5080980062484741,
      "eval_runtime": 1.1165,
      "eval_samples_per_second": 63.59,
      "eval_steps_per_second": 2.687,
      "step": 266
    },
    {
      "epoch": 82.76923076923077,
      "eval_accuracy": 0.8309859154929577,
      "eval_loss": 0.5061848759651184,
      "eval_runtime": 1.0793,
      "eval_samples_per_second": 65.784,
      "eval_steps_per_second": 2.78,
      "step": 269
    },
    {
      "epoch": 83.07692307692308,
      "grad_norm": 3.555047035217285,
      "learning_rate": 5.555555555555556e-06,
      "loss": 0.1085,
      "step": 270
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.514407217502594,
      "eval_runtime": 1.1042,
      "eval_samples_per_second": 64.301,
      "eval_steps_per_second": 2.717,
      "step": 273
    },
    {
      "epoch": 84.92307692307692,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.520762026309967,
      "eval_runtime": 1.0924,
      "eval_samples_per_second": 64.993,
      "eval_steps_per_second": 2.746,
      "step": 276
    },
    {
      "epoch": 85.84615384615384,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5248145461082458,
      "eval_runtime": 1.0946,
      "eval_samples_per_second": 64.863,
      "eval_steps_per_second": 2.741,
      "step": 279
    },
    {
      "epoch": 86.15384615384616,
      "grad_norm": 4.372859001159668,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 0.0939,
      "step": 280
    },
    {
      "epoch": 86.76923076923077,
      "eval_accuracy": 0.8591549295774648,
      "eval_loss": 0.5300701260566711,
      "eval_runtime": 1.0981,
      "eval_samples_per_second": 64.659,
      "eval_steps_per_second": 2.732,
      "step": 282
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5356541872024536,
      "eval_runtime": 1.1105,
      "eval_samples_per_second": 63.934,
      "eval_steps_per_second": 2.701,
      "step": 286
    },
    {
      "epoch": 88.92307692307692,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5397929549217224,
      "eval_runtime": 1.0932,
      "eval_samples_per_second": 64.948,
      "eval_steps_per_second": 2.744,
      "step": 289
    },
    {
      "epoch": 89.23076923076923,
      "grad_norm": 3.9891717433929443,
      "learning_rate": 1.8518518518518519e-06,
      "loss": 0.0962,
      "step": 290
    },
    {
      "epoch": 89.84615384615384,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5434117913246155,
      "eval_runtime": 1.0898,
      "eval_samples_per_second": 65.15,
      "eval_steps_per_second": 2.753,
      "step": 292
    },
    {
      "epoch": 90.76923076923077,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5454682111740112,
      "eval_runtime": 1.1475,
      "eval_samples_per_second": 61.873,
      "eval_steps_per_second": 2.614,
      "step": 295
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5447829961776733,
      "eval_runtime": 1.1006,
      "eval_samples_per_second": 64.512,
      "eval_steps_per_second": 2.726,
      "step": 299
    },
    {
      "epoch": 92.3076923076923,
      "grad_norm": 3.649722099304199,
      "learning_rate": 0.0,
      "loss": 0.1131,
      "step": 300
    },
    {
      "epoch": 92.3076923076923,
      "eval_accuracy": 0.8450704225352113,
      "eval_loss": 0.5446295738220215,
      "eval_runtime": 1.1048,
      "eval_samples_per_second": 64.266,
      "eval_steps_per_second": 2.715,
      "step": 300
    },
    {
      "epoch": 92.3076923076923,
      "step": 300,
      "total_flos": 2.839022453308834e+18,
      "train_loss": 0.2592210362354914,
      "train_runtime": 1731.4546,
      "train_samples_per_second": 22.929,
      "train_steps_per_second": 0.173
    },
    {
      "epoch": 92.3076923076923,
      "eval_accuracy": 0.9014084507042254,
      "eval_loss": 0.49371322989463806,
      "eval_runtime": 1.1064,
      "eval_samples_per_second": 64.174,
      "eval_steps_per_second": 2.712,
      "step": 300
    }
  ],
  "logging_steps": 10,
  "max_steps": 300,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "total_flos": 2.839022453308834e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}