{
  "best_metric": 1.8658331632614136,
  "best_model_checkpoint": "/nfs/production/literature/amina-mardiyyah/new_data/OT-Entity-Extraction-Pipeline/model_outputs/Continued_pretraining/TAPT/bioformers/bioformer-16L/Mardiyyah/TAPT_data_V2_split/tapt_base_LR-2e-05/checkpoint-255",
  "epoch": 49.94117647058823,
  "eval_steps": 1,
  "global_step": 450,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.10457516339869281,
      "eval_loss": 2.221620798110962,
      "eval_runtime": 2.4071,
      "eval_samples_per_second": 808.035,
      "eval_steps_per_second": 12.879,
      "step": 1
    },
    {
      "epoch": 0.20915032679738563,
      "eval_loss": 2.1887502670288086,
      "eval_runtime": 2.4126,
      "eval_samples_per_second": 806.196,
      "eval_steps_per_second": 12.849,
      "step": 2
    },
    {
      "epoch": 0.3137254901960784,
      "eval_loss": 2.173266887664795,
      "eval_runtime": 2.4488,
      "eval_samples_per_second": 794.257,
      "eval_steps_per_second": 12.659,
      "step": 3
    },
    {
      "epoch": 0.41830065359477125,
      "eval_loss": 2.1297478675842285,
      "eval_runtime": 2.3778,
      "eval_samples_per_second": 817.994,
      "eval_steps_per_second": 13.037,
      "step": 4
    },
    {
      "epoch": 0.5228758169934641,
      "eval_loss": 2.192237377166748,
      "eval_runtime": 2.3912,
      "eval_samples_per_second": 813.415,
      "eval_steps_per_second": 12.964,
      "step": 5
    },
    {
      "epoch": 0.6274509803921569,
      "eval_loss": 2.1468276977539062,
      "eval_runtime": 2.3902,
      "eval_samples_per_second": 813.739,
      "eval_steps_per_second": 12.97,
      "step": 6
    },
    {
      "epoch": 0.7320261437908496,
      "eval_loss": 2.1432690620422363,
      "eval_runtime": 2.3678,
      "eval_samples_per_second": 821.446,
      "eval_steps_per_second": 13.092,
      "step": 7
    },
    {
      "epoch": 0.8366013071895425,
      "eval_loss": 2.0927038192749023,
      "eval_runtime": 2.3704,
      "eval_samples_per_second": 820.552,
      "eval_steps_per_second": 13.078,
      "step": 8
    },
    {
      "epoch": 0.9411764705882353,
      "eval_loss": 2.124303102493286,
      "eval_runtime": 2.4224,
      "eval_samples_per_second": 802.925,
      "eval_steps_per_second": 12.797,
      "step": 9
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 2.930349588394165,
      "learning_rate": 6.666666666666667e-06,
      "loss": 2.4847,
      "step": 9
    },
    {
      "epoch": 1.1045751633986929,
      "eval_loss": 2.1266961097717285,
      "eval_runtime": 2.3993,
      "eval_samples_per_second": 810.647,
      "eval_steps_per_second": 12.92,
      "step": 10
    },
    {
      "epoch": 1.2091503267973855,
      "eval_loss": 2.081995964050293,
      "eval_runtime": 2.4023,
      "eval_samples_per_second": 809.627,
      "eval_steps_per_second": 12.904,
      "step": 11
    },
    {
      "epoch": 1.3137254901960784,
      "eval_loss": 2.0737693309783936,
      "eval_runtime": 2.4011,
      "eval_samples_per_second": 810.042,
      "eval_steps_per_second": 12.911,
      "step": 12
    },
    {
      "epoch": 1.4183006535947713,
      "eval_loss": 2.0427086353302,
      "eval_runtime": 2.4076,
      "eval_samples_per_second": 807.874,
      "eval_steps_per_second": 12.876,
      "step": 13
    },
    {
      "epoch": 1.522875816993464,
      "eval_loss": 2.056819200515747,
      "eval_runtime": 2.3991,
      "eval_samples_per_second": 810.727,
      "eval_steps_per_second": 12.922,
      "step": 14
    },
    {
      "epoch": 1.6274509803921569,
      "eval_loss": 2.083451747894287,
      "eval_runtime": 2.4323,
      "eval_samples_per_second": 799.665,
      "eval_steps_per_second": 12.745,
      "step": 15
    },
    {
      "epoch": 1.7320261437908497,
      "eval_loss": 2.078913450241089,
      "eval_runtime": 2.4756,
      "eval_samples_per_second": 785.669,
      "eval_steps_per_second": 12.522,
      "step": 16
    },
    {
      "epoch": 1.8366013071895426,
      "eval_loss": 2.067417621612549,
      "eval_runtime": 2.438,
      "eval_samples_per_second": 797.798,
      "eval_steps_per_second": 12.716,
      "step": 17
    },
    {
      "epoch": 1.9411764705882353,
      "eval_loss": 2.0401482582092285,
      "eval_runtime": 2.4764,
      "eval_samples_per_second": 785.419,
      "eval_steps_per_second": 12.518,
      "step": 18
    },
    {
      "epoch": 1.9411764705882353,
      "grad_norm": 1.9967031478881836,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 2.4101,
      "step": 18
    },
    {
      "epoch": 2.104575163398693,
      "eval_loss": 2.0421407222747803,
      "eval_runtime": 2.4395,
      "eval_samples_per_second": 797.31,
      "eval_steps_per_second": 12.708,
      "step": 19
    },
    {
      "epoch": 2.2091503267973858,
      "eval_loss": 2.0762155055999756,
      "eval_runtime": 2.4888,
      "eval_samples_per_second": 781.507,
      "eval_steps_per_second": 12.456,
      "step": 20
    },
    {
      "epoch": 2.313725490196078,
      "eval_loss": 2.006462574005127,
      "eval_runtime": 2.5161,
      "eval_samples_per_second": 773.026,
      "eval_steps_per_second": 12.321,
      "step": 21
    },
    {
      "epoch": 2.418300653594771,
      "eval_loss": 2.0763015747070312,
      "eval_runtime": 2.4587,
      "eval_samples_per_second": 791.08,
      "eval_steps_per_second": 12.608,
      "step": 22
    },
    {
      "epoch": 2.522875816993464,
      "eval_loss": 2.0424351692199707,
      "eval_runtime": 2.4605,
      "eval_samples_per_second": 790.5,
      "eval_steps_per_second": 12.599,
      "step": 23
    },
    {
      "epoch": 2.627450980392157,
      "eval_loss": 2.031003952026367,
      "eval_runtime": 2.4119,
      "eval_samples_per_second": 806.408,
      "eval_steps_per_second": 12.853,
      "step": 24
    },
    {
      "epoch": 2.7320261437908497,
      "eval_loss": 2.0873942375183105,
      "eval_runtime": 2.4077,
      "eval_samples_per_second": 807.816,
      "eval_steps_per_second": 12.875,
      "step": 25
    },
    {
      "epoch": 2.8366013071895426,
      "eval_loss": 2.0235297679901123,
      "eval_runtime": 2.3945,
      "eval_samples_per_second": 812.27,
      "eval_steps_per_second": 12.946,
      "step": 26
    },
    {
      "epoch": 2.9411764705882355,
      "eval_loss": 2.059739589691162,
      "eval_runtime": 2.4114,
      "eval_samples_per_second": 806.602,
      "eval_steps_per_second": 12.856,
      "step": 27
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 2.4962875843048096,
      "learning_rate": 2e-05,
      "loss": 2.3677,
      "step": 27
    },
    {
      "epoch": 3.104575163398693,
      "eval_loss": 1.986527442932129,
      "eval_runtime": 2.3999,
      "eval_samples_per_second": 810.462,
      "eval_steps_per_second": 12.917,
      "step": 28
    },
    {
      "epoch": 3.2091503267973858,
      "eval_loss": 2.0295257568359375,
      "eval_runtime": 2.4114,
      "eval_samples_per_second": 806.573,
      "eval_steps_per_second": 12.855,
      "step": 29
    },
    {
      "epoch": 3.313725490196078,
      "eval_loss": 2.029600143432617,
      "eval_runtime": 2.3867,
      "eval_samples_per_second": 814.924,
      "eval_steps_per_second": 12.989,
      "step": 30
    },
    {
      "epoch": 3.418300653594771,
      "eval_loss": 2.0018720626831055,
      "eval_runtime": 2.3894,
      "eval_samples_per_second": 814.014,
      "eval_steps_per_second": 12.974,
      "step": 31
    },
    {
      "epoch": 3.522875816993464,
      "eval_loss": 1.9695795774459839,
      "eval_runtime": 2.3919,
      "eval_samples_per_second": 813.157,
      "eval_steps_per_second": 12.96,
      "step": 32
    },
    {
      "epoch": 3.627450980392157,
      "eval_loss": 2.0265488624572754,
      "eval_runtime": 2.426,
      "eval_samples_per_second": 801.734,
      "eval_steps_per_second": 12.778,
      "step": 33
    },
    {
      "epoch": 3.7320261437908497,
      "eval_loss": 2.010695457458496,
      "eval_runtime": 2.429,
      "eval_samples_per_second": 800.731,
      "eval_steps_per_second": 12.762,
      "step": 34
    },
    {
      "epoch": 3.8366013071895426,
      "eval_loss": 2.034428119659424,
      "eval_runtime": 2.4086,
      "eval_samples_per_second": 807.51,
      "eval_steps_per_second": 12.87,
      "step": 35
    },
    {
      "epoch": 3.9411764705882355,
      "eval_loss": 2.0281381607055664,
      "eval_runtime": 2.4118,
      "eval_samples_per_second": 806.449,
      "eval_steps_per_second": 12.853,
      "step": 36
    },
    {
      "epoch": 3.9411764705882355,
      "grad_norm": 1.8768209218978882,
      "learning_rate": 1.9574468085106384e-05,
      "loss": 2.2639,
      "step": 36
    },
    {
      "epoch": 4.104575163398692,
      "eval_loss": 2.0171053409576416,
      "eval_runtime": 2.4083,
      "eval_samples_per_second": 807.623,
      "eval_steps_per_second": 12.872,
      "step": 37
    },
    {
      "epoch": 4.209150326797386,
      "eval_loss": 2.0344126224517822,
      "eval_runtime": 2.4108,
      "eval_samples_per_second": 806.785,
      "eval_steps_per_second": 12.859,
      "step": 38
    },
    {
      "epoch": 4.313725490196078,
      "eval_loss": 1.9913954734802246,
      "eval_runtime": 2.3858,
      "eval_samples_per_second": 815.248,
      "eval_steps_per_second": 12.994,
      "step": 39
    },
    {
      "epoch": 4.4183006535947715,
      "eval_loss": 1.9855905771255493,
      "eval_runtime": 2.3822,
      "eval_samples_per_second": 816.455,
      "eval_steps_per_second": 13.013,
      "step": 40
    },
    {
      "epoch": 4.522875816993464,
      "eval_loss": 2.0357260704040527,
      "eval_runtime": 2.3873,
      "eval_samples_per_second": 814.74,
      "eval_steps_per_second": 12.986,
      "step": 41
    },
    {
      "epoch": 4.627450980392156,
      "eval_loss": 2.028900384902954,
      "eval_runtime": 2.4177,
      "eval_samples_per_second": 804.49,
      "eval_steps_per_second": 12.822,
      "step": 42
    },
    {
      "epoch": 4.73202614379085,
      "eval_loss": 1.9714045524597168,
      "eval_runtime": 2.3849,
      "eval_samples_per_second": 815.537,
      "eval_steps_per_second": 12.998,
      "step": 43
    },
    {
      "epoch": 4.836601307189542,
      "eval_loss": 1.9895257949829102,
      "eval_runtime": 2.4769,
      "eval_samples_per_second": 785.249,
      "eval_steps_per_second": 12.516,
      "step": 44
    },
    {
      "epoch": 4.9411764705882355,
      "eval_loss": 1.990486741065979,
      "eval_runtime": 2.4263,
      "eval_samples_per_second": 801.627,
      "eval_steps_per_second": 12.777,
      "step": 45
    },
    {
      "epoch": 4.9411764705882355,
      "grad_norm": 1.8783236742019653,
      "learning_rate": 1.914893617021277e-05,
      "loss": 2.2037,
      "step": 45
    },
    {
      "epoch": 5.104575163398692,
      "eval_loss": 1.9589457511901855,
      "eval_runtime": 2.4045,
      "eval_samples_per_second": 808.887,
      "eval_steps_per_second": 12.892,
      "step": 46
    },
    {
      "epoch": 5.209150326797386,
      "eval_loss": 1.9864917993545532,
      "eval_runtime": 2.4112,
      "eval_samples_per_second": 806.648,
      "eval_steps_per_second": 12.857,
      "step": 47
    },
    {
      "epoch": 5.313725490196078,
      "eval_loss": 2.0113699436187744,
      "eval_runtime": 2.4027,
      "eval_samples_per_second": 809.512,
      "eval_steps_per_second": 12.902,
      "step": 48
    },
    {
      "epoch": 5.4183006535947715,
      "eval_loss": 2.0007834434509277,
      "eval_runtime": 2.4133,
      "eval_samples_per_second": 805.942,
      "eval_steps_per_second": 12.845,
      "step": 49
    },
    {
      "epoch": 5.522875816993464,
      "eval_loss": 1.9577592611312866,
      "eval_runtime": 2.3791,
      "eval_samples_per_second": 817.533,
      "eval_steps_per_second": 13.03,
      "step": 50
    },
    {
      "epoch": 5.627450980392156,
      "eval_loss": 2.029423236846924,
      "eval_runtime": 2.3902,
      "eval_samples_per_second": 813.74,
      "eval_steps_per_second": 12.97,
      "step": 51
    },
    {
      "epoch": 5.73202614379085,
      "eval_loss": 1.9585332870483398,
      "eval_runtime": 2.4118,
      "eval_samples_per_second": 806.436,
      "eval_steps_per_second": 12.853,
      "step": 52
    },
    {
      "epoch": 5.836601307189542,
      "eval_loss": 1.9783401489257812,
      "eval_runtime": 2.4264,
      "eval_samples_per_second": 801.594,
      "eval_steps_per_second": 12.776,
      "step": 53
    },
    {
      "epoch": 5.9411764705882355,
      "eval_loss": 1.9880473613739014,
      "eval_runtime": 2.488,
      "eval_samples_per_second": 781.753,
      "eval_steps_per_second": 12.46,
      "step": 54
    },
    {
      "epoch": 5.9411764705882355,
      "grad_norm": 1.8594753742218018,
      "learning_rate": 1.872340425531915e-05,
      "loss": 2.16,
      "step": 54
    },
    {
      "epoch": 6.104575163398692,
      "eval_loss": 2.0060460567474365,
      "eval_runtime": 2.4336,
      "eval_samples_per_second": 799.234,
      "eval_steps_per_second": 12.738,
      "step": 55
    },
    {
      "epoch": 6.209150326797386,
      "eval_loss": 1.9557570219039917,
      "eval_runtime": 2.4097,
      "eval_samples_per_second": 807.143,
      "eval_steps_per_second": 12.864,
      "step": 56
    },
    {
      "epoch": 6.313725490196078,
      "eval_loss": 1.9664386510849,
      "eval_runtime": 2.4059,
      "eval_samples_per_second": 808.441,
      "eval_steps_per_second": 12.885,
      "step": 57
    },
    {
      "epoch": 6.4183006535947715,
      "eval_loss": 1.920135498046875,
      "eval_runtime": 2.4056,
      "eval_samples_per_second": 808.538,
      "eval_steps_per_second": 12.887,
      "step": 58
    },
    {
      "epoch": 6.522875816993464,
      "eval_loss": 1.9815952777862549,
      "eval_runtime": 2.4122,
      "eval_samples_per_second": 806.325,
      "eval_steps_per_second": 12.851,
      "step": 59
    },
    {
      "epoch": 6.627450980392156,
      "eval_loss": 1.9681768417358398,
      "eval_runtime": 2.3867,
      "eval_samples_per_second": 814.941,
      "eval_steps_per_second": 12.989,
      "step": 60
    },
    {
      "epoch": 6.73202614379085,
      "eval_loss": 1.9605098962783813,
      "eval_runtime": 2.3875,
      "eval_samples_per_second": 814.648,
      "eval_steps_per_second": 12.984,
      "step": 61
    },
    {
      "epoch": 6.836601307189542,
      "eval_loss": 1.9233237504959106,
      "eval_runtime": 2.385,
      "eval_samples_per_second": 815.51,
      "eval_steps_per_second": 12.998,
      "step": 62
    },
    {
      "epoch": 6.9411764705882355,
      "eval_loss": 1.9687212705612183,
      "eval_runtime": 2.3854,
      "eval_samples_per_second": 815.361,
      "eval_steps_per_second": 12.995,
      "step": 63
    },
    {
      "epoch": 6.9411764705882355,
      "grad_norm": 1.886400818824768,
      "learning_rate": 1.8297872340425533e-05,
      "loss": 2.1108,
      "step": 63
    },
    {
      "epoch": 7.104575163398692,
      "eval_loss": 1.9986543655395508,
      "eval_runtime": 2.4144,
      "eval_samples_per_second": 805.581,
      "eval_steps_per_second": 12.84,
      "step": 64
    },
    {
      "epoch": 7.209150326797386,
      "eval_loss": 2.002251386642456,
      "eval_runtime": 2.4255,
      "eval_samples_per_second": 801.892,
      "eval_steps_per_second": 12.781,
      "step": 65
    },
    {
      "epoch": 7.313725490196078,
      "eval_loss": 1.9626870155334473,
      "eval_runtime": 2.4235,
      "eval_samples_per_second": 802.565,
      "eval_steps_per_second": 12.792,
      "step": 66
    },
    {
      "epoch": 7.4183006535947715,
      "eval_loss": 2.0214684009552,
      "eval_runtime": 2.4109,
      "eval_samples_per_second": 806.764,
      "eval_steps_per_second": 12.858,
      "step": 67
    },
    {
      "epoch": 7.522875816993464,
      "eval_loss": 1.961344599723816,
      "eval_runtime": 2.4317,
      "eval_samples_per_second": 799.86,
      "eval_steps_per_second": 12.748,
      "step": 68
    },
    {
      "epoch": 7.627450980392156,
      "eval_loss": 2.026102066040039,
      "eval_runtime": 2.4027,
      "eval_samples_per_second": 809.502,
      "eval_steps_per_second": 12.902,
      "step": 69
    },
    {
      "epoch": 7.73202614379085,
      "eval_loss": 1.9625698328018188,
      "eval_runtime": 2.3794,
      "eval_samples_per_second": 817.425,
      "eval_steps_per_second": 13.028,
      "step": 70
    },
    {
      "epoch": 7.836601307189542,
      "eval_loss": 2.000683546066284,
      "eval_runtime": 2.3828,
      "eval_samples_per_second": 816.278,
      "eval_steps_per_second": 13.01,
      "step": 71
    },
    {
      "epoch": 7.9411764705882355,
      "eval_loss": 1.9403586387634277,
      "eval_runtime": 2.383,
      "eval_samples_per_second": 816.21,
      "eval_steps_per_second": 13.009,
      "step": 72
    },
    {
      "epoch": 7.9411764705882355,
      "grad_norm": 3.798304319381714,
      "learning_rate": 1.7872340425531915e-05,
      "loss": 2.0949,
      "step": 72
    },
    {
      "epoch": 8.104575163398692,
      "eval_loss": 1.994275450706482,
      "eval_runtime": 2.3862,
      "eval_samples_per_second": 815.09,
      "eval_steps_per_second": 12.991,
      "step": 73
    },
    {
      "epoch": 8.209150326797385,
      "eval_loss": 2.0442616939544678,
      "eval_runtime": 2.3871,
      "eval_samples_per_second": 814.81,
      "eval_steps_per_second": 12.987,
      "step": 74
    },
    {
      "epoch": 8.313725490196079,
      "eval_loss": 1.99091637134552,
      "eval_runtime": 2.3849,
      "eval_samples_per_second": 815.556,
      "eval_steps_per_second": 12.999,
      "step": 75
    },
    {
      "epoch": 8.418300653594772,
      "eval_loss": 1.9789609909057617,
      "eval_runtime": 2.4032,
      "eval_samples_per_second": 809.347,
      "eval_steps_per_second": 12.9,
      "step": 76
    },
    {
      "epoch": 8.522875816993464,
      "eval_loss": 1.9505332708358765,
      "eval_runtime": 2.457,
      "eval_samples_per_second": 791.608,
      "eval_steps_per_second": 12.617,
      "step": 77
    },
    {
      "epoch": 8.627450980392156,
      "eval_loss": 1.9477442502975464,
      "eval_runtime": 2.4164,
      "eval_samples_per_second": 804.91,
      "eval_steps_per_second": 12.829,
      "step": 78
    },
    {
      "epoch": 8.732026143790849,
      "eval_loss": 2.027162790298462,
      "eval_runtime": 2.4059,
      "eval_samples_per_second": 808.413,
      "eval_steps_per_second": 12.885,
      "step": 79
    },
    {
      "epoch": 8.836601307189543,
      "eval_loss": 1.954852819442749,
      "eval_runtime": 2.4078,
      "eval_samples_per_second": 807.8,
      "eval_steps_per_second": 12.875,
      "step": 80
    },
    {
      "epoch": 8.941176470588236,
      "eval_loss": 1.9641313552856445,
      "eval_runtime": 2.4106,
      "eval_samples_per_second": 806.865,
      "eval_steps_per_second": 12.86,
      "step": 81
    },
    {
      "epoch": 8.941176470588236,
      "grad_norm": 1.9192023277282715,
      "learning_rate": 1.74468085106383e-05,
      "loss": 2.0617,
      "step": 81
    },
    {
      "epoch": 9.104575163398692,
      "eval_loss": 1.9859141111373901,
      "eval_runtime": 2.3909,
      "eval_samples_per_second": 813.488,
      "eval_steps_per_second": 12.966,
      "step": 82
    },
    {
      "epoch": 9.209150326797385,
      "eval_loss": 1.937601089477539,
      "eval_runtime": 2.3889,
      "eval_samples_per_second": 814.196,
      "eval_steps_per_second": 12.977,
      "step": 83
    },
    {
      "epoch": 9.313725490196079,
      "eval_loss": 1.9699262380599976,
      "eval_runtime": 2.3832,
      "eval_samples_per_second": 816.116,
      "eval_steps_per_second": 13.008,
      "step": 84
    },
    {
      "epoch": 9.418300653594772,
      "eval_loss": 1.9334497451782227,
      "eval_runtime": 2.4366,
      "eval_samples_per_second": 798.247,
      "eval_steps_per_second": 12.723,
      "step": 85
    },
    {
      "epoch": 9.522875816993464,
      "eval_loss": 1.9708276987075806,
      "eval_runtime": 2.3835,
      "eval_samples_per_second": 816.03,
      "eval_steps_per_second": 13.006,
      "step": 86
    },
    {
      "epoch": 9.627450980392156,
      "eval_loss": 1.970037817955017,
      "eval_runtime": 2.4674,
      "eval_samples_per_second": 788.282,
      "eval_steps_per_second": 12.564,
      "step": 87
    },
    {
      "epoch": 9.732026143790849,
      "eval_loss": 1.9634466171264648,
      "eval_runtime": 2.4497,
      "eval_samples_per_second": 793.975,
      "eval_steps_per_second": 12.655,
      "step": 88
    },
    {
      "epoch": 9.836601307189543,
      "eval_loss": 1.92203688621521,
      "eval_runtime": 2.4109,
      "eval_samples_per_second": 806.761,
      "eval_steps_per_second": 12.858,
      "step": 89
    },
    {
      "epoch": 9.941176470588236,
      "eval_loss": 1.966900110244751,
      "eval_runtime": 2.4107,
      "eval_samples_per_second": 806.822,
      "eval_steps_per_second": 12.859,
      "step": 90
    },
    {
      "epoch": 9.941176470588236,
      "grad_norm": 2.050672769546509,
      "learning_rate": 1.7021276595744682e-05,
      "loss": 2.0509,
      "step": 90
    },
    {
      "epoch": 10.104575163398692,
      "eval_loss": 1.956833004951477,
      "eval_runtime": 2.3947,
      "eval_samples_per_second": 812.203,
      "eval_steps_per_second": 12.945,
      "step": 91
    },
    {
      "epoch": 10.209150326797385,
      "eval_loss": 1.9699444770812988,
      "eval_runtime": 2.3837,
      "eval_samples_per_second": 815.943,
      "eval_steps_per_second": 13.005,
      "step": 92
    },
    {
      "epoch": 10.313725490196079,
      "eval_loss": 2.0316123962402344,
      "eval_runtime": 2.3823,
      "eval_samples_per_second": 816.431,
      "eval_steps_per_second": 13.013,
      "step": 93
    },
    {
      "epoch": 10.418300653594772,
      "eval_loss": 1.912984848022461,
      "eval_runtime": 2.3869,
      "eval_samples_per_second": 814.86,
      "eval_steps_per_second": 12.987,
      "step": 94
    },
    {
      "epoch": 10.522875816993464,
      "eval_loss": 1.9707229137420654,
      "eval_runtime": 2.3837,
      "eval_samples_per_second": 815.942,
      "eval_steps_per_second": 13.005,
      "step": 95
    },
    {
      "epoch": 10.627450980392156,
      "eval_loss": 1.9623687267303467,
      "eval_runtime": 2.455,
      "eval_samples_per_second": 792.269,
      "eval_steps_per_second": 12.627,
      "step": 96
    },
    {
      "epoch": 10.732026143790849,
      "eval_loss": 1.9515836238861084,
      "eval_runtime": 2.4477,
      "eval_samples_per_second": 794.62,
      "eval_steps_per_second": 12.665,
      "step": 97
    },
    {
      "epoch": 10.836601307189543,
      "eval_loss": 1.9508367776870728,
      "eval_runtime": 2.407,
      "eval_samples_per_second": 808.071,
      "eval_steps_per_second": 12.879,
      "step": 98
    },
    {
      "epoch": 10.941176470588236,
      "eval_loss": 1.9166395664215088,
      "eval_runtime": 2.4193,
      "eval_samples_per_second": 803.965,
      "eval_steps_per_second": 12.814,
      "step": 99
    },
    {
      "epoch": 10.941176470588236,
      "grad_norm": 1.911039113998413,
      "learning_rate": 1.6595744680851064e-05,
      "loss": 1.9835,
      "step": 99
    },
    {
      "epoch": 11.104575163398692,
      "eval_loss": 1.9469496011734009,
      "eval_runtime": 2.4171,
      "eval_samples_per_second": 804.693,
      "eval_steps_per_second": 12.825,
      "step": 100
    },
    {
      "epoch": 11.209150326797385,
      "eval_loss": 1.962018609046936,
      "eval_runtime": 2.3932,
      "eval_samples_per_second": 812.727,
      "eval_steps_per_second": 12.953,
      "step": 101
    },
    {
      "epoch": 11.313725490196079,
      "eval_loss": 1.94699227809906,
      "eval_runtime": 2.3789,
      "eval_samples_per_second": 817.61,
      "eval_steps_per_second": 13.031,
      "step": 102
    },
    {
      "epoch": 11.418300653594772,
      "eval_loss": 1.945833444595337,
      "eval_runtime": 2.3834,
      "eval_samples_per_second": 816.059,
      "eval_steps_per_second": 13.007,
      "step": 103
    },
    {
      "epoch": 11.522875816993464,
      "eval_loss": 1.9585113525390625,
      "eval_runtime": 2.3811,
      "eval_samples_per_second": 816.833,
      "eval_steps_per_second": 13.019,
      "step": 104
    },
    {
      "epoch": 11.627450980392156,
      "eval_loss": 1.9450502395629883,
      "eval_runtime": 2.381,
      "eval_samples_per_second": 816.892,
      "eval_steps_per_second": 13.02,
      "step": 105
    },
    {
      "epoch": 11.732026143790849,
      "eval_loss": 1.9202919006347656,
      "eval_runtime": 2.4348,
      "eval_samples_per_second": 798.83,
      "eval_steps_per_second": 12.732,
      "step": 106
    },
    {
      "epoch": 11.836601307189543,
      "eval_loss": 1.9322612285614014,
      "eval_runtime": 2.4503,
      "eval_samples_per_second": 793.773,
      "eval_steps_per_second": 12.651,
      "step": 107
    },
    {
      "epoch": 11.941176470588236,
      "eval_loss": 1.9641361236572266,
      "eval_runtime": 2.4059,
      "eval_samples_per_second": 808.427,
      "eval_steps_per_second": 12.885,
      "step": 108
    },
    {
      "epoch": 11.941176470588236,
      "grad_norm": 1.9469199180603027,
      "learning_rate": 1.6170212765957446e-05,
      "loss": 1.9719,
      "step": 108
    },
    {
      "epoch": 12.104575163398692,
      "eval_loss": 1.9262347221374512,
      "eval_runtime": 2.4058,
      "eval_samples_per_second": 808.471,
      "eval_steps_per_second": 12.886,
      "step": 109
    },
    {
      "epoch": 12.209150326797385,
      "eval_loss": 1.9799877405166626,
      "eval_runtime": 2.4101,
      "eval_samples_per_second": 807.019,
      "eval_steps_per_second": 12.863,
      "step": 110
    },
    {
      "epoch": 12.313725490196079,
      "eval_loss": 1.9421709775924683,
      "eval_runtime": 2.3763,
      "eval_samples_per_second": 818.512,
      "eval_steps_per_second": 13.046,
      "step": 111
    },
    {
      "epoch": 12.418300653594772,
      "eval_loss": 1.9286293983459473,
      "eval_runtime": 2.4023,
      "eval_samples_per_second": 809.639,
      "eval_steps_per_second": 12.904,
      "step": 112
    },
    {
      "epoch": 12.522875816993464,
      "eval_loss": 1.9933801889419556,
      "eval_runtime": 2.3795,
      "eval_samples_per_second": 817.406,
      "eval_steps_per_second": 13.028,
      "step": 113
    },
    {
      "epoch": 12.627450980392156,
      "eval_loss": 1.9704465866088867,
      "eval_runtime": 2.3792,
      "eval_samples_per_second": 817.502,
      "eval_steps_per_second": 13.03,
      "step": 114
    },
    {
      "epoch": 12.732026143790849,
      "eval_loss": 1.939013957977295,
      "eval_runtime": 2.4295,
      "eval_samples_per_second": 800.592,
      "eval_steps_per_second": 12.76,
      "step": 115
    },
    {
      "epoch": 12.836601307189543,
      "eval_loss": 1.916093349456787,
      "eval_runtime": 2.3862,
      "eval_samples_per_second": 815.104,
      "eval_steps_per_second": 12.991,
      "step": 116
    },
    {
      "epoch": 12.941176470588236,
      "eval_loss": 1.94829523563385,
      "eval_runtime": 2.4403,
      "eval_samples_per_second": 797.034,
      "eval_steps_per_second": 12.703,
      "step": 117
    },
    {
      "epoch": 12.941176470588236,
      "grad_norm": 1.835829734802246,
      "learning_rate": 1.5744680851063832e-05,
      "loss": 1.9663,
      "step": 117
    },
    {
      "epoch": 13.104575163398692,
      "eval_loss": 1.9584107398986816,
      "eval_runtime": 2.4351,
      "eval_samples_per_second": 798.732,
      "eval_steps_per_second": 12.73,
      "step": 118
    },
    {
      "epoch": 13.209150326797385,
      "eval_loss": 1.9641852378845215,
      "eval_runtime": 2.4617,
      "eval_samples_per_second": 790.102,
      "eval_steps_per_second": 12.593,
      "step": 119
    },
    {
      "epoch": 13.313725490196079,
      "eval_loss": 1.9446567296981812,
      "eval_runtime": 2.4215,
      "eval_samples_per_second": 803.226,
      "eval_steps_per_second": 12.802,
      "step": 120
    },
    {
      "epoch": 13.418300653594772,
      "eval_loss": 2.001385450363159,
      "eval_runtime": 2.416,
      "eval_samples_per_second": 805.044,
      "eval_steps_per_second": 12.831,
      "step": 121
    },
    {
      "epoch": 13.522875816993464,
      "eval_loss": 1.8805845975875854,
      "eval_runtime": 2.4069,
      "eval_samples_per_second": 808.102,
      "eval_steps_per_second": 12.88,
      "step": 122
    },
    {
      "epoch": 13.627450980392156,
      "eval_loss": 1.9486974477767944,
      "eval_runtime": 2.4072,
      "eval_samples_per_second": 807.987,
      "eval_steps_per_second": 12.878,
      "step": 123
    },
    {
      "epoch": 13.732026143790849,
      "eval_loss": 1.9180878400802612,
      "eval_runtime": 2.4102,
      "eval_samples_per_second": 806.973,
      "eval_steps_per_second": 12.862,
      "step": 124
    },
    {
      "epoch": 13.836601307189543,
      "eval_loss": 1.9238054752349854,
      "eval_runtime": 2.3928,
      "eval_samples_per_second": 812.868,
      "eval_steps_per_second": 12.956,
      "step": 125
    },
    {
      "epoch": 13.941176470588236,
      "eval_loss": 1.9513754844665527,
      "eval_runtime": 2.3862,
      "eval_samples_per_second": 815.11,
      "eval_steps_per_second": 12.991,
      "step": 126
    },
    {
      "epoch": 13.941176470588236,
      "grad_norm": 1.8433274030685425,
      "learning_rate": 1.5319148936170214e-05,
      "loss": 1.9785,
      "step": 126
    },
    {
      "epoch": 14.104575163398692,
      "eval_loss": 1.9426443576812744,
      "eval_runtime": 2.3889,
      "eval_samples_per_second": 814.174,
      "eval_steps_per_second": 12.977,
      "step": 127
    },
    {
      "epoch": 14.209150326797385,
      "eval_loss": 1.9765559434890747,
      "eval_runtime": 2.3875,
      "eval_samples_per_second": 814.644,
      "eval_steps_per_second": 12.984,
      "step": 128
    },
    {
      "epoch": 14.313725490196079,
      "eval_loss": 1.9118081331253052,
      "eval_runtime": 2.4268,
      "eval_samples_per_second": 801.463,
      "eval_steps_per_second": 12.774,
      "step": 129
    },
    {
      "epoch": 14.418300653594772,
      "eval_loss": 1.9367104768753052,
      "eval_runtime": 2.4183,
      "eval_samples_per_second": 804.282,
      "eval_steps_per_second": 12.819,
      "step": 130
    },
    {
      "epoch": 14.522875816993464,
      "eval_loss": 1.9372411966323853,
      "eval_runtime": 2.4201,
      "eval_samples_per_second": 803.68,
      "eval_steps_per_second": 12.809,
      "step": 131
    },
    {
      "epoch": 14.627450980392156,
      "eval_loss": 1.923244595527649,
      "eval_runtime": 2.4324,
      "eval_samples_per_second": 799.606,
      "eval_steps_per_second": 12.744,
      "step": 132
    },
    {
      "epoch": 14.732026143790849,
      "eval_loss": 1.999928593635559,
      "eval_runtime": 2.4161,
      "eval_samples_per_second": 805.026,
      "eval_steps_per_second": 12.831,
      "step": 133
    },
    {
      "epoch": 14.836601307189543,
      "eval_loss": 1.9354963302612305,
      "eval_runtime": 2.3965,
      "eval_samples_per_second": 811.59,
      "eval_steps_per_second": 12.935,
      "step": 134
    },
    {
      "epoch": 14.941176470588236,
      "eval_loss": 1.965717077255249,
      "eval_runtime": 2.4083,
      "eval_samples_per_second": 807.639,
      "eval_steps_per_second": 12.872,
      "step": 135
    },
    {
      "epoch": 14.941176470588236,
      "grad_norm": 1.9256954193115234,
      "learning_rate": 1.4893617021276596e-05,
      "loss": 1.9329,
      "step": 135
    },
    {
      "epoch": 15.104575163398692,
      "eval_loss": 1.9451290369033813,
      "eval_runtime": 2.3926,
      "eval_samples_per_second": 812.94,
      "eval_steps_per_second": 12.957,
      "step": 136
    },
    {
      "epoch": 15.209150326797385,
      "eval_loss": 1.9596805572509766,
      "eval_runtime": 2.4003,
      "eval_samples_per_second": 810.326,
      "eval_steps_per_second": 12.915,
      "step": 137
    },
    {
      "epoch": 15.313725490196079,
      "eval_loss": 1.9179918766021729,
      "eval_runtime": 2.388,
      "eval_samples_per_second": 814.49,
      "eval_steps_per_second": 12.982,
      "step": 138
    },
    {
      "epoch": 15.418300653594772,
      "eval_loss": 1.9344438314437866,
      "eval_runtime": 2.4394,
      "eval_samples_per_second": 797.34,
      "eval_steps_per_second": 12.708,
      "step": 139
    },
    {
      "epoch": 15.522875816993464,
      "eval_loss": 1.9772499799728394,
      "eval_runtime": 2.4332,
      "eval_samples_per_second": 799.368,
      "eval_steps_per_second": 12.741,
      "step": 140
    },
    {
      "epoch": 15.627450980392156,
      "eval_loss": 1.9796696901321411,
      "eval_runtime": 2.4159,
      "eval_samples_per_second": 805.096,
      "eval_steps_per_second": 12.832,
      "step": 141
    },
    {
      "epoch": 15.732026143790849,
      "eval_loss": 1.9060624837875366,
      "eval_runtime": 2.4134,
      "eval_samples_per_second": 805.928,
      "eval_steps_per_second": 12.845,
      "step": 142
    },
    {
      "epoch": 15.836601307189543,
      "eval_loss": 1.8885753154754639,
      "eval_runtime": 2.4138,
      "eval_samples_per_second": 805.794,
      "eval_steps_per_second": 12.843,
      "step": 143
    },
    {
      "epoch": 15.941176470588236,
      "eval_loss": 1.9685148000717163,
      "eval_runtime": 2.4145,
      "eval_samples_per_second": 805.548,
      "eval_steps_per_second": 12.839,
      "step": 144
    },
    {
      "epoch": 15.941176470588236,
      "grad_norm": 1.8362805843353271,
      "learning_rate": 1.4468085106382981e-05,
      "loss": 1.9144,
      "step": 144
    },
    {
      "epoch": 16.104575163398692,
      "eval_loss": 1.9797979593276978,
      "eval_runtime": 2.3896,
      "eval_samples_per_second": 813.952,
      "eval_steps_per_second": 12.973,
      "step": 145
    },
    {
      "epoch": 16.209150326797385,
      "eval_loss": 1.9587923288345337,
      "eval_runtime": 2.4182,
      "eval_samples_per_second": 804.331,
      "eval_steps_per_second": 12.82,
      "step": 146
    },
    {
      "epoch": 16.313725490196077,
      "eval_loss": 1.9274431467056274,
      "eval_runtime": 2.3878,
      "eval_samples_per_second": 814.56,
      "eval_steps_per_second": 12.983,
      "step": 147
    },
    {
      "epoch": 16.41830065359477,
      "eval_loss": 1.958984375,
      "eval_runtime": 2.4353,
      "eval_samples_per_second": 798.68,
      "eval_steps_per_second": 12.73,
      "step": 148
    },
    {
      "epoch": 16.522875816993466,
      "eval_loss": 1.9552897214889526,
      "eval_runtime": 2.4367,
      "eval_samples_per_second": 798.2,
      "eval_steps_per_second": 12.722,
      "step": 149
    },
    {
      "epoch": 16.627450980392158,
      "eval_loss": 1.9142913818359375,
      "eval_runtime": 2.4118,
      "eval_samples_per_second": 806.44,
      "eval_steps_per_second": 12.853,
      "step": 150
    },
    {
      "epoch": 16.73202614379085,
      "eval_loss": 1.9268592596054077,
      "eval_runtime": 2.4143,
      "eval_samples_per_second": 805.633,
      "eval_steps_per_second": 12.84,
      "step": 151
    },
    {
      "epoch": 16.836601307189543,
      "eval_loss": 1.965384840965271,
      "eval_runtime": 2.4177,
      "eval_samples_per_second": 804.492,
      "eval_steps_per_second": 12.822,
      "step": 152
    },
    {
      "epoch": 16.941176470588236,
      "eval_loss": 1.9789389371871948,
      "eval_runtime": 2.4157,
      "eval_samples_per_second": 805.134,
      "eval_steps_per_second": 12.832,
      "step": 153
    },
    {
      "epoch": 16.941176470588236,
      "grad_norm": 1.918270230293274,
      "learning_rate": 1.4042553191489363e-05,
      "loss": 1.9103,
      "step": 153
    },
    {
      "epoch": 17.104575163398692,
      "eval_loss": 1.9568538665771484,
      "eval_runtime": 2.4112,
      "eval_samples_per_second": 806.642,
      "eval_steps_per_second": 12.857,
      "step": 154
    },
    {
      "epoch": 17.209150326797385,
      "eval_loss": 1.9652351140975952,
      "eval_runtime": 2.3867,
      "eval_samples_per_second": 814.935,
      "eval_steps_per_second": 12.989,
      "step": 155
    },
    {
      "epoch": 17.313725490196077,
      "eval_loss": 1.9810242652893066,
      "eval_runtime": 2.3904,
      "eval_samples_per_second": 813.655,
      "eval_steps_per_second": 12.968,
      "step": 156
    },
    {
      "epoch": 17.41830065359477,
      "eval_loss": 1.928475260734558,
      "eval_runtime": 2.3938,
      "eval_samples_per_second": 812.526,
      "eval_steps_per_second": 12.95,
      "step": 157
    },
    {
      "epoch": 17.522875816993466,
      "eval_loss": 1.937834620475769,
      "eval_runtime": 2.4231,
      "eval_samples_per_second": 802.677,
      "eval_steps_per_second": 12.793,
      "step": 158
    },
    {
      "epoch": 17.627450980392158,
      "eval_loss": 1.9520132541656494,
      "eval_runtime": 2.4525,
      "eval_samples_per_second": 793.081,
      "eval_steps_per_second": 12.64,
      "step": 159
    },
    {
      "epoch": 17.73202614379085,
      "eval_loss": 1.9782063961029053,
      "eval_runtime": 2.4273,
      "eval_samples_per_second": 801.302,
      "eval_steps_per_second": 12.771,
      "step": 160
    },
    {
      "epoch": 17.836601307189543,
      "eval_loss": 1.9681016206741333,
      "eval_runtime": 2.4116,
      "eval_samples_per_second": 806.515,
      "eval_steps_per_second": 12.854,
      "step": 161
    },
    {
      "epoch": 17.941176470588236,
      "eval_loss": 1.8925799131393433,
      "eval_runtime": 2.4098,
      "eval_samples_per_second": 807.121,
      "eval_steps_per_second": 12.864,
      "step": 162
    },
    {
      "epoch": 17.941176470588236,
      "grad_norm": 1.8396626710891724,
      "learning_rate": 1.3617021276595745e-05,
      "loss": 1.887,
      "step": 162
    },
    {
      "epoch": 18.104575163398692,
      "eval_loss": 1.9333585500717163,
      "eval_runtime": 2.4106,
      "eval_samples_per_second": 806.84,
      "eval_steps_per_second": 12.86,
      "step": 163
    },
    {
      "epoch": 18.209150326797385,
      "eval_loss": 1.925223469734192,
      "eval_runtime": 2.3936,
      "eval_samples_per_second": 812.57,
      "eval_steps_per_second": 12.951,
      "step": 164
    },
    {
      "epoch": 18.313725490196077,
      "eval_loss": 1.9398906230926514,
      "eval_runtime": 2.4263,
      "eval_samples_per_second": 801.632,
      "eval_steps_per_second": 12.777,
      "step": 165
    },
    {
      "epoch": 18.41830065359477,
      "eval_loss": 1.9518330097198486,
      "eval_runtime": 2.3924,
      "eval_samples_per_second": 812.992,
      "eval_steps_per_second": 12.958,
      "step": 166
    },
    {
      "epoch": 18.522875816993466,
      "eval_loss": 1.992385983467102,
      "eval_runtime": 2.3882,
      "eval_samples_per_second": 814.425,
      "eval_steps_per_second": 12.981,
      "step": 167
    },
    {
      "epoch": 18.627450980392158,
      "eval_loss": 1.905411720275879,
      "eval_runtime": 2.3878,
      "eval_samples_per_second": 814.555,
      "eval_steps_per_second": 12.983,
      "step": 168
    },
    {
      "epoch": 18.73202614379085,
      "eval_loss": 1.9480212926864624,
      "eval_runtime": 2.4462,
      "eval_samples_per_second": 795.096,
      "eval_steps_per_second": 12.672,
      "step": 169
    },
    {
      "epoch": 18.836601307189543,
      "eval_loss": 1.9308433532714844,
      "eval_runtime": 2.445,
      "eval_samples_per_second": 795.492,
      "eval_steps_per_second": 12.679,
      "step": 170
    },
    {
      "epoch": 18.941176470588236,
      "eval_loss": 1.9342797994613647,
      "eval_runtime": 2.414,
      "eval_samples_per_second": 805.712,
      "eval_steps_per_second": 12.842,
      "step": 171
    },
    {
      "epoch": 18.941176470588236,
      "grad_norm": 1.8954132795333862,
      "learning_rate": 1.3191489361702127e-05,
      "loss": 1.8644,
      "step": 171
    },
    {
      "epoch": 19.104575163398692,
      "eval_loss": 1.9860589504241943,
      "eval_runtime": 2.4977,
      "eval_samples_per_second": 778.731,
      "eval_steps_per_second": 12.412,
      "step": 172
    },
    {
      "epoch": 19.209150326797385,
      "eval_loss": 1.9452682733535767,
      "eval_runtime": 2.413,
      "eval_samples_per_second": 806.043,
      "eval_steps_per_second": 12.847,
      "step": 173
    },
    {
      "epoch": 19.313725490196077,
      "eval_loss": 1.8998777866363525,
      "eval_runtime": 2.3895,
      "eval_samples_per_second": 813.974,
      "eval_steps_per_second": 12.973,
      "step": 174
    },
    {
      "epoch": 19.41830065359477,
      "eval_loss": 1.93086838722229,
      "eval_runtime": 2.383,
      "eval_samples_per_second": 816.195,
      "eval_steps_per_second": 13.009,
      "step": 175
    },
    {
      "epoch": 19.522875816993466,
      "eval_loss": 1.954423189163208,
      "eval_runtime": 2.393,
      "eval_samples_per_second": 812.774,
      "eval_steps_per_second": 12.954,
      "step": 176
    },
    {
      "epoch": 19.627450980392158,
      "eval_loss": 1.9435521364212036,
      "eval_runtime": 2.4095,
      "eval_samples_per_second": 807.227,
      "eval_steps_per_second": 12.866,
      "step": 177
    },
    {
      "epoch": 19.73202614379085,
      "eval_loss": 1.9165093898773193,
      "eval_runtime": 2.3936,
      "eval_samples_per_second": 812.598,
      "eval_steps_per_second": 12.951,
      "step": 178
    },
    {
      "epoch": 19.836601307189543,
      "eval_loss": 1.9695576429367065,
      "eval_runtime": 2.4194,
      "eval_samples_per_second": 803.908,
      "eval_steps_per_second": 12.813,
      "step": 179
    },
    {
      "epoch": 19.941176470588236,
      "eval_loss": 1.9247905015945435,
      "eval_runtime": 2.4477,
      "eval_samples_per_second": 794.61,
      "eval_steps_per_second": 12.665,
      "step": 180
    },
    {
      "epoch": 19.941176470588236,
      "grad_norm": 1.8007246255874634,
      "learning_rate": 1.2765957446808513e-05,
      "loss": 1.8687,
      "step": 180
    },
    {
      "epoch": 20.104575163398692,
      "eval_loss": 1.9517226219177246,
      "eval_runtime": 2.4132,
      "eval_samples_per_second": 805.981,
      "eval_steps_per_second": 12.846,
      "step": 181
    },
    {
      "epoch": 20.209150326797385,
      "eval_loss": 1.9041943550109863,
      "eval_runtime": 2.4088,
      "eval_samples_per_second": 807.45,
      "eval_steps_per_second": 12.869,
      "step": 182
    },
    {
      "epoch": 20.313725490196077,
      "eval_loss": 1.992538571357727,
      "eval_runtime": 2.4151,
      "eval_samples_per_second": 805.334,
      "eval_steps_per_second": 12.836,
      "step": 183
    },
    {
      "epoch": 20.41830065359477,
      "eval_loss": 1.8842642307281494,
      "eval_runtime": 2.4235,
      "eval_samples_per_second": 802.553,
      "eval_steps_per_second": 12.791,
      "step": 184
    },
    {
      "epoch": 20.522875816993466,
      "eval_loss": 1.979435682296753,
      "eval_runtime": 2.3874,
      "eval_samples_per_second": 814.695,
      "eval_steps_per_second": 12.985,
      "step": 185
    },
    {
      "epoch": 20.627450980392158,
      "eval_loss": 1.9789183139801025,
      "eval_runtime": 2.3863,
      "eval_samples_per_second": 815.07,
      "eval_steps_per_second": 12.991,
      "step": 186
    },
    {
      "epoch": 20.73202614379085,
      "eval_loss": 1.9192243814468384,
      "eval_runtime": 2.3878,
      "eval_samples_per_second": 814.573,
      "eval_steps_per_second": 12.983,
      "step": 187
    },
    {
      "epoch": 20.836601307189543,
      "eval_loss": 1.9174364805221558,
      "eval_runtime": 2.3935,
      "eval_samples_per_second": 812.633,
      "eval_steps_per_second": 12.952,
      "step": 188
    },
    {
      "epoch": 20.941176470588236,
      "eval_loss": 1.9568063020706177,
      "eval_runtime": 2.4211,
      "eval_samples_per_second": 803.354,
      "eval_steps_per_second": 12.804,
      "step": 189
    },
    {
      "epoch": 20.941176470588236,
      "grad_norm": 1.8035422563552856,
      "learning_rate": 1.2340425531914895e-05,
      "loss": 1.8361,
      "step": 189
    },
    {
      "epoch": 21.104575163398692,
      "eval_loss": 1.9128376245498657,
      "eval_runtime": 2.4627,
      "eval_samples_per_second": 789.793,
      "eval_steps_per_second": 12.588,
      "step": 190
    },
    {
      "epoch": 21.209150326797385,
      "eval_loss": 1.9428894519805908,
      "eval_runtime": 2.4145,
      "eval_samples_per_second": 805.537,
      "eval_steps_per_second": 12.839,
      "step": 191
    },
    {
      "epoch": 21.313725490196077,
      "eval_loss": 1.95577073097229,
      "eval_runtime": 2.4665,
      "eval_samples_per_second": 788.556,
      "eval_steps_per_second": 12.568,
      "step": 192
    },
    {
      "epoch": 21.41830065359477,
      "eval_loss": 1.9128402471542358,
      "eval_runtime": 2.4073,
      "eval_samples_per_second": 807.972,
      "eval_steps_per_second": 12.878,
      "step": 193
    },
    {
      "epoch": 21.522875816993466,
      "eval_loss": 1.9588518142700195,
      "eval_runtime": 2.3872,
      "eval_samples_per_second": 814.75,
      "eval_steps_per_second": 12.986,
      "step": 194
    },
    {
      "epoch": 21.627450980392158,
      "eval_loss": 1.9744739532470703,
      "eval_runtime": 2.4193,
      "eval_samples_per_second": 803.936,
      "eval_steps_per_second": 12.813,
      "step": 195
    },
    {
      "epoch": 21.73202614379085,
      "eval_loss": 1.9993598461151123,
      "eval_runtime": 2.3876,
      "eval_samples_per_second": 814.634,
      "eval_steps_per_second": 12.984,
      "step": 196
    },
    {
      "epoch": 21.836601307189543,
      "eval_loss": 1.959428071975708,
      "eval_runtime": 2.3868,
      "eval_samples_per_second": 814.91,
      "eval_steps_per_second": 12.988,
      "step": 197
    },
    {
      "epoch": 21.941176470588236,
      "eval_loss": 1.9063607454299927,
      "eval_runtime": 2.3998,
      "eval_samples_per_second": 810.501,
      "eval_steps_per_second": 12.918,
      "step": 198
    },
    {
      "epoch": 21.941176470588236,
      "grad_norm": 1.7296489477157593,
      "learning_rate": 1.1914893617021277e-05,
      "loss": 1.8461,
      "step": 198
    },
    {
      "epoch": 22.104575163398692,
      "eval_loss": 1.9475386142730713,
      "eval_runtime": 2.4105,
      "eval_samples_per_second": 806.877,
      "eval_steps_per_second": 12.86,
      "step": 199
    },
    {
      "epoch": 22.209150326797385,
      "eval_loss": 1.9637689590454102,
      "eval_runtime": 2.4134,
      "eval_samples_per_second": 805.906,
      "eval_steps_per_second": 12.845,
      "step": 200
    },
    {
      "epoch": 22.313725490196077,
      "eval_loss": 1.9350510835647583,
      "eval_runtime": 2.4228,
      "eval_samples_per_second": 802.787,
      "eval_steps_per_second": 12.795,
      "step": 201
    },
    {
      "epoch": 22.41830065359477,
      "eval_loss": 1.9184238910675049,
      "eval_runtime": 2.4127,
      "eval_samples_per_second": 806.144,
      "eval_steps_per_second": 12.849,
      "step": 202
    },
    {
      "epoch": 22.522875816993466,
      "eval_loss": 1.9656862020492554,
      "eval_runtime": 2.4145,
      "eval_samples_per_second": 805.559,
      "eval_steps_per_second": 12.839,
      "step": 203
    },
    {
      "epoch": 22.627450980392158,
      "eval_loss": 1.9108870029449463,
      "eval_runtime": 2.3915,
      "eval_samples_per_second": 813.292,
      "eval_steps_per_second": 12.962,
      "step": 204
    },
    {
      "epoch": 22.73202614379085,
      "eval_loss": 1.9319818019866943,
      "eval_runtime": 2.3918,
      "eval_samples_per_second": 813.179,
      "eval_steps_per_second": 12.961,
      "step": 205
    },
    {
      "epoch": 22.836601307189543,
      "eval_loss": 1.9680215120315552,
      "eval_runtime": 2.4001,
      "eval_samples_per_second": 810.398,
      "eval_steps_per_second": 12.916,
      "step": 206
    },
    {
      "epoch": 22.941176470588236,
      "eval_loss": 1.9628697633743286,
      "eval_runtime": 2.3906,
      "eval_samples_per_second": 813.608,
      "eval_steps_per_second": 12.968,
      "step": 207
    },
    {
      "epoch": 22.941176470588236,
      "grad_norm": 1.8930681943893433,
      "learning_rate": 1.1489361702127662e-05,
      "loss": 1.8246,
      "step": 207
    },
    {
      "epoch": 23.104575163398692,
      "eval_loss": 1.9429619312286377,
      "eval_runtime": 2.3877,
      "eval_samples_per_second": 814.582,
      "eval_steps_per_second": 12.983,
      "step": 208
    },
    {
      "epoch": 23.209150326797385,
      "eval_loss": 1.9262027740478516,
      "eval_runtime": 2.5188,
      "eval_samples_per_second": 772.187,
      "eval_steps_per_second": 12.307,
      "step": 209
    },
    {
      "epoch": 23.313725490196077,
      "eval_loss": 1.9614677429199219,
      "eval_runtime": 2.4709,
      "eval_samples_per_second": 787.175,
      "eval_steps_per_second": 12.546,
      "step": 210
    },
    {
      "epoch": 23.41830065359477,
      "eval_loss": 1.9559693336486816,
      "eval_runtime": 2.4152,
      "eval_samples_per_second": 805.308,
      "eval_steps_per_second": 12.835,
      "step": 211
    },
    {
      "epoch": 23.522875816993466,
      "eval_loss": 1.966059923171997,
      "eval_runtime": 2.4122,
      "eval_samples_per_second": 806.317,
      "eval_steps_per_second": 12.851,
      "step": 212
    },
    {
      "epoch": 23.627450980392158,
      "eval_loss": 1.9780749082565308,
      "eval_runtime": 2.437,
      "eval_samples_per_second": 798.101,
      "eval_steps_per_second": 12.72,
      "step": 213
    },
    {
      "epoch": 23.73202614379085,
      "eval_loss": 1.980626106262207,
      "eval_runtime": 2.404,
      "eval_samples_per_second": 809.055,
      "eval_steps_per_second": 12.895,
      "step": 214
    },
    {
      "epoch": 23.836601307189543,
      "eval_loss": 1.9735476970672607,
      "eval_runtime": 2.3933,
      "eval_samples_per_second": 812.67,
      "eval_steps_per_second": 12.953,
      "step": 215
    },
    {
      "epoch": 23.941176470588236,
      "eval_loss": 1.9582773447036743,
      "eval_runtime": 2.4128,
      "eval_samples_per_second": 806.128,
      "eval_steps_per_second": 12.848,
      "step": 216
    },
    {
      "epoch": 23.941176470588236,
      "grad_norm": 1.8361761569976807,
      "learning_rate": 1.1063829787234044e-05,
      "loss": 1.8181,
      "step": 216
    },
    {
      "epoch": 24.104575163398692,
      "eval_loss": 1.9554569721221924,
      "eval_runtime": 2.387,
      "eval_samples_per_second": 814.839,
      "eval_steps_per_second": 12.987,
      "step": 217
    },
    {
      "epoch": 24.209150326797385,
      "eval_loss": 1.9165290594100952,
      "eval_runtime": 2.3919,
      "eval_samples_per_second": 813.148,
      "eval_steps_per_second": 12.96,
      "step": 218
    },
    {
      "epoch": 24.313725490196077,
      "eval_loss": 1.9637575149536133,
      "eval_runtime": 2.4007,
      "eval_samples_per_second": 810.191,
      "eval_steps_per_second": 12.913,
      "step": 219
    },
    {
      "epoch": 24.41830065359477,
      "eval_loss": 2.000793218612671,
      "eval_runtime": 2.4153,
      "eval_samples_per_second": 805.272,
      "eval_steps_per_second": 12.835,
      "step": 220
    },
    {
      "epoch": 24.522875816993466,
      "eval_loss": 1.9246618747711182,
      "eval_runtime": 2.4113,
      "eval_samples_per_second": 806.61,
      "eval_steps_per_second": 12.856,
      "step": 221
    },
    {
      "epoch": 24.627450980392158,
      "eval_loss": 1.9719598293304443,
      "eval_runtime": 2.4103,
      "eval_samples_per_second": 806.944,
      "eval_steps_per_second": 12.861,
      "step": 222
    },
    {
      "epoch": 24.73202614379085,
      "eval_loss": 2.008406400680542,
      "eval_runtime": 2.4142,
      "eval_samples_per_second": 805.666,
      "eval_steps_per_second": 12.841,
      "step": 223
    },
    {
      "epoch": 24.836601307189543,
      "eval_loss": 1.942387580871582,
      "eval_runtime": 2.4335,
      "eval_samples_per_second": 799.261,
      "eval_steps_per_second": 12.739,
      "step": 224
    },
    {
      "epoch": 24.941176470588236,
      "eval_loss": 1.9110654592514038,
      "eval_runtime": 2.3897,
      "eval_samples_per_second": 813.923,
      "eval_steps_per_second": 12.973,
      "step": 225
    },
    {
      "epoch": 24.941176470588236,
      "grad_norm": 1.8342725038528442,
      "learning_rate": 1.0638297872340426e-05,
      "loss": 1.797,
      "step": 225
    },
    {
      "epoch": 25.104575163398692,
      "eval_loss": 1.9787415266036987,
      "eval_runtime": 2.4748,
      "eval_samples_per_second": 785.908,
      "eval_steps_per_second": 12.526,
      "step": 226
    },
    {
      "epoch": 25.209150326797385,
      "eval_loss": 1.9613263607025146,
      "eval_runtime": 2.3841,
      "eval_samples_per_second": 815.829,
      "eval_steps_per_second": 13.003,
      "step": 227
    },
    {
      "epoch": 25.313725490196077,
      "eval_loss": 1.8806324005126953,
      "eval_runtime": 2.4198,
      "eval_samples_per_second": 803.779,
      "eval_steps_per_second": 12.811,
      "step": 228
    },
    {
      "epoch": 25.41830065359477,
      "eval_loss": 1.9231013059616089,
      "eval_runtime": 2.3851,
      "eval_samples_per_second": 815.485,
      "eval_steps_per_second": 12.997,
      "step": 229
    },
    {
      "epoch": 25.522875816993466,
      "eval_loss": 1.9021631479263306,
      "eval_runtime": 2.3853,
      "eval_samples_per_second": 815.428,
      "eval_steps_per_second": 12.997,
      "step": 230
    },
    {
      "epoch": 25.627450980392158,
      "eval_loss": 1.9682537317276,
      "eval_runtime": 2.4444,
      "eval_samples_per_second": 795.691,
      "eval_steps_per_second": 12.682,
      "step": 231
    },
    {
      "epoch": 25.73202614379085,
      "eval_loss": 1.9824862480163574,
      "eval_runtime": 2.4349,
      "eval_samples_per_second": 798.799,
      "eval_steps_per_second": 12.732,
      "step": 232
    },
    {
      "epoch": 25.836601307189543,
      "eval_loss": 1.962891936302185,
      "eval_runtime": 2.411,
      "eval_samples_per_second": 806.729,
      "eval_steps_per_second": 12.858,
      "step": 233
    },
    {
      "epoch": 25.941176470588236,
      "eval_loss": 1.9116088151931763,
      "eval_runtime": 2.4247,
      "eval_samples_per_second": 802.172,
      "eval_steps_per_second": 12.785,
      "step": 234
    },
    {
      "epoch": 25.941176470588236,
      "grad_norm": 1.9028220176696777,
      "learning_rate": 1.0212765957446808e-05,
      "loss": 1.7749,
      "step": 234
    },
    {
      "epoch": 26.104575163398692,
      "eval_loss": 1.9699651002883911,
      "eval_runtime": 2.4102,
      "eval_samples_per_second": 806.995,
      "eval_steps_per_second": 12.862,
      "step": 235
    },
    {
      "epoch": 26.209150326797385,
      "eval_loss": 1.9811697006225586,
      "eval_runtime": 2.386,
      "eval_samples_per_second": 815.174,
      "eval_steps_per_second": 12.992,
      "step": 236
    },
    {
      "epoch": 26.313725490196077,
      "eval_loss": 1.9248907566070557,
      "eval_runtime": 2.3932,
      "eval_samples_per_second": 812.727,
      "eval_steps_per_second": 12.953,
      "step": 237
    },
    {
      "epoch": 26.41830065359477,
      "eval_loss": 1.9683917760849,
      "eval_runtime": 2.3996,
      "eval_samples_per_second": 810.537,
      "eval_steps_per_second": 12.919,
      "step": 238
    },
    {
      "epoch": 26.522875816993466,
      "eval_loss": 1.9604750871658325,
      "eval_runtime": 2.3993,
      "eval_samples_per_second": 810.666,
      "eval_steps_per_second": 12.921,
      "step": 239
    },
    {
      "epoch": 26.627450980392158,
      "eval_loss": 1.8918408155441284,
      "eval_runtime": 2.4162,
      "eval_samples_per_second": 804.968,
      "eval_steps_per_second": 12.83,
      "step": 240
    },
    {
      "epoch": 26.73202614379085,
      "eval_loss": 1.9443118572235107,
      "eval_runtime": 2.3904,
      "eval_samples_per_second": 813.679,
      "eval_steps_per_second": 12.969,
      "step": 241
    },
    {
      "epoch": 26.836601307189543,
      "eval_loss": 1.9147528409957886,
      "eval_runtime": 2.4305,
      "eval_samples_per_second": 800.261,
      "eval_steps_per_second": 12.755,
      "step": 242
    },
    {
      "epoch": 26.941176470588236,
      "eval_loss": 1.8974157571792603,
      "eval_runtime": 2.4514,
      "eval_samples_per_second": 793.417,
      "eval_steps_per_second": 12.646,
      "step": 243
    },
    {
      "epoch": 26.941176470588236,
      "grad_norm": 1.7782148122787476,
      "learning_rate": 9.787234042553192e-06,
      "loss": 1.8022,
      "step": 243
    },
    {
      "epoch": 27.104575163398692,
      "eval_loss": 1.9711873531341553,
      "eval_runtime": 2.4377,
      "eval_samples_per_second": 797.883,
      "eval_steps_per_second": 12.717,
      "step": 244
    },
    {
      "epoch": 27.209150326797385,
      "eval_loss": 1.9718581438064575,
      "eval_runtime": 2.404,
      "eval_samples_per_second": 809.082,
      "eval_steps_per_second": 12.895,
      "step": 245
    },
    {
      "epoch": 27.313725490196077,
      "eval_loss": 1.9540036916732788,
      "eval_runtime": 2.411,
      "eval_samples_per_second": 806.731,
      "eval_steps_per_second": 12.858,
      "step": 246
    },
    {
      "epoch": 27.41830065359477,
      "eval_loss": 1.8907063007354736,
      "eval_runtime": 2.3875,
      "eval_samples_per_second": 814.658,
      "eval_steps_per_second": 12.984,
      "step": 247
    },
    {
      "epoch": 27.522875816993466,
      "eval_loss": 1.9907869100570679,
      "eval_runtime": 2.3956,
      "eval_samples_per_second": 811.916,
      "eval_steps_per_second": 12.941,
      "step": 248
    },
    {
      "epoch": 27.627450980392158,
      "eval_loss": 1.9273970127105713,
      "eval_runtime": 2.3922,
      "eval_samples_per_second": 813.044,
      "eval_steps_per_second": 12.959,
      "step": 249
    },
    {
      "epoch": 27.73202614379085,
      "eval_loss": 1.9233652353286743,
      "eval_runtime": 2.3912,
      "eval_samples_per_second": 813.399,
      "eval_steps_per_second": 12.964,
      "step": 250
    },
    {
      "epoch": 27.836601307189543,
      "eval_loss": 1.9580994844436646,
      "eval_runtime": 2.3875,
      "eval_samples_per_second": 814.648,
      "eval_steps_per_second": 12.984,
      "step": 251
    },
    {
      "epoch": 27.941176470588236,
      "eval_loss": 1.9409220218658447,
      "eval_runtime": 2.4743,
      "eval_samples_per_second": 786.095,
      "eval_steps_per_second": 12.529,
      "step": 252
    },
    {
      "epoch": 27.941176470588236,
      "grad_norm": 1.8487893342971802,
      "learning_rate": 9.361702127659576e-06,
      "loss": 1.7879,
      "step": 252
    },
    {
      "epoch": 28.104575163398692,
      "eval_loss": 1.8715720176696777,
      "eval_runtime": 2.4867,
      "eval_samples_per_second": 782.152,
      "eval_steps_per_second": 12.466,
      "step": 253
    },
    {
      "epoch": 28.209150326797385,
      "eval_loss": 1.9945265054702759,
      "eval_runtime": 2.4913,
      "eval_samples_per_second": 780.713,
      "eval_steps_per_second": 12.443,
      "step": 254
    },
    {
      "epoch": 28.313725490196077,
      "eval_loss": 1.8658331632614136,
      "eval_runtime": 2.4682,
      "eval_samples_per_second": 788.013,
      "eval_steps_per_second": 12.56,
      "step": 255
    },
    {
      "epoch": 28.41830065359477,
      "eval_loss": 1.946846604347229,
      "eval_runtime": 2.4685,
      "eval_samples_per_second": 787.912,
      "eval_steps_per_second": 12.558,
      "step": 256
    },
    {
      "epoch": 28.522875816993466,
      "eval_loss": 1.9456650018692017,
      "eval_runtime": 2.4963,
      "eval_samples_per_second": 779.142,
      "eval_steps_per_second": 12.418,
      "step": 257
    },
    {
      "epoch": 28.627450980392158,
      "eval_loss": 1.9555299282073975,
      "eval_runtime": 2.467,
      "eval_samples_per_second": 788.417,
      "eval_steps_per_second": 12.566,
      "step": 258
    },
    {
      "epoch": 28.73202614379085,
      "eval_loss": 1.9544572830200195,
      "eval_runtime": 2.4342,
      "eval_samples_per_second": 799.038,
      "eval_steps_per_second": 12.735,
      "step": 259
    },
    {
      "epoch": 28.836601307189543,
      "eval_loss": 1.9225515127182007,
      "eval_runtime": 2.3903,
      "eval_samples_per_second": 813.707,
      "eval_steps_per_second": 12.969,
      "step": 260
    },
    {
      "epoch": 28.941176470588236,
      "eval_loss": 1.9331358671188354,
      "eval_runtime": 2.3878,
      "eval_samples_per_second": 814.568,
      "eval_steps_per_second": 12.983,
      "step": 261
    },
    {
      "epoch": 28.941176470588236,
      "grad_norm": 1.77451491355896,
      "learning_rate": 8.936170212765958e-06,
      "loss": 1.8019,
      "step": 261
    },
    {
      "epoch": 29.104575163398692,
      "eval_loss": 1.9785720109939575,
      "eval_runtime": 2.4363,
      "eval_samples_per_second": 798.34,
      "eval_steps_per_second": 12.724,
      "step": 262
    },
    {
      "epoch": 29.209150326797385,
      "eval_loss": 1.9767541885375977,
      "eval_runtime": 2.4358,
      "eval_samples_per_second": 798.515,
      "eval_steps_per_second": 12.727,
      "step": 263
    },
    {
      "epoch": 29.313725490196077,
      "eval_loss": 1.9601216316223145,
      "eval_runtime": 2.4048,
      "eval_samples_per_second": 808.808,
      "eval_steps_per_second": 12.891,
      "step": 264
    },
    {
      "epoch": 29.41830065359477,
      "eval_loss": 1.917155385017395,
      "eval_runtime": 2.4141,
      "eval_samples_per_second": 805.697,
      "eval_steps_per_second": 12.841,
      "step": 265
    },
    {
      "epoch": 29.522875816993466,
      "eval_loss": 1.922187328338623,
      "eval_runtime": 2.4093,
      "eval_samples_per_second": 807.305,
      "eval_steps_per_second": 12.867,
      "step": 266
    },
    {
      "epoch": 29.627450980392158,
      "eval_loss": 1.918397307395935,
      "eval_runtime": 2.3948,
      "eval_samples_per_second": 812.187,
      "eval_steps_per_second": 12.945,
      "step": 267
    },
    {
      "epoch": 29.73202614379085,
      "eval_loss": 1.882236123085022,
      "eval_runtime": 2.3912,
      "eval_samples_per_second": 813.4,
      "eval_steps_per_second": 12.964,
      "step": 268
    },
    {
      "epoch": 29.836601307189543,
      "eval_loss": 1.916178822517395,
      "eval_runtime": 2.3869,
      "eval_samples_per_second": 814.874,
      "eval_steps_per_second": 12.988,
      "step": 269
    },
    {
      "epoch": 29.941176470588236,
      "eval_loss": 1.9769715070724487,
      "eval_runtime": 2.3858,
      "eval_samples_per_second": 815.249,
      "eval_steps_per_second": 12.994,
      "step": 270
    },
    {
      "epoch": 29.941176470588236,
      "grad_norm": 2.04988431930542,
      "learning_rate": 8.510638297872341e-06,
      "loss": 1.7614,
      "step": 270
    },
    {
      "epoch": 30.104575163398692,
      "eval_loss": 1.9033125638961792,
      "eval_runtime": 2.4701,
      "eval_samples_per_second": 787.431,
      "eval_steps_per_second": 12.55,
      "step": 271
    },
    {
      "epoch": 30.209150326797385,
      "eval_loss": 1.9454644918441772,
      "eval_runtime": 2.4111,
      "eval_samples_per_second": 806.698,
      "eval_steps_per_second": 12.857,
      "step": 272
    },
    {
      "epoch": 30.313725490196077,
      "eval_loss": 1.9106584787368774,
      "eval_runtime": 2.4243,
      "eval_samples_per_second": 802.304,
      "eval_steps_per_second": 12.787,
      "step": 273
    },
    {
      "epoch": 30.41830065359477,
      "eval_loss": 1.9812813997268677,
      "eval_runtime": 2.4148,
      "eval_samples_per_second": 805.466,
      "eval_steps_per_second": 12.838,
      "step": 274
    },
    {
      "epoch": 30.522875816993466,
      "eval_loss": 1.9426772594451904,
      "eval_runtime": 2.3997,
      "eval_samples_per_second": 810.526,
      "eval_steps_per_second": 12.918,
      "step": 275
    },
    {
      "epoch": 30.627450980392158,
      "eval_loss": 1.9499095678329468,
      "eval_runtime": 2.3957,
      "eval_samples_per_second": 811.863,
      "eval_steps_per_second": 12.94,
      "step": 276
    },
    {
      "epoch": 30.73202614379085,
      "eval_loss": 1.961235523223877,
      "eval_runtime": 2.3821,
      "eval_samples_per_second": 816.509,
      "eval_steps_per_second": 13.014,
      "step": 277
    },
    {
      "epoch": 30.836601307189543,
      "eval_loss": 1.9450849294662476,
      "eval_runtime": 2.3942,
      "eval_samples_per_second": 812.387,
      "eval_steps_per_second": 12.948,
      "step": 278
    },
    {
      "epoch": 30.941176470588236,
      "eval_loss": 1.9132739305496216,
      "eval_runtime": 2.4136,
      "eval_samples_per_second": 805.836,
      "eval_steps_per_second": 12.844,
      "step": 279
    },
    {
      "epoch": 30.941176470588236,
      "grad_norm": 1.8763809204101562,
      "learning_rate": 8.085106382978723e-06,
      "loss": 1.7619,
      "step": 279
    },
    {
      "epoch": 31.104575163398692,
      "eval_loss": 1.9205107688903809,
      "eval_runtime": 2.4332,
      "eval_samples_per_second": 799.374,
      "eval_steps_per_second": 12.741,
      "step": 280
    },
    {
      "epoch": 31.209150326797385,
      "eval_loss": 1.946841835975647,
      "eval_runtime": 2.464,
      "eval_samples_per_second": 789.356,
      "eval_steps_per_second": 12.581,
      "step": 281
    },
    {
      "epoch": 31.313725490196077,
      "eval_loss": 1.9464671611785889,
      "eval_runtime": 2.4074,
      "eval_samples_per_second": 807.917,
      "eval_steps_per_second": 12.877,
      "step": 282
    },
    {
      "epoch": 31.41830065359477,
      "eval_loss": 1.8833441734313965,
      "eval_runtime": 2.4082,
      "eval_samples_per_second": 807.64,
      "eval_steps_per_second": 12.872,
      "step": 283
    },
    {
      "epoch": 31.522875816993466,
      "eval_loss": 1.9414160251617432,
      "eval_runtime": 2.407,
      "eval_samples_per_second": 808.072,
      "eval_steps_per_second": 12.879,
      "step": 284
    },
    {
      "epoch": 31.627450980392158,
      "eval_loss": 1.9485697746276855,
      "eval_runtime": 2.4025,
      "eval_samples_per_second": 809.577,
      "eval_steps_per_second": 12.903,
      "step": 285
    },
    {
      "epoch": 31.73202614379085,
      "eval_loss": 1.9184815883636475,
      "eval_runtime": 2.3828,
      "eval_samples_per_second": 816.275,
      "eval_steps_per_second": 13.01,
      "step": 286
    },
    {
      "epoch": 31.836601307189543,
      "eval_loss": 1.9518897533416748,
      "eval_runtime": 2.4096,
      "eval_samples_per_second": 807.189,
      "eval_steps_per_second": 12.865,
      "step": 287
    },
    {
      "epoch": 31.941176470588236,
      "eval_loss": 1.9385578632354736,
      "eval_runtime": 2.4088,
      "eval_samples_per_second": 807.447,
      "eval_steps_per_second": 12.869,
      "step": 288
    },
    {
      "epoch": 31.941176470588236,
      "grad_norm": 1.8053061962127686,
      "learning_rate": 7.659574468085107e-06,
      "loss": 1.7713,
      "step": 288
    },
    {
      "epoch": 32.10457516339869,
      "eval_loss": 1.8966560363769531,
      "eval_runtime": 2.4403,
      "eval_samples_per_second": 797.048,
      "eval_steps_per_second": 12.704,
      "step": 289
    },
    {
      "epoch": 32.209150326797385,
      "eval_loss": 1.9649851322174072,
      "eval_runtime": 2.4092,
      "eval_samples_per_second": 807.307,
      "eval_steps_per_second": 12.867,
      "step": 290
    },
    {
      "epoch": 32.31372549019608,
      "eval_loss": 1.919927954673767,
      "eval_runtime": 2.41,
      "eval_samples_per_second": 807.057,
      "eval_steps_per_second": 12.863,
      "step": 291
    },
    {
      "epoch": 32.41830065359477,
      "eval_loss": 1.9147096872329712,
      "eval_runtime": 2.4127,
      "eval_samples_per_second": 806.134,
      "eval_steps_per_second": 12.848,
      "step": 292
    },
    {
      "epoch": 32.52287581699346,
      "eval_loss": 1.9159774780273438,
      "eval_runtime": 2.4052,
      "eval_samples_per_second": 808.673,
      "eval_steps_per_second": 12.889,
      "step": 293
    },
    {
      "epoch": 32.627450980392155,
      "eval_loss": 1.9953843355178833,
      "eval_runtime": 2.3906,
      "eval_samples_per_second": 813.616,
      "eval_steps_per_second": 12.968,
      "step": 294
    },
    {
      "epoch": 32.73202614379085,
      "eval_loss": 1.92180597782135,
      "eval_runtime": 2.4249,
      "eval_samples_per_second": 802.081,
      "eval_steps_per_second": 12.784,
      "step": 295
    },
    {
      "epoch": 32.83660130718954,
      "eval_loss": 1.9786967039108276,
      "eval_runtime": 2.3846,
      "eval_samples_per_second": 815.658,
      "eval_steps_per_second": 13.0,
      "step": 296
    },
    {
      "epoch": 32.94117647058823,
      "eval_loss": 1.9362424612045288,
      "eval_runtime": 2.3879,
      "eval_samples_per_second": 814.534,
      "eval_steps_per_second": 12.982,
      "step": 297
    },
    {
      "epoch": 32.94117647058823,
      "grad_norm": 2.0353338718414307,
      "learning_rate": 7.234042553191491e-06,
      "loss": 1.7635,
      "step": 297
    },
    {
      "epoch": 33.10457516339869,
      "eval_loss": 1.9281338453292847,
      "eval_runtime": 2.4396,
      "eval_samples_per_second": 797.251,
      "eval_steps_per_second": 12.707,
      "step": 298
    },
    {
      "epoch": 33.209150326797385,
      "eval_loss": 1.921140193939209,
      "eval_runtime": 2.4118,
      "eval_samples_per_second": 806.459,
      "eval_steps_per_second": 12.854,
      "step": 299
    },
    {
      "epoch": 33.31372549019608,
      "eval_loss": 1.9680968523025513,
      "eval_runtime": 2.4046,
      "eval_samples_per_second": 808.854,
      "eval_steps_per_second": 12.892,
      "step": 300
    },
    {
      "epoch": 33.41830065359477,
      "eval_loss": 1.9094316959381104,
      "eval_runtime": 2.4065,
      "eval_samples_per_second": 808.218,
      "eval_steps_per_second": 12.882,
      "step": 301
    },
    {
      "epoch": 33.52287581699346,
      "eval_loss": 1.9845983982086182,
      "eval_runtime": 2.4045,
      "eval_samples_per_second": 808.905,
      "eval_steps_per_second": 12.893,
      "step": 302
    },
    {
      "epoch": 33.627450980392155,
      "eval_loss": 1.9461405277252197,
      "eval_runtime": 2.4098,
      "eval_samples_per_second": 807.107,
      "eval_steps_per_second": 12.864,
      "step": 303
    },
    {
      "epoch": 33.73202614379085,
      "eval_loss": 1.8947722911834717,
      "eval_runtime": 2.392,
      "eval_samples_per_second": 813.124,
      "eval_steps_per_second": 12.96,
      "step": 304
    },
    {
      "epoch": 33.83660130718954,
      "eval_loss": 1.9371235370635986,
      "eval_runtime": 2.3855,
      "eval_samples_per_second": 815.347,
      "eval_steps_per_second": 12.995,
      "step": 305
    },
    {
      "epoch": 33.94117647058823,
      "eval_loss": 2.006459951400757,
      "eval_runtime": 2.4252,
      "eval_samples_per_second": 802.01,
      "eval_steps_per_second": 12.783,
      "step": 306
    },
    {
      "epoch": 33.94117647058823,
      "grad_norm": 1.884189486503601,
      "learning_rate": 6.808510638297873e-06,
      "loss": 1.7394,
      "step": 306
    },
    {
      "epoch": 34.10457516339869,
      "eval_loss": 1.9282273054122925,
      "eval_runtime": 2.4222,
      "eval_samples_per_second": 802.994,
      "eval_steps_per_second": 12.798,
      "step": 307
    },
    {
      "epoch": 34.209150326797385,
      "eval_loss": 1.9412920475006104,
      "eval_runtime": 2.5082,
      "eval_samples_per_second": 775.463,
      "eval_steps_per_second": 12.36,
      "step": 308
    },
    {
      "epoch": 34.31372549019608,
      "eval_loss": 1.9883979558944702,
      "eval_runtime": 2.5353,
      "eval_samples_per_second": 767.18,
      "eval_steps_per_second": 12.228,
      "step": 309
    },
    {
      "epoch": 34.41830065359477,
      "eval_loss": 1.917364239692688,
      "eval_runtime": 2.4621,
      "eval_samples_per_second": 789.978,
      "eval_steps_per_second": 12.591,
      "step": 310
    },
    {
      "epoch": 34.52287581699346,
      "eval_loss": 1.9594651460647583,
      "eval_runtime": 2.5176,
      "eval_samples_per_second": 772.567,
      "eval_steps_per_second": 12.313,
      "step": 311
    },
    {
      "epoch": 34.627450980392155,
      "eval_loss": 1.9423621892929077,
      "eval_runtime": 2.5063,
      "eval_samples_per_second": 776.037,
      "eval_steps_per_second": 12.369,
      "step": 312
    },
    {
      "epoch": 34.73202614379085,
      "eval_loss": 1.9494574069976807,
      "eval_runtime": 2.4032,
      "eval_samples_per_second": 809.321,
      "eval_steps_per_second": 12.899,
      "step": 313
    },
    {
      "epoch": 34.83660130718954,
      "eval_loss": 1.9160590171813965,
      "eval_runtime": 2.3866,
      "eval_samples_per_second": 814.959,
      "eval_steps_per_second": 12.989,
      "step": 314
    },
    {
      "epoch": 34.94117647058823,
      "eval_loss": 1.963183879852295,
      "eval_runtime": 2.3866,
      "eval_samples_per_second": 814.96,
      "eval_steps_per_second": 12.989,
      "step": 315
    },
    {
      "epoch": 34.94117647058823,
      "grad_norm": 1.7952407598495483,
      "learning_rate": 6.382978723404256e-06,
      "loss": 1.7434,
      "step": 315
    },
    {
      "epoch": 35.10457516339869,
      "eval_loss": 1.9129880666732788,
      "eval_runtime": 2.3856,
      "eval_samples_per_second": 815.294,
      "eval_steps_per_second": 12.994,
      "step": 316
    },
    {
      "epoch": 35.209150326797385,
      "eval_loss": 1.9850044250488281,
      "eval_runtime": 2.4394,
      "eval_samples_per_second": 797.311,
      "eval_steps_per_second": 12.708,
      "step": 317
    },
    {
      "epoch": 35.31372549019608,
      "eval_loss": 1.9291285276412964,
      "eval_runtime": 2.3856,
      "eval_samples_per_second": 815.319,
      "eval_steps_per_second": 12.995,
      "step": 318
    },
    {
      "epoch": 35.41830065359477,
      "eval_loss": 1.9300141334533691,
      "eval_runtime": 2.5153,
      "eval_samples_per_second": 773.266,
      "eval_steps_per_second": 12.325,
      "step": 319
    },
    {
      "epoch": 35.52287581699346,
      "eval_loss": 1.9399768114089966,
      "eval_runtime": 2.4758,
      "eval_samples_per_second": 785.618,
      "eval_steps_per_second": 12.521,
      "step": 320
    },
    {
      "epoch": 35.627450980392155,
      "eval_loss": 1.9735783338546753,
      "eval_runtime": 2.4325,
      "eval_samples_per_second": 799.598,
      "eval_steps_per_second": 12.744,
      "step": 321
    },
    {
      "epoch": 35.73202614379085,
      "eval_loss": 1.9033024311065674,
      "eval_runtime": 2.4152,
      "eval_samples_per_second": 805.309,
      "eval_steps_per_second": 12.835,
      "step": 322
    },
    {
      "epoch": 35.83660130718954,
      "eval_loss": 1.9249202013015747,
      "eval_runtime": 2.4104,
      "eval_samples_per_second": 806.927,
      "eval_steps_per_second": 12.861,
      "step": 323
    },
    {
      "epoch": 35.94117647058823,
      "eval_loss": 1.9796316623687744,
      "eval_runtime": 2.4374,
      "eval_samples_per_second": 797.996,
      "eval_steps_per_second": 12.719,
      "step": 324
    },
    {
      "epoch": 35.94117647058823,
      "grad_norm": 1.8199615478515625,
      "learning_rate": 5.957446808510638e-06,
      "loss": 1.7578,
      "step": 324
    },
    {
      "epoch": 36.10457516339869,
      "eval_loss": 1.9595942497253418,
      "eval_runtime": 2.3871,
      "eval_samples_per_second": 814.78,
      "eval_steps_per_second": 12.986,
      "step": 325
    },
    {
      "epoch": 36.209150326797385,
      "eval_loss": 1.9293735027313232,
      "eval_runtime": 2.3875,
      "eval_samples_per_second": 814.674,
      "eval_steps_per_second": 12.985,
      "step": 326
    },
    {
      "epoch": 36.31372549019608,
      "eval_loss": 1.957201600074768,
      "eval_runtime": 2.3892,
      "eval_samples_per_second": 814.083,
      "eval_steps_per_second": 12.975,
      "step": 327
    },
    {
      "epoch": 36.41830065359477,
      "eval_loss": 1.9536631107330322,
      "eval_runtime": 2.4048,
      "eval_samples_per_second": 808.796,
      "eval_steps_per_second": 12.891,
      "step": 328
    },
    {
      "epoch": 36.52287581699346,
      "eval_loss": 1.974502682685852,
      "eval_runtime": 2.3928,
      "eval_samples_per_second": 812.843,
      "eval_steps_per_second": 12.955,
      "step": 329
    },
    {
      "epoch": 36.627450980392155,
      "eval_loss": 1.9568116664886475,
      "eval_runtime": 2.4183,
      "eval_samples_per_second": 804.288,
      "eval_steps_per_second": 12.819,
      "step": 330
    },
    {
      "epoch": 36.73202614379085,
      "eval_loss": 1.9689034223556519,
      "eval_runtime": 2.4676,
      "eval_samples_per_second": 788.229,
      "eval_steps_per_second": 12.563,
      "step": 331
    },
    {
      "epoch": 36.83660130718954,
      "eval_loss": 1.9140371084213257,
      "eval_runtime": 2.4088,
      "eval_samples_per_second": 807.459,
      "eval_steps_per_second": 12.87,
      "step": 332
    },
    {
      "epoch": 36.94117647058823,
      "eval_loss": 1.929794192314148,
      "eval_runtime": 2.4119,
      "eval_samples_per_second": 806.412,
      "eval_steps_per_second": 12.853,
      "step": 333
    },
    {
      "epoch": 36.94117647058823,
      "grad_norm": 1.8074049949645996,
      "learning_rate": 5.531914893617022e-06,
      "loss": 1.7497,
      "step": 333
    },
    {
      "epoch": 37.10457516339869,
      "eval_loss": 1.9698741436004639,
      "eval_runtime": 2.4082,
      "eval_samples_per_second": 807.67,
      "eval_steps_per_second": 12.873,
      "step": 334
    },
    {
      "epoch": 37.209150326797385,
      "eval_loss": 1.90766441822052,
      "eval_runtime": 2.3974,
      "eval_samples_per_second": 811.298,
      "eval_steps_per_second": 12.931,
      "step": 335
    },
    {
      "epoch": 37.31372549019608,
      "eval_loss": 1.9559139013290405,
      "eval_runtime": 2.3918,
      "eval_samples_per_second": 813.182,
      "eval_steps_per_second": 12.961,
      "step": 336
    },
    {
      "epoch": 37.41830065359477,
      "eval_loss": 1.9621520042419434,
      "eval_runtime": 2.4126,
      "eval_samples_per_second": 806.189,
      "eval_steps_per_second": 12.849,
      "step": 337
    },
    {
      "epoch": 37.52287581699346,
      "eval_loss": 1.9238826036453247,
      "eval_runtime": 2.3925,
      "eval_samples_per_second": 812.943,
      "eval_steps_per_second": 12.957,
      "step": 338
    },
    {
      "epoch": 37.627450980392155,
      "eval_loss": 1.9738985300064087,
      "eval_runtime": 2.4262,
      "eval_samples_per_second": 801.666,
      "eval_steps_per_second": 12.777,
      "step": 339
    },
    {
      "epoch": 37.73202614379085,
      "eval_loss": 1.936599612236023,
      "eval_runtime": 2.446,
      "eval_samples_per_second": 795.165,
      "eval_steps_per_second": 12.674,
      "step": 340
    },
    {
      "epoch": 37.83660130718954,
      "eval_loss": 1.9857661724090576,
      "eval_runtime": 2.4387,
      "eval_samples_per_second": 797.57,
      "eval_steps_per_second": 12.712,
      "step": 341
    },
    {
      "epoch": 37.94117647058823,
      "eval_loss": 1.9602775573730469,
      "eval_runtime": 2.4623,
      "eval_samples_per_second": 789.898,
      "eval_steps_per_second": 12.59,
      "step": 342
    },
    {
      "epoch": 37.94117647058823,
      "grad_norm": 1.8968150615692139,
      "learning_rate": 5.106382978723404e-06,
      "loss": 1.7378,
      "step": 342
    },
    {
      "epoch": 38.10457516339869,
      "eval_loss": 1.9392098188400269,
      "eval_runtime": 2.5445,
      "eval_samples_per_second": 764.389,
      "eval_steps_per_second": 12.183,
      "step": 343
    },
    {
      "epoch": 38.209150326797385,
      "eval_loss": 1.9554734230041504,
      "eval_runtime": 2.4153,
      "eval_samples_per_second": 805.294,
      "eval_steps_per_second": 12.835,
      "step": 344
    },
    {
      "epoch": 38.31372549019608,
      "eval_loss": 1.9802982807159424,
      "eval_runtime": 2.4043,
      "eval_samples_per_second": 808.971,
      "eval_steps_per_second": 12.894,
      "step": 345
    },
    {
      "epoch": 38.41830065359477,
      "eval_loss": 1.950205683708191,
      "eval_runtime": 2.408,
      "eval_samples_per_second": 807.739,
      "eval_steps_per_second": 12.874,
      "step": 346
    },
    {
      "epoch": 38.52287581699346,
      "eval_loss": 1.959083914756775,
      "eval_runtime": 2.3857,
      "eval_samples_per_second": 815.264,
      "eval_steps_per_second": 12.994,
      "step": 347
    },
    {
      "epoch": 38.627450980392155,
      "eval_loss": 1.9582518339157104,
      "eval_runtime": 2.4306,
      "eval_samples_per_second": 800.213,
      "eval_steps_per_second": 12.754,
      "step": 348
    },
    {
      "epoch": 38.73202614379085,
      "eval_loss": 1.9507373571395874,
      "eval_runtime": 2.3863,
      "eval_samples_per_second": 815.084,
      "eval_steps_per_second": 12.991,
      "step": 349
    },
    {
      "epoch": 38.83660130718954,
      "eval_loss": 1.9410823583602905,
      "eval_runtime": 2.4092,
      "eval_samples_per_second": 807.311,
      "eval_steps_per_second": 12.867,
      "step": 350
    },
    {
      "epoch": 38.94117647058823,
      "eval_loss": 1.922089695930481,
      "eval_runtime": 2.4113,
      "eval_samples_per_second": 806.625,
      "eval_steps_per_second": 12.856,
      "step": 351
    },
    {
      "epoch": 38.94117647058823,
      "grad_norm": 1.8066309690475464,
      "learning_rate": 4.680851063829788e-06,
      "loss": 1.7324,
      "step": 351
    },
    {
      "epoch": 39.10457516339869,
      "eval_loss": 1.9468454122543335,
      "eval_runtime": 2.3833,
      "eval_samples_per_second": 816.093,
      "eval_steps_per_second": 13.007,
      "step": 352
    },
    {
      "epoch": 39.209150326797385,
      "eval_loss": 1.9370498657226562,
      "eval_runtime": 2.3853,
      "eval_samples_per_second": 815.41,
      "eval_steps_per_second": 12.996,
      "step": 353
    },
    {
      "epoch": 39.31372549019608,
      "eval_loss": 1.9278494119644165,
      "eval_runtime": 2.4316,
      "eval_samples_per_second": 799.901,
      "eval_steps_per_second": 12.749,
      "step": 354
    },
    {
      "epoch": 39.41830065359477,
      "eval_loss": 1.9604259729385376,
      "eval_runtime": 2.4996,
      "eval_samples_per_second": 778.116,
      "eval_steps_per_second": 12.402,
      "step": 355
    },
    {
      "epoch": 39.52287581699346,
      "eval_loss": 1.9375855922698975,
      "eval_runtime": 2.4112,
      "eval_samples_per_second": 806.646,
      "eval_steps_per_second": 12.857,
      "step": 356
    },
    {
      "epoch": 39.627450980392155,
      "eval_loss": 1.9473201036453247,
      "eval_runtime": 2.4652,
      "eval_samples_per_second": 788.988,
      "eval_steps_per_second": 12.575,
      "step": 357
    },
    {
      "epoch": 39.73202614379085,
      "eval_loss": 1.9490294456481934,
      "eval_runtime": 2.4617,
      "eval_samples_per_second": 790.102,
      "eval_steps_per_second": 12.593,
      "step": 358
    },
    {
      "epoch": 39.83660130718954,
      "eval_loss": 1.913360834121704,
      "eval_runtime": 2.445,
      "eval_samples_per_second": 795.514,
      "eval_steps_per_second": 12.679,
      "step": 359
    },
    {
      "epoch": 39.94117647058823,
      "eval_loss": 1.9323056936264038,
      "eval_runtime": 2.4383,
      "eval_samples_per_second": 797.685,
      "eval_steps_per_second": 12.714,
      "step": 360
    },
    {
      "epoch": 39.94117647058823,
      "grad_norm": 1.7927449941635132,
      "learning_rate": 4.255319148936171e-06,
      "loss": 1.7195,
      "step": 360
    },
    {
      "epoch": 40.10457516339869,
      "eval_loss": 1.9119060039520264,
      "eval_runtime": 2.4209,
      "eval_samples_per_second": 803.426,
      "eval_steps_per_second": 12.805,
      "step": 361
    },
    {
      "epoch": 40.209150326797385,
      "eval_loss": 1.939374327659607,
      "eval_runtime": 2.4652,
      "eval_samples_per_second": 788.974,
      "eval_steps_per_second": 12.575,
      "step": 362
    },
    {
      "epoch": 40.31372549019608,
      "eval_loss": 1.9959666728973389,
      "eval_runtime": 2.3847,
      "eval_samples_per_second": 815.601,
      "eval_steps_per_second": 12.999,
      "step": 363
    },
    {
      "epoch": 40.41830065359477,
      "eval_loss": 1.9789413213729858,
      "eval_runtime": 2.3893,
      "eval_samples_per_second": 814.046,
      "eval_steps_per_second": 12.975,
      "step": 364
    },
    {
      "epoch": 40.52287581699346,
      "eval_loss": 1.9750434160232544,
      "eval_runtime": 2.3871,
      "eval_samples_per_second": 814.781,
      "eval_steps_per_second": 12.986,
      "step": 365
    },
    {
      "epoch": 40.627450980392155,
      "eval_loss": 1.9399486780166626,
      "eval_runtime": 2.4366,
      "eval_samples_per_second": 798.229,
      "eval_steps_per_second": 12.722,
      "step": 366
    },
    {
      "epoch": 40.73202614379085,
      "eval_loss": 1.9516425132751465,
      "eval_runtime": 2.4136,
      "eval_samples_per_second": 805.85,
      "eval_steps_per_second": 12.844,
      "step": 367
    },
    {
      "epoch": 40.83660130718954,
      "eval_loss": 1.941023826599121,
      "eval_runtime": 2.4094,
      "eval_samples_per_second": 807.251,
      "eval_steps_per_second": 12.866,
      "step": 368
    },
    {
      "epoch": 40.94117647058823,
      "eval_loss": 1.9317693710327148,
      "eval_runtime": 2.4091,
      "eval_samples_per_second": 807.345,
      "eval_steps_per_second": 12.868,
      "step": 369
    },
    {
      "epoch": 40.94117647058823,
      "grad_norm": 1.7872660160064697,
      "learning_rate": 3.8297872340425535e-06,
      "loss": 1.7043,
      "step": 369
    },
    {
      "epoch": 41.10457516339869,
      "eval_loss": 1.9890044927597046,
      "eval_runtime": 2.414,
      "eval_samples_per_second": 805.708,
      "eval_steps_per_second": 12.842,
      "step": 370
    },
    {
      "epoch": 41.209150326797385,
      "eval_loss": 1.9840960502624512,
      "eval_runtime": 2.3959,
      "eval_samples_per_second": 811.809,
      "eval_steps_per_second": 12.939,
      "step": 371
    },
    {
      "epoch": 41.31372549019608,
      "eval_loss": 1.9188443422317505,
      "eval_runtime": 2.4069,
      "eval_samples_per_second": 808.088,
      "eval_steps_per_second": 12.88,
      "step": 372
    },
    {
      "epoch": 41.41830065359477,
      "eval_loss": 1.9614779949188232,
      "eval_runtime": 2.3886,
      "eval_samples_per_second": 814.274,
      "eval_steps_per_second": 12.978,
      "step": 373
    },
    {
      "epoch": 41.52287581699346,
      "eval_loss": 1.9061365127563477,
      "eval_runtime": 2.3924,
      "eval_samples_per_second": 812.981,
      "eval_steps_per_second": 12.958,
      "step": 374
    },
    {
      "epoch": 41.627450980392155,
      "eval_loss": 1.909993052482605,
      "eval_runtime": 2.3858,
      "eval_samples_per_second": 815.236,
      "eval_steps_per_second": 12.993,
      "step": 375
    },
    {
      "epoch": 41.73202614379085,
      "eval_loss": 1.9422426223754883,
      "eval_runtime": 2.3888,
      "eval_samples_per_second": 814.201,
      "eval_steps_per_second": 12.977,
      "step": 376
    },
    {
      "epoch": 41.83660130718954,
      "eval_loss": 1.9640315771102905,
      "eval_runtime": 2.4376,
      "eval_samples_per_second": 797.911,
      "eval_steps_per_second": 12.717,
      "step": 377
    },
    {
      "epoch": 41.94117647058823,
      "eval_loss": 1.917662262916565,
      "eval_runtime": 2.4538,
      "eval_samples_per_second": 792.647,
      "eval_steps_per_second": 12.633,
      "step": 378
    },
    {
      "epoch": 41.94117647058823,
      "grad_norm": 1.7721134424209595,
      "learning_rate": 3.4042553191489363e-06,
      "loss": 1.7169,
      "step": 378
    },
    {
      "epoch": 42.10457516339869,
      "eval_loss": 1.9163570404052734,
      "eval_runtime": 2.4281,
      "eval_samples_per_second": 801.034,
      "eval_steps_per_second": 12.767,
      "step": 379
    },
    {
      "epoch": 42.209150326797385,
      "eval_loss": 1.9374709129333496,
      "eval_runtime": 2.4192,
      "eval_samples_per_second": 803.999,
      "eval_steps_per_second": 12.814,
      "step": 380
    },
    {
      "epoch": 42.31372549019608,
      "eval_loss": 1.9525771141052246,
      "eval_runtime": 2.4174,
      "eval_samples_per_second": 804.581,
      "eval_steps_per_second": 12.824,
      "step": 381
    },
    {
      "epoch": 42.41830065359477,
      "eval_loss": 1.938783884048462,
      "eval_runtime": 2.3891,
      "eval_samples_per_second": 814.119,
      "eval_steps_per_second": 12.976,
      "step": 382
    },
    {
      "epoch": 42.52287581699346,
      "eval_loss": 1.9378857612609863,
      "eval_runtime": 2.3879,
      "eval_samples_per_second": 814.515,
      "eval_steps_per_second": 12.982,
      "step": 383
    },
    {
      "epoch": 42.627450980392155,
      "eval_loss": 1.931535243988037,
      "eval_runtime": 2.3924,
      "eval_samples_per_second": 812.994,
      "eval_steps_per_second": 12.958,
      "step": 384
    },
    {
      "epoch": 42.73202614379085,
      "eval_loss": 1.9418144226074219,
      "eval_runtime": 2.3917,
      "eval_samples_per_second": 813.219,
      "eval_steps_per_second": 12.961,
      "step": 385
    },
    {
      "epoch": 42.83660130718954,
      "eval_loss": 1.9460214376449585,
      "eval_runtime": 2.417,
      "eval_samples_per_second": 804.722,
      "eval_steps_per_second": 12.826,
      "step": 386
    },
    {
      "epoch": 42.94117647058823,
      "eval_loss": 1.9129729270935059,
      "eval_runtime": 2.3889,
      "eval_samples_per_second": 814.19,
      "eval_steps_per_second": 12.977,
      "step": 387
    },
    {
      "epoch": 42.94117647058823,
      "grad_norm": 1.8166015148162842,
      "learning_rate": 2.978723404255319e-06,
      "loss": 1.7315,
      "step": 387
    },
    {
      "epoch": 43.10457516339869,
      "eval_loss": 1.9539881944656372,
      "eval_runtime": 2.4601,
      "eval_samples_per_second": 790.624,
      "eval_steps_per_second": 12.601,
      "step": 388
    },
    {
      "epoch": 43.209150326797385,
      "eval_loss": 1.951253890991211,
      "eval_runtime": 2.4131,
      "eval_samples_per_second": 806.019,
      "eval_steps_per_second": 12.847,
      "step": 389
    },
    {
      "epoch": 43.31372549019608,
      "eval_loss": 2.0078840255737305,
      "eval_runtime": 2.4151,
      "eval_samples_per_second": 805.365,
      "eval_steps_per_second": 12.836,
      "step": 390
    },
    {
      "epoch": 43.41830065359477,
      "eval_loss": 1.9754467010498047,
      "eval_runtime": 2.409,
      "eval_samples_per_second": 807.392,
      "eval_steps_per_second": 12.868,
      "step": 391
    },
    {
      "epoch": 43.52287581699346,
      "eval_loss": 1.972512125968933,
      "eval_runtime": 2.4172,
      "eval_samples_per_second": 804.635,
      "eval_steps_per_second": 12.825,
      "step": 392
    },
    {
      "epoch": 43.627450980392155,
      "eval_loss": 1.9601085186004639,
      "eval_runtime": 2.4555,
      "eval_samples_per_second": 792.113,
      "eval_steps_per_second": 12.625,
      "step": 393
    },
    {
      "epoch": 43.73202614379085,
      "eval_loss": 1.9266124963760376,
      "eval_runtime": 2.4604,
      "eval_samples_per_second": 790.516,
      "eval_steps_per_second": 12.599,
      "step": 394
    },
    {
      "epoch": 43.83660130718954,
      "eval_loss": 1.9546335935592651,
      "eval_runtime": 2.467,
      "eval_samples_per_second": 788.405,
      "eval_steps_per_second": 12.566,
      "step": 395
    },
    {
      "epoch": 43.94117647058823,
      "eval_loss": 1.918619990348816,
      "eval_runtime": 2.4607,
      "eval_samples_per_second": 790.428,
      "eval_steps_per_second": 12.598,
      "step": 396
    },
    {
      "epoch": 43.94117647058823,
      "grad_norm": 1.8490442037582397,
      "learning_rate": 2.553191489361702e-06,
      "loss": 1.7095,
      "step": 396
    },
    {
      "epoch": 44.10457516339869,
      "eval_loss": 1.9544674158096313,
      "eval_runtime": 2.5483,
      "eval_samples_per_second": 763.254,
      "eval_steps_per_second": 12.165,
      "step": 397
    },
    {
      "epoch": 44.209150326797385,
      "eval_loss": 2.0218536853790283,
      "eval_runtime": 2.578,
      "eval_samples_per_second": 754.467,
      "eval_steps_per_second": 12.025,
      "step": 398
    },
    {
      "epoch": 44.31372549019608,
      "eval_loss": 1.9499460458755493,
      "eval_runtime": 2.4731,
      "eval_samples_per_second": 786.477,
      "eval_steps_per_second": 12.535,
      "step": 399
    },
    {
      "epoch": 44.41830065359477,
      "eval_loss": 1.9414080381393433,
      "eval_runtime": 2.4805,
      "eval_samples_per_second": 784.104,
      "eval_steps_per_second": 12.497,
      "step": 400
    },
    {
      "epoch": 44.52287581699346,
      "eval_loss": 1.961714506149292,
      "eval_runtime": 2.4673,
      "eval_samples_per_second": 788.301,
      "eval_steps_per_second": 12.564,
      "step": 401
    },
    {
      "epoch": 44.627450980392155,
      "eval_loss": 1.9939833879470825,
      "eval_runtime": 2.4722,
      "eval_samples_per_second": 786.751,
      "eval_steps_per_second": 12.539,
      "step": 402
    },
    {
      "epoch": 44.73202614379085,
      "eval_loss": 1.9617350101470947,
      "eval_runtime": 2.4683,
      "eval_samples_per_second": 787.977,
      "eval_steps_per_second": 12.559,
      "step": 403
    },
    {
      "epoch": 44.83660130718954,
      "eval_loss": 1.9692201614379883,
      "eval_runtime": 2.4374,
      "eval_samples_per_second": 797.97,
      "eval_steps_per_second": 12.718,
      "step": 404
    },
    {
      "epoch": 44.94117647058823,
      "eval_loss": 1.9219003915786743,
      "eval_runtime": 2.435,
      "eval_samples_per_second": 798.78,
      "eval_steps_per_second": 12.731,
      "step": 405
    },
    {
      "epoch": 44.94117647058823,
      "grad_norm": 1.796848177909851,
      "learning_rate": 2.1276595744680853e-06,
      "loss": 1.7071,
      "step": 405
    },
    {
      "epoch": 45.10457516339869,
      "eval_loss": 1.9611177444458008,
      "eval_runtime": 2.4195,
      "eval_samples_per_second": 803.881,
      "eval_steps_per_second": 12.812,
      "step": 406
    },
    {
      "epoch": 45.209150326797385,
      "eval_loss": 1.9778918027877808,
      "eval_runtime": 2.4197,
      "eval_samples_per_second": 803.821,
      "eval_steps_per_second": 12.812,
      "step": 407
    },
    {
      "epoch": 45.31372549019608,
      "eval_loss": 1.9238309860229492,
      "eval_runtime": 2.4635,
      "eval_samples_per_second": 789.519,
      "eval_steps_per_second": 12.584,
      "step": 408
    },
    {
      "epoch": 45.41830065359477,
      "eval_loss": 1.9089758396148682,
      "eval_runtime": 2.4247,
      "eval_samples_per_second": 802.146,
      "eval_steps_per_second": 12.785,
      "step": 409
    },
    {
      "epoch": 45.52287581699346,
      "eval_loss": 1.9342485666275024,
      "eval_runtime": 2.4113,
      "eval_samples_per_second": 806.609,
      "eval_steps_per_second": 12.856,
      "step": 410
    },
    {
      "epoch": 45.627450980392155,
      "eval_loss": 1.9936097860336304,
      "eval_runtime": 2.4133,
      "eval_samples_per_second": 805.937,
      "eval_steps_per_second": 12.845,
      "step": 411
    },
    {
      "epoch": 45.73202614379085,
      "eval_loss": 1.897844672203064,
      "eval_runtime": 2.4034,
      "eval_samples_per_second": 809.278,
      "eval_steps_per_second": 12.899,
      "step": 412
    },
    {
      "epoch": 45.83660130718954,
      "eval_loss": 1.9208406209945679,
      "eval_runtime": 2.3918,
      "eval_samples_per_second": 813.195,
      "eval_steps_per_second": 12.961,
      "step": 413
    },
    {
      "epoch": 45.94117647058823,
      "eval_loss": 1.9177494049072266,
      "eval_runtime": 2.4571,
      "eval_samples_per_second": 791.578,
      "eval_steps_per_second": 12.616,
      "step": 414
    },
    {
      "epoch": 45.94117647058823,
      "grad_norm": 1.7152032852172852,
      "learning_rate": 1.7021276595744682e-06,
      "loss": 1.7116,
      "step": 414
    },
    {
      "epoch": 46.10457516339869,
      "eval_loss": 1.957858681678772,
      "eval_runtime": 2.4339,
      "eval_samples_per_second": 799.125,
      "eval_steps_per_second": 12.737,
      "step": 415
    },
    {
      "epoch": 46.209150326797385,
      "eval_loss": 1.9422305822372437,
      "eval_runtime": 2.4497,
      "eval_samples_per_second": 793.973,
      "eval_steps_per_second": 12.655,
      "step": 416
    },
    {
      "epoch": 46.31372549019608,
      "eval_loss": 1.9287089109420776,
      "eval_runtime": 2.423,
      "eval_samples_per_second": 802.723,
      "eval_steps_per_second": 12.794,
      "step": 417
    },
    {
      "epoch": 46.41830065359477,
      "eval_loss": 1.9444739818572998,
      "eval_runtime": 2.4956,
      "eval_samples_per_second": 779.376,
      "eval_steps_per_second": 12.422,
      "step": 418
    },
    {
      "epoch": 46.52287581699346,
      "eval_loss": 1.923707127571106,
      "eval_runtime": 2.4651,
      "eval_samples_per_second": 789.011,
      "eval_steps_per_second": 12.575,
      "step": 419
    },
    {
      "epoch": 46.627450980392155,
      "eval_loss": 1.9269739389419556,
      "eval_runtime": 2.4648,
      "eval_samples_per_second": 789.121,
      "eval_steps_per_second": 12.577,
      "step": 420
    },
    {
      "epoch": 46.73202614379085,
      "eval_loss": 1.9492802619934082,
      "eval_runtime": 2.4582,
      "eval_samples_per_second": 791.229,
      "eval_steps_per_second": 12.611,
      "step": 421
    },
    {
      "epoch": 46.83660130718954,
      "eval_loss": 1.9743090867996216,
      "eval_runtime": 2.4551,
      "eval_samples_per_second": 792.232,
      "eval_steps_per_second": 12.627,
      "step": 422
    },
    {
      "epoch": 46.94117647058823,
      "eval_loss": 1.957751750946045,
      "eval_runtime": 2.434,
      "eval_samples_per_second": 799.105,
      "eval_steps_per_second": 12.736,
      "step": 423
    },
    {
      "epoch": 46.94117647058823,
      "grad_norm": 1.9101431369781494,
      "learning_rate": 1.276595744680851e-06,
      "loss": 1.733,
      "step": 423
    },
    {
      "epoch": 47.10457516339869,
      "eval_loss": 1.9019426107406616,
      "eval_runtime": 2.4414,
      "eval_samples_per_second": 796.664,
      "eval_steps_per_second": 12.697,
      "step": 424
    },
    {
      "epoch": 47.209150326797385,
      "eval_loss": 1.944284200668335,
      "eval_runtime": 2.4514,
      "eval_samples_per_second": 793.435,
      "eval_steps_per_second": 12.646,
      "step": 425
    },
    {
      "epoch": 47.31372549019608,
      "eval_loss": 1.9661508798599243,
      "eval_runtime": 2.4442,
      "eval_samples_per_second": 795.747,
      "eval_steps_per_second": 12.683,
      "step": 426
    },
    {
      "epoch": 47.41830065359477,
      "eval_loss": 1.9728316068649292,
      "eval_runtime": 2.4822,
      "eval_samples_per_second": 783.586,
      "eval_steps_per_second": 12.489,
      "step": 427
    },
    {
      "epoch": 47.52287581699346,
      "eval_loss": 1.923363208770752,
      "eval_runtime": 2.4644,
      "eval_samples_per_second": 789.251,
      "eval_steps_per_second": 12.579,
      "step": 428
    },
    {
      "epoch": 47.627450980392155,
      "eval_loss": 1.9165805578231812,
      "eval_runtime": 2.3965,
      "eval_samples_per_second": 811.601,
      "eval_steps_per_second": 12.936,
      "step": 429
    },
    {
      "epoch": 47.73202614379085,
      "eval_loss": 1.9413442611694336,
      "eval_runtime": 2.4408,
      "eval_samples_per_second": 796.869,
      "eval_steps_per_second": 12.701,
      "step": 430
    },
    {
      "epoch": 47.83660130718954,
      "eval_loss": 1.8855735063552856,
      "eval_runtime": 2.4507,
      "eval_samples_per_second": 793.659,
      "eval_steps_per_second": 12.65,
      "step": 431
    },
    {
      "epoch": 47.94117647058823,
      "eval_loss": 1.952731728553772,
      "eval_runtime": 2.5241,
      "eval_samples_per_second": 770.567,
      "eval_steps_per_second": 12.282,
      "step": 432
    },
    {
      "epoch": 47.94117647058823,
      "grad_norm": 1.7582765817642212,
      "learning_rate": 8.510638297872341e-07,
      "loss": 1.7065,
      "step": 432
    },
    {
      "epoch": 48.10457516339869,
      "eval_loss": 1.9524160623550415,
      "eval_runtime": 2.4138,
      "eval_samples_per_second": 805.783,
      "eval_steps_per_second": 12.843,
      "step": 433
    },
    {
      "epoch": 48.209150326797385,
      "eval_loss": 1.9682825803756714,
      "eval_runtime": 2.5144,
      "eval_samples_per_second": 773.543,
      "eval_steps_per_second": 12.329,
      "step": 434
    },
    {
      "epoch": 48.31372549019608,
      "eval_loss": 1.9489309787750244,
      "eval_runtime": 2.5744,
      "eval_samples_per_second": 755.51,
      "eval_steps_per_second": 12.042,
      "step": 435
    },
    {
      "epoch": 48.41830065359477,
      "eval_loss": 1.9564448595046997,
      "eval_runtime": 2.4521,
      "eval_samples_per_second": 793.202,
      "eval_steps_per_second": 12.642,
      "step": 436
    },
    {
      "epoch": 48.52287581699346,
      "eval_loss": 1.9767297506332397,
      "eval_runtime": 2.4404,
      "eval_samples_per_second": 796.999,
      "eval_steps_per_second": 12.703,
      "step": 437
    },
    {
      "epoch": 48.627450980392155,
      "eval_loss": 1.9058864116668701,
      "eval_runtime": 2.4851,
      "eval_samples_per_second": 782.665,
      "eval_steps_per_second": 12.474,
      "step": 438
    },
    {
      "epoch": 48.73202614379085,
      "eval_loss": 1.9629017114639282,
      "eval_runtime": 2.4371,
      "eval_samples_per_second": 798.081,
      "eval_steps_per_second": 12.72,
      "step": 439
    },
    {
      "epoch": 48.83660130718954,
      "eval_loss": 1.937988519668579,
      "eval_runtime": 2.4379,
      "eval_samples_per_second": 797.822,
      "eval_steps_per_second": 12.716,
      "step": 440
    },
    {
      "epoch": 48.94117647058823,
      "eval_loss": 1.9694868326187134,
      "eval_runtime": 2.4378,
      "eval_samples_per_second": 797.855,
      "eval_steps_per_second": 12.716,
      "step": 441
    },
    {
      "epoch": 48.94117647058823,
      "grad_norm": 1.9079190492630005,
      "learning_rate": 4.2553191489361704e-07,
      "loss": 1.6997,
      "step": 441
    },
    {
      "epoch": 49.10457516339869,
      "eval_loss": 1.9250315427780151,
      "eval_runtime": 2.4353,
      "eval_samples_per_second": 798.679,
      "eval_steps_per_second": 12.73,
      "step": 442
    },
    {
      "epoch": 49.209150326797385,
      "eval_loss": 1.9391655921936035,
      "eval_runtime": 2.4099,
      "eval_samples_per_second": 807.094,
      "eval_steps_per_second": 12.864,
      "step": 443
    },
    {
      "epoch": 49.31372549019608,
      "eval_loss": 1.9522807598114014,
      "eval_runtime": 2.4344,
      "eval_samples_per_second": 798.963,
      "eval_steps_per_second": 12.734,
      "step": 444
    },
    {
      "epoch": 49.41830065359477,
      "eval_loss": 1.9459158182144165,
      "eval_runtime": 2.4156,
      "eval_samples_per_second": 805.199,
      "eval_steps_per_second": 12.834,
      "step": 445
    },
    {
      "epoch": 49.52287581699346,
      "eval_loss": 1.9365217685699463,
      "eval_runtime": 2.4071,
      "eval_samples_per_second": 808.028,
      "eval_steps_per_second": 12.879,
      "step": 446
    },
    {
      "epoch": 49.627450980392155,
      "eval_loss": 1.9133816957473755,
      "eval_runtime": 2.3906,
      "eval_samples_per_second": 813.594,
      "eval_steps_per_second": 12.967,
      "step": 447
    },
    {
      "epoch": 49.73202614379085,
      "eval_loss": 1.9433826208114624,
      "eval_runtime": 2.4005,
      "eval_samples_per_second": 810.237,
      "eval_steps_per_second": 12.914,
      "step": 448
    },
    {
      "epoch": 49.83660130718954,
      "eval_loss": 1.9771692752838135,
      "eval_runtime": 2.3888,
      "eval_samples_per_second": 814.201,
      "eval_steps_per_second": 12.977,
      "step": 449
    },
    {
      "epoch": 49.94117647058823,
      "eval_loss": 1.9776495695114136,
      "eval_runtime": 2.3848,
      "eval_samples_per_second": 815.59,
      "eval_steps_per_second": 12.999,
      "step": 450
    },
    {
      "epoch": 49.94117647058823,
      "grad_norm": 1.8996864557266235,
      "learning_rate": 0.0,
      "loss": 1.6668,
      "step": 450
    },
    {
      "epoch": 49.94117647058823,
      "step": 450,
      "total_flos": 1.2548402868338688e+16,
      "train_loss": 1.8820014402601455,
      "train_runtime": 2628.924,
      "train_samples_per_second": 185.114,
      "train_steps_per_second": 0.171
    }
  ],
  "logging_steps": 500,
  "max_steps": 450,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2548402868338688e+16,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}