{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "eval_steps": 10,
  "global_step": 1640,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.12195121951219512,
      "grad_norm": 35.852298736572266,
      "learning_rate": 1.219512195121951e-07,
      "loss": 7.8912,
      "step": 10
    },
    {
      "epoch": 0.12195121951219512,
      "eval_loss": 7.806792736053467,
      "eval_runtime": 39.7349,
      "eval_samples_per_second": 444.47,
      "eval_steps_per_second": 0.453,
      "step": 10
    },
    {
      "epoch": 0.24390243902439024,
      "grad_norm": 35.98800277709961,
      "learning_rate": 2.439024390243902e-07,
      "loss": 7.6722,
      "step": 20
    },
    {
      "epoch": 0.24390243902439024,
      "eval_loss": 7.456321716308594,
      "eval_runtime": 39.2616,
      "eval_samples_per_second": 449.828,
      "eval_steps_per_second": 0.458,
      "step": 20
    },
    {
      "epoch": 0.36585365853658536,
      "grad_norm": 33.745487213134766,
      "learning_rate": 3.6585365853658536e-07,
      "loss": 7.2095,
      "step": 30
    },
    {
      "epoch": 0.36585365853658536,
      "eval_loss": 6.869460105895996,
      "eval_runtime": 39.2191,
      "eval_samples_per_second": 450.316,
      "eval_steps_per_second": 0.459,
      "step": 30
    },
    {
      "epoch": 0.4878048780487805,
      "grad_norm": 28.555143356323242,
      "learning_rate": 4.878048780487804e-07,
      "loss": 6.5213,
      "step": 40
    },
    {
      "epoch": 0.4878048780487805,
      "eval_loss": 6.08616828918457,
      "eval_runtime": 39.2368,
      "eval_samples_per_second": 450.114,
      "eval_steps_per_second": 0.459,
      "step": 40
    },
    {
      "epoch": 0.6097560975609756,
      "grad_norm": 17.861717224121094,
      "learning_rate": 6.097560975609756e-07,
      "loss": 5.6988,
      "step": 50
    },
    {
      "epoch": 0.6097560975609756,
      "eval_loss": 5.294862270355225,
      "eval_runtime": 39.2476,
      "eval_samples_per_second": 449.989,
      "eval_steps_per_second": 0.459,
      "step": 50
    },
    {
      "epoch": 0.7317073170731707,
      "grad_norm": 9.703508377075195,
      "learning_rate": 7.317073170731707e-07,
      "loss": 5.0031,
      "step": 60
    },
    {
      "epoch": 0.7317073170731707,
      "eval_loss": 4.72209358215332,
      "eval_runtime": 39.2415,
      "eval_samples_per_second": 450.059,
      "eval_steps_per_second": 0.459,
      "step": 60
    },
    {
      "epoch": 0.8536585365853658,
      "grad_norm": 5.830469131469727,
      "learning_rate": 8.536585365853657e-07,
      "loss": 4.5171,
      "step": 70
    },
    {
      "epoch": 0.8536585365853658,
      "eval_loss": 4.342286586761475,
      "eval_runtime": 39.2288,
      "eval_samples_per_second": 450.205,
      "eval_steps_per_second": 0.459,
      "step": 70
    },
    {
      "epoch": 0.975609756097561,
      "grad_norm": 4.307955265045166,
      "learning_rate": 9.756097560975609e-07,
      "loss": 4.1858,
      "step": 80
    },
    {
      "epoch": 0.975609756097561,
      "eval_loss": 4.0347723960876465,
      "eval_runtime": 39.2556,
      "eval_samples_per_second": 449.897,
      "eval_steps_per_second": 0.459,
      "step": 80
    },
    {
      "epoch": 1.0975609756097562,
      "grad_norm": 3.8736400604248047,
      "learning_rate": 1.0975609756097562e-06,
      "loss": 3.8907,
      "step": 90
    },
    {
      "epoch": 1.0975609756097562,
      "eval_loss": 3.7496390342712402,
      "eval_runtime": 39.2415,
      "eval_samples_per_second": 450.059,
      "eval_steps_per_second": 0.459,
      "step": 90
    },
    {
      "epoch": 1.2195121951219512,
      "grad_norm": 3.2329907417297363,
      "learning_rate": 1.2195121951219512e-06,
      "loss": 3.6078,
      "step": 100
    },
    {
      "epoch": 1.2195121951219512,
      "eval_loss": 3.480637788772583,
      "eval_runtime": 39.2636,
      "eval_samples_per_second": 449.805,
      "eval_steps_per_second": 0.458,
      "step": 100
    },
    {
      "epoch": 1.3414634146341464,
      "grad_norm": 2.6243083477020264,
      "learning_rate": 1.3414634146341463e-06,
      "loss": 3.3481,
      "step": 110
    },
    {
      "epoch": 1.3414634146341464,
      "eval_loss": 3.248450756072998,
      "eval_runtime": 39.2605,
      "eval_samples_per_second": 449.841,
      "eval_steps_per_second": 0.458,
      "step": 110
    },
    {
      "epoch": 1.4634146341463414,
      "grad_norm": 2.2950096130371094,
      "learning_rate": 1.4634146341463414e-06,
      "loss": 3.1262,
      "step": 120
    },
    {
      "epoch": 1.4634146341463414,
      "eval_loss": 3.042900323867798,
      "eval_runtime": 39.3067,
      "eval_samples_per_second": 449.313,
      "eval_steps_per_second": 0.458,
      "step": 120
    },
    {
      "epoch": 1.5853658536585367,
      "grad_norm": 2.118208408355713,
      "learning_rate": 1.5853658536585366e-06,
      "loss": 2.9296,
      "step": 130
    },
    {
      "epoch": 1.5853658536585367,
      "eval_loss": 2.842834711074829,
      "eval_runtime": 39.3323,
      "eval_samples_per_second": 449.021,
      "eval_steps_per_second": 0.458,
      "step": 130
    },
    {
      "epoch": 1.7073170731707317,
      "grad_norm": 1.656348466873169,
      "learning_rate": 1.7073170731707315e-06,
      "loss": 2.7478,
      "step": 140
    },
    {
      "epoch": 1.7073170731707317,
      "eval_loss": 2.671419382095337,
      "eval_runtime": 39.2963,
      "eval_samples_per_second": 449.431,
      "eval_steps_per_second": 0.458,
      "step": 140
    },
    {
      "epoch": 1.8292682926829267,
      "grad_norm": 1.4909868240356445,
      "learning_rate": 1.8292682926829268e-06,
      "loss": 2.5869,
      "step": 150
    },
    {
      "epoch": 1.8292682926829267,
      "eval_loss": 2.5269365310668945,
      "eval_runtime": 39.305,
      "eval_samples_per_second": 449.332,
      "eval_steps_per_second": 0.458,
      "step": 150
    },
    {
      "epoch": 1.951219512195122,
      "grad_norm": 1.4536538124084473,
      "learning_rate": 1.9512195121951218e-06,
      "loss": 2.4527,
      "step": 160
    },
    {
      "epoch": 1.951219512195122,
      "eval_loss": 2.4036409854888916,
      "eval_runtime": 39.3364,
      "eval_samples_per_second": 448.974,
      "eval_steps_per_second": 0.458,
      "step": 160
    },
    {
      "epoch": 2.073170731707317,
      "grad_norm": 1.1609474420547485,
      "learning_rate": 1.9999184556954774e-06,
      "loss": 2.3461,
      "step": 170
    },
    {
      "epoch": 2.073170731707317,
      "eval_loss": 2.299896717071533,
      "eval_runtime": 39.3179,
      "eval_samples_per_second": 449.185,
      "eval_steps_per_second": 0.458,
      "step": 170
    },
    {
      "epoch": 2.1951219512195124,
      "grad_norm": 0.9852533340454102,
      "learning_rate": 1.999420177550043e-06,
      "loss": 2.243,
      "step": 180
    },
    {
      "epoch": 2.1951219512195124,
      "eval_loss": 2.2197790145874023,
      "eval_runtime": 39.305,
      "eval_samples_per_second": 449.332,
      "eval_steps_per_second": 0.458,
      "step": 180
    },
    {
      "epoch": 2.317073170731707,
      "grad_norm": 0.7964138388633728,
      "learning_rate": 1.9984691491033903e-06,
      "loss": 2.1769,
      "step": 190
    },
    {
      "epoch": 2.317073170731707,
      "eval_loss": 2.1610889434814453,
      "eval_runtime": 39.3444,
      "eval_samples_per_second": 448.883,
      "eval_steps_per_second": 0.457,
      "step": 190
    },
    {
      "epoch": 2.4390243902439024,
      "grad_norm": 0.8308465480804443,
      "learning_rate": 1.9970658011837403e-06,
      "loss": 2.1223,
      "step": 200
    },
    {
      "epoch": 2.4390243902439024,
      "eval_loss": 2.120553493499756,
      "eval_runtime": 39.3228,
      "eval_samples_per_second": 449.129,
      "eval_steps_per_second": 0.458,
      "step": 200
    },
    {
      "epoch": 2.5609756097560976,
      "grad_norm": 0.593834638595581,
      "learning_rate": 1.995210769525899e-06,
      "loss": 2.0966,
      "step": 210
    },
    {
      "epoch": 2.5609756097560976,
      "eval_loss": 2.0926828384399414,
      "eval_runtime": 39.3549,
      "eval_samples_per_second": 448.762,
      "eval_steps_per_second": 0.457,
      "step": 210
    },
    {
      "epoch": 2.682926829268293,
      "grad_norm": 0.5518779158592224,
      "learning_rate": 1.9929048944832634e-06,
      "loss": 2.0771,
      "step": 220
    },
    {
      "epoch": 2.682926829268293,
      "eval_loss": 2.072599172592163,
      "eval_runtime": 39.3161,
      "eval_samples_per_second": 449.205,
      "eval_steps_per_second": 0.458,
      "step": 220
    },
    {
      "epoch": 2.8048780487804876,
      "grad_norm": 0.5161460041999817,
      "learning_rate": 1.9901492206471324e-06,
      "loss": 2.0494,
      "step": 230
    },
    {
      "epoch": 2.8048780487804876,
      "eval_loss": 2.056934118270874,
      "eval_runtime": 39.345,
      "eval_samples_per_second": 448.876,
      "eval_steps_per_second": 0.457,
      "step": 230
    },
    {
      "epoch": 2.926829268292683,
      "grad_norm": 0.49138274788856506,
      "learning_rate": 1.986944996373489e-06,
      "loss": 2.0358,
      "step": 240
    },
    {
      "epoch": 2.926829268292683,
      "eval_loss": 2.0439107418060303,
      "eval_runtime": 39.3247,
      "eval_samples_per_second": 449.107,
      "eval_steps_per_second": 0.458,
      "step": 240
    },
    {
      "epoch": 3.048780487804878,
      "grad_norm": 0.4589332044124603,
      "learning_rate": 1.9832936732174833e-06,
      "loss": 2.0267,
      "step": 250
    },
    {
      "epoch": 3.048780487804878,
      "eval_loss": 2.0325710773468018,
      "eval_runtime": 39.3333,
      "eval_samples_per_second": 449.008,
      "eval_steps_per_second": 0.458,
      "step": 250
    },
    {
      "epoch": 3.1707317073170733,
      "grad_norm": 0.5090314745903015,
      "learning_rate": 1.979196905275856e-06,
      "loss": 2.0137,
      "step": 260
    },
    {
      "epoch": 3.1707317073170733,
      "eval_loss": 2.022416830062866,
      "eval_runtime": 39.3644,
      "eval_samples_per_second": 448.654,
      "eval_steps_per_second": 0.457,
      "step": 260
    },
    {
      "epoch": 3.292682926829268,
      "grad_norm": 0.4382960796356201,
      "learning_rate": 1.974656548437613e-06,
      "loss": 2.0011,
      "step": 270
    },
    {
      "epoch": 3.292682926829268,
      "eval_loss": 2.013012647628784,
      "eval_runtime": 39.333,
      "eval_samples_per_second": 449.012,
      "eval_steps_per_second": 0.458,
      "step": 270
    },
    {
      "epoch": 3.4146341463414633,
      "grad_norm": 0.4359953999519348,
      "learning_rate": 1.9696746595432827e-06,
      "loss": 1.9985,
      "step": 280
    },
    {
      "epoch": 3.4146341463414633,
      "eval_loss": 2.004154920578003,
      "eval_runtime": 39.3656,
      "eval_samples_per_second": 448.641,
      "eval_steps_per_second": 0.457,
      "step": 280
    },
    {
      "epoch": 3.5365853658536586,
      "grad_norm": 0.4334374964237213,
      "learning_rate": 1.964253495453141e-06,
      "loss": 1.9824,
      "step": 290
    },
    {
      "epoch": 3.5365853658536586,
      "eval_loss": 1.995658040046692,
      "eval_runtime": 39.3661,
      "eval_samples_per_second": 448.635,
      "eval_steps_per_second": 0.457,
      "step": 290
    },
    {
      "epoch": 3.658536585365854,
      "grad_norm": 0.45431938767433167,
      "learning_rate": 1.9583955120248236e-06,
      "loss": 1.9834,
      "step": 300
    },
    {
      "epoch": 3.658536585365854,
      "eval_loss": 1.987615704536438,
      "eval_runtime": 39.3423,
      "eval_samples_per_second": 448.907,
      "eval_steps_per_second": 0.458,
      "step": 300
    },
    {
      "epoch": 3.7804878048780486,
      "grad_norm": 0.4443369507789612,
      "learning_rate": 1.9521033630007928e-06,
      "loss": 1.9771,
      "step": 310
    },
    {
      "epoch": 3.7804878048780486,
      "eval_loss": 1.9800046682357788,
      "eval_runtime": 39.3384,
      "eval_samples_per_second": 448.951,
      "eval_steps_per_second": 0.458,
      "step": 310
    },
    {
      "epoch": 3.902439024390244,
      "grad_norm": 0.41829970479011536,
      "learning_rate": 1.945379898806153e-06,
      "loss": 1.9685,
      "step": 320
    },
    {
      "epoch": 3.902439024390244,
      "eval_loss": 1.9727787971496582,
      "eval_runtime": 39.3267,
      "eval_samples_per_second": 449.084,
      "eval_steps_per_second": 0.458,
      "step": 320
    },
    {
      "epoch": 4.024390243902439,
      "grad_norm": 0.43398183584213257,
      "learning_rate": 1.9382281652573785e-06,
      "loss": 1.9591,
      "step": 330
    },
    {
      "epoch": 4.024390243902439,
      "eval_loss": 1.9658193588256836,
      "eval_runtime": 39.3633,
      "eval_samples_per_second": 448.666,
      "eval_steps_per_second": 0.457,
      "step": 330
    },
    {
      "epoch": 4.146341463414634,
      "grad_norm": 0.39597055315971375,
      "learning_rate": 1.9306514021825116e-06,
      "loss": 1.9487,
      "step": 340
    },
    {
      "epoch": 4.146341463414634,
      "eval_loss": 1.9592342376708984,
      "eval_runtime": 39.3471,
      "eval_samples_per_second": 448.852,
      "eval_steps_per_second": 0.457,
      "step": 340
    },
    {
      "epoch": 4.2682926829268295,
      "grad_norm": 0.4240054190158844,
      "learning_rate": 1.922653041953483e-06,
      "loss": 1.9454,
      "step": 350
    },
    {
      "epoch": 4.2682926829268295,
      "eval_loss": 1.9528599977493286,
      "eval_runtime": 39.4079,
      "eval_samples_per_second": 448.159,
      "eval_steps_per_second": 0.457,
      "step": 350
    },
    {
      "epoch": 4.390243902439025,
      "grad_norm": 0.3959615230560303,
      "learning_rate": 1.914236707931202e-06,
      "loss": 1.9361,
      "step": 360
    },
    {
      "epoch": 4.390243902439025,
      "eval_loss": 1.9468114376068115,
      "eval_runtime": 39.3624,
      "eval_samples_per_second": 448.676,
      "eval_steps_per_second": 0.457,
      "step": 360
    },
    {
      "epoch": 4.512195121951219,
      "grad_norm": 0.3723958432674408,
      "learning_rate": 1.905406212824126e-06,
      "loss": 1.9389,
      "step": 370
    },
    {
      "epoch": 4.512195121951219,
      "eval_loss": 1.940889596939087,
      "eval_runtime": 39.3409,
      "eval_samples_per_second": 448.922,
      "eval_steps_per_second": 0.458,
      "step": 370
    },
    {
      "epoch": 4.634146341463414,
      "grad_norm": 0.37107619643211365,
      "learning_rate": 1.8961655569610556e-06,
      "loss": 1.9279,
      "step": 380
    },
    {
      "epoch": 4.634146341463414,
      "eval_loss": 1.9352220296859741,
      "eval_runtime": 39.3794,
      "eval_samples_per_second": 448.483,
      "eval_steps_per_second": 0.457,
      "step": 380
    },
    {
      "epoch": 4.7560975609756095,
      "grad_norm": 0.37607431411743164,
      "learning_rate": 1.8865189264789318e-06,
      "loss": 1.9212,
      "step": 390
    },
    {
      "epoch": 4.7560975609756095,
      "eval_loss": 1.9297622442245483,
      "eval_runtime": 39.3451,
      "eval_samples_per_second": 448.875,
      "eval_steps_per_second": 0.457,
      "step": 390
    },
    {
      "epoch": 4.878048780487805,
      "grad_norm": 0.371985524892807,
      "learning_rate": 1.8764706914264633e-06,
      "loss": 1.9142,
      "step": 400
    },
    {
      "epoch": 4.878048780487805,
      "eval_loss": 1.9244760274887085,
      "eval_runtime": 39.3136,
      "eval_samples_per_second": 449.234,
      "eval_steps_per_second": 0.458,
      "step": 400
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.4083458185195923,
      "learning_rate": 1.8660254037844386e-06,
      "loss": 1.9087,
      "step": 410
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.9192752838134766,
      "eval_runtime": 39.3184,
      "eval_samples_per_second": 449.18,
      "eval_steps_per_second": 0.458,
      "step": 410
    },
    {
      "epoch": 5.121951219512195,
      "grad_norm": 0.36457160115242004,
      "learning_rate": 1.8551877954036162e-06,
      "loss": 1.9061,
      "step": 420
    },
    {
      "epoch": 5.121951219512195,
      "eval_loss": 1.9141229391098022,
      "eval_runtime": 39.3307,
      "eval_samples_per_second": 449.038,
      "eval_steps_per_second": 0.458,
      "step": 420
    },
    {
      "epoch": 5.2439024390243905,
      "grad_norm": 0.4809107482433319,
      "learning_rate": 1.8439627758611382e-06,
      "loss": 1.9013,
      "step": 430
    },
    {
      "epoch": 5.2439024390243905,
      "eval_loss": 1.908936619758606,
      "eval_runtime": 39.3459,
      "eval_samples_per_second": 448.865,
      "eval_steps_per_second": 0.457,
      "step": 430
    },
    {
      "epoch": 5.365853658536586,
      "grad_norm": 0.5720298290252686,
      "learning_rate": 1.832355430236427e-06,
      "loss": 1.8953,
      "step": 440
    },
    {
      "epoch": 5.365853658536586,
      "eval_loss": 1.9032728672027588,
      "eval_runtime": 39.357,
      "eval_samples_per_second": 448.739,
      "eval_steps_per_second": 0.457,
      "step": 440
    },
    {
      "epoch": 5.487804878048781,
      "grad_norm": 0.40899941325187683,
      "learning_rate": 1.8203710168075784e-06,
      "loss": 1.8877,
      "step": 450
    },
    {
      "epoch": 5.487804878048781,
      "eval_loss": 1.8964674472808838,
      "eval_runtime": 39.3338,
      "eval_samples_per_second": 449.003,
      "eval_steps_per_second": 0.458,
      "step": 450
    },
    {
      "epoch": 5.609756097560975,
      "grad_norm": 0.7770607471466064,
      "learning_rate": 1.8080149646692928e-06,
      "loss": 1.8794,
      "step": 460
    },
    {
      "epoch": 5.609756097560975,
      "eval_loss": 1.8876992464065552,
      "eval_runtime": 39.345,
      "eval_samples_per_second": 448.876,
      "eval_steps_per_second": 0.457,
      "step": 460
    },
    {
      "epoch": 5.7317073170731705,
      "grad_norm": 1.4756108522415161,
      "learning_rate": 1.7952928712734265e-06,
      "loss": 1.8732,
      "step": 470
    },
    {
      "epoch": 5.7317073170731705,
      "eval_loss": 1.8765217065811157,
      "eval_runtime": 39.3534,
      "eval_samples_per_second": 448.78,
      "eval_steps_per_second": 0.457,
      "step": 470
    },
    {
      "epoch": 5.853658536585366,
      "grad_norm": 3.089818239212036,
      "learning_rate": 1.7822104998932711e-06,
      "loss": 1.8652,
      "step": 480
    },
    {
      "epoch": 5.853658536585366,
      "eval_loss": 1.8682845830917358,
      "eval_runtime": 39.3351,
      "eval_samples_per_second": 448.988,
      "eval_steps_per_second": 0.458,
      "step": 480
    },
    {
      "epoch": 5.975609756097561,
      "grad_norm": 1.618462085723877,
      "learning_rate": 1.7687737770127184e-06,
      "loss": 1.8513,
      "step": 490
    },
    {
      "epoch": 5.975609756097561,
      "eval_loss": 1.8599414825439453,
      "eval_runtime": 39.3081,
      "eval_samples_per_second": 449.297,
      "eval_steps_per_second": 0.458,
      "step": 490
    },
    {
      "epoch": 6.097560975609756,
      "grad_norm": 1.5310617685317993,
      "learning_rate": 1.754988789641485e-06,
      "loss": 1.8501,
      "step": 500
    },
    {
      "epoch": 6.097560975609756,
      "eval_loss": 1.8557490110397339,
      "eval_runtime": 39.3877,
      "eval_samples_per_second": 448.389,
      "eval_steps_per_second": 0.457,
      "step": 500
    },
    {
      "epoch": 6.219512195121951,
      "grad_norm": 1.2465336322784424,
      "learning_rate": 1.7408617825576177e-06,
      "loss": 1.8475,
      "step": 510
    },
    {
      "epoch": 6.219512195121951,
      "eval_loss": 1.85213303565979,
      "eval_runtime": 39.3619,
      "eval_samples_per_second": 448.682,
      "eval_steps_per_second": 0.457,
      "step": 510
    },
    {
      "epoch": 6.341463414634147,
      "grad_norm": 0.8563424944877625,
      "learning_rate": 1.7263991554785288e-06,
      "loss": 1.8349,
      "step": 520
    },
    {
      "epoch": 6.341463414634147,
      "eval_loss": 1.8481909036636353,
      "eval_runtime": 39.3592,
      "eval_samples_per_second": 448.714,
      "eval_steps_per_second": 0.457,
      "step": 520
    },
    {
      "epoch": 6.463414634146342,
      "grad_norm": 0.47906893491744995,
      "learning_rate": 1.7116074601618415e-06,
      "loss": 1.8369,
      "step": 530
    },
    {
      "epoch": 6.463414634146342,
      "eval_loss": 1.8447495698928833,
      "eval_runtime": 39.3461,
      "eval_samples_per_second": 448.863,
      "eval_steps_per_second": 0.457,
      "step": 530
    },
    {
      "epoch": 6.585365853658536,
      "grad_norm": 0.3527175188064575,
      "learning_rate": 1.696493397437357e-06,
      "loss": 1.8288,
      "step": 540
    },
    {
      "epoch": 6.585365853658536,
      "eval_loss": 1.8413718938827515,
      "eval_runtime": 39.3552,
      "eval_samples_per_second": 448.759,
      "eval_steps_per_second": 0.457,
      "step": 540
    },
    {
      "epoch": 6.7073170731707314,
      "grad_norm": 0.37900474667549133,
      "learning_rate": 1.6810638141714932e-06,
      "loss": 1.8271,
      "step": 550
    },
    {
      "epoch": 6.7073170731707314,
      "eval_loss": 1.8382277488708496,
      "eval_runtime": 39.3397,
      "eval_samples_per_second": 448.936,
      "eval_steps_per_second": 0.458,
      "step": 550
    },
    {
      "epoch": 6.829268292682927,
      "grad_norm": 0.3187570869922638,
      "learning_rate": 1.665325700165565e-06,
      "loss": 1.8296,
      "step": 560
    },
    {
      "epoch": 6.829268292682927,
      "eval_loss": 1.8352141380310059,
      "eval_runtime": 39.3555,
      "eval_samples_per_second": 448.755,
      "eval_steps_per_second": 0.457,
      "step": 560
    },
    {
      "epoch": 6.951219512195122,
      "grad_norm": 0.36600008606910706,
      "learning_rate": 1.6492861849893147e-06,
      "loss": 1.8257,
      "step": 570
    },
    {
      "epoch": 6.951219512195122,
      "eval_loss": 1.832342505455017,
      "eval_runtime": 39.336,
      "eval_samples_per_second": 448.978,
      "eval_steps_per_second": 0.458,
      "step": 570
    },
    {
      "epoch": 7.073170731707317,
      "grad_norm": 0.288286954164505,
      "learning_rate": 1.6329525347511218e-06,
      "loss": 1.8238,
      "step": 580
    },
    {
      "epoch": 7.073170731707317,
      "eval_loss": 1.8295822143554688,
      "eval_runtime": 39.3243,
      "eval_samples_per_second": 449.112,
      "eval_steps_per_second": 0.458,
      "step": 580
    },
    {
      "epoch": 7.195121951219512,
      "grad_norm": 0.3237072825431824,
      "learning_rate": 1.6163321488063635e-06,
      "loss": 1.8174,
      "step": 590
    },
    {
      "epoch": 7.195121951219512,
      "eval_loss": 1.8268990516662598,
      "eval_runtime": 39.3498,
      "eval_samples_per_second": 448.82,
      "eval_steps_per_second": 0.457,
      "step": 590
    },
    {
      "epoch": 7.317073170731708,
      "grad_norm": 0.36146941781044006,
      "learning_rate": 1.599432556405412e-06,
      "loss": 1.8141,
      "step": 600
    },
    {
      "epoch": 7.317073170731708,
      "eval_loss": 1.8243464231491089,
      "eval_runtime": 39.3676,
      "eval_samples_per_second": 448.617,
      "eval_steps_per_second": 0.457,
      "step": 600
    },
    {
      "epoch": 7.439024390243903,
      "grad_norm": 0.3055365979671478,
      "learning_rate": 1.5822614132827836e-06,
      "loss": 1.8141,
      "step": 610
    },
    {
      "epoch": 7.439024390243903,
      "eval_loss": 1.8218821287155151,
      "eval_runtime": 39.3324,
      "eval_samples_per_second": 449.019,
      "eval_steps_per_second": 0.458,
      "step": 610
    },
    {
      "epoch": 7.560975609756097,
      "grad_norm": 0.2906692624092102,
      "learning_rate": 1.5648264981889934e-06,
      "loss": 1.8096,
      "step": 620
    },
    {
      "epoch": 7.560975609756097,
      "eval_loss": 1.8194576501846313,
      "eval_runtime": 39.3325,
      "eval_samples_per_second": 449.018,
      "eval_steps_per_second": 0.458,
      "step": 620
    },
    {
      "epoch": 7.682926829268292,
      "grad_norm": 0.3652225434780121,
      "learning_rate": 1.5471357093666804e-06,
      "loss": 1.8119,
      "step": 630
    },
    {
      "epoch": 7.682926829268292,
      "eval_loss": 1.8171180486679077,
      "eval_runtime": 39.3377,
      "eval_samples_per_second": 448.958,
      "eval_steps_per_second": 0.458,
      "step": 630
    },
    {
      "epoch": 7.804878048780488,
      "grad_norm": 0.3688996732234955,
      "learning_rate": 1.5291970609726005e-06,
      "loss": 1.8042,
      "step": 640
    },
    {
      "epoch": 7.804878048780488,
      "eval_loss": 1.8148137331008911,
      "eval_runtime": 39.3463,
      "eval_samples_per_second": 448.86,
      "eval_steps_per_second": 0.457,
      "step": 640
    },
    {
      "epoch": 7.926829268292683,
      "grad_norm": 0.28809812664985657,
      "learning_rate": 1.5110186794471103e-06,
      "loss": 1.7979,
      "step": 650
    },
    {
      "epoch": 7.926829268292683,
      "eval_loss": 1.8126047849655151,
      "eval_runtime": 39.3619,
      "eval_samples_per_second": 448.682,
      "eval_steps_per_second": 0.457,
      "step": 650
    },
    {
      "epoch": 8.048780487804878,
      "grad_norm": 0.2660142481327057,
      "learning_rate": 1.4926087998327837e-06,
      "loss": 1.804,
      "step": 660
    },
    {
      "epoch": 8.048780487804878,
      "eval_loss": 1.8104569911956787,
      "eval_runtime": 39.3952,
      "eval_samples_per_second": 448.303,
      "eval_steps_per_second": 0.457,
      "step": 660
    },
    {
      "epoch": 8.170731707317072,
      "grad_norm": 0.281999796628952,
      "learning_rate": 1.4739757620438307e-06,
      "loss": 1.7987,
      "step": 670
    },
    {
      "epoch": 8.170731707317072,
      "eval_loss": 1.8083666563034058,
      "eval_runtime": 39.3346,
      "eval_samples_per_second": 448.994,
      "eval_steps_per_second": 0.458,
      "step": 670
    },
    {
      "epoch": 8.292682926829269,
      "grad_norm": 0.2869739234447479,
      "learning_rate": 1.4551280070880087e-06,
      "loss": 1.7954,
      "step": 680
    },
    {
      "epoch": 8.292682926829269,
      "eval_loss": 1.8063015937805176,
      "eval_runtime": 39.3428,
      "eval_samples_per_second": 448.9,
      "eval_steps_per_second": 0.458,
      "step": 680
    },
    {
      "epoch": 8.414634146341463,
      "grad_norm": 0.2752714157104492,
      "learning_rate": 1.4360740732427365e-06,
      "loss": 1.797,
      "step": 690
    },
    {
      "epoch": 8.414634146341463,
      "eval_loss": 1.804310917854309,
      "eval_runtime": 39.3238,
      "eval_samples_per_second": 449.118,
      "eval_steps_per_second": 0.458,
      "step": 690
    },
    {
      "epoch": 8.536585365853659,
      "grad_norm": 0.4099307358264923,
      "learning_rate": 1.416822592187143e-06,
      "loss": 1.791,
      "step": 700
    },
    {
      "epoch": 8.536585365853659,
      "eval_loss": 1.802320122718811,
      "eval_runtime": 39.3277,
      "eval_samples_per_second": 449.073,
      "eval_steps_per_second": 0.458,
      "step": 700
    },
    {
      "epoch": 8.658536585365853,
      "grad_norm": 0.3235901892185211,
      "learning_rate": 1.3973822850918054e-06,
      "loss": 1.7893,
      "step": 710
    },
    {
      "epoch": 8.658536585365853,
      "eval_loss": 1.8004404306411743,
      "eval_runtime": 39.6357,
      "eval_samples_per_second": 445.583,
      "eval_steps_per_second": 0.454,
      "step": 710
    },
    {
      "epoch": 8.78048780487805,
      "grad_norm": 0.3761025071144104,
      "learning_rate": 1.3777619586679457e-06,
      "loss": 1.787,
      "step": 720
    },
    {
      "epoch": 8.78048780487805,
      "eval_loss": 1.7985868453979492,
      "eval_runtime": 39.2931,
      "eval_samples_per_second": 449.468,
      "eval_steps_per_second": 0.458,
      "step": 720
    },
    {
      "epoch": 8.902439024390244,
      "grad_norm": 0.2766464054584503,
      "learning_rate": 1.3579705011778765e-06,
      "loss": 1.7899,
      "step": 730
    },
    {
      "epoch": 8.902439024390244,
      "eval_loss": 1.7967922687530518,
      "eval_runtime": 39.3376,
      "eval_samples_per_second": 448.96,
      "eval_steps_per_second": 0.458,
      "step": 730
    },
    {
      "epoch": 9.024390243902438,
      "grad_norm": 0.3136584162712097,
      "learning_rate": 1.3380168784085026e-06,
      "loss": 1.7917,
      "step": 740
    },
    {
      "epoch": 9.024390243902438,
      "eval_loss": 1.7949668169021606,
      "eval_runtime": 39.3251,
      "eval_samples_per_second": 449.102,
      "eval_steps_per_second": 0.458,
      "step": 740
    },
    {
      "epoch": 9.146341463414634,
      "grad_norm": 0.268803209066391,
      "learning_rate": 1.3179101296097033e-06,
      "loss": 1.7838,
      "step": 750
    },
    {
      "epoch": 9.146341463414634,
      "eval_loss": 1.793213129043579,
      "eval_runtime": 39.3253,
      "eval_samples_per_second": 449.101,
      "eval_steps_per_second": 0.458,
      "step": 750
    },
    {
      "epoch": 9.268292682926829,
      "grad_norm": 0.2907431125640869,
      "learning_rate": 1.2976593633994346e-06,
      "loss": 1.7803,
      "step": 760
    },
    {
      "epoch": 9.268292682926829,
      "eval_loss": 1.7914844751358032,
      "eval_runtime": 39.3189,
      "eval_samples_per_second": 449.173,
      "eval_steps_per_second": 0.458,
      "step": 760
    },
    {
      "epoch": 9.390243902439025,
      "grad_norm": 0.3980807960033417,
      "learning_rate": 1.2772737536374078e-06,
      "loss": 1.7789,
      "step": 770
    },
    {
      "epoch": 9.390243902439025,
      "eval_loss": 1.7898335456848145,
      "eval_runtime": 39.3451,
      "eval_samples_per_second": 448.875,
      "eval_steps_per_second": 0.457,
      "step": 770
    },
    {
      "epoch": 9.512195121951219,
      "grad_norm": 0.30676034092903137,
      "learning_rate": 1.2567625352692126e-06,
      "loss": 1.7811,
      "step": 780
    },
    {
      "epoch": 9.512195121951219,
      "eval_loss": 1.7882270812988281,
      "eval_runtime": 39.3352,
      "eval_samples_per_second": 448.987,
      "eval_steps_per_second": 0.458,
      "step": 780
    },
    {
      "epoch": 9.634146341463415,
      "grad_norm": 0.24213315546512604,
      "learning_rate": 1.2361350001427649e-06,
      "loss": 1.7791,
      "step": 790
    },
    {
      "epoch": 9.634146341463415,
      "eval_loss": 1.786568522453308,
      "eval_runtime": 39.3646,
      "eval_samples_per_second": 448.652,
      "eval_steps_per_second": 0.457,
      "step": 790
    },
    {
      "epoch": 9.75609756097561,
      "grad_norm": 0.2722227871417999,
      "learning_rate": 1.2154004927989813e-06,
      "loss": 1.7742,
      "step": 800
    },
    {
      "epoch": 9.75609756097561,
      "eval_loss": 1.784982681274414,
      "eval_runtime": 39.3395,
      "eval_samples_per_second": 448.938,
      "eval_steps_per_second": 0.458,
      "step": 800
    },
    {
      "epoch": 9.878048780487806,
      "grad_norm": 0.2399929314851761,
      "learning_rate": 1.19456840623858e-06,
      "loss": 1.7717,
      "step": 810
    },
    {
      "epoch": 9.878048780487806,
      "eval_loss": 1.7834330797195435,
      "eval_runtime": 39.2984,
      "eval_samples_per_second": 449.408,
      "eval_steps_per_second": 0.458,
      "step": 810
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.24806931614875793,
      "learning_rate": 1.1736481776669305e-06,
      "loss": 1.7788,
      "step": 820
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.7818834781646729,
      "eval_runtime": 39.2977,
      "eval_samples_per_second": 449.415,
      "eval_steps_per_second": 0.458,
      "step": 820
    },
    {
      "epoch": 10.121951219512194,
      "grad_norm": 0.32369279861450195,
      "learning_rate": 1.1526492842188744e-06,
      "loss": 1.7719,
      "step": 830
    },
    {
      "epoch": 10.121951219512194,
      "eval_loss": 1.7803385257720947,
      "eval_runtime": 39.3284,
      "eval_samples_per_second": 449.064,
      "eval_steps_per_second": 0.458,
      "step": 830
    },
    {
      "epoch": 10.24390243902439,
      "grad_norm": 0.3276310861110687,
      "learning_rate": 1.1315812386654649e-06,
      "loss": 1.7675,
      "step": 840
    },
    {
      "epoch": 10.24390243902439,
      "eval_loss": 1.7788329124450684,
      "eval_runtime": 39.674,
      "eval_samples_per_second": 445.153,
      "eval_steps_per_second": 0.454,
      "step": 840
    },
    {
      "epoch": 10.365853658536585,
      "grad_norm": 0.2850521504878998,
      "learning_rate": 1.1104535851045538e-06,
      "loss": 1.7725,
      "step": 850
    },
    {
      "epoch": 10.365853658536585,
      "eval_loss": 1.7772928476333618,
      "eval_runtime": 39.3302,
      "eval_samples_per_second": 449.045,
      "eval_steps_per_second": 0.458,
      "step": 850
    },
    {
      "epoch": 10.487804878048781,
      "grad_norm": 0.27776798605918884,
      "learning_rate": 1.0892758946371942e-06,
      "loss": 1.7648,
      "step": 860
    },
    {
      "epoch": 10.487804878048781,
      "eval_loss": 1.7757339477539062,
      "eval_runtime": 39.3544,
      "eval_samples_per_second": 448.768,
      "eval_steps_per_second": 0.457,
      "step": 860
    },
    {
      "epoch": 10.609756097560975,
      "grad_norm": 0.5228049755096436,
      "learning_rate": 1.0680577610318071e-06,
      "loss": 1.7609,
      "step": 870
    },
    {
      "epoch": 10.609756097560975,
      "eval_loss": 1.7741671800613403,
      "eval_runtime": 39.3709,
      "eval_samples_per_second": 448.581,
      "eval_steps_per_second": 0.457,
      "step": 870
    },
    {
      "epoch": 10.731707317073171,
      "grad_norm": 0.3848848044872284,
      "learning_rate": 1.0468087963780787e-06,
      "loss": 1.7636,
      "step": 880
    },
    {
      "epoch": 10.731707317073171,
      "eval_loss": 1.77255380153656,
      "eval_runtime": 39.3539,
      "eval_samples_per_second": 448.773,
      "eval_steps_per_second": 0.457,
      "step": 880
    },
    {
      "epoch": 10.853658536585366,
      "grad_norm": 0.5747771263122559,
      "learning_rate": 1.0255386267325602e-06,
      "loss": 1.7598,
      "step": 890
    },
    {
      "epoch": 10.853658536585366,
      "eval_loss": 1.770812749862671,
      "eval_runtime": 39.3689,
      "eval_samples_per_second": 448.603,
      "eval_steps_per_second": 0.457,
      "step": 890
    },
    {
      "epoch": 10.975609756097562,
      "grad_norm": 1.4300990104675293,
      "learning_rate": 1.0042568877579387e-06,
      "loss": 1.7651,
      "step": 900
    },
    {
      "epoch": 10.975609756097562,
      "eval_loss": 1.7690285444259644,
      "eval_runtime": 39.3685,
      "eval_samples_per_second": 448.607,
      "eval_steps_per_second": 0.457,
      "step": 900
    },
    {
      "epoch": 11.097560975609756,
      "grad_norm": 0.43552011251449585,
      "learning_rate": 9.829732203579585e-07,
      "loss": 1.7598,
      "step": 910
    },
    {
      "epoch": 11.097560975609756,
      "eval_loss": 1.7672632932662964,
      "eval_runtime": 39.3224,
      "eval_samples_per_second": 449.133,
      "eval_steps_per_second": 0.458,
      "step": 910
    },
    {
      "epoch": 11.21951219512195,
      "grad_norm": 4.467670917510986,
      "learning_rate": 9.616972663099646e-07,
      "loss": 1.7585,
      "step": 920
    },
    {
      "epoch": 11.21951219512195,
      "eval_loss": 1.768608570098877,
      "eval_runtime": 39.3441,
      "eval_samples_per_second": 448.886,
      "eval_steps_per_second": 0.458,
      "step": 920
    },
    {
      "epoch": 11.341463414634147,
      "grad_norm": 4.179907321929932,
      "learning_rate": 9.40438663897054e-07,
      "loss": 1.7572,
      "step": 930
    },
    {
      "epoch": 11.341463414634147,
      "eval_loss": 1.7685447931289673,
      "eval_runtime": 39.3059,
      "eval_samples_per_second": 449.322,
      "eval_steps_per_second": 0.458,
      "step": 930
    },
    {
      "epoch": 11.463414634146341,
      "grad_norm": 4.369534492492676,
      "learning_rate": 9.192070435418078e-07,
      "loss": 1.7485,
      "step": 940
    },
    {
      "epoch": 11.463414634146341,
      "eval_loss": 1.7640718221664429,
      "eval_runtime": 39.3093,
      "eval_samples_per_second": 449.283,
      "eval_steps_per_second": 0.458,
      "step": 940
    },
    {
      "epoch": 11.585365853658537,
      "grad_norm": 1.9561405181884766,
      "learning_rate": 8.980120234435848e-07,
      "loss": 1.7528,
      "step": 950
    },
    {
      "epoch": 11.585365853658537,
      "eval_loss": 1.763830542564392,
      "eval_runtime": 39.3238,
      "eval_samples_per_second": 449.117,
      "eval_steps_per_second": 0.458,
      "step": 950
    },
    {
      "epoch": 11.707317073170731,
      "grad_norm": 2.5773379802703857,
      "learning_rate": 8.768632052213531e-07,
      "loss": 1.7545,
      "step": 960
    },
    {
      "epoch": 11.707317073170731,
      "eval_loss": 1.7629334926605225,
      "eval_runtime": 39.3328,
      "eval_samples_per_second": 449.014,
      "eval_steps_per_second": 0.458,
      "step": 960
    },
    {
      "epoch": 11.829268292682928,
      "grad_norm": 3.903297185897827,
      "learning_rate": 8.557701695640321e-07,
      "loss": 1.7508,
      "step": 970
    },
    {
      "epoch": 11.829268292682928,
      "eval_loss": 1.760330319404602,
      "eval_runtime": 39.3191,
      "eval_samples_per_second": 449.171,
      "eval_steps_per_second": 0.458,
      "step": 970
    },
    {
      "epoch": 11.951219512195122,
      "grad_norm": 2.7617976665496826,
      "learning_rate": 8.347424718903151e-07,
      "loss": 1.7542,
      "step": 980
    },
    {
      "epoch": 11.951219512195122,
      "eval_loss": 1.759660243988037,
      "eval_runtime": 39.3037,
      "eval_samples_per_second": 449.347,
      "eval_steps_per_second": 0.458,
      "step": 980
    },
    {
      "epoch": 12.073170731707316,
      "grad_norm": 3.2472615242004395,
      "learning_rate": 8.137896380199421e-07,
      "loss": 1.752,
      "step": 990
    },
    {
      "epoch": 12.073170731707316,
      "eval_loss": 1.7598719596862793,
      "eval_runtime": 39.6916,
      "eval_samples_per_second": 444.956,
      "eval_steps_per_second": 0.453,
      "step": 990
    },
    {
      "epoch": 12.195121951219512,
      "grad_norm": 4.050698757171631,
      "learning_rate": 7.929211598583793e-07,
      "loss": 1.7487,
      "step": 1000
    },
    {
      "epoch": 12.195121951219512,
      "eval_loss": 1.7570974826812744,
      "eval_runtime": 39.3566,
      "eval_samples_per_second": 448.743,
      "eval_steps_per_second": 0.457,
      "step": 1000
    },
    {
      "epoch": 12.317073170731707,
      "grad_norm": 2.279803991317749,
      "learning_rate": 7.721464910968626e-07,
      "loss": 1.7454,
      "step": 1010
    },
    {
      "epoch": 12.317073170731707,
      "eval_loss": 1.7562564611434937,
      "eval_runtime": 39.3538,
      "eval_samples_per_second": 448.775,
      "eval_steps_per_second": 0.457,
      "step": 1010
    },
    {
      "epoch": 12.439024390243903,
      "grad_norm": 3.100792407989502,
      "learning_rate": 7.514750429297527e-07,
      "loss": 1.7472,
      "step": 1020
    },
    {
      "epoch": 12.439024390243903,
      "eval_loss": 1.7561583518981934,
      "eval_runtime": 39.3529,
      "eval_samples_per_second": 448.786,
      "eval_steps_per_second": 0.457,
      "step": 1020
    },
    {
      "epoch": 12.560975609756097,
      "grad_norm": 3.9019737243652344,
      "learning_rate": 7.30916179791144e-07,
      "loss": 1.7411,
      "step": 1030
    },
    {
      "epoch": 12.560975609756097,
      "eval_loss": 1.7533916234970093,
      "eval_runtime": 39.3587,
      "eval_samples_per_second": 448.719,
      "eval_steps_per_second": 0.457,
      "step": 1030
    },
    {
      "epoch": 12.682926829268293,
      "grad_norm": 2.5269076824188232,
      "learning_rate": 7.104792151126514e-07,
      "loss": 1.7441,
      "step": 1040
    },
    {
      "epoch": 12.682926829268293,
      "eval_loss": 1.7524149417877197,
      "eval_runtime": 39.3483,
      "eval_samples_per_second": 448.838,
      "eval_steps_per_second": 0.457,
      "step": 1040
    },
    {
      "epoch": 12.804878048780488,
      "grad_norm": 3.1689910888671875,
      "learning_rate": 6.901734071043071e-07,
      "loss": 1.7391,
      "step": 1050
    },
    {
      "epoch": 12.804878048780488,
      "eval_loss": 1.752366542816162,
      "eval_runtime": 39.3518,
      "eval_samples_per_second": 448.798,
      "eval_steps_per_second": 0.457,
      "step": 1050
    },
    {
      "epoch": 12.926829268292684,
      "grad_norm": 3.6410083770751953,
      "learning_rate": 6.700079545604707e-07,
      "loss": 1.7441,
      "step": 1060
    },
    {
      "epoch": 12.926829268292684,
      "eval_loss": 1.749656319618225,
      "eval_runtime": 39.3618,
      "eval_samples_per_second": 448.684,
      "eval_steps_per_second": 0.457,
      "step": 1060
    },
    {
      "epoch": 13.048780487804878,
      "grad_norm": 1.9339579343795776,
      "learning_rate": 6.499919926926565e-07,
      "loss": 1.7415,
      "step": 1070
    },
    {
      "epoch": 13.048780487804878,
      "eval_loss": 1.7485558986663818,
      "eval_runtime": 39.3581,
      "eval_samples_per_second": 448.726,
      "eval_steps_per_second": 0.457,
      "step": 1070
    },
    {
      "epoch": 13.170731707317072,
      "grad_norm": 2.8899059295654297,
      "learning_rate": 6.301345889911636e-07,
      "loss": 1.7352,
      "step": 1080
    },
    {
      "epoch": 13.170731707317072,
      "eval_loss": 1.7480661869049072,
      "eval_runtime": 39.3461,
      "eval_samples_per_second": 448.863,
      "eval_steps_per_second": 0.457,
      "step": 1080
    },
    {
      "epoch": 13.292682926829269,
      "grad_norm": 3.037234306335449,
      "learning_rate": 6.104447391173858e-07,
      "loss": 1.7395,
      "step": 1090
    },
    {
      "epoch": 13.292682926829269,
      "eval_loss": 1.7456430196762085,
      "eval_runtime": 39.3861,
      "eval_samples_per_second": 448.407,
      "eval_steps_per_second": 0.457,
      "step": 1090
    },
    {
      "epoch": 13.414634146341463,
      "grad_norm": 1.7524123191833496,
      "learning_rate": 5.9093136282866e-07,
      "loss": 1.7317,
      "step": 1100
    },
    {
      "epoch": 13.414634146341463,
      "eval_loss": 1.7444212436676025,
      "eval_runtime": 39.3868,
      "eval_samples_per_second": 448.399,
      "eval_steps_per_second": 0.457,
      "step": 1100
    },
    {
      "epoch": 13.536585365853659,
      "grad_norm": 1.582607388496399,
      "learning_rate": 5.716032999375006e-07,
      "loss": 1.7356,
      "step": 1110
    },
    {
      "epoch": 13.536585365853659,
      "eval_loss": 1.743189811706543,
      "eval_runtime": 39.3597,
      "eval_samples_per_second": 448.707,
      "eval_steps_per_second": 0.457,
      "step": 1110
    },
    {
      "epoch": 13.658536585365853,
      "grad_norm": 0.7700549364089966,
      "learning_rate": 5.524693063070492e-07,
      "loss": 1.7347,
      "step": 1120
    },
    {
      "epoch": 13.658536585365853,
      "eval_loss": 1.7409182786941528,
      "eval_runtime": 39.3602,
      "eval_samples_per_second": 448.702,
      "eval_steps_per_second": 0.457,
      "step": 1120
    },
    {
      "epoch": 13.78048780487805,
      "grad_norm": 0.8657609820365906,
      "learning_rate": 5.335380498845559e-07,
      "loss": 1.7291,
      "step": 1130
    },
    {
      "epoch": 13.78048780487805,
      "eval_loss": 1.7383273839950562,
      "eval_runtime": 39.3511,
      "eval_samples_per_second": 448.806,
      "eval_steps_per_second": 0.457,
      "step": 1130
    },
    {
      "epoch": 13.902439024390244,
      "grad_norm": 0.5521230101585388,
      "learning_rate": 5.148181067746861e-07,
      "loss": 1.7238,
      "step": 1140
    },
    {
      "epoch": 13.902439024390244,
      "eval_loss": 1.7357066869735718,
      "eval_runtime": 39.3644,
      "eval_samples_per_second": 448.654,
      "eval_steps_per_second": 0.457,
      "step": 1140
    },
    {
      "epoch": 14.024390243902438,
      "grad_norm": 0.9353064894676208,
      "learning_rate": 4.963179573544356e-07,
      "loss": 1.7238,
      "step": 1150
    },
    {
      "epoch": 14.024390243902438,
      "eval_loss": 1.7331624031066895,
      "eval_runtime": 39.355,
      "eval_samples_per_second": 448.761,
      "eval_steps_per_second": 0.457,
      "step": 1150
    },
    {
      "epoch": 14.146341463414634,
      "grad_norm": 0.4633055329322815,
      "learning_rate": 4.780459824314066e-07,
      "loss": 1.7234,
      "step": 1160
    },
    {
      "epoch": 14.146341463414634,
      "eval_loss": 1.7308125495910645,
      "eval_runtime": 39.4238,
      "eval_samples_per_second": 447.978,
      "eval_steps_per_second": 0.457,
      "step": 1160
    },
    {
      "epoch": 14.268292682926829,
      "grad_norm": 0.5228179693222046,
      "learning_rate": 4.6001045944719594e-07,
      "loss": 1.7165,
      "step": 1170
    },
    {
      "epoch": 14.268292682926829,
      "eval_loss": 1.7286032438278198,
      "eval_runtime": 39.3556,
      "eval_samples_per_second": 448.755,
      "eval_steps_per_second": 0.457,
      "step": 1170
    },
    {
      "epoch": 14.390243902439025,
      "grad_norm": 0.3939041495323181,
      "learning_rate": 4.4221955872760573e-07,
      "loss": 1.7171,
      "step": 1180
    },
    {
      "epoch": 14.390243902439025,
      "eval_loss": 1.72659432888031,
      "eval_runtime": 39.3559,
      "eval_samples_per_second": 448.75,
      "eval_steps_per_second": 0.457,
      "step": 1180
    },
    {
      "epoch": 14.512195121951219,
      "grad_norm": 0.3697729706764221,
      "learning_rate": 4.246813397813794e-07,
      "loss": 1.7153,
      "step": 1190
    },
    {
      "epoch": 14.512195121951219,
      "eval_loss": 1.7247569561004639,
      "eval_runtime": 39.3585,
      "eval_samples_per_second": 448.722,
      "eval_steps_per_second": 0.457,
      "step": 1190
    },
    {
      "epoch": 14.634146341463415,
      "grad_norm": 0.38930952548980713,
      "learning_rate": 4.074037476491413e-07,
      "loss": 1.7147,
      "step": 1200
    },
    {
      "epoch": 14.634146341463415,
      "eval_loss": 1.7230459451675415,
      "eval_runtime": 39.3707,
      "eval_samples_per_second": 448.582,
      "eval_steps_per_second": 0.457,
      "step": 1200
    },
    {
      "epoch": 14.75609756097561,
      "grad_norm": 0.5216050148010254,
      "learning_rate": 3.9039460930418767e-07,
      "loss": 1.7093,
      "step": 1210
    },
    {
      "epoch": 14.75609756097561,
      "eval_loss": 1.721459984779358,
      "eval_runtime": 39.4124,
      "eval_samples_per_second": 448.108,
      "eval_steps_per_second": 0.457,
      "step": 1210
    },
    {
      "epoch": 14.878048780487806,
      "grad_norm": 0.6067308187484741,
      "learning_rate": 3.736616301067693e-07,
      "loss": 1.7114,
      "step": 1220
    },
    {
      "epoch": 14.878048780487806,
      "eval_loss": 1.7200278043746948,
      "eval_runtime": 39.3411,
      "eval_samples_per_second": 448.92,
      "eval_steps_per_second": 0.458,
      "step": 1220
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.528874933719635,
      "learning_rate": 3.5721239031346063e-07,
      "loss": 1.7074,
      "step": 1230
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.7186657190322876,
      "eval_runtime": 39.4208,
      "eval_samples_per_second": 448.012,
      "eval_steps_per_second": 0.457,
      "step": 1230
    },
    {
      "epoch": 15.121951219512194,
      "grad_norm": 0.4690570831298828,
      "learning_rate": 3.410543416432069e-07,
      "loss": 1.7068,
      "step": 1240
    },
    {
      "epoch": 15.121951219512194,
      "eval_loss": 1.7174080610275269,
      "eval_runtime": 39.3531,
      "eval_samples_per_second": 448.783,
      "eval_steps_per_second": 0.457,
      "step": 1240
    },
    {
      "epoch": 15.24390243902439,
      "grad_norm": 0.4555855989456177,
      "learning_rate": 3.2519480390159804e-07,
      "loss": 1.7067,
      "step": 1250
    },
    {
      "epoch": 15.24390243902439,
      "eval_loss": 1.7162292003631592,
      "eval_runtime": 39.3524,
      "eval_samples_per_second": 448.791,
      "eval_steps_per_second": 0.457,
      "step": 1250
    },
    {
      "epoch": 15.365853658536585,
      "grad_norm": 0.8303574919700623,
      "learning_rate": 3.096409616649023e-07,
      "loss": 1.7034,
      "step": 1260
    },
    {
      "epoch": 15.365853658536585,
      "eval_loss": 1.7151583433151245,
      "eval_runtime": 39.3553,
      "eval_samples_per_second": 448.758,
      "eval_steps_per_second": 0.457,
      "step": 1260
    },
    {
      "epoch": 15.487804878048781,
      "grad_norm": 0.5495628714561462,
      "learning_rate": 2.943998610253604e-07,
      "loss": 1.7075,
      "step": 1270
    },
    {
      "epoch": 15.487804878048781,
      "eval_loss": 1.7141631841659546,
      "eval_runtime": 39.3687,
      "eval_samples_per_second": 448.606,
      "eval_steps_per_second": 0.457,
      "step": 1270
    },
    {
      "epoch": 15.609756097560975,
      "grad_norm": 0.361331582069397,
      "learning_rate": 2.7947840639921303e-07,
      "loss": 1.7002,
      "step": 1280
    },
    {
      "epoch": 15.609756097560975,
      "eval_loss": 1.7131644487380981,
      "eval_runtime": 39.4083,
      "eval_samples_per_second": 448.155,
      "eval_steps_per_second": 0.457,
      "step": 1280
    },
    {
      "epoch": 15.731707317073171,
      "grad_norm": 0.4098544418811798,
      "learning_rate": 2.648833573989118e-07,
      "loss": 1.7055,
      "step": 1290
    },
    {
      "epoch": 15.731707317073171,
      "eval_loss": 1.712282657623291,
      "eval_runtime": 39.3799,
      "eval_samples_per_second": 448.478,
      "eval_steps_per_second": 0.457,
      "step": 1290
    },
    {
      "epoch": 15.853658536585366,
      "grad_norm": 0.5131831765174866,
      "learning_rate": 2.50621325770927e-07,
      "loss": 1.6976,
      "step": 1300
    },
    {
      "epoch": 15.853658536585366,
      "eval_loss": 1.7114192247390747,
      "eval_runtime": 39.3871,
      "eval_samples_per_second": 448.395,
      "eval_steps_per_second": 0.457,
      "step": 1300
    },
    {
      "epoch": 15.975609756097562,
      "grad_norm": 0.4333685338497162,
      "learning_rate": 2.3669877240054037e-07,
      "loss": 1.7002,
      "step": 1310
    },
    {
      "epoch": 15.975609756097562,
      "eval_loss": 1.710659146308899,
      "eval_runtime": 39.3698,
      "eval_samples_per_second": 448.593,
      "eval_steps_per_second": 0.457,
      "step": 1310
    },
    {
      "epoch": 16.097560975609756,
      "grad_norm": 0.36955586075782776,
      "learning_rate": 2.231220043849804e-07,
      "loss": 1.7015,
      "step": 1320
    },
    {
      "epoch": 16.097560975609756,
      "eval_loss": 1.7099283933639526,
      "eval_runtime": 39.3604,
      "eval_samples_per_second": 448.699,
      "eval_steps_per_second": 0.457,
      "step": 1320
    },
    {
      "epoch": 16.21951219512195,
      "grad_norm": 0.37774789333343506,
      "learning_rate": 2.0989717217622648e-07,
      "loss": 1.6987,
      "step": 1330
    },
    {
      "epoch": 16.21951219512195,
      "eval_loss": 1.70924973487854,
      "eval_runtime": 39.3549,
      "eval_samples_per_second": 448.763,
      "eval_steps_per_second": 0.457,
      "step": 1330
    },
    {
      "epoch": 16.341463414634145,
      "grad_norm": 0.389635294675827,
      "learning_rate": 1.9703026679477252e-07,
      "loss": 1.6985,
      "step": 1340
    },
    {
      "epoch": 16.341463414634145,
      "eval_loss": 1.7086195945739746,
      "eval_runtime": 39.7499,
      "eval_samples_per_second": 444.303,
      "eval_steps_per_second": 0.453,
      "step": 1340
    },
    {
      "epoch": 16.463414634146343,
      "grad_norm": 0.4067881405353546,
      "learning_rate": 1.845271171156184e-07,
      "loss": 1.6986,
      "step": 1350
    },
    {
      "epoch": 16.463414634146343,
      "eval_loss": 1.7080307006835938,
      "eval_runtime": 39.3203,
      "eval_samples_per_second": 449.157,
      "eval_steps_per_second": 0.458,
      "step": 1350
    },
    {
      "epoch": 16.585365853658537,
      "grad_norm": 0.33628836274147034,
      "learning_rate": 1.7239338722771324e-07,
      "loss": 1.6993,
      "step": 1360
    },
    {
      "epoch": 16.585365853658537,
      "eval_loss": 1.707476019859314,
      "eval_runtime": 39.357,
      "eval_samples_per_second": 448.739,
      "eval_steps_per_second": 0.457,
      "step": 1360
    },
    {
      "epoch": 16.70731707317073,
      "grad_norm": 0.31285569071769714,
      "learning_rate": 1.6063457386805003e-07,
      "loss": 1.6946,
      "step": 1370
    },
    {
      "epoch": 16.70731707317073,
      "eval_loss": 1.7069728374481201,
      "eval_runtime": 39.3881,
      "eval_samples_per_second": 448.384,
      "eval_steps_per_second": 0.457,
      "step": 1370
    },
    {
      "epoch": 16.829268292682926,
      "grad_norm": 0.3229863941669464,
      "learning_rate": 1.4925600393157322e-07,
      "loss": 1.6934,
      "step": 1380
    },
    {
      "epoch": 16.829268292682926,
      "eval_loss": 1.7064942121505737,
      "eval_runtime": 39.3862,
      "eval_samples_per_second": 448.406,
      "eval_steps_per_second": 0.457,
      "step": 1380
    },
    {
      "epoch": 16.951219512195124,
      "grad_norm": 0.32283350825309753,
      "learning_rate": 1.3826283205802424e-07,
      "loss": 1.6936,
      "step": 1390
    },
    {
      "epoch": 16.951219512195124,
      "eval_loss": 1.706059217453003,
      "eval_runtime": 39.374,
      "eval_samples_per_second": 448.544,
      "eval_steps_per_second": 0.457,
      "step": 1390
    },
    {
      "epoch": 17.073170731707318,
      "grad_norm": 0.2510131597518921,
      "learning_rate": 1.2766003829682504e-07,
      "loss": 1.6972,
      "step": 1400
    },
    {
      "epoch": 17.073170731707318,
      "eval_loss": 1.705664873123169,
      "eval_runtime": 39.3448,
      "eval_samples_per_second": 448.877,
      "eval_steps_per_second": 0.457,
      "step": 1400
    },
    {
      "epoch": 17.195121951219512,
      "grad_norm": 0.2857695519924164,
      "learning_rate": 1.1745242585104953e-07,
      "loss": 1.6923,
      "step": 1410
    },
    {
      "epoch": 17.195121951219512,
      "eval_loss": 1.7052934169769287,
      "eval_runtime": 39.3548,
      "eval_samples_per_second": 448.763,
      "eval_steps_per_second": 0.457,
      "step": 1410
    },
    {
      "epoch": 17.317073170731707,
      "grad_norm": 0.39086970686912537,
      "learning_rate": 1.0764461890151111e-07,
      "loss": 1.6943,
      "step": 1420
    },
    {
      "epoch": 17.317073170731707,
      "eval_loss": 1.704952359199524,
      "eval_runtime": 39.366,
      "eval_samples_per_second": 448.635,
      "eval_steps_per_second": 0.457,
      "step": 1420
    },
    {
      "epoch": 17.4390243902439,
      "grad_norm": 0.2526913583278656,
      "learning_rate": 9.824106051194858e-08,
      "loss": 1.6944,
      "step": 1430
    },
    {
      "epoch": 17.4390243902439,
      "eval_loss": 1.7046380043029785,
      "eval_runtime": 39.3509,
      "eval_samples_per_second": 448.809,
      "eval_steps_per_second": 0.457,
      "step": 1430
    },
    {
      "epoch": 17.5609756097561,
      "grad_norm": 0.2990001142024994,
      "learning_rate": 8.924601061626048e-08,
      "loss": 1.6929,
      "step": 1440
    },
    {
      "epoch": 17.5609756097561,
      "eval_loss": 1.7043615579605103,
      "eval_runtime": 39.3593,
      "eval_samples_per_second": 448.712,
      "eval_steps_per_second": 0.457,
      "step": 1440
    },
    {
      "epoch": 17.682926829268293,
      "grad_norm": 0.24767932295799255,
      "learning_rate": 8.066354408870047e-08,
      "loss": 1.6926,
      "step": 1450
    },
    {
      "epoch": 17.682926829268293,
      "eval_loss": 1.7040989398956299,
      "eval_runtime": 39.3568,
      "eval_samples_per_second": 448.741,
      "eval_steps_per_second": 0.457,
      "step": 1450
    },
    {
      "epoch": 17.804878048780488,
      "grad_norm": 0.3169814348220825,
      "learning_rate": 7.249754889790538e-08,
      "loss": 1.6926,
      "step": 1460
    },
    {
      "epoch": 17.804878048780488,
      "eval_loss": 1.703873634338379,
      "eval_runtime": 39.4,
      "eval_samples_per_second": 448.249,
      "eval_steps_per_second": 0.457,
      "step": 1460
    },
    {
      "epoch": 17.926829268292682,
      "grad_norm": 0.3294218182563782,
      "learning_rate": 6.475172434559573e-08,
      "loss": 1.6932,
      "step": 1470
    },
    {
      "epoch": 17.926829268292682,
      "eval_loss": 1.703667163848877,
      "eval_runtime": 39.4234,
      "eval_samples_per_second": 447.983,
      "eval_steps_per_second": 0.457,
      "step": 1470
    },
    {
      "epoch": 18.048780487804876,
      "grad_norm": 0.2851867079734802,
      "learning_rate": 5.742957939074411e-08,
      "loss": 1.6927,
      "step": 1480
    },
    {
      "epoch": 18.048780487804876,
      "eval_loss": 1.7034906148910522,
      "eval_runtime": 39.3855,
      "eval_samples_per_second": 448.414,
      "eval_steps_per_second": 0.457,
      "step": 1480
    },
    {
      "epoch": 18.170731707317074,
      "grad_norm": 0.2505706250667572,
      "learning_rate": 5.053443105997068e-08,
      "loss": 1.6905,
      "step": 1490
    },
    {
      "epoch": 18.170731707317074,
      "eval_loss": 1.7033272981643677,
      "eval_runtime": 39.3764,
      "eval_samples_per_second": 448.517,
      "eval_steps_per_second": 0.457,
      "step": 1490
    },
    {
      "epoch": 18.29268292682927,
      "grad_norm": 0.2556091248989105,
      "learning_rate": 4.4069402944887704e-08,
      "loss": 1.6928,
      "step": 1500
    },
    {
      "epoch": 18.29268292682927,
      "eval_loss": 1.703181505203247,
      "eval_runtime": 39.3582,
      "eval_samples_per_second": 448.725,
      "eval_steps_per_second": 0.457,
      "step": 1500
    },
    {
      "epoch": 18.414634146341463,
      "grad_norm": 0.2573912739753723,
      "learning_rate": 3.803742378707198e-08,
      "loss": 1.6944,
      "step": 1510
    },
    {
      "epoch": 18.414634146341463,
      "eval_loss": 1.703063726425171,
      "eval_runtime": 39.3337,
      "eval_samples_per_second": 449.004,
      "eval_steps_per_second": 0.458,
      "step": 1510
    },
    {
      "epoch": 18.536585365853657,
      "grad_norm": 0.24173639714717865,
      "learning_rate": 3.24412261513064e-08,
      "loss": 1.6925,
      "step": 1520
    },
    {
      "epoch": 18.536585365853657,
      "eval_loss": 1.7029577493667603,
      "eval_runtime": 39.3737,
      "eval_samples_per_second": 448.549,
      "eval_steps_per_second": 0.457,
      "step": 1520
    },
    {
      "epoch": 18.658536585365855,
      "grad_norm": 0.24515186250209808,
      "learning_rate": 2.7283345187693264e-08,
      "loss": 1.6944,
      "step": 1530
    },
    {
      "epoch": 18.658536585365855,
      "eval_loss": 1.7028616666793823,
      "eval_runtime": 39.3701,
      "eval_samples_per_second": 448.589,
      "eval_steps_per_second": 0.457,
      "step": 1530
    },
    {
      "epoch": 18.78048780487805,
      "grad_norm": 0.25829750299453735,
      "learning_rate": 2.256611748319792e-08,
      "loss": 1.6897,
      "step": 1540
    },
    {
      "epoch": 18.78048780487805,
      "eval_loss": 1.7027884721755981,
      "eval_runtime": 39.4047,
      "eval_samples_per_second": 448.195,
      "eval_steps_per_second": 0.457,
      "step": 1540
    },
    {
      "epoch": 18.902439024390244,
      "grad_norm": 0.2337442934513092,
      "learning_rate": 1.8291680003145073e-08,
      "loss": 1.6915,
      "step": 1550
    },
    {
      "epoch": 18.902439024390244,
      "eval_loss": 1.702728033065796,
      "eval_runtime": 39.8565,
      "eval_samples_per_second": 443.115,
      "eval_steps_per_second": 0.452,
      "step": 1550
    },
    {
      "epoch": 19.024390243902438,
      "grad_norm": 0.24271942675113678,
      "learning_rate": 1.4461969123145457e-08,
      "loss": 1.6891,
      "step": 1560
    },
    {
      "epoch": 19.024390243902438,
      "eval_loss": 1.7026790380477905,
      "eval_runtime": 39.3468,
      "eval_samples_per_second": 448.854,
      "eval_steps_per_second": 0.457,
      "step": 1560
    },
    {
      "epoch": 19.146341463414632,
      "grad_norm": 0.2199811339378357,
      "learning_rate": 1.107871975189234e-08,
      "loss": 1.6884,
      "step": 1570
    },
    {
      "epoch": 19.146341463414632,
      "eval_loss": 1.702639102935791,
      "eval_runtime": 39.3619,
      "eval_samples_per_second": 448.683,
      "eval_steps_per_second": 0.457,
      "step": 1570
    },
    {
      "epoch": 19.26829268292683,
      "grad_norm": 0.24018193781375885,
      "learning_rate": 8.143464545226297e-09,
      "loss": 1.6962,
      "step": 1580
    },
    {
      "epoch": 19.26829268292683,
      "eval_loss": 1.7026113271713257,
      "eval_runtime": 39.2823,
      "eval_samples_per_second": 449.591,
      "eval_steps_per_second": 0.458,
      "step": 1580
    },
    {
      "epoch": 19.390243902439025,
      "grad_norm": 0.23089687526226044,
      "learning_rate": 5.657533211820941e-09,
      "loss": 1.6918,
      "step": 1590
    },
    {
      "epoch": 19.390243902439025,
      "eval_loss": 1.7025905847549438,
      "eval_runtime": 39.2847,
      "eval_samples_per_second": 449.564,
      "eval_steps_per_second": 0.458,
      "step": 1590
    },
    {
      "epoch": 19.51219512195122,
      "grad_norm": 0.219436913728714,
      "learning_rate": 3.6220519108086654e-09,
      "loss": 1.6906,
      "step": 1600
    },
    {
      "epoch": 19.51219512195122,
      "eval_loss": 1.7025744915008545,
      "eval_runtime": 39.3227,
      "eval_samples_per_second": 449.13,
      "eval_steps_per_second": 0.458,
      "step": 1600
    },
    {
      "epoch": 19.634146341463413,
      "grad_norm": 0.21289722621440887,
      "learning_rate": 2.037942741615617e-09,
      "loss": 1.691,
      "step": 1610
    },
    {
      "epoch": 19.634146341463413,
      "eval_loss": 1.7025699615478516,
      "eval_runtime": 39.3676,
      "eval_samples_per_second": 448.617,
      "eval_steps_per_second": 0.457,
      "step": 1610
    },
    {
      "epoch": 19.75609756097561,
      "grad_norm": 0.2050682008266449,
      "learning_rate": 9.059233262386224e-10,
      "loss": 1.6963,
      "step": 1620
    },
    {
      "epoch": 19.75609756097561,
      "eval_loss": 1.7025647163391113,
      "eval_runtime": 39.2816,
      "eval_samples_per_second": 449.599,
      "eval_steps_per_second": 0.458,
      "step": 1620
    },
    {
      "epoch": 19.878048780487806,
      "grad_norm": 0.2104637622833252,
      "learning_rate": 2.265064841533437e-10,
      "loss": 1.69,
      "step": 1630
    },
    {
      "epoch": 19.878048780487806,
      "eval_loss": 1.7025623321533203,
      "eval_runtime": 39.3024,
      "eval_samples_per_second": 449.362,
      "eval_steps_per_second": 0.458,
      "step": 1630
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.24021713435649872,
      "learning_rate": 0.0,
      "loss": 1.6877,
      "step": 1640
    },
    {
      "epoch": 20.0,
      "eval_loss": 1.7025611400604248,
      "eval_runtime": 39.2695,
      "eval_samples_per_second": 449.738,
      "eval_steps_per_second": 0.458,
      "step": 1640
    }
  ],
  "logging_steps": 10,
  "max_steps": 1640,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5456972789249475e+19,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}