{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.972075108329321,
  "eval_steps": 500,
  "global_step": 16500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001203659123736158,
      "grad_norm": 4.34375,
      "learning_rate": 2.3437477745175867e-05,
      "loss": 1.9394,
      "step": 5
    },
    {
      "epoch": 0.002407318247472316,
      "grad_norm": 4.09375,
      "learning_rate": 5.2734324926645696e-05,
      "loss": 1.8185,
      "step": 10
    },
    {
      "epoch": 0.0036109773712084737,
      "grad_norm": 2.96875,
      "learning_rate": 8.203117210811555e-05,
      "loss": 1.6969,
      "step": 15
    },
    {
      "epoch": 0.004814636494944632,
      "grad_norm": 3.09375,
      "learning_rate": 0.00011132801928958537,
      "loss": 1.5691,
      "step": 20
    },
    {
      "epoch": 0.00601829561868079,
      "grad_norm": 3.1875,
      "learning_rate": 0.00014062486647105523,
      "loss": 1.511,
      "step": 25
    },
    {
      "epoch": 0.007221954742416947,
      "grad_norm": 2.84375,
      "learning_rate": 0.00016992171365252506,
      "loss": 1.4285,
      "step": 30
    },
    {
      "epoch": 0.008425613866153106,
      "grad_norm": 2.78125,
      "learning_rate": 0.0001992185608339949,
      "loss": 1.3826,
      "step": 35
    },
    {
      "epoch": 0.009629272989889264,
      "grad_norm": 3.109375,
      "learning_rate": 0.00020507790818421773,
      "loss": 1.3233,
      "step": 40
    },
    {
      "epoch": 0.010832932113625422,
      "grad_norm": 3.125,
      "learning_rate": 0.00020507781845957552,
      "loss": 1.3161,
      "step": 45
    },
    {
      "epoch": 0.01203659123736158,
      "grad_norm": 2.796875,
      "learning_rate": 0.00020507765971606326,
      "loss": 1.2634,
      "step": 50
    },
    {
      "epoch": 0.013240250361097737,
      "grad_norm": 3.15625,
      "learning_rate": 0.00020507743195382337,
      "loss": 1.2576,
      "step": 55
    },
    {
      "epoch": 0.014443909484833895,
      "grad_norm": 2.859375,
      "learning_rate": 0.00020507713517306031,
      "loss": 1.2109,
      "step": 60
    },
    {
      "epoch": 0.015647568608570053,
      "grad_norm": 2.703125,
      "learning_rate": 0.00020507676937404044,
      "loss": 1.2114,
      "step": 65
    },
    {
      "epoch": 0.016851227732306212,
      "grad_norm": 2.828125,
      "learning_rate": 0.00020507633455709202,
      "loss": 1.1827,
      "step": 70
    },
    {
      "epoch": 0.018054886856042368,
      "grad_norm": 2.578125,
      "learning_rate": 0.00020507583072260527,
      "loss": 1.1745,
      "step": 75
    },
    {
      "epoch": 0.019258545979778528,
      "grad_norm": 2.765625,
      "learning_rate": 0.00020507525787103237,
      "loss": 1.1547,
      "step": 80
    },
    {
      "epoch": 0.020462205103514684,
      "grad_norm": 2.4375,
      "learning_rate": 0.00020507461600288745,
      "loss": 1.1566,
      "step": 85
    },
    {
      "epoch": 0.021665864227250843,
      "grad_norm": 2.796875,
      "learning_rate": 0.0002050739051187466,
      "loss": 1.1486,
      "step": 90
    },
    {
      "epoch": 0.022869523350987,
      "grad_norm": 2.40625,
      "learning_rate": 0.00020507312521924776,
      "loss": 1.1269,
      "step": 95
    },
    {
      "epoch": 0.02407318247472316,
      "grad_norm": 2.375,
      "learning_rate": 0.00020507227630509089,
      "loss": 1.1181,
      "step": 100
    },
    {
      "epoch": 0.025276841598459315,
      "grad_norm": 2.703125,
      "learning_rate": 0.00020507135837703782,
      "loss": 1.0867,
      "step": 105
    },
    {
      "epoch": 0.026480500722195474,
      "grad_norm": 2.296875,
      "learning_rate": 0.00020507037143591242,
      "loss": 1.1229,
      "step": 110
    },
    {
      "epoch": 0.027684159845931634,
      "grad_norm": 2.671875,
      "learning_rate": 0.00020506931548260044,
      "loss": 1.1203,
      "step": 115
    },
    {
      "epoch": 0.02888781896966779,
      "grad_norm": 3.125,
      "learning_rate": 0.00020506819051804948,
      "loss": 1.0955,
      "step": 120
    },
    {
      "epoch": 0.03009147809340395,
      "grad_norm": 2.1875,
      "learning_rate": 0.00020506699654326924,
      "loss": 1.0462,
      "step": 125
    },
    {
      "epoch": 0.031295137217140105,
      "grad_norm": 2.546875,
      "learning_rate": 0.00020506573355933124,
      "loss": 1.1156,
      "step": 130
    },
    {
      "epoch": 0.03249879634087626,
      "grad_norm": 2.453125,
      "learning_rate": 0.00020506440156736898,
      "loss": 1.0528,
      "step": 135
    },
    {
      "epoch": 0.033702455464612424,
      "grad_norm": 2.46875,
      "learning_rate": 0.00020506300056857786,
      "loss": 1.0555,
      "step": 140
    },
    {
      "epoch": 0.03490611458834858,
      "grad_norm": 2.5625,
      "learning_rate": 0.00020506153056421524,
      "loss": 1.0468,
      "step": 145
    },
    {
      "epoch": 0.036109773712084736,
      "grad_norm": 2.265625,
      "learning_rate": 0.00020505999155560043,
      "loss": 1.0505,
      "step": 150
    },
    {
      "epoch": 0.03731343283582089,
      "grad_norm": 2.40625,
      "learning_rate": 0.00020505838354411456,
      "loss": 1.0497,
      "step": 155
    },
    {
      "epoch": 0.038517091959557055,
      "grad_norm": 2.265625,
      "learning_rate": 0.0002050567065312008,
      "loss": 1.0736,
      "step": 160
    },
    {
      "epoch": 0.03972075108329321,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020505496051836426,
      "loss": 1.0362,
      "step": 165
    },
    {
      "epoch": 0.04092441020702937,
      "grad_norm": 2.5,
      "learning_rate": 0.0002050531455071719,
      "loss": 1.0406,
      "step": 170
    },
    {
      "epoch": 0.04212806933076553,
      "grad_norm": 2.0,
      "learning_rate": 0.0002050512614992526,
      "loss": 1.0319,
      "step": 175
    },
    {
      "epoch": 0.043331728454501686,
      "grad_norm": 2.3125,
      "learning_rate": 0.00020504930849629726,
      "loss": 1.0327,
      "step": 180
    },
    {
      "epoch": 0.04453538757823784,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020504728650005854,
      "loss": 0.9765,
      "step": 185
    },
    {
      "epoch": 0.045739046701974,
      "grad_norm": 2.296875,
      "learning_rate": 0.00020504519551235124,
      "loss": 1.0428,
      "step": 190
    },
    {
      "epoch": 0.04694270582571016,
      "grad_norm": 2.375,
      "learning_rate": 0.00020504303553505184,
      "loss": 0.9931,
      "step": 195
    },
    {
      "epoch": 0.04814636494944632,
      "grad_norm": 2.421875,
      "learning_rate": 0.00020504080657009885,
      "loss": 0.9917,
      "step": 200
    },
    {
      "epoch": 0.04935002407318247,
      "grad_norm": 1.875,
      "learning_rate": 0.0002050385086194928,
      "loss": 0.9869,
      "step": 205
    },
    {
      "epoch": 0.05055368319691863,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020503614168529592,
      "loss": 0.9892,
      "step": 210
    },
    {
      "epoch": 0.05175734232065479,
      "grad_norm": 2.234375,
      "learning_rate": 0.00020503370576963252,
      "loss": 0.9916,
      "step": 215
    },
    {
      "epoch": 0.05296100144439095,
      "grad_norm": 2.109375,
      "learning_rate": 0.00020503120087468868,
      "loss": 0.9903,
      "step": 220
    },
    {
      "epoch": 0.054164660568127104,
      "grad_norm": 2.21875,
      "learning_rate": 0.00020502862700271253,
      "loss": 0.9884,
      "step": 225
    },
    {
      "epoch": 0.05536831969186327,
      "grad_norm": 2.1875,
      "learning_rate": 0.00020502598415601396,
      "loss": 0.9797,
      "step": 230
    },
    {
      "epoch": 0.05657197881559942,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020502327233696492,
      "loss": 0.9547,
      "step": 235
    },
    {
      "epoch": 0.05777563793933558,
      "grad_norm": 2.21875,
      "learning_rate": 0.00020502049154799912,
      "loss": 0.9535,
      "step": 240
    },
    {
      "epoch": 0.058979297063071735,
      "grad_norm": 2.140625,
      "learning_rate": 0.00020501764179161228,
      "loss": 0.972,
      "step": 245
    },
    {
      "epoch": 0.0601829561868079,
      "grad_norm": 2.140625,
      "learning_rate": 0.00020501472307036186,
      "loss": 0.9618,
      "step": 250
    },
    {
      "epoch": 0.061386615310544054,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00020501173538686743,
      "loss": 0.9849,
      "step": 255
    },
    {
      "epoch": 0.06259027443428021,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020500867874381027,
      "loss": 0.923,
      "step": 260
    },
    {
      "epoch": 0.06379393355801637,
      "grad_norm": 2.234375,
      "learning_rate": 0.00020500555314393362,
      "loss": 0.9549,
      "step": 265
    },
    {
      "epoch": 0.06499759268175252,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020500235859004264,
      "loss": 0.9438,
      "step": 270
    },
    {
      "epoch": 0.06620125180548869,
      "grad_norm": 2.15625,
      "learning_rate": 0.0002049990950850043,
      "loss": 0.9447,
      "step": 275
    },
    {
      "epoch": 0.06740491092922485,
      "grad_norm": 2.140625,
      "learning_rate": 0.0002049957626317475,
      "loss": 0.94,
      "step": 280
    },
    {
      "epoch": 0.068608570052961,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020499236123326293,
      "loss": 0.9199,
      "step": 285
    },
    {
      "epoch": 0.06981222917669716,
      "grad_norm": 2.03125,
      "learning_rate": 0.0002049888908926034,
      "loss": 0.9234,
      "step": 290
    },
    {
      "epoch": 0.07101588830043332,
      "grad_norm": 2.203125,
      "learning_rate": 0.00020498535161288326,
      "loss": 0.9207,
      "step": 295
    },
    {
      "epoch": 0.07221954742416947,
      "grad_norm": 2.203125,
      "learning_rate": 0.00020498174339727898,
      "loss": 0.899,
      "step": 300
    },
    {
      "epoch": 0.07342320654790563,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020497806624902878,
      "loss": 0.9195,
      "step": 305
    },
    {
      "epoch": 0.07462686567164178,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020497432017143284,
      "loss": 0.9605,
      "step": 310
    },
    {
      "epoch": 0.07583052479537795,
      "grad_norm": 2.21875,
      "learning_rate": 0.00020497050516785306,
      "loss": 0.8905,
      "step": 315
    },
    {
      "epoch": 0.07703418391911411,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020496662124171327,
      "loss": 0.901,
      "step": 320
    },
    {
      "epoch": 0.07823784304285027,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00020496266839649927,
      "loss": 0.9063,
      "step": 325
    },
    {
      "epoch": 0.07944150216658642,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002049586466357585,
      "loss": 0.9248,
      "step": 330
    },
    {
      "epoch": 0.08064516129032258,
      "grad_norm": 2.09375,
      "learning_rate": 0.00020495455596310038,
      "loss": 0.9111,
      "step": 335
    },
    {
      "epoch": 0.08184882041405873,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020495039638219618,
      "loss": 0.907,
      "step": 340
    },
    {
      "epoch": 0.08305247953779489,
      "grad_norm": 2.015625,
      "learning_rate": 0.00020494616789677898,
      "loss": 0.8876,
      "step": 345
    },
    {
      "epoch": 0.08425613866153106,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002049418705106437,
      "loss": 0.9286,
      "step": 350
    },
    {
      "epoch": 0.08545979778526722,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002049375042276471,
      "loss": 0.9021,
      "step": 355
    },
    {
      "epoch": 0.08666345690900337,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020493306905170776,
      "loss": 0.904,
      "step": 360
    },
    {
      "epoch": 0.08786711603273953,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020492856498680612,
      "loss": 0.9037,
      "step": 365
    },
    {
      "epoch": 0.08907077515647568,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002049239920369844,
      "loss": 0.9056,
      "step": 370
    },
    {
      "epoch": 0.09027443428021184,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020491935020634672,
      "loss": 0.9118,
      "step": 375
    },
    {
      "epoch": 0.091478093403948,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002049146394990589,
      "loss": 0.8825,
      "step": 380
    },
    {
      "epoch": 0.09268175252768417,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002049098599193487,
      "loss": 0.8976,
      "step": 385
    },
    {
      "epoch": 0.09388541165142032,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002049050114715056,
      "loss": 0.8852,
      "step": 390
    },
    {
      "epoch": 0.09508907077515648,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020490009415988098,
      "loss": 0.8853,
      "step": 395
    },
    {
      "epoch": 0.09629272989889263,
      "grad_norm": 2.015625,
      "learning_rate": 0.00020489510798888785,
      "loss": 0.882,
      "step": 400
    },
    {
      "epoch": 0.09749638902262879,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020489005296300122,
      "loss": 0.8837,
      "step": 405
    },
    {
      "epoch": 0.09870004814636495,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002048849290867578,
      "loss": 0.8927,
      "step": 410
    },
    {
      "epoch": 0.0999037072701011,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020487973636475608,
      "loss": 0.8974,
      "step": 415
    },
    {
      "epoch": 0.10110736639383726,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020487447480165634,
      "loss": 0.8939,
      "step": 420
    },
    {
      "epoch": 0.10231102551757343,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020486914440218066,
      "loss": 0.8905,
      "step": 425
    },
    {
      "epoch": 0.10351468464130958,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020486374517111295,
      "loss": 0.8357,
      "step": 430
    },
    {
      "epoch": 0.10471834376504574,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020485827711329876,
      "loss": 0.8793,
      "step": 435
    },
    {
      "epoch": 0.1059220028887819,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020485274023364553,
      "loss": 0.8499,
      "step": 440
    },
    {
      "epoch": 0.10712566201251805,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020484713453712244,
      "loss": 0.8867,
      "step": 445
    },
    {
      "epoch": 0.10832932113625421,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020484146002876038,
      "loss": 0.8901,
      "step": 450
    },
    {
      "epoch": 0.10953298025999036,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020483571671365205,
      "loss": 0.8975,
      "step": 455
    },
    {
      "epoch": 0.11073663938372653,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002048299045969519,
      "loss": 0.8592,
      "step": 460
    },
    {
      "epoch": 0.11194029850746269,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020482402368387606,
      "loss": 0.85,
      "step": 465
    },
    {
      "epoch": 0.11314395763119885,
      "grad_norm": 1.75,
      "learning_rate": 0.0002048180739797025,
      "loss": 0.8685,
      "step": 470
    },
    {
      "epoch": 0.114347616754935,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020481205548977086,
      "loss": 0.9002,
      "step": 475
    },
    {
      "epoch": 0.11555127587867116,
      "grad_norm": 1.625,
      "learning_rate": 0.00020480596821948255,
      "loss": 0.8456,
      "step": 480
    },
    {
      "epoch": 0.11675493500240731,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002047998121743007,
      "loss": 0.8625,
      "step": 485
    },
    {
      "epoch": 0.11795859412614347,
      "grad_norm": 2.171875,
      "learning_rate": 0.0002047935873597501,
      "loss": 0.803,
      "step": 490
    },
    {
      "epoch": 0.11916225324987964,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020478729378141735,
      "loss": 0.839,
      "step": 495
    },
    {
      "epoch": 0.1203659123736158,
      "grad_norm": 1.75,
      "learning_rate": 0.00020478093144495074,
      "loss": 0.8499,
      "step": 500
    },
    {
      "epoch": 0.1203659123736158,
      "eval_loss": 0.758273184299469,
      "eval_runtime": 2.3484,
      "eval_samples_per_second": 85.165,
      "eval_steps_per_second": 85.165,
      "step": 500
    },
    {
      "epoch": 0.12156957149735195,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020477450035606023,
      "loss": 0.8103,
      "step": 505
    },
    {
      "epoch": 0.12277323062108811,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020476800052051752,
      "loss": 0.847,
      "step": 510
    },
    {
      "epoch": 0.12397688974482426,
      "grad_norm": 1.75,
      "learning_rate": 0.00020476143194415598,
      "loss": 0.8835,
      "step": 515
    },
    {
      "epoch": 0.12518054886856042,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002047547946328707,
      "loss": 0.9029,
      "step": 520
    },
    {
      "epoch": 0.12638420799229658,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020474808859261847,
      "loss": 0.8808,
      "step": 525
    },
    {
      "epoch": 0.12758786711603273,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002047413138294177,
      "loss": 0.8423,
      "step": 530
    },
    {
      "epoch": 0.1287915262397689,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002047344703493485,
      "loss": 0.8329,
      "step": 535
    },
    {
      "epoch": 0.12999518536350504,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020472755815855272,
      "loss": 0.8337,
      "step": 540
    },
    {
      "epoch": 0.1311988444872412,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020472057726323377,
      "loss": 0.8542,
      "step": 545
    },
    {
      "epoch": 0.13240250361097738,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002047135276696568,
      "loss": 0.8087,
      "step": 550
    },
    {
      "epoch": 0.13360616273471354,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020470640938414854,
      "loss": 0.8493,
      "step": 555
    },
    {
      "epoch": 0.1348098218584497,
      "grad_norm": 1.75,
      "learning_rate": 0.0002046992224130975,
      "loss": 0.8346,
      "step": 560
    },
    {
      "epoch": 0.13601348098218585,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020469196676295366,
      "loss": 0.8155,
      "step": 565
    },
    {
      "epoch": 0.137217140105922,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020468464244022876,
      "loss": 0.8205,
      "step": 570
    },
    {
      "epoch": 0.13842079922965816,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020467724945149617,
      "loss": 0.7741,
      "step": 575
    },
    {
      "epoch": 0.13962445835339432,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020466978780339076,
      "loss": 0.8312,
      "step": 580
    },
    {
      "epoch": 0.14082811747713048,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020466225750260917,
      "loss": 0.8201,
      "step": 585
    },
    {
      "epoch": 0.14203177660086663,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020465465855590962,
      "loss": 0.8271,
      "step": 590
    },
    {
      "epoch": 0.1432354357246028,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020464699097011186,
      "loss": 0.827,
      "step": 595
    },
    {
      "epoch": 0.14443909484833894,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002046392547520973,
      "loss": 0.8012,
      "step": 600
    },
    {
      "epoch": 0.1456427539720751,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020463144990880895,
      "loss": 0.8208,
      "step": 605
    },
    {
      "epoch": 0.14684641309581126,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00020462357644725136,
      "loss": 0.8098,
      "step": 610
    },
    {
      "epoch": 0.1480500722195474,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020461563437449077,
      "loss": 0.8341,
      "step": 615
    },
    {
      "epoch": 0.14925373134328357,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020460762369765487,
      "loss": 0.8568,
      "step": 620
    },
    {
      "epoch": 0.15045739046701975,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020459954442393302,
      "loss": 0.8193,
      "step": 625
    },
    {
      "epoch": 0.1516610495907559,
      "grad_norm": 1.734375,
      "learning_rate": 0.000204591396560576,
      "loss": 0.8497,
      "step": 630
    },
    {
      "epoch": 0.15286470871449206,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020458318011489635,
      "loss": 0.8303,
      "step": 635
    },
    {
      "epoch": 0.15406836783822822,
      "grad_norm": 1.53125,
      "learning_rate": 0.000204574895094268,
      "loss": 0.8073,
      "step": 640
    },
    {
      "epoch": 0.15527202696196438,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020456654150612655,
      "loss": 0.8241,
      "step": 645
    },
    {
      "epoch": 0.15647568608570053,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020455811935796896,
      "loss": 0.8294,
      "step": 650
    },
    {
      "epoch": 0.1576793452094367,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020454962865735393,
      "loss": 0.8556,
      "step": 655
    },
    {
      "epoch": 0.15888300433317284,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020454106941190147,
      "loss": 0.8176,
      "step": 660
    },
    {
      "epoch": 0.160086663456909,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020453244162929333,
      "loss": 0.8422,
      "step": 665
    },
    {
      "epoch": 0.16129032258064516,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020452374531727255,
      "loss": 0.8189,
      "step": 670
    },
    {
      "epoch": 0.1624939817043813,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020451498048364386,
      "loss": 0.7864,
      "step": 675
    },
    {
      "epoch": 0.16369764082811747,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020450614713627338,
      "loss": 0.8094,
      "step": 680
    },
    {
      "epoch": 0.16490129995185362,
      "grad_norm": 1.75,
      "learning_rate": 0.00020449724528308875,
      "loss": 0.801,
      "step": 685
    },
    {
      "epoch": 0.16610495907558978,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020448827493207904,
      "loss": 0.8038,
      "step": 690
    },
    {
      "epoch": 0.16730861819932596,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002044792360912949,
      "loss": 0.7928,
      "step": 695
    },
    {
      "epoch": 0.16851227732306212,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020447012876884837,
      "loss": 0.7884,
      "step": 700
    },
    {
      "epoch": 0.16971593644679828,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020446095297291296,
      "loss": 0.8327,
      "step": 705
    },
    {
      "epoch": 0.17091959557053443,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020445170871172364,
      "loss": 0.8146,
      "step": 710
    },
    {
      "epoch": 0.1721232546942706,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020444239599357682,
      "loss": 0.8139,
      "step": 715
    },
    {
      "epoch": 0.17332691381800674,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020443301482683037,
      "loss": 0.7951,
      "step": 720
    },
    {
      "epoch": 0.1745305729417429,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020442356521990356,
      "loss": 0.853,
      "step": 725
    },
    {
      "epoch": 0.17573423206547906,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002044140471812771,
      "loss": 0.8058,
      "step": 730
    },
    {
      "epoch": 0.1769378911892152,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002044044607194931,
      "loss": 0.8169,
      "step": 735
    },
    {
      "epoch": 0.17814155031295137,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002043948058431551,
      "loss": 0.7831,
      "step": 740
    },
    {
      "epoch": 0.17934520943668752,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020438508256092805,
      "loss": 0.7756,
      "step": 745
    },
    {
      "epoch": 0.18054886856042368,
      "grad_norm": 1.625,
      "learning_rate": 0.00020437529088153825,
      "loss": 0.7584,
      "step": 750
    },
    {
      "epoch": 0.18175252768415984,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002043654308137734,
      "loss": 0.7844,
      "step": 755
    },
    {
      "epoch": 0.182956186807896,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020435550236648256,
      "loss": 0.7515,
      "step": 760
    },
    {
      "epoch": 0.18415984593163215,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020434550554857626,
      "loss": 0.7984,
      "step": 765
    },
    {
      "epoch": 0.18536350505536833,
      "grad_norm": 1.5,
      "learning_rate": 0.00020433544036902625,
      "loss": 0.7523,
      "step": 770
    },
    {
      "epoch": 0.1865671641791045,
      "grad_norm": 1.625,
      "learning_rate": 0.00020432530683686567,
      "loss": 0.8343,
      "step": 775
    },
    {
      "epoch": 0.18777082330284064,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020431510496118907,
      "loss": 0.791,
      "step": 780
    },
    {
      "epoch": 0.1889744824265768,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020430483475115228,
      "loss": 0.7973,
      "step": 785
    },
    {
      "epoch": 0.19017814155031296,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020429449621597247,
      "loss": 0.7755,
      "step": 790
    },
    {
      "epoch": 0.1913818006740491,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020428408936492808,
      "loss": 0.7479,
      "step": 795
    },
    {
      "epoch": 0.19258545979778527,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020427361420735903,
      "loss": 0.7886,
      "step": 800
    },
    {
      "epoch": 0.19378911892152142,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020426307075266633,
      "loss": 0.7919,
      "step": 805
    },
    {
      "epoch": 0.19499277804525758,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020425245901031238,
      "loss": 0.7854,
      "step": 810
    },
    {
      "epoch": 0.19619643716899374,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002042417789898209,
      "loss": 0.7661,
      "step": 815
    },
    {
      "epoch": 0.1974000962927299,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020423103070077683,
      "loss": 0.7862,
      "step": 820
    },
    {
      "epoch": 0.19860375541646605,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020422021415282643,
      "loss": 0.7762,
      "step": 825
    },
    {
      "epoch": 0.1998074145402022,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020420932935567715,
      "loss": 0.7851,
      "step": 830
    },
    {
      "epoch": 0.20101107366393836,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020419837631909774,
      "loss": 0.7898,
      "step": 835
    },
    {
      "epoch": 0.20221473278767452,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00020418735505291815,
      "loss": 0.7651,
      "step": 840
    },
    {
      "epoch": 0.2034183919114107,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002041762655670297,
      "loss": 0.787,
      "step": 845
    },
    {
      "epoch": 0.20462205103514686,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020416510787138475,
      "loss": 0.7895,
      "step": 850
    },
    {
      "epoch": 0.205825710158883,
      "grad_norm": 1.453125,
      "learning_rate": 0.000204153881975997,
      "loss": 0.8062,
      "step": 855
    },
    {
      "epoch": 0.20702936928261917,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002041425878909413,
      "loss": 0.781,
      "step": 860
    },
    {
      "epoch": 0.20823302840635532,
      "grad_norm": 1.59375,
      "learning_rate": 0.00020413122562635367,
      "loss": 0.8269,
      "step": 865
    },
    {
      "epoch": 0.20943668753009148,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020411979519243146,
      "loss": 0.7963,
      "step": 870
    },
    {
      "epoch": 0.21064034665382764,
      "grad_norm": 1.75,
      "learning_rate": 0.00020410829659943305,
      "loss": 0.7691,
      "step": 875
    },
    {
      "epoch": 0.2118440057775638,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000204096729857678,
      "loss": 0.7997,
      "step": 880
    },
    {
      "epoch": 0.21304766490129995,
      "grad_norm": 1.546875,
      "learning_rate": 0.00020408509497754713,
      "loss": 0.7765,
      "step": 885
    },
    {
      "epoch": 0.2142513240250361,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00020407339196948233,
      "loss": 0.7658,
      "step": 890
    },
    {
      "epoch": 0.21545498314877226,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020406162084398666,
      "loss": 0.7685,
      "step": 895
    },
    {
      "epoch": 0.21665864227250842,
      "grad_norm": 1.5,
      "learning_rate": 0.00020404978161162437,
      "loss": 0.7525,
      "step": 900
    },
    {
      "epoch": 0.21786230139624457,
      "grad_norm": 1.75,
      "learning_rate": 0.0002040378742830207,
      "loss": 0.7878,
      "step": 905
    },
    {
      "epoch": 0.21906596051998073,
      "grad_norm": 1.75,
      "learning_rate": 0.00020402589886886209,
      "loss": 0.7852,
      "step": 910
    },
    {
      "epoch": 0.2202696196437169,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020401385537989608,
      "loss": 0.7589,
      "step": 915
    },
    {
      "epoch": 0.22147327876745307,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020400174382693132,
      "loss": 0.7792,
      "step": 920
    },
    {
      "epoch": 0.22267693789118922,
      "grad_norm": 6.34375,
      "learning_rate": 0.0002039895642208375,
      "loss": 0.7764,
      "step": 925
    },
    {
      "epoch": 0.22388059701492538,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020397731657254546,
      "loss": 0.7667,
      "step": 930
    },
    {
      "epoch": 0.22508425613866154,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00020396500089304696,
      "loss": 0.778,
      "step": 935
    },
    {
      "epoch": 0.2262879152623977,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020395261719339503,
      "loss": 0.7851,
      "step": 940
    },
    {
      "epoch": 0.22749157438613385,
      "grad_norm": 1.75,
      "learning_rate": 0.00020394016548470353,
      "loss": 0.7762,
      "step": 945
    },
    {
      "epoch": 0.22869523350987,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002039276457781475,
      "loss": 0.7955,
      "step": 950
    },
    {
      "epoch": 0.22989889263360616,
      "grad_norm": 1.578125,
      "learning_rate": 0.00020391505808496293,
      "loss": 0.7441,
      "step": 955
    },
    {
      "epoch": 0.23110255175734232,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020390240241644687,
      "loss": 0.7631,
      "step": 960
    },
    {
      "epoch": 0.23230621088107847,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020388967878395736,
      "loss": 0.7693,
      "step": 965
    },
    {
      "epoch": 0.23350987000481463,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002038768871989134,
      "loss": 0.7661,
      "step": 970
    },
    {
      "epoch": 0.23471352912855079,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002038640276727951,
      "loss": 0.7397,
      "step": 975
    },
    {
      "epoch": 0.23591718825228694,
      "grad_norm": 1.484375,
      "learning_rate": 0.00020385110021714338,
      "loss": 0.7375,
      "step": 980
    },
    {
      "epoch": 0.2371208473760231,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002038381048435602,
      "loss": 0.7431,
      "step": 985
    },
    {
      "epoch": 0.23832450649975928,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020382504156370848,
      "loss": 0.7465,
      "step": 990
    },
    {
      "epoch": 0.23952816562349544,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002038119103893121,
      "loss": 0.7611,
      "step": 995
    },
    {
      "epoch": 0.2407318247472316,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00020379871133215585,
      "loss": 0.7453,
      "step": 1000
    },
    {
      "epoch": 0.2407318247472316,
      "eval_loss": 0.6567254662513733,
      "eval_runtime": 2.3374,
      "eval_samples_per_second": 85.567,
      "eval_steps_per_second": 85.567,
      "step": 1000
    },
    {
      "epoch": 0.24193548387096775,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00020378544440408542,
      "loss": 0.7755,
      "step": 1005
    },
    {
      "epoch": 0.2431391429947039,
      "grad_norm": 1.546875,
      "learning_rate": 0.00020377210961700743,
      "loss": 0.7583,
      "step": 1010
    },
    {
      "epoch": 0.24434280211844006,
      "grad_norm": 1.40625,
      "learning_rate": 0.00020375870698288942,
      "loss": 0.755,
      "step": 1015
    },
    {
      "epoch": 0.24554646124217622,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020374523651375983,
      "loss": 0.7317,
      "step": 1020
    },
    {
      "epoch": 0.24675012036591237,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002037316982217079,
      "loss": 0.7217,
      "step": 1025
    },
    {
      "epoch": 0.24795377948964853,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020371809211888384,
      "loss": 0.718,
      "step": 1030
    },
    {
      "epoch": 0.24915743861338469,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002037044182174987,
      "loss": 0.7659,
      "step": 1035
    },
    {
      "epoch": 0.25036109773712084,
      "grad_norm": 1.53125,
      "learning_rate": 0.00020369067652982426,
      "loss": 0.7615,
      "step": 1040
    },
    {
      "epoch": 0.251564756860857,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020367686706819325,
      "loss": 0.7083,
      "step": 1045
    },
    {
      "epoch": 0.25276841598459315,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002036629898449993,
      "loss": 0.7435,
      "step": 1050
    },
    {
      "epoch": 0.2539720751083293,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00020364904487269662,
      "loss": 0.7013,
      "step": 1055
    },
    {
      "epoch": 0.25517573423206547,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020363503216380046,
      "loss": 0.7681,
      "step": 1060
    },
    {
      "epoch": 0.2563793933558016,
      "grad_norm": 1.5,
      "learning_rate": 0.00020362095173088668,
      "loss": 0.7653,
      "step": 1065
    },
    {
      "epoch": 0.2575830524795378,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020360680358659202,
      "loss": 0.741,
      "step": 1070
    },
    {
      "epoch": 0.25878671160327393,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000203592587743614,
      "loss": 0.773,
      "step": 1075
    },
    {
      "epoch": 0.2599903707270101,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020357830421471082,
      "loss": 0.8058,
      "step": 1080
    },
    {
      "epoch": 0.26119402985074625,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002035639530127015,
      "loss": 0.7148,
      "step": 1085
    },
    {
      "epoch": 0.2623976889744824,
      "grad_norm": 1.578125,
      "learning_rate": 0.00020354953415046577,
      "loss": 0.7497,
      "step": 1090
    },
    {
      "epoch": 0.26360134809821856,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00020353504764094403,
      "loss": 0.7325,
      "step": 1095
    },
    {
      "epoch": 0.26480500722195477,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002035204934971375,
      "loss": 0.7436,
      "step": 1100
    },
    {
      "epoch": 0.2660086663456909,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020350587173210798,
      "loss": 0.7258,
      "step": 1105
    },
    {
      "epoch": 0.2672123254694271,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00020349118235897808,
      "loss": 0.6951,
      "step": 1110
    },
    {
      "epoch": 0.26841598459316324,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020347642539093096,
      "loss": 0.7554,
      "step": 1115
    },
    {
      "epoch": 0.2696196437168994,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020346160084121052,
      "loss": 0.7085,
      "step": 1120
    },
    {
      "epoch": 0.27082330284063555,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020344670872312132,
      "loss": 0.7583,
      "step": 1125
    },
    {
      "epoch": 0.2720269619643717,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00020343174905002853,
      "loss": 0.7423,
      "step": 1130
    },
    {
      "epoch": 0.27323062108810786,
      "grad_norm": 1.578125,
      "learning_rate": 0.00020341672183535794,
      "loss": 0.771,
      "step": 1135
    },
    {
      "epoch": 0.274434280211844,
      "grad_norm": 1.53125,
      "learning_rate": 0.000203401627092596,
      "loss": 0.7473,
      "step": 1140
    },
    {
      "epoch": 0.2756379393355802,
      "grad_norm": 1.53125,
      "learning_rate": 0.00020338646483528968,
      "loss": 0.7536,
      "step": 1145
    },
    {
      "epoch": 0.27684159845931633,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00020337123507704668,
      "loss": 0.7703,
      "step": 1150
    },
    {
      "epoch": 0.2780452575830525,
      "grad_norm": 1.5,
      "learning_rate": 0.00020335593783153515,
      "loss": 0.7462,
      "step": 1155
    },
    {
      "epoch": 0.27924891670678864,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002033405731124839,
      "loss": 0.7671,
      "step": 1160
    },
    {
      "epoch": 0.2804525758305248,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020332514093368217,
      "loss": 0.7071,
      "step": 1165
    },
    {
      "epoch": 0.28165623495426095,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002033096413089799,
      "loss": 0.7375,
      "step": 1170
    },
    {
      "epoch": 0.2828598940779971,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020329407425228745,
      "loss": 0.7355,
      "step": 1175
    },
    {
      "epoch": 0.28406355320173327,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020327843977757573,
      "loss": 0.7515,
      "step": 1180
    },
    {
      "epoch": 0.2852672123254694,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002032627378988762,
      "loss": 0.7331,
      "step": 1185
    },
    {
      "epoch": 0.2864708714492056,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020324696863028072,
      "loss": 0.7656,
      "step": 1190
    },
    {
      "epoch": 0.28767453057294173,
      "grad_norm": 1.515625,
      "learning_rate": 0.00020323113198594169,
      "loss": 0.7379,
      "step": 1195
    },
    {
      "epoch": 0.2888781896966779,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000203215227980072,
      "loss": 0.7435,
      "step": 1200
    },
    {
      "epoch": 0.29008184882041405,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020319925662694497,
      "loss": 0.7092,
      "step": 1205
    },
    {
      "epoch": 0.2912855079441502,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002031832179408943,
      "loss": 0.7432,
      "step": 1210
    },
    {
      "epoch": 0.29248916706788636,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002031671119363142,
      "loss": 0.7442,
      "step": 1215
    },
    {
      "epoch": 0.2936928261916225,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020315093862765927,
      "loss": 0.7407,
      "step": 1220
    },
    {
      "epoch": 0.29489648531535867,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020313469802944455,
      "loss": 0.7336,
      "step": 1225
    },
    {
      "epoch": 0.2961001444390948,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002031183901562454,
      "loss": 0.7458,
      "step": 1230
    },
    {
      "epoch": 0.297303803562831,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020310201502269759,
      "loss": 0.7132,
      "step": 1235
    },
    {
      "epoch": 0.29850746268656714,
      "grad_norm": 1.484375,
      "learning_rate": 0.00020308557264349722,
      "loss": 0.7207,
      "step": 1240
    },
    {
      "epoch": 0.29971112181030335,
      "grad_norm": 1.4375,
      "learning_rate": 0.00020306906303340088,
      "loss": 0.7316,
      "step": 1245
    },
    {
      "epoch": 0.3009147809340395,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00020305248620722529,
      "loss": 0.734,
      "step": 1250
    },
    {
      "epoch": 0.30211844005777566,
      "grad_norm": 1.578125,
      "learning_rate": 0.00020303584217984768,
      "loss": 0.7246,
      "step": 1255
    },
    {
      "epoch": 0.3033220991815118,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002030191309662054,
      "loss": 0.7322,
      "step": 1260
    },
    {
      "epoch": 0.304525758305248,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002030023525812963,
      "loss": 0.7073,
      "step": 1265
    },
    {
      "epoch": 0.30572941742898413,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002029855070401784,
      "loss": 0.7307,
      "step": 1270
    },
    {
      "epoch": 0.3069330765527203,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00020296859435797,
      "loss": 0.72,
      "step": 1275
    },
    {
      "epoch": 0.30813673567645644,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00020295161454984966,
      "loss": 0.7064,
      "step": 1280
    },
    {
      "epoch": 0.3093403948001926,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020293456763105622,
      "loss": 0.7452,
      "step": 1285
    },
    {
      "epoch": 0.31054405392392875,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020291745361688868,
      "loss": 0.73,
      "step": 1290
    },
    {
      "epoch": 0.3117477130476649,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002029002725227063,
      "loss": 0.7469,
      "step": 1295
    },
    {
      "epoch": 0.31295137217140107,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020288302436392855,
      "loss": 0.6994,
      "step": 1300
    },
    {
      "epoch": 0.3141550312951372,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002028657091560351,
      "loss": 0.7116,
      "step": 1305
    },
    {
      "epoch": 0.3153586904188734,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020284832691456575,
      "loss": 0.726,
      "step": 1310
    },
    {
      "epoch": 0.31656234954260953,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020283087765512044,
      "loss": 0.7522,
      "step": 1315
    },
    {
      "epoch": 0.3177660086663457,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00020281336139335934,
      "loss": 0.7305,
      "step": 1320
    },
    {
      "epoch": 0.31896966779008185,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020279577814500275,
      "loss": 0.7365,
      "step": 1325
    },
    {
      "epoch": 0.320173326913818,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020277812792583098,
      "loss": 0.7176,
      "step": 1330
    },
    {
      "epoch": 0.32137698603755416,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020276041075168453,
      "loss": 0.7182,
      "step": 1335
    },
    {
      "epoch": 0.3225806451612903,
      "grad_norm": 1.28125,
      "learning_rate": 0.00020274262663846397,
      "loss": 0.6926,
      "step": 1340
    },
    {
      "epoch": 0.32378430428502647,
      "grad_norm": 1.4375,
      "learning_rate": 0.00020272477560212996,
      "loss": 0.6864,
      "step": 1345
    },
    {
      "epoch": 0.3249879634087626,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002027068576587032,
      "loss": 0.6841,
      "step": 1350
    },
    {
      "epoch": 0.3261916225324988,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00020268887282426444,
      "loss": 0.7243,
      "step": 1355
    },
    {
      "epoch": 0.32739528165623494,
      "grad_norm": 1.625,
      "learning_rate": 0.00020267082111495452,
      "loss": 0.71,
      "step": 1360
    },
    {
      "epoch": 0.3285989407799711,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020265270254697413,
      "loss": 0.7578,
      "step": 1365
    },
    {
      "epoch": 0.32980259990370725,
      "grad_norm": 1.375,
      "learning_rate": 0.0002026345171365842,
      "loss": 0.6661,
      "step": 1370
    },
    {
      "epoch": 0.3310062590274434,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00020261626490010543,
      "loss": 0.7308,
      "step": 1375
    },
    {
      "epoch": 0.33220991815117956,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020259794585391868,
      "loss": 0.6862,
      "step": 1380
    },
    {
      "epoch": 0.3334135772749157,
      "grad_norm": 1.296875,
      "learning_rate": 0.00020257956001446464,
      "loss": 0.6837,
      "step": 1385
    },
    {
      "epoch": 0.33461723639865193,
      "grad_norm": 1.46875,
      "learning_rate": 0.00020256110739824394,
      "loss": 0.7164,
      "step": 1390
    },
    {
      "epoch": 0.3358208955223881,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002025425880218173,
      "loss": 0.7228,
      "step": 1395
    },
    {
      "epoch": 0.33702455464612424,
      "grad_norm": 1.3125,
      "learning_rate": 0.00020252400190180512,
      "loss": 0.7357,
      "step": 1400
    },
    {
      "epoch": 0.3382282137698604,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020250534905488793,
      "loss": 0.6781,
      "step": 1405
    },
    {
      "epoch": 0.33943187289359655,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020248662949780595,
      "loss": 0.713,
      "step": 1410
    },
    {
      "epoch": 0.3406355320173327,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020246784324735937,
      "loss": 0.716,
      "step": 1415
    },
    {
      "epoch": 0.34183919114106887,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002024489903204083,
      "loss": 0.7322,
      "step": 1420
    },
    {
      "epoch": 0.343042850264805,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002024300707338725,
      "loss": 0.731,
      "step": 1425
    },
    {
      "epoch": 0.3442465093885412,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00020241108450473174,
      "loss": 0.7077,
      "step": 1430
    },
    {
      "epoch": 0.34545016851227733,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002023920316500255,
      "loss": 0.7216,
      "step": 1435
    },
    {
      "epoch": 0.3466538276360135,
      "grad_norm": 1.40625,
      "learning_rate": 0.00020237291218685308,
      "loss": 0.7019,
      "step": 1440
    },
    {
      "epoch": 0.34785748675974965,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002023537261323736,
      "loss": 0.6703,
      "step": 1445
    },
    {
      "epoch": 0.3490611458834858,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00020233447350380586,
      "loss": 0.6877,
      "step": 1450
    },
    {
      "epoch": 0.35026480500722196,
      "grad_norm": 1.4375,
      "learning_rate": 0.00020231515431842845,
      "loss": 0.6752,
      "step": 1455
    },
    {
      "epoch": 0.3514684641309581,
      "grad_norm": 1.484375,
      "learning_rate": 0.00020229576859357966,
      "loss": 0.6921,
      "step": 1460
    },
    {
      "epoch": 0.35267212325469427,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00020227631634665762,
      "loss": 0.7102,
      "step": 1465
    },
    {
      "epoch": 0.3538757823784304,
      "grad_norm": 1.484375,
      "learning_rate": 0.00020225679759512002,
      "loss": 0.739,
      "step": 1470
    },
    {
      "epoch": 0.3550794415021666,
      "grad_norm": 1.375,
      "learning_rate": 0.00020223721235648428,
      "loss": 0.7211,
      "step": 1475
    },
    {
      "epoch": 0.35628310062590274,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00020221756064832752,
      "loss": 0.7093,
      "step": 1480
    },
    {
      "epoch": 0.3574867597496389,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020219784248828645,
      "loss": 0.6881,
      "step": 1485
    },
    {
      "epoch": 0.35869041887337505,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002021780578940575,
      "loss": 0.6753,
      "step": 1490
    },
    {
      "epoch": 0.3598940779971112,
      "grad_norm": 1.375,
      "learning_rate": 0.0002021582068833967,
      "loss": 0.6865,
      "step": 1495
    },
    {
      "epoch": 0.36109773712084736,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00020213828947411962,
      "loss": 0.6809,
      "step": 1500
    },
    {
      "epoch": 0.36109773712084736,
      "eval_loss": 0.6072394847869873,
      "eval_runtime": 2.3749,
      "eval_samples_per_second": 84.214,
      "eval_steps_per_second": 84.214,
      "step": 1500
    },
    {
      "epoch": 0.3623013962445835,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020211830568410148,
      "loss": 0.7175,
      "step": 1505
    },
    {
      "epoch": 0.3635050553683197,
      "grad_norm": 1.515625,
      "learning_rate": 0.00020209825553127708,
      "loss": 0.701,
      "step": 1510
    },
    {
      "epoch": 0.36470871449205583,
      "grad_norm": 1.515625,
      "learning_rate": 0.00020207813903364076,
      "loss": 0.7149,
      "step": 1515
    },
    {
      "epoch": 0.365912373615792,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002020579562092464,
      "loss": 0.6791,
      "step": 1520
    },
    {
      "epoch": 0.36711603273952814,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002020377070762074,
      "loss": 0.6658,
      "step": 1525
    },
    {
      "epoch": 0.3683196918632643,
      "grad_norm": 1.4375,
      "learning_rate": 0.00020201739165269666,
      "loss": 0.7309,
      "step": 1530
    },
    {
      "epoch": 0.36952335098700045,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00020199700995694666,
      "loss": 0.7247,
      "step": 1535
    },
    {
      "epoch": 0.37072701011073667,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020197656200724923,
      "loss": 0.7183,
      "step": 1540
    },
    {
      "epoch": 0.3719306692344728,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020195604782195578,
      "loss": 0.6884,
      "step": 1545
    },
    {
      "epoch": 0.373134328358209,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020193546741947702,
      "loss": 0.691,
      "step": 1550
    },
    {
      "epoch": 0.37433798748194513,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00020191482081828325,
      "loss": 0.7117,
      "step": 1555
    },
    {
      "epoch": 0.3755416466056813,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020189410803690406,
      "loss": 0.7099,
      "step": 1560
    },
    {
      "epoch": 0.37674530572941745,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00020187332909392852,
      "loss": 0.6907,
      "step": 1565
    },
    {
      "epoch": 0.3779489648531536,
      "grad_norm": 1.375,
      "learning_rate": 0.000201852484008005,
      "loss": 0.7284,
      "step": 1570
    },
    {
      "epoch": 0.37915262397688976,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00020183157279784128,
      "loss": 0.7115,
      "step": 1575
    },
    {
      "epoch": 0.3803562831006259,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002018105954822045,
      "loss": 0.6897,
      "step": 1580
    },
    {
      "epoch": 0.38155994222436207,
      "grad_norm": 1.40625,
      "learning_rate": 0.00020178955207992102,
      "loss": 0.6898,
      "step": 1585
    },
    {
      "epoch": 0.3827636013480982,
      "grad_norm": 1.5,
      "learning_rate": 0.00020176844260987668,
      "loss": 0.7069,
      "step": 1590
    },
    {
      "epoch": 0.3839672604718344,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002017472670910165,
      "loss": 0.6938,
      "step": 1595
    },
    {
      "epoch": 0.38517091959557054,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00020172602554234474,
      "loss": 0.7031,
      "step": 1600
    },
    {
      "epoch": 0.3863745787193067,
      "grad_norm": 1.3125,
      "learning_rate": 0.00020170471798292507,
      "loss": 0.6911,
      "step": 1605
    },
    {
      "epoch": 0.38757823784304285,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020168334443188023,
      "loss": 0.6918,
      "step": 1610
    },
    {
      "epoch": 0.388781896966779,
      "grad_norm": 1.359375,
      "learning_rate": 0.00020166190490839234,
      "loss": 0.7089,
      "step": 1615
    },
    {
      "epoch": 0.38998555609051516,
      "grad_norm": 1.421875,
      "learning_rate": 0.00020164039943170264,
      "loss": 0.6818,
      "step": 1620
    },
    {
      "epoch": 0.3911892152142513,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00020161882802111154,
      "loss": 0.752,
      "step": 1625
    },
    {
      "epoch": 0.3923928743379875,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00020159719069597865,
      "loss": 0.6934,
      "step": 1630
    },
    {
      "epoch": 0.39359653346172363,
      "grad_norm": 1.296875,
      "learning_rate": 0.0002015754874757228,
      "loss": 0.6998,
      "step": 1635
    },
    {
      "epoch": 0.3948001925854598,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020155371837982187,
      "loss": 0.7089,
      "step": 1640
    },
    {
      "epoch": 0.39600385170919594,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002015318834278129,
      "loss": 0.6729,
      "step": 1645
    },
    {
      "epoch": 0.3972075108329321,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00020150998263929206,
      "loss": 0.6835,
      "step": 1650
    },
    {
      "epoch": 0.39841116995666825,
      "grad_norm": 1.40625,
      "learning_rate": 0.00020148801603391456,
      "loss": 0.7027,
      "step": 1655
    },
    {
      "epoch": 0.3996148290804044,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00020146598363139466,
      "loss": 0.6962,
      "step": 1660
    },
    {
      "epoch": 0.40081848820414057,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020144388545150573,
      "loss": 0.6746,
      "step": 1665
    },
    {
      "epoch": 0.4020221473278767,
      "grad_norm": 1.546875,
      "learning_rate": 0.00020142172151408014,
      "loss": 0.6756,
      "step": 1670
    },
    {
      "epoch": 0.4032258064516129,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020139949183900933,
      "loss": 0.685,
      "step": 1675
    },
    {
      "epoch": 0.40442946557534903,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002013771964462436,
      "loss": 0.7223,
      "step": 1680
    },
    {
      "epoch": 0.40563312469908525,
      "grad_norm": 1.484375,
      "learning_rate": 0.00020135483535579243,
      "loss": 0.6715,
      "step": 1685
    },
    {
      "epoch": 0.4068367838228214,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00020133240858772404,
      "loss": 0.7027,
      "step": 1690
    },
    {
      "epoch": 0.40804044294655756,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0002013099161621658,
      "loss": 0.6796,
      "step": 1695
    },
    {
      "epoch": 0.4092441020702937,
      "grad_norm": 1.375,
      "learning_rate": 0.00020128735809930382,
      "loss": 0.6772,
      "step": 1700
    },
    {
      "epoch": 0.41044776119402987,
      "grad_norm": 1.46875,
      "learning_rate": 0.00020126473441938332,
      "loss": 0.7071,
      "step": 1705
    },
    {
      "epoch": 0.411651420317766,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00020124204514270817,
      "loss": 0.6642,
      "step": 1710
    },
    {
      "epoch": 0.4128550794415022,
      "grad_norm": 1.3125,
      "learning_rate": 0.00020121929028964132,
      "loss": 0.6734,
      "step": 1715
    },
    {
      "epoch": 0.41405873856523834,
      "grad_norm": 1.40625,
      "learning_rate": 0.00020119646988060448,
      "loss": 0.696,
      "step": 1720
    },
    {
      "epoch": 0.4152623976889745,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002011735839360782,
      "loss": 0.6878,
      "step": 1725
    },
    {
      "epoch": 0.41646605681271065,
      "grad_norm": 1.328125,
      "learning_rate": 0.0002011506324766018,
      "loss": 0.654,
      "step": 1730
    },
    {
      "epoch": 0.4176697159364468,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002011276155227735,
      "loss": 0.6922,
      "step": 1735
    },
    {
      "epoch": 0.41887337506018296,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020110453309525028,
      "loss": 0.6812,
      "step": 1740
    },
    {
      "epoch": 0.4200770341839191,
      "grad_norm": 1.328125,
      "learning_rate": 0.00020108138521474778,
      "loss": 0.6771,
      "step": 1745
    },
    {
      "epoch": 0.4212806933076553,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002010581719020405,
      "loss": 0.6896,
      "step": 1750
    },
    {
      "epoch": 0.42248435243139143,
      "grad_norm": 1.375,
      "learning_rate": 0.00020103489317796155,
      "loss": 0.6948,
      "step": 1755
    },
    {
      "epoch": 0.4236880115551276,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00020101154906340286,
      "loss": 0.6696,
      "step": 1760
    },
    {
      "epoch": 0.42489167067886374,
      "grad_norm": 1.375,
      "learning_rate": 0.00020098813957931496,
      "loss": 0.6867,
      "step": 1765
    },
    {
      "epoch": 0.4260953298025999,
      "grad_norm": 1.46875,
      "learning_rate": 0.00020096466474670712,
      "loss": 0.6711,
      "step": 1770
    },
    {
      "epoch": 0.42729898892633605,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00020094112458664715,
      "loss": 0.6475,
      "step": 1775
    },
    {
      "epoch": 0.4285026480500722,
      "grad_norm": 1.375,
      "learning_rate": 0.00020091751912026164,
      "loss": 0.6793,
      "step": 1780
    },
    {
      "epoch": 0.42970630717380837,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00020089384836873567,
      "loss": 0.701,
      "step": 1785
    },
    {
      "epoch": 0.4309099662975445,
      "grad_norm": 1.390625,
      "learning_rate": 0.00020087011235331293,
      "loss": 0.7153,
      "step": 1790
    },
    {
      "epoch": 0.4321136254212807,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002008463110952957,
      "loss": 0.6996,
      "step": 1795
    },
    {
      "epoch": 0.43331728454501683,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00020082244461604485,
      "loss": 0.6874,
      "step": 1800
    },
    {
      "epoch": 0.434520943668753,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00020079851293697973,
      "loss": 0.7237,
      "step": 1805
    },
    {
      "epoch": 0.43572460279248915,
      "grad_norm": 1.265625,
      "learning_rate": 0.00020077451607957821,
      "loss": 0.6801,
      "step": 1810
    },
    {
      "epoch": 0.4369282619162253,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002007504540653767,
      "loss": 0.6645,
      "step": 1815
    },
    {
      "epoch": 0.43813192103996146,
      "grad_norm": 1.5625,
      "learning_rate": 0.00020072632691597,
      "loss": 0.6698,
      "step": 1820
    },
    {
      "epoch": 0.4393355801636976,
      "grad_norm": 1.390625,
      "learning_rate": 0.00020070213465301146,
      "loss": 0.6834,
      "step": 1825
    },
    {
      "epoch": 0.4405392392874338,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0002006778772982128,
      "loss": 0.6623,
      "step": 1830
    },
    {
      "epoch": 0.44174289841117,
      "grad_norm": 1.34375,
      "learning_rate": 0.00020065355487334418,
      "loss": 0.689,
      "step": 1835
    },
    {
      "epoch": 0.44294655753490614,
      "grad_norm": 1.453125,
      "learning_rate": 0.00020062916740023427,
      "loss": 0.7091,
      "step": 1840
    },
    {
      "epoch": 0.4441502166586423,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00020060471490076988,
      "loss": 0.6626,
      "step": 1845
    },
    {
      "epoch": 0.44535387578237845,
      "grad_norm": 1.359375,
      "learning_rate": 0.00020058019739689634,
      "loss": 0.6956,
      "step": 1850
    },
    {
      "epoch": 0.4465575349061146,
      "grad_norm": 1.390625,
      "learning_rate": 0.00020055561491061732,
      "loss": 0.6821,
      "step": 1855
    },
    {
      "epoch": 0.44776119402985076,
      "grad_norm": 1.296875,
      "learning_rate": 0.00020053096746399477,
      "loss": 0.6926,
      "step": 1860
    },
    {
      "epoch": 0.4489648531535869,
      "grad_norm": 1.25,
      "learning_rate": 0.00020050625507914897,
      "loss": 0.6317,
      "step": 1865
    },
    {
      "epoch": 0.4501685122773231,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002004814777782584,
      "loss": 0.694,
      "step": 1870
    },
    {
      "epoch": 0.45137217140105923,
      "grad_norm": 1.390625,
      "learning_rate": 0.00020045663558355994,
      "loss": 0.686,
      "step": 1875
    },
    {
      "epoch": 0.4525758305247954,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00020043172851734854,
      "loss": 0.6752,
      "step": 1880
    },
    {
      "epoch": 0.45377948964853154,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00020040675660197755,
      "loss": 0.6888,
      "step": 1885
    },
    {
      "epoch": 0.4549831487722677,
      "grad_norm": 1.421875,
      "learning_rate": 0.00020038171985985835,
      "loss": 0.6399,
      "step": 1890
    },
    {
      "epoch": 0.45618680789600385,
      "grad_norm": 1.328125,
      "learning_rate": 0.00020035661831346063,
      "loss": 0.6438,
      "step": 1895
    },
    {
      "epoch": 0.45739046701974,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00020033145198531218,
      "loss": 0.7266,
      "step": 1900
    },
    {
      "epoch": 0.45859412614347617,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00020030622089799892,
      "loss": 0.6877,
      "step": 1905
    },
    {
      "epoch": 0.4597977852672123,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00020028092507416492,
      "loss": 0.6844,
      "step": 1910
    },
    {
      "epoch": 0.4610014443909485,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00020025556453651236,
      "loss": 0.6749,
      "step": 1915
    },
    {
      "epoch": 0.46220510351468463,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002002301393078014,
      "loss": 0.6717,
      "step": 1920
    },
    {
      "epoch": 0.4634087626384208,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00020020464941085042,
      "loss": 0.7072,
      "step": 1925
    },
    {
      "epoch": 0.46461242176215695,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002001790948685357,
      "loss": 0.6732,
      "step": 1930
    },
    {
      "epoch": 0.4658160808858931,
      "grad_norm": 1.359375,
      "learning_rate": 0.0002001534757037916,
      "loss": 0.6695,
      "step": 1935
    },
    {
      "epoch": 0.46701974000962926,
      "grad_norm": 1.28125,
      "learning_rate": 0.00020012779193961046,
      "loss": 0.6712,
      "step": 1940
    },
    {
      "epoch": 0.4682233991333654,
      "grad_norm": 1.3125,
      "learning_rate": 0.00020010204359904263,
      "loss": 0.667,
      "step": 1945
    },
    {
      "epoch": 0.46942705825710157,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00020007623070519633,
      "loss": 0.6518,
      "step": 1950
    },
    {
      "epoch": 0.4706307173808377,
      "grad_norm": 1.328125,
      "learning_rate": 0.00020005035328123782,
      "loss": 0.6548,
      "step": 1955
    },
    {
      "epoch": 0.4718343765045739,
      "grad_norm": 1.265625,
      "learning_rate": 0.0002000244113503912,
      "loss": 0.6339,
      "step": 1960
    },
    {
      "epoch": 0.47303803562831004,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0001999984049359385,
      "loss": 0.6876,
      "step": 1965
    },
    {
      "epoch": 0.4742416947520462,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0001999723340612196,
      "loss": 0.6948,
      "step": 1970
    },
    {
      "epoch": 0.4754453538757824,
      "grad_norm": 1.296875,
      "learning_rate": 0.0001999461987496322,
      "loss": 0.6809,
      "step": 1975
    },
    {
      "epoch": 0.47664901299951856,
      "grad_norm": 1.4375,
      "learning_rate": 0.00019991999902463194,
      "loss": 0.6741,
      "step": 1980
    },
    {
      "epoch": 0.4778526721232547,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019989373490973211,
      "loss": 0.6463,
      "step": 1985
    },
    {
      "epoch": 0.4790563312469909,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019986740642850395,
      "loss": 0.6633,
      "step": 1990
    },
    {
      "epoch": 0.48025999037072703,
      "grad_norm": 1.421875,
      "learning_rate": 0.0001998410136045764,
      "loss": 0.6469,
      "step": 1995
    },
    {
      "epoch": 0.4814636494944632,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00019981455646163606,
      "loss": 0.6366,
      "step": 2000
    },
    {
      "epoch": 0.4814636494944632,
      "eval_loss": 0.5777117609977722,
      "eval_runtime": 2.3295,
      "eval_samples_per_second": 85.854,
      "eval_steps_per_second": 85.854,
      "step": 2000
    },
    {
      "epoch": 0.48266730861819934,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00019978803502342741,
      "loss": 0.6697,
      "step": 2005
    },
    {
      "epoch": 0.4838709677419355,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0001997614493137525,
      "loss": 0.6508,
      "step": 2010
    },
    {
      "epoch": 0.48507462686567165,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00019973479935647117,
      "loss": 0.6693,
      "step": 2015
    },
    {
      "epoch": 0.4862782859894078,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0001997080851755008,
      "loss": 0.6508,
      "step": 2020
    },
    {
      "epoch": 0.48748194511314397,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019968130679481652,
      "loss": 0.6663,
      "step": 2025
    },
    {
      "epoch": 0.4886856042368801,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00019965446423845102,
      "loss": 0.6342,
      "step": 2030
    },
    {
      "epoch": 0.4898892633606163,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00019962755753049458,
      "loss": 0.6939,
      "step": 2035
    },
    {
      "epoch": 0.49109292248435243,
      "grad_norm": 1.640625,
      "learning_rate": 0.0001996005866950951,
      "loss": 0.6656,
      "step": 2040
    },
    {
      "epoch": 0.4922965816080886,
      "grad_norm": 1.390625,
      "learning_rate": 0.000199573551756458,
      "loss": 0.643,
      "step": 2045
    },
    {
      "epoch": 0.49350024073182475,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001995464527388462,
      "loss": 0.6738,
      "step": 2050
    },
    {
      "epoch": 0.4947038998555609,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001995192896665802,
      "loss": 0.6455,
      "step": 2055
    },
    {
      "epoch": 0.49590755897929706,
      "grad_norm": 1.40625,
      "learning_rate": 0.00019949206256403794,
      "loss": 0.6361,
      "step": 2060
    },
    {
      "epoch": 0.4971112181030332,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0001994647714556548,
      "loss": 0.6584,
      "step": 2065
    },
    {
      "epoch": 0.49831487722676937,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00019943741636592374,
      "loss": 0.6715,
      "step": 2070
    },
    {
      "epoch": 0.4995185363505055,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0001994099973193949,
      "loss": 0.6349,
      "step": 2075
    },
    {
      "epoch": 0.5007221954742417,
      "grad_norm": 1.53125,
      "learning_rate": 0.00019938251434067607,
      "loss": 0.6497,
      "step": 2080
    },
    {
      "epoch": 0.5019258545979779,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019935496745443222,
      "loss": 0.6906,
      "step": 2085
    },
    {
      "epoch": 0.503129513721714,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001993273566853858,
      "loss": 0.6885,
      "step": 2090
    },
    {
      "epoch": 0.5043331728454502,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019929968205831657,
      "loss": 0.6248,
      "step": 2095
    },
    {
      "epoch": 0.5055368319691863,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019927194359806158,
      "loss": 0.6865,
      "step": 2100
    },
    {
      "epoch": 0.5067404910929225,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019924414132951513,
      "loss": 0.6369,
      "step": 2105
    },
    {
      "epoch": 0.5079441502166586,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019921627527762884,
      "loss": 0.6639,
      "step": 2110
    },
    {
      "epoch": 0.5091478093403948,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0001991883454674116,
      "loss": 0.6742,
      "step": 2115
    },
    {
      "epoch": 0.5103514684641309,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00019916035192392943,
      "loss": 0.6588,
      "step": 2120
    },
    {
      "epoch": 0.5115551275878671,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019913229467230566,
      "loss": 0.6904,
      "step": 2125
    },
    {
      "epoch": 0.5127587867116032,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019910417373772066,
      "loss": 0.6035,
      "step": 2130
    },
    {
      "epoch": 0.5139624458353395,
      "grad_norm": 1.34375,
      "learning_rate": 0.0001990759891454121,
      "loss": 0.6288,
      "step": 2135
    },
    {
      "epoch": 0.5151661049590756,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019904774092067463,
      "loss": 0.6856,
      "step": 2140
    },
    {
      "epoch": 0.5163697640828118,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00019901942908886021,
      "loss": 0.6526,
      "step": 2145
    },
    {
      "epoch": 0.5175734232065479,
      "grad_norm": 1.34375,
      "learning_rate": 0.00019899105367537765,
      "loss": 0.6428,
      "step": 2150
    },
    {
      "epoch": 0.5187770823302841,
      "grad_norm": 1.40625,
      "learning_rate": 0.00019896261470569293,
      "loss": 0.6646,
      "step": 2155
    },
    {
      "epoch": 0.5199807414540202,
      "grad_norm": 1.25,
      "learning_rate": 0.00019893411220532915,
      "loss": 0.6503,
      "step": 2160
    },
    {
      "epoch": 0.5211844005777564,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00019890554619986632,
      "loss": 0.671,
      "step": 2165
    },
    {
      "epoch": 0.5223880597014925,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001988769167149415,
      "loss": 0.6784,
      "step": 2170
    },
    {
      "epoch": 0.5235917188252287,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019884822377624862,
      "loss": 0.6494,
      "step": 2175
    },
    {
      "epoch": 0.5247953779489648,
      "grad_norm": 1.28125,
      "learning_rate": 0.0001988194674095387,
      "loss": 0.6571,
      "step": 2180
    },
    {
      "epoch": 0.525999037072701,
      "grad_norm": 1.3125,
      "learning_rate": 0.0001987906476406196,
      "loss": 0.6686,
      "step": 2185
    },
    {
      "epoch": 0.5272026961964371,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019876176449535614,
      "loss": 0.6523,
      "step": 2190
    },
    {
      "epoch": 0.5284063553201733,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0001987328179996699,
      "loss": 0.6585,
      "step": 2195
    },
    {
      "epoch": 0.5296100144439095,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001987038081795394,
      "loss": 0.6549,
      "step": 2200
    },
    {
      "epoch": 0.5308136735676456,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00019867473506100003,
      "loss": 0.6718,
      "step": 2205
    },
    {
      "epoch": 0.5320173326913819,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019864559867014398,
      "loss": 0.6528,
      "step": 2210
    },
    {
      "epoch": 0.533220991815118,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001986163990331201,
      "loss": 0.6411,
      "step": 2215
    },
    {
      "epoch": 0.5344246509388542,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0001985871361761341,
      "loss": 0.6726,
      "step": 2220
    },
    {
      "epoch": 0.5356283100625903,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00019855781012544842,
      "loss": 0.6683,
      "step": 2225
    },
    {
      "epoch": 0.5368319691863265,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019852842090738225,
      "loss": 0.6499,
      "step": 2230
    },
    {
      "epoch": 0.5380356283100626,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019849896854831143,
      "loss": 0.679,
      "step": 2235
    },
    {
      "epoch": 0.5392392874337988,
      "grad_norm": 1.421875,
      "learning_rate": 0.00019846945307466847,
      "loss": 0.6388,
      "step": 2240
    },
    {
      "epoch": 0.5404429465575349,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019843987451294244,
      "loss": 0.6282,
      "step": 2245
    },
    {
      "epoch": 0.5416466056812711,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001984102328896792,
      "loss": 0.6185,
      "step": 2250
    },
    {
      "epoch": 0.5428502648050072,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00019838052823148105,
      "loss": 0.6518,
      "step": 2255
    },
    {
      "epoch": 0.5440539239287434,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000198350760565007,
      "loss": 0.6655,
      "step": 2260
    },
    {
      "epoch": 0.5452575830524795,
      "grad_norm": 1.421875,
      "learning_rate": 0.00019832092991697248,
      "loss": 0.6806,
      "step": 2265
    },
    {
      "epoch": 0.5464612421762157,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001982910363141495,
      "loss": 0.6591,
      "step": 2270
    },
    {
      "epoch": 0.5476649012999518,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0001982610797833666,
      "loss": 0.648,
      "step": 2275
    },
    {
      "epoch": 0.548868560423688,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00019823106035150875,
      "loss": 0.6801,
      "step": 2280
    },
    {
      "epoch": 0.5500722195474241,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00019820097804551742,
      "loss": 0.6577,
      "step": 2285
    },
    {
      "epoch": 0.5512758786711603,
      "grad_norm": 1.265625,
      "learning_rate": 0.0001981708328923904,
      "loss": 0.6477,
      "step": 2290
    },
    {
      "epoch": 0.5524795377948964,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000198140624919182,
      "loss": 0.637,
      "step": 2295
    },
    {
      "epoch": 0.5536831969186327,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0001981103541530029,
      "loss": 0.6511,
      "step": 2300
    },
    {
      "epoch": 0.5548868560423688,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019808002062102003,
      "loss": 0.665,
      "step": 2305
    },
    {
      "epoch": 0.556090515166105,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00019804962435045678,
      "loss": 0.6343,
      "step": 2310
    },
    {
      "epoch": 0.5572941742898411,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00019801916536859275,
      "loss": 0.6293,
      "step": 2315
    },
    {
      "epoch": 0.5584978334135773,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019798864370276388,
      "loss": 0.6783,
      "step": 2320
    },
    {
      "epoch": 0.5597014925373134,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019795805938036234,
      "loss": 0.6325,
      "step": 2325
    },
    {
      "epoch": 0.5609051516610496,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019792741242883656,
      "loss": 0.6406,
      "step": 2330
    },
    {
      "epoch": 0.5621088107847857,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019789670287569108,
      "loss": 0.6101,
      "step": 2335
    },
    {
      "epoch": 0.5633124699085219,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019786593074848675,
      "loss": 0.6657,
      "step": 2340
    },
    {
      "epoch": 0.5645161290322581,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019783509607484054,
      "loss": 0.6452,
      "step": 2345
    },
    {
      "epoch": 0.5657197881559942,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00019780419888242555,
      "loss": 0.6516,
      "step": 2350
    },
    {
      "epoch": 0.5669234472797304,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0001977732391989709,
      "loss": 0.6181,
      "step": 2355
    },
    {
      "epoch": 0.5681271064034665,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019774221705226195,
      "loss": 0.6215,
      "step": 2360
    },
    {
      "epoch": 0.5693307655272027,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019771113247014,
      "loss": 0.6163,
      "step": 2365
    },
    {
      "epoch": 0.5705344246509388,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0001976799854805024,
      "loss": 0.6159,
      "step": 2370
    },
    {
      "epoch": 0.571738083774675,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00019764877611130261,
      "loss": 0.6381,
      "step": 2375
    },
    {
      "epoch": 0.5729417428984112,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019761750439054997,
      "loss": 0.6282,
      "step": 2380
    },
    {
      "epoch": 0.5741454020221474,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019758617034630973,
      "loss": 0.6404,
      "step": 2385
    },
    {
      "epoch": 0.5753490611458835,
      "grad_norm": 1.375,
      "learning_rate": 0.00019755477400670323,
      "loss": 0.6867,
      "step": 2390
    },
    {
      "epoch": 0.5765527202696197,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001975233153999076,
      "loss": 0.6404,
      "step": 2395
    },
    {
      "epoch": 0.5777563793933558,
      "grad_norm": 1.5,
      "learning_rate": 0.0001974917945541559,
      "loss": 0.6496,
      "step": 2400
    },
    {
      "epoch": 0.578960038517092,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019746021149773702,
      "loss": 0.6515,
      "step": 2405
    },
    {
      "epoch": 0.5801636976408281,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019742856625899573,
      "loss": 0.6092,
      "step": 2410
    },
    {
      "epoch": 0.5813673567645643,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019739685886633254,
      "loss": 0.6167,
      "step": 2415
    },
    {
      "epoch": 0.5825710158883004,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001973650893482038,
      "loss": 0.671,
      "step": 2420
    },
    {
      "epoch": 0.5837746750120366,
      "grad_norm": 1.125,
      "learning_rate": 0.00019733325773312158,
      "loss": 0.6301,
      "step": 2425
    },
    {
      "epoch": 0.5849783341357727,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00019730136404965366,
      "loss": 0.6606,
      "step": 2430
    },
    {
      "epoch": 0.5861819932595089,
      "grad_norm": 1.390625,
      "learning_rate": 0.00019726940832642362,
      "loss": 0.6323,
      "step": 2435
    },
    {
      "epoch": 0.587385652383245,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00019723739059211056,
      "loss": 0.6246,
      "step": 2440
    },
    {
      "epoch": 0.5885893115069812,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019720531087544945,
      "loss": 0.6423,
      "step": 2445
    },
    {
      "epoch": 0.5897929706307173,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019717316920523067,
      "loss": 0.6505,
      "step": 2450
    },
    {
      "epoch": 0.5909966297544536,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001971409656103003,
      "loss": 0.6303,
      "step": 2455
    },
    {
      "epoch": 0.5922002888781897,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019710870011956005,
      "loss": 0.6268,
      "step": 2460
    },
    {
      "epoch": 0.5934039480019259,
      "grad_norm": 1.375,
      "learning_rate": 0.00019707637276196704,
      "loss": 0.64,
      "step": 2465
    },
    {
      "epoch": 0.594607607125662,
      "grad_norm": 1.46875,
      "learning_rate": 0.0001970439835665341,
      "loss": 0.6486,
      "step": 2470
    },
    {
      "epoch": 0.5958112662493982,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019701153256232933,
      "loss": 0.6377,
      "step": 2475
    },
    {
      "epoch": 0.5970149253731343,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00019697901977847645,
      "loss": 0.6665,
      "step": 2480
    },
    {
      "epoch": 0.5982185844968705,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001969464452441547,
      "loss": 0.7109,
      "step": 2485
    },
    {
      "epoch": 0.5994222436206067,
      "grad_norm": 1.25,
      "learning_rate": 0.00019691380898859853,
      "loss": 0.6202,
      "step": 2490
    },
    {
      "epoch": 0.6006259027443428,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0001968811110410979,
      "loss": 0.6243,
      "step": 2495
    },
    {
      "epoch": 0.601829561868079,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019684835143099816,
      "loss": 0.6391,
      "step": 2500
    },
    {
      "epoch": 0.601829561868079,
      "eval_loss": 0.5394683480262756,
      "eval_runtime": 2.3314,
      "eval_samples_per_second": 85.786,
      "eval_steps_per_second": 85.786,
      "step": 2500
    },
    {
      "epoch": 0.6030332209918151,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019681553018769993,
      "loss": 0.6186,
      "step": 2505
    },
    {
      "epoch": 0.6042368801155513,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001967826473406592,
      "loss": 0.6417,
      "step": 2510
    },
    {
      "epoch": 0.6054405392392874,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00019674970291938722,
      "loss": 0.6211,
      "step": 2515
    },
    {
      "epoch": 0.6066441983630236,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00019671669695345054,
      "loss": 0.6473,
      "step": 2520
    },
    {
      "epoch": 0.6078478574867597,
      "grad_norm": 1.25,
      "learning_rate": 0.00019668362947247085,
      "loss": 0.6459,
      "step": 2525
    },
    {
      "epoch": 0.609051516610496,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019665050050612516,
      "loss": 0.6277,
      "step": 2530
    },
    {
      "epoch": 0.610255175734232,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019661731008414557,
      "loss": 0.6127,
      "step": 2535
    },
    {
      "epoch": 0.6114588348579683,
      "grad_norm": 1.296875,
      "learning_rate": 0.0001965840582363194,
      "loss": 0.6143,
      "step": 2540
    },
    {
      "epoch": 0.6126624939817044,
      "grad_norm": 1.21875,
      "learning_rate": 0.0001965507449924891,
      "loss": 0.6354,
      "step": 2545
    },
    {
      "epoch": 0.6138661531054406,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001965173703825521,
      "loss": 0.6347,
      "step": 2550
    },
    {
      "epoch": 0.6150698122291767,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019648393443646108,
      "loss": 0.6147,
      "step": 2555
    },
    {
      "epoch": 0.6162734713529129,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019645043718422364,
      "loss": 0.6159,
      "step": 2560
    },
    {
      "epoch": 0.617477130476649,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019641687865590252,
      "loss": 0.6448,
      "step": 2565
    },
    {
      "epoch": 0.6186807896003852,
      "grad_norm": 1.3125,
      "learning_rate": 0.0001963832588816153,
      "loss": 0.6239,
      "step": 2570
    },
    {
      "epoch": 0.6198844487241213,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019634957789153458,
      "loss": 0.6028,
      "step": 2575
    },
    {
      "epoch": 0.6210881078478575,
      "grad_norm": 1.4375,
      "learning_rate": 0.000196315835715888,
      "loss": 0.5975,
      "step": 2580
    },
    {
      "epoch": 0.6222917669715936,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019628203238495799,
      "loss": 0.66,
      "step": 2585
    },
    {
      "epoch": 0.6234954260953298,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019624816792908193,
      "loss": 0.6242,
      "step": 2590
    },
    {
      "epoch": 0.6246990852190659,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00019621424237865206,
      "loss": 0.6346,
      "step": 2595
    },
    {
      "epoch": 0.6259027443428021,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019618025576411535,
      "loss": 0.626,
      "step": 2600
    },
    {
      "epoch": 0.6271064034665382,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019614620811597374,
      "loss": 0.6328,
      "step": 2605
    },
    {
      "epoch": 0.6283100625902744,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001961120994647838,
      "loss": 0.6538,
      "step": 2610
    },
    {
      "epoch": 0.6295137217140105,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0001960779298411569,
      "loss": 0.6415,
      "step": 2615
    },
    {
      "epoch": 0.6307173808377468,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019604369927575917,
      "loss": 0.6209,
      "step": 2620
    },
    {
      "epoch": 0.6319210399614829,
      "grad_norm": 1.25,
      "learning_rate": 0.00019600940779931135,
      "loss": 0.6679,
      "step": 2625
    },
    {
      "epoch": 0.6331246990852191,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019597505544258895,
      "loss": 0.6373,
      "step": 2630
    },
    {
      "epoch": 0.6343283582089553,
      "grad_norm": 1.25,
      "learning_rate": 0.00019594064223642205,
      "loss": 0.6236,
      "step": 2635
    },
    {
      "epoch": 0.6355320173326914,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019590616821169534,
      "loss": 0.669,
      "step": 2640
    },
    {
      "epoch": 0.6367356764564276,
      "grad_norm": 1.4375,
      "learning_rate": 0.00019587163339934808,
      "loss": 0.6373,
      "step": 2645
    },
    {
      "epoch": 0.6379393355801637,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019583703783037414,
      "loss": 0.6248,
      "step": 2650
    },
    {
      "epoch": 0.6391429947038999,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019580238153582186,
      "loss": 0.6446,
      "step": 2655
    },
    {
      "epoch": 0.640346653827636,
      "grad_norm": 1.328125,
      "learning_rate": 0.0001957676645467942,
      "loss": 0.6258,
      "step": 2660
    },
    {
      "epoch": 0.6415503129513722,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019573288689444837,
      "loss": 0.6269,
      "step": 2665
    },
    {
      "epoch": 0.6427539720751083,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00019569804860999622,
      "loss": 0.6046,
      "step": 2670
    },
    {
      "epoch": 0.6439576311988445,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019566314972470394,
      "loss": 0.6218,
      "step": 2675
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 1.46875,
      "learning_rate": 0.00019562819026989206,
      "loss": 0.6336,
      "step": 2680
    },
    {
      "epoch": 0.6463649494463168,
      "grad_norm": 1.296875,
      "learning_rate": 0.0001955931702769356,
      "loss": 0.6342,
      "step": 2685
    },
    {
      "epoch": 0.6475686085700529,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0001955580897772638,
      "loss": 0.6243,
      "step": 2690
    },
    {
      "epoch": 0.6487722676937892,
      "grad_norm": 1.25,
      "learning_rate": 0.00019552294880236022,
      "loss": 0.618,
      "step": 2695
    },
    {
      "epoch": 0.6499759268175253,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019548774738376275,
      "loss": 0.6258,
      "step": 2700
    },
    {
      "epoch": 0.6511795859412615,
      "grad_norm": 1.21875,
      "learning_rate": 0.00019545248555306345,
      "loss": 0.6808,
      "step": 2705
    },
    {
      "epoch": 0.6523832450649976,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019541716334190866,
      "loss": 0.6091,
      "step": 2710
    },
    {
      "epoch": 0.6535869041887338,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019538178078199885,
      "loss": 0.6413,
      "step": 2715
    },
    {
      "epoch": 0.6547905633124699,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001953463379050887,
      "loss": 0.6222,
      "step": 2720
    },
    {
      "epoch": 0.6559942224362061,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019531083474298702,
      "loss": 0.6199,
      "step": 2725
    },
    {
      "epoch": 0.6571978815599422,
      "grad_norm": 1.34375,
      "learning_rate": 0.00019527527132755668,
      "loss": 0.6621,
      "step": 2730
    },
    {
      "epoch": 0.6584015406836784,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00019523964769071475,
      "loss": 0.6661,
      "step": 2735
    },
    {
      "epoch": 0.6596051998074145,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019520396386443214,
      "loss": 0.6169,
      "step": 2740
    },
    {
      "epoch": 0.6608088589311507,
      "grad_norm": 1.21875,
      "learning_rate": 0.0001951682198807339,
      "loss": 0.5924,
      "step": 2745
    },
    {
      "epoch": 0.6620125180548868,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019513241577169915,
      "loss": 0.6339,
      "step": 2750
    },
    {
      "epoch": 0.663216177178623,
      "grad_norm": 1.25,
      "learning_rate": 0.00019509655156946083,
      "loss": 0.6463,
      "step": 2755
    },
    {
      "epoch": 0.6644198363023591,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00019506062730620583,
      "loss": 0.6212,
      "step": 2760
    },
    {
      "epoch": 0.6656234954260953,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019502464301417502,
      "loss": 0.6358,
      "step": 2765
    },
    {
      "epoch": 0.6668271545498314,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019498859872566307,
      "loss": 0.6378,
      "step": 2770
    },
    {
      "epoch": 0.6680308136735676,
      "grad_norm": 1.375,
      "learning_rate": 0.00019495249447301855,
      "loss": 0.6233,
      "step": 2775
    },
    {
      "epoch": 0.6692344727973039,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019491633028864382,
      "loss": 0.6398,
      "step": 2780
    },
    {
      "epoch": 0.67043813192104,
      "grad_norm": 1.265625,
      "learning_rate": 0.000194880106204995,
      "loss": 0.6337,
      "step": 2785
    },
    {
      "epoch": 0.6716417910447762,
      "grad_norm": 1.3125,
      "learning_rate": 0.000194843822254582,
      "loss": 0.6026,
      "step": 2790
    },
    {
      "epoch": 0.6728454501685123,
      "grad_norm": 1.265625,
      "learning_rate": 0.0001948074784699685,
      "loss": 0.6318,
      "step": 2795
    },
    {
      "epoch": 0.6740491092922485,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019477107488377176,
      "loss": 0.6322,
      "step": 2800
    },
    {
      "epoch": 0.6752527684159846,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019473461152866281,
      "loss": 0.614,
      "step": 2805
    },
    {
      "epoch": 0.6764564275397208,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00019469808843736633,
      "loss": 0.6345,
      "step": 2810
    },
    {
      "epoch": 0.6776600866634569,
      "grad_norm": 1.421875,
      "learning_rate": 0.00019466150564266053,
      "loss": 0.6519,
      "step": 2815
    },
    {
      "epoch": 0.6788637457871931,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019462486317737727,
      "loss": 0.6325,
      "step": 2820
    },
    {
      "epoch": 0.6800674049109292,
      "grad_norm": 1.5625,
      "learning_rate": 0.0001945881610744019,
      "loss": 0.62,
      "step": 2825
    },
    {
      "epoch": 0.6812710640346654,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019455139936667339,
      "loss": 0.6023,
      "step": 2830
    },
    {
      "epoch": 0.6824747231584015,
      "grad_norm": 1.125,
      "learning_rate": 0.00019451457808718407,
      "loss": 0.6236,
      "step": 2835
    },
    {
      "epoch": 0.6836783822821377,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019447769726897986,
      "loss": 0.6382,
      "step": 2840
    },
    {
      "epoch": 0.6848820414058738,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019444075694516008,
      "loss": 0.6218,
      "step": 2845
    },
    {
      "epoch": 0.68608570052961,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00019440375714887734,
      "loss": 0.6166,
      "step": 2850
    },
    {
      "epoch": 0.6872893596533461,
      "grad_norm": 1.3125,
      "learning_rate": 0.00019436669791333787,
      "loss": 0.6012,
      "step": 2855
    },
    {
      "epoch": 0.6884930187770824,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019432957927180094,
      "loss": 0.6195,
      "step": 2860
    },
    {
      "epoch": 0.6896966779008185,
      "grad_norm": 1.25,
      "learning_rate": 0.00019429240125757943,
      "loss": 0.6233,
      "step": 2865
    },
    {
      "epoch": 0.6909003370245547,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019425516390403922,
      "loss": 0.6175,
      "step": 2870
    },
    {
      "epoch": 0.6921039961482908,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019421786724459973,
      "loss": 0.6079,
      "step": 2875
    },
    {
      "epoch": 0.693307655272027,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00019418051131273335,
      "loss": 0.6204,
      "step": 2880
    },
    {
      "epoch": 0.6945113143957631,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019414309614196586,
      "loss": 0.6401,
      "step": 2885
    },
    {
      "epoch": 0.6957149735194993,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001941056217658761,
      "loss": 0.6285,
      "step": 2890
    },
    {
      "epoch": 0.6969186326432354,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0001940680882180961,
      "loss": 0.6413,
      "step": 2895
    },
    {
      "epoch": 0.6981222917669716,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019403049553231086,
      "loss": 0.5924,
      "step": 2900
    },
    {
      "epoch": 0.6993259508907077,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001939928437422587,
      "loss": 0.6299,
      "step": 2905
    },
    {
      "epoch": 0.7005296100144439,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00019395513288173073,
      "loss": 0.5845,
      "step": 2910
    },
    {
      "epoch": 0.70173326913818,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001939173629845712,
      "loss": 0.6312,
      "step": 2915
    },
    {
      "epoch": 0.7029369282619162,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001938795340846774,
      "loss": 0.5586,
      "step": 2920
    },
    {
      "epoch": 0.7041405873856523,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019384164621599948,
      "loss": 0.633,
      "step": 2925
    },
    {
      "epoch": 0.7053442465093885,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001938036994125405,
      "loss": 0.5886,
      "step": 2930
    },
    {
      "epoch": 0.7065479056331248,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019376569370835648,
      "loss": 0.6014,
      "step": 2935
    },
    {
      "epoch": 0.7077515647568609,
      "grad_norm": 1.125,
      "learning_rate": 0.00019372762913755624,
      "loss": 0.5822,
      "step": 2940
    },
    {
      "epoch": 0.7089552238805971,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019368950573430148,
      "loss": 0.634,
      "step": 2945
    },
    {
      "epoch": 0.7101588830043332,
      "grad_norm": 1.3125,
      "learning_rate": 0.0001936513235328067,
      "loss": 0.6208,
      "step": 2950
    },
    {
      "epoch": 0.7113625421280694,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001936130825673391,
      "loss": 0.6068,
      "step": 2955
    },
    {
      "epoch": 0.7125662012518055,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001935747828722187,
      "loss": 0.5787,
      "step": 2960
    },
    {
      "epoch": 0.7137698603755417,
      "grad_norm": 1.125,
      "learning_rate": 0.0001935364244818182,
      "loss": 0.6003,
      "step": 2965
    },
    {
      "epoch": 0.7149735194992778,
      "grad_norm": 1.25,
      "learning_rate": 0.00019349800743056296,
      "loss": 0.6187,
      "step": 2970
    },
    {
      "epoch": 0.716177178623014,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000193459531752931,
      "loss": 0.5991,
      "step": 2975
    },
    {
      "epoch": 0.7173808377467501,
      "grad_norm": 1.25,
      "learning_rate": 0.000193420997483453,
      "loss": 0.6105,
      "step": 2980
    },
    {
      "epoch": 0.7185844968704863,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019338240465671208,
      "loss": 0.6234,
      "step": 2985
    },
    {
      "epoch": 0.7197881559942224,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019334375330734408,
      "loss": 0.6185,
      "step": 2990
    },
    {
      "epoch": 0.7209918151179586,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019330504347003726,
      "loss": 0.6016,
      "step": 2995
    },
    {
      "epoch": 0.7221954742416947,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019326627517953247,
      "loss": 0.5947,
      "step": 3000
    },
    {
      "epoch": 0.7221954742416947,
      "eval_loss": 0.5148986577987671,
      "eval_runtime": 2.3459,
      "eval_samples_per_second": 85.255,
      "eval_steps_per_second": 85.255,
      "step": 3000
    },
    {
      "epoch": 0.7233991333654309,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019322744847062291,
      "loss": 0.639,
      "step": 3005
    },
    {
      "epoch": 0.724602792489167,
      "grad_norm": 2.515625,
      "learning_rate": 0.00019318856337815425,
      "loss": 0.6763,
      "step": 3010
    },
    {
      "epoch": 0.7258064516129032,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019314961993702456,
      "loss": 0.6059,
      "step": 3015
    },
    {
      "epoch": 0.7270101107366393,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019311061818218432,
      "loss": 0.5965,
      "step": 3020
    },
    {
      "epoch": 0.7282137698603756,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001930715581486362,
      "loss": 0.5941,
      "step": 3025
    },
    {
      "epoch": 0.7294174289841117,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00019303243987143538,
      "loss": 0.6248,
      "step": 3030
    },
    {
      "epoch": 0.7306210881078479,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019299326338568915,
      "loss": 0.5996,
      "step": 3035
    },
    {
      "epoch": 0.731824747231584,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019295402872655717,
      "loss": 0.5812,
      "step": 3040
    },
    {
      "epoch": 0.7330284063553202,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001929147359292511,
      "loss": 0.5873,
      "step": 3045
    },
    {
      "epoch": 0.7342320654790563,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019287538502903506,
      "loss": 0.6372,
      "step": 3050
    },
    {
      "epoch": 0.7354357246027925,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00019283597606122504,
      "loss": 0.579,
      "step": 3055
    },
    {
      "epoch": 0.7366393837265286,
      "grad_norm": 1.375,
      "learning_rate": 0.00019279650906118938,
      "loss": 0.6259,
      "step": 3060
    },
    {
      "epoch": 0.7378430428502648,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001927569840643483,
      "loss": 0.6138,
      "step": 3065
    },
    {
      "epoch": 0.7390467019740009,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019271740110617425,
      "loss": 0.6437,
      "step": 3070
    },
    {
      "epoch": 0.7402503610977371,
      "grad_norm": 1.125,
      "learning_rate": 0.00019267776022219155,
      "loss": 0.6368,
      "step": 3075
    },
    {
      "epoch": 0.7414540202214733,
      "grad_norm": 1.140625,
      "learning_rate": 0.00019263806144797656,
      "loss": 0.6152,
      "step": 3080
    },
    {
      "epoch": 0.7426576793452094,
      "grad_norm": 1.25,
      "learning_rate": 0.00019259830481915767,
      "loss": 0.5404,
      "step": 3085
    },
    {
      "epoch": 0.7438613384689456,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019255849037141506,
      "loss": 0.6364,
      "step": 3090
    },
    {
      "epoch": 0.7450649975926817,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019251861814048092,
      "loss": 0.5972,
      "step": 3095
    },
    {
      "epoch": 0.746268656716418,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019247868816213917,
      "loss": 0.6147,
      "step": 3100
    },
    {
      "epoch": 0.7474723158401541,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019243870047222568,
      "loss": 0.6057,
      "step": 3105
    },
    {
      "epoch": 0.7486759749638903,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019239865510662808,
      "loss": 0.5704,
      "step": 3110
    },
    {
      "epoch": 0.7498796340876264,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00019235855210128573,
      "loss": 0.6119,
      "step": 3115
    },
    {
      "epoch": 0.7510832932113626,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019231839149218977,
      "loss": 0.5928,
      "step": 3120
    },
    {
      "epoch": 0.7522869523350987,
      "grad_norm": 1.234375,
      "learning_rate": 0.00019227817331538292,
      "loss": 0.6013,
      "step": 3125
    },
    {
      "epoch": 0.7534906114588349,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001922378976069597,
      "loss": 0.6183,
      "step": 3130
    },
    {
      "epoch": 0.754694270582571,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019219756440306624,
      "loss": 0.5788,
      "step": 3135
    },
    {
      "epoch": 0.7558979297063072,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019215717373990022,
      "loss": 0.6394,
      "step": 3140
    },
    {
      "epoch": 0.7571015888300433,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019211672565371088,
      "loss": 0.5905,
      "step": 3145
    },
    {
      "epoch": 0.7583052479537795,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019207622018079906,
      "loss": 0.615,
      "step": 3150
    },
    {
      "epoch": 0.7595089070775156,
      "grad_norm": 1.203125,
      "learning_rate": 0.00019203565735751704,
      "loss": 0.5802,
      "step": 3155
    },
    {
      "epoch": 0.7607125662012518,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019199503722026862,
      "loss": 0.6187,
      "step": 3160
    },
    {
      "epoch": 0.7619162253249879,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019195435980550902,
      "loss": 0.6073,
      "step": 3165
    },
    {
      "epoch": 0.7631198844487241,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019191362514974487,
      "loss": 0.5869,
      "step": 3170
    },
    {
      "epoch": 0.7643235435724602,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019187283328953413,
      "loss": 0.6094,
      "step": 3175
    },
    {
      "epoch": 0.7655272026961965,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019183198426148614,
      "loss": 0.5951,
      "step": 3180
    },
    {
      "epoch": 0.7667308618199326,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019179107810226155,
      "loss": 0.6064,
      "step": 3185
    },
    {
      "epoch": 0.7679345209436688,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019175011484857222,
      "loss": 0.6124,
      "step": 3190
    },
    {
      "epoch": 0.7691381800674049,
      "grad_norm": 1.15625,
      "learning_rate": 0.00019170909453718142,
      "loss": 0.6183,
      "step": 3195
    },
    {
      "epoch": 0.7703418391911411,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019166801720490336,
      "loss": 0.6389,
      "step": 3200
    },
    {
      "epoch": 0.7715454983148772,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019162688288860367,
      "loss": 0.5935,
      "step": 3205
    },
    {
      "epoch": 0.7727491574386134,
      "grad_norm": 1.21875,
      "learning_rate": 0.00019158569162519904,
      "loss": 0.6266,
      "step": 3210
    },
    {
      "epoch": 0.7739528165623495,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019154444345165716,
      "loss": 0.6139,
      "step": 3215
    },
    {
      "epoch": 0.7751564756860857,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019150313840499695,
      "loss": 0.5838,
      "step": 3220
    },
    {
      "epoch": 0.7763601348098219,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001914617765222883,
      "loss": 0.6252,
      "step": 3225
    },
    {
      "epoch": 0.777563793933558,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001914203578406521,
      "loss": 0.6568,
      "step": 3230
    },
    {
      "epoch": 0.7787674530572942,
      "grad_norm": 1.3125,
      "learning_rate": 0.00019137888239726024,
      "loss": 0.6226,
      "step": 3235
    },
    {
      "epoch": 0.7799711121810303,
      "grad_norm": 1.203125,
      "learning_rate": 0.00019133735022933558,
      "loss": 0.5844,
      "step": 3240
    },
    {
      "epoch": 0.7811747713047665,
      "grad_norm": 1.34375,
      "learning_rate": 0.0001912957613741518,
      "loss": 0.5578,
      "step": 3245
    },
    {
      "epoch": 0.7823784304285026,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019125411586903355,
      "loss": 0.6047,
      "step": 3250
    },
    {
      "epoch": 0.7835820895522388,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019121241375135624,
      "loss": 0.5762,
      "step": 3255
    },
    {
      "epoch": 0.784785748675975,
      "grad_norm": 1.203125,
      "learning_rate": 0.00019117065505854614,
      "loss": 0.6227,
      "step": 3260
    },
    {
      "epoch": 0.7859894077997112,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019112883982808036,
      "loss": 0.5868,
      "step": 3265
    },
    {
      "epoch": 0.7871930669234473,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00019108696809748651,
      "loss": 0.5681,
      "step": 3270
    },
    {
      "epoch": 0.7883967260471835,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001910450399043432,
      "loss": 0.6221,
      "step": 3275
    },
    {
      "epoch": 0.7896003851709196,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019100305528627952,
      "loss": 0.5701,
      "step": 3280
    },
    {
      "epoch": 0.7908040442946558,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001909610142809753,
      "loss": 0.6213,
      "step": 3285
    },
    {
      "epoch": 0.7920077034183919,
      "grad_norm": 1.21875,
      "learning_rate": 0.0001909189169261609,
      "loss": 0.5885,
      "step": 3290
    },
    {
      "epoch": 0.7932113625421281,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001908767632596173,
      "loss": 0.6039,
      "step": 3295
    },
    {
      "epoch": 0.7944150216658642,
      "grad_norm": 1.25,
      "learning_rate": 0.00019083455331917604,
      "loss": 0.6027,
      "step": 3300
    },
    {
      "epoch": 0.7956186807896004,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019079228714271907,
      "loss": 0.601,
      "step": 3305
    },
    {
      "epoch": 0.7968223399133365,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019074996476817893,
      "loss": 0.5832,
      "step": 3310
    },
    {
      "epoch": 0.7980259990370727,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001907075862335385,
      "loss": 0.604,
      "step": 3315
    },
    {
      "epoch": 0.7992296581608088,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019066515157683113,
      "loss": 0.6115,
      "step": 3320
    },
    {
      "epoch": 0.800433317284545,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019062266083614044,
      "loss": 0.6115,
      "step": 3325
    },
    {
      "epoch": 0.8016369764082811,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019058011404960053,
      "loss": 0.5968,
      "step": 3330
    },
    {
      "epoch": 0.8028406355320173,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0001905375112553957,
      "loss": 0.5939,
      "step": 3335
    },
    {
      "epoch": 0.8040442946557534,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00019049485249176046,
      "loss": 0.6154,
      "step": 3340
    },
    {
      "epoch": 0.8052479537794897,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019045213779697972,
      "loss": 0.6037,
      "step": 3345
    },
    {
      "epoch": 0.8064516129032258,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019040936720938844,
      "loss": 0.5619,
      "step": 3350
    },
    {
      "epoch": 0.807655272026962,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019036654076737183,
      "loss": 0.5984,
      "step": 3355
    },
    {
      "epoch": 0.8088589311506981,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019032365850936512,
      "loss": 0.5342,
      "step": 3360
    },
    {
      "epoch": 0.8100625902744343,
      "grad_norm": 1.34375,
      "learning_rate": 0.0001902807204738538,
      "loss": 0.5779,
      "step": 3365
    },
    {
      "epoch": 0.8112662493981705,
      "grad_norm": 1.203125,
      "learning_rate": 0.00019023772669937326,
      "loss": 0.594,
      "step": 3370
    },
    {
      "epoch": 0.8124699085219066,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019019467722450895,
      "loss": 0.599,
      "step": 3375
    },
    {
      "epoch": 0.8136735676456428,
      "grad_norm": 2.359375,
      "learning_rate": 0.0001901515720878964,
      "loss": 0.6092,
      "step": 3380
    },
    {
      "epoch": 0.8148772267693789,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000190108411328221,
      "loss": 0.5535,
      "step": 3385
    },
    {
      "epoch": 0.8160808858931151,
      "grad_norm": 1.390625,
      "learning_rate": 0.00019006519498421812,
      "loss": 0.6414,
      "step": 3390
    },
    {
      "epoch": 0.8172845450168512,
      "grad_norm": 1.25,
      "learning_rate": 0.0001900219230946729,
      "loss": 0.599,
      "step": 3395
    },
    {
      "epoch": 0.8184882041405874,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018997859569842046,
      "loss": 0.5924,
      "step": 3400
    },
    {
      "epoch": 0.8196918632643235,
      "grad_norm": 1.421875,
      "learning_rate": 0.00018993521283434573,
      "loss": 0.6377,
      "step": 3405
    },
    {
      "epoch": 0.8208955223880597,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018989177454138337,
      "loss": 0.5973,
      "step": 3410
    },
    {
      "epoch": 0.8220991815117958,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00018984828085851776,
      "loss": 0.603,
      "step": 3415
    },
    {
      "epoch": 0.823302840635532,
      "grad_norm": 1.296875,
      "learning_rate": 0.00018980473182478303,
      "loss": 0.5744,
      "step": 3420
    },
    {
      "epoch": 0.8245064997592682,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000189761127479263,
      "loss": 0.6272,
      "step": 3425
    },
    {
      "epoch": 0.8257101588830044,
      "grad_norm": 1.21875,
      "learning_rate": 0.00018971746786109107,
      "loss": 0.6359,
      "step": 3430
    },
    {
      "epoch": 0.8269138180067405,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018967375300945038,
      "loss": 0.5578,
      "step": 3435
    },
    {
      "epoch": 0.8281174771304767,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001896299829635735,
      "loss": 0.563,
      "step": 3440
    },
    {
      "epoch": 0.8293211362542128,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001895861577627425,
      "loss": 0.5758,
      "step": 3445
    },
    {
      "epoch": 0.830524795377949,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018954227744628918,
      "loss": 0.5843,
      "step": 3450
    },
    {
      "epoch": 0.8317284545016851,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018949834205359454,
      "loss": 0.6058,
      "step": 3455
    },
    {
      "epoch": 0.8329321136254213,
      "grad_norm": 1.28125,
      "learning_rate": 0.0001894543516240892,
      "loss": 0.6144,
      "step": 3460
    },
    {
      "epoch": 0.8341357727491574,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018941030619725306,
      "loss": 0.5773,
      "step": 3465
    },
    {
      "epoch": 0.8353394318728936,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018936620581261543,
      "loss": 0.5878,
      "step": 3470
    },
    {
      "epoch": 0.8365430909966297,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018932205050975495,
      "loss": 0.5736,
      "step": 3475
    },
    {
      "epoch": 0.8377467501203659,
      "grad_norm": 1.265625,
      "learning_rate": 0.0001892778403282995,
      "loss": 0.5935,
      "step": 3480
    },
    {
      "epoch": 0.838950409244102,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0001892335753079262,
      "loss": 0.6066,
      "step": 3485
    },
    {
      "epoch": 0.8401540683678382,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018918925548836154,
      "loss": 0.5443,
      "step": 3490
    },
    {
      "epoch": 0.8413577274915743,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000189144880909381,
      "loss": 0.6198,
      "step": 3495
    },
    {
      "epoch": 0.8425613866153105,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001891004516108093,
      "loss": 0.6282,
      "step": 3500
    },
    {
      "epoch": 0.8425613866153105,
      "eval_loss": 0.4995540380477905,
      "eval_runtime": 2.3523,
      "eval_samples_per_second": 85.024,
      "eval_steps_per_second": 85.024,
      "step": 3500
    },
    {
      "epoch": 0.8437650457390466,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018905596763252024,
      "loss": 0.6045,
      "step": 3505
    },
    {
      "epoch": 0.8449687048627829,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001890114290144367,
      "loss": 0.5966,
      "step": 3510
    },
    {
      "epoch": 0.8461723639865191,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001889668357965306,
      "loss": 0.5985,
      "step": 3515
    },
    {
      "epoch": 0.8473760231102552,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001889221880188229,
      "loss": 0.5791,
      "step": 3520
    },
    {
      "epoch": 0.8485796822339914,
      "grad_norm": 1.234375,
      "learning_rate": 0.00018887748572138347,
      "loss": 0.606,
      "step": 3525
    },
    {
      "epoch": 0.8497833413577275,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00018883272894433108,
      "loss": 0.5975,
      "step": 3530
    },
    {
      "epoch": 0.8509870004814637,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001887879177278335,
      "loss": 0.6532,
      "step": 3535
    },
    {
      "epoch": 0.8521906596051998,
      "grad_norm": 1.125,
      "learning_rate": 0.00018874305211210728,
      "loss": 0.6029,
      "step": 3540
    },
    {
      "epoch": 0.853394318728936,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001886981321374178,
      "loss": 0.593,
      "step": 3545
    },
    {
      "epoch": 0.8545979778526721,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018865315784407925,
      "loss": 0.5687,
      "step": 3550
    },
    {
      "epoch": 0.8558016369764083,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018860812927245458,
      "loss": 0.6154,
      "step": 3555
    },
    {
      "epoch": 0.8570052961001444,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018856304646295533,
      "loss": 0.5943,
      "step": 3560
    },
    {
      "epoch": 0.8582089552238806,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001885179094560419,
      "loss": 0.6202,
      "step": 3565
    },
    {
      "epoch": 0.8594126143476167,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001884727182922233,
      "loss": 0.5927,
      "step": 3570
    },
    {
      "epoch": 0.8606162734713529,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018842747301205695,
      "loss": 0.6032,
      "step": 3575
    },
    {
      "epoch": 0.861819932595089,
      "grad_norm": 1.265625,
      "learning_rate": 0.00018838217365614907,
      "loss": 0.5836,
      "step": 3580
    },
    {
      "epoch": 0.8630235917188253,
      "grad_norm": 1.078125,
      "learning_rate": 0.00018833682026515427,
      "loss": 0.5684,
      "step": 3585
    },
    {
      "epoch": 0.8642272508425614,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018829141287977574,
      "loss": 0.5857,
      "step": 3590
    },
    {
      "epoch": 0.8654309099662976,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001882459515407651,
      "loss": 0.6066,
      "step": 3595
    },
    {
      "epoch": 0.8666345690900337,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001882004362889223,
      "loss": 0.5835,
      "step": 3600
    },
    {
      "epoch": 0.8678382282137699,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018815486716509586,
      "loss": 0.5878,
      "step": 3605
    },
    {
      "epoch": 0.869041887337506,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00018810924421018246,
      "loss": 0.573,
      "step": 3610
    },
    {
      "epoch": 0.8702455464612422,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018806356746512725,
      "loss": 0.6186,
      "step": 3615
    },
    {
      "epoch": 0.8714492055849783,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018801783697092354,
      "loss": 0.5795,
      "step": 3620
    },
    {
      "epoch": 0.8726528647087145,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018797205276861292,
      "loss": 0.602,
      "step": 3625
    },
    {
      "epoch": 0.8738565238324506,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018792621489928518,
      "loss": 0.6181,
      "step": 3630
    },
    {
      "epoch": 0.8750601829561868,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0001878803234040783,
      "loss": 0.5741,
      "step": 3635
    },
    {
      "epoch": 0.8762638420799229,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00018783437832417833,
      "loss": 0.6213,
      "step": 3640
    },
    {
      "epoch": 0.8774675012036591,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001877883797008195,
      "loss": 0.5992,
      "step": 3645
    },
    {
      "epoch": 0.8786711603273952,
      "grad_norm": 1.21875,
      "learning_rate": 0.00018774232757528398,
      "loss": 0.5908,
      "step": 3650
    },
    {
      "epoch": 0.8798748194511314,
      "grad_norm": 1.125,
      "learning_rate": 0.00018769622198890203,
      "loss": 0.5768,
      "step": 3655
    },
    {
      "epoch": 0.8810784785748677,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001876500629830519,
      "loss": 0.5549,
      "step": 3660
    },
    {
      "epoch": 0.8822821376986038,
      "grad_norm": 1.296875,
      "learning_rate": 0.00018760385059915968,
      "loss": 0.5473,
      "step": 3665
    },
    {
      "epoch": 0.88348579682234,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018755758487869952,
      "loss": 0.6139,
      "step": 3670
    },
    {
      "epoch": 0.8846894559460761,
      "grad_norm": 1.265625,
      "learning_rate": 0.0001875112658631933,
      "loss": 0.5976,
      "step": 3675
    },
    {
      "epoch": 0.8858931150698123,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00018746489359421084,
      "loss": 0.6029,
      "step": 3680
    },
    {
      "epoch": 0.8870967741935484,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001874184681133697,
      "loss": 0.5581,
      "step": 3685
    },
    {
      "epoch": 0.8883004333172846,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018737198946233512,
      "loss": 0.5848,
      "step": 3690
    },
    {
      "epoch": 0.8895040924410207,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00018732545768282026,
      "loss": 0.5881,
      "step": 3695
    },
    {
      "epoch": 0.8907077515647569,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018727887281658572,
      "loss": 0.608,
      "step": 3700
    },
    {
      "epoch": 0.891911410688493,
      "grad_norm": 1.109375,
      "learning_rate": 0.00018723223490543992,
      "loss": 0.5593,
      "step": 3705
    },
    {
      "epoch": 0.8931150698122292,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001871855439912388,
      "loss": 0.5866,
      "step": 3710
    },
    {
      "epoch": 0.8943187289359653,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018713880011588592,
      "loss": 0.5867,
      "step": 3715
    },
    {
      "epoch": 0.8955223880597015,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00018709200332133234,
      "loss": 0.5776,
      "step": 3720
    },
    {
      "epoch": 0.8967260471834376,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001870451536495766,
      "loss": 0.5885,
      "step": 3725
    },
    {
      "epoch": 0.8979297063071738,
      "grad_norm": 1.046875,
      "learning_rate": 0.00018699825114266473,
      "loss": 0.5994,
      "step": 3730
    },
    {
      "epoch": 0.8991333654309099,
      "grad_norm": 1.125,
      "learning_rate": 0.00018695129584269017,
      "loss": 0.5474,
      "step": 3735
    },
    {
      "epoch": 0.9003370245546461,
      "grad_norm": 1.046875,
      "learning_rate": 0.00018690428779179373,
      "loss": 0.5751,
      "step": 3740
    },
    {
      "epoch": 0.9015406836783822,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018685722703216354,
      "loss": 0.5515,
      "step": 3745
    },
    {
      "epoch": 0.9027443428021185,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018681011360603507,
      "loss": 0.5795,
      "step": 3750
    },
    {
      "epoch": 0.9039480019258546,
      "grad_norm": 1.078125,
      "learning_rate": 0.00018676294755569107,
      "loss": 0.593,
      "step": 3755
    },
    {
      "epoch": 0.9051516610495908,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018671572892346144,
      "loss": 0.5936,
      "step": 3760
    },
    {
      "epoch": 0.9063553201733269,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001866684577517234,
      "loss": 0.6217,
      "step": 3765
    },
    {
      "epoch": 0.9075589792970631,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00018662113408290118,
      "loss": 0.5803,
      "step": 3770
    },
    {
      "epoch": 0.9087626384207992,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018657375795946623,
      "loss": 0.5893,
      "step": 3775
    },
    {
      "epoch": 0.9099662975445354,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000186526329423937,
      "loss": 0.5926,
      "step": 3780
    },
    {
      "epoch": 0.9111699566682715,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001864788485188791,
      "loss": 0.5846,
      "step": 3785
    },
    {
      "epoch": 0.9123736157920077,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018643131528690493,
      "loss": 0.5814,
      "step": 3790
    },
    {
      "epoch": 0.9135772749157438,
      "grad_norm": 1.171875,
      "learning_rate": 0.00018638372977067407,
      "loss": 0.5633,
      "step": 3795
    },
    {
      "epoch": 0.91478093403948,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018633609201289286,
      "loss": 0.6015,
      "step": 3800
    },
    {
      "epoch": 0.9159845931632162,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0001862884020563147,
      "loss": 0.587,
      "step": 3805
    },
    {
      "epoch": 0.9171882522869523,
      "grad_norm": 1.28125,
      "learning_rate": 0.00018624065994373964,
      "loss": 0.614,
      "step": 3810
    },
    {
      "epoch": 0.9183919114106885,
      "grad_norm": 1.09375,
      "learning_rate": 0.00018619286571801465,
      "loss": 0.5697,
      "step": 3815
    },
    {
      "epoch": 0.9195955705344246,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00018614501942203348,
      "loss": 0.6092,
      "step": 3820
    },
    {
      "epoch": 0.9207992296581609,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018609712109873654,
      "loss": 0.5751,
      "step": 3825
    },
    {
      "epoch": 0.922002888781897,
      "grad_norm": 1.28125,
      "learning_rate": 0.000186049170791111,
      "loss": 0.593,
      "step": 3830
    },
    {
      "epoch": 0.9232065479056332,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018600116854219066,
      "loss": 0.6005,
      "step": 3835
    },
    {
      "epoch": 0.9244102070293693,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018595311439505594,
      "loss": 0.5475,
      "step": 3840
    },
    {
      "epoch": 0.9256138661531055,
      "grad_norm": 1.21875,
      "learning_rate": 0.00018590500839283378,
      "loss": 0.5714,
      "step": 3845
    },
    {
      "epoch": 0.9268175252768416,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018585685057869776,
      "loss": 0.5859,
      "step": 3850
    },
    {
      "epoch": 0.9280211844005778,
      "grad_norm": 1.234375,
      "learning_rate": 0.00018580864099586794,
      "loss": 0.6297,
      "step": 3855
    },
    {
      "epoch": 0.9292248435243139,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001857603796876107,
      "loss": 0.5792,
      "step": 3860
    },
    {
      "epoch": 0.9304285026480501,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018571206669723903,
      "loss": 0.5965,
      "step": 3865
    },
    {
      "epoch": 0.9316321617717862,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001856637020681122,
      "loss": 0.6071,
      "step": 3870
    },
    {
      "epoch": 0.9328358208955224,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001856152858436359,
      "loss": 0.5739,
      "step": 3875
    },
    {
      "epoch": 0.9340394800192585,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000185566818067262,
      "loss": 0.5897,
      "step": 3880
    },
    {
      "epoch": 0.9352431391429947,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018551829878248876,
      "loss": 0.5476,
      "step": 3885
    },
    {
      "epoch": 0.9364467982667308,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001854697280328606,
      "loss": 0.5725,
      "step": 3890
    },
    {
      "epoch": 0.937650457390467,
      "grad_norm": 1.171875,
      "learning_rate": 0.00018542110586196816,
      "loss": 0.5668,
      "step": 3895
    },
    {
      "epoch": 0.9388541165142031,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018537243231344814,
      "loss": 0.5941,
      "step": 3900
    },
    {
      "epoch": 0.9400577756379394,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001853237074309835,
      "loss": 0.5715,
      "step": 3905
    },
    {
      "epoch": 0.9412614347616755,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018527493125830317,
      "loss": 0.6027,
      "step": 3910
    },
    {
      "epoch": 0.9424650938854117,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018522610383918213,
      "loss": 0.5993,
      "step": 3915
    },
    {
      "epoch": 0.9436687530091478,
      "grad_norm": 1.125,
      "learning_rate": 0.00018517722521744134,
      "loss": 0.6044,
      "step": 3920
    },
    {
      "epoch": 0.944872412132884,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001851282954369478,
      "loss": 0.5557,
      "step": 3925
    },
    {
      "epoch": 0.9460760712566201,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00018507931454161427,
      "loss": 0.5728,
      "step": 3930
    },
    {
      "epoch": 0.9472797303803563,
      "grad_norm": 1.125,
      "learning_rate": 0.0001850302825753995,
      "loss": 0.5711,
      "step": 3935
    },
    {
      "epoch": 0.9484833895040924,
      "grad_norm": 1.0625,
      "learning_rate": 0.00018498119958230806,
      "loss": 0.5567,
      "step": 3940
    },
    {
      "epoch": 0.9496870486278286,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00018493206560639026,
      "loss": 0.5543,
      "step": 3945
    },
    {
      "epoch": 0.9508907077515648,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018488288069174223,
      "loss": 0.5571,
      "step": 3950
    },
    {
      "epoch": 0.9520943668753009,
      "grad_norm": 1.078125,
      "learning_rate": 0.00018483364488250576,
      "loss": 0.5442,
      "step": 3955
    },
    {
      "epoch": 0.9532980259990371,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018478435822286837,
      "loss": 0.5445,
      "step": 3960
    },
    {
      "epoch": 0.9545016851227732,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001847350207570632,
      "loss": 0.5922,
      "step": 3965
    },
    {
      "epoch": 0.9557053442465094,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018468563252936891,
      "loss": 0.5655,
      "step": 3970
    },
    {
      "epoch": 0.9569090033702455,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018463619358410985,
      "loss": 0.5717,
      "step": 3975
    },
    {
      "epoch": 0.9581126624939817,
      "grad_norm": 1.234375,
      "learning_rate": 0.00018458670396565574,
      "loss": 0.587,
      "step": 3980
    },
    {
      "epoch": 0.9593163216177178,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00018453716371842204,
      "loss": 0.6037,
      "step": 3985
    },
    {
      "epoch": 0.9605199807414541,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018448757288686923,
      "loss": 0.5477,
      "step": 3990
    },
    {
      "epoch": 0.9617236398651902,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001844379315155036,
      "loss": 0.5953,
      "step": 3995
    },
    {
      "epoch": 0.9629272989889264,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001843882396488765,
      "loss": 0.5538,
      "step": 4000
    },
    {
      "epoch": 0.9629272989889264,
      "eval_loss": 0.4796777665615082,
      "eval_runtime": 2.3459,
      "eval_samples_per_second": 85.254,
      "eval_steps_per_second": 85.254,
      "step": 4000
    },
    {
      "epoch": 0.9641309581126625,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001843384973315848,
      "loss": 0.6233,
      "step": 4005
    },
    {
      "epoch": 0.9653346172363987,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018428870460827058,
      "loss": 0.5766,
      "step": 4010
    },
    {
      "epoch": 0.9665382763601348,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001842388615236211,
      "loss": 0.576,
      "step": 4015
    },
    {
      "epoch": 0.967741935483871,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00018418896812236884,
      "loss": 0.5802,
      "step": 4020
    },
    {
      "epoch": 0.9689455946076071,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00018413902444929152,
      "loss": 0.559,
      "step": 4025
    },
    {
      "epoch": 0.9701492537313433,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018408903054921186,
      "loss": 0.5764,
      "step": 4030
    },
    {
      "epoch": 0.9713529128550794,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018403898646699777,
      "loss": 0.5801,
      "step": 4035
    },
    {
      "epoch": 0.9725565719788156,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001839888922475621,
      "loss": 0.5761,
      "step": 4040
    },
    {
      "epoch": 0.9737602311025517,
      "grad_norm": 1.125,
      "learning_rate": 0.00018393874793586277,
      "loss": 0.5683,
      "step": 4045
    },
    {
      "epoch": 0.9749638902262879,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00018388855357690258,
      "loss": 0.5907,
      "step": 4050
    },
    {
      "epoch": 0.976167549350024,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00018383830921572933,
      "loss": 0.5633,
      "step": 4055
    },
    {
      "epoch": 0.9773712084737602,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001837880148974356,
      "loss": 0.5708,
      "step": 4060
    },
    {
      "epoch": 0.9785748675974963,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018373767066715897,
      "loss": 0.5555,
      "step": 4065
    },
    {
      "epoch": 0.9797785267212326,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001836872765700816,
      "loss": 0.5653,
      "step": 4070
    },
    {
      "epoch": 0.9809821858449687,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0001836368326514305,
      "loss": 0.6252,
      "step": 4075
    },
    {
      "epoch": 0.9821858449687049,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001835863389564775,
      "loss": 0.5915,
      "step": 4080
    },
    {
      "epoch": 0.983389504092441,
      "grad_norm": 1.03125,
      "learning_rate": 0.00018353579553053893,
      "loss": 0.5691,
      "step": 4085
    },
    {
      "epoch": 0.9845931632161772,
      "grad_norm": 1.0625,
      "learning_rate": 0.00018348520241897584,
      "loss": 0.5827,
      "step": 4090
    },
    {
      "epoch": 0.9857968223399133,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00018343455966719383,
      "loss": 0.571,
      "step": 4095
    },
    {
      "epoch": 0.9870004814636495,
      "grad_norm": 1.28125,
      "learning_rate": 0.00018338386732064316,
      "loss": 0.5897,
      "step": 4100
    },
    {
      "epoch": 0.9882041405873857,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018333312542481841,
      "loss": 0.5796,
      "step": 4105
    },
    {
      "epoch": 0.9894077997111218,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001832823340252588,
      "loss": 0.572,
      "step": 4110
    },
    {
      "epoch": 0.990611458834858,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001832314931675479,
      "loss": 0.5665,
      "step": 4115
    },
    {
      "epoch": 0.9918151179585941,
      "grad_norm": 1.171875,
      "learning_rate": 0.00018318060289731372,
      "loss": 0.5833,
      "step": 4120
    },
    {
      "epoch": 0.9930187770823303,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001831296632602285,
      "loss": 0.5675,
      "step": 4125
    },
    {
      "epoch": 0.9942224362060664,
      "grad_norm": 1.078125,
      "learning_rate": 0.00018307867430200888,
      "loss": 0.5603,
      "step": 4130
    },
    {
      "epoch": 0.9954260953298026,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00018302763606841576,
      "loss": 0.57,
      "step": 4135
    },
    {
      "epoch": 0.9966297544535387,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00018297654860525433,
      "loss": 0.5507,
      "step": 4140
    },
    {
      "epoch": 0.997833413577275,
      "grad_norm": 1.28125,
      "learning_rate": 0.00018292541195837373,
      "loss": 0.5902,
      "step": 4145
    },
    {
      "epoch": 0.999037072701011,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001828742261736675,
      "loss": 0.5725,
      "step": 4150
    },
    {
      "epoch": 0.9997592681752527,
      "eval_loss": 0.4810214340686798,
      "eval_runtime": 2.3633,
      "eval_samples_per_second": 84.626,
      "eval_steps_per_second": 84.626,
      "step": 4153
    },
    {
      "epoch": 1.0002407318247473,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001828229912970731,
      "loss": 0.5843,
      "step": 4155
    },
    {
      "epoch": 1.0014443909484834,
      "grad_norm": 1.046875,
      "learning_rate": 0.00018277170737457217,
      "loss": 0.5257,
      "step": 4160
    },
    {
      "epoch": 1.0026480500722195,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00018272037445219032,
      "loss": 0.5127,
      "step": 4165
    },
    {
      "epoch": 1.0038517091959558,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001826689925759971,
      "loss": 0.5202,
      "step": 4170
    },
    {
      "epoch": 1.0050553683196919,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00018261756179210604,
      "loss": 0.5105,
      "step": 4175
    },
    {
      "epoch": 1.006259027443428,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018256608214667455,
      "loss": 0.5246,
      "step": 4180
    },
    {
      "epoch": 1.007462686567164,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018251455368590387,
      "loss": 0.5564,
      "step": 4185
    },
    {
      "epoch": 1.0086663456909004,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018246297645603912,
      "loss": 0.515,
      "step": 4190
    },
    {
      "epoch": 1.0098700048146365,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001824113505033691,
      "loss": 0.5367,
      "step": 4195
    },
    {
      "epoch": 1.0110736639383726,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001823596758742264,
      "loss": 0.5418,
      "step": 4200
    },
    {
      "epoch": 1.0122773230621087,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00018230795261498723,
      "loss": 0.5572,
      "step": 4205
    },
    {
      "epoch": 1.013480982185845,
      "grad_norm": 0.984375,
      "learning_rate": 0.00018225618077207157,
      "loss": 0.5422,
      "step": 4210
    },
    {
      "epoch": 1.0146846413095811,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018220436039194284,
      "loss": 0.501,
      "step": 4215
    },
    {
      "epoch": 1.0158883004333172,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00018215249152110812,
      "loss": 0.53,
      "step": 4220
    },
    {
      "epoch": 1.0170919595570533,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018210057420611796,
      "loss": 0.5213,
      "step": 4225
    },
    {
      "epoch": 1.0182956186807897,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0001820486084935665,
      "loss": 0.5377,
      "step": 4230
    },
    {
      "epoch": 1.0194992778045258,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00018199659443009117,
      "loss": 0.5225,
      "step": 4235
    },
    {
      "epoch": 1.0207029369282619,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018194453206237283,
      "loss": 0.5309,
      "step": 4240
    },
    {
      "epoch": 1.021906596051998,
      "grad_norm": 1.046875,
      "learning_rate": 0.00018189242143713577,
      "loss": 0.5499,
      "step": 4245
    },
    {
      "epoch": 1.0231102551757343,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001818402626011475,
      "loss": 0.5268,
      "step": 4250
    },
    {
      "epoch": 1.0243139142994704,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00018178805560121883,
      "loss": 0.5468,
      "step": 4255
    },
    {
      "epoch": 1.0255175734232065,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018173580048420386,
      "loss": 0.5463,
      "step": 4260
    },
    {
      "epoch": 1.0267212325469428,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018168349729699972,
      "loss": 0.5491,
      "step": 4265
    },
    {
      "epoch": 1.027924891670679,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00018163114608654683,
      "loss": 0.5286,
      "step": 4270
    },
    {
      "epoch": 1.029128550794415,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018157874689982864,
      "loss": 0.5454,
      "step": 4275
    },
    {
      "epoch": 1.030332209918151,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001815262997838716,
      "loss": 0.5213,
      "step": 4280
    },
    {
      "epoch": 1.0315358690418874,
      "grad_norm": 1.09375,
      "learning_rate": 0.00018147380478574534,
      "loss": 0.5287,
      "step": 4285
    },
    {
      "epoch": 1.0327395281656235,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001814212619525624,
      "loss": 0.5038,
      "step": 4290
    },
    {
      "epoch": 1.0339431872893596,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00018136867133147807,
      "loss": 0.4808,
      "step": 4295
    },
    {
      "epoch": 1.0351468464130957,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001813160329696908,
      "loss": 0.4892,
      "step": 4300
    },
    {
      "epoch": 1.036350505536832,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00018126334691444167,
      "loss": 0.5366,
      "step": 4305
    },
    {
      "epoch": 1.0375541646605682,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00018121061321301472,
      "loss": 0.5313,
      "step": 4310
    },
    {
      "epoch": 1.0387578237843043,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00018115783191273666,
      "loss": 0.5291,
      "step": 4315
    },
    {
      "epoch": 1.0399614829080404,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000181105003060977,
      "loss": 0.5206,
      "step": 4320
    },
    {
      "epoch": 1.0411651420317767,
      "grad_norm": 1.078125,
      "learning_rate": 0.00018105212670514772,
      "loss": 0.551,
      "step": 4325
    },
    {
      "epoch": 1.0423688011555128,
      "grad_norm": 1.109375,
      "learning_rate": 0.00018099920289270374,
      "loss": 0.5165,
      "step": 4330
    },
    {
      "epoch": 1.0435724602792489,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001809462316711423,
      "loss": 0.5068,
      "step": 4335
    },
    {
      "epoch": 1.044776119402985,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00018089321308800338,
      "loss": 0.5138,
      "step": 4340
    },
    {
      "epoch": 1.0459797785267213,
      "grad_norm": 1.109375,
      "learning_rate": 0.00018084014719086934,
      "loss": 0.5104,
      "step": 4345
    },
    {
      "epoch": 1.0471834376504574,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001807870340273651,
      "loss": 0.5383,
      "step": 4350
    },
    {
      "epoch": 1.0483870967741935,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00018073387364515788,
      "loss": 0.5017,
      "step": 4355
    },
    {
      "epoch": 1.0495907558979296,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0001806806660919574,
      "loss": 0.5055,
      "step": 4360
    },
    {
      "epoch": 1.050794415021666,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018062741141551563,
      "loss": 0.5104,
      "step": 4365
    },
    {
      "epoch": 1.051998074145402,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00018057410966362684,
      "loss": 0.5105,
      "step": 4370
    },
    {
      "epoch": 1.0532017332691381,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00018052076088412766,
      "loss": 0.5216,
      "step": 4375
    },
    {
      "epoch": 1.0544053923928742,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00018046736512489675,
      "loss": 0.4967,
      "step": 4380
    },
    {
      "epoch": 1.0556090515166106,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00018041392243385506,
      "loss": 0.5398,
      "step": 4385
    },
    {
      "epoch": 1.0568127106403467,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00018036043285896556,
      "loss": 0.5494,
      "step": 4390
    },
    {
      "epoch": 1.0580163697640828,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00018030689644823347,
      "loss": 0.5387,
      "step": 4395
    },
    {
      "epoch": 1.059220028887819,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00018025331324970586,
      "loss": 0.5224,
      "step": 4400
    },
    {
      "epoch": 1.0604236880115552,
      "grad_norm": 1.140625,
      "learning_rate": 0.00018019968331147183,
      "loss": 0.5334,
      "step": 4405
    },
    {
      "epoch": 1.0616273471352913,
      "grad_norm": 1.1875,
      "learning_rate": 0.00018014600668166247,
      "loss": 0.5184,
      "step": 4410
    },
    {
      "epoch": 1.0628310062590274,
      "grad_norm": 1.125,
      "learning_rate": 0.0001800922834084508,
      "loss": 0.5243,
      "step": 4415
    },
    {
      "epoch": 1.0640346653827637,
      "grad_norm": 1.15625,
      "learning_rate": 0.00018003851354005164,
      "loss": 0.5315,
      "step": 4420
    },
    {
      "epoch": 1.0652383245064998,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001799846971247217,
      "loss": 0.5417,
      "step": 4425
    },
    {
      "epoch": 1.066441983630236,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001799308342107593,
      "loss": 0.5308,
      "step": 4430
    },
    {
      "epoch": 1.067645642753972,
      "grad_norm": 1.125,
      "learning_rate": 0.0001798769248465047,
      "loss": 0.5634,
      "step": 4435
    },
    {
      "epoch": 1.0688493018777083,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001798229690803397,
      "loss": 0.5227,
      "step": 4440
    },
    {
      "epoch": 1.0700529610014444,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017976896696068783,
      "loss": 0.525,
      "step": 4445
    },
    {
      "epoch": 1.0712566201251805,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001797149185360142,
      "loss": 0.5198,
      "step": 4450
    },
    {
      "epoch": 1.0724602792489166,
      "grad_norm": 1.140625,
      "learning_rate": 0.00017966082385482545,
      "loss": 0.5306,
      "step": 4455
    },
    {
      "epoch": 1.073663938372653,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001796066829656697,
      "loss": 0.5029,
      "step": 4460
    },
    {
      "epoch": 1.074867597496389,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017955249591713668,
      "loss": 0.5171,
      "step": 4465
    },
    {
      "epoch": 1.0760712566201251,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017949826275785735,
      "loss": 0.5279,
      "step": 4470
    },
    {
      "epoch": 1.0772749157438612,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00017944398353650422,
      "loss": 0.5141,
      "step": 4475
    },
    {
      "epoch": 1.0784785748675976,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017938965830179108,
      "loss": 0.4901,
      "step": 4480
    },
    {
      "epoch": 1.0796822339913337,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00017933528710247298,
      "loss": 0.5182,
      "step": 4485
    },
    {
      "epoch": 1.0808858931150698,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017928086998734633,
      "loss": 0.5293,
      "step": 4490
    },
    {
      "epoch": 1.0820895522388059,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017922640700524856,
      "loss": 0.5104,
      "step": 4495
    },
    {
      "epoch": 1.0832932113625422,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00017917189820505848,
      "loss": 0.5316,
      "step": 4500
    },
    {
      "epoch": 1.0832932113625422,
      "eval_loss": 0.4706423878669739,
      "eval_runtime": 2.3716,
      "eval_samples_per_second": 84.331,
      "eval_steps_per_second": 84.331,
      "step": 4500
    },
    {
      "epoch": 1.0844968704862783,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001791173436356958,
      "loss": 0.515,
      "step": 4505
    },
    {
      "epoch": 1.0857005296100144,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00017906274334612157,
      "loss": 0.5566,
      "step": 4510
    },
    {
      "epoch": 1.0869041887337505,
      "grad_norm": 1.125,
      "learning_rate": 0.00017900809738533756,
      "loss": 0.5197,
      "step": 4515
    },
    {
      "epoch": 1.0881078478574868,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017895340580238684,
      "loss": 0.5884,
      "step": 4520
    },
    {
      "epoch": 1.089311506981223,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001788986686463532,
      "loss": 0.5118,
      "step": 4525
    },
    {
      "epoch": 1.090515166104959,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017884388596636145,
      "loss": 0.5278,
      "step": 4530
    },
    {
      "epoch": 1.0917188252286953,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00017878905781157717,
      "loss": 0.5652,
      "step": 4535
    },
    {
      "epoch": 1.0929224843524314,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001787341842312068,
      "loss": 0.5057,
      "step": 4540
    },
    {
      "epoch": 1.0941261434761675,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017867926527449757,
      "loss": 0.5338,
      "step": 4545
    },
    {
      "epoch": 1.0953298025999036,
      "grad_norm": 1.265625,
      "learning_rate": 0.00017862430099073738,
      "loss": 0.5067,
      "step": 4550
    },
    {
      "epoch": 1.09653346172364,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001785692914292549,
      "loss": 0.539,
      "step": 4555
    },
    {
      "epoch": 1.097737120847376,
      "grad_norm": 1.328125,
      "learning_rate": 0.0001785142366394193,
      "loss": 0.5525,
      "step": 4560
    },
    {
      "epoch": 1.0989407799711122,
      "grad_norm": 1.125,
      "learning_rate": 0.00017845913667064044,
      "loss": 0.5261,
      "step": 4565
    },
    {
      "epoch": 1.1001444390948483,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001784039915723687,
      "loss": 0.535,
      "step": 4570
    },
    {
      "epoch": 1.1013480982185846,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000178348801394095,
      "loss": 0.5062,
      "step": 4575
    },
    {
      "epoch": 1.1025517573423207,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001782935661853506,
      "loss": 0.5015,
      "step": 4580
    },
    {
      "epoch": 1.1037554164660568,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001782382859957073,
      "loss": 0.5428,
      "step": 4585
    },
    {
      "epoch": 1.104959075589793,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00017818296087477724,
      "loss": 0.5294,
      "step": 4590
    },
    {
      "epoch": 1.1061627347135292,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017812759087221282,
      "loss": 0.4981,
      "step": 4595
    },
    {
      "epoch": 1.1073663938372653,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00017807217603770686,
      "loss": 0.5253,
      "step": 4600
    },
    {
      "epoch": 1.1085700529610014,
      "grad_norm": 1.125,
      "learning_rate": 0.0001780167164209922,
      "loss": 0.4899,
      "step": 4605
    },
    {
      "epoch": 1.1097737120847375,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017796121207184205,
      "loss": 0.5408,
      "step": 4610
    },
    {
      "epoch": 1.1109773712084738,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001779056630400697,
      "loss": 0.5328,
      "step": 4615
    },
    {
      "epoch": 1.11218103033221,
      "grad_norm": 1.140625,
      "learning_rate": 0.00017785006937552858,
      "loss": 0.5003,
      "step": 4620
    },
    {
      "epoch": 1.113384689455946,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001777944311281121,
      "loss": 0.5436,
      "step": 4625
    },
    {
      "epoch": 1.1145883485796821,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00017773874834775379,
      "loss": 0.5552,
      "step": 4630
    },
    {
      "epoch": 1.1157920077034185,
      "grad_norm": 1.328125,
      "learning_rate": 0.000177683021084427,
      "loss": 0.5394,
      "step": 4635
    },
    {
      "epoch": 1.1169956668271546,
      "grad_norm": 1.140625,
      "learning_rate": 0.00017762724938814514,
      "loss": 0.5216,
      "step": 4640
    },
    {
      "epoch": 1.1181993259508907,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00017757143330896145,
      "loss": 0.5347,
      "step": 4645
    },
    {
      "epoch": 1.1194029850746268,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017751557289696896,
      "loss": 0.5043,
      "step": 4650
    },
    {
      "epoch": 1.120606644198363,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017745966820230055,
      "loss": 0.5087,
      "step": 4655
    },
    {
      "epoch": 1.1218103033220992,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001774037192751288,
      "loss": 0.5139,
      "step": 4660
    },
    {
      "epoch": 1.1230139624458353,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000177347726165666,
      "loss": 0.5439,
      "step": 4665
    },
    {
      "epoch": 1.1242176215695716,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001772916889241641,
      "loss": 0.4872,
      "step": 4670
    },
    {
      "epoch": 1.1254212806933077,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00017723560760091466,
      "loss": 0.5446,
      "step": 4675
    },
    {
      "epoch": 1.1266249398170438,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001771794822462488,
      "loss": 0.5149,
      "step": 4680
    },
    {
      "epoch": 1.12782859894078,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001771233129105371,
      "loss": 0.5115,
      "step": 4685
    },
    {
      "epoch": 1.129032258064516,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017706709964418975,
      "loss": 0.5322,
      "step": 4690
    },
    {
      "epoch": 1.1302359171882523,
      "grad_norm": 1.078125,
      "learning_rate": 0.00017701084249765618,
      "loss": 0.5153,
      "step": 4695
    },
    {
      "epoch": 1.1314395763119884,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017695454152142536,
      "loss": 0.5189,
      "step": 4700
    },
    {
      "epoch": 1.1326432354357245,
      "grad_norm": 1.140625,
      "learning_rate": 0.00017689819676602552,
      "loss": 0.5008,
      "step": 4705
    },
    {
      "epoch": 1.1338468945594609,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001768418082820242,
      "loss": 0.5202,
      "step": 4710
    },
    {
      "epoch": 1.135050553683197,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00017678537612002816,
      "loss": 0.5312,
      "step": 4715
    },
    {
      "epoch": 1.136254212806933,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017672890033068337,
      "loss": 0.5455,
      "step": 4720
    },
    {
      "epoch": 1.1374578719306692,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017667238096467504,
      "loss": 0.526,
      "step": 4725
    },
    {
      "epoch": 1.1386615310544055,
      "grad_norm": 1.265625,
      "learning_rate": 0.00017661581807272732,
      "loss": 0.5238,
      "step": 4730
    },
    {
      "epoch": 1.1398651901781416,
      "grad_norm": 1.0625,
      "learning_rate": 0.00017655921170560356,
      "loss": 0.5419,
      "step": 4735
    },
    {
      "epoch": 1.1410688493018777,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00017650256191410605,
      "loss": 0.504,
      "step": 4740
    },
    {
      "epoch": 1.1422725084256138,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017644586874907613,
      "loss": 0.5404,
      "step": 4745
    },
    {
      "epoch": 1.14347616754935,
      "grad_norm": 1.078125,
      "learning_rate": 0.00017638913226139397,
      "loss": 0.5315,
      "step": 4750
    },
    {
      "epoch": 1.1446798266730862,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017633235250197874,
      "loss": 0.5091,
      "step": 4755
    },
    {
      "epoch": 1.1458834857968223,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017627552952178833,
      "loss": 0.5325,
      "step": 4760
    },
    {
      "epoch": 1.1470871449205584,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017621866337181946,
      "loss": 0.5081,
      "step": 4765
    },
    {
      "epoch": 1.1482908040442947,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001761617541031076,
      "loss": 0.521,
      "step": 4770
    },
    {
      "epoch": 1.1494944631680308,
      "grad_norm": 1.140625,
      "learning_rate": 0.00017610480176672694,
      "loss": 0.499,
      "step": 4775
    },
    {
      "epoch": 1.150698122291767,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001760478064137903,
      "loss": 0.5359,
      "step": 4780
    },
    {
      "epoch": 1.151901781415503,
      "grad_norm": 1.234375,
      "learning_rate": 0.00017599076809544906,
      "loss": 0.5401,
      "step": 4785
    },
    {
      "epoch": 1.1531054405392394,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017593368686289327,
      "loss": 0.5244,
      "step": 4790
    },
    {
      "epoch": 1.1543090996629755,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017587656276735138,
      "loss": 0.5201,
      "step": 4795
    },
    {
      "epoch": 1.1555127587867116,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017581939586009033,
      "loss": 0.5031,
      "step": 4800
    },
    {
      "epoch": 1.1567164179104479,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00017576218619241559,
      "loss": 0.5197,
      "step": 4805
    },
    {
      "epoch": 1.157920077034184,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017570493381567086,
      "loss": 0.5258,
      "step": 4810
    },
    {
      "epoch": 1.15912373615792,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017564763878123827,
      "loss": 0.5382,
      "step": 4815
    },
    {
      "epoch": 1.1603273952816562,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017559030114053817,
      "loss": 0.5308,
      "step": 4820
    },
    {
      "epoch": 1.1615310544053923,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001755329209450292,
      "loss": 0.5421,
      "step": 4825
    },
    {
      "epoch": 1.1627347135291286,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00017547549824620815,
      "loss": 0.4822,
      "step": 4830
    },
    {
      "epoch": 1.1639383726528647,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00017541803309561,
      "loss": 0.5155,
      "step": 4835
    },
    {
      "epoch": 1.1651420317766008,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001753605255448078,
      "loss": 0.5297,
      "step": 4840
    },
    {
      "epoch": 1.1663456909003371,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017530297564541256,
      "loss": 0.5199,
      "step": 4845
    },
    {
      "epoch": 1.1675493500240732,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017524538344907353,
      "loss": 0.5427,
      "step": 4850
    },
    {
      "epoch": 1.1687530091478093,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017518774900747772,
      "loss": 0.4721,
      "step": 4855
    },
    {
      "epoch": 1.1699566682715454,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017513007237235007,
      "loss": 0.5255,
      "step": 4860
    },
    {
      "epoch": 1.1711603273952818,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017507235359545353,
      "loss": 0.5042,
      "step": 4865
    },
    {
      "epoch": 1.1723639865190179,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017501459272858868,
      "loss": 0.5018,
      "step": 4870
    },
    {
      "epoch": 1.173567645642754,
      "grad_norm": 1.109375,
      "learning_rate": 0.00017495678982359404,
      "loss": 0.5463,
      "step": 4875
    },
    {
      "epoch": 1.17477130476649,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001748989449323457,
      "loss": 0.5344,
      "step": 4880
    },
    {
      "epoch": 1.1759749638902264,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00017484105810675762,
      "loss": 0.5347,
      "step": 4885
    },
    {
      "epoch": 1.1771786230139625,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00017478312939878124,
      "loss": 0.5007,
      "step": 4890
    },
    {
      "epoch": 1.1783822821376986,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001747251588604056,
      "loss": 0.5041,
      "step": 4895
    },
    {
      "epoch": 1.1795859412614347,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017466714654365738,
      "loss": 0.49,
      "step": 4900
    },
    {
      "epoch": 1.180789600385171,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001746090925006007,
      "loss": 0.5114,
      "step": 4905
    },
    {
      "epoch": 1.181993259508907,
      "grad_norm": 1.1875,
      "learning_rate": 0.00017455099678333706,
      "loss": 0.5697,
      "step": 4910
    },
    {
      "epoch": 1.1831969186326432,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001744928594440055,
      "loss": 0.4936,
      "step": 4915
    },
    {
      "epoch": 1.1844005777563793,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017443468053478229,
      "loss": 0.5241,
      "step": 4920
    },
    {
      "epoch": 1.1856042368801156,
      "grad_norm": 1.109375,
      "learning_rate": 0.00017437646010788106,
      "loss": 0.51,
      "step": 4925
    },
    {
      "epoch": 1.1868078960038517,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001743181982155527,
      "loss": 0.5403,
      "step": 4930
    },
    {
      "epoch": 1.1880115551275878,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001742598949100853,
      "loss": 0.5321,
      "step": 4935
    },
    {
      "epoch": 1.1892152142513241,
      "grad_norm": 1.03125,
      "learning_rate": 0.00017420155024380416,
      "loss": 0.4952,
      "step": 4940
    },
    {
      "epoch": 1.1904188733750602,
      "grad_norm": 1.109375,
      "learning_rate": 0.00017414316426907166,
      "loss": 0.5318,
      "step": 4945
    },
    {
      "epoch": 1.1916225324987963,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017408473703828725,
      "loss": 0.5119,
      "step": 4950
    },
    {
      "epoch": 1.1928261916225325,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017402626860388743,
      "loss": 0.489,
      "step": 4955
    },
    {
      "epoch": 1.1940298507462686,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017396775901834562,
      "loss": 0.5417,
      "step": 4960
    },
    {
      "epoch": 1.1952335098700049,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00017390920833417227,
      "loss": 0.5087,
      "step": 4965
    },
    {
      "epoch": 1.196437168993741,
      "grad_norm": 1.109375,
      "learning_rate": 0.00017385061660391465,
      "loss": 0.4913,
      "step": 4970
    },
    {
      "epoch": 1.197640828117477,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017379198388015686,
      "loss": 0.522,
      "step": 4975
    },
    {
      "epoch": 1.1988444872412134,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017373331021551986,
      "loss": 0.5076,
      "step": 4980
    },
    {
      "epoch": 1.2000481463649495,
      "grad_norm": 1.171875,
      "learning_rate": 0.00017367459566266122,
      "loss": 0.5261,
      "step": 4985
    },
    {
      "epoch": 1.2012518054886856,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00017361584027427536,
      "loss": 0.5098,
      "step": 4990
    },
    {
      "epoch": 1.2024554646124217,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00017355704410309324,
      "loss": 0.5317,
      "step": 4995
    },
    {
      "epoch": 1.2036591237361578,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00017349820720188248,
      "loss": 0.5442,
      "step": 5000
    },
    {
      "epoch": 1.2036591237361578,
      "eval_loss": 0.4596037268638611,
      "eval_runtime": 2.3802,
      "eval_samples_per_second": 84.026,
      "eval_steps_per_second": 84.026,
      "step": 5000
    },
    {
      "epoch": 1.2048627828598941,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017343932962344722,
      "loss": 0.493,
      "step": 5005
    },
    {
      "epoch": 1.2060664419836302,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017338041142062814,
      "loss": 0.4901,
      "step": 5010
    },
    {
      "epoch": 1.2072701011073663,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001733214526463023,
      "loss": 0.5146,
      "step": 5015
    },
    {
      "epoch": 1.2084737602311026,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001732624533533833,
      "loss": 0.5151,
      "step": 5020
    },
    {
      "epoch": 1.2096774193548387,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000173203413594821,
      "loss": 0.5402,
      "step": 5025
    },
    {
      "epoch": 1.2108810784785748,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00017314433342360158,
      "loss": 0.5233,
      "step": 5030
    },
    {
      "epoch": 1.212084737602311,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017308521289274758,
      "loss": 0.521,
      "step": 5035
    },
    {
      "epoch": 1.2132883967260473,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017302605205531766,
      "loss": 0.5392,
      "step": 5040
    },
    {
      "epoch": 1.2144920558497834,
      "grad_norm": 1.109375,
      "learning_rate": 0.00017296685096440673,
      "loss": 0.5299,
      "step": 5045
    },
    {
      "epoch": 1.2156957149735195,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017290760967314577,
      "loss": 0.5142,
      "step": 5050
    },
    {
      "epoch": 1.2168993740972556,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00017284832823470178,
      "loss": 0.5286,
      "step": 5055
    },
    {
      "epoch": 1.218103033220992,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000172789006702278,
      "loss": 0.5047,
      "step": 5060
    },
    {
      "epoch": 1.219306692344728,
      "grad_norm": 1.0625,
      "learning_rate": 0.00017272964512911345,
      "loss": 0.489,
      "step": 5065
    },
    {
      "epoch": 1.220510351468464,
      "grad_norm": 1.125,
      "learning_rate": 0.00017267024356848318,
      "loss": 0.5114,
      "step": 5070
    },
    {
      "epoch": 1.2217140105922002,
      "grad_norm": 1.0,
      "learning_rate": 0.00017261080207369814,
      "loss": 0.5132,
      "step": 5075
    },
    {
      "epoch": 1.2229176697159365,
      "grad_norm": 1.09375,
      "learning_rate": 0.000172551320698105,
      "loss": 0.5474,
      "step": 5080
    },
    {
      "epoch": 1.2241213288396726,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00017249179949508633,
      "loss": 0.477,
      "step": 5085
    },
    {
      "epoch": 1.2253249879634087,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00017243223851806048,
      "loss": 0.527,
      "step": 5090
    },
    {
      "epoch": 1.2265286470871448,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001723726378204814,
      "loss": 0.5112,
      "step": 5095
    },
    {
      "epoch": 1.2277323062108811,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001723129974558387,
      "loss": 0.532,
      "step": 5100
    },
    {
      "epoch": 1.2289359653346172,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00017225331747765764,
      "loss": 0.5028,
      "step": 5105
    },
    {
      "epoch": 1.2301396244583533,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000172193597939499,
      "loss": 0.5074,
      "step": 5110
    },
    {
      "epoch": 1.2313432835820897,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017213383889495907,
      "loss": 0.5334,
      "step": 5115
    },
    {
      "epoch": 1.2325469427058258,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001720740403976696,
      "loss": 0.5109,
      "step": 5120
    },
    {
      "epoch": 1.2337506018295619,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017201420250129772,
      "loss": 0.5004,
      "step": 5125
    },
    {
      "epoch": 1.234954260953298,
      "grad_norm": 1.1875,
      "learning_rate": 0.00017195432525954598,
      "loss": 0.4972,
      "step": 5130
    },
    {
      "epoch": 1.236157920077034,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00017189440872615217,
      "loss": 0.4611,
      "step": 5135
    },
    {
      "epoch": 1.2373615792007704,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001718344529548894,
      "loss": 0.543,
      "step": 5140
    },
    {
      "epoch": 1.2385652383245065,
      "grad_norm": 1.0625,
      "learning_rate": 0.00017177445799956595,
      "loss": 0.5259,
      "step": 5145
    },
    {
      "epoch": 1.2397688974482426,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001717144239140253,
      "loss": 0.5092,
      "step": 5150
    },
    {
      "epoch": 1.240972556571979,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017165435075214603,
      "loss": 0.4841,
      "step": 5155
    },
    {
      "epoch": 1.242176215695715,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017159423856784176,
      "loss": 0.5283,
      "step": 5160
    },
    {
      "epoch": 1.2433798748194511,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00017153408741506126,
      "loss": 0.5033,
      "step": 5165
    },
    {
      "epoch": 1.2445835339431872,
      "grad_norm": 1.0625,
      "learning_rate": 0.00017147389734778812,
      "loss": 0.5252,
      "step": 5170
    },
    {
      "epoch": 1.2457871930669235,
      "grad_norm": 1.28125,
      "learning_rate": 0.0001714136684200409,
      "loss": 0.5088,
      "step": 5175
    },
    {
      "epoch": 1.2469908521906596,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017135340068587303,
      "loss": 0.5282,
      "step": 5180
    },
    {
      "epoch": 1.2481945113143957,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017129309419937287,
      "loss": 0.5047,
      "step": 5185
    },
    {
      "epoch": 1.2493981704381318,
      "grad_norm": 1.125,
      "learning_rate": 0.0001712327490146634,
      "loss": 0.5001,
      "step": 5190
    },
    {
      "epoch": 1.2506018295618682,
      "grad_norm": 1.125,
      "learning_rate": 0.00017117236518590244,
      "loss": 0.5134,
      "step": 5195
    },
    {
      "epoch": 1.2518054886856043,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00017111194276728245,
      "loss": 0.5247,
      "step": 5200
    },
    {
      "epoch": 1.2530091478093404,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017105148181303053,
      "loss": 0.5102,
      "step": 5205
    },
    {
      "epoch": 1.2542128069330767,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00017099098237740838,
      "loss": 0.5079,
      "step": 5210
    },
    {
      "epoch": 1.2554164660568128,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001709304445147122,
      "loss": 0.4895,
      "step": 5215
    },
    {
      "epoch": 1.2566201251805489,
      "grad_norm": 1.21875,
      "learning_rate": 0.0001708698682792727,
      "loss": 0.521,
      "step": 5220
    },
    {
      "epoch": 1.257823784304285,
      "grad_norm": 1.125,
      "learning_rate": 0.00017080925372545504,
      "loss": 0.5099,
      "step": 5225
    },
    {
      "epoch": 1.259027443428021,
      "grad_norm": 1.15625,
      "learning_rate": 0.00017074860090765878,
      "loss": 0.5001,
      "step": 5230
    },
    {
      "epoch": 1.2602311025517574,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00017068790988031772,
      "loss": 0.5255,
      "step": 5235
    },
    {
      "epoch": 1.2614347616754935,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00017062718069790013,
      "loss": 0.5225,
      "step": 5240
    },
    {
      "epoch": 1.2626384207992296,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00017056641341490832,
      "loss": 0.5056,
      "step": 5245
    },
    {
      "epoch": 1.263842079922966,
      "grad_norm": 1.015625,
      "learning_rate": 0.00017050560808587898,
      "loss": 0.5309,
      "step": 5250
    },
    {
      "epoch": 1.265045739046702,
      "grad_norm": 1.03125,
      "learning_rate": 0.00017044476476538279,
      "loss": 0.5052,
      "step": 5255
    },
    {
      "epoch": 1.2662493981704381,
      "grad_norm": 1.203125,
      "learning_rate": 0.00017038388350802463,
      "loss": 0.519,
      "step": 5260
    },
    {
      "epoch": 1.2674530572941742,
      "grad_norm": 1.09375,
      "learning_rate": 0.00017032296436844343,
      "loss": 0.552,
      "step": 5265
    },
    {
      "epoch": 1.2686567164179103,
      "grad_norm": 1.09375,
      "learning_rate": 0.000170262007401312,
      "loss": 0.5129,
      "step": 5270
    },
    {
      "epoch": 1.2698603755416467,
      "grad_norm": 1.046875,
      "learning_rate": 0.00017020101266133724,
      "loss": 0.4976,
      "step": 5275
    },
    {
      "epoch": 1.2710640346653828,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00017013998020325987,
      "loss": 0.531,
      "step": 5280
    },
    {
      "epoch": 1.2722676937891189,
      "grad_norm": 1.078125,
      "learning_rate": 0.00017007891008185452,
      "loss": 0.5335,
      "step": 5285
    },
    {
      "epoch": 1.2734713529128552,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00017001780235192953,
      "loss": 0.4964,
      "step": 5290
    },
    {
      "epoch": 1.2746750120365913,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016995665706832702,
      "loss": 0.5139,
      "step": 5295
    },
    {
      "epoch": 1.2758786711603274,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00016989547428592294,
      "loss": 0.5263,
      "step": 5300
    },
    {
      "epoch": 1.2770823302840635,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016983425405962672,
      "loss": 0.5065,
      "step": 5305
    },
    {
      "epoch": 1.2782859894077996,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001697729964443815,
      "loss": 0.5654,
      "step": 5310
    },
    {
      "epoch": 1.279489648531536,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00016971170149516387,
      "loss": 0.5036,
      "step": 5315
    },
    {
      "epoch": 1.280693307655272,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016965036926698407,
      "loss": 0.5134,
      "step": 5320
    },
    {
      "epoch": 1.281896966779008,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016958899981488575,
      "loss": 0.5103,
      "step": 5325
    },
    {
      "epoch": 1.2831006259027444,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00016952759319394586,
      "loss": 0.5246,
      "step": 5330
    },
    {
      "epoch": 1.2843042850264805,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016946614945927482,
      "loss": 0.5287,
      "step": 5335
    },
    {
      "epoch": 1.2855079441502166,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016940466866601636,
      "loss": 0.5348,
      "step": 5340
    },
    {
      "epoch": 1.286711603273953,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00016934315086934742,
      "loss": 0.4994,
      "step": 5345
    },
    {
      "epoch": 1.287915262397689,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016928159612447814,
      "loss": 0.5094,
      "step": 5350
    },
    {
      "epoch": 1.2891189215214252,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001692200044866519,
      "loss": 0.5391,
      "step": 5355
    },
    {
      "epoch": 1.2903225806451613,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016915837601114503,
      "loss": 0.5388,
      "step": 5360
    },
    {
      "epoch": 1.2915262397688974,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00016909671075326718,
      "loss": 0.5102,
      "step": 5365
    },
    {
      "epoch": 1.2927298988926337,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00016903500876836074,
      "loss": 0.4788,
      "step": 5370
    },
    {
      "epoch": 1.2939335580163698,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016897327011180122,
      "loss": 0.4988,
      "step": 5375
    },
    {
      "epoch": 1.2951372171401059,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016891149483899695,
      "loss": 0.5243,
      "step": 5380
    },
    {
      "epoch": 1.2963408762638422,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001688496830053893,
      "loss": 0.5362,
      "step": 5385
    },
    {
      "epoch": 1.2975445353875783,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016878783466645221,
      "loss": 0.5257,
      "step": 5390
    },
    {
      "epoch": 1.2987481945113144,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00016872594987769253,
      "loss": 0.519,
      "step": 5395
    },
    {
      "epoch": 1.2999518536350505,
      "grad_norm": 1.078125,
      "learning_rate": 0.00016866402869464978,
      "loss": 0.4683,
      "step": 5400
    },
    {
      "epoch": 1.3011555127587866,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016860207117289617,
      "loss": 0.5215,
      "step": 5405
    },
    {
      "epoch": 1.302359171882523,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001685400773680365,
      "loss": 0.5371,
      "step": 5410
    },
    {
      "epoch": 1.303562831006259,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016847804733570812,
      "loss": 0.4945,
      "step": 5415
    },
    {
      "epoch": 1.3047664901299951,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016841598113158095,
      "loss": 0.5054,
      "step": 5420
    },
    {
      "epoch": 1.3059701492537314,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001683538788113573,
      "loss": 0.4893,
      "step": 5425
    },
    {
      "epoch": 1.3071738083774675,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016829174043077192,
      "loss": 0.5048,
      "step": 5430
    },
    {
      "epoch": 1.3083774675012037,
      "grad_norm": 1.0625,
      "learning_rate": 0.00016822956604559195,
      "loss": 0.5116,
      "step": 5435
    },
    {
      "epoch": 1.3095811266249398,
      "grad_norm": 1.0625,
      "learning_rate": 0.00016816735571161684,
      "loss": 0.5216,
      "step": 5440
    },
    {
      "epoch": 1.3107847857486759,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016810510948467826,
      "loss": 0.5351,
      "step": 5445
    },
    {
      "epoch": 1.3119884448724122,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001680428274206401,
      "loss": 0.4961,
      "step": 5450
    },
    {
      "epoch": 1.3131921039961483,
      "grad_norm": 1.09375,
      "learning_rate": 0.00016798050957539848,
      "loss": 0.5049,
      "step": 5455
    },
    {
      "epoch": 1.3143957631198844,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00016791815600488154,
      "loss": 0.5118,
      "step": 5460
    },
    {
      "epoch": 1.3155994222436207,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016785576676504955,
      "loss": 0.5132,
      "step": 5465
    },
    {
      "epoch": 1.3168030813673568,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016779334191189472,
      "loss": 0.4766,
      "step": 5470
    },
    {
      "epoch": 1.318006740491093,
      "grad_norm": 1.015625,
      "learning_rate": 0.00016773088150144133,
      "loss": 0.5046,
      "step": 5475
    },
    {
      "epoch": 1.319210399614829,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016766838558974554,
      "loss": 0.5015,
      "step": 5480
    },
    {
      "epoch": 1.320414058738565,
      "grad_norm": 1.1875,
      "learning_rate": 0.0001676058542328952,
      "loss": 0.4881,
      "step": 5485
    },
    {
      "epoch": 1.3216177178623014,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016754328748701028,
      "loss": 0.5218,
      "step": 5490
    },
    {
      "epoch": 1.3228213769860375,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016748068540824222,
      "loss": 0.4982,
      "step": 5495
    },
    {
      "epoch": 1.3240250361097736,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00016741804805277434,
      "loss": 0.5134,
      "step": 5500
    },
    {
      "epoch": 1.3240250361097736,
      "eval_loss": 0.4434724748134613,
      "eval_runtime": 2.3562,
      "eval_samples_per_second": 84.881,
      "eval_steps_per_second": 84.881,
      "step": 5500
    },
    {
      "epoch": 1.32522869523351,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001673553754768216,
      "loss": 0.5231,
      "step": 5505
    },
    {
      "epoch": 1.326432354357246,
      "grad_norm": 1.125,
      "learning_rate": 0.00016729266773663048,
      "loss": 0.5308,
      "step": 5510
    },
    {
      "epoch": 1.3276360134809821,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016722992488847914,
      "loss": 0.4797,
      "step": 5515
    },
    {
      "epoch": 1.3288396726047185,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016716714698867714,
      "loss": 0.505,
      "step": 5520
    },
    {
      "epoch": 1.3300433317284546,
      "grad_norm": 1.265625,
      "learning_rate": 0.00016710433409356562,
      "loss": 0.5195,
      "step": 5525
    },
    {
      "epoch": 1.3312469908521907,
      "grad_norm": 1.078125,
      "learning_rate": 0.00016704148625951696,
      "loss": 0.4942,
      "step": 5530
    },
    {
      "epoch": 1.3324506499759268,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00016697860354293503,
      "loss": 0.5068,
      "step": 5535
    },
    {
      "epoch": 1.3336543090996629,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000166915686000255,
      "loss": 0.4945,
      "step": 5540
    },
    {
      "epoch": 1.3348579682233992,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001668527336879432,
      "loss": 0.5158,
      "step": 5545
    },
    {
      "epoch": 1.3360616273471353,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00016678974666249727,
      "loss": 0.5167,
      "step": 5550
    },
    {
      "epoch": 1.3372652864708714,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000166726724980446,
      "loss": 0.508,
      "step": 5555
    },
    {
      "epoch": 1.3384689455946077,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00016666366869834913,
      "loss": 0.5203,
      "step": 5560
    },
    {
      "epoch": 1.3396726047183438,
      "grad_norm": 1.15625,
      "learning_rate": 0.00016660057787279764,
      "loss": 0.535,
      "step": 5565
    },
    {
      "epoch": 1.34087626384208,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016653745256041346,
      "loss": 0.4892,
      "step": 5570
    },
    {
      "epoch": 1.342079922965816,
      "grad_norm": 1.0625,
      "learning_rate": 0.00016647429281784937,
      "loss": 0.5311,
      "step": 5575
    },
    {
      "epoch": 1.3432835820895521,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001664110987017892,
      "loss": 0.5063,
      "step": 5580
    },
    {
      "epoch": 1.3444872412132884,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016634787026894752,
      "loss": 0.4854,
      "step": 5585
    },
    {
      "epoch": 1.3456909003370245,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016628460757606972,
      "loss": 0.4942,
      "step": 5590
    },
    {
      "epoch": 1.3468945594607606,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016622131067993198,
      "loss": 0.5466,
      "step": 5595
    },
    {
      "epoch": 1.348098218584497,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00016615797963734117,
      "loss": 0.525,
      "step": 5600
    },
    {
      "epoch": 1.349301877708233,
      "grad_norm": 1.078125,
      "learning_rate": 0.00016609461450513472,
      "loss": 0.4876,
      "step": 5605
    },
    {
      "epoch": 1.3505055368319692,
      "grad_norm": 1.28125,
      "learning_rate": 0.00016603121534018077,
      "loss": 0.5088,
      "step": 5610
    },
    {
      "epoch": 1.3517091959557053,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016596778219937796,
      "loss": 0.5006,
      "step": 5615
    },
    {
      "epoch": 1.3529128550794414,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001659043151396554,
      "loss": 0.4964,
      "step": 5620
    },
    {
      "epoch": 1.3541165142031777,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001658408142179726,
      "loss": 0.5264,
      "step": 5625
    },
    {
      "epoch": 1.3553201733269138,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016577727949131958,
      "loss": 0.4978,
      "step": 5630
    },
    {
      "epoch": 1.35652383245065,
      "grad_norm": 1.125,
      "learning_rate": 0.00016571371101671662,
      "loss": 0.4969,
      "step": 5635
    },
    {
      "epoch": 1.3577274915743862,
      "grad_norm": 1.125,
      "learning_rate": 0.00016565010885121427,
      "loss": 0.5162,
      "step": 5640
    },
    {
      "epoch": 1.3589311506981223,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016558647305189343,
      "loss": 0.5403,
      "step": 5645
    },
    {
      "epoch": 1.3601348098218584,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016552280367586499,
      "loss": 0.5379,
      "step": 5650
    },
    {
      "epoch": 1.3613384689455947,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016545910078027016,
      "loss": 0.5041,
      "step": 5655
    },
    {
      "epoch": 1.3625421280693308,
      "grad_norm": 1.09375,
      "learning_rate": 0.00016539536442228012,
      "loss": 0.5028,
      "step": 5660
    },
    {
      "epoch": 1.363745787193067,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001653315946590962,
      "loss": 0.5029,
      "step": 5665
    },
    {
      "epoch": 1.364949446316803,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00016526779154794953,
      "loss": 0.498,
      "step": 5670
    },
    {
      "epoch": 1.3661531054405391,
      "grad_norm": 1.09375,
      "learning_rate": 0.00016520395514610131,
      "loss": 0.5071,
      "step": 5675
    },
    {
      "epoch": 1.3673567645642755,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00016514008551084258,
      "loss": 0.4817,
      "step": 5680
    },
    {
      "epoch": 1.3685604236880116,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00016507618269949424,
      "loss": 0.5214,
      "step": 5685
    },
    {
      "epoch": 1.3697640828117477,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016501224676940685,
      "loss": 0.4726,
      "step": 5690
    },
    {
      "epoch": 1.370967741935484,
      "grad_norm": 1.125,
      "learning_rate": 0.00016494827777796084,
      "loss": 0.5419,
      "step": 5695
    },
    {
      "epoch": 1.37217140105922,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00016488427578256618,
      "loss": 0.5134,
      "step": 5700
    },
    {
      "epoch": 1.3733750601829562,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016482024084066258,
      "loss": 0.5023,
      "step": 5705
    },
    {
      "epoch": 1.3745787193066923,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016475617300971924,
      "loss": 0.4796,
      "step": 5710
    },
    {
      "epoch": 1.3757823784304284,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00016469207234723487,
      "loss": 0.5287,
      "step": 5715
    },
    {
      "epoch": 1.3769860375541647,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0001646279389107377,
      "loss": 0.4952,
      "step": 5720
    },
    {
      "epoch": 1.3781896966779008,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016456377275778536,
      "loss": 0.511,
      "step": 5725
    },
    {
      "epoch": 1.379393355801637,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016449957394596475,
      "loss": 0.4951,
      "step": 5730
    },
    {
      "epoch": 1.3805970149253732,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016443534253289226,
      "loss": 0.5266,
      "step": 5735
    },
    {
      "epoch": 1.3818006740491093,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016437107857621337,
      "loss": 0.5175,
      "step": 5740
    },
    {
      "epoch": 1.3830043331728454,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00016430678213360286,
      "loss": 0.4723,
      "step": 5745
    },
    {
      "epoch": 1.3842079922965815,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016424245326276466,
      "loss": 0.5143,
      "step": 5750
    },
    {
      "epoch": 1.3854116514203176,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001641780920214317,
      "loss": 0.5171,
      "step": 5755
    },
    {
      "epoch": 1.386615310544054,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00016411369846736613,
      "loss": 0.5328,
      "step": 5760
    },
    {
      "epoch": 1.38781896966779,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016404927265835896,
      "loss": 0.4887,
      "step": 5765
    },
    {
      "epoch": 1.3890226287915262,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016398481465223024,
      "loss": 0.4922,
      "step": 5770
    },
    {
      "epoch": 1.3902262879152625,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016392032450682884,
      "loss": 0.5218,
      "step": 5775
    },
    {
      "epoch": 1.3914299470389986,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00016385580228003252,
      "loss": 0.4743,
      "step": 5780
    },
    {
      "epoch": 1.3926336061627347,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016379124802974783,
      "loss": 0.5239,
      "step": 5785
    },
    {
      "epoch": 1.393837265286471,
      "grad_norm": 1.1875,
      "learning_rate": 0.00016372666181391004,
      "loss": 0.5002,
      "step": 5790
    },
    {
      "epoch": 1.395040924410207,
      "grad_norm": 1.03125,
      "learning_rate": 0.00016366204369048316,
      "loss": 0.4936,
      "step": 5795
    },
    {
      "epoch": 1.3962445835339432,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016359739371745973,
      "loss": 0.5055,
      "step": 5800
    },
    {
      "epoch": 1.3974482426576793,
      "grad_norm": 0.98046875,
      "learning_rate": 0.000163532711952861,
      "loss": 0.5294,
      "step": 5805
    },
    {
      "epoch": 1.3986519017814154,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016346799845473665,
      "loss": 0.5311,
      "step": 5810
    },
    {
      "epoch": 1.3998555609051517,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001634032532811649,
      "loss": 0.511,
      "step": 5815
    },
    {
      "epoch": 1.4010592200288878,
      "grad_norm": 1.09375,
      "learning_rate": 0.00016333847649025238,
      "loss": 0.5022,
      "step": 5820
    },
    {
      "epoch": 1.402262879152624,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001632736681401341,
      "loss": 0.5103,
      "step": 5825
    },
    {
      "epoch": 1.4034665382763603,
      "grad_norm": 1.015625,
      "learning_rate": 0.00016320882828897335,
      "loss": 0.5154,
      "step": 5830
    },
    {
      "epoch": 1.4046701974000964,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00016314395699496177,
      "loss": 0.524,
      "step": 5835
    },
    {
      "epoch": 1.4058738565238325,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016307905431631916,
      "loss": 0.5034,
      "step": 5840
    },
    {
      "epoch": 1.4070775156475686,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016301412031129354,
      "loss": 0.4704,
      "step": 5845
    },
    {
      "epoch": 1.4082811747713047,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00016294915503816098,
      "loss": 0.4753,
      "step": 5850
    },
    {
      "epoch": 1.409484833895041,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001628841585552256,
      "loss": 0.4812,
      "step": 5855
    },
    {
      "epoch": 1.410688493018777,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016281913092081965,
      "loss": 0.4752,
      "step": 5860
    },
    {
      "epoch": 1.4118921521425132,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001627540721933032,
      "loss": 0.4794,
      "step": 5865
    },
    {
      "epoch": 1.4130958112662495,
      "grad_norm": 1.078125,
      "learning_rate": 0.00016268898243106431,
      "loss": 0.4873,
      "step": 5870
    },
    {
      "epoch": 1.4142994703899856,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016262386169251888,
      "loss": 0.4812,
      "step": 5875
    },
    {
      "epoch": 1.4155031295137217,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016255871003611054,
      "loss": 0.4913,
      "step": 5880
    },
    {
      "epoch": 1.4167067886374578,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016249352752031074,
      "loss": 0.476,
      "step": 5885
    },
    {
      "epoch": 1.417910447761194,
      "grad_norm": 1.03125,
      "learning_rate": 0.00016242831420361871,
      "loss": 0.4951,
      "step": 5890
    },
    {
      "epoch": 1.4191141068849302,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001623630701445611,
      "loss": 0.4959,
      "step": 5895
    },
    {
      "epoch": 1.4203177660086663,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001622977954016923,
      "loss": 0.4744,
      "step": 5900
    },
    {
      "epoch": 1.4215214251324024,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00016223249003359424,
      "loss": 0.4864,
      "step": 5905
    },
    {
      "epoch": 1.4227250842561388,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016216715409887627,
      "loss": 0.508,
      "step": 5910
    },
    {
      "epoch": 1.4239287433798749,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00016210178765617525,
      "loss": 0.5252,
      "step": 5915
    },
    {
      "epoch": 1.425132402503611,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00016203639076415533,
      "loss": 0.5037,
      "step": 5920
    },
    {
      "epoch": 1.4263360616273473,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016197096348150806,
      "loss": 0.4805,
      "step": 5925
    },
    {
      "epoch": 1.4275397207510834,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016190550586695228,
      "loss": 0.4931,
      "step": 5930
    },
    {
      "epoch": 1.4287433798748195,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00016184001797923394,
      "loss": 0.5004,
      "step": 5935
    },
    {
      "epoch": 1.4299470389985556,
      "grad_norm": 1.0625,
      "learning_rate": 0.00016177449987712626,
      "loss": 0.5099,
      "step": 5940
    },
    {
      "epoch": 1.4311506981222917,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016170895161942954,
      "loss": 0.5029,
      "step": 5945
    },
    {
      "epoch": 1.432354357246028,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00016164337326497118,
      "loss": 0.4897,
      "step": 5950
    },
    {
      "epoch": 1.433558016369764,
      "grad_norm": 1.015625,
      "learning_rate": 0.00016157776487260545,
      "loss": 0.5245,
      "step": 5955
    },
    {
      "epoch": 1.4347616754935002,
      "grad_norm": 1.0625,
      "learning_rate": 0.00016151212650121388,
      "loss": 0.5082,
      "step": 5960
    },
    {
      "epoch": 1.4359653346172365,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016144645820970457,
      "loss": 0.4988,
      "step": 5965
    },
    {
      "epoch": 1.4371689937409726,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001613807600570127,
      "loss": 0.48,
      "step": 5970
    },
    {
      "epoch": 1.4383726528647087,
      "grad_norm": 1.171875,
      "learning_rate": 0.00016131503210210007,
      "loss": 0.5006,
      "step": 5975
    },
    {
      "epoch": 1.4395763119884448,
      "grad_norm": 1.109375,
      "learning_rate": 0.00016124927440395537,
      "loss": 0.5205,
      "step": 5980
    },
    {
      "epoch": 1.440779971112181,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016118348702159397,
      "loss": 0.5068,
      "step": 5985
    },
    {
      "epoch": 1.4419836302359172,
      "grad_norm": 1.015625,
      "learning_rate": 0.00016111767001405784,
      "loss": 0.4937,
      "step": 5990
    },
    {
      "epoch": 1.4431872893596533,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001610518234404155,
      "loss": 0.5264,
      "step": 5995
    },
    {
      "epoch": 1.4443909484833894,
      "grad_norm": 1.125,
      "learning_rate": 0.00016098594735976205,
      "loss": 0.5072,
      "step": 6000
    },
    {
      "epoch": 1.4443909484833894,
      "eval_loss": 0.4375569820404053,
      "eval_runtime": 2.3354,
      "eval_samples_per_second": 85.637,
      "eval_steps_per_second": 85.637,
      "step": 6000
    },
    {
      "epoch": 1.4455946076071258,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016092004183121912,
      "loss": 0.5059,
      "step": 6005
    },
    {
      "epoch": 1.4467982667308619,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001608541069139347,
      "loss": 0.4873,
      "step": 6010
    },
    {
      "epoch": 1.448001925854598,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00016078814266708315,
      "loss": 0.4887,
      "step": 6015
    },
    {
      "epoch": 1.449205584978334,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001607221491498652,
      "loss": 0.4839,
      "step": 6020
    },
    {
      "epoch": 1.4504092441020702,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001606561264215078,
      "loss": 0.5151,
      "step": 6025
    },
    {
      "epoch": 1.4516129032258065,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00016059007454126417,
      "loss": 0.477,
      "step": 6030
    },
    {
      "epoch": 1.4528165623495426,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00016052399356841367,
      "loss": 0.5034,
      "step": 6035
    },
    {
      "epoch": 1.4540202214732787,
      "grad_norm": 1.078125,
      "learning_rate": 0.00016045788356226174,
      "loss": 0.4674,
      "step": 6040
    },
    {
      "epoch": 1.455223880597015,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001603917445821399,
      "loss": 0.483,
      "step": 6045
    },
    {
      "epoch": 1.4564275397207511,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00016032557668740574,
      "loss": 0.5046,
      "step": 6050
    },
    {
      "epoch": 1.4576311988444872,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016025937993744262,
      "loss": 0.5304,
      "step": 6055
    },
    {
      "epoch": 1.4588348579682233,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016019315439165998,
      "loss": 0.5065,
      "step": 6060
    },
    {
      "epoch": 1.4600385170919594,
      "grad_norm": 1.046875,
      "learning_rate": 0.00016012690010949306,
      "loss": 0.4918,
      "step": 6065
    },
    {
      "epoch": 1.4612421762156957,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00016006061715040279,
      "loss": 0.4819,
      "step": 6070
    },
    {
      "epoch": 1.4624458353394318,
      "grad_norm": 1.09375,
      "learning_rate": 0.00015999430557387596,
      "loss": 0.5011,
      "step": 6075
    },
    {
      "epoch": 1.463649494463168,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00015992796543942497,
      "loss": 0.5366,
      "step": 6080
    },
    {
      "epoch": 1.4648531535869043,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001598615968065879,
      "loss": 0.4865,
      "step": 6085
    },
    {
      "epoch": 1.4660568127106404,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00015979519973492837,
      "loss": 0.4808,
      "step": 6090
    },
    {
      "epoch": 1.4672604718343765,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015972877428403547,
      "loss": 0.5087,
      "step": 6095
    },
    {
      "epoch": 1.4684641309581128,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015966232051352393,
      "loss": 0.5038,
      "step": 6100
    },
    {
      "epoch": 1.469667790081849,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015959583848303372,
      "loss": 0.5011,
      "step": 6105
    },
    {
      "epoch": 1.470871449205585,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015952932825223027,
      "loss": 0.4811,
      "step": 6110
    },
    {
      "epoch": 1.472075108329321,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015946278988080426,
      "loss": 0.5142,
      "step": 6115
    },
    {
      "epoch": 1.4732787674530572,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015939622342847168,
      "loss": 0.5151,
      "step": 6120
    },
    {
      "epoch": 1.4744824265767935,
      "grad_norm": 1.125,
      "learning_rate": 0.00015932962895497368,
      "loss": 0.4925,
      "step": 6125
    },
    {
      "epoch": 1.4756860857005296,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001592630065200766,
      "loss": 0.5025,
      "step": 6130
    },
    {
      "epoch": 1.4768897448242657,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00015919635618357177,
      "loss": 0.5178,
      "step": 6135
    },
    {
      "epoch": 1.478093403948002,
      "grad_norm": 1.140625,
      "learning_rate": 0.00015912967800527574,
      "loss": 0.5206,
      "step": 6140
    },
    {
      "epoch": 1.4792970630717381,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001590629720450299,
      "loss": 0.52,
      "step": 6145
    },
    {
      "epoch": 1.4805007221954742,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00015899623836270065,
      "loss": 0.5341,
      "step": 6150
    },
    {
      "epoch": 1.4817043813192103,
      "grad_norm": 0.96875,
      "learning_rate": 0.00015892947701817914,
      "loss": 0.4613,
      "step": 6155
    },
    {
      "epoch": 1.4829080404429464,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001588626880713816,
      "loss": 0.4838,
      "step": 6160
    },
    {
      "epoch": 1.4841116995666828,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00015879587158224877,
      "loss": 0.5102,
      "step": 6165
    },
    {
      "epoch": 1.4853153586904189,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001587290276107462,
      "loss": 0.5193,
      "step": 6170
    },
    {
      "epoch": 1.486519017814155,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001586621562168642,
      "loss": 0.4968,
      "step": 6175
    },
    {
      "epoch": 1.4877226769378913,
      "grad_norm": 1.03125,
      "learning_rate": 0.00015859525746061756,
      "loss": 0.5013,
      "step": 6180
    },
    {
      "epoch": 1.4889263360616274,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001585283314020457,
      "loss": 0.4973,
      "step": 6185
    },
    {
      "epoch": 1.4901299951853635,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015846137810121252,
      "loss": 0.4933,
      "step": 6190
    },
    {
      "epoch": 1.4913336543090996,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015839439761820633,
      "loss": 0.5009,
      "step": 6195
    },
    {
      "epoch": 1.4925373134328357,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001583273900131399,
      "loss": 0.5264,
      "step": 6200
    },
    {
      "epoch": 1.493740972556572,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00015826035534615037,
      "loss": 0.4874,
      "step": 6205
    },
    {
      "epoch": 1.4949446316803081,
      "grad_norm": 1.125,
      "learning_rate": 0.00015819329367739902,
      "loss": 0.5281,
      "step": 6210
    },
    {
      "epoch": 1.4961482908040442,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00015812620506707153,
      "loss": 0.4776,
      "step": 6215
    },
    {
      "epoch": 1.4973519499277805,
      "grad_norm": 1.125,
      "learning_rate": 0.0001580590895753776,
      "loss": 0.5018,
      "step": 6220
    },
    {
      "epoch": 1.4985556090515166,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00015799194726255123,
      "loss": 0.4809,
      "step": 6225
    },
    {
      "epoch": 1.4997592681752527,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001579247781888504,
      "loss": 0.4903,
      "step": 6230
    },
    {
      "epoch": 1.500962927298989,
      "grad_norm": 1.03125,
      "learning_rate": 0.00015785758241455703,
      "loss": 0.4824,
      "step": 6235
    },
    {
      "epoch": 1.502166586422725,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00015779035999997714,
      "loss": 0.5151,
      "step": 6240
    },
    {
      "epoch": 1.5033702455464613,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001577231110054406,
      "loss": 0.4715,
      "step": 6245
    },
    {
      "epoch": 1.5045739046701974,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001576558354913011,
      "loss": 0.4438,
      "step": 6250
    },
    {
      "epoch": 1.5057775637939335,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001575885335179362,
      "loss": 0.4964,
      "step": 6255
    },
    {
      "epoch": 1.5069812229176698,
      "grad_norm": 1.0625,
      "learning_rate": 0.00015752120514574716,
      "loss": 0.4984,
      "step": 6260
    },
    {
      "epoch": 1.5081848820414059,
      "grad_norm": 1.140625,
      "learning_rate": 0.00015745385043515892,
      "loss": 0.5073,
      "step": 6265
    },
    {
      "epoch": 1.509388541165142,
      "grad_norm": 1.09375,
      "learning_rate": 0.00015738646944662014,
      "loss": 0.5178,
      "step": 6270
    },
    {
      "epoch": 1.5105922002888783,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015731906224060297,
      "loss": 0.5069,
      "step": 6275
    },
    {
      "epoch": 1.5117958594126142,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00015725162887760309,
      "loss": 0.4943,
      "step": 6280
    },
    {
      "epoch": 1.5129995185363505,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015718416941813975,
      "loss": 0.5241,
      "step": 6285
    },
    {
      "epoch": 1.5142031776600868,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001571166839227555,
      "loss": 0.5058,
      "step": 6290
    },
    {
      "epoch": 1.5154068367838227,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015704917245201638,
      "loss": 0.472,
      "step": 6295
    },
    {
      "epoch": 1.516610495907559,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015698163506651163,
      "loss": 0.4877,
      "step": 6300
    },
    {
      "epoch": 1.5178141550312951,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00015691407182685384,
      "loss": 0.4793,
      "step": 6305
    },
    {
      "epoch": 1.5190178141550312,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015684648279367872,
      "loss": 0.5021,
      "step": 6310
    },
    {
      "epoch": 1.5202214732787676,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015677886802764517,
      "loss": 0.5212,
      "step": 6315
    },
    {
      "epoch": 1.5214251324025037,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001567112275894352,
      "loss": 0.529,
      "step": 6320
    },
    {
      "epoch": 1.5226287915262398,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015664356153975383,
      "loss": 0.4912,
      "step": 6325
    },
    {
      "epoch": 1.523832450649976,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001565758699393291,
      "loss": 0.5074,
      "step": 6330
    },
    {
      "epoch": 1.525036109773712,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001565081528489119,
      "loss": 0.5058,
      "step": 6335
    },
    {
      "epoch": 1.5262397688974483,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00015644041032927616,
      "loss": 0.5007,
      "step": 6340
    },
    {
      "epoch": 1.5274434280211844,
      "grad_norm": 1.0625,
      "learning_rate": 0.00015637264244121844,
      "loss": 0.4619,
      "step": 6345
    },
    {
      "epoch": 1.5286470871449205,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00015630484924555814,
      "loss": 0.4976,
      "step": 6350
    },
    {
      "epoch": 1.5298507462686568,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015623703080313748,
      "loss": 0.4578,
      "step": 6355
    },
    {
      "epoch": 1.531054405392393,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015616918717482116,
      "loss": 0.4891,
      "step": 6360
    },
    {
      "epoch": 1.532258064516129,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00015610131842149662,
      "loss": 0.4603,
      "step": 6365
    },
    {
      "epoch": 1.5334617236398653,
      "grad_norm": 1.0625,
      "learning_rate": 0.00015603342460407377,
      "loss": 0.4424,
      "step": 6370
    },
    {
      "epoch": 1.5346653827636012,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00015596550578348507,
      "loss": 0.5114,
      "step": 6375
    },
    {
      "epoch": 1.5358690418873375,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0001558975620206853,
      "loss": 0.4539,
      "step": 6380
    },
    {
      "epoch": 1.5370727010110736,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015582959337665187,
      "loss": 0.4946,
      "step": 6385
    },
    {
      "epoch": 1.5382763601348097,
      "grad_norm": 1.015625,
      "learning_rate": 0.00015576159991238423,
      "loss": 0.4861,
      "step": 6390
    },
    {
      "epoch": 1.539480019258546,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015569358168890436,
      "loss": 0.5153,
      "step": 6395
    },
    {
      "epoch": 1.5406836783822822,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015562553876725623,
      "loss": 0.4729,
      "step": 6400
    },
    {
      "epoch": 1.5418873375060183,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00015555747120850615,
      "loss": 0.4959,
      "step": 6405
    },
    {
      "epoch": 1.5430909966297546,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015548937907374245,
      "loss": 0.5108,
      "step": 6410
    },
    {
      "epoch": 1.5442946557534905,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015542126242407557,
      "loss": 0.4787,
      "step": 6415
    },
    {
      "epoch": 1.5454983148772268,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001553531213206379,
      "loss": 0.5225,
      "step": 6420
    },
    {
      "epoch": 1.5467019740009629,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015528495582458384,
      "loss": 0.4815,
      "step": 6425
    },
    {
      "epoch": 1.547905633124699,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015521676599708958,
      "loss": 0.5292,
      "step": 6430
    },
    {
      "epoch": 1.5491092922484353,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001551485518993533,
      "loss": 0.4928,
      "step": 6435
    },
    {
      "epoch": 1.5503129513721714,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00015508031359259483,
      "loss": 0.4872,
      "step": 6440
    },
    {
      "epoch": 1.5515166104959075,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00015501205113805573,
      "loss": 0.4895,
      "step": 6445
    },
    {
      "epoch": 1.5527202696196438,
      "grad_norm": 1.015625,
      "learning_rate": 0.00015494376459699932,
      "loss": 0.5001,
      "step": 6450
    },
    {
      "epoch": 1.55392392874338,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001548754540307105,
      "loss": 0.493,
      "step": 6455
    },
    {
      "epoch": 1.555127587867116,
      "grad_norm": 1.03125,
      "learning_rate": 0.00015480711950049565,
      "loss": 0.4657,
      "step": 6460
    },
    {
      "epoch": 1.5563312469908523,
      "grad_norm": 1.1875,
      "learning_rate": 0.00015473876106768283,
      "loss": 0.4959,
      "step": 6465
    },
    {
      "epoch": 1.5575349061145882,
      "grad_norm": 1.09375,
      "learning_rate": 0.00015467037879362134,
      "loss": 0.4825,
      "step": 6470
    },
    {
      "epoch": 1.5587385652383245,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015460197273968205,
      "loss": 0.5103,
      "step": 6475
    },
    {
      "epoch": 1.5599422243620606,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015453354296725709,
      "loss": 0.4819,
      "step": 6480
    },
    {
      "epoch": 1.5611458834857967,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0001544650895377599,
      "loss": 0.4982,
      "step": 6485
    },
    {
      "epoch": 1.562349542609533,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015439661251262515,
      "loss": 0.5325,
      "step": 6490
    },
    {
      "epoch": 1.5635532017332692,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015432811195330867,
      "loss": 0.4814,
      "step": 6495
    },
    {
      "epoch": 1.5647568608570053,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001542595879212874,
      "loss": 0.5118,
      "step": 6500
    },
    {
      "epoch": 1.5647568608570053,
      "eval_loss": 0.41606834530830383,
      "eval_runtime": 2.3602,
      "eval_samples_per_second": 84.737,
      "eval_steps_per_second": 84.737,
      "step": 6500
    },
    {
      "epoch": 1.5659605199807416,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001541910404780594,
      "loss": 0.5079,
      "step": 6505
    },
    {
      "epoch": 1.5671641791044775,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00015412246968514375,
      "loss": 0.4948,
      "step": 6510
    },
    {
      "epoch": 1.5683678382282138,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015405387560408037,
      "loss": 0.4918,
      "step": 6515
    },
    {
      "epoch": 1.56957149735195,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015398525829643013,
      "loss": 0.4902,
      "step": 6520
    },
    {
      "epoch": 1.570775156475686,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00015391661782377487,
      "loss": 0.4527,
      "step": 6525
    },
    {
      "epoch": 1.5719788155994223,
      "grad_norm": 1.03125,
      "learning_rate": 0.00015384795424771706,
      "loss": 0.5237,
      "step": 6530
    },
    {
      "epoch": 1.5731824747231584,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015377926762987997,
      "loss": 0.5072,
      "step": 6535
    },
    {
      "epoch": 1.5743861338468945,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001537105580319076,
      "loss": 0.4792,
      "step": 6540
    },
    {
      "epoch": 1.5755897929706308,
      "grad_norm": 1.125,
      "learning_rate": 0.0001536418255154644,
      "loss": 0.4989,
      "step": 6545
    },
    {
      "epoch": 1.5767934520943667,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001535730701422356,
      "loss": 0.4838,
      "step": 6550
    },
    {
      "epoch": 1.577997111218103,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015350429197392686,
      "loss": 0.4829,
      "step": 6555
    },
    {
      "epoch": 1.5792007703418391,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015343549107226418,
      "loss": 0.479,
      "step": 6560
    },
    {
      "epoch": 1.5804044294655752,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001533666674989942,
      "loss": 0.4809,
      "step": 6565
    },
    {
      "epoch": 1.5816080885893116,
      "grad_norm": 1.0,
      "learning_rate": 0.00015329782131588368,
      "loss": 0.496,
      "step": 6570
    },
    {
      "epoch": 1.5828117477130477,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001532289525847198,
      "loss": 0.5168,
      "step": 6575
    },
    {
      "epoch": 1.5840154068367838,
      "grad_norm": 0.91796875,
      "learning_rate": 0.00015316006136731,
      "loss": 0.4972,
      "step": 6580
    },
    {
      "epoch": 1.58521906596052,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015309114772548175,
      "loss": 0.4799,
      "step": 6585
    },
    {
      "epoch": 1.5864227250842562,
      "grad_norm": 1.125,
      "learning_rate": 0.0001530222117210828,
      "loss": 0.4974,
      "step": 6590
    },
    {
      "epoch": 1.5876263842079923,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00015295325341598088,
      "loss": 0.4733,
      "step": 6595
    },
    {
      "epoch": 1.5888300433317286,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001528842728720638,
      "loss": 0.4748,
      "step": 6600
    },
    {
      "epoch": 1.5900337024554645,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00015281527015123924,
      "loss": 0.5008,
      "step": 6605
    },
    {
      "epoch": 1.5912373615792008,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001527462453154349,
      "loss": 0.485,
      "step": 6610
    },
    {
      "epoch": 1.592441020702937,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001526771984265982,
      "loss": 0.5183,
      "step": 6615
    },
    {
      "epoch": 1.593644679826673,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015260812954669646,
      "loss": 0.4841,
      "step": 6620
    },
    {
      "epoch": 1.5948483389504093,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015253903873771666,
      "loss": 0.4371,
      "step": 6625
    },
    {
      "epoch": 1.5960519980741454,
      "grad_norm": 1.0,
      "learning_rate": 0.00015246992606166552,
      "loss": 0.4923,
      "step": 6630
    },
    {
      "epoch": 1.5972556571978815,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015240079158056934,
      "loss": 0.4436,
      "step": 6635
    },
    {
      "epoch": 1.5984593163216179,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00015233163535647402,
      "loss": 0.4747,
      "step": 6640
    },
    {
      "epoch": 1.5996629754453537,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00015226245745144493,
      "loss": 0.5051,
      "step": 6645
    },
    {
      "epoch": 1.60086663456909,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015219325792756696,
      "loss": 0.4876,
      "step": 6650
    },
    {
      "epoch": 1.6020702936928262,
      "grad_norm": 1.046875,
      "learning_rate": 0.00015212403684694434,
      "loss": 0.4998,
      "step": 6655
    },
    {
      "epoch": 1.6032739528165623,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001520547942717007,
      "loss": 0.5161,
      "step": 6660
    },
    {
      "epoch": 1.6044776119402986,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00015198553026397893,
      "loss": 0.5203,
      "step": 6665
    },
    {
      "epoch": 1.6056812710640347,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00015191624488594116,
      "loss": 0.5167,
      "step": 6670
    },
    {
      "epoch": 1.6068849301877708,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00015184693819976868,
      "loss": 0.5026,
      "step": 6675
    },
    {
      "epoch": 1.608088589311507,
      "grad_norm": 1.046875,
      "learning_rate": 0.000151777610267662,
      "loss": 0.5318,
      "step": 6680
    },
    {
      "epoch": 1.609292248435243,
      "grad_norm": 1.0,
      "learning_rate": 0.00015170826115184054,
      "loss": 0.5074,
      "step": 6685
    },
    {
      "epoch": 1.6104959075589793,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00015163889091454285,
      "loss": 0.4698,
      "step": 6690
    },
    {
      "epoch": 1.6116995666827154,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00015156949961802637,
      "loss": 0.4793,
      "step": 6695
    },
    {
      "epoch": 1.6129032258064515,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001515000873245675,
      "loss": 0.4919,
      "step": 6700
    },
    {
      "epoch": 1.6141068849301878,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015143065409646143,
      "loss": 0.4977,
      "step": 6705
    },
    {
      "epoch": 1.615310544053924,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001513611999960222,
      "loss": 0.4719,
      "step": 6710
    },
    {
      "epoch": 1.61651420317766,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00015129172508558252,
      "loss": 0.4371,
      "step": 6715
    },
    {
      "epoch": 1.6177178623013964,
      "grad_norm": 1.0625,
      "learning_rate": 0.00015122222942749378,
      "loss": 0.5116,
      "step": 6720
    },
    {
      "epoch": 1.6189215214251322,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00015115271308412603,
      "loss": 0.4868,
      "step": 6725
    },
    {
      "epoch": 1.6201251805488686,
      "grad_norm": 1.109375,
      "learning_rate": 0.00015108317611786784,
      "loss": 0.4558,
      "step": 6730
    },
    {
      "epoch": 1.6213288396726049,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001510136185911264,
      "loss": 0.4995,
      "step": 6735
    },
    {
      "epoch": 1.6225324987963408,
      "grad_norm": 1.015625,
      "learning_rate": 0.00015094404056632712,
      "loss": 0.4806,
      "step": 6740
    },
    {
      "epoch": 1.623736157920077,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00015087444210591406,
      "loss": 0.4915,
      "step": 6745
    },
    {
      "epoch": 1.6249398170438132,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00015080482327234953,
      "loss": 0.4955,
      "step": 6750
    },
    {
      "epoch": 1.6261434761675493,
      "grad_norm": 0.96875,
      "learning_rate": 0.00015073518412811403,
      "loss": 0.5119,
      "step": 6755
    },
    {
      "epoch": 1.6273471352912856,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001506655247357064,
      "loss": 0.4954,
      "step": 6760
    },
    {
      "epoch": 1.6285507944150217,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00015059584515764364,
      "loss": 0.5023,
      "step": 6765
    },
    {
      "epoch": 1.6297544535387578,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015052614545646076,
      "loss": 0.4907,
      "step": 6770
    },
    {
      "epoch": 1.6309581126624941,
      "grad_norm": 1.0625,
      "learning_rate": 0.000150456425694711,
      "loss": 0.4661,
      "step": 6775
    },
    {
      "epoch": 1.63216177178623,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00015038668593496548,
      "loss": 0.4697,
      "step": 6780
    },
    {
      "epoch": 1.6333654309099663,
      "grad_norm": 1.09375,
      "learning_rate": 0.00015031692623981328,
      "loss": 0.4583,
      "step": 6785
    },
    {
      "epoch": 1.6345690900337024,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00015024714667186142,
      "loss": 0.5061,
      "step": 6790
    },
    {
      "epoch": 1.6357727491574385,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001501773472937348,
      "loss": 0.4883,
      "step": 6795
    },
    {
      "epoch": 1.6369764082811749,
      "grad_norm": 1.140625,
      "learning_rate": 0.00015010752816807586,
      "loss": 0.5046,
      "step": 6800
    },
    {
      "epoch": 1.638180067404911,
      "grad_norm": 1.078125,
      "learning_rate": 0.00015003768935754511,
      "loss": 0.4965,
      "step": 6805
    },
    {
      "epoch": 1.639383726528647,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014996783092482041,
      "loss": 0.4708,
      "step": 6810
    },
    {
      "epoch": 1.6405873856523834,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001498979529325975,
      "loss": 0.4768,
      "step": 6815
    },
    {
      "epoch": 1.6417910447761193,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014982805544358938,
      "loss": 0.4742,
      "step": 6820
    },
    {
      "epoch": 1.6429947038998556,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00014975813852052683,
      "loss": 0.4778,
      "step": 6825
    },
    {
      "epoch": 1.6441983630235917,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00014968820222615795,
      "loss": 0.5008,
      "step": 6830
    },
    {
      "epoch": 1.6454020221473278,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00014961824662324818,
      "loss": 0.4684,
      "step": 6835
    },
    {
      "epoch": 1.646605681271064,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00014954827177458035,
      "loss": 0.4979,
      "step": 6840
    },
    {
      "epoch": 1.6478093403948002,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014947827774295454,
      "loss": 0.4698,
      "step": 6845
    },
    {
      "epoch": 1.6490129995185363,
      "grad_norm": 1.125,
      "learning_rate": 0.0001494082645911881,
      "loss": 0.5106,
      "step": 6850
    },
    {
      "epoch": 1.6502166586422726,
      "grad_norm": 1.09375,
      "learning_rate": 0.00014933823238211542,
      "loss": 0.4597,
      "step": 6855
    },
    {
      "epoch": 1.6514203177660085,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014926818117858812,
      "loss": 0.4659,
      "step": 6860
    },
    {
      "epoch": 1.6526239768897448,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001491981110434748,
      "loss": 0.4786,
      "step": 6865
    },
    {
      "epoch": 1.653827636013481,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014912802203966103,
      "loss": 0.5137,
      "step": 6870
    },
    {
      "epoch": 1.655031295137217,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00014905791423004946,
      "loss": 0.4361,
      "step": 6875
    },
    {
      "epoch": 1.6562349542609534,
      "grad_norm": 1.09375,
      "learning_rate": 0.00014898778767755938,
      "loss": 0.4909,
      "step": 6880
    },
    {
      "epoch": 1.6574386133846895,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014891764244512706,
      "loss": 0.5199,
      "step": 6885
    },
    {
      "epoch": 1.6586422725084256,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001488474785957055,
      "loss": 0.5022,
      "step": 6890
    },
    {
      "epoch": 1.6598459316321619,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00014877729619226448,
      "loss": 0.4733,
      "step": 6895
    },
    {
      "epoch": 1.661049590755898,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00014870709529779026,
      "loss": 0.471,
      "step": 6900
    },
    {
      "epoch": 1.662253249879634,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014863687597528588,
      "loss": 0.4876,
      "step": 6905
    },
    {
      "epoch": 1.6634569090033704,
      "grad_norm": 1.0625,
      "learning_rate": 0.00014856663828777077,
      "loss": 0.4721,
      "step": 6910
    },
    {
      "epoch": 1.6646605681271063,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014849638229828095,
      "loss": 0.5007,
      "step": 6915
    },
    {
      "epoch": 1.6658642272508426,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014842610806986881,
      "loss": 0.484,
      "step": 6920
    },
    {
      "epoch": 1.6670678863745787,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014835581566560312,
      "loss": 0.4783,
      "step": 6925
    },
    {
      "epoch": 1.6682715454983148,
      "grad_norm": 1.125,
      "learning_rate": 0.00014828550514856895,
      "loss": 0.5209,
      "step": 6930
    },
    {
      "epoch": 1.6694752046220511,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014821517658186763,
      "loss": 0.464,
      "step": 6935
    },
    {
      "epoch": 1.6706788637457872,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00014814483002861673,
      "loss": 0.4731,
      "step": 6940
    },
    {
      "epoch": 1.6718825228695233,
      "grad_norm": 1.171875,
      "learning_rate": 0.00014807446555194996,
      "loss": 0.5083,
      "step": 6945
    },
    {
      "epoch": 1.6730861819932596,
      "grad_norm": 1.046875,
      "learning_rate": 0.000148004083215017,
      "loss": 0.4457,
      "step": 6950
    },
    {
      "epoch": 1.6742898411169955,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014793368308098367,
      "loss": 0.4951,
      "step": 6955
    },
    {
      "epoch": 1.6754935002407318,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001478632652130318,
      "loss": 0.4611,
      "step": 6960
    },
    {
      "epoch": 1.676697159364468,
      "grad_norm": 1.0625,
      "learning_rate": 0.00014779282967435902,
      "loss": 0.5022,
      "step": 6965
    },
    {
      "epoch": 1.677900818488204,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00014772237652817887,
      "loss": 0.4627,
      "step": 6970
    },
    {
      "epoch": 1.6791044776119404,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001476519058377207,
      "loss": 0.4781,
      "step": 6975
    },
    {
      "epoch": 1.6803081367356765,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001475814176662296,
      "loss": 0.4507,
      "step": 6980
    },
    {
      "epoch": 1.6815117958594126,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001475109120769664,
      "loss": 0.4777,
      "step": 6985
    },
    {
      "epoch": 1.682715454983149,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001474403891332074,
      "loss": 0.5116,
      "step": 6990
    },
    {
      "epoch": 1.6839191141068848,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00014736984889824467,
      "loss": 0.4651,
      "step": 6995
    },
    {
      "epoch": 1.685122773230621,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014729929143538569,
      "loss": 0.4814,
      "step": 7000
    },
    {
      "epoch": 1.685122773230621,
      "eval_loss": 0.4109489321708679,
      "eval_runtime": 2.3671,
      "eval_samples_per_second": 84.49,
      "eval_steps_per_second": 84.49,
      "step": 7000
    },
    {
      "epoch": 1.6863264323543572,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014722871680795344,
      "loss": 0.4843,
      "step": 7005
    },
    {
      "epoch": 1.6875300914780933,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014715812507928622,
      "loss": 0.4788,
      "step": 7010
    },
    {
      "epoch": 1.6887337506018296,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00014708751631273783,
      "loss": 0.5014,
      "step": 7015
    },
    {
      "epoch": 1.6899374097255657,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014701689057167728,
      "loss": 0.4386,
      "step": 7020
    },
    {
      "epoch": 1.6911410688493018,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00014694624791948874,
      "loss": 0.465,
      "step": 7025
    },
    {
      "epoch": 1.6923447279730381,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001468755884195717,
      "loss": 0.4641,
      "step": 7030
    },
    {
      "epoch": 1.6935483870967742,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00014680491213534065,
      "loss": 0.497,
      "step": 7035
    },
    {
      "epoch": 1.6947520462205103,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0001467342191302252,
      "loss": 0.4729,
      "step": 7040
    },
    {
      "epoch": 1.6959557053442467,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014666350946766998,
      "loss": 0.4911,
      "step": 7045
    },
    {
      "epoch": 1.6971593644679825,
      "grad_norm": 1.0,
      "learning_rate": 0.00014659278321113453,
      "loss": 0.4618,
      "step": 7050
    },
    {
      "epoch": 1.6983630235917189,
      "grad_norm": 1.0625,
      "learning_rate": 0.00014652204042409333,
      "loss": 0.456,
      "step": 7055
    },
    {
      "epoch": 1.699566682715455,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00014645128117003563,
      "loss": 0.4735,
      "step": 7060
    },
    {
      "epoch": 1.700770341839191,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00014638050551246554,
      "loss": 0.4519,
      "step": 7065
    },
    {
      "epoch": 1.7019740009629274,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014630971351490177,
      "loss": 0.4905,
      "step": 7070
    },
    {
      "epoch": 1.7031776600866635,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00014623890524087787,
      "loss": 0.5093,
      "step": 7075
    },
    {
      "epoch": 1.7043813192103996,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014616808075394185,
      "loss": 0.4425,
      "step": 7080
    },
    {
      "epoch": 1.705584978334136,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00014609724011765626,
      "loss": 0.4641,
      "step": 7085
    },
    {
      "epoch": 1.7067886374578718,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00014602638339559834,
      "loss": 0.4622,
      "step": 7090
    },
    {
      "epoch": 1.7079922965816081,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001459555106513595,
      "loss": 0.4513,
      "step": 7095
    },
    {
      "epoch": 1.7091959557053442,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001458846219485457,
      "loss": 0.4843,
      "step": 7100
    },
    {
      "epoch": 1.7103996148290803,
      "grad_norm": 1.09375,
      "learning_rate": 0.00014581371735077726,
      "loss": 0.4659,
      "step": 7105
    },
    {
      "epoch": 1.7116032739528166,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00014574279692168858,
      "loss": 0.4964,
      "step": 7110
    },
    {
      "epoch": 1.7128069330765527,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00014567186072492842,
      "loss": 0.4776,
      "step": 7115
    },
    {
      "epoch": 1.7140105922002888,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00014560090882415963,
      "loss": 0.4844,
      "step": 7120
    },
    {
      "epoch": 1.7152142513240252,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00014552994128305918,
      "loss": 0.4485,
      "step": 7125
    },
    {
      "epoch": 1.716417910447761,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00014545895816531806,
      "loss": 0.5152,
      "step": 7130
    },
    {
      "epoch": 1.7176215695714974,
      "grad_norm": 1.09375,
      "learning_rate": 0.00014538795953464127,
      "loss": 0.4929,
      "step": 7135
    },
    {
      "epoch": 1.7188252286952335,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014531694545474768,
      "loss": 0.4854,
      "step": 7140
    },
    {
      "epoch": 1.7200288878189696,
      "grad_norm": 1.0625,
      "learning_rate": 0.00014524591598937006,
      "loss": 0.4483,
      "step": 7145
    },
    {
      "epoch": 1.7212325469427059,
      "grad_norm": 0.921875,
      "learning_rate": 0.00014517487120225498,
      "loss": 0.4767,
      "step": 7150
    },
    {
      "epoch": 1.722436206066442,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014510381115716278,
      "loss": 0.4812,
      "step": 7155
    },
    {
      "epoch": 1.723639865190178,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00014503273591786743,
      "loss": 0.4936,
      "step": 7160
    },
    {
      "epoch": 1.7248435243139144,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014496164554815666,
      "loss": 0.4479,
      "step": 7165
    },
    {
      "epoch": 1.7260471834376505,
      "grad_norm": 1.03125,
      "learning_rate": 0.00014489054011183162,
      "loss": 0.4691,
      "step": 7170
    },
    {
      "epoch": 1.7272508425613866,
      "grad_norm": 1.125,
      "learning_rate": 0.0001448194196727071,
      "loss": 0.522,
      "step": 7175
    },
    {
      "epoch": 1.728454501685123,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001447482842946113,
      "loss": 0.4568,
      "step": 7180
    },
    {
      "epoch": 1.7296581608088588,
      "grad_norm": 1.140625,
      "learning_rate": 0.00014467713404138588,
      "loss": 0.5027,
      "step": 7185
    },
    {
      "epoch": 1.7308618199325951,
      "grad_norm": 1.09375,
      "learning_rate": 0.00014460596897688578,
      "loss": 0.5168,
      "step": 7190
    },
    {
      "epoch": 1.7320654790563312,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014453478916497925,
      "loss": 0.4555,
      "step": 7195
    },
    {
      "epoch": 1.7332691381800673,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014446359466954787,
      "loss": 0.4819,
      "step": 7200
    },
    {
      "epoch": 1.7344727973038037,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00014439238555448623,
      "loss": 0.4617,
      "step": 7205
    },
    {
      "epoch": 1.7356764564275398,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00014432116188370218,
      "loss": 0.4842,
      "step": 7210
    },
    {
      "epoch": 1.7368801155512759,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001442499237211166,
      "loss": 0.4424,
      "step": 7215
    },
    {
      "epoch": 1.7380837746750122,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001441786711306633,
      "loss": 0.4828,
      "step": 7220
    },
    {
      "epoch": 1.739287433798748,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00014410740417628912,
      "loss": 0.5024,
      "step": 7225
    },
    {
      "epoch": 1.7404910929224844,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001440361229219538,
      "loss": 0.4626,
      "step": 7230
    },
    {
      "epoch": 1.7416947520462205,
      "grad_norm": 1.109375,
      "learning_rate": 0.00014396482743162986,
      "loss": 0.4882,
      "step": 7235
    },
    {
      "epoch": 1.7428984111699566,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00014389351776930264,
      "loss": 0.4854,
      "step": 7240
    },
    {
      "epoch": 1.744102070293693,
      "grad_norm": 0.953125,
      "learning_rate": 0.00014382219399897015,
      "loss": 0.4766,
      "step": 7245
    },
    {
      "epoch": 1.745305729417429,
      "grad_norm": 1.375,
      "learning_rate": 0.0001437508561846431,
      "loss": 0.4777,
      "step": 7250
    },
    {
      "epoch": 1.746509388541165,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001436795043903448,
      "loss": 0.4624,
      "step": 7255
    },
    {
      "epoch": 1.7477130476649014,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001436081386801111,
      "loss": 0.4742,
      "step": 7260
    },
    {
      "epoch": 1.7489167067886373,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00014353675911799033,
      "loss": 0.4871,
      "step": 7265
    },
    {
      "epoch": 1.7501203659123736,
      "grad_norm": 1.0,
      "learning_rate": 0.00014346536576804328,
      "loss": 0.4724,
      "step": 7270
    },
    {
      "epoch": 1.7513240250361097,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00014339395869434306,
      "loss": 0.4546,
      "step": 7275
    },
    {
      "epoch": 1.7525276841598458,
      "grad_norm": 1.03125,
      "learning_rate": 0.00014332253796097517,
      "loss": 0.4565,
      "step": 7280
    },
    {
      "epoch": 1.7537313432835822,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00014325110363203733,
      "loss": 0.4603,
      "step": 7285
    },
    {
      "epoch": 1.7549350024073183,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00014317965577163942,
      "loss": 0.4641,
      "step": 7290
    },
    {
      "epoch": 1.7561386615310544,
      "grad_norm": 0.953125,
      "learning_rate": 0.00014310819444390352,
      "loss": 0.4569,
      "step": 7295
    },
    {
      "epoch": 1.7573423206547907,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00014303671971296384,
      "loss": 0.4512,
      "step": 7300
    },
    {
      "epoch": 1.7585459797785266,
      "grad_norm": 0.96875,
      "learning_rate": 0.0001429652316429665,
      "loss": 0.4693,
      "step": 7305
    },
    {
      "epoch": 1.7597496389022629,
      "grad_norm": 1.0625,
      "learning_rate": 0.00014289373029806966,
      "loss": 0.5019,
      "step": 7310
    },
    {
      "epoch": 1.7609532980259992,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001428222157424434,
      "loss": 0.4469,
      "step": 7315
    },
    {
      "epoch": 1.762156957149735,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00014275068804026967,
      "loss": 0.4632,
      "step": 7320
    },
    {
      "epoch": 1.7633606162734714,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014267914725574218,
      "loss": 0.4967,
      "step": 7325
    },
    {
      "epoch": 1.7645642753972075,
      "grad_norm": 1.03125,
      "learning_rate": 0.00014260759345306634,
      "loss": 0.4606,
      "step": 7330
    },
    {
      "epoch": 1.7657679345209436,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014253602669645933,
      "loss": 0.5006,
      "step": 7335
    },
    {
      "epoch": 1.76697159364468,
      "grad_norm": 1.015625,
      "learning_rate": 0.00014246444705014996,
      "loss": 0.4755,
      "step": 7340
    },
    {
      "epoch": 1.768175252768416,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0001423928545783785,
      "loss": 0.4979,
      "step": 7345
    },
    {
      "epoch": 1.7693789118921521,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00014232124934539686,
      "loss": 0.4587,
      "step": 7350
    },
    {
      "epoch": 1.7705825710158885,
      "grad_norm": 0.96875,
      "learning_rate": 0.00014224963141546833,
      "loss": 0.4827,
      "step": 7355
    },
    {
      "epoch": 1.7717862301396243,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001421780008528676,
      "loss": 0.4649,
      "step": 7360
    },
    {
      "epoch": 1.7729898892633607,
      "grad_norm": 1.109375,
      "learning_rate": 0.00014210635772188065,
      "loss": 0.4997,
      "step": 7365
    },
    {
      "epoch": 1.7741935483870968,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001420347020868049,
      "loss": 0.4525,
      "step": 7370
    },
    {
      "epoch": 1.7753972075108329,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001419630340119488,
      "loss": 0.4857,
      "step": 7375
    },
    {
      "epoch": 1.7766008666345692,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00014189135356163212,
      "loss": 0.4892,
      "step": 7380
    },
    {
      "epoch": 1.7778045257583053,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00014181966080018568,
      "loss": 0.4653,
      "step": 7385
    },
    {
      "epoch": 1.7790081848820414,
      "grad_norm": 0.91015625,
      "learning_rate": 0.0001417479557919512,
      "loss": 0.4671,
      "step": 7390
    },
    {
      "epoch": 1.7802118440057777,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0001416762386012817,
      "loss": 0.4641,
      "step": 7395
    },
    {
      "epoch": 1.7814155031295136,
      "grad_norm": 1.0,
      "learning_rate": 0.00014160450929254082,
      "loss": 0.4733,
      "step": 7400
    },
    {
      "epoch": 1.78261916225325,
      "grad_norm": 1.125,
      "learning_rate": 0.00014153276793010334,
      "loss": 0.4886,
      "step": 7405
    },
    {
      "epoch": 1.783822821376986,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014146101457835464,
      "loss": 0.4662,
      "step": 7410
    },
    {
      "epoch": 1.785026480500722,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014138924930169098,
      "loss": 0.4709,
      "step": 7415
    },
    {
      "epoch": 1.7862301396244584,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0001413174721645193,
      "loss": 0.4808,
      "step": 7420
    },
    {
      "epoch": 1.7874337987481945,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00014124568323125724,
      "loss": 0.4524,
      "step": 7425
    },
    {
      "epoch": 1.7886374578719306,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0001411738825663329,
      "loss": 0.4687,
      "step": 7430
    },
    {
      "epoch": 1.789841116995667,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00014110207023418497,
      "loss": 0.4937,
      "step": 7435
    },
    {
      "epoch": 1.7910447761194028,
      "grad_norm": 1.0,
      "learning_rate": 0.00014103024629926264,
      "loss": 0.4673,
      "step": 7440
    },
    {
      "epoch": 1.7922484352431391,
      "grad_norm": 1.078125,
      "learning_rate": 0.00014095841082602552,
      "loss": 0.4704,
      "step": 7445
    },
    {
      "epoch": 1.7934520943668752,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001408865638789435,
      "loss": 0.4909,
      "step": 7450
    },
    {
      "epoch": 1.7946557534906113,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00014081470552249685,
      "loss": 0.4633,
      "step": 7455
    },
    {
      "epoch": 1.7958594126143477,
      "grad_norm": 1.09375,
      "learning_rate": 0.000140742835821176,
      "loss": 0.452,
      "step": 7460
    },
    {
      "epoch": 1.7970630717380838,
      "grad_norm": 1.0,
      "learning_rate": 0.00014067095483948167,
      "loss": 0.4742,
      "step": 7465
    },
    {
      "epoch": 1.7982667308618199,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00014059906264192457,
      "loss": 0.4509,
      "step": 7470
    },
    {
      "epoch": 1.7994703899855562,
      "grad_norm": 1.140625,
      "learning_rate": 0.00014052715929302557,
      "loss": 0.4924,
      "step": 7475
    },
    {
      "epoch": 1.8006740491092923,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014045524485731554,
      "loss": 0.4548,
      "step": 7480
    },
    {
      "epoch": 1.8018777082330284,
      "grad_norm": 1.046875,
      "learning_rate": 0.00014038331939933527,
      "loss": 0.4899,
      "step": 7485
    },
    {
      "epoch": 1.8030813673567647,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00014031138298363542,
      "loss": 0.4613,
      "step": 7490
    },
    {
      "epoch": 1.8042850264805006,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001402394356747766,
      "loss": 0.4537,
      "step": 7495
    },
    {
      "epoch": 1.805488685604237,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00014016747753732903,
      "loss": 0.4488,
      "step": 7500
    },
    {
      "epoch": 1.805488685604237,
      "eval_loss": 0.40007805824279785,
      "eval_runtime": 2.3802,
      "eval_samples_per_second": 84.026,
      "eval_steps_per_second": 84.026,
      "step": 7500
    },
    {
      "epoch": 1.806692344727973,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00014009550863587278,
      "loss": 0.4985,
      "step": 7505
    },
    {
      "epoch": 1.8078960038517091,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00014002352903499753,
      "loss": 0.4562,
      "step": 7510
    },
    {
      "epoch": 1.8090996629754454,
      "grad_norm": 1.09375,
      "learning_rate": 0.00013995153879930254,
      "loss": 0.4752,
      "step": 7515
    },
    {
      "epoch": 1.8103033220991815,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013987953799339667,
      "loss": 0.4579,
      "step": 7520
    },
    {
      "epoch": 1.8115069812229176,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013980752668189822,
      "loss": 0.4484,
      "step": 7525
    },
    {
      "epoch": 1.812710640346654,
      "grad_norm": 1.0,
      "learning_rate": 0.00013973550492943495,
      "loss": 0.4812,
      "step": 7530
    },
    {
      "epoch": 1.8139142994703898,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013966347280064395,
      "loss": 0.507,
      "step": 7535
    },
    {
      "epoch": 1.8151179585941262,
      "grad_norm": 1.1875,
      "learning_rate": 0.00013959143036017168,
      "loss": 0.4822,
      "step": 7540
    },
    {
      "epoch": 1.8163216177178623,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001395193776726738,
      "loss": 0.4889,
      "step": 7545
    },
    {
      "epoch": 1.8175252768415984,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0001394473148028152,
      "loss": 0.4593,
      "step": 7550
    },
    {
      "epoch": 1.8187289359653347,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001393752418152699,
      "loss": 0.5091,
      "step": 7555
    },
    {
      "epoch": 1.8199325950890708,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013930315877472093,
      "loss": 0.4611,
      "step": 7560
    },
    {
      "epoch": 1.821136254212807,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013923106574586055,
      "loss": 0.4749,
      "step": 7565
    },
    {
      "epoch": 1.8223399133365432,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001391589627933897,
      "loss": 0.4552,
      "step": 7570
    },
    {
      "epoch": 1.823543572460279,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013908684998201846,
      "loss": 0.476,
      "step": 7575
    },
    {
      "epoch": 1.8247472315840154,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00013901472737646564,
      "loss": 0.468,
      "step": 7580
    },
    {
      "epoch": 1.8259508907077515,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00013894259504145887,
      "loss": 0.4631,
      "step": 7585
    },
    {
      "epoch": 1.8271545498314876,
      "grad_norm": 1.140625,
      "learning_rate": 0.00013887045304173447,
      "loss": 0.4736,
      "step": 7590
    },
    {
      "epoch": 1.828358208955224,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00013879830144203757,
      "loss": 0.4895,
      "step": 7595
    },
    {
      "epoch": 1.82956186807896,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001387261403071217,
      "loss": 0.4471,
      "step": 7600
    },
    {
      "epoch": 1.8307655272026961,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00013865396970174918,
      "loss": 0.4647,
      "step": 7605
    },
    {
      "epoch": 1.8319691863264325,
      "grad_norm": 0.984375,
      "learning_rate": 0.00013858178969069067,
      "loss": 0.4823,
      "step": 7610
    },
    {
      "epoch": 1.8331728454501686,
      "grad_norm": 0.9375,
      "learning_rate": 0.00013850960033872528,
      "loss": 0.4635,
      "step": 7615
    },
    {
      "epoch": 1.8343765045739047,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00013843740171064057,
      "loss": 0.4798,
      "step": 7620
    },
    {
      "epoch": 1.835580163697641,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00013836519387123243,
      "loss": 0.4532,
      "step": 7625
    },
    {
      "epoch": 1.8367838228213769,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001382929768853049,
      "loss": 0.4852,
      "step": 7630
    },
    {
      "epoch": 1.8379874819451132,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001382207508176704,
      "loss": 0.4542,
      "step": 7635
    },
    {
      "epoch": 1.8391911410688493,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013814851573314932,
      "loss": 0.4939,
      "step": 7640
    },
    {
      "epoch": 1.8403948001925854,
      "grad_norm": 1.0,
      "learning_rate": 0.00013807627169657032,
      "loss": 0.4772,
      "step": 7645
    },
    {
      "epoch": 1.8415984593163217,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00013800401877276996,
      "loss": 0.4939,
      "step": 7650
    },
    {
      "epoch": 1.8428021184400578,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013793175702659285,
      "loss": 0.4659,
      "step": 7655
    },
    {
      "epoch": 1.844005777563794,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013785948652289147,
      "loss": 0.4671,
      "step": 7660
    },
    {
      "epoch": 1.8452094366875302,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001377872073265262,
      "loss": 0.4965,
      "step": 7665
    },
    {
      "epoch": 1.8464130958112661,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001377149195023652,
      "loss": 0.4812,
      "step": 7670
    },
    {
      "epoch": 1.8476167549350024,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00013764262311528435,
      "loss": 0.4793,
      "step": 7675
    },
    {
      "epoch": 1.8488204140587385,
      "grad_norm": 0.953125,
      "learning_rate": 0.00013757031823016726,
      "loss": 0.4397,
      "step": 7680
    },
    {
      "epoch": 1.8500240731824746,
      "grad_norm": 1.015625,
      "learning_rate": 0.00013749800491190517,
      "loss": 0.4793,
      "step": 7685
    },
    {
      "epoch": 1.851227732306211,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00013742568322539682,
      "loss": 0.4907,
      "step": 7690
    },
    {
      "epoch": 1.852431391429947,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00013735335323554853,
      "loss": 0.4401,
      "step": 7695
    },
    {
      "epoch": 1.8536350505536832,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00013728101500727407,
      "loss": 0.4786,
      "step": 7700
    },
    {
      "epoch": 1.8548387096774195,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00013720866860549456,
      "loss": 0.4559,
      "step": 7705
    },
    {
      "epoch": 1.8560423688011554,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00013713631409513846,
      "loss": 0.4573,
      "step": 7710
    },
    {
      "epoch": 1.8572460279248917,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00013706395154114152,
      "loss": 0.479,
      "step": 7715
    },
    {
      "epoch": 1.8584496870486278,
      "grad_norm": 1.09375,
      "learning_rate": 0.00013699158100844677,
      "loss": 0.4797,
      "step": 7720
    },
    {
      "epoch": 1.8596533461723639,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001369192025620043,
      "loss": 0.4549,
      "step": 7725
    },
    {
      "epoch": 1.8608570052961002,
      "grad_norm": 1.140625,
      "learning_rate": 0.00013684681626677136,
      "loss": 0.4647,
      "step": 7730
    },
    {
      "epoch": 1.8620606644198363,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013677442218771227,
      "loss": 0.4867,
      "step": 7735
    },
    {
      "epoch": 1.8632643235435724,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001367020203897982,
      "loss": 0.468,
      "step": 7740
    },
    {
      "epoch": 1.8644679826673087,
      "grad_norm": 0.921875,
      "learning_rate": 0.0001366296109380074,
      "loss": 0.4344,
      "step": 7745
    },
    {
      "epoch": 1.8656716417910446,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013655719389732494,
      "loss": 0.4853,
      "step": 7750
    },
    {
      "epoch": 1.866875300914781,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00013648476933274267,
      "loss": 0.4542,
      "step": 7755
    },
    {
      "epoch": 1.8680789600385173,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00013641233730925925,
      "loss": 0.4683,
      "step": 7760
    },
    {
      "epoch": 1.8692826191622531,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013633989789187998,
      "loss": 0.4593,
      "step": 7765
    },
    {
      "epoch": 1.8704862782859895,
      "grad_norm": 1.0625,
      "learning_rate": 0.00013626745114561682,
      "loss": 0.4625,
      "step": 7770
    },
    {
      "epoch": 1.8716899374097256,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001361949971354883,
      "loss": 0.4598,
      "step": 7775
    },
    {
      "epoch": 1.8728935965334617,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001361225359265194,
      "loss": 0.452,
      "step": 7780
    },
    {
      "epoch": 1.874097255657198,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001360500675837418,
      "loss": 0.4659,
      "step": 7785
    },
    {
      "epoch": 1.875300914780934,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013597759217219327,
      "loss": 0.4534,
      "step": 7790
    },
    {
      "epoch": 1.8765045739046702,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001359051097569181,
      "loss": 0.5062,
      "step": 7795
    },
    {
      "epoch": 1.8777082330284065,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013583262040296688,
      "loss": 0.4732,
      "step": 7800
    },
    {
      "epoch": 1.8789118921521424,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001357601241753964,
      "loss": 0.4987,
      "step": 7805
    },
    {
      "epoch": 1.8801155512758787,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001356876211392695,
      "loss": 0.4723,
      "step": 7810
    },
    {
      "epoch": 1.8813192103996148,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00013561511135965528,
      "loss": 0.4462,
      "step": 7815
    },
    {
      "epoch": 1.882522869523351,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001355425949016289,
      "loss": 0.4976,
      "step": 7820
    },
    {
      "epoch": 1.8837265286470872,
      "grad_norm": 1.09375,
      "learning_rate": 0.00013547007183027136,
      "loss": 0.4795,
      "step": 7825
    },
    {
      "epoch": 1.8849301877708233,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00013539754221066977,
      "loss": 0.4897,
      "step": 7830
    },
    {
      "epoch": 1.8861338468945594,
      "grad_norm": 1.171875,
      "learning_rate": 0.000135325006107917,
      "loss": 0.4789,
      "step": 7835
    },
    {
      "epoch": 1.8873375060182958,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001352524635871118,
      "loss": 0.4801,
      "step": 7840
    },
    {
      "epoch": 1.8885411651420316,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00013517991471335866,
      "loss": 0.4723,
      "step": 7845
    },
    {
      "epoch": 1.889744824265768,
      "grad_norm": 1.109375,
      "learning_rate": 0.00013510735955176773,
      "loss": 0.4408,
      "step": 7850
    },
    {
      "epoch": 1.890948483389504,
      "grad_norm": 1.09375,
      "learning_rate": 0.00013503479816745487,
      "loss": 0.4645,
      "step": 7855
    },
    {
      "epoch": 1.8921521425132402,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001349622306255415,
      "loss": 0.4407,
      "step": 7860
    },
    {
      "epoch": 1.8933558016369765,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00013488965699115456,
      "loss": 0.47,
      "step": 7865
    },
    {
      "epoch": 1.8945594607607126,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00013481707732942647,
      "loss": 0.4473,
      "step": 7870
    },
    {
      "epoch": 1.8957631198844487,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013474449170549501,
      "loss": 0.4851,
      "step": 7875
    },
    {
      "epoch": 1.896966779008185,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0001346719001845034,
      "loss": 0.4167,
      "step": 7880
    },
    {
      "epoch": 1.8981704381319209,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001345993028316001,
      "loss": 0.4626,
      "step": 7885
    },
    {
      "epoch": 1.8993740972556572,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0001345266997119388,
      "loss": 0.4798,
      "step": 7890
    },
    {
      "epoch": 1.9005777563793933,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0001344540908906783,
      "loss": 0.4781,
      "step": 7895
    },
    {
      "epoch": 1.9017814155031294,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001343814764329827,
      "loss": 0.4333,
      "step": 7900
    },
    {
      "epoch": 1.9029850746268657,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013430885640402102,
      "loss": 0.4794,
      "step": 7905
    },
    {
      "epoch": 1.9041887337506018,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001342362308689673,
      "loss": 0.4537,
      "step": 7910
    },
    {
      "epoch": 1.905392392874338,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00013416359989300045,
      "loss": 0.4523,
      "step": 7915
    },
    {
      "epoch": 1.9065960519980742,
      "grad_norm": 1.0625,
      "learning_rate": 0.0001340909635413045,
      "loss": 0.4772,
      "step": 7920
    },
    {
      "epoch": 1.9077997111218103,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013401832187906804,
      "loss": 0.5114,
      "step": 7925
    },
    {
      "epoch": 1.9090033702455464,
      "grad_norm": 1.0625,
      "learning_rate": 0.00013394567497148455,
      "loss": 0.4662,
      "step": 7930
    },
    {
      "epoch": 1.9102070293692828,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001338730228837522,
      "loss": 0.4646,
      "step": 7935
    },
    {
      "epoch": 1.9114106884930187,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013380036568107383,
      "loss": 0.4487,
      "step": 7940
    },
    {
      "epoch": 1.912614347616755,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013372770342865686,
      "loss": 0.4789,
      "step": 7945
    },
    {
      "epoch": 1.913818006740491,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00013365503619171322,
      "loss": 0.4429,
      "step": 7950
    },
    {
      "epoch": 1.9150216658642272,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00013358236403545928,
      "loss": 0.4706,
      "step": 7955
    },
    {
      "epoch": 1.9162253249879635,
      "grad_norm": 1.046875,
      "learning_rate": 0.00013350968702511594,
      "loss": 0.4776,
      "step": 7960
    },
    {
      "epoch": 1.9174289841116996,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00013343700522590833,
      "loss": 0.4636,
      "step": 7965
    },
    {
      "epoch": 1.9186326432354357,
      "grad_norm": 0.9609375,
      "learning_rate": 0.000133364318703066,
      "loss": 0.4238,
      "step": 7970
    },
    {
      "epoch": 1.919836302359172,
      "grad_norm": 0.953125,
      "learning_rate": 0.00013329162752182263,
      "loss": 0.4501,
      "step": 7975
    },
    {
      "epoch": 1.921039961482908,
      "grad_norm": 1.15625,
      "learning_rate": 0.00013321893174741614,
      "loss": 0.4599,
      "step": 7980
    },
    {
      "epoch": 1.9222436206066442,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00013314623144508855,
      "loss": 0.497,
      "step": 7985
    },
    {
      "epoch": 1.9234472797303803,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00013307352668008593,
      "loss": 0.4634,
      "step": 7990
    },
    {
      "epoch": 1.9246509388541164,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00013300081751765842,
      "loss": 0.4743,
      "step": 7995
    },
    {
      "epoch": 1.9258545979778527,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00013292810402306003,
      "loss": 0.4509,
      "step": 8000
    },
    {
      "epoch": 1.9258545979778527,
      "eval_loss": 0.39278820157051086,
      "eval_runtime": 2.3538,
      "eval_samples_per_second": 84.968,
      "eval_steps_per_second": 84.968,
      "step": 8000
    },
    {
      "epoch": 1.9270582571015888,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001328553862615487,
      "loss": 0.4794,
      "step": 8005
    },
    {
      "epoch": 1.928261916225325,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00013278266429838623,
      "loss": 0.4426,
      "step": 8010
    },
    {
      "epoch": 1.9294655753490613,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001327099381988381,
      "loss": 0.472,
      "step": 8015
    },
    {
      "epoch": 1.9306692344727971,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00013263720802817356,
      "loss": 0.4785,
      "step": 8020
    },
    {
      "epoch": 1.9318728935965335,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0001325644738516655,
      "loss": 0.4977,
      "step": 8025
    },
    {
      "epoch": 1.9330765527202696,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001324917357345905,
      "loss": 0.5,
      "step": 8030
    },
    {
      "epoch": 1.9342802118440057,
      "grad_norm": 0.953125,
      "learning_rate": 0.00013241899374222843,
      "loss": 0.425,
      "step": 8035
    },
    {
      "epoch": 1.935483870967742,
      "grad_norm": 1.0625,
      "learning_rate": 0.00013234624793986293,
      "loss": 0.4957,
      "step": 8040
    },
    {
      "epoch": 1.936687530091478,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001322734983927809,
      "loss": 0.4527,
      "step": 8045
    },
    {
      "epoch": 1.9378911892152142,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0001322007451662726,
      "loss": 0.4652,
      "step": 8050
    },
    {
      "epoch": 1.9390948483389505,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013212798832563157,
      "loss": 0.4574,
      "step": 8055
    },
    {
      "epoch": 1.9402985074626866,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00013205522793615474,
      "loss": 0.4662,
      "step": 8060
    },
    {
      "epoch": 1.9415021665864227,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00013198246406314208,
      "loss": 0.4573,
      "step": 8065
    },
    {
      "epoch": 1.942705825710159,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00013190969677189673,
      "loss": 0.4387,
      "step": 8070
    },
    {
      "epoch": 1.943909484833895,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00013183692612772494,
      "loss": 0.4536,
      "step": 8075
    },
    {
      "epoch": 1.9451131439576312,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001317641521959359,
      "loss": 0.4405,
      "step": 8080
    },
    {
      "epoch": 1.9463168030813673,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001316913750418418,
      "loss": 0.4146,
      "step": 8085
    },
    {
      "epoch": 1.9475204622051034,
      "grad_norm": 0.90625,
      "learning_rate": 0.00013161859473075763,
      "loss": 0.4324,
      "step": 8090
    },
    {
      "epoch": 1.9487241213288398,
      "grad_norm": 0.8515625,
      "learning_rate": 0.00013154581132800137,
      "loss": 0.4418,
      "step": 8095
    },
    {
      "epoch": 1.9499277804525759,
      "grad_norm": 1.1875,
      "learning_rate": 0.00013147302489889366,
      "loss": 0.473,
      "step": 8100
    },
    {
      "epoch": 1.951131439576312,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00013140023550875792,
      "loss": 0.5026,
      "step": 8105
    },
    {
      "epoch": 1.9523350987000483,
      "grad_norm": 1.015625,
      "learning_rate": 0.00013132744322292016,
      "loss": 0.4494,
      "step": 8110
    },
    {
      "epoch": 1.9535387578237842,
      "grad_norm": 0.96875,
      "learning_rate": 0.00013125464810670903,
      "loss": 0.4592,
      "step": 8115
    },
    {
      "epoch": 1.9547424169475205,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001311818502254557,
      "loss": 0.438,
      "step": 8120
    },
    {
      "epoch": 1.9559460760712566,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00013110904964449386,
      "loss": 0.4633,
      "step": 8125
    },
    {
      "epoch": 1.9571497351949927,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001310362464291596,
      "loss": 0.4591,
      "step": 8130
    },
    {
      "epoch": 1.958353394318729,
      "grad_norm": 1.078125,
      "learning_rate": 0.00013096344064479135,
      "loss": 0.4875,
      "step": 8135
    },
    {
      "epoch": 1.9595570534424651,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00013089063235672985,
      "loss": 0.4554,
      "step": 8140
    },
    {
      "epoch": 1.9607607125662012,
      "grad_norm": 1.03125,
      "learning_rate": 0.00013081782163031815,
      "loss": 0.4585,
      "step": 8145
    },
    {
      "epoch": 1.9619643716899375,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013074500853090147,
      "loss": 0.428,
      "step": 8150
    },
    {
      "epoch": 1.9631680308136734,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00013067219312382701,
      "loss": 0.4728,
      "step": 8155
    },
    {
      "epoch": 1.9643716899374097,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001305993754744443,
      "loss": 0.4498,
      "step": 8160
    },
    {
      "epoch": 1.9655753490611458,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00013052655564810468,
      "loss": 0.4499,
      "step": 8165
    },
    {
      "epoch": 1.966779008184882,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00013045373371016152,
      "loss": 0.4514,
      "step": 8170
    },
    {
      "epoch": 1.9679826673086183,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00013038090972597007,
      "loss": 0.469,
      "step": 8175
    },
    {
      "epoch": 1.9691863264323544,
      "grad_norm": 0.9375,
      "learning_rate": 0.00013030808376088743,
      "loss": 0.49,
      "step": 8180
    },
    {
      "epoch": 1.9703899855560905,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00013023525588027246,
      "loss": 0.4705,
      "step": 8185
    },
    {
      "epoch": 1.9715936446798268,
      "grad_norm": 1.09375,
      "learning_rate": 0.00013016242614948578,
      "loss": 0.464,
      "step": 8190
    },
    {
      "epoch": 1.9727973038035629,
      "grad_norm": 0.984375,
      "learning_rate": 0.00013008959463388958,
      "loss": 0.4513,
      "step": 8195
    },
    {
      "epoch": 1.974000962927299,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00013001676139884775,
      "loss": 0.4491,
      "step": 8200
    },
    {
      "epoch": 1.9752046220510353,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001299439265097257,
      "loss": 0.4901,
      "step": 8205
    },
    {
      "epoch": 1.9764082811747712,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00012987109003189027,
      "loss": 0.4848,
      "step": 8210
    },
    {
      "epoch": 1.9776119402985075,
      "grad_norm": 0.96875,
      "learning_rate": 0.00012979825203070979,
      "loss": 0.4355,
      "step": 8215
    },
    {
      "epoch": 1.9788155994222436,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001297254125715539,
      "loss": 0.4644,
      "step": 8220
    },
    {
      "epoch": 1.9800192585459797,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00012965257171979367,
      "loss": 0.434,
      "step": 8225
    },
    {
      "epoch": 1.981222917669716,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001295797295408012,
      "loss": 0.4595,
      "step": 8230
    },
    {
      "epoch": 1.9824265767934521,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00012950688609994997,
      "loss": 0.4504,
      "step": 8235
    },
    {
      "epoch": 1.9836302359171882,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00012943404146261459,
      "loss": 0.4579,
      "step": 8240
    },
    {
      "epoch": 1.9848338950409246,
      "grad_norm": 1.03125,
      "learning_rate": 0.00012936119569417057,
      "loss": 0.4539,
      "step": 8245
    },
    {
      "epoch": 1.9860375541646604,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012928834885999466,
      "loss": 0.4857,
      "step": 8250
    },
    {
      "epoch": 1.9872412132883968,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0001292155010254644,
      "loss": 0.453,
      "step": 8255
    },
    {
      "epoch": 1.9884448724121329,
      "grad_norm": 1.0,
      "learning_rate": 0.00012914265225595831,
      "loss": 0.4573,
      "step": 8260
    },
    {
      "epoch": 1.989648531535869,
      "grad_norm": 1.0,
      "learning_rate": 0.0001290698026168557,
      "loss": 0.459,
      "step": 8265
    },
    {
      "epoch": 1.9908521906596053,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00012899695217353675,
      "loss": 0.4746,
      "step": 8270
    },
    {
      "epoch": 1.9920558497833414,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001289241009913822,
      "loss": 0.4564,
      "step": 8275
    },
    {
      "epoch": 1.9932595089070775,
      "grad_norm": 1.09375,
      "learning_rate": 0.00012885124913577362,
      "loss": 0.4649,
      "step": 8280
    },
    {
      "epoch": 1.9944631680308138,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00012877839667209311,
      "loss": 0.4803,
      "step": 8285
    },
    {
      "epoch": 1.9956668271545497,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00012870554366572332,
      "loss": 0.4651,
      "step": 8290
    },
    {
      "epoch": 1.996870486278286,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00012863269018204733,
      "loss": 0.4555,
      "step": 8295
    },
    {
      "epoch": 1.998074145402022,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00012855983628644882,
      "loss": 0.4275,
      "step": 8300
    },
    {
      "epoch": 1.9992778045257582,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001284869820443116,
      "loss": 0.4397,
      "step": 8305
    },
    {
      "epoch": 1.9995185363505055,
      "eval_loss": 0.3866819739341736,
      "eval_runtime": 2.3881,
      "eval_samples_per_second": 83.748,
      "eval_steps_per_second": 83.748,
      "step": 8306
    },
    {
      "epoch": 2.0004814636494945,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00012841412752102,
      "loss": 0.4412,
      "step": 8310
    },
    {
      "epoch": 2.0016851227732304,
      "grad_norm": 0.9140625,
      "learning_rate": 0.00012834127278195853,
      "loss": 0.3943,
      "step": 8315
    },
    {
      "epoch": 2.0028887818969667,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00012826841789251179,
      "loss": 0.4436,
      "step": 8320
    },
    {
      "epoch": 2.004092441020703,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0001281955629180647,
      "loss": 0.4118,
      "step": 8325
    },
    {
      "epoch": 2.005296100144439,
      "grad_norm": 0.953125,
      "learning_rate": 0.00012812270792400212,
      "loss": 0.3988,
      "step": 8330
    },
    {
      "epoch": 2.0064997592681753,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00012804985297570898,
      "loss": 0.4198,
      "step": 8335
    },
    {
      "epoch": 2.0077034183919116,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012797699813857022,
      "loss": 0.4483,
      "step": 8340
    },
    {
      "epoch": 2.0089070775156475,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0001279041434779705,
      "loss": 0.4045,
      "step": 8345
    },
    {
      "epoch": 2.0101107366393838,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00012783128905929453,
      "loss": 0.404,
      "step": 8350
    },
    {
      "epoch": 2.01131439576312,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00012775843494792672,
      "loss": 0.4213,
      "step": 8355
    },
    {
      "epoch": 2.012518054886856,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00012768558120925116,
      "loss": 0.4015,
      "step": 8360
    },
    {
      "epoch": 2.0137217140105923,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00012761272790865163,
      "loss": 0.4103,
      "step": 8365
    },
    {
      "epoch": 2.014925373134328,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00012753987511151158,
      "loss": 0.398,
      "step": 8370
    },
    {
      "epoch": 2.0161290322580645,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012746702288321396,
      "loss": 0.4256,
      "step": 8375
    },
    {
      "epoch": 2.017332691381801,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001273941712891412,
      "loss": 0.3739,
      "step": 8380
    },
    {
      "epoch": 2.0185363505055367,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00012732132039467516,
      "loss": 0.4267,
      "step": 8385
    },
    {
      "epoch": 2.019740009629273,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00012724847026519706,
      "loss": 0.406,
      "step": 8390
    },
    {
      "epoch": 2.0209436687530093,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00012717562096608748,
      "loss": 0.3906,
      "step": 8395
    },
    {
      "epoch": 2.0221473278767452,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012710277256272625,
      "loss": 0.4145,
      "step": 8400
    },
    {
      "epoch": 2.0233509870004815,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00012702992512049236,
      "loss": 0.4302,
      "step": 8405
    },
    {
      "epoch": 2.0245546461242174,
      "grad_norm": 0.96875,
      "learning_rate": 0.00012695707870476395,
      "loss": 0.4055,
      "step": 8410
    },
    {
      "epoch": 2.0257583052479537,
      "grad_norm": 1.03125,
      "learning_rate": 0.00012688423338091823,
      "loss": 0.3927,
      "step": 8415
    },
    {
      "epoch": 2.02696196437169,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00012681138921433153,
      "loss": 0.3975,
      "step": 8420
    },
    {
      "epoch": 2.028165623495426,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0001267385462703789,
      "loss": 0.4427,
      "step": 8425
    },
    {
      "epoch": 2.0293692826191623,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001266657046144346,
      "loss": 0.4027,
      "step": 8430
    },
    {
      "epoch": 2.0305729417428986,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00012659286431187147,
      "loss": 0.4161,
      "step": 8435
    },
    {
      "epoch": 2.0317766008666345,
      "grad_norm": 1.125,
      "learning_rate": 0.00012652002542806132,
      "loss": 0.4367,
      "step": 8440
    },
    {
      "epoch": 2.032980259990371,
      "grad_norm": 0.984375,
      "learning_rate": 0.00012644718802837457,
      "loss": 0.4297,
      "step": 8445
    },
    {
      "epoch": 2.0341839191141067,
      "grad_norm": 1.125,
      "learning_rate": 0.00012637435217818037,
      "loss": 0.4216,
      "step": 8450
    },
    {
      "epoch": 2.035387578237843,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00012630151794284646,
      "loss": 0.4061,
      "step": 8455
    },
    {
      "epoch": 2.0365912373615793,
      "grad_norm": 1.015625,
      "learning_rate": 0.00012622868538773914,
      "loss": 0.4072,
      "step": 8460
    },
    {
      "epoch": 2.037794896485315,
      "grad_norm": 1.0,
      "learning_rate": 0.00012615585457822318,
      "loss": 0.4141,
      "step": 8465
    },
    {
      "epoch": 2.0389985556090515,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001260830255796618,
      "loss": 0.4174,
      "step": 8470
    },
    {
      "epoch": 2.040202214732788,
      "grad_norm": 1.0,
      "learning_rate": 0.0001260101984574166,
      "loss": 0.4019,
      "step": 8475
    },
    {
      "epoch": 2.0414058738565237,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012593737327684743,
      "loss": 0.3992,
      "step": 8480
    },
    {
      "epoch": 2.04260953298026,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00012586455010331254,
      "loss": 0.4175,
      "step": 8485
    },
    {
      "epoch": 2.043813192103996,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00012579172900216827,
      "loss": 0.4268,
      "step": 8490
    },
    {
      "epoch": 2.0450168512277322,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00012571891003876912,
      "loss": 0.4015,
      "step": 8495
    },
    {
      "epoch": 2.0462205103514686,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00012564609327846764,
      "loss": 0.4222,
      "step": 8500
    },
    {
      "epoch": 2.0462205103514686,
      "eval_loss": 0.3873463571071625,
      "eval_runtime": 2.4132,
      "eval_samples_per_second": 82.879,
      "eval_steps_per_second": 82.879,
      "step": 8500
    },
    {
      "epoch": 2.0474241694752044,
      "grad_norm": 0.984375,
      "learning_rate": 0.00012557327878661453,
      "loss": 0.4061,
      "step": 8505
    },
    {
      "epoch": 2.0486278285989408,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00012550046662855826,
      "loss": 0.4288,
      "step": 8510
    },
    {
      "epoch": 2.049831487722677,
      "grad_norm": 1.015625,
      "learning_rate": 0.00012542765686964532,
      "loss": 0.413,
      "step": 8515
    },
    {
      "epoch": 2.051035146846413,
      "grad_norm": 0.93359375,
      "learning_rate": 0.00012535484957522012,
      "loss": 0.4285,
      "step": 8520
    },
    {
      "epoch": 2.0522388059701493,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001252820448106247,
      "loss": 0.3946,
      "step": 8525
    },
    {
      "epoch": 2.0534424650938856,
      "grad_norm": 0.859375,
      "learning_rate": 0.0001252092426411989,
      "loss": 0.3727,
      "step": 8530
    },
    {
      "epoch": 2.0546461242176215,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00012513644313228028,
      "loss": 0.4193,
      "step": 8535
    },
    {
      "epoch": 2.055849783341358,
      "grad_norm": 0.9296875,
      "learning_rate": 0.00012506364634920391,
      "loss": 0.4009,
      "step": 8540
    },
    {
      "epoch": 2.0570534424650937,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00012499085235730256,
      "loss": 0.4007,
      "step": 8545
    },
    {
      "epoch": 2.05825710158883,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012491806122190627,
      "loss": 0.378,
      "step": 8550
    },
    {
      "epoch": 2.0594607607125663,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012484527300834277,
      "loss": 0.436,
      "step": 8555
    },
    {
      "epoch": 2.060664419836302,
      "grad_norm": 1.0,
      "learning_rate": 0.000124772487781937,
      "loss": 0.4276,
      "step": 8560
    },
    {
      "epoch": 2.0618680789600385,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012469970560801126,
      "loss": 0.4108,
      "step": 8565
    },
    {
      "epoch": 2.063071738083775,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00012462692655188515,
      "loss": 0.4106,
      "step": 8570
    },
    {
      "epoch": 2.0642753972075107,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001245541506788754,
      "loss": 0.3826,
      "step": 8575
    },
    {
      "epoch": 2.065479056331247,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00012448137805429595,
      "loss": 0.423,
      "step": 8580
    },
    {
      "epoch": 2.066682715454983,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001244086087434578,
      "loss": 0.4087,
      "step": 8585
    },
    {
      "epoch": 2.0678863745787193,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00012433584281166897,
      "loss": 0.4181,
      "step": 8590
    },
    {
      "epoch": 2.0690900337024556,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00012426308032423443,
      "loss": 0.3956,
      "step": 8595
    },
    {
      "epoch": 2.0702936928261915,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001241903213464561,
      "loss": 0.4212,
      "step": 8600
    },
    {
      "epoch": 2.071497351949928,
      "grad_norm": 1.0,
      "learning_rate": 0.00012411756594363276,
      "loss": 0.4217,
      "step": 8605
    },
    {
      "epoch": 2.072701011073664,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012404481418105989,
      "loss": 0.4157,
      "step": 8610
    },
    {
      "epoch": 2.0739046701974,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00012397206612402978,
      "loss": 0.4061,
      "step": 8615
    },
    {
      "epoch": 2.0751083293211363,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001238993218378314,
      "loss": 0.3925,
      "step": 8620
    },
    {
      "epoch": 2.076311988444872,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001238265813877504,
      "loss": 0.4481,
      "step": 8625
    },
    {
      "epoch": 2.0775156475686085,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00012375384483906876,
      "loss": 0.4055,
      "step": 8630
    },
    {
      "epoch": 2.078719306692345,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012368111225706513,
      "loss": 0.4255,
      "step": 8635
    },
    {
      "epoch": 2.0799229658160807,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00012360838370701458,
      "loss": 0.4198,
      "step": 8640
    },
    {
      "epoch": 2.081126624939817,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001235356592541886,
      "loss": 0.391,
      "step": 8645
    },
    {
      "epoch": 2.0823302840635534,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00012346293896385493,
      "loss": 0.4005,
      "step": 8650
    },
    {
      "epoch": 2.0835339431872892,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001233902229012776,
      "loss": 0.3931,
      "step": 8655
    },
    {
      "epoch": 2.0847376023110256,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00012331751113171682,
      "loss": 0.4166,
      "step": 8660
    },
    {
      "epoch": 2.085941261434762,
      "grad_norm": 1.0625,
      "learning_rate": 0.00012324480372042902,
      "loss": 0.3932,
      "step": 8665
    },
    {
      "epoch": 2.0871449205584978,
      "grad_norm": 1.03125,
      "learning_rate": 0.00012317210073266663,
      "loss": 0.4082,
      "step": 8670
    },
    {
      "epoch": 2.088348579682234,
      "grad_norm": 1.015625,
      "learning_rate": 0.00012309940223367816,
      "loss": 0.4052,
      "step": 8675
    },
    {
      "epoch": 2.08955223880597,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001230267082887081,
      "loss": 0.4007,
      "step": 8680
    },
    {
      "epoch": 2.0907558979297063,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001229540189629968,
      "loss": 0.3983,
      "step": 8685
    },
    {
      "epoch": 2.0919595570534426,
      "grad_norm": 1.046875,
      "learning_rate": 0.00012288133432178055,
      "loss": 0.4255,
      "step": 8690
    },
    {
      "epoch": 2.0931632161771785,
      "grad_norm": 1.03125,
      "learning_rate": 0.00012280865443029136,
      "loss": 0.4028,
      "step": 8695
    },
    {
      "epoch": 2.094366875300915,
      "grad_norm": 1.03125,
      "learning_rate": 0.000122735979353757,
      "loss": 0.406,
      "step": 8700
    },
    {
      "epoch": 2.095570534424651,
      "grad_norm": 0.921875,
      "learning_rate": 0.00012266330915740095,
      "loss": 0.3728,
      "step": 8705
    },
    {
      "epoch": 2.096774193548387,
      "grad_norm": 0.953125,
      "learning_rate": 0.00012259064390644225,
      "loss": 0.3881,
      "step": 8710
    },
    {
      "epoch": 2.0979778526721233,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001225179836660955,
      "loss": 0.4264,
      "step": 8715
    },
    {
      "epoch": 2.099181511795859,
      "grad_norm": 1.0,
      "learning_rate": 0.00012244532850157094,
      "loss": 0.4353,
      "step": 8720
    },
    {
      "epoch": 2.1003851709195955,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00012237267847807406,
      "loss": 0.4396,
      "step": 8725
    },
    {
      "epoch": 2.101588830043332,
      "grad_norm": 0.984375,
      "learning_rate": 0.00012230003366080585,
      "loss": 0.4089,
      "step": 8730
    },
    {
      "epoch": 2.1027924891670677,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00012222739411496265,
      "loss": 0.4109,
      "step": 8735
    },
    {
      "epoch": 2.103996148290804,
      "grad_norm": 1.015625,
      "learning_rate": 0.00012215475990573596,
      "loss": 0.4052,
      "step": 8740
    },
    {
      "epoch": 2.1051998074145404,
      "grad_norm": 0.9375,
      "learning_rate": 0.0001220821310983126,
      "loss": 0.3983,
      "step": 8745
    },
    {
      "epoch": 2.1064034665382763,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001220095077578745,
      "loss": 0.4028,
      "step": 8750
    },
    {
      "epoch": 2.1076071256620126,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00012193688994959861,
      "loss": 0.3848,
      "step": 8755
    },
    {
      "epoch": 2.1088107847857485,
      "grad_norm": 1.0,
      "learning_rate": 0.00012186427773865705,
      "loss": 0.3722,
      "step": 8760
    },
    {
      "epoch": 2.110014443909485,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00012179167119021688,
      "loss": 0.4045,
      "step": 8765
    },
    {
      "epoch": 2.111218103033221,
      "grad_norm": 1.03125,
      "learning_rate": 0.00012171907036943996,
      "loss": 0.4107,
      "step": 8770
    },
    {
      "epoch": 2.112421762156957,
      "grad_norm": 1.125,
      "learning_rate": 0.00012164647534148318,
      "loss": 0.4243,
      "step": 8775
    },
    {
      "epoch": 2.1136254212806933,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00012157388617149812,
      "loss": 0.4188,
      "step": 8780
    },
    {
      "epoch": 2.1148290804044296,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00012150130292463117,
      "loss": 0.426,
      "step": 8785
    },
    {
      "epoch": 2.1160327395281655,
      "grad_norm": 0.984375,
      "learning_rate": 0.00012142872566602326,
      "loss": 0.4372,
      "step": 8790
    },
    {
      "epoch": 2.117236398651902,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00012135615446081019,
      "loss": 0.4109,
      "step": 8795
    },
    {
      "epoch": 2.118440057775638,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00012128358937412208,
      "loss": 0.3847,
      "step": 8800
    },
    {
      "epoch": 2.119643716899374,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00012121103047108372,
      "loss": 0.4057,
      "step": 8805
    },
    {
      "epoch": 2.1208473760231104,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00012113847781681432,
      "loss": 0.4312,
      "step": 8810
    },
    {
      "epoch": 2.1220510351468462,
      "grad_norm": 1.140625,
      "learning_rate": 0.00012106593147642746,
      "loss": 0.4389,
      "step": 8815
    },
    {
      "epoch": 2.1232546942705826,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00012099339151503099,
      "loss": 0.4136,
      "step": 8820
    },
    {
      "epoch": 2.124458353394319,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00012092085799772719,
      "loss": 0.4158,
      "step": 8825
    },
    {
      "epoch": 2.1256620125180548,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001208483309896124,
      "loss": 0.4244,
      "step": 8830
    },
    {
      "epoch": 2.126865671641791,
      "grad_norm": 0.984375,
      "learning_rate": 0.00012077581055577722,
      "loss": 0.3688,
      "step": 8835
    },
    {
      "epoch": 2.1280693307655274,
      "grad_norm": 1.203125,
      "learning_rate": 0.00012070329676130628,
      "loss": 0.4213,
      "step": 8840
    },
    {
      "epoch": 2.1292729898892633,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00012063078967127836,
      "loss": 0.4086,
      "step": 8845
    },
    {
      "epoch": 2.1304766490129996,
      "grad_norm": 1.09375,
      "learning_rate": 0.00012055828935076606,
      "loss": 0.3829,
      "step": 8850
    },
    {
      "epoch": 2.1316803081367355,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00012048579586483603,
      "loss": 0.4027,
      "step": 8855
    },
    {
      "epoch": 2.132883967260472,
      "grad_norm": 1.0,
      "learning_rate": 0.0001204133092785488,
      "loss": 0.3939,
      "step": 8860
    },
    {
      "epoch": 2.134087626384208,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001203408296569586,
      "loss": 0.4197,
      "step": 8865
    },
    {
      "epoch": 2.135291285507944,
      "grad_norm": 0.953125,
      "learning_rate": 0.00012026835706511346,
      "loss": 0.4008,
      "step": 8870
    },
    {
      "epoch": 2.1364949446316803,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00012019589156805517,
      "loss": 0.3959,
      "step": 8875
    },
    {
      "epoch": 2.1376986037554166,
      "grad_norm": 0.98828125,
      "learning_rate": 0.000120123433230819,
      "loss": 0.3929,
      "step": 8880
    },
    {
      "epoch": 2.1389022628791525,
      "grad_norm": 1.0,
      "learning_rate": 0.00012005098211843397,
      "loss": 0.4064,
      "step": 8885
    },
    {
      "epoch": 2.140105922002889,
      "grad_norm": 0.9375,
      "learning_rate": 0.00011997853829592251,
      "loss": 0.3928,
      "step": 8890
    },
    {
      "epoch": 2.1413095811266247,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011990610182830048,
      "loss": 0.3999,
      "step": 8895
    },
    {
      "epoch": 2.142513240250361,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011983367278057726,
      "loss": 0.4234,
      "step": 8900
    },
    {
      "epoch": 2.1437168993740974,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011976125121775548,
      "loss": 0.3948,
      "step": 8905
    },
    {
      "epoch": 2.1449205584978333,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00011968883720483105,
      "loss": 0.417,
      "step": 8910
    },
    {
      "epoch": 2.1461242176215696,
      "grad_norm": 1.09375,
      "learning_rate": 0.00011961643080679311,
      "loss": 0.4292,
      "step": 8915
    },
    {
      "epoch": 2.147327876745306,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00011954403208862404,
      "loss": 0.3968,
      "step": 8920
    },
    {
      "epoch": 2.1485315358690418,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011947164111529922,
      "loss": 0.4056,
      "step": 8925
    },
    {
      "epoch": 2.149735194992778,
      "grad_norm": 1.078125,
      "learning_rate": 0.00011939925795178715,
      "loss": 0.3954,
      "step": 8930
    },
    {
      "epoch": 2.1509388541165144,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011932688266304929,
      "loss": 0.4046,
      "step": 8935
    },
    {
      "epoch": 2.1521425132402503,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00011925451531404004,
      "loss": 0.4105,
      "step": 8940
    },
    {
      "epoch": 2.1533461723639866,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00011918215596970674,
      "loss": 0.4205,
      "step": 8945
    },
    {
      "epoch": 2.1545498314877225,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001191098046949894,
      "loss": 0.4017,
      "step": 8950
    },
    {
      "epoch": 2.155753490611459,
      "grad_norm": 1.046875,
      "learning_rate": 0.00011903746155482086,
      "loss": 0.3812,
      "step": 8955
    },
    {
      "epoch": 2.156957149735195,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011896512661412676,
      "loss": 0.4132,
      "step": 8960
    },
    {
      "epoch": 2.158160808858931,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011889279993782521,
      "loss": 0.3805,
      "step": 8965
    },
    {
      "epoch": 2.1593644679826673,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00011882048159082702,
      "loss": 0.4274,
      "step": 8970
    },
    {
      "epoch": 2.1605681271064037,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011874817163803549,
      "loss": 0.3998,
      "step": 8975
    },
    {
      "epoch": 2.1617717862301395,
      "grad_norm": 1.03125,
      "learning_rate": 0.00011867587014434639,
      "loss": 0.3893,
      "step": 8980
    },
    {
      "epoch": 2.162975445353876,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011860357717464788,
      "loss": 0.386,
      "step": 8985
    },
    {
      "epoch": 2.1641791044776117,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001185312927938205,
      "loss": 0.4287,
      "step": 8990
    },
    {
      "epoch": 2.165382763601348,
      "grad_norm": 1.046875,
      "learning_rate": 0.00011845901706673703,
      "loss": 0.3968,
      "step": 8995
    },
    {
      "epoch": 2.1665864227250844,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00011838675005826253,
      "loss": 0.415,
      "step": 9000
    },
    {
      "epoch": 2.1665864227250844,
      "eval_loss": 0.3820147216320038,
      "eval_runtime": 2.3573,
      "eval_samples_per_second": 84.844,
      "eval_steps_per_second": 84.844,
      "step": 9000
    },
    {
      "epoch": 2.1677900818488203,
      "grad_norm": 0.921875,
      "learning_rate": 0.00011831449183325428,
      "loss": 0.3953,
      "step": 9005
    },
    {
      "epoch": 2.1689937409725566,
      "grad_norm": 1.03125,
      "learning_rate": 0.00011824224245656154,
      "loss": 0.4264,
      "step": 9010
    },
    {
      "epoch": 2.170197400096293,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001181700019930258,
      "loss": 0.3985,
      "step": 9015
    },
    {
      "epoch": 2.171401059220029,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00011809777050748037,
      "loss": 0.4049,
      "step": 9020
    },
    {
      "epoch": 2.172604718343765,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011802554806475067,
      "loss": 0.402,
      "step": 9025
    },
    {
      "epoch": 2.173808377467501,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00011795333472965388,
      "loss": 0.425,
      "step": 9030
    },
    {
      "epoch": 2.1750120365912373,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00011788113056699906,
      "loss": 0.4106,
      "step": 9035
    },
    {
      "epoch": 2.1762156957149736,
      "grad_norm": 0.984375,
      "learning_rate": 0.00011780893564158704,
      "loss": 0.4154,
      "step": 9040
    },
    {
      "epoch": 2.1774193548387095,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00011773675001821037,
      "loss": 0.4097,
      "step": 9045
    },
    {
      "epoch": 2.178623013962446,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00011766457376165317,
      "loss": 0.4114,
      "step": 9050
    },
    {
      "epoch": 2.179826673086182,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011759240693669132,
      "loss": 0.395,
      "step": 9055
    },
    {
      "epoch": 2.181030332209918,
      "grad_norm": 1.046875,
      "learning_rate": 0.00011752024960809206,
      "loss": 0.388,
      "step": 9060
    },
    {
      "epoch": 2.1822339913336544,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001174481018406142,
      "loss": 0.4199,
      "step": 9065
    },
    {
      "epoch": 2.1834376504573907,
      "grad_norm": 1.03125,
      "learning_rate": 0.00011737596369900796,
      "loss": 0.3993,
      "step": 9070
    },
    {
      "epoch": 2.1846413095811266,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001173038352480149,
      "loss": 0.4056,
      "step": 9075
    },
    {
      "epoch": 2.185844968704863,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00011723171655236787,
      "loss": 0.4201,
      "step": 9080
    },
    {
      "epoch": 2.1870486278285988,
      "grad_norm": 0.953125,
      "learning_rate": 0.00011715960767679106,
      "loss": 0.3978,
      "step": 9085
    },
    {
      "epoch": 2.188252286952335,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011708750868599965,
      "loss": 0.41,
      "step": 9090
    },
    {
      "epoch": 2.1894559460760714,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001170154196447002,
      "loss": 0.4116,
      "step": 9095
    },
    {
      "epoch": 2.1906596051998073,
      "grad_norm": 1.078125,
      "learning_rate": 0.00011694334061759016,
      "loss": 0.4226,
      "step": 9100
    },
    {
      "epoch": 2.1918632643235436,
      "grad_norm": 1.15625,
      "learning_rate": 0.00011687127166935807,
      "loss": 0.4147,
      "step": 9105
    },
    {
      "epoch": 2.19306692344728,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001167992128646834,
      "loss": 0.3978,
      "step": 9110
    },
    {
      "epoch": 2.194270582571016,
      "grad_norm": 1.0,
      "learning_rate": 0.0001167271642682365,
      "loss": 0.4203,
      "step": 9115
    },
    {
      "epoch": 2.195474241694752,
      "grad_norm": 1.15625,
      "learning_rate": 0.00011665512594467856,
      "loss": 0.439,
      "step": 9120
    },
    {
      "epoch": 2.196677900818488,
      "grad_norm": 0.984375,
      "learning_rate": 0.00011658309795866159,
      "loss": 0.4113,
      "step": 9125
    },
    {
      "epoch": 2.1978815599422243,
      "grad_norm": 1.0,
      "learning_rate": 0.00011651108037482833,
      "loss": 0.4124,
      "step": 9130
    },
    {
      "epoch": 2.1990852190659607,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001164390732578121,
      "loss": 0.4198,
      "step": 9135
    },
    {
      "epoch": 2.2002888781896965,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011636707667223691,
      "loss": 0.422,
      "step": 9140
    },
    {
      "epoch": 2.201492537313433,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00011629509068271729,
      "loss": 0.4166,
      "step": 9145
    },
    {
      "epoch": 2.202696196437169,
      "grad_norm": 1.109375,
      "learning_rate": 0.00011622311535385828,
      "loss": 0.4341,
      "step": 9150
    },
    {
      "epoch": 2.203899855560905,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00011615115075025525,
      "loss": 0.4154,
      "step": 9155
    },
    {
      "epoch": 2.2051035146846414,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00011607919693649414,
      "loss": 0.4112,
      "step": 9160
    },
    {
      "epoch": 2.2063071738083773,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000116007253977151,
      "loss": 0.3878,
      "step": 9165
    },
    {
      "epoch": 2.2075108329321136,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0001159353219367923,
      "loss": 0.3968,
      "step": 9170
    },
    {
      "epoch": 2.20871449205585,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011586340087997456,
      "loss": 0.4013,
      "step": 9175
    },
    {
      "epoch": 2.209918151179586,
      "grad_norm": 0.91796875,
      "learning_rate": 0.00011579149087124459,
      "loss": 0.3849,
      "step": 9180
    },
    {
      "epoch": 2.211121810303322,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00011571959197513922,
      "loss": 0.414,
      "step": 9185
    },
    {
      "epoch": 2.2123254694270584,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011564770425618531,
      "loss": 0.3969,
      "step": 9190
    },
    {
      "epoch": 2.2135291285507943,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00011557582777889963,
      "loss": 0.3943,
      "step": 9195
    },
    {
      "epoch": 2.2147327876745306,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00011550396260778895,
      "loss": 0.4187,
      "step": 9200
    },
    {
      "epoch": 2.215936446798267,
      "grad_norm": 1.109375,
      "learning_rate": 0.00011543210880734988,
      "loss": 0.392,
      "step": 9205
    },
    {
      "epoch": 2.217140105922003,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00011536026644206876,
      "loss": 0.3892,
      "step": 9210
    },
    {
      "epoch": 2.218343765045739,
      "grad_norm": 1.15625,
      "learning_rate": 0.00011528843557642173,
      "loss": 0.4663,
      "step": 9215
    },
    {
      "epoch": 2.219547424169475,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00011521661627487461,
      "loss": 0.3975,
      "step": 9220
    },
    {
      "epoch": 2.2207510832932114,
      "grad_norm": 1.078125,
      "learning_rate": 0.00011514480860188279,
      "loss": 0.4113,
      "step": 9225
    },
    {
      "epoch": 2.2219547424169477,
      "grad_norm": 1.078125,
      "learning_rate": 0.00011507301262189133,
      "loss": 0.4319,
      "step": 9230
    },
    {
      "epoch": 2.2231584015406836,
      "grad_norm": 0.9375,
      "learning_rate": 0.00011500122839933462,
      "loss": 0.4144,
      "step": 9235
    },
    {
      "epoch": 2.22436206066442,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00011492945599863666,
      "loss": 0.3937,
      "step": 9240
    },
    {
      "epoch": 2.2255657197881558,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00011485769548421075,
      "loss": 0.3988,
      "step": 9245
    },
    {
      "epoch": 2.226769378911892,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00011478594692045958,
      "loss": 0.3955,
      "step": 9250
    },
    {
      "epoch": 2.2279730380356284,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011471421037177508,
      "loss": 0.3914,
      "step": 9255
    },
    {
      "epoch": 2.2291766971593643,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001146424859025384,
      "loss": 0.4198,
      "step": 9260
    },
    {
      "epoch": 2.2303803562831006,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00011457077357711986,
      "loss": 0.3931,
      "step": 9265
    },
    {
      "epoch": 2.231584015406837,
      "grad_norm": 0.96875,
      "learning_rate": 0.0001144990734598789,
      "loss": 0.3969,
      "step": 9270
    },
    {
      "epoch": 2.232787674530573,
      "grad_norm": 0.953125,
      "learning_rate": 0.00011442738561516391,
      "loss": 0.3841,
      "step": 9275
    },
    {
      "epoch": 2.233991333654309,
      "grad_norm": 0.921875,
      "learning_rate": 0.00011435571010731239,
      "loss": 0.4217,
      "step": 9280
    },
    {
      "epoch": 2.2351949927780455,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001142840470006507,
      "loss": 0.3936,
      "step": 9285
    },
    {
      "epoch": 2.2363986519017813,
      "grad_norm": 1.15625,
      "learning_rate": 0.00011421239635949406,
      "loss": 0.4178,
      "step": 9290
    },
    {
      "epoch": 2.2376023110255177,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001141407582481466,
      "loss": 0.4418,
      "step": 9295
    },
    {
      "epoch": 2.2388059701492535,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00011406913273090103,
      "loss": 0.4408,
      "step": 9300
    },
    {
      "epoch": 2.24000962927299,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001139975198720389,
      "loss": 0.3957,
      "step": 9305
    },
    {
      "epoch": 2.241213288396726,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00011392591973583041,
      "loss": 0.4021,
      "step": 9310
    },
    {
      "epoch": 2.242416947520462,
      "grad_norm": 1.0,
      "learning_rate": 0.00011385433238653421,
      "loss": 0.4005,
      "step": 9315
    },
    {
      "epoch": 2.2436206066441984,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011378275788839758,
      "loss": 0.4248,
      "step": 9320
    },
    {
      "epoch": 2.2448242657679347,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00011371119630565626,
      "loss": 0.4037,
      "step": 9325
    },
    {
      "epoch": 2.2460279248916706,
      "grad_norm": 1.09375,
      "learning_rate": 0.00011363964770253433,
      "loss": 0.4233,
      "step": 9330
    },
    {
      "epoch": 2.247231584015407,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00011356811214324431,
      "loss": 0.3855,
      "step": 9335
    },
    {
      "epoch": 2.2484352431391432,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000113496589691987,
      "loss": 0.433,
      "step": 9340
    },
    {
      "epoch": 2.249638902262879,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011342508041295133,
      "loss": 0.4197,
      "step": 9345
    },
    {
      "epoch": 2.2508425613866154,
      "grad_norm": 1.15625,
      "learning_rate": 0.00011335358437031457,
      "loss": 0.4289,
      "step": 9350
    },
    {
      "epoch": 2.2520462205103513,
      "grad_norm": 0.98046875,
      "learning_rate": 0.000113282101628242,
      "loss": 0.3911,
      "step": 9355
    },
    {
      "epoch": 2.2532498796340876,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00011321063225088695,
      "loss": 0.4378,
      "step": 9360
    },
    {
      "epoch": 2.254453538757824,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011313917630239082,
      "loss": 0.3964,
      "step": 9365
    },
    {
      "epoch": 2.25565719788156,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00011306773384688298,
      "loss": 0.4,
      "step": 9370
    },
    {
      "epoch": 2.256860857005296,
      "grad_norm": 0.90625,
      "learning_rate": 0.0001129963049484806,
      "loss": 0.3987,
      "step": 9375
    },
    {
      "epoch": 2.258064516129032,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011292488967128874,
      "loss": 0.4173,
      "step": 9380
    },
    {
      "epoch": 2.2592681752527684,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00011285348807940022,
      "loss": 0.4203,
      "step": 9385
    },
    {
      "epoch": 2.2604718343765047,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011278210023689561,
      "loss": 0.3924,
      "step": 9390
    },
    {
      "epoch": 2.2616754935002406,
      "grad_norm": 1.0625,
      "learning_rate": 0.00011271072620784304,
      "loss": 0.3965,
      "step": 9395
    },
    {
      "epoch": 2.262879152623977,
      "grad_norm": 0.984375,
      "learning_rate": 0.00011263936605629842,
      "loss": 0.3944,
      "step": 9400
    },
    {
      "epoch": 2.264082811747713,
      "grad_norm": 1.03125,
      "learning_rate": 0.00011256801984630502,
      "loss": 0.3896,
      "step": 9405
    },
    {
      "epoch": 2.265286470871449,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011249668764189369,
      "loss": 0.3876,
      "step": 9410
    },
    {
      "epoch": 2.2664901299951854,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00011242536950708272,
      "loss": 0.4062,
      "step": 9415
    },
    {
      "epoch": 2.2676937891189217,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00011235406550587776,
      "loss": 0.4153,
      "step": 9420
    },
    {
      "epoch": 2.2688974482426576,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011228277570227175,
      "loss": 0.4118,
      "step": 9425
    },
    {
      "epoch": 2.270101107366394,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00011221150016024493,
      "loss": 0.3852,
      "step": 9430
    },
    {
      "epoch": 2.27130476649013,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00011214023894376464,
      "loss": 0.4141,
      "step": 9435
    },
    {
      "epoch": 2.272508425613866,
      "grad_norm": 1.0625,
      "learning_rate": 0.00011206899211678556,
      "loss": 0.4061,
      "step": 9440
    },
    {
      "epoch": 2.2737120847376024,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00011199775974324922,
      "loss": 0.3992,
      "step": 9445
    },
    {
      "epoch": 2.2749157438613383,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011192654188708437,
      "loss": 0.4264,
      "step": 9450
    },
    {
      "epoch": 2.2761194029850746,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00011185533861220663,
      "loss": 0.4014,
      "step": 9455
    },
    {
      "epoch": 2.277323062108811,
      "grad_norm": 0.91796875,
      "learning_rate": 0.00011178414998251854,
      "loss": 0.3882,
      "step": 9460
    },
    {
      "epoch": 2.278526721232547,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00011171297606190955,
      "loss": 0.3994,
      "step": 9465
    },
    {
      "epoch": 2.279730380356283,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011164181691425591,
      "loss": 0.4129,
      "step": 9470
    },
    {
      "epoch": 2.2809340394800195,
      "grad_norm": 1.0,
      "learning_rate": 0.00011157067260342047,
      "loss": 0.4218,
      "step": 9475
    },
    {
      "epoch": 2.2821376986037554,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00011149954319325295,
      "loss": 0.4282,
      "step": 9480
    },
    {
      "epoch": 2.2833413577274917,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001114284287475896,
      "loss": 0.4001,
      "step": 9485
    },
    {
      "epoch": 2.2845450168512276,
      "grad_norm": 0.984375,
      "learning_rate": 0.00011135732933025322,
      "loss": 0.4099,
      "step": 9490
    },
    {
      "epoch": 2.285748675974964,
      "grad_norm": 1.078125,
      "learning_rate": 0.00011128624500505322,
      "loss": 0.4388,
      "step": 9495
    },
    {
      "epoch": 2.2869523350987,
      "grad_norm": 1.125,
      "learning_rate": 0.00011121517583578538,
      "loss": 0.425,
      "step": 9500
    },
    {
      "epoch": 2.2869523350987,
      "eval_loss": 0.3737788498401642,
      "eval_runtime": 2.3555,
      "eval_samples_per_second": 84.907,
      "eval_steps_per_second": 84.907,
      "step": 9500
    },
    {
      "epoch": 2.288155994222436,
      "grad_norm": 1.0625,
      "learning_rate": 0.00011114412188623192,
      "loss": 0.3965,
      "step": 9505
    },
    {
      "epoch": 2.2893596533461724,
      "grad_norm": 0.91796875,
      "learning_rate": 0.00011107308322016139,
      "loss": 0.3889,
      "step": 9510
    },
    {
      "epoch": 2.2905633124699083,
      "grad_norm": 1.109375,
      "learning_rate": 0.00011100205990132853,
      "loss": 0.3988,
      "step": 9515
    },
    {
      "epoch": 2.2917669715936446,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001109310519934745,
      "loss": 0.4219,
      "step": 9520
    },
    {
      "epoch": 2.292970630717381,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0001108600595603265,
      "loss": 0.3981,
      "step": 9525
    },
    {
      "epoch": 2.294174289841117,
      "grad_norm": 1.015625,
      "learning_rate": 0.00011078908266559781,
      "loss": 0.4256,
      "step": 9530
    },
    {
      "epoch": 2.295377948964853,
      "grad_norm": 1.0625,
      "learning_rate": 0.00011071812137298792,
      "loss": 0.4239,
      "step": 9535
    },
    {
      "epoch": 2.2965816080885895,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00011064717574618213,
      "loss": 0.4134,
      "step": 9540
    },
    {
      "epoch": 2.2977852672123253,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00011057624584885178,
      "loss": 0.4064,
      "step": 9545
    },
    {
      "epoch": 2.2989889263360617,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00011050533174465415,
      "loss": 0.4028,
      "step": 9550
    },
    {
      "epoch": 2.300192585459798,
      "grad_norm": 0.9375,
      "learning_rate": 0.00011043443349723222,
      "loss": 0.3983,
      "step": 9555
    },
    {
      "epoch": 2.301396244583534,
      "grad_norm": 1.0625,
      "learning_rate": 0.00011036355117021479,
      "loss": 0.4169,
      "step": 9560
    },
    {
      "epoch": 2.30259990370727,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00011029268482721641,
      "loss": 0.3789,
      "step": 9565
    },
    {
      "epoch": 2.303803562831006,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00011022183453183724,
      "loss": 0.4294,
      "step": 9570
    },
    {
      "epoch": 2.3050072219547424,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00011015100034766303,
      "loss": 0.3813,
      "step": 9575
    },
    {
      "epoch": 2.3062108810784787,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00011008018233826515,
      "loss": 0.4321,
      "step": 9580
    },
    {
      "epoch": 2.3074145402022146,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00011000938056720036,
      "loss": 0.3977,
      "step": 9585
    },
    {
      "epoch": 2.308618199325951,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010993859509801087,
      "loss": 0.4167,
      "step": 9590
    },
    {
      "epoch": 2.3098218584496872,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010986782599422432,
      "loss": 0.4403,
      "step": 9595
    },
    {
      "epoch": 2.311025517573423,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00010979707331935356,
      "loss": 0.4135,
      "step": 9600
    },
    {
      "epoch": 2.3122291766971594,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00010972633713689674,
      "loss": 0.4014,
      "step": 9605
    },
    {
      "epoch": 2.3134328358208958,
      "grad_norm": 0.984375,
      "learning_rate": 0.00010965561751033732,
      "loss": 0.3802,
      "step": 9610
    },
    {
      "epoch": 2.3146364949446316,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010958491450314369,
      "loss": 0.4037,
      "step": 9615
    },
    {
      "epoch": 2.315840154068368,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00010951422817876948,
      "loss": 0.4409,
      "step": 9620
    },
    {
      "epoch": 2.317043813192104,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00010944355860065331,
      "loss": 0.398,
      "step": 9625
    },
    {
      "epoch": 2.31824747231584,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00010937290583221877,
      "loss": 0.4227,
      "step": 9630
    },
    {
      "epoch": 2.3194511314395765,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010930226993687437,
      "loss": 0.3891,
      "step": 9635
    },
    {
      "epoch": 2.3206547905633124,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010923165097801341,
      "loss": 0.3923,
      "step": 9640
    },
    {
      "epoch": 2.3218584496870487,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00010916104901901406,
      "loss": 0.3993,
      "step": 9645
    },
    {
      "epoch": 2.3230621088107846,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00010909046412323926,
      "loss": 0.4074,
      "step": 9650
    },
    {
      "epoch": 2.324265767934521,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010901989635403658,
      "loss": 0.4037,
      "step": 9655
    },
    {
      "epoch": 2.325469427058257,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001089493457747382,
      "loss": 0.3959,
      "step": 9660
    },
    {
      "epoch": 2.326673086181993,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00010887881244866092,
      "loss": 0.3863,
      "step": 9665
    },
    {
      "epoch": 2.3278767453057294,
      "grad_norm": 1.203125,
      "learning_rate": 0.00010880829643910606,
      "loss": 0.4277,
      "step": 9670
    },
    {
      "epoch": 2.3290804044294657,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010873779780935943,
      "loss": 0.4081,
      "step": 9675
    },
    {
      "epoch": 2.3302840635532016,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010866731662269109,
      "loss": 0.4039,
      "step": 9680
    },
    {
      "epoch": 2.331487722676938,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001085968529423556,
      "loss": 0.4221,
      "step": 9685
    },
    {
      "epoch": 2.3326913818006743,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00010852640683159177,
      "loss": 0.3882,
      "step": 9690
    },
    {
      "epoch": 2.33389504092441,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010845597835362258,
      "loss": 0.4002,
      "step": 9695
    },
    {
      "epoch": 2.3350987000481465,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00010838556757165528,
      "loss": 0.4113,
      "step": 9700
    },
    {
      "epoch": 2.3363023591718823,
      "grad_norm": 0.984375,
      "learning_rate": 0.00010831517454888122,
      "loss": 0.3922,
      "step": 9705
    },
    {
      "epoch": 2.3375060182956187,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001082447993484757,
      "loss": 0.402,
      "step": 9710
    },
    {
      "epoch": 2.338709677419355,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010817444203359823,
      "loss": 0.3954,
      "step": 9715
    },
    {
      "epoch": 2.339913336543091,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00010810410266739204,
      "loss": 0.3903,
      "step": 9720
    },
    {
      "epoch": 2.341116995666827,
      "grad_norm": 1.125,
      "learning_rate": 0.00010803378131298438,
      "loss": 0.4084,
      "step": 9725
    },
    {
      "epoch": 2.3423206547905635,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010796347803348634,
      "loss": 0.4101,
      "step": 9730
    },
    {
      "epoch": 2.3435243139142994,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00010789319289199275,
      "loss": 0.4125,
      "step": 9735
    },
    {
      "epoch": 2.3447279730380357,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001078229259515822,
      "loss": 0.4058,
      "step": 9740
    },
    {
      "epoch": 2.345931632161772,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00010775267727531688,
      "loss": 0.3906,
      "step": 9745
    },
    {
      "epoch": 2.347135291285508,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010768244692624267,
      "loss": 0.4411,
      "step": 9750
    },
    {
      "epoch": 2.3483389504092442,
      "grad_norm": 1.0,
      "learning_rate": 0.00010761223496738896,
      "loss": 0.3768,
      "step": 9755
    },
    {
      "epoch": 2.34954260953298,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001075420414617686,
      "loss": 0.3837,
      "step": 9760
    },
    {
      "epoch": 2.3507462686567164,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00010747186647237793,
      "loss": 0.4019,
      "step": 9765
    },
    {
      "epoch": 2.3519499277804528,
      "grad_norm": 0.91796875,
      "learning_rate": 0.00010740171006219663,
      "loss": 0.3842,
      "step": 9770
    },
    {
      "epoch": 2.3531535869041886,
      "grad_norm": 1.125,
      "learning_rate": 0.00010733157229418781,
      "loss": 0.4019,
      "step": 9775
    },
    {
      "epoch": 2.354357246027925,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010726145323129768,
      "loss": 0.3976,
      "step": 9780
    },
    {
      "epoch": 2.355560905151661,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00010719135293645583,
      "loss": 0.4061,
      "step": 9785
    },
    {
      "epoch": 2.356764564275397,
      "grad_norm": 1.09375,
      "learning_rate": 0.00010712127147257491,
      "loss": 0.4393,
      "step": 9790
    },
    {
      "epoch": 2.3579682233991335,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00010705120890255071,
      "loss": 0.3997,
      "step": 9795
    },
    {
      "epoch": 2.3591718825228694,
      "grad_norm": 1.046875,
      "learning_rate": 0.00010698116528926197,
      "loss": 0.3949,
      "step": 9800
    },
    {
      "epoch": 2.3603755416466057,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00010691114069557054,
      "loss": 0.3888,
      "step": 9805
    },
    {
      "epoch": 2.361579200770342,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010684113518432115,
      "loss": 0.3958,
      "step": 9810
    },
    {
      "epoch": 2.362782859894078,
      "grad_norm": 0.93359375,
      "learning_rate": 0.00010677114881834144,
      "loss": 0.4197,
      "step": 9815
    },
    {
      "epoch": 2.363986519017814,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001067011816604418,
      "loss": 0.4055,
      "step": 9820
    },
    {
      "epoch": 2.3651901781415505,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001066312337734154,
      "loss": 0.4217,
      "step": 9825
    },
    {
      "epoch": 2.3663938372652864,
      "grad_norm": 0.90625,
      "learning_rate": 0.00010656130522003814,
      "loss": 0.3787,
      "step": 9830
    },
    {
      "epoch": 2.3675974963890227,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010649139606306862,
      "loss": 0.4474,
      "step": 9835
    },
    {
      "epoch": 2.3688011555127586,
      "grad_norm": 0.9375,
      "learning_rate": 0.00010642150636524789,
      "loss": 0.4077,
      "step": 9840
    },
    {
      "epoch": 2.370004814636495,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00010635163618929966,
      "loss": 0.3959,
      "step": 9845
    },
    {
      "epoch": 2.3712084737602313,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00010628178559793005,
      "loss": 0.4345,
      "step": 9850
    },
    {
      "epoch": 2.372412132883967,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00010621195465382762,
      "loss": 0.3856,
      "step": 9855
    },
    {
      "epoch": 2.3736157920077035,
      "grad_norm": 0.96875,
      "learning_rate": 0.0001061421434196634,
      "loss": 0.3847,
      "step": 9860
    },
    {
      "epoch": 2.3748194511314393,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010607235195809052,
      "loss": 0.3991,
      "step": 9865
    },
    {
      "epoch": 2.3760231102551757,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00010600258033174455,
      "loss": 0.4006,
      "step": 9870
    },
    {
      "epoch": 2.377226769378912,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00010593282860324323,
      "loss": 0.4036,
      "step": 9875
    },
    {
      "epoch": 2.3784304285026483,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010586309683518631,
      "loss": 0.4463,
      "step": 9880
    },
    {
      "epoch": 2.379634087626384,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00010579338509015576,
      "loss": 0.4012,
      "step": 9885
    },
    {
      "epoch": 2.3808377467501205,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010572369343071558,
      "loss": 0.3909,
      "step": 9890
    },
    {
      "epoch": 2.3820414058738564,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010565402191941163,
      "loss": 0.4349,
      "step": 9895
    },
    {
      "epoch": 2.3832450649975927,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00010558437061877183,
      "loss": 0.391,
      "step": 9900
    },
    {
      "epoch": 2.384448724121329,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010551473959130588,
      "loss": 0.3932,
      "step": 9905
    },
    {
      "epoch": 2.385652383245065,
      "grad_norm": 1.15625,
      "learning_rate": 0.00010544512889950525,
      "loss": 0.3994,
      "step": 9910
    },
    {
      "epoch": 2.3868560423688012,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0001053755386058433,
      "loss": 0.4208,
      "step": 9915
    },
    {
      "epoch": 2.388059701492537,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010530596877277495,
      "loss": 0.3968,
      "step": 9920
    },
    {
      "epoch": 2.3892633606162734,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010523641946273675,
      "loss": 0.3979,
      "step": 9925
    },
    {
      "epoch": 2.3904670197400097,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010516689073814694,
      "loss": 0.3819,
      "step": 9930
    },
    {
      "epoch": 2.3916706788637456,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0001050973826614052,
      "loss": 0.3867,
      "step": 9935
    },
    {
      "epoch": 2.392874337987482,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00010502789529489273,
      "loss": 0.3827,
      "step": 9940
    },
    {
      "epoch": 2.3940779971112183,
      "grad_norm": 1.078125,
      "learning_rate": 0.00010495842870097208,
      "loss": 0.3925,
      "step": 9945
    },
    {
      "epoch": 2.395281656234954,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0001048889829419872,
      "loss": 0.4186,
      "step": 9950
    },
    {
      "epoch": 2.3964853153586905,
      "grad_norm": 1.046875,
      "learning_rate": 0.00010481955808026344,
      "loss": 0.3871,
      "step": 9955
    },
    {
      "epoch": 2.397688974482427,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00010475015417810716,
      "loss": 0.421,
      "step": 9960
    },
    {
      "epoch": 2.3988926336061627,
      "grad_norm": 1.046875,
      "learning_rate": 0.00010468077129780608,
      "loss": 0.4179,
      "step": 9965
    },
    {
      "epoch": 2.400096292729899,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00010461140950162902,
      "loss": 0.4046,
      "step": 9970
    },
    {
      "epoch": 2.401299951853635,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010454206885182592,
      "loss": 0.4405,
      "step": 9975
    },
    {
      "epoch": 2.402503610977371,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00010447274941062763,
      "loss": 0.3921,
      "step": 9980
    },
    {
      "epoch": 2.4037072701011075,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010440345124024607,
      "loss": 0.4091,
      "step": 9985
    },
    {
      "epoch": 2.4049109292248434,
      "grad_norm": 0.8671875,
      "learning_rate": 0.000104334174402874,
      "loss": 0.3719,
      "step": 9990
    },
    {
      "epoch": 2.4061145883485797,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010426491896068513,
      "loss": 0.3683,
      "step": 9995
    },
    {
      "epoch": 2.4073182474723156,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00010419568497583383,
      "loss": 0.4107,
      "step": 10000
    },
    {
      "epoch": 2.4073182474723156,
      "eval_loss": 0.36819595098495483,
      "eval_runtime": 2.3514,
      "eval_samples_per_second": 85.057,
      "eval_steps_per_second": 85.057,
      "step": 10000
    },
    {
      "epoch": 2.408521906596052,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010412647251045531,
      "loss": 0.3848,
      "step": 10005
    },
    {
      "epoch": 2.4097255657197882,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00010405728162666547,
      "loss": 0.3846,
      "step": 10010
    },
    {
      "epoch": 2.410929224843524,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00010398811238656079,
      "loss": 0.3957,
      "step": 10015
    },
    {
      "epoch": 2.4121328839672604,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00010391896485221835,
      "loss": 0.3971,
      "step": 10020
    },
    {
      "epoch": 2.4133365430909968,
      "grad_norm": 1.09375,
      "learning_rate": 0.00010384983908569576,
      "loss": 0.3867,
      "step": 10025
    },
    {
      "epoch": 2.4145402022147326,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00010378073514903111,
      "loss": 0.4201,
      "step": 10030
    },
    {
      "epoch": 2.415743861338469,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010371165310424286,
      "loss": 0.3967,
      "step": 10035
    },
    {
      "epoch": 2.4169475204622053,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010364259301332979,
      "loss": 0.4013,
      "step": 10040
    },
    {
      "epoch": 2.418151179585941,
      "grad_norm": 1.140625,
      "learning_rate": 0.00010357355493827108,
      "loss": 0.4278,
      "step": 10045
    },
    {
      "epoch": 2.4193548387096775,
      "grad_norm": 1.15625,
      "learning_rate": 0.00010350453894102603,
      "loss": 0.4207,
      "step": 10050
    },
    {
      "epoch": 2.4205584978334134,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010343554508353427,
      "loss": 0.3962,
      "step": 10055
    },
    {
      "epoch": 2.4217621569571497,
      "grad_norm": 1.0625,
      "learning_rate": 0.00010336657342771544,
      "loss": 0.4175,
      "step": 10060
    },
    {
      "epoch": 2.422965816080886,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010329762403546929,
      "loss": 0.3889,
      "step": 10065
    },
    {
      "epoch": 2.424169475204622,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00010322869696867563,
      "loss": 0.3866,
      "step": 10070
    },
    {
      "epoch": 2.425373134328358,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00010315979228919418,
      "loss": 0.3924,
      "step": 10075
    },
    {
      "epoch": 2.4265767934520945,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010309091005886452,
      "loss": 0.4005,
      "step": 10080
    },
    {
      "epoch": 2.4277804525758304,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010302205033950628,
      "loss": 0.4052,
      "step": 10085
    },
    {
      "epoch": 2.4289841116995667,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00010295321319291862,
      "loss": 0.3789,
      "step": 10090
    },
    {
      "epoch": 2.430187770823303,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00010288439868088067,
      "loss": 0.3771,
      "step": 10095
    },
    {
      "epoch": 2.431391429947039,
      "grad_norm": 1.0,
      "learning_rate": 0.00010281560686515113,
      "loss": 0.4043,
      "step": 10100
    },
    {
      "epoch": 2.4325950890707753,
      "grad_norm": 1.046875,
      "learning_rate": 0.00010274683780746836,
      "loss": 0.4279,
      "step": 10105
    },
    {
      "epoch": 2.433798748194511,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00010267809156955029,
      "loss": 0.3857,
      "step": 10110
    },
    {
      "epoch": 2.4350024073182475,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001026093682130944,
      "loss": 0.4142,
      "step": 10115
    },
    {
      "epoch": 2.436206066441984,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001025406677997775,
      "loss": 0.4047,
      "step": 10120
    },
    {
      "epoch": 2.4374097255657197,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010247199039125601,
      "loss": 0.3986,
      "step": 10125
    },
    {
      "epoch": 2.438613384689456,
      "grad_norm": 0.96875,
      "learning_rate": 0.00010240333604916559,
      "loss": 0.4001,
      "step": 10130
    },
    {
      "epoch": 2.439817043813192,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001023347048351212,
      "loss": 0.401,
      "step": 10135
    },
    {
      "epoch": 2.441020702936928,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010226609681071709,
      "loss": 0.3961,
      "step": 10140
    },
    {
      "epoch": 2.4422243620606645,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010219751203752663,
      "loss": 0.4151,
      "step": 10145
    },
    {
      "epoch": 2.4434280211844004,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00010212895057710238,
      "loss": 0.4057,
      "step": 10150
    },
    {
      "epoch": 2.4446316803081367,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010206041249097601,
      "loss": 0.3807,
      "step": 10155
    },
    {
      "epoch": 2.445835339431873,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010199189784065808,
      "loss": 0.4226,
      "step": 10160
    },
    {
      "epoch": 2.447038998555609,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00010192340668763823,
      "loss": 0.3955,
      "step": 10165
    },
    {
      "epoch": 2.4482426576793452,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00010185493909338498,
      "loss": 0.4077,
      "step": 10170
    },
    {
      "epoch": 2.4494463168030816,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001017864951193457,
      "loss": 0.41,
      "step": 10175
    },
    {
      "epoch": 2.4506499759268174,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010171807482694658,
      "loss": 0.4075,
      "step": 10180
    },
    {
      "epoch": 2.4518536350505538,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00010164967827759255,
      "loss": 0.3915,
      "step": 10185
    },
    {
      "epoch": 2.4530572941742896,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00010158130553266722,
      "loss": 0.3908,
      "step": 10190
    },
    {
      "epoch": 2.454260953298026,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00010151295665353287,
      "loss": 0.4049,
      "step": 10195
    },
    {
      "epoch": 2.4554646124217623,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001014446317015303,
      "loss": 0.3893,
      "step": 10200
    },
    {
      "epoch": 2.456668271545498,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010137633073797885,
      "loss": 0.3975,
      "step": 10205
    },
    {
      "epoch": 2.4578719306692345,
      "grad_norm": 1.046875,
      "learning_rate": 0.00010130805382417638,
      "loss": 0.4042,
      "step": 10210
    },
    {
      "epoch": 2.459075589792971,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00010123980102139918,
      "loss": 0.4282,
      "step": 10215
    },
    {
      "epoch": 2.4602792489167067,
      "grad_norm": 0.953125,
      "learning_rate": 0.00010117157239090176,
      "loss": 0.4187,
      "step": 10220
    },
    {
      "epoch": 2.461482908040443,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010110336799391714,
      "loss": 0.397,
      "step": 10225
    },
    {
      "epoch": 2.4626865671641793,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00010103518789165641,
      "loss": 0.4012,
      "step": 10230
    },
    {
      "epoch": 2.463890226287915,
      "grad_norm": 1.078125,
      "learning_rate": 0.00010096703214530897,
      "loss": 0.4001,
      "step": 10235
    },
    {
      "epoch": 2.4650938854116515,
      "grad_norm": 0.984375,
      "learning_rate": 0.00010089890081604235,
      "loss": 0.3821,
      "step": 10240
    },
    {
      "epoch": 2.4662975445353874,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00010083079396500208,
      "loss": 0.4222,
      "step": 10245
    },
    {
      "epoch": 2.4675012036591237,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010076271165331181,
      "loss": 0.3884,
      "step": 10250
    },
    {
      "epoch": 2.46870486278286,
      "grad_norm": 1.03125,
      "learning_rate": 0.00010069465394207315,
      "loss": 0.4078,
      "step": 10255
    },
    {
      "epoch": 2.469908521906596,
      "grad_norm": 0.953125,
      "learning_rate": 0.00010062662089236559,
      "loss": 0.4043,
      "step": 10260
    },
    {
      "epoch": 2.4711121810303323,
      "grad_norm": 1.0625,
      "learning_rate": 0.00010055861256524654,
      "loss": 0.4076,
      "step": 10265
    },
    {
      "epoch": 2.472315840154068,
      "grad_norm": 1.0625,
      "learning_rate": 0.00010049062902175123,
      "loss": 0.404,
      "step": 10270
    },
    {
      "epoch": 2.4735194992778045,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00010042267032289255,
      "loss": 0.4178,
      "step": 10275
    },
    {
      "epoch": 2.474723158401541,
      "grad_norm": 1.015625,
      "learning_rate": 0.00010035473652966124,
      "loss": 0.3973,
      "step": 10280
    },
    {
      "epoch": 2.4759268175252767,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00010028682770302555,
      "loss": 0.3977,
      "step": 10285
    },
    {
      "epoch": 2.477130476649013,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00010021894390393138,
      "loss": 0.39,
      "step": 10290
    },
    {
      "epoch": 2.4783341357727493,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001001510851933022,
      "loss": 0.3888,
      "step": 10295
    },
    {
      "epoch": 2.479537794896485,
      "grad_norm": 0.953125,
      "learning_rate": 0.00010008325163203892,
      "loss": 0.394,
      "step": 10300
    },
    {
      "epoch": 2.4807414540202215,
      "grad_norm": 1.078125,
      "learning_rate": 0.00010001544328101988,
      "loss": 0.4204,
      "step": 10305
    },
    {
      "epoch": 2.481945113143958,
      "grad_norm": 1.015625,
      "learning_rate": 9.994766020110084e-05,
      "loss": 0.376,
      "step": 10310
    },
    {
      "epoch": 2.4831487722676937,
      "grad_norm": 1.1015625,
      "learning_rate": 9.987990245311485e-05,
      "loss": 0.4057,
      "step": 10315
    },
    {
      "epoch": 2.48435243139143,
      "grad_norm": 0.99609375,
      "learning_rate": 9.981217009787222e-05,
      "loss": 0.3924,
      "step": 10320
    },
    {
      "epoch": 2.485556090515166,
      "grad_norm": 1.015625,
      "learning_rate": 9.974446319616045e-05,
      "loss": 0.4139,
      "step": 10325
    },
    {
      "epoch": 2.4867597496389022,
      "grad_norm": 0.9296875,
      "learning_rate": 9.967678180874422e-05,
      "loss": 0.3848,
      "step": 10330
    },
    {
      "epoch": 2.4879634087626386,
      "grad_norm": 1.015625,
      "learning_rate": 9.960912599636532e-05,
      "loss": 0.4026,
      "step": 10335
    },
    {
      "epoch": 2.4891670678863744,
      "grad_norm": 1.21875,
      "learning_rate": 9.954149581974263e-05,
      "loss": 0.4009,
      "step": 10340
    },
    {
      "epoch": 2.4903707270101108,
      "grad_norm": 0.984375,
      "learning_rate": 9.94738913395719e-05,
      "loss": 0.4379,
      "step": 10345
    },
    {
      "epoch": 2.491574386133847,
      "grad_norm": 1.015625,
      "learning_rate": 9.940631261652592e-05,
      "loss": 0.3752,
      "step": 10350
    },
    {
      "epoch": 2.492778045257583,
      "grad_norm": 1.0859375,
      "learning_rate": 9.933875971125432e-05,
      "loss": 0.3975,
      "step": 10355
    },
    {
      "epoch": 2.4939817043813193,
      "grad_norm": 0.98828125,
      "learning_rate": 9.927123268438365e-05,
      "loss": 0.4052,
      "step": 10360
    },
    {
      "epoch": 2.4951853635050556,
      "grad_norm": 1.0625,
      "learning_rate": 9.920373159651707e-05,
      "loss": 0.4254,
      "step": 10365
    },
    {
      "epoch": 2.4963890226287915,
      "grad_norm": 1.03125,
      "learning_rate": 9.913625650823458e-05,
      "loss": 0.421,
      "step": 10370
    },
    {
      "epoch": 2.497592681752528,
      "grad_norm": 0.98828125,
      "learning_rate": 9.906880748009281e-05,
      "loss": 0.4111,
      "step": 10375
    },
    {
      "epoch": 2.4987963408762637,
      "grad_norm": 1.1484375,
      "learning_rate": 9.900138457262503e-05,
      "loss": 0.3946,
      "step": 10380
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.0625,
      "learning_rate": 9.893398784634103e-05,
      "loss": 0.4282,
      "step": 10385
    },
    {
      "epoch": 2.5012036591237363,
      "grad_norm": 1.0,
      "learning_rate": 9.886661736172711e-05,
      "loss": 0.3733,
      "step": 10390
    },
    {
      "epoch": 2.502407318247472,
      "grad_norm": 1.0078125,
      "learning_rate": 9.879927317924606e-05,
      "loss": 0.4407,
      "step": 10395
    },
    {
      "epoch": 2.5036109773712085,
      "grad_norm": 0.95703125,
      "learning_rate": 9.873195535933702e-05,
      "loss": 0.3855,
      "step": 10400
    },
    {
      "epoch": 2.5048146364949444,
      "grad_norm": 1.03125,
      "learning_rate": 9.866466396241545e-05,
      "loss": 0.3845,
      "step": 10405
    },
    {
      "epoch": 2.5060182956186807,
      "grad_norm": 0.9375,
      "learning_rate": 9.859739904887317e-05,
      "loss": 0.3955,
      "step": 10410
    },
    {
      "epoch": 2.507221954742417,
      "grad_norm": 1.0234375,
      "learning_rate": 9.853016067907816e-05,
      "loss": 0.3971,
      "step": 10415
    },
    {
      "epoch": 2.5084256138661534,
      "grad_norm": 1.0,
      "learning_rate": 9.846294891337463e-05,
      "loss": 0.4062,
      "step": 10420
    },
    {
      "epoch": 2.5096292729898892,
      "grad_norm": 1.109375,
      "learning_rate": 9.83957638120829e-05,
      "loss": 0.4147,
      "step": 10425
    },
    {
      "epoch": 2.5108329321136256,
      "grad_norm": 1.015625,
      "learning_rate": 9.832860543549933e-05,
      "loss": 0.4149,
      "step": 10430
    },
    {
      "epoch": 2.5120365912373614,
      "grad_norm": 0.984375,
      "learning_rate": 9.826147384389636e-05,
      "loss": 0.3858,
      "step": 10435
    },
    {
      "epoch": 2.5132402503610978,
      "grad_norm": 1.0390625,
      "learning_rate": 9.819436909752232e-05,
      "loss": 0.3821,
      "step": 10440
    },
    {
      "epoch": 2.514443909484834,
      "grad_norm": 1.109375,
      "learning_rate": 9.812729125660146e-05,
      "loss": 0.4158,
      "step": 10445
    },
    {
      "epoch": 2.51564756860857,
      "grad_norm": 0.953125,
      "learning_rate": 9.806024038133389e-05,
      "loss": 0.3795,
      "step": 10450
    },
    {
      "epoch": 2.5168512277323063,
      "grad_norm": 1.015625,
      "learning_rate": 9.79932165318956e-05,
      "loss": 0.4036,
      "step": 10455
    },
    {
      "epoch": 2.518054886856042,
      "grad_norm": 1.0625,
      "learning_rate": 9.792621976843817e-05,
      "loss": 0.392,
      "step": 10460
    },
    {
      "epoch": 2.5192585459797785,
      "grad_norm": 1.09375,
      "learning_rate": 9.785925015108904e-05,
      "loss": 0.3991,
      "step": 10465
    },
    {
      "epoch": 2.520462205103515,
      "grad_norm": 0.94921875,
      "learning_rate": 9.779230773995113e-05,
      "loss": 0.3894,
      "step": 10470
    },
    {
      "epoch": 2.5216658642272507,
      "grad_norm": 1.0390625,
      "learning_rate": 9.772539259510305e-05,
      "loss": 0.4063,
      "step": 10475
    },
    {
      "epoch": 2.522869523350987,
      "grad_norm": 1.046875,
      "learning_rate": 9.765850477659892e-05,
      "loss": 0.3827,
      "step": 10480
    },
    {
      "epoch": 2.524073182474723,
      "grad_norm": 1.0703125,
      "learning_rate": 9.759164434446832e-05,
      "loss": 0.3864,
      "step": 10485
    },
    {
      "epoch": 2.525276841598459,
      "grad_norm": 1.0,
      "learning_rate": 9.75248113587162e-05,
      "loss": 0.3797,
      "step": 10490
    },
    {
      "epoch": 2.5264805007221955,
      "grad_norm": 0.93359375,
      "learning_rate": 9.745800587932298e-05,
      "loss": 0.3853,
      "step": 10495
    },
    {
      "epoch": 2.527684159845932,
      "grad_norm": 0.9765625,
      "learning_rate": 9.739122796624431e-05,
      "loss": 0.3866,
      "step": 10500
    },
    {
      "epoch": 2.527684159845932,
      "eval_loss": 0.3630833029747009,
      "eval_runtime": 2.3394,
      "eval_samples_per_second": 85.493,
      "eval_steps_per_second": 85.493,
      "step": 10500
    },
    {
      "epoch": 2.5288878189696677,
      "grad_norm": 1.03125,
      "learning_rate": 9.73244776794112e-05,
      "loss": 0.397,
      "step": 10505
    },
    {
      "epoch": 2.530091478093404,
      "grad_norm": 0.9921875,
      "learning_rate": 9.725775507872973e-05,
      "loss": 0.4032,
      "step": 10510
    },
    {
      "epoch": 2.53129513721714,
      "grad_norm": 1.046875,
      "learning_rate": 9.719106022408123e-05,
      "loss": 0.3882,
      "step": 10515
    },
    {
      "epoch": 2.5324987963408763,
      "grad_norm": 1.078125,
      "learning_rate": 9.712439317532215e-05,
      "loss": 0.3823,
      "step": 10520
    },
    {
      "epoch": 2.5337024554646126,
      "grad_norm": 0.96875,
      "learning_rate": 9.705775399228387e-05,
      "loss": 0.3973,
      "step": 10525
    },
    {
      "epoch": 2.5349061145883485,
      "grad_norm": 0.96484375,
      "learning_rate": 9.699114273477283e-05,
      "loss": 0.3695,
      "step": 10530
    },
    {
      "epoch": 2.536109773712085,
      "grad_norm": 0.9609375,
      "learning_rate": 9.692455946257045e-05,
      "loss": 0.3957,
      "step": 10535
    },
    {
      "epoch": 2.5373134328358207,
      "grad_norm": 1.046875,
      "learning_rate": 9.685800423543297e-05,
      "loss": 0.3967,
      "step": 10540
    },
    {
      "epoch": 2.538517091959557,
      "grad_norm": 0.9765625,
      "learning_rate": 9.679147711309146e-05,
      "loss": 0.3955,
      "step": 10545
    },
    {
      "epoch": 2.5397207510832933,
      "grad_norm": 1.0390625,
      "learning_rate": 9.672497815525183e-05,
      "loss": 0.3963,
      "step": 10550
    },
    {
      "epoch": 2.5409244102070296,
      "grad_norm": 1.125,
      "learning_rate": 9.665850742159466e-05,
      "loss": 0.4036,
      "step": 10555
    },
    {
      "epoch": 2.5421280693307655,
      "grad_norm": 1.1171875,
      "learning_rate": 9.659206497177522e-05,
      "loss": 0.3887,
      "step": 10560
    },
    {
      "epoch": 2.543331728454502,
      "grad_norm": 1.015625,
      "learning_rate": 9.652565086542337e-05,
      "loss": 0.3876,
      "step": 10565
    },
    {
      "epoch": 2.5445353875782377,
      "grad_norm": 1.125,
      "learning_rate": 9.645926516214354e-05,
      "loss": 0.3917,
      "step": 10570
    },
    {
      "epoch": 2.545739046701974,
      "grad_norm": 0.97265625,
      "learning_rate": 9.639290792151467e-05,
      "loss": 0.3657,
      "step": 10575
    },
    {
      "epoch": 2.5469427058257104,
      "grad_norm": 0.90234375,
      "learning_rate": 9.632657920309022e-05,
      "loss": 0.4036,
      "step": 10580
    },
    {
      "epoch": 2.5481463649494462,
      "grad_norm": 0.97265625,
      "learning_rate": 9.626027906639795e-05,
      "loss": 0.4352,
      "step": 10585
    },
    {
      "epoch": 2.5493500240731826,
      "grad_norm": 1.046875,
      "learning_rate": 9.619400757094004e-05,
      "loss": 0.3994,
      "step": 10590
    },
    {
      "epoch": 2.5505536831969184,
      "grad_norm": 0.9609375,
      "learning_rate": 9.612776477619295e-05,
      "loss": 0.4286,
      "step": 10595
    },
    {
      "epoch": 2.5517573423206548,
      "grad_norm": 1.0625,
      "learning_rate": 9.606155074160736e-05,
      "loss": 0.3913,
      "step": 10600
    },
    {
      "epoch": 2.552961001444391,
      "grad_norm": 1.1640625,
      "learning_rate": 9.599536552660815e-05,
      "loss": 0.419,
      "step": 10605
    },
    {
      "epoch": 2.554164660568127,
      "grad_norm": 1.03125,
      "learning_rate": 9.592920919059434e-05,
      "loss": 0.3813,
      "step": 10610
    },
    {
      "epoch": 2.5553683196918633,
      "grad_norm": 1.1171875,
      "learning_rate": 9.586308179293904e-05,
      "loss": 0.3909,
      "step": 10615
    },
    {
      "epoch": 2.556571978815599,
      "grad_norm": 0.92578125,
      "learning_rate": 9.579698339298932e-05,
      "loss": 0.3785,
      "step": 10620
    },
    {
      "epoch": 2.5577756379393355,
      "grad_norm": 1.046875,
      "learning_rate": 9.573091405006638e-05,
      "loss": 0.3863,
      "step": 10625
    },
    {
      "epoch": 2.558979297063072,
      "grad_norm": 1.0,
      "learning_rate": 9.56648738234652e-05,
      "loss": 0.4144,
      "step": 10630
    },
    {
      "epoch": 2.560182956186808,
      "grad_norm": 1.0390625,
      "learning_rate": 9.559886277245465e-05,
      "loss": 0.4071,
      "step": 10635
    },
    {
      "epoch": 2.561386615310544,
      "grad_norm": 0.96875,
      "learning_rate": 9.553288095627754e-05,
      "loss": 0.3946,
      "step": 10640
    },
    {
      "epoch": 2.5625902744342803,
      "grad_norm": 0.91796875,
      "learning_rate": 9.546692843415022e-05,
      "loss": 0.4195,
      "step": 10645
    },
    {
      "epoch": 2.563793933558016,
      "grad_norm": 1.03125,
      "learning_rate": 9.540100526526292e-05,
      "loss": 0.3856,
      "step": 10650
    },
    {
      "epoch": 2.5649975926817525,
      "grad_norm": 0.94921875,
      "learning_rate": 9.53351115087795e-05,
      "loss": 0.3962,
      "step": 10655
    },
    {
      "epoch": 2.566201251805489,
      "grad_norm": 0.921875,
      "learning_rate": 9.52692472238374e-05,
      "loss": 0.398,
      "step": 10660
    },
    {
      "epoch": 2.5674049109292247,
      "grad_norm": 1.0703125,
      "learning_rate": 9.520341246954757e-05,
      "loss": 0.4203,
      "step": 10665
    },
    {
      "epoch": 2.568608570052961,
      "grad_norm": 1.0,
      "learning_rate": 9.51376073049946e-05,
      "loss": 0.402,
      "step": 10670
    },
    {
      "epoch": 2.569812229176697,
      "grad_norm": 1.03125,
      "learning_rate": 9.507183178923635e-05,
      "loss": 0.3876,
      "step": 10675
    },
    {
      "epoch": 2.5710158883004333,
      "grad_norm": 0.98046875,
      "learning_rate": 9.500608598130415e-05,
      "loss": 0.3616,
      "step": 10680
    },
    {
      "epoch": 2.5722195474241696,
      "grad_norm": 1.09375,
      "learning_rate": 9.49403699402027e-05,
      "loss": 0.3868,
      "step": 10685
    },
    {
      "epoch": 2.573423206547906,
      "grad_norm": 1.0703125,
      "learning_rate": 9.487468372490991e-05,
      "loss": 0.4075,
      "step": 10690
    },
    {
      "epoch": 2.574626865671642,
      "grad_norm": 0.9921875,
      "learning_rate": 9.480902739437695e-05,
      "loss": 0.415,
      "step": 10695
    },
    {
      "epoch": 2.575830524795378,
      "grad_norm": 1.0546875,
      "learning_rate": 9.474340100752823e-05,
      "loss": 0.3818,
      "step": 10700
    },
    {
      "epoch": 2.577034183919114,
      "grad_norm": 1.0546875,
      "learning_rate": 9.467780462326124e-05,
      "loss": 0.3997,
      "step": 10705
    },
    {
      "epoch": 2.5782378430428503,
      "grad_norm": 1.109375,
      "learning_rate": 9.461223830044651e-05,
      "loss": 0.4047,
      "step": 10710
    },
    {
      "epoch": 2.5794415021665866,
      "grad_norm": 1.0078125,
      "learning_rate": 9.454670209792762e-05,
      "loss": 0.399,
      "step": 10715
    },
    {
      "epoch": 2.5806451612903225,
      "grad_norm": 1.0234375,
      "learning_rate": 9.448119607452115e-05,
      "loss": 0.4255,
      "step": 10720
    },
    {
      "epoch": 2.581848820414059,
      "grad_norm": 1.0625,
      "learning_rate": 9.441572028901658e-05,
      "loss": 0.3836,
      "step": 10725
    },
    {
      "epoch": 2.5830524795377947,
      "grad_norm": 0.94140625,
      "learning_rate": 9.43502748001762e-05,
      "loss": 0.4085,
      "step": 10730
    },
    {
      "epoch": 2.584256138661531,
      "grad_norm": 1.046875,
      "learning_rate": 9.428485966673516e-05,
      "loss": 0.4165,
      "step": 10735
    },
    {
      "epoch": 2.5854597977852674,
      "grad_norm": 1.0390625,
      "learning_rate": 9.421947494740135e-05,
      "loss": 0.3771,
      "step": 10740
    },
    {
      "epoch": 2.5866634569090032,
      "grad_norm": 1.078125,
      "learning_rate": 9.415412070085535e-05,
      "loss": 0.415,
      "step": 10745
    },
    {
      "epoch": 2.5878671160327396,
      "grad_norm": 1.0,
      "learning_rate": 9.408879698575049e-05,
      "loss": 0.3786,
      "step": 10750
    },
    {
      "epoch": 2.5890707751564754,
      "grad_norm": 0.9765625,
      "learning_rate": 9.402350386071254e-05,
      "loss": 0.3987,
      "step": 10755
    },
    {
      "epoch": 2.5902744342802118,
      "grad_norm": 1.03125,
      "learning_rate": 9.395824138433992e-05,
      "loss": 0.3924,
      "step": 10760
    },
    {
      "epoch": 2.591478093403948,
      "grad_norm": 1.1171875,
      "learning_rate": 9.389300961520358e-05,
      "loss": 0.3643,
      "step": 10765
    },
    {
      "epoch": 2.5926817525276844,
      "grad_norm": 1.1171875,
      "learning_rate": 9.382780861184676e-05,
      "loss": 0.3906,
      "step": 10770
    },
    {
      "epoch": 2.5938854116514203,
      "grad_norm": 0.984375,
      "learning_rate": 9.37626384327852e-05,
      "loss": 0.3635,
      "step": 10775
    },
    {
      "epoch": 2.5950890707751566,
      "grad_norm": 1.09375,
      "learning_rate": 9.369749913650702e-05,
      "loss": 0.4274,
      "step": 10780
    },
    {
      "epoch": 2.5962927298988925,
      "grad_norm": 0.94140625,
      "learning_rate": 9.363239078147253e-05,
      "loss": 0.3744,
      "step": 10785
    },
    {
      "epoch": 2.597496389022629,
      "grad_norm": 1.109375,
      "learning_rate": 9.356731342611423e-05,
      "loss": 0.401,
      "step": 10790
    },
    {
      "epoch": 2.598700048146365,
      "grad_norm": 0.9609375,
      "learning_rate": 9.350226712883697e-05,
      "loss": 0.3947,
      "step": 10795
    },
    {
      "epoch": 2.599903707270101,
      "grad_norm": 0.9609375,
      "learning_rate": 9.34372519480176e-05,
      "loss": 0.3952,
      "step": 10800
    },
    {
      "epoch": 2.6011073663938373,
      "grad_norm": 1.015625,
      "learning_rate": 9.337226794200508e-05,
      "loss": 0.3771,
      "step": 10805
    },
    {
      "epoch": 2.602311025517573,
      "grad_norm": 1.046875,
      "learning_rate": 9.330731516912035e-05,
      "loss": 0.4102,
      "step": 10810
    },
    {
      "epoch": 2.6035146846413095,
      "grad_norm": 1.0390625,
      "learning_rate": 9.324239368765638e-05,
      "loss": 0.3882,
      "step": 10815
    },
    {
      "epoch": 2.604718343765046,
      "grad_norm": 1.0,
      "learning_rate": 9.317750355587799e-05,
      "loss": 0.3778,
      "step": 10820
    },
    {
      "epoch": 2.605922002888782,
      "grad_norm": 0.95703125,
      "learning_rate": 9.311264483202195e-05,
      "loss": 0.4163,
      "step": 10825
    },
    {
      "epoch": 2.607125662012518,
      "grad_norm": 0.9765625,
      "learning_rate": 9.30478175742968e-05,
      "loss": 0.4155,
      "step": 10830
    },
    {
      "epoch": 2.6083293211362544,
      "grad_norm": 1.0625,
      "learning_rate": 9.29830218408828e-05,
      "loss": 0.4223,
      "step": 10835
    },
    {
      "epoch": 2.6095329802599903,
      "grad_norm": 0.98046875,
      "learning_rate": 9.291825768993194e-05,
      "loss": 0.3742,
      "step": 10840
    },
    {
      "epoch": 2.6107366393837266,
      "grad_norm": 1.0390625,
      "learning_rate": 9.285352517956799e-05,
      "loss": 0.4121,
      "step": 10845
    },
    {
      "epoch": 2.611940298507463,
      "grad_norm": 1.0859375,
      "learning_rate": 9.278882436788607e-05,
      "loss": 0.4198,
      "step": 10850
    },
    {
      "epoch": 2.6131439576311988,
      "grad_norm": 1.0234375,
      "learning_rate": 9.27241553129531e-05,
      "loss": 0.3995,
      "step": 10855
    },
    {
      "epoch": 2.614347616754935,
      "grad_norm": 0.99609375,
      "learning_rate": 9.265951807280735e-05,
      "loss": 0.4032,
      "step": 10860
    },
    {
      "epoch": 2.615551275878671,
      "grad_norm": 0.94921875,
      "learning_rate": 9.259491270545859e-05,
      "loss": 0.3969,
      "step": 10865
    },
    {
      "epoch": 2.6167549350024073,
      "grad_norm": 0.99609375,
      "learning_rate": 9.253033926888795e-05,
      "loss": 0.3794,
      "step": 10870
    },
    {
      "epoch": 2.6179585941261436,
      "grad_norm": 0.97265625,
      "learning_rate": 9.2465797821048e-05,
      "loss": 0.4146,
      "step": 10875
    },
    {
      "epoch": 2.6191622532498795,
      "grad_norm": 1.0859375,
      "learning_rate": 9.240128841986247e-05,
      "loss": 0.414,
      "step": 10880
    },
    {
      "epoch": 2.620365912373616,
      "grad_norm": 1.0546875,
      "learning_rate": 9.233681112322644e-05,
      "loss": 0.4071,
      "step": 10885
    },
    {
      "epoch": 2.6215695714973517,
      "grad_norm": 0.96484375,
      "learning_rate": 9.227236598900608e-05,
      "loss": 0.3857,
      "step": 10890
    },
    {
      "epoch": 2.622773230621088,
      "grad_norm": 1.0625,
      "learning_rate": 9.220795307503878e-05,
      "loss": 0.3946,
      "step": 10895
    },
    {
      "epoch": 2.6239768897448243,
      "grad_norm": 0.9921875,
      "learning_rate": 9.214357243913294e-05,
      "loss": 0.3633,
      "step": 10900
    },
    {
      "epoch": 2.6251805488685607,
      "grad_norm": 1.0546875,
      "learning_rate": 9.207922413906806e-05,
      "loss": 0.3983,
      "step": 10905
    },
    {
      "epoch": 2.6263842079922965,
      "grad_norm": 0.96484375,
      "learning_rate": 9.201490823259459e-05,
      "loss": 0.4072,
      "step": 10910
    },
    {
      "epoch": 2.627587867116033,
      "grad_norm": 1.0390625,
      "learning_rate": 9.195062477743388e-05,
      "loss": 0.3836,
      "step": 10915
    },
    {
      "epoch": 2.6287915262397687,
      "grad_norm": 1.0703125,
      "learning_rate": 9.188637383127822e-05,
      "loss": 0.3868,
      "step": 10920
    },
    {
      "epoch": 2.629995185363505,
      "grad_norm": 0.98828125,
      "learning_rate": 9.182215545179071e-05,
      "loss": 0.3938,
      "step": 10925
    },
    {
      "epoch": 2.6311988444872414,
      "grad_norm": 1.0,
      "learning_rate": 9.175796969660507e-05,
      "loss": 0.3903,
      "step": 10930
    },
    {
      "epoch": 2.6324025036109773,
      "grad_norm": 1.0390625,
      "learning_rate": 9.1693816623326e-05,
      "loss": 0.4061,
      "step": 10935
    },
    {
      "epoch": 2.6336061627347136,
      "grad_norm": 0.9609375,
      "learning_rate": 9.162969628952869e-05,
      "loss": 0.4212,
      "step": 10940
    },
    {
      "epoch": 2.6348098218584495,
      "grad_norm": 0.96875,
      "learning_rate": 9.156560875275898e-05,
      "loss": 0.3982,
      "step": 10945
    },
    {
      "epoch": 2.636013480982186,
      "grad_norm": 1.0703125,
      "learning_rate": 9.150155407053333e-05,
      "loss": 0.4195,
      "step": 10950
    },
    {
      "epoch": 2.637217140105922,
      "grad_norm": 1.0078125,
      "learning_rate": 9.143753230033865e-05,
      "loss": 0.3932,
      "step": 10955
    },
    {
      "epoch": 2.638420799229658,
      "grad_norm": 1.03125,
      "learning_rate": 9.137354349963234e-05,
      "loss": 0.388,
      "step": 10960
    },
    {
      "epoch": 2.6396244583533943,
      "grad_norm": 1.125,
      "learning_rate": 9.130958772584227e-05,
      "loss": 0.4106,
      "step": 10965
    },
    {
      "epoch": 2.64082811747713,
      "grad_norm": 1.140625,
      "learning_rate": 9.124566503636652e-05,
      "loss": 0.4392,
      "step": 10970
    },
    {
      "epoch": 2.6420317766008665,
      "grad_norm": 0.94140625,
      "learning_rate": 9.118177548857359e-05,
      "loss": 0.3709,
      "step": 10975
    },
    {
      "epoch": 2.643235435724603,
      "grad_norm": 0.9609375,
      "learning_rate": 9.111791913980223e-05,
      "loss": 0.3966,
      "step": 10980
    },
    {
      "epoch": 2.644439094848339,
      "grad_norm": 0.953125,
      "learning_rate": 9.10540960473614e-05,
      "loss": 0.3767,
      "step": 10985
    },
    {
      "epoch": 2.645642753972075,
      "grad_norm": 1.0,
      "learning_rate": 9.099030626853014e-05,
      "loss": 0.4308,
      "step": 10990
    },
    {
      "epoch": 2.6468464130958114,
      "grad_norm": 1.0234375,
      "learning_rate": 9.092654986055768e-05,
      "loss": 0.4138,
      "step": 10995
    },
    {
      "epoch": 2.6480500722195472,
      "grad_norm": 1.0703125,
      "learning_rate": 9.086282688066329e-05,
      "loss": 0.404,
      "step": 11000
    },
    {
      "epoch": 2.6480500722195472,
      "eval_loss": 0.35517600178718567,
      "eval_runtime": 2.3728,
      "eval_samples_per_second": 84.287,
      "eval_steps_per_second": 84.287,
      "step": 11000
    },
    {
      "epoch": 2.6492537313432836,
      "grad_norm": 1.1015625,
      "learning_rate": 9.079913738603618e-05,
      "loss": 0.3896,
      "step": 11005
    },
    {
      "epoch": 2.65045739046702,
      "grad_norm": 0.9375,
      "learning_rate": 9.073548143383552e-05,
      "loss": 0.3777,
      "step": 11010
    },
    {
      "epoch": 2.6516610495907558,
      "grad_norm": 0.96484375,
      "learning_rate": 9.067185908119042e-05,
      "loss": 0.3989,
      "step": 11015
    },
    {
      "epoch": 2.652864708714492,
      "grad_norm": 0.92578125,
      "learning_rate": 9.060827038519982e-05,
      "loss": 0.4111,
      "step": 11020
    },
    {
      "epoch": 2.654068367838228,
      "grad_norm": 1.0546875,
      "learning_rate": 9.054471540293246e-05,
      "loss": 0.4184,
      "step": 11025
    },
    {
      "epoch": 2.6552720269619643,
      "grad_norm": 1.0390625,
      "learning_rate": 9.048119419142682e-05,
      "loss": 0.3772,
      "step": 11030
    },
    {
      "epoch": 2.6564756860857006,
      "grad_norm": 1.0390625,
      "learning_rate": 9.041770680769101e-05,
      "loss": 0.3998,
      "step": 11035
    },
    {
      "epoch": 2.657679345209437,
      "grad_norm": 1.09375,
      "learning_rate": 9.035425330870288e-05,
      "loss": 0.3967,
      "step": 11040
    },
    {
      "epoch": 2.658883004333173,
      "grad_norm": 0.953125,
      "learning_rate": 9.029083375140985e-05,
      "loss": 0.3764,
      "step": 11045
    },
    {
      "epoch": 2.660086663456909,
      "grad_norm": 0.984375,
      "learning_rate": 9.02274481927288e-05,
      "loss": 0.3922,
      "step": 11050
    },
    {
      "epoch": 2.661290322580645,
      "grad_norm": 0.96484375,
      "learning_rate": 9.016409668954613e-05,
      "loss": 0.3777,
      "step": 11055
    },
    {
      "epoch": 2.6624939817043813,
      "grad_norm": 1.0546875,
      "learning_rate": 9.010077929871774e-05,
      "loss": 0.4263,
      "step": 11060
    },
    {
      "epoch": 2.6636976408281177,
      "grad_norm": 0.9375,
      "learning_rate": 9.00374960770689e-05,
      "loss": 0.3757,
      "step": 11065
    },
    {
      "epoch": 2.6649012999518535,
      "grad_norm": 1.0625,
      "learning_rate": 8.997424708139413e-05,
      "loss": 0.4283,
      "step": 11070
    },
    {
      "epoch": 2.66610495907559,
      "grad_norm": 1.0078125,
      "learning_rate": 8.991103236845732e-05,
      "loss": 0.3888,
      "step": 11075
    },
    {
      "epoch": 2.6673086181993257,
      "grad_norm": 0.9765625,
      "learning_rate": 8.984785199499156e-05,
      "loss": 0.4085,
      "step": 11080
    },
    {
      "epoch": 2.668512277323062,
      "grad_norm": 1.015625,
      "learning_rate": 8.978470601769912e-05,
      "loss": 0.4253,
      "step": 11085
    },
    {
      "epoch": 2.6697159364467984,
      "grad_norm": 1.109375,
      "learning_rate": 8.97215944932514e-05,
      "loss": 0.4471,
      "step": 11090
    },
    {
      "epoch": 2.6709195955705343,
      "grad_norm": 0.9921875,
      "learning_rate": 8.965851747828886e-05,
      "loss": 0.3811,
      "step": 11095
    },
    {
      "epoch": 2.6721232546942706,
      "grad_norm": 1.046875,
      "learning_rate": 8.959547502942104e-05,
      "loss": 0.3741,
      "step": 11100
    },
    {
      "epoch": 2.6733269138180065,
      "grad_norm": 0.90625,
      "learning_rate": 8.953246720322645e-05,
      "loss": 0.3827,
      "step": 11105
    },
    {
      "epoch": 2.674530572941743,
      "grad_norm": 1.0703125,
      "learning_rate": 8.946949405625249e-05,
      "loss": 0.3894,
      "step": 11110
    },
    {
      "epoch": 2.675734232065479,
      "grad_norm": 1.0625,
      "learning_rate": 8.940655564501541e-05,
      "loss": 0.4108,
      "step": 11115
    },
    {
      "epoch": 2.6769378911892154,
      "grad_norm": 0.96875,
      "learning_rate": 8.93436520260004e-05,
      "loss": 0.4081,
      "step": 11120
    },
    {
      "epoch": 2.6781415503129513,
      "grad_norm": 0.97265625,
      "learning_rate": 8.928078325566136e-05,
      "loss": 0.3856,
      "step": 11125
    },
    {
      "epoch": 2.6793452094366876,
      "grad_norm": 0.984375,
      "learning_rate": 8.921794939042084e-05,
      "loss": 0.3938,
      "step": 11130
    },
    {
      "epoch": 2.6805488685604235,
      "grad_norm": 1.0234375,
      "learning_rate": 8.915515048667017e-05,
      "loss": 0.3602,
      "step": 11135
    },
    {
      "epoch": 2.68175252768416,
      "grad_norm": 0.94921875,
      "learning_rate": 8.909238660076928e-05,
      "loss": 0.3779,
      "step": 11140
    },
    {
      "epoch": 2.682956186807896,
      "grad_norm": 1.0234375,
      "learning_rate": 8.902965778904661e-05,
      "loss": 0.4019,
      "step": 11145
    },
    {
      "epoch": 2.684159845931632,
      "grad_norm": 2.1875,
      "learning_rate": 8.896696410779925e-05,
      "loss": 0.3877,
      "step": 11150
    },
    {
      "epoch": 2.6853635050553684,
      "grad_norm": 0.94140625,
      "learning_rate": 8.890430561329264e-05,
      "loss": 0.3855,
      "step": 11155
    },
    {
      "epoch": 2.6865671641791042,
      "grad_norm": 1.0,
      "learning_rate": 8.884168236176068e-05,
      "loss": 0.3857,
      "step": 11160
    },
    {
      "epoch": 2.6877708233028406,
      "grad_norm": 1.0,
      "learning_rate": 8.877909440940567e-05,
      "loss": 0.3958,
      "step": 11165
    },
    {
      "epoch": 2.688974482426577,
      "grad_norm": 0.88671875,
      "learning_rate": 8.871654181239817e-05,
      "loss": 0.41,
      "step": 11170
    },
    {
      "epoch": 2.690178141550313,
      "grad_norm": 0.97265625,
      "learning_rate": 8.865402462687704e-05,
      "loss": 0.4004,
      "step": 11175
    },
    {
      "epoch": 2.691381800674049,
      "grad_norm": 1.0546875,
      "learning_rate": 8.859154290894942e-05,
      "loss": 0.3717,
      "step": 11180
    },
    {
      "epoch": 2.6925854597977854,
      "grad_norm": 0.90234375,
      "learning_rate": 8.852909671469052e-05,
      "loss": 0.3802,
      "step": 11185
    },
    {
      "epoch": 2.6937891189215213,
      "grad_norm": 0.94140625,
      "learning_rate": 8.846668610014373e-05,
      "loss": 0.388,
      "step": 11190
    },
    {
      "epoch": 2.6949927780452576,
      "grad_norm": 0.97265625,
      "learning_rate": 8.840431112132045e-05,
      "loss": 0.4203,
      "step": 11195
    },
    {
      "epoch": 2.696196437168994,
      "grad_norm": 1.0234375,
      "learning_rate": 8.83419718342002e-05,
      "loss": 0.3832,
      "step": 11200
    },
    {
      "epoch": 2.69740009629273,
      "grad_norm": 1.046875,
      "learning_rate": 8.827966829473039e-05,
      "loss": 0.374,
      "step": 11205
    },
    {
      "epoch": 2.698603755416466,
      "grad_norm": 1.03125,
      "learning_rate": 8.821740055882634e-05,
      "loss": 0.3974,
      "step": 11210
    },
    {
      "epoch": 2.699807414540202,
      "grad_norm": 1.0390625,
      "learning_rate": 8.815516868237128e-05,
      "loss": 0.3399,
      "step": 11215
    },
    {
      "epoch": 2.7010110736639383,
      "grad_norm": 1.0,
      "learning_rate": 8.809297272121622e-05,
      "loss": 0.3781,
      "step": 11220
    },
    {
      "epoch": 2.7022147327876747,
      "grad_norm": 1.0234375,
      "learning_rate": 8.803081273117995e-05,
      "loss": 0.3578,
      "step": 11225
    },
    {
      "epoch": 2.7034183919114105,
      "grad_norm": 1.0234375,
      "learning_rate": 8.796868876804903e-05,
      "loss": 0.383,
      "step": 11230
    },
    {
      "epoch": 2.704622051035147,
      "grad_norm": 0.9765625,
      "learning_rate": 8.790660088757762e-05,
      "loss": 0.3848,
      "step": 11235
    },
    {
      "epoch": 2.7058257101588827,
      "grad_norm": 1.03125,
      "learning_rate": 8.784454914548747e-05,
      "loss": 0.4085,
      "step": 11240
    },
    {
      "epoch": 2.707029369282619,
      "grad_norm": 0.98046875,
      "learning_rate": 8.778253359746804e-05,
      "loss": 0.3852,
      "step": 11245
    },
    {
      "epoch": 2.7082330284063554,
      "grad_norm": 1.0078125,
      "learning_rate": 8.772055429917616e-05,
      "loss": 0.4188,
      "step": 11250
    },
    {
      "epoch": 2.7094366875300917,
      "grad_norm": 0.8828125,
      "learning_rate": 8.765861130623611e-05,
      "loss": 0.3809,
      "step": 11255
    },
    {
      "epoch": 2.7106403466538276,
      "grad_norm": 0.97265625,
      "learning_rate": 8.759670467423976e-05,
      "loss": 0.3768,
      "step": 11260
    },
    {
      "epoch": 2.711844005777564,
      "grad_norm": 0.9453125,
      "learning_rate": 8.753483445874621e-05,
      "loss": 0.3776,
      "step": 11265
    },
    {
      "epoch": 2.7130476649013,
      "grad_norm": 1.0,
      "learning_rate": 8.747300071528187e-05,
      "loss": 0.3808,
      "step": 11270
    },
    {
      "epoch": 2.714251324025036,
      "grad_norm": 1.0234375,
      "learning_rate": 8.741120349934053e-05,
      "loss": 0.4156,
      "step": 11275
    },
    {
      "epoch": 2.7154549831487724,
      "grad_norm": 1.046875,
      "learning_rate": 8.734944286638307e-05,
      "loss": 0.3832,
      "step": 11280
    },
    {
      "epoch": 2.7166586422725083,
      "grad_norm": 0.9453125,
      "learning_rate": 8.728771887183763e-05,
      "loss": 0.3803,
      "step": 11285
    },
    {
      "epoch": 2.7178623013962446,
      "grad_norm": 0.97265625,
      "learning_rate": 8.722603157109941e-05,
      "loss": 0.3753,
      "step": 11290
    },
    {
      "epoch": 2.7190659605199805,
      "grad_norm": 0.9921875,
      "learning_rate": 8.71643810195307e-05,
      "loss": 0.4058,
      "step": 11295
    },
    {
      "epoch": 2.720269619643717,
      "grad_norm": 1.03125,
      "learning_rate": 8.710276727246078e-05,
      "loss": 0.3838,
      "step": 11300
    },
    {
      "epoch": 2.721473278767453,
      "grad_norm": 1.03125,
      "learning_rate": 8.704119038518599e-05,
      "loss": 0.4128,
      "step": 11305
    },
    {
      "epoch": 2.7226769378911895,
      "grad_norm": 1.0703125,
      "learning_rate": 8.697965041296952e-05,
      "loss": 0.3971,
      "step": 11310
    },
    {
      "epoch": 2.7238805970149254,
      "grad_norm": 1.015625,
      "learning_rate": 8.691814741104139e-05,
      "loss": 0.3698,
      "step": 11315
    },
    {
      "epoch": 2.7250842561386617,
      "grad_norm": 1.1328125,
      "learning_rate": 8.685668143459852e-05,
      "loss": 0.395,
      "step": 11320
    },
    {
      "epoch": 2.7262879152623976,
      "grad_norm": 1.0,
      "learning_rate": 8.679525253880459e-05,
      "loss": 0.3841,
      "step": 11325
    },
    {
      "epoch": 2.727491574386134,
      "grad_norm": 1.046875,
      "learning_rate": 8.673386077878993e-05,
      "loss": 0.3734,
      "step": 11330
    },
    {
      "epoch": 2.72869523350987,
      "grad_norm": 1.03125,
      "learning_rate": 8.667250620965166e-05,
      "loss": 0.4006,
      "step": 11335
    },
    {
      "epoch": 2.729898892633606,
      "grad_norm": 0.99609375,
      "learning_rate": 8.661118888645338e-05,
      "loss": 0.3828,
      "step": 11340
    },
    {
      "epoch": 2.7311025517573424,
      "grad_norm": 0.97265625,
      "learning_rate": 8.654990886422538e-05,
      "loss": 0.3761,
      "step": 11345
    },
    {
      "epoch": 2.7323062108810783,
      "grad_norm": 0.93359375,
      "learning_rate": 8.648866619796439e-05,
      "loss": 0.3668,
      "step": 11350
    },
    {
      "epoch": 2.7335098700048146,
      "grad_norm": 0.98046875,
      "learning_rate": 8.642746094263373e-05,
      "loss": 0.3705,
      "step": 11355
    },
    {
      "epoch": 2.734713529128551,
      "grad_norm": 0.99609375,
      "learning_rate": 8.636629315316303e-05,
      "loss": 0.3938,
      "step": 11360
    },
    {
      "epoch": 2.735917188252287,
      "grad_norm": 0.97265625,
      "learning_rate": 8.630516288444831e-05,
      "loss": 0.4106,
      "step": 11365
    },
    {
      "epoch": 2.737120847376023,
      "grad_norm": 0.9609375,
      "learning_rate": 8.624407019135204e-05,
      "loss": 0.392,
      "step": 11370
    },
    {
      "epoch": 2.738324506499759,
      "grad_norm": 1.03125,
      "learning_rate": 8.618301512870276e-05,
      "loss": 0.4202,
      "step": 11375
    },
    {
      "epoch": 2.7395281656234953,
      "grad_norm": 0.91796875,
      "learning_rate": 8.612199775129536e-05,
      "loss": 0.3734,
      "step": 11380
    },
    {
      "epoch": 2.7407318247472316,
      "grad_norm": 0.96484375,
      "learning_rate": 8.606101811389095e-05,
      "loss": 0.3714,
      "step": 11385
    },
    {
      "epoch": 2.741935483870968,
      "grad_norm": 0.98828125,
      "learning_rate": 8.60000762712167e-05,
      "loss": 0.401,
      "step": 11390
    },
    {
      "epoch": 2.743139142994704,
      "grad_norm": 1.0234375,
      "learning_rate": 8.593917227796585e-05,
      "loss": 0.3891,
      "step": 11395
    },
    {
      "epoch": 2.74434280211844,
      "grad_norm": 0.97265625,
      "learning_rate": 8.587830618879773e-05,
      "loss": 0.389,
      "step": 11400
    },
    {
      "epoch": 2.745546461242176,
      "grad_norm": 1.09375,
      "learning_rate": 8.581747805833761e-05,
      "loss": 0.4075,
      "step": 11405
    },
    {
      "epoch": 2.7467501203659124,
      "grad_norm": 1.1015625,
      "learning_rate": 8.575668794117669e-05,
      "loss": 0.4192,
      "step": 11410
    },
    {
      "epoch": 2.7479537794896487,
      "grad_norm": 1.0,
      "learning_rate": 8.569593589187211e-05,
      "loss": 0.3831,
      "step": 11415
    },
    {
      "epoch": 2.7491574386133846,
      "grad_norm": 0.97265625,
      "learning_rate": 8.563522196494674e-05,
      "loss": 0.4003,
      "step": 11420
    },
    {
      "epoch": 2.750361097737121,
      "grad_norm": 1.0,
      "learning_rate": 8.557454621488932e-05,
      "loss": 0.379,
      "step": 11425
    },
    {
      "epoch": 2.7515647568608568,
      "grad_norm": 1.0078125,
      "learning_rate": 8.551390869615435e-05,
      "loss": 0.4004,
      "step": 11430
    },
    {
      "epoch": 2.752768415984593,
      "grad_norm": 1.078125,
      "learning_rate": 8.545330946316195e-05,
      "loss": 0.401,
      "step": 11435
    },
    {
      "epoch": 2.7539720751083294,
      "grad_norm": 1.0,
      "learning_rate": 8.539274857029791e-05,
      "loss": 0.3789,
      "step": 11440
    },
    {
      "epoch": 2.7551757342320657,
      "grad_norm": 1.0625,
      "learning_rate": 8.533222607191355e-05,
      "loss": 0.3897,
      "step": 11445
    },
    {
      "epoch": 2.7563793933558016,
      "grad_norm": 0.96875,
      "learning_rate": 8.527174202232593e-05,
      "loss": 0.398,
      "step": 11450
    },
    {
      "epoch": 2.757583052479538,
      "grad_norm": 1.03125,
      "learning_rate": 8.521129647581729e-05,
      "loss": 0.3888,
      "step": 11455
    },
    {
      "epoch": 2.758786711603274,
      "grad_norm": 0.93359375,
      "learning_rate": 8.51508894866356e-05,
      "loss": 0.3683,
      "step": 11460
    },
    {
      "epoch": 2.75999037072701,
      "grad_norm": 1.0,
      "learning_rate": 8.509052110899409e-05,
      "loss": 0.3711,
      "step": 11465
    },
    {
      "epoch": 2.7611940298507465,
      "grad_norm": 0.9921875,
      "learning_rate": 8.503019139707136e-05,
      "loss": 0.3944,
      "step": 11470
    },
    {
      "epoch": 2.7623976889744823,
      "grad_norm": 1.0234375,
      "learning_rate": 8.496990040501128e-05,
      "loss": 0.3923,
      "step": 11475
    },
    {
      "epoch": 2.7636013480982187,
      "grad_norm": 0.953125,
      "learning_rate": 8.490964818692304e-05,
      "loss": 0.3809,
      "step": 11480
    },
    {
      "epoch": 2.7648050072219545,
      "grad_norm": 0.9765625,
      "learning_rate": 8.484943479688098e-05,
      "loss": 0.3877,
      "step": 11485
    },
    {
      "epoch": 2.766008666345691,
      "grad_norm": 1.0234375,
      "learning_rate": 8.478926028892461e-05,
      "loss": 0.4207,
      "step": 11490
    },
    {
      "epoch": 2.767212325469427,
      "grad_norm": 0.96484375,
      "learning_rate": 8.472912471705853e-05,
      "loss": 0.3729,
      "step": 11495
    },
    {
      "epoch": 2.768415984593163,
      "grad_norm": 0.92578125,
      "learning_rate": 8.46690281352524e-05,
      "loss": 0.3772,
      "step": 11500
    },
    {
      "epoch": 2.768415984593163,
      "eval_loss": 0.3504635989665985,
      "eval_runtime": 2.365,
      "eval_samples_per_second": 84.565,
      "eval_steps_per_second": 84.565,
      "step": 11500
    },
    {
      "epoch": 2.7696196437168994,
      "grad_norm": 1.078125,
      "learning_rate": 8.46089705974409e-05,
      "loss": 0.3634,
      "step": 11505
    },
    {
      "epoch": 2.7708233028406353,
      "grad_norm": 1.0234375,
      "learning_rate": 8.454895215752366e-05,
      "loss": 0.3889,
      "step": 11510
    },
    {
      "epoch": 2.7720269619643716,
      "grad_norm": 1.0625,
      "learning_rate": 8.448897286936522e-05,
      "loss": 0.3705,
      "step": 11515
    },
    {
      "epoch": 2.773230621088108,
      "grad_norm": 1.0078125,
      "learning_rate": 8.4429032786795e-05,
      "loss": 0.3879,
      "step": 11520
    },
    {
      "epoch": 2.7744342802118442,
      "grad_norm": 0.97265625,
      "learning_rate": 8.436913196360722e-05,
      "loss": 0.3815,
      "step": 11525
    },
    {
      "epoch": 2.77563793933558,
      "grad_norm": 0.91015625,
      "learning_rate": 8.43092704535609e-05,
      "loss": 0.3777,
      "step": 11530
    },
    {
      "epoch": 2.7768415984593164,
      "grad_norm": 1.0234375,
      "learning_rate": 8.424944831037964e-05,
      "loss": 0.3965,
      "step": 11535
    },
    {
      "epoch": 2.7780452575830523,
      "grad_norm": 0.93359375,
      "learning_rate": 8.418966558775191e-05,
      "loss": 0.3988,
      "step": 11540
    },
    {
      "epoch": 2.7792489167067886,
      "grad_norm": 1.0390625,
      "learning_rate": 8.412992233933069e-05,
      "loss": 0.3823,
      "step": 11545
    },
    {
      "epoch": 2.780452575830525,
      "grad_norm": 0.96875,
      "learning_rate": 8.407021861873348e-05,
      "loss": 0.4054,
      "step": 11550
    },
    {
      "epoch": 2.781656234954261,
      "grad_norm": 1.125,
      "learning_rate": 8.401055447954247e-05,
      "loss": 0.3903,
      "step": 11555
    },
    {
      "epoch": 2.782859894077997,
      "grad_norm": 0.98046875,
      "learning_rate": 8.39509299753042e-05,
      "loss": 0.4003,
      "step": 11560
    },
    {
      "epoch": 2.784063553201733,
      "grad_norm": 0.890625,
      "learning_rate": 8.38913451595296e-05,
      "loss": 0.3866,
      "step": 11565
    },
    {
      "epoch": 2.7852672123254694,
      "grad_norm": 0.9609375,
      "learning_rate": 8.383180008569418e-05,
      "loss": 0.3793,
      "step": 11570
    },
    {
      "epoch": 2.7864708714492057,
      "grad_norm": 1.1171875,
      "learning_rate": 8.377229480723755e-05,
      "loss": 0.3959,
      "step": 11575
    },
    {
      "epoch": 2.787674530572942,
      "grad_norm": 1.03125,
      "learning_rate": 8.371282937756373e-05,
      "loss": 0.3714,
      "step": 11580
    },
    {
      "epoch": 2.788878189696678,
      "grad_norm": 0.97265625,
      "learning_rate": 8.365340385004097e-05,
      "loss": 0.3968,
      "step": 11585
    },
    {
      "epoch": 2.790081848820414,
      "grad_norm": 0.9765625,
      "learning_rate": 8.359401827800168e-05,
      "loss": 0.3889,
      "step": 11590
    },
    {
      "epoch": 2.79128550794415,
      "grad_norm": 1.09375,
      "learning_rate": 8.353467271474245e-05,
      "loss": 0.3991,
      "step": 11595
    },
    {
      "epoch": 2.7924891670678864,
      "grad_norm": 0.90234375,
      "learning_rate": 8.347536721352392e-05,
      "loss": 0.4005,
      "step": 11600
    },
    {
      "epoch": 2.7936928261916227,
      "grad_norm": 1.0625,
      "learning_rate": 8.341610182757082e-05,
      "loss": 0.3871,
      "step": 11605
    },
    {
      "epoch": 2.7948964853153586,
      "grad_norm": 1.046875,
      "learning_rate": 8.335687661007182e-05,
      "loss": 0.3835,
      "step": 11610
    },
    {
      "epoch": 2.796100144439095,
      "grad_norm": 0.921875,
      "learning_rate": 8.32976916141796e-05,
      "loss": 0.374,
      "step": 11615
    },
    {
      "epoch": 2.797303803562831,
      "grad_norm": 0.96875,
      "learning_rate": 8.323854689301069e-05,
      "loss": 0.3964,
      "step": 11620
    },
    {
      "epoch": 2.798507462686567,
      "grad_norm": 1.078125,
      "learning_rate": 8.317944249964548e-05,
      "loss": 0.4016,
      "step": 11625
    },
    {
      "epoch": 2.7997111218103035,
      "grad_norm": 1.0546875,
      "learning_rate": 8.312037848712827e-05,
      "loss": 0.3821,
      "step": 11630
    },
    {
      "epoch": 2.8009147809340393,
      "grad_norm": 0.96875,
      "learning_rate": 8.306135490846698e-05,
      "loss": 0.377,
      "step": 11635
    },
    {
      "epoch": 2.8021184400577757,
      "grad_norm": 1.1171875,
      "learning_rate": 8.300237181663328e-05,
      "loss": 0.3933,
      "step": 11640
    },
    {
      "epoch": 2.8033220991815115,
      "grad_norm": 0.97265625,
      "learning_rate": 8.294342926456254e-05,
      "loss": 0.3621,
      "step": 11645
    },
    {
      "epoch": 2.804525758305248,
      "grad_norm": 0.98828125,
      "learning_rate": 8.288452730515381e-05,
      "loss": 0.3964,
      "step": 11650
    },
    {
      "epoch": 2.805729417428984,
      "grad_norm": 1.0234375,
      "learning_rate": 8.282566599126949e-05,
      "loss": 0.3903,
      "step": 11655
    },
    {
      "epoch": 2.8069330765527205,
      "grad_norm": 1.015625,
      "learning_rate": 8.276684537573574e-05,
      "loss": 0.38,
      "step": 11660
    },
    {
      "epoch": 2.8081367356764564,
      "grad_norm": 1.0078125,
      "learning_rate": 8.270806551134206e-05,
      "loss": 0.3812,
      "step": 11665
    },
    {
      "epoch": 2.8093403948001927,
      "grad_norm": 0.98046875,
      "learning_rate": 8.264932645084144e-05,
      "loss": 0.4091,
      "step": 11670
    },
    {
      "epoch": 2.8105440539239286,
      "grad_norm": 0.99609375,
      "learning_rate": 8.259062824695016e-05,
      "loss": 0.3996,
      "step": 11675
    },
    {
      "epoch": 2.811747713047665,
      "grad_norm": 0.96484375,
      "learning_rate": 8.253197095234797e-05,
      "loss": 0.3889,
      "step": 11680
    },
    {
      "epoch": 2.8129513721714012,
      "grad_norm": 0.94140625,
      "learning_rate": 8.247335461967781e-05,
      "loss": 0.4001,
      "step": 11685
    },
    {
      "epoch": 2.814155031295137,
      "grad_norm": 1.015625,
      "learning_rate": 8.241477930154588e-05,
      "loss": 0.4161,
      "step": 11690
    },
    {
      "epoch": 2.8153586904188734,
      "grad_norm": 0.96484375,
      "learning_rate": 8.235624505052155e-05,
      "loss": 0.3668,
      "step": 11695
    },
    {
      "epoch": 2.8165623495426093,
      "grad_norm": 1.0078125,
      "learning_rate": 8.229775191913736e-05,
      "loss": 0.4022,
      "step": 11700
    },
    {
      "epoch": 2.8177660086663456,
      "grad_norm": 0.9609375,
      "learning_rate": 8.223929995988893e-05,
      "loss": 0.3847,
      "step": 11705
    },
    {
      "epoch": 2.818969667790082,
      "grad_norm": 1.03125,
      "learning_rate": 8.218088922523498e-05,
      "loss": 0.4047,
      "step": 11710
    },
    {
      "epoch": 2.8201733269138183,
      "grad_norm": 1.015625,
      "learning_rate": 8.212251976759716e-05,
      "loss": 0.3711,
      "step": 11715
    },
    {
      "epoch": 2.821376986037554,
      "grad_norm": 1.0078125,
      "learning_rate": 8.206419163936011e-05,
      "loss": 0.3761,
      "step": 11720
    },
    {
      "epoch": 2.8225806451612905,
      "grad_norm": 0.9921875,
      "learning_rate": 8.200590489287138e-05,
      "loss": 0.3882,
      "step": 11725
    },
    {
      "epoch": 2.8237843042850264,
      "grad_norm": 0.93359375,
      "learning_rate": 8.19476595804414e-05,
      "loss": 0.3845,
      "step": 11730
    },
    {
      "epoch": 2.8249879634087627,
      "grad_norm": 0.96875,
      "learning_rate": 8.188945575434334e-05,
      "loss": 0.409,
      "step": 11735
    },
    {
      "epoch": 2.826191622532499,
      "grad_norm": 1.046875,
      "learning_rate": 8.183129346681325e-05,
      "loss": 0.392,
      "step": 11740
    },
    {
      "epoch": 2.827395281656235,
      "grad_norm": 0.9609375,
      "learning_rate": 8.177317277004978e-05,
      "loss": 0.3755,
      "step": 11745
    },
    {
      "epoch": 2.828598940779971,
      "grad_norm": 1.0859375,
      "learning_rate": 8.171509371621433e-05,
      "loss": 0.3835,
      "step": 11750
    },
    {
      "epoch": 2.829802599903707,
      "grad_norm": 0.9921875,
      "learning_rate": 8.165705635743094e-05,
      "loss": 0.3687,
      "step": 11755
    },
    {
      "epoch": 2.8310062590274434,
      "grad_norm": 0.9921875,
      "learning_rate": 8.159906074578616e-05,
      "loss": 0.3892,
      "step": 11760
    },
    {
      "epoch": 2.8322099181511797,
      "grad_norm": 0.98828125,
      "learning_rate": 8.154110693332913e-05,
      "loss": 0.4034,
      "step": 11765
    },
    {
      "epoch": 2.8334135772749156,
      "grad_norm": 1.0234375,
      "learning_rate": 8.148319497207148e-05,
      "loss": 0.4024,
      "step": 11770
    },
    {
      "epoch": 2.834617236398652,
      "grad_norm": 1.03125,
      "learning_rate": 8.142532491398725e-05,
      "loss": 0.3841,
      "step": 11775
    },
    {
      "epoch": 2.835820895522388,
      "grad_norm": 0.9453125,
      "learning_rate": 8.136749681101283e-05,
      "loss": 0.3683,
      "step": 11780
    },
    {
      "epoch": 2.837024554646124,
      "grad_norm": 0.921875,
      "learning_rate": 8.130971071504707e-05,
      "loss": 0.3895,
      "step": 11785
    },
    {
      "epoch": 2.8382282137698605,
      "grad_norm": 1.015625,
      "learning_rate": 8.125196667795105e-05,
      "loss": 0.3933,
      "step": 11790
    },
    {
      "epoch": 2.8394318728935968,
      "grad_norm": 1.0234375,
      "learning_rate": 8.11942647515481e-05,
      "loss": 0.4035,
      "step": 11795
    },
    {
      "epoch": 2.8406355320173327,
      "grad_norm": 1.0234375,
      "learning_rate": 8.113660498762375e-05,
      "loss": 0.3824,
      "step": 11800
    },
    {
      "epoch": 2.841839191141069,
      "grad_norm": 0.93359375,
      "learning_rate": 8.107898743792579e-05,
      "loss": 0.3805,
      "step": 11805
    },
    {
      "epoch": 2.843042850264805,
      "grad_norm": 0.984375,
      "learning_rate": 8.102141215416396e-05,
      "loss": 0.3917,
      "step": 11810
    },
    {
      "epoch": 2.844246509388541,
      "grad_norm": 0.96484375,
      "learning_rate": 8.096387918801019e-05,
      "loss": 0.3794,
      "step": 11815
    },
    {
      "epoch": 2.8454501685122775,
      "grad_norm": 0.99609375,
      "learning_rate": 8.090638859109839e-05,
      "loss": 0.4024,
      "step": 11820
    },
    {
      "epoch": 2.8466538276360134,
      "grad_norm": 1.03125,
      "learning_rate": 8.084894041502444e-05,
      "loss": 0.4483,
      "step": 11825
    },
    {
      "epoch": 2.8478574867597497,
      "grad_norm": 1.015625,
      "learning_rate": 8.079153471134614e-05,
      "loss": 0.384,
      "step": 11830
    },
    {
      "epoch": 2.8490611458834856,
      "grad_norm": 1.0546875,
      "learning_rate": 8.073417153158325e-05,
      "loss": 0.3759,
      "step": 11835
    },
    {
      "epoch": 2.850264805007222,
      "grad_norm": 1.046875,
      "learning_rate": 8.067685092721726e-05,
      "loss": 0.3825,
      "step": 11840
    },
    {
      "epoch": 2.8514684641309582,
      "grad_norm": 0.9609375,
      "learning_rate": 8.061957294969148e-05,
      "loss": 0.3708,
      "step": 11845
    },
    {
      "epoch": 2.8526721232546945,
      "grad_norm": 1.109375,
      "learning_rate": 8.056233765041105e-05,
      "loss": 0.387,
      "step": 11850
    },
    {
      "epoch": 2.8538757823784304,
      "grad_norm": 1.0859375,
      "learning_rate": 8.050514508074272e-05,
      "loss": 0.41,
      "step": 11855
    },
    {
      "epoch": 2.8550794415021667,
      "grad_norm": 0.984375,
      "learning_rate": 8.044799529201483e-05,
      "loss": 0.3748,
      "step": 11860
    },
    {
      "epoch": 2.8562831006259026,
      "grad_norm": 0.9453125,
      "learning_rate": 8.03908883355175e-05,
      "loss": 0.3829,
      "step": 11865
    },
    {
      "epoch": 2.857486759749639,
      "grad_norm": 1.078125,
      "learning_rate": 8.033382426250227e-05,
      "loss": 0.395,
      "step": 11870
    },
    {
      "epoch": 2.8586904188733753,
      "grad_norm": 0.96875,
      "learning_rate": 8.02768031241822e-05,
      "loss": 0.3944,
      "step": 11875
    },
    {
      "epoch": 2.859894077997111,
      "grad_norm": 0.91796875,
      "learning_rate": 8.021982497173193e-05,
      "loss": 0.3946,
      "step": 11880
    },
    {
      "epoch": 2.8610977371208475,
      "grad_norm": 1.0390625,
      "learning_rate": 8.016288985628743e-05,
      "loss": 0.4306,
      "step": 11885
    },
    {
      "epoch": 2.8623013962445834,
      "grad_norm": 0.94921875,
      "learning_rate": 8.010599782894605e-05,
      "loss": 0.4042,
      "step": 11890
    },
    {
      "epoch": 2.8635050553683197,
      "grad_norm": 1.046875,
      "learning_rate": 8.004914894076649e-05,
      "loss": 0.3906,
      "step": 11895
    },
    {
      "epoch": 2.864708714492056,
      "grad_norm": 0.97265625,
      "learning_rate": 7.99923432427687e-05,
      "loss": 0.4043,
      "step": 11900
    },
    {
      "epoch": 2.865912373615792,
      "grad_norm": 0.94921875,
      "learning_rate": 7.99355807859339e-05,
      "loss": 0.3804,
      "step": 11905
    },
    {
      "epoch": 2.867116032739528,
      "grad_norm": 0.94140625,
      "learning_rate": 7.987886162120453e-05,
      "loss": 0.374,
      "step": 11910
    },
    {
      "epoch": 2.868319691863264,
      "grad_norm": 0.984375,
      "learning_rate": 7.982218579948415e-05,
      "loss": 0.3614,
      "step": 11915
    },
    {
      "epoch": 2.8695233509870004,
      "grad_norm": 1.078125,
      "learning_rate": 7.976555337163738e-05,
      "loss": 0.3907,
      "step": 11920
    },
    {
      "epoch": 2.8707270101107367,
      "grad_norm": 0.99609375,
      "learning_rate": 7.970896438848991e-05,
      "loss": 0.3611,
      "step": 11925
    },
    {
      "epoch": 2.871930669234473,
      "grad_norm": 1.0390625,
      "learning_rate": 7.965241890082854e-05,
      "loss": 0.3854,
      "step": 11930
    },
    {
      "epoch": 2.873134328358209,
      "grad_norm": 1.0546875,
      "learning_rate": 7.959591695940088e-05,
      "loss": 0.3927,
      "step": 11935
    },
    {
      "epoch": 2.8743379874819452,
      "grad_norm": 0.8828125,
      "learning_rate": 7.95394586149156e-05,
      "loss": 0.3551,
      "step": 11940
    },
    {
      "epoch": 2.875541646605681,
      "grad_norm": 1.0390625,
      "learning_rate": 7.948304391804213e-05,
      "loss": 0.384,
      "step": 11945
    },
    {
      "epoch": 2.8767453057294174,
      "grad_norm": 0.890625,
      "learning_rate": 7.942667291941077e-05,
      "loss": 0.3702,
      "step": 11950
    },
    {
      "epoch": 2.8779489648531538,
      "grad_norm": 1.0,
      "learning_rate": 7.937034566961261e-05,
      "loss": 0.3534,
      "step": 11955
    },
    {
      "epoch": 2.8791526239768896,
      "grad_norm": 1.0625,
      "learning_rate": 7.931406221919951e-05,
      "loss": 0.4097,
      "step": 11960
    },
    {
      "epoch": 2.880356283100626,
      "grad_norm": 1.0234375,
      "learning_rate": 7.925782261868398e-05,
      "loss": 0.3739,
      "step": 11965
    },
    {
      "epoch": 2.881559942224362,
      "grad_norm": 1.03125,
      "learning_rate": 7.920162691853912e-05,
      "loss": 0.4148,
      "step": 11970
    },
    {
      "epoch": 2.882763601348098,
      "grad_norm": 1.109375,
      "learning_rate": 7.91454751691988e-05,
      "loss": 0.3768,
      "step": 11975
    },
    {
      "epoch": 2.8839672604718345,
      "grad_norm": 1.0234375,
      "learning_rate": 7.908936742105723e-05,
      "loss": 0.4186,
      "step": 11980
    },
    {
      "epoch": 2.8851709195955704,
      "grad_norm": 0.90625,
      "learning_rate": 7.903330372446928e-05,
      "loss": 0.3519,
      "step": 11985
    },
    {
      "epoch": 2.8863745787193067,
      "grad_norm": 1.0234375,
      "learning_rate": 7.897728412975026e-05,
      "loss": 0.3889,
      "step": 11990
    },
    {
      "epoch": 2.887578237843043,
      "grad_norm": 1.0234375,
      "learning_rate": 7.892130868717588e-05,
      "loss": 0.3637,
      "step": 11995
    },
    {
      "epoch": 2.888781896966779,
      "grad_norm": 1.046875,
      "learning_rate": 7.88653774469822e-05,
      "loss": 0.3651,
      "step": 12000
    },
    {
      "epoch": 2.888781896966779,
      "eval_loss": 0.3513660430908203,
      "eval_runtime": 2.3807,
      "eval_samples_per_second": 84.009,
      "eval_steps_per_second": 84.009,
      "step": 12000
    },
    {
      "epoch": 2.889985556090515,
      "grad_norm": 0.94140625,
      "learning_rate": 7.880949045936566e-05,
      "loss": 0.3601,
      "step": 12005
    },
    {
      "epoch": 2.8911892152142515,
      "grad_norm": 1.0390625,
      "learning_rate": 7.875364777448298e-05,
      "loss": 0.4051,
      "step": 12010
    },
    {
      "epoch": 2.8923928743379874,
      "grad_norm": 1.0,
      "learning_rate": 7.869784944245108e-05,
      "loss": 0.3925,
      "step": 12015
    },
    {
      "epoch": 2.8935965334617237,
      "grad_norm": 1.0,
      "learning_rate": 7.86420955133471e-05,
      "loss": 0.3714,
      "step": 12020
    },
    {
      "epoch": 2.8948001925854596,
      "grad_norm": 1.109375,
      "learning_rate": 7.858638603720834e-05,
      "loss": 0.3792,
      "step": 12025
    },
    {
      "epoch": 2.896003851709196,
      "grad_norm": 1.0078125,
      "learning_rate": 7.853072106403215e-05,
      "loss": 0.3951,
      "step": 12030
    },
    {
      "epoch": 2.8972075108329323,
      "grad_norm": 0.91796875,
      "learning_rate": 7.847510064377607e-05,
      "loss": 0.3867,
      "step": 12035
    },
    {
      "epoch": 2.898411169956668,
      "grad_norm": 0.9140625,
      "learning_rate": 7.841952482635747e-05,
      "loss": 0.3871,
      "step": 12040
    },
    {
      "epoch": 2.8996148290804045,
      "grad_norm": 1.046875,
      "learning_rate": 7.836399366165384e-05,
      "loss": 0.3761,
      "step": 12045
    },
    {
      "epoch": 2.9008184882041403,
      "grad_norm": 0.97265625,
      "learning_rate": 7.830850719950255e-05,
      "loss": 0.4006,
      "step": 12050
    },
    {
      "epoch": 2.9020221473278767,
      "grad_norm": 0.98046875,
      "learning_rate": 7.825306548970087e-05,
      "loss": 0.403,
      "step": 12055
    },
    {
      "epoch": 2.903225806451613,
      "grad_norm": 0.98828125,
      "learning_rate": 7.819766858200578e-05,
      "loss": 0.3751,
      "step": 12060
    },
    {
      "epoch": 2.9044294655753493,
      "grad_norm": 1.03125,
      "learning_rate": 7.814231652613424e-05,
      "loss": 0.3819,
      "step": 12065
    },
    {
      "epoch": 2.905633124699085,
      "grad_norm": 0.9453125,
      "learning_rate": 7.808700937176286e-05,
      "loss": 0.384,
      "step": 12070
    },
    {
      "epoch": 2.9068367838228215,
      "grad_norm": 1.0390625,
      "learning_rate": 7.803174716852792e-05,
      "loss": 0.3689,
      "step": 12075
    },
    {
      "epoch": 2.9080404429465574,
      "grad_norm": 1.0078125,
      "learning_rate": 7.797652996602545e-05,
      "loss": 0.3828,
      "step": 12080
    },
    {
      "epoch": 2.9092441020702937,
      "grad_norm": 1.109375,
      "learning_rate": 7.792135781381103e-05,
      "loss": 0.3655,
      "step": 12085
    },
    {
      "epoch": 2.91044776119403,
      "grad_norm": 1.0546875,
      "learning_rate": 7.78662307613998e-05,
      "loss": 0.4076,
      "step": 12090
    },
    {
      "epoch": 2.911651420317766,
      "grad_norm": 1.03125,
      "learning_rate": 7.781114885826648e-05,
      "loss": 0.3714,
      "step": 12095
    },
    {
      "epoch": 2.9128550794415022,
      "grad_norm": 1.078125,
      "learning_rate": 7.775611215384523e-05,
      "loss": 0.3798,
      "step": 12100
    },
    {
      "epoch": 2.914058738565238,
      "grad_norm": 1.015625,
      "learning_rate": 7.770112069752963e-05,
      "loss": 0.3963,
      "step": 12105
    },
    {
      "epoch": 2.9152623976889744,
      "grad_norm": 0.94921875,
      "learning_rate": 7.764617453867265e-05,
      "loss": 0.3808,
      "step": 12110
    },
    {
      "epoch": 2.9164660568127108,
      "grad_norm": 0.97265625,
      "learning_rate": 7.759127372658672e-05,
      "loss": 0.3681,
      "step": 12115
    },
    {
      "epoch": 2.9176697159364466,
      "grad_norm": 1.0234375,
      "learning_rate": 7.75364183105434e-05,
      "loss": 0.4188,
      "step": 12120
    },
    {
      "epoch": 2.918873375060183,
      "grad_norm": 1.0390625,
      "learning_rate": 7.748160833977361e-05,
      "loss": 0.3849,
      "step": 12125
    },
    {
      "epoch": 2.920077034183919,
      "grad_norm": 1.09375,
      "learning_rate": 7.742684386346751e-05,
      "loss": 0.4225,
      "step": 12130
    },
    {
      "epoch": 2.921280693307655,
      "grad_norm": 0.9375,
      "learning_rate": 7.737212493077439e-05,
      "loss": 0.3444,
      "step": 12135
    },
    {
      "epoch": 2.9224843524313915,
      "grad_norm": 1.15625,
      "learning_rate": 7.731745159080257e-05,
      "loss": 0.4267,
      "step": 12140
    },
    {
      "epoch": 2.923688011555128,
      "grad_norm": 0.94140625,
      "learning_rate": 7.726282389261963e-05,
      "loss": 0.3857,
      "step": 12145
    },
    {
      "epoch": 2.9248916706788637,
      "grad_norm": 1.140625,
      "learning_rate": 7.720824188525209e-05,
      "loss": 0.4108,
      "step": 12150
    },
    {
      "epoch": 2.9260953298026,
      "grad_norm": 0.9765625,
      "learning_rate": 7.715370561768543e-05,
      "loss": 0.3833,
      "step": 12155
    },
    {
      "epoch": 2.927298988926336,
      "grad_norm": 1.0625,
      "learning_rate": 7.709921513886419e-05,
      "loss": 0.3828,
      "step": 12160
    },
    {
      "epoch": 2.928502648050072,
      "grad_norm": 1.0390625,
      "learning_rate": 7.704477049769172e-05,
      "loss": 0.3723,
      "step": 12165
    },
    {
      "epoch": 2.9297063071738085,
      "grad_norm": 0.9765625,
      "learning_rate": 7.699037174303027e-05,
      "loss": 0.3847,
      "step": 12170
    },
    {
      "epoch": 2.9309099662975444,
      "grad_norm": 1.0234375,
      "learning_rate": 7.693601892370093e-05,
      "loss": 0.3992,
      "step": 12175
    },
    {
      "epoch": 2.9321136254212807,
      "grad_norm": 1.0078125,
      "learning_rate": 7.68817120884835e-05,
      "loss": 0.406,
      "step": 12180
    },
    {
      "epoch": 2.9333172845450166,
      "grad_norm": 1.0234375,
      "learning_rate": 7.682745128611655e-05,
      "loss": 0.388,
      "step": 12185
    },
    {
      "epoch": 2.934520943668753,
      "grad_norm": 0.94921875,
      "learning_rate": 7.677323656529737e-05,
      "loss": 0.4004,
      "step": 12190
    },
    {
      "epoch": 2.9357246027924893,
      "grad_norm": 0.99609375,
      "learning_rate": 7.671906797468184e-05,
      "loss": 0.3684,
      "step": 12195
    },
    {
      "epoch": 2.9369282619162256,
      "grad_norm": 1.0546875,
      "learning_rate": 7.666494556288443e-05,
      "loss": 0.3913,
      "step": 12200
    },
    {
      "epoch": 2.9381319210399615,
      "grad_norm": 1.1328125,
      "learning_rate": 7.661086937847827e-05,
      "loss": 0.3862,
      "step": 12205
    },
    {
      "epoch": 2.939335580163698,
      "grad_norm": 1.09375,
      "learning_rate": 7.655683946999486e-05,
      "loss": 0.4004,
      "step": 12210
    },
    {
      "epoch": 2.9405392392874337,
      "grad_norm": 0.98828125,
      "learning_rate": 7.650285588592427e-05,
      "loss": 0.3719,
      "step": 12215
    },
    {
      "epoch": 2.94174289841117,
      "grad_norm": 0.921875,
      "learning_rate": 7.644891867471497e-05,
      "loss": 0.3844,
      "step": 12220
    },
    {
      "epoch": 2.9429465575349063,
      "grad_norm": 1.0,
      "learning_rate": 7.639502788477377e-05,
      "loss": 0.3966,
      "step": 12225
    },
    {
      "epoch": 2.944150216658642,
      "grad_norm": 1.046875,
      "learning_rate": 7.634118356446585e-05,
      "loss": 0.3759,
      "step": 12230
    },
    {
      "epoch": 2.9453538757823785,
      "grad_norm": 0.9765625,
      "learning_rate": 7.628738576211473e-05,
      "loss": 0.4173,
      "step": 12235
    },
    {
      "epoch": 2.9465575349061144,
      "grad_norm": 1.0078125,
      "learning_rate": 7.623363452600211e-05,
      "loss": 0.3775,
      "step": 12240
    },
    {
      "epoch": 2.9477611940298507,
      "grad_norm": 1.0,
      "learning_rate": 7.617992990436795e-05,
      "loss": 0.3572,
      "step": 12245
    },
    {
      "epoch": 2.948964853153587,
      "grad_norm": 0.95703125,
      "learning_rate": 7.612627194541032e-05,
      "loss": 0.3812,
      "step": 12250
    },
    {
      "epoch": 2.950168512277323,
      "grad_norm": 0.9375,
      "learning_rate": 7.60726606972855e-05,
      "loss": 0.3631,
      "step": 12255
    },
    {
      "epoch": 2.9513721714010592,
      "grad_norm": 1.09375,
      "learning_rate": 7.60190962081077e-05,
      "loss": 0.4028,
      "step": 12260
    },
    {
      "epoch": 2.952575830524795,
      "grad_norm": 0.9453125,
      "learning_rate": 7.596557852594935e-05,
      "loss": 0.3728,
      "step": 12265
    },
    {
      "epoch": 2.9537794896485314,
      "grad_norm": 0.9765625,
      "learning_rate": 7.591210769884073e-05,
      "loss": 0.3834,
      "step": 12270
    },
    {
      "epoch": 2.9549831487722678,
      "grad_norm": 1.1171875,
      "learning_rate": 7.585868377477015e-05,
      "loss": 0.3753,
      "step": 12275
    },
    {
      "epoch": 2.956186807896004,
      "grad_norm": 1.0234375,
      "learning_rate": 7.580530680168376e-05,
      "loss": 0.4026,
      "step": 12280
    },
    {
      "epoch": 2.95739046701974,
      "grad_norm": 1.078125,
      "learning_rate": 7.575197682748565e-05,
      "loss": 0.388,
      "step": 12285
    },
    {
      "epoch": 2.9585941261434763,
      "grad_norm": 0.98828125,
      "learning_rate": 7.569869390003767e-05,
      "loss": 0.3591,
      "step": 12290
    },
    {
      "epoch": 2.959797785267212,
      "grad_norm": 1.109375,
      "learning_rate": 7.564545806715948e-05,
      "loss": 0.3786,
      "step": 12295
    },
    {
      "epoch": 2.9610014443909485,
      "grad_norm": 0.9375,
      "learning_rate": 7.559226937662843e-05,
      "loss": 0.3739,
      "step": 12300
    },
    {
      "epoch": 2.962205103514685,
      "grad_norm": 1.09375,
      "learning_rate": 7.553912787617961e-05,
      "loss": 0.3596,
      "step": 12305
    },
    {
      "epoch": 2.9634087626384207,
      "grad_norm": 0.95703125,
      "learning_rate": 7.548603361350571e-05,
      "loss": 0.3795,
      "step": 12310
    },
    {
      "epoch": 2.964612421762157,
      "grad_norm": 0.9609375,
      "learning_rate": 7.543298663625714e-05,
      "loss": 0.3797,
      "step": 12315
    },
    {
      "epoch": 2.965816080885893,
      "grad_norm": 0.90234375,
      "learning_rate": 7.53799869920417e-05,
      "loss": 0.3962,
      "step": 12320
    },
    {
      "epoch": 2.967019740009629,
      "grad_norm": 1.0546875,
      "learning_rate": 7.532703472842484e-05,
      "loss": 0.3624,
      "step": 12325
    },
    {
      "epoch": 2.9682233991333655,
      "grad_norm": 1.03125,
      "learning_rate": 7.527412989292945e-05,
      "loss": 0.3776,
      "step": 12330
    },
    {
      "epoch": 2.969427058257102,
      "grad_norm": 0.859375,
      "learning_rate": 7.522127253303586e-05,
      "loss": 0.394,
      "step": 12335
    },
    {
      "epoch": 2.9706307173808377,
      "grad_norm": 1.0390625,
      "learning_rate": 7.516846269618173e-05,
      "loss": 0.4046,
      "step": 12340
    },
    {
      "epoch": 2.971834376504574,
      "grad_norm": 1.015625,
      "learning_rate": 7.511570042976217e-05,
      "loss": 0.3818,
      "step": 12345
    },
    {
      "epoch": 2.97303803562831,
      "grad_norm": 0.9375,
      "learning_rate": 7.506298578112956e-05,
      "loss": 0.3888,
      "step": 12350
    },
    {
      "epoch": 2.9742416947520463,
      "grad_norm": 1.0078125,
      "learning_rate": 7.501031879759347e-05,
      "loss": 0.3774,
      "step": 12355
    },
    {
      "epoch": 2.9754453538757826,
      "grad_norm": 0.98828125,
      "learning_rate": 7.495769952642085e-05,
      "loss": 0.3981,
      "step": 12360
    },
    {
      "epoch": 2.9766490129995185,
      "grad_norm": 1.0,
      "learning_rate": 7.490512801483567e-05,
      "loss": 0.3815,
      "step": 12365
    },
    {
      "epoch": 2.9778526721232548,
      "grad_norm": 0.92578125,
      "learning_rate": 7.485260431001913e-05,
      "loss": 0.3572,
      "step": 12370
    },
    {
      "epoch": 2.9790563312469907,
      "grad_norm": 1.109375,
      "learning_rate": 7.48001284591095e-05,
      "loss": 0.3738,
      "step": 12375
    },
    {
      "epoch": 2.980259990370727,
      "grad_norm": 1.046875,
      "learning_rate": 7.474770050920209e-05,
      "loss": 0.3787,
      "step": 12380
    },
    {
      "epoch": 2.9814636494944633,
      "grad_norm": 0.98828125,
      "learning_rate": 7.46953205073492e-05,
      "loss": 0.3927,
      "step": 12385
    },
    {
      "epoch": 2.982667308618199,
      "grad_norm": 0.87109375,
      "learning_rate": 7.464298850056022e-05,
      "loss": 0.3769,
      "step": 12390
    },
    {
      "epoch": 2.9838709677419355,
      "grad_norm": 0.953125,
      "learning_rate": 7.459070453580131e-05,
      "loss": 0.406,
      "step": 12395
    },
    {
      "epoch": 2.9850746268656714,
      "grad_norm": 0.9453125,
      "learning_rate": 7.453846865999561e-05,
      "loss": 0.3943,
      "step": 12400
    },
    {
      "epoch": 2.9862782859894077,
      "grad_norm": 1.0390625,
      "learning_rate": 7.448628092002302e-05,
      "loss": 0.3715,
      "step": 12405
    },
    {
      "epoch": 2.987481945113144,
      "grad_norm": 1.0078125,
      "learning_rate": 7.443414136272038e-05,
      "loss": 0.3995,
      "step": 12410
    },
    {
      "epoch": 2.9886856042368803,
      "grad_norm": 1.0078125,
      "learning_rate": 7.438205003488113e-05,
      "loss": 0.3824,
      "step": 12415
    },
    {
      "epoch": 2.9898892633606162,
      "grad_norm": 0.9921875,
      "learning_rate": 7.433000698325551e-05,
      "loss": 0.3903,
      "step": 12420
    },
    {
      "epoch": 2.9910929224843525,
      "grad_norm": 1.0625,
      "learning_rate": 7.427801225455045e-05,
      "loss": 0.3945,
      "step": 12425
    },
    {
      "epoch": 2.9922965816080884,
      "grad_norm": 0.96484375,
      "learning_rate": 7.422606589542946e-05,
      "loss": 0.3953,
      "step": 12430
    },
    {
      "epoch": 2.9935002407318247,
      "grad_norm": 0.953125,
      "learning_rate": 7.417416795251261e-05,
      "loss": 0.3776,
      "step": 12435
    },
    {
      "epoch": 2.994703899855561,
      "grad_norm": 1.0,
      "learning_rate": 7.412231847237666e-05,
      "loss": 0.4054,
      "step": 12440
    },
    {
      "epoch": 2.995907558979297,
      "grad_norm": 0.99609375,
      "learning_rate": 7.407051750155473e-05,
      "loss": 0.3844,
      "step": 12445
    },
    {
      "epoch": 2.9971112181030333,
      "grad_norm": 1.09375,
      "learning_rate": 7.401876508653645e-05,
      "loss": 0.4058,
      "step": 12450
    },
    {
      "epoch": 2.998314877226769,
      "grad_norm": 0.96875,
      "learning_rate": 7.396706127376795e-05,
      "loss": 0.3667,
      "step": 12455
    },
    {
      "epoch": 2.999277804525758,
      "eval_loss": 0.3465866446495056,
      "eval_runtime": 2.3382,
      "eval_samples_per_second": 85.534,
      "eval_steps_per_second": 85.534,
      "step": 12459
    },
    {
      "epoch": 2.9995185363505055,
      "grad_norm": 0.8515625,
      "learning_rate": 7.391540610965164e-05,
      "loss": 0.3907,
      "step": 12460
    },
    {
      "epoch": 3.000722195474242,
      "grad_norm": 1.0234375,
      "learning_rate": 7.386379964054625e-05,
      "loss": 0.3545,
      "step": 12465
    },
    {
      "epoch": 3.0019258545979777,
      "grad_norm": 0.9453125,
      "learning_rate": 7.381224191276692e-05,
      "loss": 0.3321,
      "step": 12470
    },
    {
      "epoch": 3.003129513721714,
      "grad_norm": 0.90234375,
      "learning_rate": 7.376073297258498e-05,
      "loss": 0.3542,
      "step": 12475
    },
    {
      "epoch": 3.0043331728454503,
      "grad_norm": 1.046875,
      "learning_rate": 7.370927286622795e-05,
      "loss": 0.3535,
      "step": 12480
    },
    {
      "epoch": 3.005536831969186,
      "grad_norm": 0.98828125,
      "learning_rate": 7.365786163987959e-05,
      "loss": 0.3387,
      "step": 12485
    },
    {
      "epoch": 3.0067404910929225,
      "grad_norm": 0.90625,
      "learning_rate": 7.360649933967977e-05,
      "loss": 0.3413,
      "step": 12490
    },
    {
      "epoch": 3.007944150216659,
      "grad_norm": 0.93359375,
      "learning_rate": 7.35551860117244e-05,
      "loss": 0.3215,
      "step": 12495
    },
    {
      "epoch": 3.0091478093403947,
      "grad_norm": 0.921875,
      "learning_rate": 7.350392170206548e-05,
      "loss": 0.3597,
      "step": 12500
    },
    {
      "epoch": 3.0091478093403947,
      "eval_loss": 0.34771043062210083,
      "eval_runtime": 2.3495,
      "eval_samples_per_second": 85.125,
      "eval_steps_per_second": 85.125,
      "step": 12500
    },
    {
      "epoch": 3.010351468464131,
      "grad_norm": 0.9140625,
      "learning_rate": 7.345270645671104e-05,
      "loss": 0.3568,
      "step": 12505
    },
    {
      "epoch": 3.011555127587867,
      "grad_norm": 0.94140625,
      "learning_rate": 7.3401540321625e-05,
      "loss": 0.3309,
      "step": 12510
    },
    {
      "epoch": 3.0127587867116032,
      "grad_norm": 0.8515625,
      "learning_rate": 7.335042334272732e-05,
      "loss": 0.3244,
      "step": 12515
    },
    {
      "epoch": 3.0139624458353396,
      "grad_norm": 0.921875,
      "learning_rate": 7.329935556589376e-05,
      "loss": 0.3416,
      "step": 12520
    },
    {
      "epoch": 3.0151661049590754,
      "grad_norm": 0.99609375,
      "learning_rate": 7.324833703695593e-05,
      "loss": 0.3388,
      "step": 12525
    },
    {
      "epoch": 3.0163697640828118,
      "grad_norm": 0.86328125,
      "learning_rate": 7.319736780170124e-05,
      "loss": 0.3633,
      "step": 12530
    },
    {
      "epoch": 3.017573423206548,
      "grad_norm": 0.94140625,
      "learning_rate": 7.314644790587291e-05,
      "loss": 0.3309,
      "step": 12535
    },
    {
      "epoch": 3.018777082330284,
      "grad_norm": 1.0859375,
      "learning_rate": 7.309557739516983e-05,
      "loss": 0.3648,
      "step": 12540
    },
    {
      "epoch": 3.0199807414540203,
      "grad_norm": 1.0078125,
      "learning_rate": 7.304475631524658e-05,
      "loss": 0.3419,
      "step": 12545
    },
    {
      "epoch": 3.021184400577756,
      "grad_norm": 1.0234375,
      "learning_rate": 7.29939847117134e-05,
      "loss": 0.3701,
      "step": 12550
    },
    {
      "epoch": 3.0223880597014925,
      "grad_norm": 1.03125,
      "learning_rate": 7.294326263013607e-05,
      "loss": 0.3568,
      "step": 12555
    },
    {
      "epoch": 3.023591718825229,
      "grad_norm": 0.96484375,
      "learning_rate": 7.289259011603596e-05,
      "loss": 0.3774,
      "step": 12560
    },
    {
      "epoch": 3.0247953779489647,
      "grad_norm": 1.0078125,
      "learning_rate": 7.284196721489001e-05,
      "loss": 0.3156,
      "step": 12565
    },
    {
      "epoch": 3.025999037072701,
      "grad_norm": 1.0078125,
      "learning_rate": 7.279139397213056e-05,
      "loss": 0.3582,
      "step": 12570
    },
    {
      "epoch": 3.0272026961964373,
      "grad_norm": 0.94921875,
      "learning_rate": 7.274087043314535e-05,
      "loss": 0.3188,
      "step": 12575
    },
    {
      "epoch": 3.028406355320173,
      "grad_norm": 1.0625,
      "learning_rate": 7.269039664327767e-05,
      "loss": 0.3741,
      "step": 12580
    },
    {
      "epoch": 3.0296100144439095,
      "grad_norm": 0.92578125,
      "learning_rate": 7.263997264782599e-05,
      "loss": 0.3596,
      "step": 12585
    },
    {
      "epoch": 3.030813673567646,
      "grad_norm": 0.87890625,
      "learning_rate": 7.258959849204415e-05,
      "loss": 0.3508,
      "step": 12590
    },
    {
      "epoch": 3.0320173326913817,
      "grad_norm": 0.89453125,
      "learning_rate": 7.253927422114131e-05,
      "loss": 0.3177,
      "step": 12595
    },
    {
      "epoch": 3.033220991815118,
      "grad_norm": 1.0078125,
      "learning_rate": 7.24889998802818e-05,
      "loss": 0.3527,
      "step": 12600
    },
    {
      "epoch": 3.034424650938854,
      "grad_norm": 0.86328125,
      "learning_rate": 7.243877551458517e-05,
      "loss": 0.34,
      "step": 12605
    },
    {
      "epoch": 3.0356283100625903,
      "grad_norm": 0.984375,
      "learning_rate": 7.23886011691261e-05,
      "loss": 0.3679,
      "step": 12610
    },
    {
      "epoch": 3.0368319691863266,
      "grad_norm": 0.94921875,
      "learning_rate": 7.233847688893441e-05,
      "loss": 0.3341,
      "step": 12615
    },
    {
      "epoch": 3.0380356283100625,
      "grad_norm": 1.0078125,
      "learning_rate": 7.228840271899493e-05,
      "loss": 0.3547,
      "step": 12620
    },
    {
      "epoch": 3.039239287433799,
      "grad_norm": 1.0078125,
      "learning_rate": 7.22383787042476e-05,
      "loss": 0.3499,
      "step": 12625
    },
    {
      "epoch": 3.040442946557535,
      "grad_norm": 1.015625,
      "learning_rate": 7.218840488958728e-05,
      "loss": 0.3457,
      "step": 12630
    },
    {
      "epoch": 3.041646605681271,
      "grad_norm": 1.0,
      "learning_rate": 7.213848131986375e-05,
      "loss": 0.3306,
      "step": 12635
    },
    {
      "epoch": 3.0428502648050073,
      "grad_norm": 0.98828125,
      "learning_rate": 7.208860803988181e-05,
      "loss": 0.3348,
      "step": 12640
    },
    {
      "epoch": 3.044053923928743,
      "grad_norm": 0.875,
      "learning_rate": 7.203878509440106e-05,
      "loss": 0.3394,
      "step": 12645
    },
    {
      "epoch": 3.0452575830524795,
      "grad_norm": 1.0546875,
      "learning_rate": 7.198901252813588e-05,
      "loss": 0.3523,
      "step": 12650
    },
    {
      "epoch": 3.046461242176216,
      "grad_norm": 0.98046875,
      "learning_rate": 7.193929038575552e-05,
      "loss": 0.3481,
      "step": 12655
    },
    {
      "epoch": 3.0476649012999517,
      "grad_norm": 1.0234375,
      "learning_rate": 7.188961871188397e-05,
      "loss": 0.3477,
      "step": 12660
    },
    {
      "epoch": 3.048868560423688,
      "grad_norm": 0.9609375,
      "learning_rate": 7.183999755109982e-05,
      "loss": 0.3483,
      "step": 12665
    },
    {
      "epoch": 3.0500722195474244,
      "grad_norm": 1.0,
      "learning_rate": 7.179042694793647e-05,
      "loss": 0.3367,
      "step": 12670
    },
    {
      "epoch": 3.0512758786711602,
      "grad_norm": 0.94140625,
      "learning_rate": 7.174090694688183e-05,
      "loss": 0.3189,
      "step": 12675
    },
    {
      "epoch": 3.0524795377948966,
      "grad_norm": 0.98828125,
      "learning_rate": 7.169143759237847e-05,
      "loss": 0.3329,
      "step": 12680
    },
    {
      "epoch": 3.0536831969186324,
      "grad_norm": 0.9296875,
      "learning_rate": 7.164201892882349e-05,
      "loss": 0.3347,
      "step": 12685
    },
    {
      "epoch": 3.0548868560423688,
      "grad_norm": 0.984375,
      "learning_rate": 7.159265100056849e-05,
      "loss": 0.3411,
      "step": 12690
    },
    {
      "epoch": 3.056090515166105,
      "grad_norm": 1.03125,
      "learning_rate": 7.154333385191953e-05,
      "loss": 0.3437,
      "step": 12695
    },
    {
      "epoch": 3.057294174289841,
      "grad_norm": 1.03125,
      "learning_rate": 7.149406752713708e-05,
      "loss": 0.3245,
      "step": 12700
    },
    {
      "epoch": 3.0584978334135773,
      "grad_norm": 0.96875,
      "learning_rate": 7.144485207043606e-05,
      "loss": 0.3632,
      "step": 12705
    },
    {
      "epoch": 3.0597014925373136,
      "grad_norm": 1.0234375,
      "learning_rate": 7.139568752598565e-05,
      "loss": 0.3394,
      "step": 12710
    },
    {
      "epoch": 3.0609051516610495,
      "grad_norm": 0.98828125,
      "learning_rate": 7.134657393790942e-05,
      "loss": 0.3449,
      "step": 12715
    },
    {
      "epoch": 3.062108810784786,
      "grad_norm": 0.98828125,
      "learning_rate": 7.129751135028517e-05,
      "loss": 0.3469,
      "step": 12720
    },
    {
      "epoch": 3.0633124699085217,
      "grad_norm": 0.94921875,
      "learning_rate": 7.124849980714494e-05,
      "loss": 0.3697,
      "step": 12725
    },
    {
      "epoch": 3.064516129032258,
      "grad_norm": 0.921875,
      "learning_rate": 7.11995393524749e-05,
      "loss": 0.3212,
      "step": 12730
    },
    {
      "epoch": 3.0657197881559943,
      "grad_norm": 0.96875,
      "learning_rate": 7.115063003021548e-05,
      "loss": 0.353,
      "step": 12735
    },
    {
      "epoch": 3.06692344727973,
      "grad_norm": 1.0,
      "learning_rate": 7.110177188426119e-05,
      "loss": 0.3744,
      "step": 12740
    },
    {
      "epoch": 3.0681271064034665,
      "grad_norm": 1.0625,
      "learning_rate": 7.105296495846046e-05,
      "loss": 0.3667,
      "step": 12745
    },
    {
      "epoch": 3.069330765527203,
      "grad_norm": 0.8828125,
      "learning_rate": 7.1004209296616e-05,
      "loss": 0.3405,
      "step": 12750
    },
    {
      "epoch": 3.0705344246509387,
      "grad_norm": 0.91015625,
      "learning_rate": 7.095550494248432e-05,
      "loss": 0.3415,
      "step": 12755
    },
    {
      "epoch": 3.071738083774675,
      "grad_norm": 0.9921875,
      "learning_rate": 7.090685193977596e-05,
      "loss": 0.3384,
      "step": 12760
    },
    {
      "epoch": 3.0729417428984114,
      "grad_norm": 0.9921875,
      "learning_rate": 7.085825033215539e-05,
      "loss": 0.3497,
      "step": 12765
    },
    {
      "epoch": 3.0741454020221473,
      "grad_norm": 1.0078125,
      "learning_rate": 7.08097001632409e-05,
      "loss": 0.3515,
      "step": 12770
    },
    {
      "epoch": 3.0753490611458836,
      "grad_norm": 1.2421875,
      "learning_rate": 7.076120147660461e-05,
      "loss": 0.3463,
      "step": 12775
    },
    {
      "epoch": 3.0765527202696195,
      "grad_norm": 1.09375,
      "learning_rate": 7.07127543157726e-05,
      "loss": 0.3857,
      "step": 12780
    },
    {
      "epoch": 3.077756379393356,
      "grad_norm": 1.1015625,
      "learning_rate": 7.066435872422444e-05,
      "loss": 0.3332,
      "step": 12785
    },
    {
      "epoch": 3.078960038517092,
      "grad_norm": 0.9765625,
      "learning_rate": 7.06160147453936e-05,
      "loss": 0.3358,
      "step": 12790
    },
    {
      "epoch": 3.080163697640828,
      "grad_norm": 0.9921875,
      "learning_rate": 7.05677224226672e-05,
      "loss": 0.3659,
      "step": 12795
    },
    {
      "epoch": 3.0813673567645643,
      "grad_norm": 1.1015625,
      "learning_rate": 7.051948179938598e-05,
      "loss": 0.3594,
      "step": 12800
    },
    {
      "epoch": 3.0825710158883006,
      "grad_norm": 0.95703125,
      "learning_rate": 7.047129291884427e-05,
      "loss": 0.3394,
      "step": 12805
    },
    {
      "epoch": 3.0837746750120365,
      "grad_norm": 1.046875,
      "learning_rate": 7.042315582429e-05,
      "loss": 0.3686,
      "step": 12810
    },
    {
      "epoch": 3.084978334135773,
      "grad_norm": 1.1953125,
      "learning_rate": 7.037507055892462e-05,
      "loss": 0.3873,
      "step": 12815
    },
    {
      "epoch": 3.0861819932595087,
      "grad_norm": 1.0625,
      "learning_rate": 7.0327037165903e-05,
      "loss": 0.326,
      "step": 12820
    },
    {
      "epoch": 3.087385652383245,
      "grad_norm": 0.9921875,
      "learning_rate": 7.027905568833354e-05,
      "loss": 0.3831,
      "step": 12825
    },
    {
      "epoch": 3.0885893115069813,
      "grad_norm": 0.953125,
      "learning_rate": 7.023112616927801e-05,
      "loss": 0.3484,
      "step": 12830
    },
    {
      "epoch": 3.0897929706307172,
      "grad_norm": 0.96484375,
      "learning_rate": 7.018324865175151e-05,
      "loss": 0.3124,
      "step": 12835
    },
    {
      "epoch": 3.0909966297544536,
      "grad_norm": 1.03125,
      "learning_rate": 7.013542317872258e-05,
      "loss": 0.3639,
      "step": 12840
    },
    {
      "epoch": 3.09220028887819,
      "grad_norm": 1.0,
      "learning_rate": 7.008764979311295e-05,
      "loss": 0.3547,
      "step": 12845
    },
    {
      "epoch": 3.0934039480019258,
      "grad_norm": 1.046875,
      "learning_rate": 7.003992853779762e-05,
      "loss": 0.323,
      "step": 12850
    },
    {
      "epoch": 3.094607607125662,
      "grad_norm": 0.95703125,
      "learning_rate": 6.999225945560483e-05,
      "loss": 0.3369,
      "step": 12855
    },
    {
      "epoch": 3.095811266249398,
      "grad_norm": 0.9921875,
      "learning_rate": 6.994464258931603e-05,
      "loss": 0.3301,
      "step": 12860
    },
    {
      "epoch": 3.0970149253731343,
      "grad_norm": 0.99609375,
      "learning_rate": 6.989707798166569e-05,
      "loss": 0.3101,
      "step": 12865
    },
    {
      "epoch": 3.0982185844968706,
      "grad_norm": 0.97265625,
      "learning_rate": 6.984956567534152e-05,
      "loss": 0.354,
      "step": 12870
    },
    {
      "epoch": 3.0994222436206065,
      "grad_norm": 1.0390625,
      "learning_rate": 6.980210571298419e-05,
      "loss": 0.3603,
      "step": 12875
    },
    {
      "epoch": 3.100625902744343,
      "grad_norm": 0.99609375,
      "learning_rate": 6.975469813718746e-05,
      "loss": 0.3262,
      "step": 12880
    },
    {
      "epoch": 3.101829561868079,
      "grad_norm": 1.0,
      "learning_rate": 6.9707342990498e-05,
      "loss": 0.345,
      "step": 12885
    },
    {
      "epoch": 3.103033220991815,
      "grad_norm": 1.0390625,
      "learning_rate": 6.966004031541552e-05,
      "loss": 0.3723,
      "step": 12890
    },
    {
      "epoch": 3.1042368801155513,
      "grad_norm": 1.0,
      "learning_rate": 6.961279015439258e-05,
      "loss": 0.3726,
      "step": 12895
    },
    {
      "epoch": 3.1054405392392876,
      "grad_norm": 1.0390625,
      "learning_rate": 6.95655925498346e-05,
      "loss": 0.3356,
      "step": 12900
    },
    {
      "epoch": 3.1066441983630235,
      "grad_norm": 1.03125,
      "learning_rate": 6.951844754409986e-05,
      "loss": 0.3663,
      "step": 12905
    },
    {
      "epoch": 3.10784785748676,
      "grad_norm": 1.03125,
      "learning_rate": 6.947135517949943e-05,
      "loss": 0.3457,
      "step": 12910
    },
    {
      "epoch": 3.1090515166104957,
      "grad_norm": 1.0078125,
      "learning_rate": 6.942431549829713e-05,
      "loss": 0.3421,
      "step": 12915
    },
    {
      "epoch": 3.110255175734232,
      "grad_norm": 0.921875,
      "learning_rate": 6.93773285427095e-05,
      "loss": 0.3445,
      "step": 12920
    },
    {
      "epoch": 3.1114588348579684,
      "grad_norm": 0.97265625,
      "learning_rate": 6.933039435490577e-05,
      "loss": 0.3413,
      "step": 12925
    },
    {
      "epoch": 3.1126624939817042,
      "grad_norm": 0.984375,
      "learning_rate": 6.928351297700779e-05,
      "loss": 0.3391,
      "step": 12930
    },
    {
      "epoch": 3.1138661531054406,
      "grad_norm": 0.953125,
      "learning_rate": 6.923668445109006e-05,
      "loss": 0.3242,
      "step": 12935
    },
    {
      "epoch": 3.115069812229177,
      "grad_norm": 0.91015625,
      "learning_rate": 6.918990881917961e-05,
      "loss": 0.341,
      "step": 12940
    },
    {
      "epoch": 3.1162734713529128,
      "grad_norm": 0.9921875,
      "learning_rate": 6.914318612325595e-05,
      "loss": 0.3464,
      "step": 12945
    },
    {
      "epoch": 3.117477130476649,
      "grad_norm": 0.984375,
      "learning_rate": 6.909651640525119e-05,
      "loss": 0.339,
      "step": 12950
    },
    {
      "epoch": 3.118680789600385,
      "grad_norm": 1.046875,
      "learning_rate": 6.904989970704986e-05,
      "loss": 0.3351,
      "step": 12955
    },
    {
      "epoch": 3.1198844487241213,
      "grad_norm": 1.0234375,
      "learning_rate": 6.900333607048884e-05,
      "loss": 0.3555,
      "step": 12960
    },
    {
      "epoch": 3.1210881078478576,
      "grad_norm": 0.9453125,
      "learning_rate": 6.895682553735746e-05,
      "loss": 0.335,
      "step": 12965
    },
    {
      "epoch": 3.1222917669715935,
      "grad_norm": 1.0546875,
      "learning_rate": 6.891036814939738e-05,
      "loss": 0.3804,
      "step": 12970
    },
    {
      "epoch": 3.12349542609533,
      "grad_norm": 0.9765625,
      "learning_rate": 6.886396394830252e-05,
      "loss": 0.363,
      "step": 12975
    },
    {
      "epoch": 3.124699085219066,
      "grad_norm": 0.96875,
      "learning_rate": 6.881761297571912e-05,
      "loss": 0.3495,
      "step": 12980
    },
    {
      "epoch": 3.125902744342802,
      "grad_norm": 1.015625,
      "learning_rate": 6.877131527324568e-05,
      "loss": 0.3524,
      "step": 12985
    },
    {
      "epoch": 3.1271064034665383,
      "grad_norm": 1.0703125,
      "learning_rate": 6.872507088243273e-05,
      "loss": 0.3439,
      "step": 12990
    },
    {
      "epoch": 3.128310062590274,
      "grad_norm": 0.91015625,
      "learning_rate": 6.867887984478315e-05,
      "loss": 0.3211,
      "step": 12995
    },
    {
      "epoch": 3.1295137217140105,
      "grad_norm": 1.0390625,
      "learning_rate": 6.863274220175183e-05,
      "loss": 0.337,
      "step": 13000
    },
    {
      "epoch": 3.1295137217140105,
      "eval_loss": 0.34540191292762756,
      "eval_runtime": 2.36,
      "eval_samples_per_second": 84.745,
      "eval_steps_per_second": 84.745,
      "step": 13000
    },
    {
      "epoch": 3.130717380837747,
      "grad_norm": 1.0859375,
      "learning_rate": 6.858665799474575e-05,
      "loss": 0.3674,
      "step": 13005
    },
    {
      "epoch": 3.1319210399614827,
      "grad_norm": 1.0703125,
      "learning_rate": 6.854062726512393e-05,
      "loss": 0.3202,
      "step": 13010
    },
    {
      "epoch": 3.133124699085219,
      "grad_norm": 0.953125,
      "learning_rate": 6.849465005419748e-05,
      "loss": 0.34,
      "step": 13015
    },
    {
      "epoch": 3.1343283582089554,
      "grad_norm": 1.0078125,
      "learning_rate": 6.844872640322934e-05,
      "loss": 0.355,
      "step": 13020
    },
    {
      "epoch": 3.1355320173326913,
      "grad_norm": 1.0703125,
      "learning_rate": 6.84028563534345e-05,
      "loss": 0.3417,
      "step": 13025
    },
    {
      "epoch": 3.1367356764564276,
      "grad_norm": 0.94921875,
      "learning_rate": 6.835703994597976e-05,
      "loss": 0.3517,
      "step": 13030
    },
    {
      "epoch": 3.137939335580164,
      "grad_norm": 0.9609375,
      "learning_rate": 6.831127722198384e-05,
      "loss": 0.3334,
      "step": 13035
    },
    {
      "epoch": 3.1391429947039,
      "grad_norm": 1.0625,
      "learning_rate": 6.826556822251721e-05,
      "loss": 0.3414,
      "step": 13040
    },
    {
      "epoch": 3.140346653827636,
      "grad_norm": 1.03125,
      "learning_rate": 6.821991298860223e-05,
      "loss": 0.3483,
      "step": 13045
    },
    {
      "epoch": 3.141550312951372,
      "grad_norm": 0.9296875,
      "learning_rate": 6.817431156121292e-05,
      "loss": 0.3474,
      "step": 13050
    },
    {
      "epoch": 3.1427539720751083,
      "grad_norm": 1.0390625,
      "learning_rate": 6.812876398127501e-05,
      "loss": 0.3488,
      "step": 13055
    },
    {
      "epoch": 3.1439576311988446,
      "grad_norm": 1.03125,
      "learning_rate": 6.808327028966598e-05,
      "loss": 0.3364,
      "step": 13060
    },
    {
      "epoch": 3.1451612903225805,
      "grad_norm": 0.8828125,
      "learning_rate": 6.80378305272149e-05,
      "loss": 0.3505,
      "step": 13065
    },
    {
      "epoch": 3.146364949446317,
      "grad_norm": 0.9921875,
      "learning_rate": 6.799244473470238e-05,
      "loss": 0.3437,
      "step": 13070
    },
    {
      "epoch": 3.147568608570053,
      "grad_norm": 1.0078125,
      "learning_rate": 6.794711295286068e-05,
      "loss": 0.3552,
      "step": 13075
    },
    {
      "epoch": 3.148772267693789,
      "grad_norm": 0.9375,
      "learning_rate": 6.790183522237358e-05,
      "loss": 0.3362,
      "step": 13080
    },
    {
      "epoch": 3.1499759268175254,
      "grad_norm": 0.96875,
      "learning_rate": 6.785661158387628e-05,
      "loss": 0.355,
      "step": 13085
    },
    {
      "epoch": 3.1511795859412612,
      "grad_norm": 0.94921875,
      "learning_rate": 6.781144207795555e-05,
      "loss": 0.371,
      "step": 13090
    },
    {
      "epoch": 3.1523832450649976,
      "grad_norm": 0.89453125,
      "learning_rate": 6.776632674514947e-05,
      "loss": 0.3328,
      "step": 13095
    },
    {
      "epoch": 3.153586904188734,
      "grad_norm": 0.94140625,
      "learning_rate": 6.772126562594753e-05,
      "loss": 0.329,
      "step": 13100
    },
    {
      "epoch": 3.1547905633124698,
      "grad_norm": 0.921875,
      "learning_rate": 6.767625876079065e-05,
      "loss": 0.3319,
      "step": 13105
    },
    {
      "epoch": 3.155994222436206,
      "grad_norm": 0.953125,
      "learning_rate": 6.763130619007091e-05,
      "loss": 0.3534,
      "step": 13110
    },
    {
      "epoch": 3.1571978815599424,
      "grad_norm": 1.015625,
      "learning_rate": 6.758640795413177e-05,
      "loss": 0.3557,
      "step": 13115
    },
    {
      "epoch": 3.1584015406836783,
      "grad_norm": 0.99609375,
      "learning_rate": 6.754156409326787e-05,
      "loss": 0.3297,
      "step": 13120
    },
    {
      "epoch": 3.1596051998074146,
      "grad_norm": 1.0,
      "learning_rate": 6.749677464772514e-05,
      "loss": 0.3399,
      "step": 13125
    },
    {
      "epoch": 3.1608088589311505,
      "grad_norm": 0.921875,
      "learning_rate": 6.745203965770052e-05,
      "loss": 0.367,
      "step": 13130
    },
    {
      "epoch": 3.162012518054887,
      "grad_norm": 0.94140625,
      "learning_rate": 6.740735916334226e-05,
      "loss": 0.3482,
      "step": 13135
    },
    {
      "epoch": 3.163216177178623,
      "grad_norm": 1.125,
      "learning_rate": 6.736273320474956e-05,
      "loss": 0.3678,
      "step": 13140
    },
    {
      "epoch": 3.164419836302359,
      "grad_norm": 1.0078125,
      "learning_rate": 6.731816182197273e-05,
      "loss": 0.3366,
      "step": 13145
    },
    {
      "epoch": 3.1656234954260953,
      "grad_norm": 0.99609375,
      "learning_rate": 6.72736450550131e-05,
      "loss": 0.321,
      "step": 13150
    },
    {
      "epoch": 3.1668271545498317,
      "grad_norm": 0.984375,
      "learning_rate": 6.722918294382298e-05,
      "loss": 0.3596,
      "step": 13155
    },
    {
      "epoch": 3.1680308136735675,
      "grad_norm": 0.9765625,
      "learning_rate": 6.718477552830562e-05,
      "loss": 0.3759,
      "step": 13160
    },
    {
      "epoch": 3.169234472797304,
      "grad_norm": 1.0234375,
      "learning_rate": 6.71404228483152e-05,
      "loss": 0.3124,
      "step": 13165
    },
    {
      "epoch": 3.17043813192104,
      "grad_norm": 0.97265625,
      "learning_rate": 6.709612494365679e-05,
      "loss": 0.3314,
      "step": 13170
    },
    {
      "epoch": 3.171641791044776,
      "grad_norm": 1.0703125,
      "learning_rate": 6.705188185408626e-05,
      "loss": 0.3554,
      "step": 13175
    },
    {
      "epoch": 3.1728454501685124,
      "grad_norm": 1.1796875,
      "learning_rate": 6.700769361931025e-05,
      "loss": 0.3527,
      "step": 13180
    },
    {
      "epoch": 3.1740491092922483,
      "grad_norm": 1.078125,
      "learning_rate": 6.696356027898635e-05,
      "loss": 0.3492,
      "step": 13185
    },
    {
      "epoch": 3.1752527684159846,
      "grad_norm": 0.9375,
      "learning_rate": 6.691948187272265e-05,
      "loss": 0.3435,
      "step": 13190
    },
    {
      "epoch": 3.176456427539721,
      "grad_norm": 0.9609375,
      "learning_rate": 6.687545844007805e-05,
      "loss": 0.3392,
      "step": 13195
    },
    {
      "epoch": 3.177660086663457,
      "grad_norm": 0.99609375,
      "learning_rate": 6.683149002056217e-05,
      "loss": 0.3423,
      "step": 13200
    },
    {
      "epoch": 3.178863745787193,
      "grad_norm": 0.9921875,
      "learning_rate": 6.678757665363517e-05,
      "loss": 0.347,
      "step": 13205
    },
    {
      "epoch": 3.1800674049109294,
      "grad_norm": 1.1015625,
      "learning_rate": 6.67437183787078e-05,
      "loss": 0.3524,
      "step": 13210
    },
    {
      "epoch": 3.1812710640346653,
      "grad_norm": 0.9609375,
      "learning_rate": 6.669991523514144e-05,
      "loss": 0.3186,
      "step": 13215
    },
    {
      "epoch": 3.1824747231584016,
      "grad_norm": 1.0234375,
      "learning_rate": 6.665616726224792e-05,
      "loss": 0.3259,
      "step": 13220
    },
    {
      "epoch": 3.1836783822821375,
      "grad_norm": 0.984375,
      "learning_rate": 6.66124744992896e-05,
      "loss": 0.3381,
      "step": 13225
    },
    {
      "epoch": 3.184882041405874,
      "grad_norm": 1.0,
      "learning_rate": 6.656883698547926e-05,
      "loss": 0.3525,
      "step": 13230
    },
    {
      "epoch": 3.18608570052961,
      "grad_norm": 0.9921875,
      "learning_rate": 6.652525475998012e-05,
      "loss": 0.3427,
      "step": 13235
    },
    {
      "epoch": 3.187289359653346,
      "grad_norm": 1.0546875,
      "learning_rate": 6.648172786190575e-05,
      "loss": 0.3805,
      "step": 13240
    },
    {
      "epoch": 3.1884930187770824,
      "grad_norm": 0.96484375,
      "learning_rate": 6.643825633032012e-05,
      "loss": 0.3594,
      "step": 13245
    },
    {
      "epoch": 3.1896966779008187,
      "grad_norm": 0.98046875,
      "learning_rate": 6.639484020423744e-05,
      "loss": 0.3269,
      "step": 13250
    },
    {
      "epoch": 3.1909003370245546,
      "grad_norm": 1.03125,
      "learning_rate": 6.635147952262225e-05,
      "loss": 0.3463,
      "step": 13255
    },
    {
      "epoch": 3.192103996148291,
      "grad_norm": 1.09375,
      "learning_rate": 6.630817432438933e-05,
      "loss": 0.36,
      "step": 13260
    },
    {
      "epoch": 3.1933076552720268,
      "grad_norm": 1.03125,
      "learning_rate": 6.626492464840365e-05,
      "loss": 0.3656,
      "step": 13265
    },
    {
      "epoch": 3.194511314395763,
      "grad_norm": 1.078125,
      "learning_rate": 6.62217305334803e-05,
      "loss": 0.3441,
      "step": 13270
    },
    {
      "epoch": 3.1957149735194994,
      "grad_norm": 0.97265625,
      "learning_rate": 6.61785920183846e-05,
      "loss": 0.3781,
      "step": 13275
    },
    {
      "epoch": 3.1969186326432353,
      "grad_norm": 1.0859375,
      "learning_rate": 6.613550914183189e-05,
      "loss": 0.3317,
      "step": 13280
    },
    {
      "epoch": 3.1981222917669716,
      "grad_norm": 0.96875,
      "learning_rate": 6.609248194248763e-05,
      "loss": 0.3348,
      "step": 13285
    },
    {
      "epoch": 3.199325950890708,
      "grad_norm": 1.0234375,
      "learning_rate": 6.604951045896732e-05,
      "loss": 0.3496,
      "step": 13290
    },
    {
      "epoch": 3.200529610014444,
      "grad_norm": 0.953125,
      "learning_rate": 6.600659472983639e-05,
      "loss": 0.3352,
      "step": 13295
    },
    {
      "epoch": 3.20173326913818,
      "grad_norm": 1.0546875,
      "learning_rate": 6.59637347936103e-05,
      "loss": 0.3464,
      "step": 13300
    },
    {
      "epoch": 3.2029369282619164,
      "grad_norm": 0.99609375,
      "learning_rate": 6.592093068875438e-05,
      "loss": 0.3564,
      "step": 13305
    },
    {
      "epoch": 3.2041405873856523,
      "grad_norm": 1.03125,
      "learning_rate": 6.587818245368391e-05,
      "loss": 0.33,
      "step": 13310
    },
    {
      "epoch": 3.2053442465093887,
      "grad_norm": 0.9609375,
      "learning_rate": 6.583549012676399e-05,
      "loss": 0.3433,
      "step": 13315
    },
    {
      "epoch": 3.2065479056331245,
      "grad_norm": 0.97265625,
      "learning_rate": 6.579285374630955e-05,
      "loss": 0.3354,
      "step": 13320
    },
    {
      "epoch": 3.207751564756861,
      "grad_norm": 1.0,
      "learning_rate": 6.575027335058534e-05,
      "loss": 0.3514,
      "step": 13325
    },
    {
      "epoch": 3.208955223880597,
      "grad_norm": 0.921875,
      "learning_rate": 6.570774897780581e-05,
      "loss": 0.3386,
      "step": 13330
    },
    {
      "epoch": 3.210158883004333,
      "grad_norm": 1.0234375,
      "learning_rate": 6.566528066613518e-05,
      "loss": 0.3154,
      "step": 13335
    },
    {
      "epoch": 3.2113625421280694,
      "grad_norm": 0.98046875,
      "learning_rate": 6.562286845368736e-05,
      "loss": 0.3296,
      "step": 13340
    },
    {
      "epoch": 3.2125662012518053,
      "grad_norm": 0.8984375,
      "learning_rate": 6.558051237852588e-05,
      "loss": 0.316,
      "step": 13345
    },
    {
      "epoch": 3.2137698603755416,
      "grad_norm": 1.09375,
      "learning_rate": 6.553821247866388e-05,
      "loss": 0.3532,
      "step": 13350
    },
    {
      "epoch": 3.214973519499278,
      "grad_norm": 0.93359375,
      "learning_rate": 6.549596879206413e-05,
      "loss": 0.3434,
      "step": 13355
    },
    {
      "epoch": 3.2161771786230138,
      "grad_norm": 0.98828125,
      "learning_rate": 6.545378135663893e-05,
      "loss": 0.3361,
      "step": 13360
    },
    {
      "epoch": 3.21738083774675,
      "grad_norm": 1.09375,
      "learning_rate": 6.541165021025005e-05,
      "loss": 0.3409,
      "step": 13365
    },
    {
      "epoch": 3.2185844968704864,
      "grad_norm": 1.0,
      "learning_rate": 6.536957539070884e-05,
      "loss": 0.362,
      "step": 13370
    },
    {
      "epoch": 3.2197881559942223,
      "grad_norm": 0.98046875,
      "learning_rate": 6.532755693577601e-05,
      "loss": 0.3461,
      "step": 13375
    },
    {
      "epoch": 3.2209918151179586,
      "grad_norm": 1.0234375,
      "learning_rate": 6.528559488316172e-05,
      "loss": 0.3417,
      "step": 13380
    },
    {
      "epoch": 3.222195474241695,
      "grad_norm": 1.0078125,
      "learning_rate": 6.524368927052557e-05,
      "loss": 0.3542,
      "step": 13385
    },
    {
      "epoch": 3.223399133365431,
      "grad_norm": 0.9140625,
      "learning_rate": 6.520184013547637e-05,
      "loss": 0.3373,
      "step": 13390
    },
    {
      "epoch": 3.224602792489167,
      "grad_norm": 1.0234375,
      "learning_rate": 6.516004751557233e-05,
      "loss": 0.3423,
      "step": 13395
    },
    {
      "epoch": 3.225806451612903,
      "grad_norm": 0.96484375,
      "learning_rate": 6.511831144832095e-05,
      "loss": 0.3369,
      "step": 13400
    },
    {
      "epoch": 3.2270101107366393,
      "grad_norm": 1.078125,
      "learning_rate": 6.507663197117896e-05,
      "loss": 0.338,
      "step": 13405
    },
    {
      "epoch": 3.2282137698603757,
      "grad_norm": 0.984375,
      "learning_rate": 6.503500912155229e-05,
      "loss": 0.3621,
      "step": 13410
    },
    {
      "epoch": 3.2294174289841115,
      "grad_norm": 0.95703125,
      "learning_rate": 6.499344293679604e-05,
      "loss": 0.3393,
      "step": 13415
    },
    {
      "epoch": 3.230621088107848,
      "grad_norm": 0.9453125,
      "learning_rate": 6.495193345421451e-05,
      "loss": 0.3412,
      "step": 13420
    },
    {
      "epoch": 3.231824747231584,
      "grad_norm": 1.125,
      "learning_rate": 6.491048071106106e-05,
      "loss": 0.3617,
      "step": 13425
    },
    {
      "epoch": 3.23302840635532,
      "grad_norm": 1.03125,
      "learning_rate": 6.48690847445381e-05,
      "loss": 0.3357,
      "step": 13430
    },
    {
      "epoch": 3.2342320654790564,
      "grad_norm": 1.0859375,
      "learning_rate": 6.482774559179719e-05,
      "loss": 0.3453,
      "step": 13435
    },
    {
      "epoch": 3.2354357246027927,
      "grad_norm": 1.046875,
      "learning_rate": 6.478646328993876e-05,
      "loss": 0.3393,
      "step": 13440
    },
    {
      "epoch": 3.2366393837265286,
      "grad_norm": 1.03125,
      "learning_rate": 6.474523787601238e-05,
      "loss": 0.3823,
      "step": 13445
    },
    {
      "epoch": 3.237843042850265,
      "grad_norm": 0.9140625,
      "learning_rate": 6.470406938701643e-05,
      "loss": 0.3263,
      "step": 13450
    },
    {
      "epoch": 3.239046701974001,
      "grad_norm": 1.015625,
      "learning_rate": 6.466295785989828e-05,
      "loss": 0.3222,
      "step": 13455
    },
    {
      "epoch": 3.240250361097737,
      "grad_norm": 0.98828125,
      "learning_rate": 6.462190333155411e-05,
      "loss": 0.3661,
      "step": 13460
    },
    {
      "epoch": 3.2414540202214734,
      "grad_norm": 0.95703125,
      "learning_rate": 6.458090583882904e-05,
      "loss": 0.344,
      "step": 13465
    },
    {
      "epoch": 3.2426576793452093,
      "grad_norm": 1.0625,
      "learning_rate": 6.453996541851691e-05,
      "loss": 0.3596,
      "step": 13470
    },
    {
      "epoch": 3.2438613384689456,
      "grad_norm": 0.9609375,
      "learning_rate": 6.44990821073604e-05,
      "loss": 0.3433,
      "step": 13475
    },
    {
      "epoch": 3.2450649975926815,
      "grad_norm": 0.984375,
      "learning_rate": 6.44582559420509e-05,
      "loss": 0.3786,
      "step": 13480
    },
    {
      "epoch": 3.246268656716418,
      "grad_norm": 1.015625,
      "learning_rate": 6.441748695922856e-05,
      "loss": 0.334,
      "step": 13485
    },
    {
      "epoch": 3.247472315840154,
      "grad_norm": 1.046875,
      "learning_rate": 6.437677519548211e-05,
      "loss": 0.3369,
      "step": 13490
    },
    {
      "epoch": 3.24867597496389,
      "grad_norm": 0.9375,
      "learning_rate": 6.433612068734909e-05,
      "loss": 0.3204,
      "step": 13495
    },
    {
      "epoch": 3.2498796340876264,
      "grad_norm": 3.4375,
      "learning_rate": 6.42955234713155e-05,
      "loss": 0.3363,
      "step": 13500
    },
    {
      "epoch": 3.2498796340876264,
      "eval_loss": 0.3440934121608734,
      "eval_runtime": 2.3774,
      "eval_samples_per_second": 84.125,
      "eval_steps_per_second": 84.125,
      "step": 13500
    },
    {
      "epoch": 3.2510832932113627,
      "grad_norm": 0.8984375,
      "learning_rate": 6.425498358381598e-05,
      "loss": 0.3341,
      "step": 13505
    },
    {
      "epoch": 3.2522869523350986,
      "grad_norm": 0.96875,
      "learning_rate": 6.421450106123377e-05,
      "loss": 0.3631,
      "step": 13510
    },
    {
      "epoch": 3.253490611458835,
      "grad_norm": 1.03125,
      "learning_rate": 6.417407593990055e-05,
      "loss": 0.3716,
      "step": 13515
    },
    {
      "epoch": 3.254694270582571,
      "grad_norm": 0.97265625,
      "learning_rate": 6.41337082560965e-05,
      "loss": 0.3568,
      "step": 13520
    },
    {
      "epoch": 3.255897929706307,
      "grad_norm": 0.96875,
      "learning_rate": 6.40933980460503e-05,
      "loss": 0.3578,
      "step": 13525
    },
    {
      "epoch": 3.2571015888300434,
      "grad_norm": 1.1015625,
      "learning_rate": 6.405314534593901e-05,
      "loss": 0.3654,
      "step": 13530
    },
    {
      "epoch": 3.2583052479537793,
      "grad_norm": 1.125,
      "learning_rate": 6.401295019188805e-05,
      "loss": 0.3528,
      "step": 13535
    },
    {
      "epoch": 3.2595089070775156,
      "grad_norm": 0.9765625,
      "learning_rate": 6.397281261997128e-05,
      "loss": 0.3582,
      "step": 13540
    },
    {
      "epoch": 3.260712566201252,
      "grad_norm": 1.03125,
      "learning_rate": 6.393273266621079e-05,
      "loss": 0.3392,
      "step": 13545
    },
    {
      "epoch": 3.261916225324988,
      "grad_norm": 1.0234375,
      "learning_rate": 6.389271036657702e-05,
      "loss": 0.3685,
      "step": 13550
    },
    {
      "epoch": 3.263119884448724,
      "grad_norm": 1.015625,
      "learning_rate": 6.385274575698864e-05,
      "loss": 0.3298,
      "step": 13555
    },
    {
      "epoch": 3.2643235435724605,
      "grad_norm": 1.03125,
      "learning_rate": 6.381283887331255e-05,
      "loss": 0.3407,
      "step": 13560
    },
    {
      "epoch": 3.2655272026961963,
      "grad_norm": 0.9609375,
      "learning_rate": 6.377298975136382e-05,
      "loss": 0.3612,
      "step": 13565
    },
    {
      "epoch": 3.2667308618199327,
      "grad_norm": 0.9921875,
      "learning_rate": 6.373319842690575e-05,
      "loss": 0.3512,
      "step": 13570
    },
    {
      "epoch": 3.267934520943669,
      "grad_norm": 0.890625,
      "learning_rate": 6.369346493564969e-05,
      "loss": 0.3321,
      "step": 13575
    },
    {
      "epoch": 3.269138180067405,
      "grad_norm": 1.03125,
      "learning_rate": 6.365378931325513e-05,
      "loss": 0.3386,
      "step": 13580
    },
    {
      "epoch": 3.270341839191141,
      "grad_norm": 0.9765625,
      "learning_rate": 6.361417159532961e-05,
      "loss": 0.3533,
      "step": 13585
    },
    {
      "epoch": 3.271545498314877,
      "grad_norm": 0.95703125,
      "learning_rate": 6.357461181742875e-05,
      "loss": 0.343,
      "step": 13590
    },
    {
      "epoch": 3.2727491574386134,
      "grad_norm": 1.015625,
      "learning_rate": 6.353511001505606e-05,
      "loss": 0.3487,
      "step": 13595
    },
    {
      "epoch": 3.2739528165623497,
      "grad_norm": 1.015625,
      "learning_rate": 6.349566622366313e-05,
      "loss": 0.3406,
      "step": 13600
    },
    {
      "epoch": 3.2751564756860856,
      "grad_norm": 0.9140625,
      "learning_rate": 6.345628047864944e-05,
      "loss": 0.3566,
      "step": 13605
    },
    {
      "epoch": 3.276360134809822,
      "grad_norm": 0.984375,
      "learning_rate": 6.341695281536238e-05,
      "loss": 0.3568,
      "step": 13610
    },
    {
      "epoch": 3.277563793933558,
      "grad_norm": 1.0859375,
      "learning_rate": 6.337768326909717e-05,
      "loss": 0.3635,
      "step": 13615
    },
    {
      "epoch": 3.278767453057294,
      "grad_norm": 1.0625,
      "learning_rate": 6.333847187509699e-05,
      "loss": 0.3674,
      "step": 13620
    },
    {
      "epoch": 3.2799711121810304,
      "grad_norm": 0.97265625,
      "learning_rate": 6.32993186685527e-05,
      "loss": 0.338,
      "step": 13625
    },
    {
      "epoch": 3.2811747713047663,
      "grad_norm": 1.0234375,
      "learning_rate": 6.326022368460304e-05,
      "loss": 0.37,
      "step": 13630
    },
    {
      "epoch": 3.2823784304285026,
      "grad_norm": 1.0546875,
      "learning_rate": 6.32211869583344e-05,
      "loss": 0.3665,
      "step": 13635
    },
    {
      "epoch": 3.283582089552239,
      "grad_norm": 1.0859375,
      "learning_rate": 6.318220852478097e-05,
      "loss": 0.3533,
      "step": 13640
    },
    {
      "epoch": 3.284785748675975,
      "grad_norm": 1.0234375,
      "learning_rate": 6.314328841892456e-05,
      "loss": 0.3204,
      "step": 13645
    },
    {
      "epoch": 3.285989407799711,
      "grad_norm": 1.0078125,
      "learning_rate": 6.31044266756947e-05,
      "loss": 0.3261,
      "step": 13650
    },
    {
      "epoch": 3.2871930669234475,
      "grad_norm": 0.98046875,
      "learning_rate": 6.30656233299685e-05,
      "loss": 0.3199,
      "step": 13655
    },
    {
      "epoch": 3.2883967260471834,
      "grad_norm": 1.0625,
      "learning_rate": 6.302687841657063e-05,
      "loss": 0.3339,
      "step": 13660
    },
    {
      "epoch": 3.2896003851709197,
      "grad_norm": 1.0703125,
      "learning_rate": 6.298819197027342e-05,
      "loss": 0.3459,
      "step": 13665
    },
    {
      "epoch": 3.2908040442946556,
      "grad_norm": 1.0,
      "learning_rate": 6.294956402579663e-05,
      "loss": 0.3342,
      "step": 13670
    },
    {
      "epoch": 3.292007703418392,
      "grad_norm": 1.0625,
      "learning_rate": 6.291099461780751e-05,
      "loss": 0.3461,
      "step": 13675
    },
    {
      "epoch": 3.293211362542128,
      "grad_norm": 1.0703125,
      "learning_rate": 6.287248378092086e-05,
      "loss": 0.3533,
      "step": 13680
    },
    {
      "epoch": 3.294415021665864,
      "grad_norm": 0.9375,
      "learning_rate": 6.283403154969888e-05,
      "loss": 0.336,
      "step": 13685
    },
    {
      "epoch": 3.2956186807896004,
      "grad_norm": 1.125,
      "learning_rate": 6.279563795865109e-05,
      "loss": 0.3498,
      "step": 13690
    },
    {
      "epoch": 3.2968223399133367,
      "grad_norm": 1.078125,
      "learning_rate": 6.275730304223454e-05,
      "loss": 0.332,
      "step": 13695
    },
    {
      "epoch": 3.2980259990370726,
      "grad_norm": 1.0625,
      "learning_rate": 6.271902683485349e-05,
      "loss": 0.3471,
      "step": 13700
    },
    {
      "epoch": 3.299229658160809,
      "grad_norm": 0.97265625,
      "learning_rate": 6.268080937085956e-05,
      "loss": 0.3766,
      "step": 13705
    },
    {
      "epoch": 3.3004333172845453,
      "grad_norm": 0.9140625,
      "learning_rate": 6.264265068455169e-05,
      "loss": 0.3362,
      "step": 13710
    },
    {
      "epoch": 3.301636976408281,
      "grad_norm": 0.99609375,
      "learning_rate": 6.260455081017597e-05,
      "loss": 0.3373,
      "step": 13715
    },
    {
      "epoch": 3.3028406355320175,
      "grad_norm": 0.953125,
      "learning_rate": 6.256650978192575e-05,
      "loss": 0.3598,
      "step": 13720
    },
    {
      "epoch": 3.3040442946557533,
      "grad_norm": 0.98828125,
      "learning_rate": 6.252852763394165e-05,
      "loss": 0.3489,
      "step": 13725
    },
    {
      "epoch": 3.3052479537794897,
      "grad_norm": 1.0,
      "learning_rate": 6.249060440031133e-05,
      "loss": 0.3449,
      "step": 13730
    },
    {
      "epoch": 3.306451612903226,
      "grad_norm": 0.9765625,
      "learning_rate": 6.245274011506963e-05,
      "loss": 0.3432,
      "step": 13735
    },
    {
      "epoch": 3.307655272026962,
      "grad_norm": 0.984375,
      "learning_rate": 6.241493481219849e-05,
      "loss": 0.3522,
      "step": 13740
    },
    {
      "epoch": 3.308858931150698,
      "grad_norm": 1.0390625,
      "learning_rate": 6.237718852562692e-05,
      "loss": 0.3388,
      "step": 13745
    },
    {
      "epoch": 3.310062590274434,
      "grad_norm": 0.9921875,
      "learning_rate": 6.233950128923092e-05,
      "loss": 0.3411,
      "step": 13750
    },
    {
      "epoch": 3.3112662493981704,
      "grad_norm": 0.9453125,
      "learning_rate": 6.230187313683356e-05,
      "loss": 0.3284,
      "step": 13755
    },
    {
      "epoch": 3.3124699085219067,
      "grad_norm": 0.98828125,
      "learning_rate": 6.226430410220482e-05,
      "loss": 0.3417,
      "step": 13760
    },
    {
      "epoch": 3.3136735676456426,
      "grad_norm": 0.9765625,
      "learning_rate": 6.222679421906162e-05,
      "loss": 0.3599,
      "step": 13765
    },
    {
      "epoch": 3.314877226769379,
      "grad_norm": 1.0625,
      "learning_rate": 6.218934352106791e-05,
      "loss": 0.3619,
      "step": 13770
    },
    {
      "epoch": 3.3160808858931152,
      "grad_norm": 1.0078125,
      "learning_rate": 6.21519520418344e-05,
      "loss": 0.3273,
      "step": 13775
    },
    {
      "epoch": 3.317284545016851,
      "grad_norm": 0.97265625,
      "learning_rate": 6.211461981491866e-05,
      "loss": 0.3437,
      "step": 13780
    },
    {
      "epoch": 3.3184882041405874,
      "grad_norm": 1.0703125,
      "learning_rate": 6.207734687382516e-05,
      "loss": 0.3453,
      "step": 13785
    },
    {
      "epoch": 3.3196918632643238,
      "grad_norm": 0.98828125,
      "learning_rate": 6.204013325200512e-05,
      "loss": 0.3571,
      "step": 13790
    },
    {
      "epoch": 3.3208955223880596,
      "grad_norm": 1.0078125,
      "learning_rate": 6.200297898285649e-05,
      "loss": 0.3655,
      "step": 13795
    },
    {
      "epoch": 3.322099181511796,
      "grad_norm": 0.984375,
      "learning_rate": 6.196588409972399e-05,
      "loss": 0.3471,
      "step": 13800
    },
    {
      "epoch": 3.323302840635532,
      "grad_norm": 1.015625,
      "learning_rate": 6.192884863589907e-05,
      "loss": 0.344,
      "step": 13805
    },
    {
      "epoch": 3.324506499759268,
      "grad_norm": 0.96875,
      "learning_rate": 6.189187262461979e-05,
      "loss": 0.3415,
      "step": 13810
    },
    {
      "epoch": 3.3257101588830045,
      "grad_norm": 1.0078125,
      "learning_rate": 6.185495609907088e-05,
      "loss": 0.3612,
      "step": 13815
    },
    {
      "epoch": 3.3269138180067404,
      "grad_norm": 0.9921875,
      "learning_rate": 6.181809909238371e-05,
      "loss": 0.3635,
      "step": 13820
    },
    {
      "epoch": 3.3281174771304767,
      "grad_norm": 1.0078125,
      "learning_rate": 6.178130163763621e-05,
      "loss": 0.3421,
      "step": 13825
    },
    {
      "epoch": 3.329321136254213,
      "grad_norm": 1.1015625,
      "learning_rate": 6.174456376785286e-05,
      "loss": 0.3612,
      "step": 13830
    },
    {
      "epoch": 3.330524795377949,
      "grad_norm": 1.0078125,
      "learning_rate": 6.170788551600468e-05,
      "loss": 0.3492,
      "step": 13835
    },
    {
      "epoch": 3.331728454501685,
      "grad_norm": 0.98828125,
      "learning_rate": 6.167126691500914e-05,
      "loss": 0.3202,
      "step": 13840
    },
    {
      "epoch": 3.3329321136254215,
      "grad_norm": 0.98828125,
      "learning_rate": 6.163470799773023e-05,
      "loss": 0.3267,
      "step": 13845
    },
    {
      "epoch": 3.3341357727491574,
      "grad_norm": 0.98828125,
      "learning_rate": 6.159820879697838e-05,
      "loss": 0.3549,
      "step": 13850
    },
    {
      "epoch": 3.3353394318728937,
      "grad_norm": 1.09375,
      "learning_rate": 6.156176934551037e-05,
      "loss": 0.3464,
      "step": 13855
    },
    {
      "epoch": 3.3365430909966296,
      "grad_norm": 0.97265625,
      "learning_rate": 6.152538967602939e-05,
      "loss": 0.3401,
      "step": 13860
    },
    {
      "epoch": 3.337746750120366,
      "grad_norm": 1.015625,
      "learning_rate": 6.148906982118501e-05,
      "loss": 0.3527,
      "step": 13865
    },
    {
      "epoch": 3.3389504092441022,
      "grad_norm": 0.99609375,
      "learning_rate": 6.145280981357309e-05,
      "loss": 0.3363,
      "step": 13870
    },
    {
      "epoch": 3.340154068367838,
      "grad_norm": 0.8828125,
      "learning_rate": 6.141660968573572e-05,
      "loss": 0.3187,
      "step": 13875
    },
    {
      "epoch": 3.3413577274915744,
      "grad_norm": 1.03125,
      "learning_rate": 6.138046947016134e-05,
      "loss": 0.3502,
      "step": 13880
    },
    {
      "epoch": 3.3425613866153103,
      "grad_norm": 0.9765625,
      "learning_rate": 6.134438919928458e-05,
      "loss": 0.3357,
      "step": 13885
    },
    {
      "epoch": 3.3437650457390466,
      "grad_norm": 0.9765625,
      "learning_rate": 6.130836890548628e-05,
      "loss": 0.3493,
      "step": 13890
    },
    {
      "epoch": 3.344968704862783,
      "grad_norm": 0.92578125,
      "learning_rate": 6.127240862109344e-05,
      "loss": 0.3208,
      "step": 13895
    },
    {
      "epoch": 3.346172363986519,
      "grad_norm": 1.0234375,
      "learning_rate": 6.123650837837924e-05,
      "loss": 0.3282,
      "step": 13900
    },
    {
      "epoch": 3.347376023110255,
      "grad_norm": 1.0078125,
      "learning_rate": 6.120066820956291e-05,
      "loss": 0.3359,
      "step": 13905
    },
    {
      "epoch": 3.3485796822339915,
      "grad_norm": 1.0,
      "learning_rate": 6.116488814680984e-05,
      "loss": 0.3584,
      "step": 13910
    },
    {
      "epoch": 3.3497833413577274,
      "grad_norm": 1.0859375,
      "learning_rate": 6.112916822223142e-05,
      "loss": 0.3568,
      "step": 13915
    },
    {
      "epoch": 3.3509870004814637,
      "grad_norm": 0.875,
      "learning_rate": 6.109350846788507e-05,
      "loss": 0.3071,
      "step": 13920
    },
    {
      "epoch": 3.3521906596052,
      "grad_norm": 1.140625,
      "learning_rate": 6.105790891577428e-05,
      "loss": 0.358,
      "step": 13925
    },
    {
      "epoch": 3.353394318728936,
      "grad_norm": 0.99609375,
      "learning_rate": 6.10223695978484e-05,
      "loss": 0.3639,
      "step": 13930
    },
    {
      "epoch": 3.354597977852672,
      "grad_norm": 1.0390625,
      "learning_rate": 6.098689054600282e-05,
      "loss": 0.357,
      "step": 13935
    },
    {
      "epoch": 3.355801636976408,
      "grad_norm": 1.015625,
      "learning_rate": 6.0951471792078786e-05,
      "loss": 0.3392,
      "step": 13940
    },
    {
      "epoch": 3.3570052961001444,
      "grad_norm": 0.953125,
      "learning_rate": 6.0916113367863455e-05,
      "loss": 0.3608,
      "step": 13945
    },
    {
      "epoch": 3.3582089552238807,
      "grad_norm": 1.0546875,
      "learning_rate": 6.0880815305089825e-05,
      "loss": 0.3225,
      "step": 13950
    },
    {
      "epoch": 3.3594126143476166,
      "grad_norm": 0.88671875,
      "learning_rate": 6.084557763543672e-05,
      "loss": 0.3569,
      "step": 13955
    },
    {
      "epoch": 3.360616273471353,
      "grad_norm": 0.9765625,
      "learning_rate": 6.0810400390528806e-05,
      "loss": 0.3499,
      "step": 13960
    },
    {
      "epoch": 3.361819932595089,
      "grad_norm": 0.859375,
      "learning_rate": 6.077528360193644e-05,
      "loss": 0.3558,
      "step": 13965
    },
    {
      "epoch": 3.363023591718825,
      "grad_norm": 0.9921875,
      "learning_rate": 6.074022730117577e-05,
      "loss": 0.3178,
      "step": 13970
    },
    {
      "epoch": 3.3642272508425615,
      "grad_norm": 0.96484375,
      "learning_rate": 6.070523151970868e-05,
      "loss": 0.3462,
      "step": 13975
    },
    {
      "epoch": 3.365430909966298,
      "grad_norm": 0.98828125,
      "learning_rate": 6.067029628894271e-05,
      "loss": 0.3432,
      "step": 13980
    },
    {
      "epoch": 3.3666345690900337,
      "grad_norm": 0.9609375,
      "learning_rate": 6.063542164023102e-05,
      "loss": 0.3437,
      "step": 13985
    },
    {
      "epoch": 3.36783822821377,
      "grad_norm": 1.125,
      "learning_rate": 6.060060760487253e-05,
      "loss": 0.369,
      "step": 13990
    },
    {
      "epoch": 3.369041887337506,
      "grad_norm": 0.96875,
      "learning_rate": 6.0565854214111596e-05,
      "loss": 0.3419,
      "step": 13995
    },
    {
      "epoch": 3.370245546461242,
      "grad_norm": 1.0390625,
      "learning_rate": 6.053116149913823e-05,
      "loss": 0.3235,
      "step": 14000
    },
    {
      "epoch": 3.370245546461242,
      "eval_loss": 0.34172308444976807,
      "eval_runtime": 2.3643,
      "eval_samples_per_second": 84.593,
      "eval_steps_per_second": 84.593,
      "step": 14000
    },
    {
      "epoch": 3.3714492055849785,
      "grad_norm": 1.09375,
      "learning_rate": 6.049652949108801e-05,
      "loss": 0.3573,
      "step": 14005
    },
    {
      "epoch": 3.3726528647087144,
      "grad_norm": 1.1328125,
      "learning_rate": 6.046195822104201e-05,
      "loss": 0.3686,
      "step": 14010
    },
    {
      "epoch": 3.3738565238324507,
      "grad_norm": 1.1171875,
      "learning_rate": 6.042744772002675e-05,
      "loss": 0.3464,
      "step": 14015
    },
    {
      "epoch": 3.3750601829561866,
      "grad_norm": 0.99609375,
      "learning_rate": 6.03929980190143e-05,
      "loss": 0.3212,
      "step": 14020
    },
    {
      "epoch": 3.376263842079923,
      "grad_norm": 1.0625,
      "learning_rate": 6.0358609148922093e-05,
      "loss": 0.3435,
      "step": 14025
    },
    {
      "epoch": 3.3774675012036592,
      "grad_norm": 1.0234375,
      "learning_rate": 6.032428114061299e-05,
      "loss": 0.3659,
      "step": 14030
    },
    {
      "epoch": 3.378671160327395,
      "grad_norm": 0.91015625,
      "learning_rate": 6.029001402489521e-05,
      "loss": 0.3299,
      "step": 14035
    },
    {
      "epoch": 3.3798748194511314,
      "grad_norm": 1.0390625,
      "learning_rate": 6.02558078325224e-05,
      "loss": 0.3321,
      "step": 14040
    },
    {
      "epoch": 3.3810784785748678,
      "grad_norm": 1.078125,
      "learning_rate": 6.02216625941934e-05,
      "loss": 0.3348,
      "step": 14045
    },
    {
      "epoch": 3.3822821376986036,
      "grad_norm": 1.1171875,
      "learning_rate": 6.018757834055248e-05,
      "loss": 0.3504,
      "step": 14050
    },
    {
      "epoch": 3.38348579682234,
      "grad_norm": 0.97265625,
      "learning_rate": 6.015355510218911e-05,
      "loss": 0.3268,
      "step": 14055
    },
    {
      "epoch": 3.3846894559460763,
      "grad_norm": 1.03125,
      "learning_rate": 6.0119592909637983e-05,
      "loss": 0.3582,
      "step": 14060
    },
    {
      "epoch": 3.385893115069812,
      "grad_norm": 1.0546875,
      "learning_rate": 6.0085691793379036e-05,
      "loss": 0.36,
      "step": 14065
    },
    {
      "epoch": 3.3870967741935485,
      "grad_norm": 0.99609375,
      "learning_rate": 6.005185178383741e-05,
      "loss": 0.3344,
      "step": 14070
    },
    {
      "epoch": 3.3883004333172844,
      "grad_norm": 1.0546875,
      "learning_rate": 6.0018072911383366e-05,
      "loss": 0.3484,
      "step": 14075
    },
    {
      "epoch": 3.3895040924410207,
      "grad_norm": 1.09375,
      "learning_rate": 5.9984355206332325e-05,
      "loss": 0.3359,
      "step": 14080
    },
    {
      "epoch": 3.390707751564757,
      "grad_norm": 1.015625,
      "learning_rate": 5.99506986989448e-05,
      "loss": 0.3445,
      "step": 14085
    },
    {
      "epoch": 3.391911410688493,
      "grad_norm": 1.1015625,
      "learning_rate": 5.991710341942635e-05,
      "loss": 0.3547,
      "step": 14090
    },
    {
      "epoch": 3.393115069812229,
      "grad_norm": 0.9765625,
      "learning_rate": 5.988356939792764e-05,
      "loss": 0.3355,
      "step": 14095
    },
    {
      "epoch": 3.394318728935965,
      "grad_norm": 0.95703125,
      "learning_rate": 5.9850096664544355e-05,
      "loss": 0.324,
      "step": 14100
    },
    {
      "epoch": 3.3955223880597014,
      "grad_norm": 0.9453125,
      "learning_rate": 5.981668524931712e-05,
      "loss": 0.348,
      "step": 14105
    },
    {
      "epoch": 3.3967260471834377,
      "grad_norm": 1.0390625,
      "learning_rate": 5.978333518223156e-05,
      "loss": 0.3541,
      "step": 14110
    },
    {
      "epoch": 3.397929706307174,
      "grad_norm": 0.97265625,
      "learning_rate": 5.9750046493218294e-05,
      "loss": 0.3322,
      "step": 14115
    },
    {
      "epoch": 3.39913336543091,
      "grad_norm": 0.953125,
      "learning_rate": 5.9716819212152753e-05,
      "loss": 0.3251,
      "step": 14120
    },
    {
      "epoch": 3.4003370245546463,
      "grad_norm": 1.0546875,
      "learning_rate": 5.968365336885533e-05,
      "loss": 0.3205,
      "step": 14125
    },
    {
      "epoch": 3.401540683678382,
      "grad_norm": 1.171875,
      "learning_rate": 5.965054899309127e-05,
      "loss": 0.3562,
      "step": 14130
    },
    {
      "epoch": 3.4027443428021185,
      "grad_norm": 1.03125,
      "learning_rate": 5.9617506114570645e-05,
      "loss": 0.336,
      "step": 14135
    },
    {
      "epoch": 3.403948001925855,
      "grad_norm": 1.03125,
      "learning_rate": 5.95845247629483e-05,
      "loss": 0.3466,
      "step": 14140
    },
    {
      "epoch": 3.4051516610495907,
      "grad_norm": 0.99609375,
      "learning_rate": 5.9551604967823944e-05,
      "loss": 0.3474,
      "step": 14145
    },
    {
      "epoch": 3.406355320173327,
      "grad_norm": 1.015625,
      "learning_rate": 5.951874675874197e-05,
      "loss": 0.3435,
      "step": 14150
    },
    {
      "epoch": 3.407558979297063,
      "grad_norm": 1.0234375,
      "learning_rate": 5.948595016519153e-05,
      "loss": 0.3583,
      "step": 14155
    },
    {
      "epoch": 3.408762638420799,
      "grad_norm": 1.0,
      "learning_rate": 5.945321521660645e-05,
      "loss": 0.3308,
      "step": 14160
    },
    {
      "epoch": 3.4099662975445355,
      "grad_norm": 1.046875,
      "learning_rate": 5.942054194236528e-05,
      "loss": 0.3807,
      "step": 14165
    },
    {
      "epoch": 3.4111699566682714,
      "grad_norm": 0.99609375,
      "learning_rate": 5.9387930371791156e-05,
      "loss": 0.3566,
      "step": 14170
    },
    {
      "epoch": 3.4123736157920077,
      "grad_norm": 0.9140625,
      "learning_rate": 5.9355380534151895e-05,
      "loss": 0.3562,
      "step": 14175
    },
    {
      "epoch": 3.413577274915744,
      "grad_norm": 0.97265625,
      "learning_rate": 5.932289245865991e-05,
      "loss": 0.3342,
      "step": 14180
    },
    {
      "epoch": 3.41478093403948,
      "grad_norm": 1.0234375,
      "learning_rate": 5.9290466174472115e-05,
      "loss": 0.3464,
      "step": 14185
    },
    {
      "epoch": 3.4159845931632162,
      "grad_norm": 0.96875,
      "learning_rate": 5.925810171069006e-05,
      "loss": 0.3208,
      "step": 14190
    },
    {
      "epoch": 3.4171882522869526,
      "grad_norm": 0.94140625,
      "learning_rate": 5.9225799096359764e-05,
      "loss": 0.3502,
      "step": 14195
    },
    {
      "epoch": 3.4183919114106884,
      "grad_norm": 1.0859375,
      "learning_rate": 5.919355836047169e-05,
      "loss": 0.3542,
      "step": 14200
    },
    {
      "epoch": 3.4195955705344248,
      "grad_norm": 1.0546875,
      "learning_rate": 5.916137953196089e-05,
      "loss": 0.3337,
      "step": 14205
    },
    {
      "epoch": 3.4207992296581606,
      "grad_norm": 0.95703125,
      "learning_rate": 5.912926263970675e-05,
      "loss": 0.3264,
      "step": 14210
    },
    {
      "epoch": 3.422002888781897,
      "grad_norm": 1.140625,
      "learning_rate": 5.9097207712533114e-05,
      "loss": 0.3548,
      "step": 14215
    },
    {
      "epoch": 3.4232065479056333,
      "grad_norm": 1.0234375,
      "learning_rate": 5.9065214779208203e-05,
      "loss": 0.3434,
      "step": 14220
    },
    {
      "epoch": 3.424410207029369,
      "grad_norm": 1.0234375,
      "learning_rate": 5.9033283868444635e-05,
      "loss": 0.3539,
      "step": 14225
    },
    {
      "epoch": 3.4256138661531055,
      "grad_norm": 0.9921875,
      "learning_rate": 5.9001415008899296e-05,
      "loss": 0.3385,
      "step": 14230
    },
    {
      "epoch": 3.4268175252768414,
      "grad_norm": 1.0078125,
      "learning_rate": 5.8969608229173445e-05,
      "loss": 0.3483,
      "step": 14235
    },
    {
      "epoch": 3.4280211844005777,
      "grad_norm": 1.015625,
      "learning_rate": 5.893786355781259e-05,
      "loss": 0.3409,
      "step": 14240
    },
    {
      "epoch": 3.429224843524314,
      "grad_norm": 1.0078125,
      "learning_rate": 5.890618102330653e-05,
      "loss": 0.3547,
      "step": 14245
    },
    {
      "epoch": 3.43042850264805,
      "grad_norm": 1.1484375,
      "learning_rate": 5.887456065408924e-05,
      "loss": 0.3513,
      "step": 14250
    },
    {
      "epoch": 3.431632161771786,
      "grad_norm": 0.98828125,
      "learning_rate": 5.8843002478539e-05,
      "loss": 0.3604,
      "step": 14255
    },
    {
      "epoch": 3.4328358208955225,
      "grad_norm": 1.1640625,
      "learning_rate": 5.88115065249782e-05,
      "loss": 0.3776,
      "step": 14260
    },
    {
      "epoch": 3.4340394800192584,
      "grad_norm": 1.0859375,
      "learning_rate": 5.8780072821673364e-05,
      "loss": 0.3429,
      "step": 14265
    },
    {
      "epoch": 3.4352431391429947,
      "grad_norm": 0.92578125,
      "learning_rate": 5.874870139683524e-05,
      "loss": 0.3288,
      "step": 14270
    },
    {
      "epoch": 3.436446798266731,
      "grad_norm": 0.98828125,
      "learning_rate": 5.871739227861864e-05,
      "loss": 0.3335,
      "step": 14275
    },
    {
      "epoch": 3.437650457390467,
      "grad_norm": 1.015625,
      "learning_rate": 5.8686145495122406e-05,
      "loss": 0.3797,
      "step": 14280
    },
    {
      "epoch": 3.4388541165142033,
      "grad_norm": 0.9453125,
      "learning_rate": 5.86549610743895e-05,
      "loss": 0.3687,
      "step": 14285
    },
    {
      "epoch": 3.440057775637939,
      "grad_norm": 1.015625,
      "learning_rate": 5.8623839044406915e-05,
      "loss": 0.3298,
      "step": 14290
    },
    {
      "epoch": 3.4412614347616755,
      "grad_norm": 1.1328125,
      "learning_rate": 5.8592779433105607e-05,
      "loss": 0.3439,
      "step": 14295
    },
    {
      "epoch": 3.4424650938854118,
      "grad_norm": 1.0234375,
      "learning_rate": 5.856178226836056e-05,
      "loss": 0.3586,
      "step": 14300
    },
    {
      "epoch": 3.4436687530091477,
      "grad_norm": 0.99609375,
      "learning_rate": 5.8530847577990686e-05,
      "loss": 0.3458,
      "step": 14305
    },
    {
      "epoch": 3.444872412132884,
      "grad_norm": 0.94140625,
      "learning_rate": 5.8499975389758806e-05,
      "loss": 0.3428,
      "step": 14310
    },
    {
      "epoch": 3.4460760712566203,
      "grad_norm": 1.09375,
      "learning_rate": 5.846916573137175e-05,
      "loss": 0.3766,
      "step": 14315
    },
    {
      "epoch": 3.447279730380356,
      "grad_norm": 0.9453125,
      "learning_rate": 5.843841863048009e-05,
      "loss": 0.3195,
      "step": 14320
    },
    {
      "epoch": 3.4484833895040925,
      "grad_norm": 0.96875,
      "learning_rate": 5.8407734114678327e-05,
      "loss": 0.3432,
      "step": 14325
    },
    {
      "epoch": 3.449687048627829,
      "grad_norm": 1.046875,
      "learning_rate": 5.837711221150482e-05,
      "loss": 0.354,
      "step": 14330
    },
    {
      "epoch": 3.4508907077515647,
      "grad_norm": 0.95703125,
      "learning_rate": 5.8346552948441693e-05,
      "loss": 0.3516,
      "step": 14335
    },
    {
      "epoch": 3.452094366875301,
      "grad_norm": 1.046875,
      "learning_rate": 5.831605635291483e-05,
      "loss": 0.3556,
      "step": 14340
    },
    {
      "epoch": 3.453298025999037,
      "grad_norm": 1.0,
      "learning_rate": 5.828562245229396e-05,
      "loss": 0.3436,
      "step": 14345
    },
    {
      "epoch": 3.4545016851227732,
      "grad_norm": 0.97265625,
      "learning_rate": 5.8255251273892464e-05,
      "loss": 0.3349,
      "step": 14350
    },
    {
      "epoch": 3.4557053442465095,
      "grad_norm": 0.99609375,
      "learning_rate": 5.822494284496746e-05,
      "loss": 0.3444,
      "step": 14355
    },
    {
      "epoch": 3.4569090033702454,
      "grad_norm": 1.0078125,
      "learning_rate": 5.8194697192719754e-05,
      "loss": 0.3472,
      "step": 14360
    },
    {
      "epoch": 3.4581126624939817,
      "grad_norm": 1.0546875,
      "learning_rate": 5.81645143442938e-05,
      "loss": 0.3391,
      "step": 14365
    },
    {
      "epoch": 3.4593163216177176,
      "grad_norm": 1.1015625,
      "learning_rate": 5.813439432677768e-05,
      "loss": 0.3546,
      "step": 14370
    },
    {
      "epoch": 3.460519980741454,
      "grad_norm": 1.078125,
      "learning_rate": 5.810433716720315e-05,
      "loss": 0.3275,
      "step": 14375
    },
    {
      "epoch": 3.4617236398651903,
      "grad_norm": 1.0390625,
      "learning_rate": 5.807434289254547e-05,
      "loss": 0.3259,
      "step": 14380
    },
    {
      "epoch": 3.462927298988926,
      "grad_norm": 1.0234375,
      "learning_rate": 5.804441152972352e-05,
      "loss": 0.3469,
      "step": 14385
    },
    {
      "epoch": 3.4641309581126625,
      "grad_norm": 0.98046875,
      "learning_rate": 5.801454310559967e-05,
      "loss": 0.3466,
      "step": 14390
    },
    {
      "epoch": 3.465334617236399,
      "grad_norm": 0.94140625,
      "learning_rate": 5.798473764697987e-05,
      "loss": 0.3149,
      "step": 14395
    },
    {
      "epoch": 3.4665382763601347,
      "grad_norm": 0.9921875,
      "learning_rate": 5.7954995180613475e-05,
      "loss": 0.3607,
      "step": 14400
    },
    {
      "epoch": 3.467741935483871,
      "grad_norm": 0.9140625,
      "learning_rate": 5.7925315733193386e-05,
      "loss": 0.3495,
      "step": 14405
    },
    {
      "epoch": 3.4689455946076073,
      "grad_norm": 1.03125,
      "learning_rate": 5.789569933135593e-05,
      "loss": 0.3367,
      "step": 14410
    },
    {
      "epoch": 3.470149253731343,
      "grad_norm": 0.9765625,
      "learning_rate": 5.786614600168079e-05,
      "loss": 0.3306,
      "step": 14415
    },
    {
      "epoch": 3.4713529128550795,
      "grad_norm": 1.046875,
      "learning_rate": 5.7836655770691126e-05,
      "loss": 0.3527,
      "step": 14420
    },
    {
      "epoch": 3.4725565719788154,
      "grad_norm": 0.95703125,
      "learning_rate": 5.780722866485344e-05,
      "loss": 0.3611,
      "step": 14425
    },
    {
      "epoch": 3.4737602311025517,
      "grad_norm": 1.0625,
      "learning_rate": 5.7777864710577555e-05,
      "loss": 0.3543,
      "step": 14430
    },
    {
      "epoch": 3.474963890226288,
      "grad_norm": 0.87890625,
      "learning_rate": 5.7748563934216656e-05,
      "loss": 0.3584,
      "step": 14435
    },
    {
      "epoch": 3.476167549350024,
      "grad_norm": 1.0625,
      "learning_rate": 5.7719326362067194e-05,
      "loss": 0.3602,
      "step": 14440
    },
    {
      "epoch": 3.4773712084737602,
      "grad_norm": 1.0,
      "learning_rate": 5.7690152020368934e-05,
      "loss": 0.3319,
      "step": 14445
    },
    {
      "epoch": 3.4785748675974966,
      "grad_norm": 0.9375,
      "learning_rate": 5.7661040935304824e-05,
      "loss": 0.3398,
      "step": 14450
    },
    {
      "epoch": 3.4797785267212324,
      "grad_norm": 1.0234375,
      "learning_rate": 5.763199313300115e-05,
      "loss": 0.3396,
      "step": 14455
    },
    {
      "epoch": 3.4809821858449688,
      "grad_norm": 1.03125,
      "learning_rate": 5.760300863952732e-05,
      "loss": 0.366,
      "step": 14460
    },
    {
      "epoch": 3.482185844968705,
      "grad_norm": 0.96484375,
      "learning_rate": 5.757408748089592e-05,
      "loss": 0.3411,
      "step": 14465
    },
    {
      "epoch": 3.483389504092441,
      "grad_norm": 1.109375,
      "learning_rate": 5.754522968306278e-05,
      "loss": 0.3489,
      "step": 14470
    },
    {
      "epoch": 3.4845931632161773,
      "grad_norm": 1.046875,
      "learning_rate": 5.7516435271926795e-05,
      "loss": 0.326,
      "step": 14475
    },
    {
      "epoch": 3.485796822339913,
      "grad_norm": 0.9375,
      "learning_rate": 5.748770427332993e-05,
      "loss": 0.334,
      "step": 14480
    },
    {
      "epoch": 3.4870004814636495,
      "grad_norm": 0.98828125,
      "learning_rate": 5.745903671305735e-05,
      "loss": 0.3583,
      "step": 14485
    },
    {
      "epoch": 3.488204140587386,
      "grad_norm": 1.015625,
      "learning_rate": 5.7430432616837215e-05,
      "loss": 0.3238,
      "step": 14490
    },
    {
      "epoch": 3.4894077997111217,
      "grad_norm": 0.9296875,
      "learning_rate": 5.740189201034075e-05,
      "loss": 0.3388,
      "step": 14495
    },
    {
      "epoch": 3.490611458834858,
      "grad_norm": 0.94140625,
      "learning_rate": 5.73734149191822e-05,
      "loss": 0.3436,
      "step": 14500
    },
    {
      "epoch": 3.490611458834858,
      "eval_loss": 0.3381740152835846,
      "eval_runtime": 2.367,
      "eval_samples_per_second": 84.495,
      "eval_steps_per_second": 84.495,
      "step": 14500
    },
    {
      "epoch": 3.491815117958594,
      "grad_norm": 1.09375,
      "learning_rate": 5.734500136891878e-05,
      "loss": 0.365,
      "step": 14505
    },
    {
      "epoch": 3.49301877708233,
      "grad_norm": 1.0859375,
      "learning_rate": 5.7316651385050734e-05,
      "loss": 0.3437,
      "step": 14510
    },
    {
      "epoch": 3.4942224362060665,
      "grad_norm": 1.0234375,
      "learning_rate": 5.728836499302121e-05,
      "loss": 0.3697,
      "step": 14515
    },
    {
      "epoch": 3.4954260953298024,
      "grad_norm": 1.0625,
      "learning_rate": 5.72601422182163e-05,
      "loss": 0.3529,
      "step": 14520
    },
    {
      "epoch": 3.4966297544535387,
      "grad_norm": 1.1484375,
      "learning_rate": 5.723198308596498e-05,
      "loss": 0.3764,
      "step": 14525
    },
    {
      "epoch": 3.497833413577275,
      "grad_norm": 1.0390625,
      "learning_rate": 5.720388762153916e-05,
      "loss": 0.3298,
      "step": 14530
    },
    {
      "epoch": 3.499037072701011,
      "grad_norm": 1.046875,
      "learning_rate": 5.7175855850153565e-05,
      "loss": 0.3494,
      "step": 14535
    },
    {
      "epoch": 3.5002407318247473,
      "grad_norm": 0.98046875,
      "learning_rate": 5.7147887796965785e-05,
      "loss": 0.3273,
      "step": 14540
    },
    {
      "epoch": 3.5014443909484836,
      "grad_norm": 1.09375,
      "learning_rate": 5.7119983487076195e-05,
      "loss": 0.3568,
      "step": 14545
    },
    {
      "epoch": 3.5026480500722195,
      "grad_norm": 1.03125,
      "learning_rate": 5.7092142945528e-05,
      "loss": 0.342,
      "step": 14550
    },
    {
      "epoch": 3.503851709195956,
      "grad_norm": 1.0390625,
      "learning_rate": 5.706436619730715e-05,
      "loss": 0.3436,
      "step": 14555
    },
    {
      "epoch": 3.5050553683196917,
      "grad_norm": 1.046875,
      "learning_rate": 5.7036653267342335e-05,
      "loss": 0.3431,
      "step": 14560
    },
    {
      "epoch": 3.506259027443428,
      "grad_norm": 1.0234375,
      "learning_rate": 5.7009004180505e-05,
      "loss": 0.3597,
      "step": 14565
    },
    {
      "epoch": 3.5074626865671643,
      "grad_norm": 0.9375,
      "learning_rate": 5.698141896160927e-05,
      "loss": 0.3298,
      "step": 14570
    },
    {
      "epoch": 3.5086663456909,
      "grad_norm": 1.0546875,
      "learning_rate": 5.695389763541195e-05,
      "loss": 0.3421,
      "step": 14575
    },
    {
      "epoch": 3.5098700048146365,
      "grad_norm": 1.0390625,
      "learning_rate": 5.692644022661251e-05,
      "loss": 0.3536,
      "step": 14580
    },
    {
      "epoch": 3.5110736639383724,
      "grad_norm": 0.921875,
      "learning_rate": 5.689904675985308e-05,
      "loss": 0.3639,
      "step": 14585
    },
    {
      "epoch": 3.5122773230621087,
      "grad_norm": 0.95703125,
      "learning_rate": 5.687171725971834e-05,
      "loss": 0.3403,
      "step": 14590
    },
    {
      "epoch": 3.513480982185845,
      "grad_norm": 1.015625,
      "learning_rate": 5.684445175073566e-05,
      "loss": 0.3236,
      "step": 14595
    },
    {
      "epoch": 3.5146846413095814,
      "grad_norm": 1.0,
      "learning_rate": 5.681725025737487e-05,
      "loss": 0.3384,
      "step": 14600
    },
    {
      "epoch": 3.5158883004333172,
      "grad_norm": 1.015625,
      "learning_rate": 5.67901128040484e-05,
      "loss": 0.3495,
      "step": 14605
    },
    {
      "epoch": 3.5170919595570536,
      "grad_norm": 1.0546875,
      "learning_rate": 5.6763039415111256e-05,
      "loss": 0.3099,
      "step": 14610
    },
    {
      "epoch": 3.5182956186807894,
      "grad_norm": 1.1015625,
      "learning_rate": 5.673603011486087e-05,
      "loss": 0.3555,
      "step": 14615
    },
    {
      "epoch": 3.5194992778045258,
      "grad_norm": 0.9765625,
      "learning_rate": 5.6709084927537166e-05,
      "loss": 0.3316,
      "step": 14620
    },
    {
      "epoch": 3.520702936928262,
      "grad_norm": 1.046875,
      "learning_rate": 5.668220387732259e-05,
      "loss": 0.3681,
      "step": 14625
    },
    {
      "epoch": 3.521906596051998,
      "grad_norm": 0.96484375,
      "learning_rate": 5.665538698834197e-05,
      "loss": 0.3372,
      "step": 14630
    },
    {
      "epoch": 3.5231102551757343,
      "grad_norm": 1.0234375,
      "learning_rate": 5.6628634284662554e-05,
      "loss": 0.3368,
      "step": 14635
    },
    {
      "epoch": 3.52431391429947,
      "grad_norm": 1.0625,
      "learning_rate": 5.660194579029402e-05,
      "loss": 0.356,
      "step": 14640
    },
    {
      "epoch": 3.5255175734232065,
      "grad_norm": 1.0,
      "learning_rate": 5.657532152918839e-05,
      "loss": 0.3419,
      "step": 14645
    },
    {
      "epoch": 3.526721232546943,
      "grad_norm": 0.9375,
      "learning_rate": 5.654876152524003e-05,
      "loss": 0.3516,
      "step": 14650
    },
    {
      "epoch": 3.527924891670679,
      "grad_norm": 1.0546875,
      "learning_rate": 5.6522265802285684e-05,
      "loss": 0.3724,
      "step": 14655
    },
    {
      "epoch": 3.529128550794415,
      "grad_norm": 1.03125,
      "learning_rate": 5.6495834384104364e-05,
      "loss": 0.3463,
      "step": 14660
    },
    {
      "epoch": 3.5303322099181513,
      "grad_norm": 1.046875,
      "learning_rate": 5.64694672944174e-05,
      "loss": 0.3494,
      "step": 14665
    },
    {
      "epoch": 3.531535869041887,
      "grad_norm": 0.98046875,
      "learning_rate": 5.6443164556888333e-05,
      "loss": 0.369,
      "step": 14670
    },
    {
      "epoch": 3.5327395281656235,
      "grad_norm": 0.9921875,
      "learning_rate": 5.6416926195123055e-05,
      "loss": 0.3541,
      "step": 14675
    },
    {
      "epoch": 3.53394318728936,
      "grad_norm": 0.88671875,
      "learning_rate": 5.639075223266955e-05,
      "loss": 0.335,
      "step": 14680
    },
    {
      "epoch": 3.5351468464130957,
      "grad_norm": 0.984375,
      "learning_rate": 5.636464269301814e-05,
      "loss": 0.3527,
      "step": 14685
    },
    {
      "epoch": 3.536350505536832,
      "grad_norm": 1.0,
      "learning_rate": 5.6338597599601215e-05,
      "loss": 0.3201,
      "step": 14690
    },
    {
      "epoch": 3.537554164660568,
      "grad_norm": 1.1015625,
      "learning_rate": 5.63126169757934e-05,
      "loss": 0.3461,
      "step": 14695
    },
    {
      "epoch": 3.5387578237843043,
      "grad_norm": 1.0625,
      "learning_rate": 5.62867008449114e-05,
      "loss": 0.3517,
      "step": 14700
    },
    {
      "epoch": 3.5399614829080406,
      "grad_norm": 1.1328125,
      "learning_rate": 5.6260849230214125e-05,
      "loss": 0.357,
      "step": 14705
    },
    {
      "epoch": 3.5411651420317765,
      "grad_norm": 0.953125,
      "learning_rate": 5.623506215490252e-05,
      "loss": 0.3412,
      "step": 14710
    },
    {
      "epoch": 3.542368801155513,
      "grad_norm": 0.91015625,
      "learning_rate": 5.620933964211961e-05,
      "loss": 0.3396,
      "step": 14715
    },
    {
      "epoch": 3.5435724602792487,
      "grad_norm": 0.91015625,
      "learning_rate": 5.618368171495051e-05,
      "loss": 0.3371,
      "step": 14720
    },
    {
      "epoch": 3.544776119402985,
      "grad_norm": 1.125,
      "learning_rate": 5.615808839642234e-05,
      "loss": 0.3507,
      "step": 14725
    },
    {
      "epoch": 3.5459797785267213,
      "grad_norm": 1.0234375,
      "learning_rate": 5.6132559709504226e-05,
      "loss": 0.3421,
      "step": 14730
    },
    {
      "epoch": 3.5471834376504576,
      "grad_norm": 1.0546875,
      "learning_rate": 5.6107095677107353e-05,
      "loss": 0.3399,
      "step": 14735
    },
    {
      "epoch": 3.5483870967741935,
      "grad_norm": 1.0390625,
      "learning_rate": 5.608169632208482e-05,
      "loss": 0.3217,
      "step": 14740
    },
    {
      "epoch": 3.54959075589793,
      "grad_norm": 1.0,
      "learning_rate": 5.6056361667231686e-05,
      "loss": 0.3572,
      "step": 14745
    },
    {
      "epoch": 3.5507944150216657,
      "grad_norm": 0.93359375,
      "learning_rate": 5.603109173528498e-05,
      "loss": 0.3253,
      "step": 14750
    },
    {
      "epoch": 3.551998074145402,
      "grad_norm": 0.9375,
      "learning_rate": 5.600588654892361e-05,
      "loss": 0.3153,
      "step": 14755
    },
    {
      "epoch": 3.5532017332691384,
      "grad_norm": 0.96875,
      "learning_rate": 5.598074613076839e-05,
      "loss": 0.3575,
      "step": 14760
    },
    {
      "epoch": 3.5544053923928742,
      "grad_norm": 1.03125,
      "learning_rate": 5.5955670503382e-05,
      "loss": 0.3395,
      "step": 14765
    },
    {
      "epoch": 3.5556090515166106,
      "grad_norm": 0.98828125,
      "learning_rate": 5.5930659689268986e-05,
      "loss": 0.3422,
      "step": 14770
    },
    {
      "epoch": 3.5568127106403464,
      "grad_norm": 1.0390625,
      "learning_rate": 5.590571371087572e-05,
      "loss": 0.3431,
      "step": 14775
    },
    {
      "epoch": 3.5580163697640828,
      "grad_norm": 0.90625,
      "learning_rate": 5.588083259059036e-05,
      "loss": 0.3319,
      "step": 14780
    },
    {
      "epoch": 3.559220028887819,
      "grad_norm": 1.046875,
      "learning_rate": 5.585601635074291e-05,
      "loss": 0.3452,
      "step": 14785
    },
    {
      "epoch": 3.5604236880115554,
      "grad_norm": 1.0,
      "learning_rate": 5.583126501360509e-05,
      "loss": 0.323,
      "step": 14790
    },
    {
      "epoch": 3.5616273471352913,
      "grad_norm": 0.9765625,
      "learning_rate": 5.5806578601390426e-05,
      "loss": 0.329,
      "step": 14795
    },
    {
      "epoch": 3.5628310062590276,
      "grad_norm": 1.1328125,
      "learning_rate": 5.5781957136254145e-05,
      "loss": 0.3565,
      "step": 14800
    },
    {
      "epoch": 3.5640346653827635,
      "grad_norm": 1.0703125,
      "learning_rate": 5.575740064029314e-05,
      "loss": 0.3354,
      "step": 14805
    },
    {
      "epoch": 3.5652383245065,
      "grad_norm": 1.046875,
      "learning_rate": 5.57329091355461e-05,
      "loss": 0.3594,
      "step": 14810
    },
    {
      "epoch": 3.566441983630236,
      "grad_norm": 0.984375,
      "learning_rate": 5.5708482643993317e-05,
      "loss": 0.3818,
      "step": 14815
    },
    {
      "epoch": 3.567645642753972,
      "grad_norm": 1.125,
      "learning_rate": 5.568412118755674e-05,
      "loss": 0.3591,
      "step": 14820
    },
    {
      "epoch": 3.5688493018777083,
      "grad_norm": 0.92578125,
      "learning_rate": 5.565982478809997e-05,
      "loss": 0.3148,
      "step": 14825
    },
    {
      "epoch": 3.570052961001444,
      "grad_norm": 1.0234375,
      "learning_rate": 5.563559346742823e-05,
      "loss": 0.356,
      "step": 14830
    },
    {
      "epoch": 3.5712566201251805,
      "grad_norm": 1.0234375,
      "learning_rate": 5.561142724728828e-05,
      "loss": 0.3711,
      "step": 14835
    },
    {
      "epoch": 3.572460279248917,
      "grad_norm": 1.0390625,
      "learning_rate": 5.5587326149368534e-05,
      "loss": 0.3343,
      "step": 14840
    },
    {
      "epoch": 3.5736639383726527,
      "grad_norm": 0.9921875,
      "learning_rate": 5.55632901952989e-05,
      "loss": 0.3275,
      "step": 14845
    },
    {
      "epoch": 3.574867597496389,
      "grad_norm": 0.9375,
      "learning_rate": 5.553931940665085e-05,
      "loss": 0.3304,
      "step": 14850
    },
    {
      "epoch": 3.576071256620125,
      "grad_norm": 0.921875,
      "learning_rate": 5.551541380493736e-05,
      "loss": 0.3415,
      "step": 14855
    },
    {
      "epoch": 3.5772749157438612,
      "grad_norm": 1.09375,
      "learning_rate": 5.549157341161291e-05,
      "loss": 0.3509,
      "step": 14860
    },
    {
      "epoch": 3.5784785748675976,
      "grad_norm": 0.9453125,
      "learning_rate": 5.546779824807347e-05,
      "loss": 0.3565,
      "step": 14865
    },
    {
      "epoch": 3.579682233991334,
      "grad_norm": 1.0703125,
      "learning_rate": 5.544408833565643e-05,
      "loss": 0.3311,
      "step": 14870
    },
    {
      "epoch": 3.5808858931150698,
      "grad_norm": 0.95703125,
      "learning_rate": 5.5420443695640675e-05,
      "loss": 0.337,
      "step": 14875
    },
    {
      "epoch": 3.582089552238806,
      "grad_norm": 0.9921875,
      "learning_rate": 5.539686434924647e-05,
      "loss": 0.3516,
      "step": 14880
    },
    {
      "epoch": 3.583293211362542,
      "grad_norm": 1.0,
      "learning_rate": 5.537335031763545e-05,
      "loss": 0.3529,
      "step": 14885
    },
    {
      "epoch": 3.5844968704862783,
      "grad_norm": 1.1015625,
      "learning_rate": 5.534990162191073e-05,
      "loss": 0.343,
      "step": 14890
    },
    {
      "epoch": 3.5857005296100146,
      "grad_norm": 0.98046875,
      "learning_rate": 5.53265182831167e-05,
      "loss": 0.3246,
      "step": 14895
    },
    {
      "epoch": 3.5869041887337505,
      "grad_norm": 1.0390625,
      "learning_rate": 5.530320032223911e-05,
      "loss": 0.3618,
      "step": 14900
    },
    {
      "epoch": 3.588107847857487,
      "grad_norm": 1.0703125,
      "learning_rate": 5.52799477602051e-05,
      "loss": 0.3423,
      "step": 14905
    },
    {
      "epoch": 3.5893115069812227,
      "grad_norm": 1.03125,
      "learning_rate": 5.525676061788302e-05,
      "loss": 0.3092,
      "step": 14910
    },
    {
      "epoch": 3.590515166104959,
      "grad_norm": 1.0703125,
      "learning_rate": 5.523363891608258e-05,
      "loss": 0.373,
      "step": 14915
    },
    {
      "epoch": 3.5917188252286953,
      "grad_norm": 1.0390625,
      "learning_rate": 5.521058267555473e-05,
      "loss": 0.3353,
      "step": 14920
    },
    {
      "epoch": 3.5929224843524317,
      "grad_norm": 1.0,
      "learning_rate": 5.518759191699167e-05,
      "loss": 0.3508,
      "step": 14925
    },
    {
      "epoch": 3.5941261434761675,
      "grad_norm": 0.96484375,
      "learning_rate": 5.5164666661026834e-05,
      "loss": 0.3361,
      "step": 14930
    },
    {
      "epoch": 3.595329802599904,
      "grad_norm": 1.03125,
      "learning_rate": 5.514180692823489e-05,
      "loss": 0.3531,
      "step": 14935
    },
    {
      "epoch": 3.5965334617236397,
      "grad_norm": 0.97265625,
      "learning_rate": 5.5119012739131675e-05,
      "loss": 0.3201,
      "step": 14940
    },
    {
      "epoch": 3.597737120847376,
      "grad_norm": 1.09375,
      "learning_rate": 5.50962841141742e-05,
      "loss": 0.3592,
      "step": 14945
    },
    {
      "epoch": 3.5989407799711124,
      "grad_norm": 1.0234375,
      "learning_rate": 5.507362107376066e-05,
      "loss": 0.3405,
      "step": 14950
    },
    {
      "epoch": 3.6001444390948483,
      "grad_norm": 1.015625,
      "learning_rate": 5.505102363823037e-05,
      "loss": 0.3519,
      "step": 14955
    },
    {
      "epoch": 3.6013480982185846,
      "grad_norm": 1.109375,
      "learning_rate": 5.502849182786378e-05,
      "loss": 0.3538,
      "step": 14960
    },
    {
      "epoch": 3.6025517573423205,
      "grad_norm": 1.0078125,
      "learning_rate": 5.500602566288243e-05,
      "loss": 0.3666,
      "step": 14965
    },
    {
      "epoch": 3.603755416466057,
      "grad_norm": 1.0234375,
      "learning_rate": 5.498362516344897e-05,
      "loss": 0.3551,
      "step": 14970
    },
    {
      "epoch": 3.604959075589793,
      "grad_norm": 1.078125,
      "learning_rate": 5.496129034966706e-05,
      "loss": 0.3422,
      "step": 14975
    },
    {
      "epoch": 3.606162734713529,
      "grad_norm": 1.1640625,
      "learning_rate": 5.4939021241581475e-05,
      "loss": 0.3526,
      "step": 14980
    },
    {
      "epoch": 3.6073663938372653,
      "grad_norm": 0.9453125,
      "learning_rate": 5.491681785917801e-05,
      "loss": 0.3574,
      "step": 14985
    },
    {
      "epoch": 3.608570052961001,
      "grad_norm": 0.9140625,
      "learning_rate": 5.489468022238343e-05,
      "loss": 0.3294,
      "step": 14990
    },
    {
      "epoch": 3.6097737120847375,
      "grad_norm": 0.95703125,
      "learning_rate": 5.487260835106553e-05,
      "loss": 0.3211,
      "step": 14995
    },
    {
      "epoch": 3.610977371208474,
      "grad_norm": 1.09375,
      "learning_rate": 5.485060226503311e-05,
      "loss": 0.3342,
      "step": 15000
    },
    {
      "epoch": 3.610977371208474,
      "eval_loss": 0.3394707143306732,
      "eval_runtime": 2.3647,
      "eval_samples_per_second": 84.578,
      "eval_steps_per_second": 84.578,
      "step": 15000
    },
    {
      "epoch": 3.61218103033221,
      "grad_norm": 1.015625,
      "learning_rate": 5.482866198403584e-05,
      "loss": 0.3518,
      "step": 15005
    },
    {
      "epoch": 3.613384689455946,
      "grad_norm": 1.015625,
      "learning_rate": 5.480678752776443e-05,
      "loss": 0.3401,
      "step": 15010
    },
    {
      "epoch": 3.6145883485796824,
      "grad_norm": 1.0078125,
      "learning_rate": 5.4784978915850455e-05,
      "loss": 0.3555,
      "step": 15015
    },
    {
      "epoch": 3.6157920077034182,
      "grad_norm": 1.015625,
      "learning_rate": 5.4763236167866436e-05,
      "loss": 0.3341,
      "step": 15020
    },
    {
      "epoch": 3.6169956668271546,
      "grad_norm": 0.98046875,
      "learning_rate": 5.474155930332572e-05,
      "loss": 0.343,
      "step": 15025
    },
    {
      "epoch": 3.618199325950891,
      "grad_norm": 1.046875,
      "learning_rate": 5.471994834168263e-05,
      "loss": 0.352,
      "step": 15030
    },
    {
      "epoch": 3.6194029850746268,
      "grad_norm": 1.0390625,
      "learning_rate": 5.4698403302332235e-05,
      "loss": 0.3534,
      "step": 15035
    },
    {
      "epoch": 3.620606644198363,
      "grad_norm": 0.953125,
      "learning_rate": 5.4676924204610496e-05,
      "loss": 0.3236,
      "step": 15040
    },
    {
      "epoch": 3.621810303322099,
      "grad_norm": 1.03125,
      "learning_rate": 5.46555110677942e-05,
      "loss": 0.3651,
      "step": 15045
    },
    {
      "epoch": 3.6230139624458353,
      "grad_norm": 0.90625,
      "learning_rate": 5.4634163911100905e-05,
      "loss": 0.3284,
      "step": 15050
    },
    {
      "epoch": 3.6242176215695716,
      "grad_norm": 1.0234375,
      "learning_rate": 5.461288275368897e-05,
      "loss": 0.3413,
      "step": 15055
    },
    {
      "epoch": 3.6254212806933075,
      "grad_norm": 1.015625,
      "learning_rate": 5.4591667614657547e-05,
      "loss": 0.3349,
      "step": 15060
    },
    {
      "epoch": 3.626624939817044,
      "grad_norm": 0.98828125,
      "learning_rate": 5.4570518513046485e-05,
      "loss": 0.3589,
      "step": 15065
    },
    {
      "epoch": 3.62782859894078,
      "grad_norm": 1.0390625,
      "learning_rate": 5.45494354678364e-05,
      "loss": 0.3301,
      "step": 15070
    },
    {
      "epoch": 3.629032258064516,
      "grad_norm": 1.015625,
      "learning_rate": 5.452841849794864e-05,
      "loss": 0.3509,
      "step": 15075
    },
    {
      "epoch": 3.6302359171882523,
      "grad_norm": 1.0546875,
      "learning_rate": 5.450746762224524e-05,
      "loss": 0.3293,
      "step": 15080
    },
    {
      "epoch": 3.6314395763119887,
      "grad_norm": 1.1015625,
      "learning_rate": 5.448658285952887e-05,
      "loss": 0.3473,
      "step": 15085
    },
    {
      "epoch": 3.6326432354357245,
      "grad_norm": 1.125,
      "learning_rate": 5.446576422854293e-05,
      "loss": 0.3568,
      "step": 15090
    },
    {
      "epoch": 3.633846894559461,
      "grad_norm": 1.0546875,
      "learning_rate": 5.444501174797144e-05,
      "loss": 0.3332,
      "step": 15095
    },
    {
      "epoch": 3.6350505536831967,
      "grad_norm": 1.15625,
      "learning_rate": 5.442432543643907e-05,
      "loss": 0.3503,
      "step": 15100
    },
    {
      "epoch": 3.636254212806933,
      "grad_norm": 1.03125,
      "learning_rate": 5.440370531251108e-05,
      "loss": 0.3264,
      "step": 15105
    },
    {
      "epoch": 3.6374578719306694,
      "grad_norm": 0.98046875,
      "learning_rate": 5.438315139469334e-05,
      "loss": 0.3426,
      "step": 15110
    },
    {
      "epoch": 3.6386615310544053,
      "grad_norm": 1.015625,
      "learning_rate": 5.436266370143234e-05,
      "loss": 0.3338,
      "step": 15115
    },
    {
      "epoch": 3.6398651901781416,
      "grad_norm": 1.015625,
      "learning_rate": 5.4342242251115044e-05,
      "loss": 0.3471,
      "step": 15120
    },
    {
      "epoch": 3.6410688493018775,
      "grad_norm": 0.94140625,
      "learning_rate": 5.432188706206905e-05,
      "loss": 0.3636,
      "step": 15125
    },
    {
      "epoch": 3.642272508425614,
      "grad_norm": 1.09375,
      "learning_rate": 5.430159815256247e-05,
      "loss": 0.3257,
      "step": 15130
    },
    {
      "epoch": 3.64347616754935,
      "grad_norm": 0.9765625,
      "learning_rate": 5.4281375540803896e-05,
      "loss": 0.3411,
      "step": 15135
    },
    {
      "epoch": 3.6446798266730864,
      "grad_norm": 0.9609375,
      "learning_rate": 5.4261219244942474e-05,
      "loss": 0.3496,
      "step": 15140
    },
    {
      "epoch": 3.6458834857968223,
      "grad_norm": 0.96484375,
      "learning_rate": 5.424112928306778e-05,
      "loss": 0.329,
      "step": 15145
    },
    {
      "epoch": 3.6470871449205586,
      "grad_norm": 1.015625,
      "learning_rate": 5.422110567320989e-05,
      "loss": 0.3532,
      "step": 15150
    },
    {
      "epoch": 3.6482908040442945,
      "grad_norm": 1.0546875,
      "learning_rate": 5.420114843333934e-05,
      "loss": 0.337,
      "step": 15155
    },
    {
      "epoch": 3.649494463168031,
      "grad_norm": 1.03125,
      "learning_rate": 5.418125758136708e-05,
      "loss": 0.3806,
      "step": 15160
    },
    {
      "epoch": 3.650698122291767,
      "grad_norm": 1.015625,
      "learning_rate": 5.416143313514446e-05,
      "loss": 0.3449,
      "step": 15165
    },
    {
      "epoch": 3.651901781415503,
      "grad_norm": 1.046875,
      "learning_rate": 5.414167511246329e-05,
      "loss": 0.3387,
      "step": 15170
    },
    {
      "epoch": 3.6531054405392394,
      "grad_norm": 1.078125,
      "learning_rate": 5.412198353105573e-05,
      "loss": 0.3675,
      "step": 15175
    },
    {
      "epoch": 3.6543090996629752,
      "grad_norm": 1.0390625,
      "learning_rate": 5.410235840859431e-05,
      "loss": 0.3574,
      "step": 15180
    },
    {
      "epoch": 3.6555127587867116,
      "grad_norm": 1.046875,
      "learning_rate": 5.408279976269192e-05,
      "loss": 0.3633,
      "step": 15185
    },
    {
      "epoch": 3.656716417910448,
      "grad_norm": 0.9609375,
      "learning_rate": 5.4063307610901785e-05,
      "loss": 0.3423,
      "step": 15190
    },
    {
      "epoch": 3.6579200770341838,
      "grad_norm": 1.03125,
      "learning_rate": 5.404388197071745e-05,
      "loss": 0.3425,
      "step": 15195
    },
    {
      "epoch": 3.65912373615792,
      "grad_norm": 1.0078125,
      "learning_rate": 5.402452285957283e-05,
      "loss": 0.3431,
      "step": 15200
    },
    {
      "epoch": 3.660327395281656,
      "grad_norm": 1.0234375,
      "learning_rate": 5.400523029484202e-05,
      "loss": 0.3677,
      "step": 15205
    },
    {
      "epoch": 3.6615310544053923,
      "grad_norm": 1.109375,
      "learning_rate": 5.398600429383948e-05,
      "loss": 0.3514,
      "step": 15210
    },
    {
      "epoch": 3.6627347135291286,
      "grad_norm": 1.0,
      "learning_rate": 5.396684487381991e-05,
      "loss": 0.3557,
      "step": 15215
    },
    {
      "epoch": 3.663938372652865,
      "grad_norm": 1.015625,
      "learning_rate": 5.394775205197822e-05,
      "loss": 0.3363,
      "step": 15220
    },
    {
      "epoch": 3.665142031776601,
      "grad_norm": 1.0703125,
      "learning_rate": 5.3928725845449605e-05,
      "loss": 0.3386,
      "step": 15225
    },
    {
      "epoch": 3.666345690900337,
      "grad_norm": 0.87890625,
      "learning_rate": 5.390976627130945e-05,
      "loss": 0.338,
      "step": 15230
    },
    {
      "epoch": 3.667549350024073,
      "grad_norm": 1.0390625,
      "learning_rate": 5.389087334657332e-05,
      "loss": 0.343,
      "step": 15235
    },
    {
      "epoch": 3.6687530091478093,
      "grad_norm": 1.0546875,
      "learning_rate": 5.3872047088197005e-05,
      "loss": 0.3591,
      "step": 15240
    },
    {
      "epoch": 3.6699566682715457,
      "grad_norm": 1.0625,
      "learning_rate": 5.385328751307644e-05,
      "loss": 0.3547,
      "step": 15245
    },
    {
      "epoch": 3.6711603273952815,
      "grad_norm": 1.0703125,
      "learning_rate": 5.38345946380477e-05,
      "loss": 0.3399,
      "step": 15250
    },
    {
      "epoch": 3.672363986519018,
      "grad_norm": 1.015625,
      "learning_rate": 5.381596847988701e-05,
      "loss": 0.3389,
      "step": 15255
    },
    {
      "epoch": 3.6735676456427537,
      "grad_norm": 1.0,
      "learning_rate": 5.379740905531075e-05,
      "loss": 0.3352,
      "step": 15260
    },
    {
      "epoch": 3.67477130476649,
      "grad_norm": 1.0625,
      "learning_rate": 5.377891638097538e-05,
      "loss": 0.3545,
      "step": 15265
    },
    {
      "epoch": 3.6759749638902264,
      "grad_norm": 1.0390625,
      "learning_rate": 5.376049047347745e-05,
      "loss": 0.3365,
      "step": 15270
    },
    {
      "epoch": 3.6771786230139627,
      "grad_norm": 1.109375,
      "learning_rate": 5.3742131349353575e-05,
      "loss": 0.3588,
      "step": 15275
    },
    {
      "epoch": 3.6783822821376986,
      "grad_norm": 1.0546875,
      "learning_rate": 5.372383902508049e-05,
      "loss": 0.3671,
      "step": 15280
    },
    {
      "epoch": 3.679585941261435,
      "grad_norm": 1.0859375,
      "learning_rate": 5.370561351707494e-05,
      "loss": 0.3786,
      "step": 15285
    },
    {
      "epoch": 3.680789600385171,
      "grad_norm": 0.96875,
      "learning_rate": 5.368745484169369e-05,
      "loss": 0.3296,
      "step": 15290
    },
    {
      "epoch": 3.681993259508907,
      "grad_norm": 1.0078125,
      "learning_rate": 5.366936301523356e-05,
      "loss": 0.3619,
      "step": 15295
    },
    {
      "epoch": 3.6831969186326434,
      "grad_norm": 1.015625,
      "learning_rate": 5.365133805393134e-05,
      "loss": 0.3617,
      "step": 15300
    },
    {
      "epoch": 3.6844005777563793,
      "grad_norm": 1.0234375,
      "learning_rate": 5.3633379973963846e-05,
      "loss": 0.34,
      "step": 15305
    },
    {
      "epoch": 3.6856042368801156,
      "grad_norm": 1.015625,
      "learning_rate": 5.361548879144786e-05,
      "loss": 0.3475,
      "step": 15310
    },
    {
      "epoch": 3.6868078960038515,
      "grad_norm": 1.0390625,
      "learning_rate": 5.3597664522440115e-05,
      "loss": 0.3509,
      "step": 15315
    },
    {
      "epoch": 3.688011555127588,
      "grad_norm": 1.1484375,
      "learning_rate": 5.357990718293728e-05,
      "loss": 0.3417,
      "step": 15320
    },
    {
      "epoch": 3.689215214251324,
      "grad_norm": 1.0078125,
      "learning_rate": 5.3562216788876e-05,
      "loss": 0.3435,
      "step": 15325
    },
    {
      "epoch": 3.69041887337506,
      "grad_norm": 1.0546875,
      "learning_rate": 5.3544593356132804e-05,
      "loss": 0.3141,
      "step": 15330
    },
    {
      "epoch": 3.6916225324987963,
      "grad_norm": 1.0390625,
      "learning_rate": 5.352703690052413e-05,
      "loss": 0.349,
      "step": 15335
    },
    {
      "epoch": 3.6928261916225322,
      "grad_norm": 0.984375,
      "learning_rate": 5.3509547437806294e-05,
      "loss": 0.3408,
      "step": 15340
    },
    {
      "epoch": 3.6940298507462686,
      "grad_norm": 0.96484375,
      "learning_rate": 5.349212498367553e-05,
      "loss": 0.3223,
      "step": 15345
    },
    {
      "epoch": 3.695233509870005,
      "grad_norm": 1.0390625,
      "learning_rate": 5.34747695537679e-05,
      "loss": 0.3268,
      "step": 15350
    },
    {
      "epoch": 3.696437168993741,
      "grad_norm": 1.078125,
      "learning_rate": 5.3457481163659324e-05,
      "loss": 0.3554,
      "step": 15355
    },
    {
      "epoch": 3.697640828117477,
      "grad_norm": 0.99609375,
      "learning_rate": 5.344025982886554e-05,
      "loss": 0.3465,
      "step": 15360
    },
    {
      "epoch": 3.6988444872412134,
      "grad_norm": 0.93359375,
      "learning_rate": 5.342310556484213e-05,
      "loss": 0.356,
      "step": 15365
    },
    {
      "epoch": 3.7000481463649493,
      "grad_norm": 0.94140625,
      "learning_rate": 5.34060183869845e-05,
      "loss": 0.3274,
      "step": 15370
    },
    {
      "epoch": 3.7012518054886856,
      "grad_norm": 0.93359375,
      "learning_rate": 5.338899831062777e-05,
      "loss": 0.3492,
      "step": 15375
    },
    {
      "epoch": 3.702455464612422,
      "grad_norm": 1.0234375,
      "learning_rate": 5.337204535104692e-05,
      "loss": 0.3457,
      "step": 15380
    },
    {
      "epoch": 3.703659123736158,
      "grad_norm": 0.96875,
      "learning_rate": 5.335515952345666e-05,
      "loss": 0.3204,
      "step": 15385
    },
    {
      "epoch": 3.704862782859894,
      "grad_norm": 1.015625,
      "learning_rate": 5.333834084301146e-05,
      "loss": 0.3522,
      "step": 15390
    },
    {
      "epoch": 3.70606644198363,
      "grad_norm": 1.109375,
      "learning_rate": 5.33215893248055e-05,
      "loss": 0.3335,
      "step": 15395
    },
    {
      "epoch": 3.7072701011073663,
      "grad_norm": 1.015625,
      "learning_rate": 5.3304904983872756e-05,
      "loss": 0.3494,
      "step": 15400
    },
    {
      "epoch": 3.7084737602311026,
      "grad_norm": 0.97265625,
      "learning_rate": 5.3288287835186826e-05,
      "loss": 0.3287,
      "step": 15405
    },
    {
      "epoch": 3.709677419354839,
      "grad_norm": 1.09375,
      "learning_rate": 5.327173789366104e-05,
      "loss": 0.3796,
      "step": 15410
    },
    {
      "epoch": 3.710881078478575,
      "grad_norm": 1.03125,
      "learning_rate": 5.325525517414845e-05,
      "loss": 0.3433,
      "step": 15415
    },
    {
      "epoch": 3.712084737602311,
      "grad_norm": 1.0234375,
      "learning_rate": 5.323883969144172e-05,
      "loss": 0.3313,
      "step": 15420
    },
    {
      "epoch": 3.713288396726047,
      "grad_norm": 1.0,
      "learning_rate": 5.322249146027321e-05,
      "loss": 0.3512,
      "step": 15425
    },
    {
      "epoch": 3.7144920558497834,
      "grad_norm": 0.9375,
      "learning_rate": 5.320621049531491e-05,
      "loss": 0.3135,
      "step": 15430
    },
    {
      "epoch": 3.7156957149735197,
      "grad_norm": 0.9453125,
      "learning_rate": 5.318999681117844e-05,
      "loss": 0.3512,
      "step": 15435
    },
    {
      "epoch": 3.7168993740972556,
      "grad_norm": 1.0859375,
      "learning_rate": 5.3173850422415045e-05,
      "loss": 0.3635,
      "step": 15440
    },
    {
      "epoch": 3.718103033220992,
      "grad_norm": 0.9453125,
      "learning_rate": 5.3157771343515555e-05,
      "loss": 0.3522,
      "step": 15445
    },
    {
      "epoch": 3.7193066923447278,
      "grad_norm": 0.98828125,
      "learning_rate": 5.314175958891041e-05,
      "loss": 0.3445,
      "step": 15450
    },
    {
      "epoch": 3.720510351468464,
      "grad_norm": 1.203125,
      "learning_rate": 5.312581517296963e-05,
      "loss": 0.3667,
      "step": 15455
    },
    {
      "epoch": 3.7217140105922004,
      "grad_norm": 1.1015625,
      "learning_rate": 5.3109938110002795e-05,
      "loss": 0.3653,
      "step": 15460
    },
    {
      "epoch": 3.7229176697159363,
      "grad_norm": 1.03125,
      "learning_rate": 5.309412841425904e-05,
      "loss": 0.3213,
      "step": 15465
    },
    {
      "epoch": 3.7241213288396726,
      "grad_norm": 0.953125,
      "learning_rate": 5.3078386099927036e-05,
      "loss": 0.3379,
      "step": 15470
    },
    {
      "epoch": 3.7253249879634085,
      "grad_norm": 0.96875,
      "learning_rate": 5.306271118113498e-05,
      "loss": 0.3527,
      "step": 15475
    },
    {
      "epoch": 3.726528647087145,
      "grad_norm": 0.98828125,
      "learning_rate": 5.30471036719506e-05,
      "loss": 0.3339,
      "step": 15480
    },
    {
      "epoch": 3.727732306210881,
      "grad_norm": 0.98046875,
      "learning_rate": 5.30315635863811e-05,
      "loss": 0.3222,
      "step": 15485
    },
    {
      "epoch": 3.7289359653346175,
      "grad_norm": 1.1015625,
      "learning_rate": 5.301609093837318e-05,
      "loss": 0.3596,
      "step": 15490
    },
    {
      "epoch": 3.7301396244583533,
      "grad_norm": 1.015625,
      "learning_rate": 5.300068574181305e-05,
      "loss": 0.3306,
      "step": 15495
    },
    {
      "epoch": 3.7313432835820897,
      "grad_norm": 1.078125,
      "learning_rate": 5.298534801052634e-05,
      "loss": 0.3437,
      "step": 15500
    },
    {
      "epoch": 3.7313432835820897,
      "eval_loss": 0.3347737789154053,
      "eval_runtime": 2.3604,
      "eval_samples_per_second": 84.732,
      "eval_steps_per_second": 84.732,
      "step": 15500
    },
    {
      "epoch": 3.7325469427058255,
      "grad_norm": 0.98046875,
      "learning_rate": 5.2970077758278165e-05,
      "loss": 0.3379,
      "step": 15505
    },
    {
      "epoch": 3.733750601829562,
      "grad_norm": 1.046875,
      "learning_rate": 5.295487499877306e-05,
      "loss": 0.35,
      "step": 15510
    },
    {
      "epoch": 3.734954260953298,
      "grad_norm": 1.0390625,
      "learning_rate": 5.293973974565499e-05,
      "loss": 0.3394,
      "step": 15515
    },
    {
      "epoch": 3.736157920077034,
      "grad_norm": 0.984375,
      "learning_rate": 5.292467201250733e-05,
      "loss": 0.3363,
      "step": 15520
    },
    {
      "epoch": 3.7373615792007704,
      "grad_norm": 0.98046875,
      "learning_rate": 5.290967181285289e-05,
      "loss": 0.3265,
      "step": 15525
    },
    {
      "epoch": 3.7385652383245063,
      "grad_norm": 0.93359375,
      "learning_rate": 5.289473916015383e-05,
      "loss": 0.3244,
      "step": 15530
    },
    {
      "epoch": 3.7397688974482426,
      "grad_norm": 1.0625,
      "learning_rate": 5.28798740678117e-05,
      "loss": 0.3384,
      "step": 15535
    },
    {
      "epoch": 3.740972556571979,
      "grad_norm": 1.1171875,
      "learning_rate": 5.286507654916745e-05,
      "loss": 0.3313,
      "step": 15540
    },
    {
      "epoch": 3.7421762156957152,
      "grad_norm": 1.015625,
      "learning_rate": 5.285034661750135e-05,
      "loss": 0.3394,
      "step": 15545
    },
    {
      "epoch": 3.743379874819451,
      "grad_norm": 1.03125,
      "learning_rate": 5.2835684286033e-05,
      "loss": 0.3314,
      "step": 15550
    },
    {
      "epoch": 3.7445835339431874,
      "grad_norm": 0.95703125,
      "learning_rate": 5.2821089567921366e-05,
      "loss": 0.3309,
      "step": 15555
    },
    {
      "epoch": 3.7457871930669233,
      "grad_norm": 1.0390625,
      "learning_rate": 5.280656247626473e-05,
      "loss": 0.3338,
      "step": 15560
    },
    {
      "epoch": 3.7469908521906596,
      "grad_norm": 1.0859375,
      "learning_rate": 5.279210302410067e-05,
      "loss": 0.339,
      "step": 15565
    },
    {
      "epoch": 3.748194511314396,
      "grad_norm": 0.92578125,
      "learning_rate": 5.277771122440604e-05,
      "loss": 0.3269,
      "step": 15570
    },
    {
      "epoch": 3.749398170438132,
      "grad_norm": 1.1015625,
      "learning_rate": 5.276338709009701e-05,
      "loss": 0.3614,
      "step": 15575
    },
    {
      "epoch": 3.750601829561868,
      "grad_norm": 1.0703125,
      "learning_rate": 5.274913063402902e-05,
      "loss": 0.3604,
      "step": 15580
    },
    {
      "epoch": 3.751805488685604,
      "grad_norm": 0.9609375,
      "learning_rate": 5.273494186899675e-05,
      "loss": 0.3384,
      "step": 15585
    },
    {
      "epoch": 3.7530091478093404,
      "grad_norm": 0.921875,
      "learning_rate": 5.272082080773417e-05,
      "loss": 0.3522,
      "step": 15590
    },
    {
      "epoch": 3.7542128069330767,
      "grad_norm": 0.984375,
      "learning_rate": 5.270676746291442e-05,
      "loss": 0.3366,
      "step": 15595
    },
    {
      "epoch": 3.7554164660568126,
      "grad_norm": 1.0234375,
      "learning_rate": 5.2692781847149925e-05,
      "loss": 0.3689,
      "step": 15600
    },
    {
      "epoch": 3.756620125180549,
      "grad_norm": 0.9921875,
      "learning_rate": 5.267886397299233e-05,
      "loss": 0.3324,
      "step": 15605
    },
    {
      "epoch": 3.7578237843042848,
      "grad_norm": 1.0703125,
      "learning_rate": 5.2665013852932424e-05,
      "loss": 0.368,
      "step": 15610
    },
    {
      "epoch": 3.759027443428021,
      "grad_norm": 1.03125,
      "learning_rate": 5.265123149940025e-05,
      "loss": 0.329,
      "step": 15615
    },
    {
      "epoch": 3.7602311025517574,
      "grad_norm": 0.953125,
      "learning_rate": 5.263751692476501e-05,
      "loss": 0.3431,
      "step": 15620
    },
    {
      "epoch": 3.7614347616754937,
      "grad_norm": 1.0078125,
      "learning_rate": 5.262387014133507e-05,
      "loss": 0.3233,
      "step": 15625
    },
    {
      "epoch": 3.7626384207992296,
      "grad_norm": 0.96875,
      "learning_rate": 5.2610291161357956e-05,
      "loss": 0.3568,
      "step": 15630
    },
    {
      "epoch": 3.763842079922966,
      "grad_norm": 1.078125,
      "learning_rate": 5.259677999702035e-05,
      "loss": 0.346,
      "step": 15635
    },
    {
      "epoch": 3.765045739046702,
      "grad_norm": 1.1796875,
      "learning_rate": 5.258333666044809e-05,
      "loss": 0.344,
      "step": 15640
    },
    {
      "epoch": 3.766249398170438,
      "grad_norm": 1.0703125,
      "learning_rate": 5.25699611637061e-05,
      "loss": 0.3517,
      "step": 15645
    },
    {
      "epoch": 3.7674530572941745,
      "grad_norm": 1.0625,
      "learning_rate": 5.255665351879845e-05,
      "loss": 0.3419,
      "step": 15650
    },
    {
      "epoch": 3.7686567164179103,
      "grad_norm": 0.9765625,
      "learning_rate": 5.254341373766829e-05,
      "loss": 0.319,
      "step": 15655
    },
    {
      "epoch": 3.7698603755416467,
      "grad_norm": 1.0234375,
      "learning_rate": 5.253024183219791e-05,
      "loss": 0.3361,
      "step": 15660
    },
    {
      "epoch": 3.7710640346653825,
      "grad_norm": 0.9609375,
      "learning_rate": 5.251713781420864e-05,
      "loss": 0.3364,
      "step": 15665
    },
    {
      "epoch": 3.772267693789119,
      "grad_norm": 1.0390625,
      "learning_rate": 5.2504101695460894e-05,
      "loss": 0.3446,
      "step": 15670
    },
    {
      "epoch": 3.773471352912855,
      "grad_norm": 0.9921875,
      "learning_rate": 5.249113348765416e-05,
      "loss": 0.3298,
      "step": 15675
    },
    {
      "epoch": 3.7746750120365915,
      "grad_norm": 0.984375,
      "learning_rate": 5.247823320242697e-05,
      "loss": 0.3571,
      "step": 15680
    },
    {
      "epoch": 3.7758786711603274,
      "grad_norm": 1.0234375,
      "learning_rate": 5.24654008513569e-05,
      "loss": 0.3535,
      "step": 15685
    },
    {
      "epoch": 3.7770823302840637,
      "grad_norm": 0.95703125,
      "learning_rate": 5.245263644596055e-05,
      "loss": 0.3546,
      "step": 15690
    },
    {
      "epoch": 3.7782859894077996,
      "grad_norm": 1.0390625,
      "learning_rate": 5.2439939997693545e-05,
      "loss": 0.3297,
      "step": 15695
    },
    {
      "epoch": 3.779489648531536,
      "grad_norm": 1.0546875,
      "learning_rate": 5.242731151795054e-05,
      "loss": 0.3396,
      "step": 15700
    },
    {
      "epoch": 3.7806933076552722,
      "grad_norm": 1.046875,
      "learning_rate": 5.2414751018065144e-05,
      "loss": 0.3238,
      "step": 15705
    },
    {
      "epoch": 3.781896966779008,
      "grad_norm": 1.046875,
      "learning_rate": 5.240225850931003e-05,
      "loss": 0.3333,
      "step": 15710
    },
    {
      "epoch": 3.7831006259027444,
      "grad_norm": 1.1015625,
      "learning_rate": 5.238983400289676e-05,
      "loss": 0.3391,
      "step": 15715
    },
    {
      "epoch": 3.7843042850264803,
      "grad_norm": 1.0390625,
      "learning_rate": 5.237747750997594e-05,
      "loss": 0.3692,
      "step": 15720
    },
    {
      "epoch": 3.7855079441502166,
      "grad_norm": 1.015625,
      "learning_rate": 5.23651890416371e-05,
      "loss": 0.3529,
      "step": 15725
    },
    {
      "epoch": 3.786711603273953,
      "grad_norm": 1.0546875,
      "learning_rate": 5.235296860890874e-05,
      "loss": 0.3221,
      "step": 15730
    },
    {
      "epoch": 3.787915262397689,
      "grad_norm": 0.9453125,
      "learning_rate": 5.2340816222758284e-05,
      "loss": 0.3291,
      "step": 15735
    },
    {
      "epoch": 3.789118921521425,
      "grad_norm": 0.89453125,
      "learning_rate": 5.232873189409209e-05,
      "loss": 0.3229,
      "step": 15740
    },
    {
      "epoch": 3.790322580645161,
      "grad_norm": 1.0390625,
      "learning_rate": 5.231671563375543e-05,
      "loss": 0.3369,
      "step": 15745
    },
    {
      "epoch": 3.7915262397688974,
      "grad_norm": 1.078125,
      "learning_rate": 5.230476745253252e-05,
      "loss": 0.3619,
      "step": 15750
    },
    {
      "epoch": 3.7927298988926337,
      "grad_norm": 1.09375,
      "learning_rate": 5.229288736114643e-05,
      "loss": 0.3542,
      "step": 15755
    },
    {
      "epoch": 3.79393355801637,
      "grad_norm": 0.97265625,
      "learning_rate": 5.228107537025916e-05,
      "loss": 0.3703,
      "step": 15760
    },
    {
      "epoch": 3.795137217140106,
      "grad_norm": 1.1015625,
      "learning_rate": 5.226933149047157e-05,
      "loss": 0.3661,
      "step": 15765
    },
    {
      "epoch": 3.796340876263842,
      "grad_norm": 1.015625,
      "learning_rate": 5.2257655732323405e-05,
      "loss": 0.3275,
      "step": 15770
    },
    {
      "epoch": 3.797544535387578,
      "grad_norm": 1.0625,
      "learning_rate": 5.224604810629327e-05,
      "loss": 0.3559,
      "step": 15775
    },
    {
      "epoch": 3.7987481945113144,
      "grad_norm": 1.046875,
      "learning_rate": 5.2234508622798604e-05,
      "loss": 0.3496,
      "step": 15780
    },
    {
      "epoch": 3.7999518536350507,
      "grad_norm": 0.93359375,
      "learning_rate": 5.222303729219571e-05,
      "loss": 0.3414,
      "step": 15785
    },
    {
      "epoch": 3.8011555127587866,
      "grad_norm": 0.953125,
      "learning_rate": 5.221163412477975e-05,
      "loss": 0.3521,
      "step": 15790
    },
    {
      "epoch": 3.802359171882523,
      "grad_norm": 0.99609375,
      "learning_rate": 5.2200299130784665e-05,
      "loss": 0.3314,
      "step": 15795
    },
    {
      "epoch": 3.803562831006259,
      "grad_norm": 0.984375,
      "learning_rate": 5.218903232038323e-05,
      "loss": 0.3445,
      "step": 15800
    },
    {
      "epoch": 3.804766490129995,
      "grad_norm": 1.015625,
      "learning_rate": 5.217783370368705e-05,
      "loss": 0.3408,
      "step": 15805
    },
    {
      "epoch": 3.8059701492537314,
      "grad_norm": 1.0234375,
      "learning_rate": 5.2166703290746497e-05,
      "loss": 0.3299,
      "step": 15810
    },
    {
      "epoch": 3.8071738083774678,
      "grad_norm": 0.9765625,
      "learning_rate": 5.215564109155072e-05,
      "loss": 0.341,
      "step": 15815
    },
    {
      "epoch": 3.8083774675012037,
      "grad_norm": 1.046875,
      "learning_rate": 5.214464711602772e-05,
      "loss": 0.3629,
      "step": 15820
    },
    {
      "epoch": 3.80958112662494,
      "grad_norm": 0.96484375,
      "learning_rate": 5.213372137404418e-05,
      "loss": 0.3291,
      "step": 15825
    },
    {
      "epoch": 3.810784785748676,
      "grad_norm": 0.96484375,
      "learning_rate": 5.212286387540563e-05,
      "loss": 0.3362,
      "step": 15830
    },
    {
      "epoch": 3.811988444872412,
      "grad_norm": 1.140625,
      "learning_rate": 5.211207462985629e-05,
      "loss": 0.3777,
      "step": 15835
    },
    {
      "epoch": 3.8131921039961485,
      "grad_norm": 1.03125,
      "learning_rate": 5.2101353647079125e-05,
      "loss": 0.3549,
      "step": 15840
    },
    {
      "epoch": 3.8143957631198844,
      "grad_norm": 1.0390625,
      "learning_rate": 5.2090700936695904e-05,
      "loss": 0.3499,
      "step": 15845
    },
    {
      "epoch": 3.8155994222436207,
      "grad_norm": 1.0078125,
      "learning_rate": 5.2080116508267046e-05,
      "loss": 0.3195,
      "step": 15850
    },
    {
      "epoch": 3.8168030813673566,
      "grad_norm": 1.0390625,
      "learning_rate": 5.2069600371291736e-05,
      "loss": 0.3662,
      "step": 15855
    },
    {
      "epoch": 3.818006740491093,
      "grad_norm": 1.03125,
      "learning_rate": 5.2059152535207844e-05,
      "loss": 0.3775,
      "step": 15860
    },
    {
      "epoch": 3.819210399614829,
      "grad_norm": 0.953125,
      "learning_rate": 5.204877300939196e-05,
      "loss": 0.3277,
      "step": 15865
    },
    {
      "epoch": 3.820414058738565,
      "grad_norm": 1.0546875,
      "learning_rate": 5.203846180315938e-05,
      "loss": 0.342,
      "step": 15870
    },
    {
      "epoch": 3.8216177178623014,
      "grad_norm": 1.0078125,
      "learning_rate": 5.202821892576403e-05,
      "loss": 0.3453,
      "step": 15875
    },
    {
      "epoch": 3.8228213769860373,
      "grad_norm": 1.0859375,
      "learning_rate": 5.2018044386398564e-05,
      "loss": 0.3344,
      "step": 15880
    },
    {
      "epoch": 3.8240250361097736,
      "grad_norm": 1.0078125,
      "learning_rate": 5.2007938194194315e-05,
      "loss": 0.3328,
      "step": 15885
    },
    {
      "epoch": 3.82522869523351,
      "grad_norm": 1.0625,
      "learning_rate": 5.199790035822122e-05,
      "loss": 0.3652,
      "step": 15890
    },
    {
      "epoch": 3.8264323543572463,
      "grad_norm": 0.97265625,
      "learning_rate": 5.1987930887487925e-05,
      "loss": 0.3357,
      "step": 15895
    },
    {
      "epoch": 3.827636013480982,
      "grad_norm": 1.03125,
      "learning_rate": 5.1978029790941675e-05,
      "loss": 0.3472,
      "step": 15900
    },
    {
      "epoch": 3.8288396726047185,
      "grad_norm": 1.140625,
      "learning_rate": 5.196819707746839e-05,
      "loss": 0.3413,
      "step": 15905
    },
    {
      "epoch": 3.8300433317284543,
      "grad_norm": 1.0,
      "learning_rate": 5.195843275589259e-05,
      "loss": 0.3479,
      "step": 15910
    },
    {
      "epoch": 3.8312469908521907,
      "grad_norm": 1.0,
      "learning_rate": 5.1948736834977444e-05,
      "loss": 0.3568,
      "step": 15915
    },
    {
      "epoch": 3.832450649975927,
      "grad_norm": 0.98828125,
      "learning_rate": 5.193910932342471e-05,
      "loss": 0.3484,
      "step": 15920
    },
    {
      "epoch": 3.833654309099663,
      "grad_norm": 0.99609375,
      "learning_rate": 5.1929550229874755e-05,
      "loss": 0.3567,
      "step": 15925
    },
    {
      "epoch": 3.834857968223399,
      "grad_norm": 0.9765625,
      "learning_rate": 5.192005956290654e-05,
      "loss": 0.3341,
      "step": 15930
    },
    {
      "epoch": 3.836061627347135,
      "grad_norm": 1.09375,
      "learning_rate": 5.1910637331037625e-05,
      "loss": 0.3504,
      "step": 15935
    },
    {
      "epoch": 3.8372652864708714,
      "grad_norm": 0.94921875,
      "learning_rate": 5.190128354272415e-05,
      "loss": 0.3345,
      "step": 15940
    },
    {
      "epoch": 3.8384689455946077,
      "grad_norm": 0.9609375,
      "learning_rate": 5.189199820636083e-05,
      "loss": 0.3462,
      "step": 15945
    },
    {
      "epoch": 3.839672604718344,
      "grad_norm": 0.96484375,
      "learning_rate": 5.188278133028095e-05,
      "loss": 0.3447,
      "step": 15950
    },
    {
      "epoch": 3.84087626384208,
      "grad_norm": 1.1484375,
      "learning_rate": 5.187363292275632e-05,
      "loss": 0.3598,
      "step": 15955
    },
    {
      "epoch": 3.8420799229658162,
      "grad_norm": 0.91796875,
      "learning_rate": 5.186455299199736e-05,
      "loss": 0.3583,
      "step": 15960
    },
    {
      "epoch": 3.843283582089552,
      "grad_norm": 0.97265625,
      "learning_rate": 5.1855541546153e-05,
      "loss": 0.3579,
      "step": 15965
    },
    {
      "epoch": 3.8444872412132884,
      "grad_norm": 0.96875,
      "learning_rate": 5.18465985933107e-05,
      "loss": 0.3427,
      "step": 15970
    },
    {
      "epoch": 3.8456909003370248,
      "grad_norm": 1.0546875,
      "learning_rate": 5.183772414149647e-05,
      "loss": 0.3364,
      "step": 15975
    },
    {
      "epoch": 3.8468945594607606,
      "grad_norm": 1.046875,
      "learning_rate": 5.182891819867483e-05,
      "loss": 0.3399,
      "step": 15980
    },
    {
      "epoch": 3.848098218584497,
      "grad_norm": 0.9765625,
      "learning_rate": 5.1820180772748816e-05,
      "loss": 0.3418,
      "step": 15985
    },
    {
      "epoch": 3.849301877708233,
      "grad_norm": 1.0,
      "learning_rate": 5.181151187155997e-05,
      "loss": 0.3435,
      "step": 15990
    },
    {
      "epoch": 3.850505536831969,
      "grad_norm": 1.0546875,
      "learning_rate": 5.1802911502888375e-05,
      "loss": 0.3267,
      "step": 15995
    },
    {
      "epoch": 3.8517091959557055,
      "grad_norm": 1.0390625,
      "learning_rate": 5.179437967445253e-05,
      "loss": 0.371,
      "step": 16000
    },
    {
      "epoch": 3.8517091959557055,
      "eval_loss": 0.3354093134403229,
      "eval_runtime": 2.3419,
      "eval_samples_per_second": 85.399,
      "eval_steps_per_second": 85.399,
      "step": 16000
    },
    {
      "epoch": 3.8529128550794414,
      "grad_norm": 1.1171875,
      "learning_rate": 5.17859163939095e-05,
      "loss": 0.3552,
      "step": 16005
    },
    {
      "epoch": 3.8541165142031777,
      "grad_norm": 1.125,
      "learning_rate": 5.177752166885478e-05,
      "loss": 0.345,
      "step": 16010
    },
    {
      "epoch": 3.8553201733269136,
      "grad_norm": 1.0625,
      "learning_rate": 5.1769195506822346e-05,
      "loss": 0.3512,
      "step": 16015
    },
    {
      "epoch": 3.85652383245065,
      "grad_norm": 1.03125,
      "learning_rate": 5.176093791528467e-05,
      "loss": 0.3225,
      "step": 16020
    },
    {
      "epoch": 3.857727491574386,
      "grad_norm": 1.03125,
      "learning_rate": 5.175274890165267e-05,
      "loss": 0.3409,
      "step": 16025
    },
    {
      "epoch": 3.8589311506981225,
      "grad_norm": 1.0625,
      "learning_rate": 5.174462847327567e-05,
      "loss": 0.3573,
      "step": 16030
    },
    {
      "epoch": 3.8601348098218584,
      "grad_norm": 0.96875,
      "learning_rate": 5.1736576637441525e-05,
      "loss": 0.3035,
      "step": 16035
    },
    {
      "epoch": 3.8613384689455947,
      "grad_norm": 1.0390625,
      "learning_rate": 5.172859340137648e-05,
      "loss": 0.3489,
      "step": 16040
    },
    {
      "epoch": 3.8625421280693306,
      "grad_norm": 1.0703125,
      "learning_rate": 5.172067877224522e-05,
      "loss": 0.3604,
      "step": 16045
    },
    {
      "epoch": 3.863745787193067,
      "grad_norm": 0.97265625,
      "learning_rate": 5.1712832757150844e-05,
      "loss": 0.3288,
      "step": 16050
    },
    {
      "epoch": 3.8649494463168033,
      "grad_norm": 1.078125,
      "learning_rate": 5.1705055363134914e-05,
      "loss": 0.3458,
      "step": 16055
    },
    {
      "epoch": 3.866153105440539,
      "grad_norm": 1.15625,
      "learning_rate": 5.169734659717736e-05,
      "loss": 0.3483,
      "step": 16060
    },
    {
      "epoch": 3.8673567645642755,
      "grad_norm": 1.1484375,
      "learning_rate": 5.168970646619655e-05,
      "loss": 0.3537,
      "step": 16065
    },
    {
      "epoch": 3.8685604236880113,
      "grad_norm": 1.0625,
      "learning_rate": 5.168213497704924e-05,
      "loss": 0.336,
      "step": 16070
    },
    {
      "epoch": 3.8697640828117477,
      "grad_norm": 0.953125,
      "learning_rate": 5.167463213653062e-05,
      "loss": 0.3587,
      "step": 16075
    },
    {
      "epoch": 3.870967741935484,
      "grad_norm": 1.046875,
      "learning_rate": 5.16671979513742e-05,
      "loss": 0.3255,
      "step": 16080
    },
    {
      "epoch": 3.87217140105922,
      "grad_norm": 1.0546875,
      "learning_rate": 5.1659832428251913e-05,
      "loss": 0.3408,
      "step": 16085
    },
    {
      "epoch": 3.873375060182956,
      "grad_norm": 1.0,
      "learning_rate": 5.1652535573774104e-05,
      "loss": 0.3414,
      "step": 16090
    },
    {
      "epoch": 3.8745787193066925,
      "grad_norm": 1.0703125,
      "learning_rate": 5.1645307394489424e-05,
      "loss": 0.3479,
      "step": 16095
    },
    {
      "epoch": 3.8757823784304284,
      "grad_norm": 1.0,
      "learning_rate": 5.1638147896884934e-05,
      "loss": 0.3461,
      "step": 16100
    },
    {
      "epoch": 3.8769860375541647,
      "grad_norm": 1.109375,
      "learning_rate": 5.1631057087386055e-05,
      "loss": 0.3442,
      "step": 16105
    },
    {
      "epoch": 3.878189696677901,
      "grad_norm": 1.1953125,
      "learning_rate": 5.162403497235653e-05,
      "loss": 0.3725,
      "step": 16110
    },
    {
      "epoch": 3.879393355801637,
      "grad_norm": 1.09375,
      "learning_rate": 5.161708155809848e-05,
      "loss": 0.3272,
      "step": 16115
    },
    {
      "epoch": 3.8805970149253732,
      "grad_norm": 1.03125,
      "learning_rate": 5.1610196850852366e-05,
      "loss": 0.3591,
      "step": 16120
    },
    {
      "epoch": 3.881800674049109,
      "grad_norm": 1.0,
      "learning_rate": 5.1603380856796994e-05,
      "loss": 0.3516,
      "step": 16125
    },
    {
      "epoch": 3.8830043331728454,
      "grad_norm": 0.94140625,
      "learning_rate": 5.159663358204947e-05,
      "loss": 0.3509,
      "step": 16130
    },
    {
      "epoch": 3.8842079922965818,
      "grad_norm": 1.0390625,
      "learning_rate": 5.1589955032665246e-05,
      "loss": 0.3404,
      "step": 16135
    },
    {
      "epoch": 3.8854116514203176,
      "grad_norm": 0.8671875,
      "learning_rate": 5.158334521463811e-05,
      "loss": 0.3288,
      "step": 16140
    },
    {
      "epoch": 3.886615310544054,
      "grad_norm": 0.99609375,
      "learning_rate": 5.1576804133900156e-05,
      "loss": 0.3379,
      "step": 16145
    },
    {
      "epoch": 3.88781896966779,
      "grad_norm": 1.078125,
      "learning_rate": 5.157033179632178e-05,
      "loss": 0.3431,
      "step": 16150
    },
    {
      "epoch": 3.889022628791526,
      "grad_norm": 1.0625,
      "learning_rate": 5.156392820771166e-05,
      "loss": 0.3554,
      "step": 16155
    },
    {
      "epoch": 3.8902262879152625,
      "grad_norm": 0.9609375,
      "learning_rate": 5.155759337381686e-05,
      "loss": 0.3218,
      "step": 16160
    },
    {
      "epoch": 3.891429947038999,
      "grad_norm": 1.03125,
      "learning_rate": 5.155132730032264e-05,
      "loss": 0.3497,
      "step": 16165
    },
    {
      "epoch": 3.8926336061627347,
      "grad_norm": 1.0546875,
      "learning_rate": 5.1545129992852605e-05,
      "loss": 0.3446,
      "step": 16170
    },
    {
      "epoch": 3.893837265286471,
      "grad_norm": 1.078125,
      "learning_rate": 5.153900145696864e-05,
      "loss": 0.3709,
      "step": 16175
    },
    {
      "epoch": 3.895040924410207,
      "grad_norm": 0.98828125,
      "learning_rate": 5.153294169817088e-05,
      "loss": 0.3415,
      "step": 16180
    },
    {
      "epoch": 3.896244583533943,
      "grad_norm": 1.0546875,
      "learning_rate": 5.1526950721897754e-05,
      "loss": 0.3492,
      "step": 16185
    },
    {
      "epoch": 3.8974482426576795,
      "grad_norm": 1.1796875,
      "learning_rate": 5.1521028533525996e-05,
      "loss": 0.3502,
      "step": 16190
    },
    {
      "epoch": 3.8986519017814154,
      "grad_norm": 1.0546875,
      "learning_rate": 5.151517513837053e-05,
      "loss": 0.3349,
      "step": 16195
    },
    {
      "epoch": 3.8998555609051517,
      "grad_norm": 1.0703125,
      "learning_rate": 5.1509390541684635e-05,
      "loss": 0.3307,
      "step": 16200
    },
    {
      "epoch": 3.9010592200288876,
      "grad_norm": 1.1171875,
      "learning_rate": 5.150367474865973e-05,
      "loss": 0.3512,
      "step": 16205
    },
    {
      "epoch": 3.902262879152624,
      "grad_norm": 1.0703125,
      "learning_rate": 5.14980277644256e-05,
      "loss": 0.3342,
      "step": 16210
    },
    {
      "epoch": 3.9034665382763603,
      "grad_norm": 1.0390625,
      "learning_rate": 5.14924495940502e-05,
      "loss": 0.3709,
      "step": 16215
    },
    {
      "epoch": 3.904670197400096,
      "grad_norm": 1.046875,
      "learning_rate": 5.148694024253976e-05,
      "loss": 0.3364,
      "step": 16220
    },
    {
      "epoch": 3.9058738565238325,
      "grad_norm": 1.1328125,
      "learning_rate": 5.148149971483873e-05,
      "loss": 0.3621,
      "step": 16225
    },
    {
      "epoch": 3.9070775156475683,
      "grad_norm": 0.97265625,
      "learning_rate": 5.14761280158298e-05,
      "loss": 0.3408,
      "step": 16230
    },
    {
      "epoch": 3.9082811747713047,
      "grad_norm": 1.03125,
      "learning_rate": 5.147082515033391e-05,
      "loss": 0.3505,
      "step": 16235
    },
    {
      "epoch": 3.909484833895041,
      "grad_norm": 0.96484375,
      "learning_rate": 5.146559112311019e-05,
      "loss": 0.3368,
      "step": 16240
    },
    {
      "epoch": 3.9106884930187773,
      "grad_norm": 1.015625,
      "learning_rate": 5.1460425938855996e-05,
      "loss": 0.3625,
      "step": 16245
    },
    {
      "epoch": 3.911892152142513,
      "grad_norm": 1.0546875,
      "learning_rate": 5.145532960220693e-05,
      "loss": 0.344,
      "step": 16250
    },
    {
      "epoch": 3.9130958112662495,
      "grad_norm": 1.0,
      "learning_rate": 5.145030211773677e-05,
      "loss": 0.3412,
      "step": 16255
    },
    {
      "epoch": 3.9142994703899854,
      "grad_norm": 1.0625,
      "learning_rate": 5.144534348995751e-05,
      "loss": 0.3345,
      "step": 16260
    },
    {
      "epoch": 3.9155031295137217,
      "grad_norm": 1.0,
      "learning_rate": 5.144045372331936e-05,
      "loss": 0.3764,
      "step": 16265
    },
    {
      "epoch": 3.916706788637458,
      "grad_norm": 0.921875,
      "learning_rate": 5.143563282221074e-05,
      "loss": 0.363,
      "step": 16270
    },
    {
      "epoch": 3.917910447761194,
      "grad_norm": 1.0546875,
      "learning_rate": 5.143088079095822e-05,
      "loss": 0.3371,
      "step": 16275
    },
    {
      "epoch": 3.9191141068849302,
      "grad_norm": 0.9453125,
      "learning_rate": 5.1426197633826586e-05,
      "loss": 0.3737,
      "step": 16280
    },
    {
      "epoch": 3.920317766008666,
      "grad_norm": 0.8671875,
      "learning_rate": 5.1421583355018846e-05,
      "loss": 0.3295,
      "step": 16285
    },
    {
      "epoch": 3.9215214251324024,
      "grad_norm": 1.0859375,
      "learning_rate": 5.141703795867613e-05,
      "loss": 0.3657,
      "step": 16290
    },
    {
      "epoch": 3.9227250842561388,
      "grad_norm": 1.0546875,
      "learning_rate": 5.14125614488778e-05,
      "loss": 0.3511,
      "step": 16295
    },
    {
      "epoch": 3.923928743379875,
      "grad_norm": 1.0859375,
      "learning_rate": 5.140815382964137e-05,
      "loss": 0.3348,
      "step": 16300
    },
    {
      "epoch": 3.925132402503611,
      "grad_norm": 1.0703125,
      "learning_rate": 5.1403815104922525e-05,
      "loss": 0.3702,
      "step": 16305
    },
    {
      "epoch": 3.9263360616273473,
      "grad_norm": 0.984375,
      "learning_rate": 5.139954527861513e-05,
      "loss": 0.3417,
      "step": 16310
    },
    {
      "epoch": 3.927539720751083,
      "grad_norm": 1.1015625,
      "learning_rate": 5.139534435455119e-05,
      "loss": 0.3503,
      "step": 16315
    },
    {
      "epoch": 3.9287433798748195,
      "grad_norm": 1.078125,
      "learning_rate": 5.139121233650094e-05,
      "loss": 0.3542,
      "step": 16320
    },
    {
      "epoch": 3.929947038998556,
      "grad_norm": 1.0078125,
      "learning_rate": 5.1387149228172694e-05,
      "loss": 0.3381,
      "step": 16325
    },
    {
      "epoch": 3.9311506981222917,
      "grad_norm": 1.078125,
      "learning_rate": 5.138315503321295e-05,
      "loss": 0.329,
      "step": 16330
    },
    {
      "epoch": 3.932354357246028,
      "grad_norm": 1.0390625,
      "learning_rate": 5.1379229755206394e-05,
      "loss": 0.357,
      "step": 16335
    },
    {
      "epoch": 3.933558016369764,
      "grad_norm": 1.078125,
      "learning_rate": 5.1375373397675805e-05,
      "loss": 0.3399,
      "step": 16340
    },
    {
      "epoch": 3.9347616754935,
      "grad_norm": 1.03125,
      "learning_rate": 5.137158596408214e-05,
      "loss": 0.3636,
      "step": 16345
    },
    {
      "epoch": 3.9359653346172365,
      "grad_norm": 1.109375,
      "learning_rate": 5.13678674578245e-05,
      "loss": 0.3488,
      "step": 16350
    },
    {
      "epoch": 3.9371689937409724,
      "grad_norm": 1.046875,
      "learning_rate": 5.136421788224013e-05,
      "loss": 0.3518,
      "step": 16355
    },
    {
      "epoch": 3.9383726528647087,
      "grad_norm": 0.99609375,
      "learning_rate": 5.1360637240604397e-05,
      "loss": 0.3338,
      "step": 16360
    },
    {
      "epoch": 3.9395763119884446,
      "grad_norm": 0.98828125,
      "learning_rate": 5.135712553613078e-05,
      "loss": 0.3321,
      "step": 16365
    },
    {
      "epoch": 3.940779971112181,
      "grad_norm": 0.921875,
      "learning_rate": 5.135368277197096e-05,
      "loss": 0.331,
      "step": 16370
    },
    {
      "epoch": 3.9419836302359172,
      "grad_norm": 1.0546875,
      "learning_rate": 5.135030895121467e-05,
      "loss": 0.3358,
      "step": 16375
    },
    {
      "epoch": 3.9431872893596536,
      "grad_norm": 0.95703125,
      "learning_rate": 5.1347004076889815e-05,
      "loss": 0.3442,
      "step": 16380
    },
    {
      "epoch": 3.9443909484833894,
      "grad_norm": 0.99609375,
      "learning_rate": 5.13437681519624e-05,
      "loss": 0.3449,
      "step": 16385
    },
    {
      "epoch": 3.9455946076071258,
      "grad_norm": 1.0859375,
      "learning_rate": 5.134060117933657e-05,
      "loss": 0.3439,
      "step": 16390
    },
    {
      "epoch": 3.9467982667308616,
      "grad_norm": 0.98828125,
      "learning_rate": 5.133750316185458e-05,
      "loss": 0.3429,
      "step": 16395
    },
    {
      "epoch": 3.948001925854598,
      "grad_norm": 1.0625,
      "learning_rate": 5.133447410229679e-05,
      "loss": 0.3405,
      "step": 16400
    },
    {
      "epoch": 3.9492055849783343,
      "grad_norm": 1.03125,
      "learning_rate": 5.1331514003381674e-05,
      "loss": 0.3476,
      "step": 16405
    },
    {
      "epoch": 3.95040924410207,
      "grad_norm": 1.0546875,
      "learning_rate": 5.132862286776583e-05,
      "loss": 0.3408,
      "step": 16410
    },
    {
      "epoch": 3.9516129032258065,
      "grad_norm": 0.984375,
      "learning_rate": 5.132580069804395e-05,
      "loss": 0.3411,
      "step": 16415
    },
    {
      "epoch": 3.9528165623495424,
      "grad_norm": 1.0078125,
      "learning_rate": 5.132304749674884e-05,
      "loss": 0.3416,
      "step": 16420
    },
    {
      "epoch": 3.9540202214732787,
      "grad_norm": 1.0703125,
      "learning_rate": 5.132036326635141e-05,
      "loss": 0.3396,
      "step": 16425
    },
    {
      "epoch": 3.955223880597015,
      "grad_norm": 0.9296875,
      "learning_rate": 5.1317748009260655e-05,
      "loss": 0.3345,
      "step": 16430
    },
    {
      "epoch": 3.9564275397207513,
      "grad_norm": 0.9921875,
      "learning_rate": 5.1315201727823694e-05,
      "loss": 0.3565,
      "step": 16435
    },
    {
      "epoch": 3.957631198844487,
      "grad_norm": 1.0390625,
      "learning_rate": 5.131272442432574e-05,
      "loss": 0.3553,
      "step": 16440
    },
    {
      "epoch": 3.9588348579682235,
      "grad_norm": 1.109375,
      "learning_rate": 5.1310316100990064e-05,
      "loss": 0.3636,
      "step": 16445
    },
    {
      "epoch": 3.9600385170919594,
      "grad_norm": 1.03125,
      "learning_rate": 5.130797675997806e-05,
      "loss": 0.3387,
      "step": 16450
    },
    {
      "epoch": 3.9612421762156957,
      "grad_norm": 1.0859375,
      "learning_rate": 5.130570640338921e-05,
      "loss": 0.3547,
      "step": 16455
    },
    {
      "epoch": 3.962445835339432,
      "grad_norm": 0.91796875,
      "learning_rate": 5.1303505033261115e-05,
      "loss": 0.335,
      "step": 16460
    },
    {
      "epoch": 3.963649494463168,
      "grad_norm": 1.078125,
      "learning_rate": 5.1301372651569374e-05,
      "loss": 0.3568,
      "step": 16465
    },
    {
      "epoch": 3.9648531535869043,
      "grad_norm": 0.98828125,
      "learning_rate": 5.1299309260227776e-05,
      "loss": 0.3424,
      "step": 16470
    },
    {
      "epoch": 3.96605681271064,
      "grad_norm": 0.99609375,
      "learning_rate": 5.129731486108812e-05,
      "loss": 0.361,
      "step": 16475
    },
    {
      "epoch": 3.9672604718343765,
      "grad_norm": 0.953125,
      "learning_rate": 5.129538945594032e-05,
      "loss": 0.3611,
      "step": 16480
    },
    {
      "epoch": 3.968464130958113,
      "grad_norm": 0.953125,
      "learning_rate": 5.129353304651238e-05,
      "loss": 0.3501,
      "step": 16485
    },
    {
      "epoch": 3.9696677900818487,
      "grad_norm": 1.0625,
      "learning_rate": 5.129174563447034e-05,
      "loss": 0.3535,
      "step": 16490
    },
    {
      "epoch": 3.970871449205585,
      "grad_norm": 1.0859375,
      "learning_rate": 5.129002722141834e-05,
      "loss": 0.363,
      "step": 16495
    },
    {
      "epoch": 3.972075108329321,
      "grad_norm": 1.0625,
      "learning_rate": 5.128837780889862e-05,
      "loss": 0.3431,
      "step": 16500
    },
    {
      "epoch": 3.972075108329321,
      "eval_loss": 0.3325212895870209,
      "eval_runtime": 2.3455,
      "eval_samples_per_second": 85.271,
      "eval_steps_per_second": 85.271,
      "step": 16500
    }
  ],
  "logging_steps": 5,
  "max_steps": 16616,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.13867765661696e+17,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": null
}