{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 1777,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005627462014631402,
      "grad_norm": 0.96278315782547,
      "learning_rate": 1.1235955056179775e-06,
      "loss": 0.8197,
      "step": 1
    },
    {
      "epoch": 0.0028137310073157004,
      "grad_norm": 1.2738590240478516,
      "learning_rate": 5.617977528089888e-06,
      "loss": 1.1947,
      "step": 5
    },
    {
      "epoch": 0.005627462014631401,
      "grad_norm": 2.892261028289795,
      "learning_rate": 1.1235955056179776e-05,
      "loss": 1.2592,
      "step": 10
    },
    {
      "epoch": 0.008441193021947102,
      "grad_norm": 1.4733870029449463,
      "learning_rate": 1.6853932584269665e-05,
      "loss": 1.2391,
      "step": 15
    },
    {
      "epoch": 0.011254924029262802,
      "grad_norm": 1.0532560348510742,
      "learning_rate": 2.2471910112359552e-05,
      "loss": 1.5268,
      "step": 20
    },
    {
      "epoch": 0.014068655036578503,
      "grad_norm": 1.5811922550201416,
      "learning_rate": 2.8089887640449443e-05,
      "loss": 1.0691,
      "step": 25
    },
    {
      "epoch": 0.016882386043894203,
      "grad_norm": 1.4303256273269653,
      "learning_rate": 3.370786516853933e-05,
      "loss": 0.6871,
      "step": 30
    },
    {
      "epoch": 0.019696117051209903,
      "grad_norm": 2.0926148891448975,
      "learning_rate": 3.9325842696629214e-05,
      "loss": 0.6074,
      "step": 35
    },
    {
      "epoch": 0.022509848058525603,
      "grad_norm": 2.149613857269287,
      "learning_rate": 4.4943820224719104e-05,
      "loss": 0.4506,
      "step": 40
    },
    {
      "epoch": 0.025323579065841307,
      "grad_norm": 1.4852650165557861,
      "learning_rate": 5.0561797752808995e-05,
      "loss": 0.6363,
      "step": 45
    },
    {
      "epoch": 0.028137310073157007,
      "grad_norm": 0.8294332027435303,
      "learning_rate": 5.6179775280898885e-05,
      "loss": 0.3258,
      "step": 50
    },
    {
      "epoch": 0.030951041080472707,
      "grad_norm": 0.9797491431236267,
      "learning_rate": 6.179775280898876e-05,
      "loss": 0.4315,
      "step": 55
    },
    {
      "epoch": 0.03376477208778841,
      "grad_norm": 0.8157183527946472,
      "learning_rate": 6.741573033707866e-05,
      "loss": 0.5252,
      "step": 60
    },
    {
      "epoch": 0.03657850309510411,
      "grad_norm": 0.988738477230072,
      "learning_rate": 7.303370786516854e-05,
      "loss": 0.3002,
      "step": 65
    },
    {
      "epoch": 0.03939223410241981,
      "grad_norm": 1.035030484199524,
      "learning_rate": 7.865168539325843e-05,
      "loss": 0.3721,
      "step": 70
    },
    {
      "epoch": 0.04220596510973551,
      "grad_norm": 1.2941393852233887,
      "learning_rate": 8.426966292134831e-05,
      "loss": 0.3631,
      "step": 75
    },
    {
      "epoch": 0.04501969611705121,
      "grad_norm": 0.8939509391784668,
      "learning_rate": 8.988764044943821e-05,
      "loss": 0.3648,
      "step": 80
    },
    {
      "epoch": 0.04783342712436691,
      "grad_norm": 1.7211397886276245,
      "learning_rate": 9.550561797752809e-05,
      "loss": 0.3593,
      "step": 85
    },
    {
      "epoch": 0.050647158131682614,
      "grad_norm": 0.7832581996917725,
      "learning_rate": 0.00010112359550561799,
      "loss": 0.2104,
      "step": 90
    },
    {
      "epoch": 0.05346088913899831,
      "grad_norm": 1.1701756715774536,
      "learning_rate": 0.00010674157303370786,
      "loss": 0.3957,
      "step": 95
    },
    {
      "epoch": 0.056274620146314014,
      "grad_norm": 0.7531750798225403,
      "learning_rate": 0.00011235955056179777,
      "loss": 0.3513,
      "step": 100
    },
    {
      "epoch": 0.05908835115362971,
      "grad_norm": 0.7287600636482239,
      "learning_rate": 0.00011797752808988764,
      "loss": 0.3221,
      "step": 105
    },
    {
      "epoch": 0.061902082160945414,
      "grad_norm": 1.7473770380020142,
      "learning_rate": 0.00012359550561797752,
      "loss": 0.1973,
      "step": 110
    },
    {
      "epoch": 0.06471581316826111,
      "grad_norm": 1.0901485681533813,
      "learning_rate": 0.00012921348314606744,
      "loss": 0.4353,
      "step": 115
    },
    {
      "epoch": 0.06752954417557681,
      "grad_norm": 0.7513278722763062,
      "learning_rate": 0.00013483146067415732,
      "loss": 0.3628,
      "step": 120
    },
    {
      "epoch": 0.07034327518289252,
      "grad_norm": 1.2991347312927246,
      "learning_rate": 0.0001404494382022472,
      "loss": 0.3113,
      "step": 125
    },
    {
      "epoch": 0.07315700619020822,
      "grad_norm": 0.6642701029777527,
      "learning_rate": 0.0001460674157303371,
      "loss": 0.4762,
      "step": 130
    },
    {
      "epoch": 0.07597073719752391,
      "grad_norm": 1.3134933710098267,
      "learning_rate": 0.00015168539325842697,
      "loss": 0.3526,
      "step": 135
    },
    {
      "epoch": 0.07878446820483961,
      "grad_norm": 1.0081052780151367,
      "learning_rate": 0.00015730337078651685,
      "loss": 0.3115,
      "step": 140
    },
    {
      "epoch": 0.08159819921215532,
      "grad_norm": 0.2705545723438263,
      "learning_rate": 0.00016292134831460674,
      "loss": 0.2489,
      "step": 145
    },
    {
      "epoch": 0.08441193021947102,
      "grad_norm": 1.097110390663147,
      "learning_rate": 0.00016853932584269662,
      "loss": 0.4727,
      "step": 150
    },
    {
      "epoch": 0.08722566122678672,
      "grad_norm": 0.8656176328659058,
      "learning_rate": 0.00017415730337078653,
      "loss": 0.4242,
      "step": 155
    },
    {
      "epoch": 0.09003939223410241,
      "grad_norm": 0.8114811778068542,
      "learning_rate": 0.00017977528089887642,
      "loss": 0.3033,
      "step": 160
    },
    {
      "epoch": 0.09285312324141812,
      "grad_norm": 1.072106957435608,
      "learning_rate": 0.0001853932584269663,
      "loss": 0.3359,
      "step": 165
    },
    {
      "epoch": 0.09566685424873382,
      "grad_norm": 0.6422829031944275,
      "learning_rate": 0.00019101123595505618,
      "loss": 0.2874,
      "step": 170
    },
    {
      "epoch": 0.09848058525604952,
      "grad_norm": 1.2826429605484009,
      "learning_rate": 0.00019662921348314607,
      "loss": 0.3826,
      "step": 175
    },
    {
      "epoch": 0.10129431626336523,
      "grad_norm": 0.24743008613586426,
      "learning_rate": 0.00019999922797341667,
      "loss": 0.1672,
      "step": 180
    },
    {
      "epoch": 0.10410804727068092,
      "grad_norm": 0.9253625273704529,
      "learning_rate": 0.00019999054281125283,
      "loss": 0.2247,
      "step": 185
    },
    {
      "epoch": 0.10692177827799662,
      "grad_norm": 0.6312052011489868,
      "learning_rate": 0.0001999722082946312,
      "loss": 0.4353,
      "step": 190
    },
    {
      "epoch": 0.10973550928531232,
      "grad_norm": 0.7200600504875183,
      "learning_rate": 0.00019994422619288159,
      "loss": 0.2801,
      "step": 195
    },
    {
      "epoch": 0.11254924029262803,
      "grad_norm": 0.46093428134918213,
      "learning_rate": 0.00019990659920635152,
      "loss": 0.2552,
      "step": 200
    },
    {
      "epoch": 0.11536297129994373,
      "grad_norm": 2.7881016731262207,
      "learning_rate": 0.00019985933096614578,
      "loss": 0.4449,
      "step": 205
    },
    {
      "epoch": 0.11817670230725942,
      "grad_norm": 0.7893804311752319,
      "learning_rate": 0.00019980242603377573,
      "loss": 0.2687,
      "step": 210
    },
    {
      "epoch": 0.12099043331457512,
      "grad_norm": 0.644159197807312,
      "learning_rate": 0.00019973588990071937,
      "loss": 0.2525,
      "step": 215
    },
    {
      "epoch": 0.12380416432189083,
      "grad_norm": 0.7028160095214844,
      "learning_rate": 0.00019965972898789125,
      "loss": 0.4349,
      "step": 220
    },
    {
      "epoch": 0.12661789532920653,
      "grad_norm": 0.9951076507568359,
      "learning_rate": 0.0001995739506450229,
      "loss": 0.3944,
      "step": 225
    },
    {
      "epoch": 0.12943162633652222,
      "grad_norm": 0.9317317605018616,
      "learning_rate": 0.00019947856314995349,
      "loss": 0.2633,
      "step": 230
    },
    {
      "epoch": 0.13224535734383794,
      "grad_norm": 0.426104336977005,
      "learning_rate": 0.00019937357570783107,
      "loss": 0.2667,
      "step": 235
    },
    {
      "epoch": 0.13505908835115363,
      "grad_norm": 0.7403711676597595,
      "learning_rate": 0.0001992589984502243,
      "loss": 0.4544,
      "step": 240
    },
    {
      "epoch": 0.13787281935846932,
      "grad_norm": 0.7271831035614014,
      "learning_rate": 0.0001991348424341445,
      "loss": 0.3209,
      "step": 245
    },
    {
      "epoch": 0.14068655036578503,
      "grad_norm": 2.071850299835205,
      "learning_rate": 0.00019900111964097893,
      "loss": 0.4721,
      "step": 250
    },
    {
      "epoch": 0.14350028137310072,
      "grad_norm": 0.5502871870994568,
      "learning_rate": 0.0001988578429753342,
      "loss": 0.2698,
      "step": 255
    },
    {
      "epoch": 0.14631401238041644,
      "grad_norm": 1.0685575008392334,
      "learning_rate": 0.00019870502626379127,
      "loss": 0.3656,
      "step": 260
    },
    {
      "epoch": 0.14912774338773213,
      "grad_norm": 0.521375834941864,
      "learning_rate": 0.00019854268425357105,
      "loss": 0.3065,
      "step": 265
    },
    {
      "epoch": 0.15194147439504782,
      "grad_norm": 0.7491894960403442,
      "learning_rate": 0.0001983708326111111,
      "loss": 0.3863,
      "step": 270
    },
    {
      "epoch": 0.15475520540236354,
      "grad_norm": 0.8233822584152222,
      "learning_rate": 0.0001981894879205539,
      "loss": 0.3434,
      "step": 275
    },
    {
      "epoch": 0.15756893640967923,
      "grad_norm": 0.9702492952346802,
      "learning_rate": 0.0001979986676821465,
      "loss": 0.3103,
      "step": 280
    },
    {
      "epoch": 0.16038266741699495,
      "grad_norm": 1.0381535291671753,
      "learning_rate": 0.00019779839031055157,
      "loss": 0.4879,
      "step": 285
    },
    {
      "epoch": 0.16319639842431063,
      "grad_norm": 0.594953179359436,
      "learning_rate": 0.00019758867513307047,
      "loss": 0.2185,
      "step": 290
    },
    {
      "epoch": 0.16601012943162632,
      "grad_norm": 0.9089880585670471,
      "learning_rate": 0.00019736954238777792,
      "loss": 0.4932,
      "step": 295
    },
    {
      "epoch": 0.16882386043894204,
      "grad_norm": 0.8703072667121887,
      "learning_rate": 0.00019714101322156915,
      "loss": 0.3456,
      "step": 300
    },
    {
      "epoch": 0.17163759144625773,
      "grad_norm": 0.9151054620742798,
      "learning_rate": 0.00019690310968811914,
      "loss": 0.3413,
      "step": 305
    },
    {
      "epoch": 0.17445132245357345,
      "grad_norm": 0.7803131341934204,
      "learning_rate": 0.0001966558547457543,
      "loss": 0.2144,
      "step": 310
    },
    {
      "epoch": 0.17726505346088914,
      "grad_norm": 4.146880626678467,
      "learning_rate": 0.00019639927225523698,
      "loss": 0.2838,
      "step": 315
    },
    {
      "epoch": 0.18007878446820483,
      "grad_norm": 0.8946036696434021,
      "learning_rate": 0.00019613338697746285,
      "loss": 0.3069,
      "step": 320
    },
    {
      "epoch": 0.18289251547552055,
      "grad_norm": 1.0504130125045776,
      "learning_rate": 0.00019585822457107138,
      "loss": 0.1849,
      "step": 325
    },
    {
      "epoch": 0.18570624648283623,
      "grad_norm": 0.5320996642112732,
      "learning_rate": 0.0001955738115899698,
      "loss": 0.4705,
      "step": 330
    },
    {
      "epoch": 0.18851997749015195,
      "grad_norm": 1.0972635746002197,
      "learning_rate": 0.00019528017548077045,
      "loss": 0.1279,
      "step": 335
    },
    {
      "epoch": 0.19133370849746764,
      "grad_norm": 0.9836655855178833,
      "learning_rate": 0.00019497734458014216,
      "loss": 0.3454,
      "step": 340
    },
    {
      "epoch": 0.19414743950478333,
      "grad_norm": 0.9435672163963318,
      "learning_rate": 0.00019466534811207569,
      "loss": 0.1713,
      "step": 345
    },
    {
      "epoch": 0.19696117051209905,
      "grad_norm": 0.8675717115402222,
      "learning_rate": 0.00019434421618506358,
      "loss": 0.4799,
      "step": 350
    },
    {
      "epoch": 0.19977490151941474,
      "grad_norm": 0.5335102677345276,
      "learning_rate": 0.00019401397978919453,
      "loss": 0.242,
      "step": 355
    },
    {
      "epoch": 0.20258863252673046,
      "grad_norm": 0.7480678558349609,
      "learning_rate": 0.00019367467079316279,
      "loss": 0.3568,
      "step": 360
    },
    {
      "epoch": 0.20540236353404615,
      "grad_norm": 0.23846450448036194,
      "learning_rate": 0.0001933263219411928,
      "loss": 0.4519,
      "step": 365
    },
    {
      "epoch": 0.20821609454136183,
      "grad_norm": 0.24460311233997345,
      "learning_rate": 0.00019296896684987925,
      "loss": 0.3763,
      "step": 370
    },
    {
      "epoch": 0.21102982554867755,
      "grad_norm": 0.6336620450019836,
      "learning_rate": 0.0001926026400049429,
      "loss": 0.3754,
      "step": 375
    },
    {
      "epoch": 0.21384355655599324,
      "grad_norm": 0.4195510745048523,
      "learning_rate": 0.00019222737675790276,
      "loss": 0.2576,
      "step": 380
    },
    {
      "epoch": 0.21665728756330896,
      "grad_norm": 1.3396929502487183,
      "learning_rate": 0.00019184321332266452,
      "loss": 0.3267,
      "step": 385
    },
    {
      "epoch": 0.21947101857062465,
      "grad_norm": 0.49325576424598694,
      "learning_rate": 0.0001914501867720258,
      "loss": 0.2602,
      "step": 390
    },
    {
      "epoch": 0.22228474957794034,
      "grad_norm": 0.5282377004623413,
      "learning_rate": 0.00019104833503409848,
      "loss": 0.3498,
      "step": 395
    },
    {
      "epoch": 0.22509848058525606,
      "grad_norm": 0.6364492774009705,
      "learning_rate": 0.00019063769688864866,
      "loss": 0.2147,
      "step": 400
    },
    {
      "epoch": 0.22791221159257175,
      "grad_norm": 0.8976377248764038,
      "learning_rate": 0.00019021831196335418,
      "loss": 0.328,
      "step": 405
    },
    {
      "epoch": 0.23072594259988746,
      "grad_norm": 0.4209904372692108,
      "learning_rate": 0.0001897902207299805,
      "loss": 0.2822,
      "step": 410
    },
    {
      "epoch": 0.23353967360720315,
      "grad_norm": 0.5531566739082336,
      "learning_rate": 0.0001893534645004751,
      "loss": 0.4366,
      "step": 415
    },
    {
      "epoch": 0.23635340461451884,
      "grad_norm": 0.592050313949585,
      "learning_rate": 0.00018890808542298073,
      "loss": 0.381,
      "step": 420
    },
    {
      "epoch": 0.23916713562183456,
      "grad_norm": 0.8051882982254028,
      "learning_rate": 0.00018845412647776794,
      "loss": 0.3602,
      "step": 425
    },
    {
      "epoch": 0.24198086662915025,
      "grad_norm": 0.7593362331390381,
      "learning_rate": 0.0001879916314730875,
      "loss": 0.3809,
      "step": 430
    },
    {
      "epoch": 0.24479459763646597,
      "grad_norm": 1.2135759592056274,
      "learning_rate": 0.00018752064504094272,
      "loss": 0.2138,
      "step": 435
    },
    {
      "epoch": 0.24760832864378166,
      "grad_norm": 0.14413990080356598,
      "learning_rate": 0.00018704121263278227,
      "loss": 0.3506,
      "step": 440
    },
    {
      "epoch": 0.2504220596510974,
      "grad_norm": 0.6321181058883667,
      "learning_rate": 0.00018655338051511413,
      "loss": 0.3232,
      "step": 445
    },
    {
      "epoch": 0.25323579065841306,
      "grad_norm": 0.7276772856712341,
      "learning_rate": 0.00018605719576504065,
      "loss": 0.2345,
      "step": 450
    },
    {
      "epoch": 0.25604952166572875,
      "grad_norm": 0.324861079454422,
      "learning_rate": 0.00018555270626571555,
      "loss": 0.1345,
      "step": 455
    },
    {
      "epoch": 0.25886325267304444,
      "grad_norm": 0.7779459953308105,
      "learning_rate": 0.000185039960701723,
      "loss": 0.2958,
      "step": 460
    },
    {
      "epoch": 0.26167698368036013,
      "grad_norm": 0.6974682211875916,
      "learning_rate": 0.0001845190085543795,
      "loss": 0.2257,
      "step": 465
    },
    {
      "epoch": 0.2644907146876759,
      "grad_norm": 0.9312912821769714,
      "learning_rate": 0.0001839899000969587,
      "loss": 0.353,
      "step": 470
    },
    {
      "epoch": 0.26730444569499157,
      "grad_norm": 0.49484914541244507,
      "learning_rate": 0.00018345268638984003,
      "loss": 0.2321,
      "step": 475
    },
    {
      "epoch": 0.27011817670230726,
      "grad_norm": 0.24110960960388184,
      "learning_rate": 0.00018290741927558113,
      "loss": 0.2501,
      "step": 480
    },
    {
      "epoch": 0.27293190770962295,
      "grad_norm": 0.5313132405281067,
      "learning_rate": 0.00018235415137391497,
      "loss": 0.2477,
      "step": 485
    },
    {
      "epoch": 0.27574563871693863,
      "grad_norm": 0.6360633373260498,
      "learning_rate": 0.00018179293607667178,
      "loss": 0.2846,
      "step": 490
    },
    {
      "epoch": 0.2785593697242544,
      "grad_norm": 0.5810567140579224,
      "learning_rate": 0.00018122382754262681,
      "loss": 0.2196,
      "step": 495
    },
    {
      "epoch": 0.28137310073157007,
      "grad_norm": 0.7277317047119141,
      "learning_rate": 0.00018064688069227368,
      "loss": 0.2656,
      "step": 500
    },
    {
      "epoch": 0.28418683173888576,
      "grad_norm": 0.7561081051826477,
      "learning_rate": 0.00018006215120252453,
      "loss": 0.3004,
      "step": 505
    },
    {
      "epoch": 0.28700056274620145,
      "grad_norm": 0.8930642604827881,
      "learning_rate": 0.0001794696955013369,
      "loss": 0.445,
      "step": 510
    },
    {
      "epoch": 0.28981429375351714,
      "grad_norm": 0.9028257727622986,
      "learning_rate": 0.00017886957076226838,
      "loss": 0.3362,
      "step": 515
    },
    {
      "epoch": 0.2926280247608329,
      "grad_norm": 0.6070359945297241,
      "learning_rate": 0.0001782618348989593,
      "loss": 0.1993,
      "step": 520
    },
    {
      "epoch": 0.2954417557681486,
      "grad_norm": 0.9078888893127441,
      "learning_rate": 0.0001776465465595437,
      "loss": 0.2554,
      "step": 525
    },
    {
      "epoch": 0.29825548677546426,
      "grad_norm": 0.7235105633735657,
      "learning_rate": 0.0001770237651209898,
      "loss": 0.1807,
      "step": 530
    },
    {
      "epoch": 0.30106921778277995,
      "grad_norm": 0.37401115894317627,
      "learning_rate": 0.00017639355068336987,
      "loss": 0.153,
      "step": 535
    },
    {
      "epoch": 0.30388294879009564,
      "grad_norm": 0.4220016896724701,
      "learning_rate": 0.00017575596406406048,
      "loss": 0.2249,
      "step": 540
    },
    {
      "epoch": 0.3066966797974114,
      "grad_norm": 0.6732789278030396,
      "learning_rate": 0.00017511106679187334,
      "loss": 0.1663,
      "step": 545
    },
    {
      "epoch": 0.3095104108047271,
      "grad_norm": 0.8022940754890442,
      "learning_rate": 0.00017445892110111783,
      "loss": 0.3083,
      "step": 550
    },
    {
      "epoch": 0.31232414181204277,
      "grad_norm": 2.0369653701782227,
      "learning_rate": 0.00017379958992559493,
      "loss": 0.3939,
      "step": 555
    },
    {
      "epoch": 0.31513787281935846,
      "grad_norm": 1.5206650495529175,
      "learning_rate": 0.00017313313689252418,
      "loss": 0.3079,
      "step": 560
    },
    {
      "epoch": 0.31795160382667415,
      "grad_norm": 0.343148410320282,
      "learning_rate": 0.00017245962631640341,
      "loss": 0.2408,
      "step": 565
    },
    {
      "epoch": 0.3207653348339899,
      "grad_norm": 0.7586761116981506,
      "learning_rate": 0.00017177912319280217,
      "loss": 0.2298,
      "step": 570
    },
    {
      "epoch": 0.3235790658413056,
      "grad_norm": 0.5147440433502197,
      "learning_rate": 0.00017109169319208948,
      "loss": 0.3067,
      "step": 575
    },
    {
      "epoch": 0.32639279684862127,
      "grad_norm": 0.5967961549758911,
      "learning_rate": 0.0001703974026530966,
      "loss": 0.3291,
      "step": 580
    },
    {
      "epoch": 0.32920652785593696,
      "grad_norm": 0.8705066442489624,
      "learning_rate": 0.00016969631857671497,
      "loss": 0.3395,
      "step": 585
    },
    {
      "epoch": 0.33202025886325265,
      "grad_norm": 0.36913836002349854,
      "learning_rate": 0.00016898850861943058,
      "loss": 0.15,
      "step": 590
    },
    {
      "epoch": 0.3348339898705684,
      "grad_norm": 1.0335655212402344,
      "learning_rate": 0.00016827404108679485,
      "loss": 0.2577,
      "step": 595
    },
    {
      "epoch": 0.3376477208778841,
      "grad_norm": 0.44228196144104004,
      "learning_rate": 0.00016755298492683308,
      "loss": 0.3735,
      "step": 600
    },
    {
      "epoch": 0.3404614518851998,
      "grad_norm": 0.7567837238311768,
      "learning_rate": 0.0001668254097233907,
      "loss": 0.233,
      "step": 605
    },
    {
      "epoch": 0.34327518289251546,
      "grad_norm": 0.7530750632286072,
      "learning_rate": 0.00016609138568941809,
      "loss": 0.34,
      "step": 610
    },
    {
      "epoch": 0.34608891389983115,
      "grad_norm": 0.5381020307540894,
      "learning_rate": 0.0001653509836601952,
      "loss": 0.3743,
      "step": 615
    },
    {
      "epoch": 0.3489026449071469,
      "grad_norm": 1.5347527265548706,
      "learning_rate": 0.00016460427508649546,
      "loss": 0.3224,
      "step": 620
    },
    {
      "epoch": 0.3517163759144626,
      "grad_norm": 0.7328157424926758,
      "learning_rate": 0.0001638513320276907,
      "loss": 0.4606,
      "step": 625
    },
    {
      "epoch": 0.3545301069217783,
      "grad_norm": 0.5422099232673645,
      "learning_rate": 0.0001630922271447972,
      "loss": 0.239,
      "step": 630
    },
    {
      "epoch": 0.35734383792909397,
      "grad_norm": 0.12207705527544022,
      "learning_rate": 0.0001623270336934638,
      "loss": 0.1777,
      "step": 635
    },
    {
      "epoch": 0.36015756893640966,
      "grad_norm": 0.7163983583450317,
      "learning_rate": 0.00016155582551690236,
      "loss": 0.308,
      "step": 640
    },
    {
      "epoch": 0.3629712999437254,
      "grad_norm": 0.5855613350868225,
      "learning_rate": 0.00016077867703876182,
      "loss": 0.3146,
      "step": 645
    },
    {
      "epoch": 0.3657850309510411,
      "grad_norm": 0.3779029846191406,
      "learning_rate": 0.0001599956632559461,
      "loss": 0.2512,
      "step": 650
    },
    {
      "epoch": 0.3685987619583568,
      "grad_norm": 0.4623885452747345,
      "learning_rate": 0.00015920685973137673,
      "loss": 0.3344,
      "step": 655
    },
    {
      "epoch": 0.37141249296567247,
      "grad_norm": 0.5071548819541931,
      "learning_rate": 0.00015841234258670065,
      "loss": 0.2301,
      "step": 660
    },
    {
      "epoch": 0.37422622397298816,
      "grad_norm": 0.8452264070510864,
      "learning_rate": 0.0001576121884949446,
      "loss": 0.3051,
      "step": 665
    },
    {
      "epoch": 0.3770399549803039,
      "grad_norm": 0.3451974391937256,
      "learning_rate": 0.00015680647467311557,
      "loss": 0.2358,
      "step": 670
    },
    {
      "epoch": 0.3798536859876196,
      "grad_norm": 0.7894652485847473,
      "learning_rate": 0.0001559952788747495,
      "loss": 0.2995,
      "step": 675
    },
    {
      "epoch": 0.3826674169949353,
      "grad_norm": 0.6503499746322632,
      "learning_rate": 0.00015517867938240763,
      "loss": 0.3838,
      "step": 680
    },
    {
      "epoch": 0.385481148002251,
      "grad_norm": 0.8255408406257629,
      "learning_rate": 0.00015435675500012212,
      "loss": 0.3326,
      "step": 685
    },
    {
      "epoch": 0.38829487900956666,
      "grad_norm": 0.9840317368507385,
      "learning_rate": 0.00015352958504579123,
      "loss": 0.3544,
      "step": 690
    },
    {
      "epoch": 0.3911086100168824,
      "grad_norm": 0.5513814687728882,
      "learning_rate": 0.00015269724934352497,
      "loss": 0.3565,
      "step": 695
    },
    {
      "epoch": 0.3939223410241981,
      "grad_norm": 0.9206532835960388,
      "learning_rate": 0.00015185982821594175,
      "loss": 0.6995,
      "step": 700
    },
    {
      "epoch": 0.3967360720315138,
      "grad_norm": 0.6624305248260498,
      "learning_rate": 0.00015101740247641714,
      "loss": 0.236,
      "step": 705
    },
    {
      "epoch": 0.3995498030388295,
      "grad_norm": 0.4557129442691803,
      "learning_rate": 0.00015017005342128517,
      "loss": 0.2185,
      "step": 710
    },
    {
      "epoch": 0.40236353404614517,
      "grad_norm": 0.5107508301734924,
      "learning_rate": 0.000149317862821993,
      "loss": 0.2376,
      "step": 715
    },
    {
      "epoch": 0.4051772650534609,
      "grad_norm": 0.6542500257492065,
      "learning_rate": 0.00014846091291720957,
      "loss": 0.3315,
      "step": 720
    },
    {
      "epoch": 0.4079909960607766,
      "grad_norm": 1.1817783117294312,
      "learning_rate": 0.00014759928640488965,
      "loss": 0.27,
      "step": 725
    },
    {
      "epoch": 0.4108047270680923,
      "grad_norm": 0.47976672649383545,
      "learning_rate": 0.00014673306643429314,
      "loss": 0.2458,
      "step": 730
    },
    {
      "epoch": 0.413618458075408,
      "grad_norm": 0.9391474723815918,
      "learning_rate": 0.00014586233659796087,
      "loss": 0.424,
      "step": 735
    },
    {
      "epoch": 0.41643218908272367,
      "grad_norm": 0.6755409240722656,
      "learning_rate": 0.0001449871809236478,
      "loss": 0.3009,
      "step": 740
    },
    {
      "epoch": 0.4192459200900394,
      "grad_norm": 1.1786988973617554,
      "learning_rate": 0.000144107683866214,
      "loss": 0.2926,
      "step": 745
    },
    {
      "epoch": 0.4220596510973551,
      "grad_norm": 0.4564046561717987,
      "learning_rate": 0.00014322393029947468,
      "loss": 0.3663,
      "step": 750
    },
    {
      "epoch": 0.4248733821046708,
      "grad_norm": 0.650117814540863,
      "learning_rate": 0.00014233600550800962,
      "loss": 0.2522,
      "step": 755
    },
    {
      "epoch": 0.4276871131119865,
      "grad_norm": 0.35542795062065125,
      "learning_rate": 0.0001414439951789328,
      "loss": 0.1902,
      "step": 760
    },
    {
      "epoch": 0.4305008441193022,
      "grad_norm": 0.6666870713233948,
      "learning_rate": 0.00014054798539362356,
      "loss": 0.3625,
      "step": 765
    },
    {
      "epoch": 0.4333145751266179,
      "grad_norm": 1.3364002704620361,
      "learning_rate": 0.00013964806261941944,
      "loss": 0.2144,
      "step": 770
    },
    {
      "epoch": 0.4361283061339336,
      "grad_norm": 0.30019038915634155,
      "learning_rate": 0.00013874431370127188,
      "loss": 0.205,
      "step": 775
    },
    {
      "epoch": 0.4389420371412493,
      "grad_norm": 0.7001076936721802,
      "learning_rate": 0.0001378368258533654,
      "loss": 0.4068,
      "step": 780
    },
    {
      "epoch": 0.441755768148565,
      "grad_norm": 1.1424932479858398,
      "learning_rate": 0.0001369256866507012,
      "loss": 0.2298,
      "step": 785
    },
    {
      "epoch": 0.4445694991558807,
      "grad_norm": 0.8599133491516113,
      "learning_rate": 0.00013601098402064607,
      "loss": 0.2843,
      "step": 790
    },
    {
      "epoch": 0.4473832301631964,
      "grad_norm": 0.8263369798660278,
      "learning_rate": 0.00013509280623444695,
      "loss": 0.2451,
      "step": 795
    },
    {
      "epoch": 0.4501969611705121,
      "grad_norm": 0.9365822672843933,
      "learning_rate": 0.00013417124189871272,
      "loss": 0.2621,
      "step": 800
    },
    {
      "epoch": 0.4530106921778278,
      "grad_norm": 0.47065469622612,
      "learning_rate": 0.00013324637994686326,
      "loss": 0.191,
      "step": 805
    },
    {
      "epoch": 0.4558244231851435,
      "grad_norm": 0.6455582976341248,
      "learning_rate": 0.00013231830963054722,
      "loss": 0.2073,
      "step": 810
    },
    {
      "epoch": 0.4586381541924592,
      "grad_norm": 0.8905434012413025,
      "learning_rate": 0.0001313871205110291,
      "loss": 0.3213,
      "step": 815
    },
    {
      "epoch": 0.4614518851997749,
      "grad_norm": 0.44368186593055725,
      "learning_rate": 0.0001304529024505461,
      "loss": 0.4487,
      "step": 820
    },
    {
      "epoch": 0.4642656162070906,
      "grad_norm": 0.3236369788646698,
      "learning_rate": 0.00012951574560363636,
      "loss": 0.2343,
      "step": 825
    },
    {
      "epoch": 0.4670793472144063,
      "grad_norm": 0.3316313624382019,
      "learning_rate": 0.00012857574040843876,
      "loss": 0.1704,
      "step": 830
    },
    {
      "epoch": 0.469893078221722,
      "grad_norm": 1.180114984512329,
      "learning_rate": 0.0001276329775779655,
      "loss": 0.2944,
      "step": 835
    },
    {
      "epoch": 0.4727068092290377,
      "grad_norm": 0.4699708819389343,
      "learning_rate": 0.00012668754809134773,
      "loss": 0.1709,
      "step": 840
    },
    {
      "epoch": 0.47552054023635343,
      "grad_norm": 0.5087912082672119,
      "learning_rate": 0.00012573954318505624,
      "loss": 0.2753,
      "step": 845
    },
    {
      "epoch": 0.4783342712436691,
      "grad_norm": 0.21406421065330505,
      "learning_rate": 0.00012478905434409662,
      "loss": 0.2955,
      "step": 850
    },
    {
      "epoch": 0.4811480022509848,
      "grad_norm": 0.8056962490081787,
      "learning_rate": 0.0001238361732931808,
      "loss": 0.275,
      "step": 855
    },
    {
      "epoch": 0.4839617332583005,
      "grad_norm": 0.7347704768180847,
      "learning_rate": 0.00012288099198787532,
      "loss": 0.2448,
      "step": 860
    },
    {
      "epoch": 0.4867754642656162,
      "grad_norm": 0.43679895997047424,
      "learning_rate": 0.0001219236026057275,
      "loss": 0.4004,
      "step": 865
    },
    {
      "epoch": 0.48958919527293193,
      "grad_norm": 0.4202831983566284,
      "learning_rate": 0.00012096409753736991,
      "loss": 0.1963,
      "step": 870
    },
    {
      "epoch": 0.4924029262802476,
      "grad_norm": 0.8716102838516235,
      "learning_rate": 0.00012000256937760445,
      "loss": 0.225,
      "step": 875
    },
    {
      "epoch": 0.4952166572875633,
      "grad_norm": 0.2482863813638687,
      "learning_rate": 0.00011903911091646684,
      "loss": 0.2338,
      "step": 880
    },
    {
      "epoch": 0.498030388294879,
      "grad_norm": 0.6226937174797058,
      "learning_rate": 0.000118073815130272,
      "loss": 0.3606,
      "step": 885
    },
    {
      "epoch": 0.5008441193021947,
      "grad_norm": 0.4387325942516327,
      "learning_rate": 0.0001171067751726416,
      "loss": 0.231,
      "step": 890
    },
    {
      "epoch": 0.5036578503095104,
      "grad_norm": 0.26261425018310547,
      "learning_rate": 0.00011613808436551454,
      "loss": 0.1239,
      "step": 895
    },
    {
      "epoch": 0.5064715813168261,
      "grad_norm": 1.2383506298065186,
      "learning_rate": 0.00011516783619014109,
      "loss": 0.2496,
      "step": 900
    },
    {
      "epoch": 0.5092853123241418,
      "grad_norm": 1.853761911392212,
      "learning_rate": 0.00011419612427806172,
      "loss": 0.3915,
      "step": 905
    },
    {
      "epoch": 0.5120990433314575,
      "grad_norm": 0.330138623714447,
      "learning_rate": 0.00011322304240207145,
      "loss": 0.0917,
      "step": 910
    },
    {
      "epoch": 0.5149127743387732,
      "grad_norm": 0.41656142473220825,
      "learning_rate": 0.00011224868446717036,
      "loss": 0.1754,
      "step": 915
    },
    {
      "epoch": 0.5177265053460889,
      "grad_norm": 0.6251401901245117,
      "learning_rate": 0.00011127314450150175,
      "loss": 0.3901,
      "step": 920
    },
    {
      "epoch": 0.5205402363534046,
      "grad_norm": 1.254900336265564,
      "learning_rate": 0.00011029651664727798,
      "loss": 0.2828,
      "step": 925
    },
    {
      "epoch": 0.5233539673607203,
      "grad_norm": 0.9572696089744568,
      "learning_rate": 0.00010931889515169555,
      "loss": 0.2235,
      "step": 930
    },
    {
      "epoch": 0.526167698368036,
      "grad_norm": 0.8414142727851868,
      "learning_rate": 0.00010834037435784008,
      "loss": 0.2718,
      "step": 935
    },
    {
      "epoch": 0.5289814293753518,
      "grad_norm": 0.4331166744232178,
      "learning_rate": 0.00010736104869558176,
      "loss": 0.2558,
      "step": 940
    },
    {
      "epoch": 0.5317951603826674,
      "grad_norm": 0.32980430126190186,
      "learning_rate": 0.00010638101267246283,
      "loss": 0.1117,
      "step": 945
    },
    {
      "epoch": 0.5346088913899831,
      "grad_norm": 0.7335298657417297,
      "learning_rate": 0.00010540036086457723,
      "loss": 0.4412,
      "step": 950
    },
    {
      "epoch": 0.5374226223972988,
      "grad_norm": 0.6139857769012451,
      "learning_rate": 0.00010441918790744372,
      "loss": 0.2925,
      "step": 955
    },
    {
      "epoch": 0.5402363534046145,
      "grad_norm": 0.3401097059249878,
      "learning_rate": 0.00010343758848687341,
      "loss": 0.2625,
      "step": 960
    },
    {
      "epoch": 0.5430500844119303,
      "grad_norm": 0.3688424229621887,
      "learning_rate": 0.00010245565732983227,
      "loss": 0.211,
      "step": 965
    },
    {
      "epoch": 0.5458638154192459,
      "grad_norm": 1.3460103273391724,
      "learning_rate": 0.00010147348919529969,
      "loss": 0.3091,
      "step": 970
    },
    {
      "epoch": 0.5486775464265616,
      "grad_norm": 0.4599795937538147,
      "learning_rate": 0.00010049117886512404,
      "loss": 0.2301,
      "step": 975
    },
    {
      "epoch": 0.5514912774338773,
      "grad_norm": 0.5787628293037415,
      "learning_rate": 9.950882113487598e-05,
      "loss": 0.258,
      "step": 980
    },
    {
      "epoch": 0.554305008441193,
      "grad_norm": 0.8748778104782104,
      "learning_rate": 9.852651080470033e-05,
      "loss": 0.3606,
      "step": 985
    },
    {
      "epoch": 0.5571187394485088,
      "grad_norm": 0.4328353703022003,
      "learning_rate": 9.754434267016775e-05,
      "loss": 0.2004,
      "step": 990
    },
    {
      "epoch": 0.5599324704558244,
      "grad_norm": 0.9542059898376465,
      "learning_rate": 9.656241151312661e-05,
      "loss": 0.2206,
      "step": 995
    },
    {
      "epoch": 0.5627462014631401,
      "grad_norm": 0.3367530405521393,
      "learning_rate": 9.558081209255629e-05,
      "loss": 0.1936,
      "step": 1000
    },
    {
      "epoch": 0.5655599324704558,
      "grad_norm": 0.3511320650577545,
      "learning_rate": 9.459963913542279e-05,
      "loss": 0.1467,
      "step": 1005
    },
    {
      "epoch": 0.5683736634777715,
      "grad_norm": 0.5722060799598694,
      "learning_rate": 9.361898732753716e-05,
      "loss": 0.3173,
      "step": 1010
    },
    {
      "epoch": 0.5711873944850873,
      "grad_norm": 0.5380959510803223,
      "learning_rate": 9.263895130441826e-05,
      "loss": 0.2697,
      "step": 1015
    },
    {
      "epoch": 0.5740011254924029,
      "grad_norm": 0.7701444625854492,
      "learning_rate": 9.165962564215993e-05,
      "loss": 0.2513,
      "step": 1020
    },
    {
      "epoch": 0.5768148564997186,
      "grad_norm": 0.44029852747917175,
      "learning_rate": 9.068110484830447e-05,
      "loss": 0.3467,
      "step": 1025
    },
    {
      "epoch": 0.5796285875070343,
      "grad_norm": 0.6167469620704651,
      "learning_rate": 8.970348335272203e-05,
      "loss": 0.3191,
      "step": 1030
    },
    {
      "epoch": 0.58244231851435,
      "grad_norm": 0.8046761751174927,
      "learning_rate": 8.872685549849827e-05,
      "loss": 0.2874,
      "step": 1035
    },
    {
      "epoch": 0.5852560495216658,
      "grad_norm": 0.6045218110084534,
      "learning_rate": 8.775131553282965e-05,
      "loss": 0.2724,
      "step": 1040
    },
    {
      "epoch": 0.5880697805289814,
      "grad_norm": 0.23991712927818298,
      "learning_rate": 8.67769575979286e-05,
      "loss": 0.0839,
      "step": 1045
    },
    {
      "epoch": 0.5908835115362971,
      "grad_norm": 0.5629101395606995,
      "learning_rate": 8.580387572193829e-05,
      "loss": 0.2608,
      "step": 1050
    },
    {
      "epoch": 0.5936972425436128,
      "grad_norm": 0.7069487571716309,
      "learning_rate": 8.483216380985895e-05,
      "loss": 0.359,
      "step": 1055
    },
    {
      "epoch": 0.5965109735509285,
      "grad_norm": 1.0714657306671143,
      "learning_rate": 8.386191563448548e-05,
      "loss": 0.2144,
      "step": 1060
    },
    {
      "epoch": 0.5993247045582443,
      "grad_norm": 0.8178947567939758,
      "learning_rate": 8.289322482735844e-05,
      "loss": 0.3105,
      "step": 1065
    },
    {
      "epoch": 0.6021384355655599,
      "grad_norm": 0.7573699951171875,
      "learning_rate": 8.192618486972803e-05,
      "loss": 0.2918,
      "step": 1070
    },
    {
      "epoch": 0.6049521665728756,
      "grad_norm": 0.3417803645133972,
      "learning_rate": 8.096088908353315e-05,
      "loss": 0.1382,
      "step": 1075
    },
    {
      "epoch": 0.6077658975801913,
      "grad_norm": 0.7476038336753845,
      "learning_rate": 7.999743062239557e-05,
      "loss": 0.4213,
      "step": 1080
    },
    {
      "epoch": 0.610579628587507,
      "grad_norm": 0.3231750726699829,
      "learning_rate": 7.90359024626301e-05,
      "loss": 0.2874,
      "step": 1085
    },
    {
      "epoch": 0.6133933595948228,
      "grad_norm": 0.5958102345466614,
      "learning_rate": 7.807639739427251e-05,
      "loss": 0.2656,
      "step": 1090
    },
    {
      "epoch": 0.6162070906021384,
      "grad_norm": 0.4588276743888855,
      "learning_rate": 7.711900801212466e-05,
      "loss": 0.1933,
      "step": 1095
    },
    {
      "epoch": 0.6190208216094542,
      "grad_norm": 0.5570498704910278,
      "learning_rate": 7.616382670681924e-05,
      "loss": 0.3897,
      "step": 1100
    },
    {
      "epoch": 0.6218345526167698,
      "grad_norm": 0.41902509331703186,
      "learning_rate": 7.521094565590338e-05,
      "loss": 0.2403,
      "step": 1105
    },
    {
      "epoch": 0.6246482836240855,
      "grad_norm": 0.9511467814445496,
      "learning_rate": 7.426045681494378e-05,
      "loss": 0.3146,
      "step": 1110
    },
    {
      "epoch": 0.6274620146314013,
      "grad_norm": 1.1212773323059082,
      "learning_rate": 7.33124519086523e-05,
      "loss": 0.2424,
      "step": 1115
    },
    {
      "epoch": 0.6302757456387169,
      "grad_norm": 0.8666883111000061,
      "learning_rate": 7.236702242203457e-05,
      "loss": 0.319,
      "step": 1120
    },
    {
      "epoch": 0.6330894766460327,
      "grad_norm": 1.2638081312179565,
      "learning_rate": 7.142425959156125e-05,
      "loss": 0.1587,
      "step": 1125
    },
    {
      "epoch": 0.6359032076533483,
      "grad_norm": 0.33488303422927856,
      "learning_rate": 7.04842543963637e-05,
      "loss": 0.2139,
      "step": 1130
    },
    {
      "epoch": 0.638716938660664,
      "grad_norm": 0.6867479681968689,
      "learning_rate": 6.954709754945394e-05,
      "loss": 0.2332,
      "step": 1135
    },
    {
      "epoch": 0.6415306696679798,
      "grad_norm": 0.4780934751033783,
      "learning_rate": 6.861287948897091e-05,
      "loss": 0.1127,
      "step": 1140
    },
    {
      "epoch": 0.6443444006752954,
      "grad_norm": 0.8691847920417786,
      "learning_rate": 6.768169036945277e-05,
      "loss": 0.3039,
      "step": 1145
    },
    {
      "epoch": 0.6471581316826112,
      "grad_norm": 0.4771972894668579,
      "learning_rate": 6.675362005313677e-05,
      "loss": 0.2787,
      "step": 1150
    },
    {
      "epoch": 0.6499718626899268,
      "grad_norm": 0.5366829037666321,
      "learning_rate": 6.58287581012873e-05,
      "loss": 0.1824,
      "step": 1155
    },
    {
      "epoch": 0.6527855936972425,
      "grad_norm": 0.28026753664016724,
      "learning_rate": 6.490719376555305e-05,
      "loss": 0.2074,
      "step": 1160
    },
    {
      "epoch": 0.6555993247045583,
      "grad_norm": 0.9920913577079773,
      "learning_rate": 6.398901597935393e-05,
      "loss": 0.3188,
      "step": 1165
    },
    {
      "epoch": 0.6584130557118739,
      "grad_norm": 0.5217199921607971,
      "learning_rate": 6.30743133492988e-05,
      "loss": 0.2846,
      "step": 1170
    },
    {
      "epoch": 0.6612267867191897,
      "grad_norm": 0.5738883018493652,
      "learning_rate": 6.216317414663463e-05,
      "loss": 0.1972,
      "step": 1175
    },
    {
      "epoch": 0.6640405177265053,
      "grad_norm": 0.3134082853794098,
      "learning_rate": 6.125568629872813e-05,
      "loss": 0.1806,
      "step": 1180
    },
    {
      "epoch": 0.666854248733821,
      "grad_norm": 0.4762999415397644,
      "learning_rate": 6.035193738058056e-05,
      "loss": 0.2386,
      "step": 1185
    },
    {
      "epoch": 0.6696679797411368,
      "grad_norm": 0.48775815963745117,
      "learning_rate": 5.945201460637645e-05,
      "loss": 0.1261,
      "step": 1190
    },
    {
      "epoch": 0.6724817107484524,
      "grad_norm": 0.5460477471351624,
      "learning_rate": 5.855600482106721e-05,
      "loss": 0.3201,
      "step": 1195
    },
    {
      "epoch": 0.6752954417557682,
      "grad_norm": 0.41563519835472107,
      "learning_rate": 5.766399449199037e-05,
      "loss": 0.2287,
      "step": 1200
    },
    {
      "epoch": 0.6781091727630838,
      "grad_norm": 0.832744300365448,
      "learning_rate": 5.677606970052529e-05,
      "loss": 0.5409,
      "step": 1205
    },
    {
      "epoch": 0.6809229037703995,
      "grad_norm": 0.8101387023925781,
      "learning_rate": 5.5892316133786005e-05,
      "loss": 0.1934,
      "step": 1210
    },
    {
      "epoch": 0.6837366347777153,
      "grad_norm": 0.9781274795532227,
      "learning_rate": 5.501281907635223e-05,
      "loss": 0.1842,
      "step": 1215
    },
    {
      "epoch": 0.6865503657850309,
      "grad_norm": 0.36751049757003784,
      "learning_rate": 5.413766340203914e-05,
      "loss": 0.2631,
      "step": 1220
    },
    {
      "epoch": 0.6893640967923467,
      "grad_norm": 0.3681579828262329,
      "learning_rate": 5.3266933565706865e-05,
      "loss": 0.2639,
      "step": 1225
    },
    {
      "epoch": 0.6921778277996623,
      "grad_norm": 0.7795785069465637,
      "learning_rate": 5.240071359511035e-05,
      "loss": 0.3817,
      "step": 1230
    },
    {
      "epoch": 0.694991558806978,
      "grad_norm": 0.6714096069335938,
      "learning_rate": 5.153908708279045e-05,
      "loss": 0.2655,
      "step": 1235
    },
    {
      "epoch": 0.6978052898142938,
      "grad_norm": 0.6018862724304199,
      "learning_rate": 5.0682137178007025e-05,
      "loss": 0.2517,
      "step": 1240
    },
    {
      "epoch": 0.7006190208216094,
      "grad_norm": 0.7170803546905518,
      "learning_rate": 4.9829946578714825e-05,
      "loss": 0.3097,
      "step": 1245
    },
    {
      "epoch": 0.7034327518289252,
      "grad_norm": 0.37394005060195923,
      "learning_rate": 4.898259752358287e-05,
      "loss": 0.1883,
      "step": 1250
    },
    {
      "epoch": 0.7062464828362408,
      "grad_norm": 2.812126874923706,
      "learning_rate": 4.814017178405829e-05,
      "loss": 0.1431,
      "step": 1255
    },
    {
      "epoch": 0.7090602138435566,
      "grad_norm": 0.5540988445281982,
      "learning_rate": 4.730275065647506e-05,
      "loss": 0.2109,
      "step": 1260
    },
    {
      "epoch": 0.7118739448508723,
      "grad_norm": 0.9915019869804382,
      "learning_rate": 4.6470414954208785e-05,
      "loss": 0.2857,
      "step": 1265
    },
    {
      "epoch": 0.7146876758581879,
      "grad_norm": 1.248504400253296,
      "learning_rate": 4.56432449998779e-05,
      "loss": 0.4287,
      "step": 1270
    },
    {
      "epoch": 0.7175014068655037,
      "grad_norm": 0.5127077102661133,
      "learning_rate": 4.482132061759239e-05,
      "loss": 0.204,
      "step": 1275
    },
    {
      "epoch": 0.7203151378728193,
      "grad_norm": 0.6224874258041382,
      "learning_rate": 4.400472112525051e-05,
      "loss": 0.2376,
      "step": 1280
    },
    {
      "epoch": 0.7231288688801351,
      "grad_norm": 0.3423043191432953,
      "learning_rate": 4.3193525326884435e-05,
      "loss": 0.1957,
      "step": 1285
    },
    {
      "epoch": 0.7259425998874508,
      "grad_norm": 0.41790780425071716,
      "learning_rate": 4.238781150505542e-05,
      "loss": 0.3171,
      "step": 1290
    },
    {
      "epoch": 0.7287563308947664,
      "grad_norm": 0.550262451171875,
      "learning_rate": 4.158765741329935e-05,
      "loss": 0.2016,
      "step": 1295
    },
    {
      "epoch": 0.7315700619020822,
      "grad_norm": 0.5064123868942261,
      "learning_rate": 4.079314026862331e-05,
      "loss": 0.2747,
      "step": 1300
    },
    {
      "epoch": 0.7343837929093978,
      "grad_norm": 0.6976874470710754,
      "learning_rate": 4.000433674405392e-05,
      "loss": 0.2478,
      "step": 1305
    },
    {
      "epoch": 0.7371975239167136,
      "grad_norm": 0.8951148986816406,
      "learning_rate": 3.9221322961238213e-05,
      "loss": 0.1747,
      "step": 1310
    },
    {
      "epoch": 0.7400112549240293,
      "grad_norm": 0.5888150930404663,
      "learning_rate": 3.8444174483097675e-05,
      "loss": 0.2342,
      "step": 1315
    },
    {
      "epoch": 0.7428249859313449,
      "grad_norm": 0.39759594202041626,
      "learning_rate": 3.7672966306536226e-05,
      "loss": 0.2402,
      "step": 1320
    },
    {
      "epoch": 0.7456387169386607,
      "grad_norm": 1.4384478330612183,
      "learning_rate": 3.690777285520281e-05,
      "loss": 0.3132,
      "step": 1325
    },
    {
      "epoch": 0.7484524479459763,
      "grad_norm": 0.4053248465061188,
      "learning_rate": 3.614866797230935e-05,
      "loss": 0.1615,
      "step": 1330
    },
    {
      "epoch": 0.7512661789532921,
      "grad_norm": 0.4696710407733917,
      "learning_rate": 3.5395724913504545e-05,
      "loss": 0.1633,
      "step": 1335
    },
    {
      "epoch": 0.7540799099606078,
      "grad_norm": 0.3567434847354889,
      "learning_rate": 3.464901633980484e-05,
      "loss": 0.2388,
      "step": 1340
    },
    {
      "epoch": 0.7568936409679234,
      "grad_norm": 0.8810656070709229,
      "learning_rate": 3.3908614310581924e-05,
      "loss": 0.3078,
      "step": 1345
    },
    {
      "epoch": 0.7597073719752392,
      "grad_norm": 0.9257289171218872,
      "learning_rate": 3.3174590276609355e-05,
      "loss": 0.4227,
      "step": 1350
    },
    {
      "epoch": 0.7625211029825548,
      "grad_norm": 0.3970353305339813,
      "learning_rate": 3.24470150731669e-05,
      "loss": 0.108,
      "step": 1355
    },
    {
      "epoch": 0.7653348339898706,
      "grad_norm": 0.4147047996520996,
      "learning_rate": 3.1725958913205166e-05,
      "loss": 0.3138,
      "step": 1360
    },
    {
      "epoch": 0.7681485649971863,
      "grad_norm": 0.29604053497314453,
      "learning_rate": 3.1011491380569425e-05,
      "loss": 0.1246,
      "step": 1365
    },
    {
      "epoch": 0.770962296004502,
      "grad_norm": 0.7796684503555298,
      "learning_rate": 3.0303681423285068e-05,
      "loss": 0.3338,
      "step": 1370
    },
    {
      "epoch": 0.7737760270118177,
      "grad_norm": 0.5329720973968506,
      "learning_rate": 2.9602597346903406e-05,
      "loss": 0.3101,
      "step": 1375
    },
    {
      "epoch": 0.7765897580191333,
      "grad_norm": 0.6327192187309265,
      "learning_rate": 2.8908306807910534e-05,
      "loss": 0.1832,
      "step": 1380
    },
    {
      "epoch": 0.7794034890264491,
      "grad_norm": 0.6063408851623535,
      "learning_rate": 2.822087680719783e-05,
      "loss": 0.2447,
      "step": 1385
    },
    {
      "epoch": 0.7822172200337648,
      "grad_norm": 0.3461267650127411,
      "learning_rate": 2.754037368359661e-05,
      "loss": 0.274,
      "step": 1390
    },
    {
      "epoch": 0.7850309510410804,
      "grad_norm": 0.598047137260437,
      "learning_rate": 2.6866863107475803e-05,
      "loss": 0.173,
      "step": 1395
    },
    {
      "epoch": 0.7878446820483962,
      "grad_norm": 0.7208033800125122,
      "learning_rate": 2.620041007440508e-05,
      "loss": 0.2908,
      "step": 1400
    },
    {
      "epoch": 0.7906584130557118,
      "grad_norm": 0.3856890797615051,
      "learning_rate": 2.5541078898882187e-05,
      "loss": 0.1546,
      "step": 1405
    },
    {
      "epoch": 0.7934721440630276,
      "grad_norm": 0.9550760388374329,
      "learning_rate": 2.4888933208126663e-05,
      "loss": 0.2096,
      "step": 1410
    },
    {
      "epoch": 0.7962858750703433,
      "grad_norm": 0.4413495361804962,
      "learning_rate": 2.4244035935939547e-05,
      "loss": 0.2607,
      "step": 1415
    },
    {
      "epoch": 0.799099606077659,
      "grad_norm": 1.8407310247421265,
      "learning_rate": 2.360644931663014e-05,
      "loss": 0.3178,
      "step": 1420
    },
    {
      "epoch": 0.8019133370849747,
      "grad_norm": 0.6831107139587402,
      "learning_rate": 2.2976234879010218e-05,
      "loss": 0.2287,
      "step": 1425
    },
    {
      "epoch": 0.8047270680922903,
      "grad_norm": 0.7173850536346436,
      "learning_rate": 2.2353453440456316e-05,
      "loss": 0.2534,
      "step": 1430
    },
    {
      "epoch": 0.8075407990996061,
      "grad_norm": 0.5183877944946289,
      "learning_rate": 2.173816510104073e-05,
      "loss": 0.2009,
      "step": 1435
    },
    {
      "epoch": 0.8103545301069218,
      "grad_norm": 0.50481116771698,
      "learning_rate": 2.113042923773164e-05,
      "loss": 0.088,
      "step": 1440
    },
    {
      "epoch": 0.8131682611142375,
      "grad_norm": 0.648539125919342,
      "learning_rate": 2.0530304498663143e-05,
      "loss": 0.1828,
      "step": 1445
    },
    {
      "epoch": 0.8159819921215532,
      "grad_norm": 0.6068935990333557,
      "learning_rate": 1.9937848797475488e-05,
      "loss": 0.2655,
      "step": 1450
    },
    {
      "epoch": 0.8187957231288688,
      "grad_norm": 0.36234456300735474,
      "learning_rate": 1.935311930772632e-05,
      "loss": 0.1955,
      "step": 1455
    },
    {
      "epoch": 0.8216094541361846,
      "grad_norm": 0.5231152176856995,
      "learning_rate": 1.877617245737321e-05,
      "loss": 0.2071,
      "step": 1460
    },
    {
      "epoch": 0.8244231851435003,
      "grad_norm": 0.21570482850074768,
      "learning_rate": 1.8207063923328237e-05,
      "loss": 0.1853,
      "step": 1465
    },
    {
      "epoch": 0.827236916150816,
      "grad_norm": 0.4301048815250397,
      "learning_rate": 1.764584862608507e-05,
      "loss": 0.2832,
      "step": 1470
    },
    {
      "epoch": 0.8300506471581317,
      "grad_norm": 0.44830775260925293,
      "learning_rate": 1.7092580724418882e-05,
      "loss": 0.2344,
      "step": 1475
    },
    {
      "epoch": 0.8328643781654473,
      "grad_norm": 0.42212042212486267,
      "learning_rate": 1.6547313610159986e-05,
      "loss": 0.2679,
      "step": 1480
    },
    {
      "epoch": 0.8356781091727631,
      "grad_norm": 0.7017850875854492,
      "learning_rate": 1.6010099903041332e-05,
      "loss": 0.2124,
      "step": 1485
    },
    {
      "epoch": 0.8384918401800788,
      "grad_norm": 0.8840892910957336,
      "learning_rate": 1.5480991445620542e-05,
      "loss": 0.2939,
      "step": 1490
    },
    {
      "epoch": 0.8413055711873945,
      "grad_norm": 0.8503584265708923,
      "learning_rate": 1.4960039298277029e-05,
      "loss": 0.2429,
      "step": 1495
    },
    {
      "epoch": 0.8441193021947102,
      "grad_norm": 1.0028765201568604,
      "learning_rate": 1.4447293734284474e-05,
      "loss": 0.3548,
      "step": 1500
    },
    {
      "epoch": 0.8469330332020258,
      "grad_norm": 0.5684967637062073,
      "learning_rate": 1.3942804234959373e-05,
      "loss": 0.2871,
      "step": 1505
    },
    {
      "epoch": 0.8497467642093416,
      "grad_norm": 0.7405120730400085,
      "learning_rate": 1.3446619484885903e-05,
      "loss": 0.1683,
      "step": 1510
    },
    {
      "epoch": 0.8525604952166573,
      "grad_norm": 0.6290687918663025,
      "learning_rate": 1.2958787367217751e-05,
      "loss": 0.2926,
      "step": 1515
    },
    {
      "epoch": 0.855374226223973,
      "grad_norm": 0.7487866878509521,
      "learning_rate": 1.2479354959057298e-05,
      "loss": 0.4543,
      "step": 1520
    },
    {
      "epoch": 0.8581879572312887,
      "grad_norm": 0.2865360379219055,
      "learning_rate": 1.2008368526912506e-05,
      "loss": 0.1499,
      "step": 1525
    },
    {
      "epoch": 0.8610016882386043,
      "grad_norm": 0.7912615537643433,
      "learning_rate": 1.1545873522232053e-05,
      "loss": 0.4047,
      "step": 1530
    },
    {
      "epoch": 0.8638154192459201,
      "grad_norm": 0.4929727017879486,
      "learning_rate": 1.1091914577019302e-05,
      "loss": 0.3078,
      "step": 1535
    },
    {
      "epoch": 0.8666291502532358,
      "grad_norm": 0.590064287185669,
      "learning_rate": 1.0646535499524902e-05,
      "loss": 0.2642,
      "step": 1540
    },
    {
      "epoch": 0.8694428812605515,
      "grad_norm": 0.7222818732261658,
      "learning_rate": 1.0209779270019525e-05,
      "loss": 0.241,
      "step": 1545
    },
    {
      "epoch": 0.8722566122678672,
      "grad_norm": 0.8655977249145508,
      "learning_rate": 9.781688036645842e-06,
      "loss": 0.2761,
      "step": 1550
    },
    {
      "epoch": 0.8750703432751828,
      "grad_norm": 0.4627645015716553,
      "learning_rate": 9.362303111351378e-06,
      "loss": 0.1023,
      "step": 1555
    },
    {
      "epoch": 0.8778840742824986,
      "grad_norm": 0.07925199717283249,
      "learning_rate": 8.95166496590153e-06,
      "loss": 0.1914,
      "step": 1560
    },
    {
      "epoch": 0.8806978052898143,
      "grad_norm": 0.3665456771850586,
      "learning_rate": 8.549813227974247e-06,
      "loss": 0.2617,
      "step": 1565
    },
    {
      "epoch": 0.88351153629713,
      "grad_norm": 0.8194103240966797,
      "learning_rate": 8.156786677335493e-06,
      "loss": 0.3987,
      "step": 1570
    },
    {
      "epoch": 0.8863252673044457,
      "grad_norm": 0.4855242669582367,
      "learning_rate": 7.772623242097277e-06,
      "loss": 0.2692,
      "step": 1575
    },
    {
      "epoch": 0.8891389983117614,
      "grad_norm": 0.531732976436615,
      "learning_rate": 7.397359995057118e-06,
      "loss": 0.2017,
      "step": 1580
    },
    {
      "epoch": 0.8919527293190771,
      "grad_norm": 0.23579372465610504,
      "learning_rate": 7.03103315012078e-06,
      "loss": 0.183,
      "step": 1585
    },
    {
      "epoch": 0.8947664603263928,
      "grad_norm": 0.38668301701545715,
      "learning_rate": 6.673678058807198e-06,
      "loss": 0.1825,
      "step": 1590
    },
    {
      "epoch": 0.8975801913337085,
      "grad_norm": 0.5998560190200806,
      "learning_rate": 6.325329206837216e-06,
      "loss": 0.3018,
      "step": 1595
    },
    {
      "epoch": 0.9003939223410242,
      "grad_norm": 0.96495521068573,
      "learning_rate": 5.986020210805488e-06,
      "loss": 0.2978,
      "step": 1600
    },
    {
      "epoch": 0.9032076533483399,
      "grad_norm": 0.6704295873641968,
      "learning_rate": 5.655783814936433e-06,
      "loss": 0.1745,
      "step": 1605
    },
    {
      "epoch": 0.9060213843556556,
      "grad_norm": 0.502069890499115,
      "learning_rate": 5.334651887924324e-06,
      "loss": 0.1923,
      "step": 1610
    },
    {
      "epoch": 0.9088351153629713,
      "grad_norm": 0.1441662758588791,
      "learning_rate": 5.0226554198578576e-06,
      "loss": 0.1279,
      "step": 1615
    },
    {
      "epoch": 0.911648846370287,
      "grad_norm": 0.6545499563217163,
      "learning_rate": 4.719824519229554e-06,
      "loss": 0.2999,
      "step": 1620
    },
    {
      "epoch": 0.9144625773776027,
      "grad_norm": 0.4436165690422058,
      "learning_rate": 4.426188410030196e-06,
      "loss": 0.2404,
      "step": 1625
    },
    {
      "epoch": 0.9172763083849184,
      "grad_norm": 0.2450067549943924,
      "learning_rate": 4.1417754289286184e-06,
      "loss": 0.3257,
      "step": 1630
    },
    {
      "epoch": 0.9200900393922341,
      "grad_norm": 0.5148952603340149,
      "learning_rate": 3.866613022537169e-06,
      "loss": 0.1532,
      "step": 1635
    },
    {
      "epoch": 0.9229037703995498,
      "grad_norm": 0.39606383442878723,
      "learning_rate": 3.600727744763044e-06,
      "loss": 0.3313,
      "step": 1640
    },
    {
      "epoch": 0.9257175014068655,
      "grad_norm": 0.5422732830047607,
      "learning_rate": 3.344145254245723e-06,
      "loss": 0.1593,
      "step": 1645
    },
    {
      "epoch": 0.9285312324141812,
      "grad_norm": 0.565556526184082,
      "learning_rate": 3.0968903118808622e-06,
      "loss": 0.3292,
      "step": 1650
    },
    {
      "epoch": 0.9313449634214969,
      "grad_norm": 0.9481168389320374,
      "learning_rate": 2.85898677843085e-06,
      "loss": 0.1793,
      "step": 1655
    },
    {
      "epoch": 0.9341586944288126,
      "grad_norm": 0.5848947167396545,
      "learning_rate": 2.6304576122221035e-06,
      "loss": 0.2746,
      "step": 1660
    },
    {
      "epoch": 0.9369724254361284,
      "grad_norm": 0.840390145778656,
      "learning_rate": 2.411324866929543e-06,
      "loss": 0.3995,
      "step": 1665
    },
    {
      "epoch": 0.939786156443444,
      "grad_norm": 0.5747278928756714,
      "learning_rate": 2.201609689448425e-06,
      "loss": 0.2925,
      "step": 1670
    },
    {
      "epoch": 0.9425998874507597,
      "grad_norm": 0.518104612827301,
      "learning_rate": 2.0013323178535102e-06,
      "loss": 0.2362,
      "step": 1675
    },
    {
      "epoch": 0.9454136184580754,
      "grad_norm": 0.5568994879722595,
      "learning_rate": 1.810512079446125e-06,
      "loss": 0.2395,
      "step": 1680
    },
    {
      "epoch": 0.9482273494653911,
      "grad_norm": 0.2408752143383026,
      "learning_rate": 1.6291673888889302e-06,
      "loss": 0.1682,
      "step": 1685
    },
    {
      "epoch": 0.9510410804727069,
      "grad_norm": 0.3361740708351135,
      "learning_rate": 1.4573157464289554e-06,
      "loss": 0.1792,
      "step": 1690
    },
    {
      "epoch": 0.9538548114800225,
      "grad_norm": 0.46246424317359924,
      "learning_rate": 1.2949737362087156e-06,
      "loss": 0.1895,
      "step": 1695
    },
    {
      "epoch": 0.9566685424873382,
      "grad_norm": 0.6043664813041687,
      "learning_rate": 1.1421570246658242e-06,
      "loss": 0.2753,
      "step": 1700
    },
    {
      "epoch": 0.9594822734946539,
      "grad_norm": 0.5759782195091248,
      "learning_rate": 9.988803590211037e-07,
      "loss": 0.2,
      "step": 1705
    },
    {
      "epoch": 0.9622960045019696,
      "grad_norm": 0.7253143787384033,
      "learning_rate": 8.6515756585549e-07,
      "loss": 0.3226,
      "step": 1710
    },
    {
      "epoch": 0.9651097355092854,
      "grad_norm": 0.4216267466545105,
      "learning_rate": 7.410015497756994e-07,
      "loss": 0.2211,
      "step": 1715
    },
    {
      "epoch": 0.967923466516601,
      "grad_norm": 0.6309015154838562,
      "learning_rate": 6.264242921689257e-07,
      "loss": 0.2258,
      "step": 1720
    },
    {
      "epoch": 0.9707371975239167,
      "grad_norm": 0.4388352930545807,
      "learning_rate": 5.214368500465305e-07,
      "loss": 0.2074,
      "step": 1725
    },
    {
      "epoch": 0.9735509285312324,
      "grad_norm": 0.36881500482559204,
      "learning_rate": 4.260493549771316e-07,
      "loss": 0.3136,
      "step": 1730
    },
    {
      "epoch": 0.9763646595385481,
      "grad_norm": 0.612010657787323,
      "learning_rate": 3.4027101210876155e-07,
      "loss": 0.29,
      "step": 1735
    },
    {
      "epoch": 0.9791783905458639,
      "grad_norm": 0.5004868507385254,
      "learning_rate": 2.6411009928064556e-07,
      "loss": 0.2251,
      "step": 1740
    },
    {
      "epoch": 0.9819921215531795,
      "grad_norm": 0.3668440878391266,
      "learning_rate": 1.9757396622428482e-07,
      "loss": 0.1813,
      "step": 1745
    },
    {
      "epoch": 0.9848058525604952,
      "grad_norm": 0.45063304901123047,
      "learning_rate": 1.406690338542349e-07,
      "loss": 0.1792,
      "step": 1750
    },
    {
      "epoch": 0.9876195835678109,
      "grad_norm": 0.5779865384101868,
      "learning_rate": 9.340079364847931e-08,
      "loss": 0.2583,
      "step": 1755
    },
    {
      "epoch": 0.9904333145751266,
      "grad_norm": 0.5747032165527344,
      "learning_rate": 5.5773807118442154e-08,
      "loss": 0.2567,
      "step": 1760
    },
    {
      "epoch": 0.9932470455824424,
      "grad_norm": 0.49229690432548523,
      "learning_rate": 2.7791705368818143e-08,
      "loss": 0.1704,
      "step": 1765
    },
    {
      "epoch": 0.996060776589758,
      "grad_norm": 0.24515922367572784,
      "learning_rate": 9.457188747186151e-09,
      "loss": 0.1709,
      "step": 1770
    },
    {
      "epoch": 0.9988745075970737,
      "grad_norm": 0.45681869983673096,
      "learning_rate": 7.720265833510709e-10,
      "loss": 0.2311,
      "step": 1775
    },
    {
      "epoch": 1.0,
      "step": 1777,
      "total_flos": 6.548002937199657e+17,
      "train_loss": 0.29464965595847514,
      "train_runtime": 5546.9812,
      "train_samples_per_second": 2.563,
      "train_steps_per_second": 0.32
    }
  ],
  "logging_steps": 5,
  "max_steps": 1777,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.548002937199657e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}