{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.6333333333333333,
  "eval_steps": 500,
  "global_step": 3800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 0.3210105299949646,
      "learning_rate": 1.2272727272727271e-05,
      "loss": 10.294613647460938,
      "step": 10
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 0.2156638205051422,
      "learning_rate": 2.5909090909090906e-05,
      "loss": 9.713479614257812,
      "step": 20
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.15897703170776367,
      "learning_rate": 3.954545454545454e-05,
      "loss": 9.326141357421875,
      "step": 30
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.13951502740383148,
      "learning_rate": 5.318181818181818e-05,
      "loss": 9.020196533203125,
      "step": 40
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.12026762217283249,
      "learning_rate": 6.68181818181818e-05,
      "loss": 8.668742370605468,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.09609497338533401,
      "learning_rate": 8.045454545454545e-05,
      "loss": 8.326473999023438,
      "step": 60
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.10631376504898071,
      "learning_rate": 9.40909090909091e-05,
      "loss": 7.9658042907714846,
      "step": 70
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.10316690802574158,
      "learning_rate": 0.00010772727272727271,
      "loss": 7.733299255371094,
      "step": 80
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.09529491513967514,
      "learning_rate": 0.00012136363636363636,
      "loss": 7.559881591796875,
      "step": 90
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.08692844212055206,
      "learning_rate": 0.000135,
      "loss": 7.423441314697266,
      "step": 100
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 0.13299672305583954,
      "learning_rate": 0.00014863636363636362,
      "loss": 7.203767395019531,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.10762651264667511,
      "learning_rate": 0.00016227272727272726,
      "loss": 6.991656494140625,
      "step": 120
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.15066272020339966,
      "learning_rate": 0.00017590909090909088,
      "loss": 6.775782775878906,
      "step": 130
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.16522859036922455,
      "learning_rate": 0.00018954545454545453,
      "loss": 6.557352447509766,
      "step": 140
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.12791681289672852,
      "learning_rate": 0.00020318181818181815,
      "loss": 6.374400329589844,
      "step": 150
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.14518573880195618,
      "learning_rate": 0.00021681818181818182,
      "loss": 6.167789459228516,
      "step": 160
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.11279226839542389,
      "learning_rate": 0.00023045454545454544,
      "loss": 5.949956893920898,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.10456318408250809,
      "learning_rate": 0.00024409090909090905,
      "loss": 5.898213958740234,
      "step": 180
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.08588645607233047,
      "learning_rate": 0.0002577272727272727,
      "loss": 5.692521667480468,
      "step": 190
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.09524291008710861,
      "learning_rate": 0.0002713636363636363,
      "loss": 5.620618057250977,
      "step": 200
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.10834430158138275,
      "learning_rate": 0.000285,
      "loss": 5.490602111816406,
      "step": 210
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.13813409209251404,
      "learning_rate": 0.0002986363636363636,
      "loss": 5.307170867919922,
      "step": 220
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.07976827025413513,
      "learning_rate": 0.000299998205309827,
      "loss": 5.349527740478516,
      "step": 230
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.09545526653528214,
      "learning_rate": 0.00029999200149769797,
      "loss": 5.204251861572265,
      "step": 240
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.10047531872987747,
      "learning_rate": 0.0002999813665901747,
      "loss": 5.08880615234375,
      "step": 250
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.08607863634824753,
      "learning_rate": 0.00029996630090143596,
      "loss": 4.946316528320312,
      "step": 260
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.0853164866566658,
      "learning_rate": 0.0002999468048765554,
      "loss": 4.971838760375976,
      "step": 270
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.08899261802434921,
      "learning_rate": 0.0002999228790914889,
      "loss": 4.88647232055664,
      "step": 280
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.09347144514322281,
      "learning_rate": 0.0002998945242530568,
      "loss": 4.86058235168457,
      "step": 290
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08826533704996109,
      "learning_rate": 0.0002998617411989239,
      "loss": 4.7169921875,
      "step": 300
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.08748706430196762,
      "learning_rate": 0.00029982453089757413,
      "loss": 4.6202129364013675,
      "step": 310
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.08179391920566559,
      "learning_rate": 0.00029978289444828194,
      "loss": 4.677961730957032,
      "step": 320
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.07042308896780014,
      "learning_rate": 0.0002997368330810802,
      "loss": 4.629831314086914,
      "step": 330
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.07931150496006012,
      "learning_rate": 0.0002996863481567235,
      "loss": 4.574167633056641,
      "step": 340
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.08005540817975998,
      "learning_rate": 0.0002996314411666482,
      "loss": 4.560203933715821,
      "step": 350
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08955864608287811,
      "learning_rate": 0.0002995721137329282,
      "loss": 4.448336410522461,
      "step": 360
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.08118876814842224,
      "learning_rate": 0.00029950836760822704,
      "loss": 4.408453750610351,
      "step": 370
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.08658885210752487,
      "learning_rate": 0.0002994402046757462,
      "loss": 4.47790298461914,
      "step": 380
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.07376985251903534,
      "learning_rate": 0.0002993676269491695,
      "loss": 4.35412368774414,
      "step": 390
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.07317084819078445,
      "learning_rate": 0.0002992906365726033,
      "loss": 4.305249404907227,
      "step": 400
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.07801658660173416,
      "learning_rate": 0.00029920923582051377,
      "loss": 4.281742095947266,
      "step": 410
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.08093922585248947,
      "learning_rate": 0.00029912342709765904,
      "loss": 4.267349624633789,
      "step": 420
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.06816517561674118,
      "learning_rate": 0.0002990332129390185,
      "loss": 4.211469268798828,
      "step": 430
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.07379963248968124,
      "learning_rate": 0.00029893859600971793,
      "loss": 4.209768676757813,
      "step": 440
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.06909876316785812,
      "learning_rate": 0.0002988395791049506,
      "loss": 4.091614532470703,
      "step": 450
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.07152755558490753,
      "learning_rate": 0.00029873616514989487,
      "loss": 4.098369598388672,
      "step": 460
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.07937711477279663,
      "learning_rate": 0.00029862835719962757,
      "loss": 4.143830108642578,
      "step": 470
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.06548741459846497,
      "learning_rate": 0.00029851615843903405,
      "loss": 4.0632171630859375,
      "step": 480
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.18737898766994476,
      "learning_rate": 0.0002983995721827137,
      "loss": 4.063528060913086,
      "step": 490
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.07438868284225464,
      "learning_rate": 0.00029827860187488247,
      "loss": 3.988648223876953,
      "step": 500
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.0689290389418602,
      "learning_rate": 0.00029815325108927063,
      "loss": 4.0566871643066404,
      "step": 510
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.10340748727321625,
      "learning_rate": 0.00029802352352901757,
      "loss": 3.994831085205078,
      "step": 520
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.06787977367639542,
      "learning_rate": 0.0002978894230265623,
      "loss": 3.935833740234375,
      "step": 530
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07975687086582184,
      "learning_rate": 0.0002977509535435302,
      "loss": 3.921863555908203,
      "step": 540
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.06528890132904053,
      "learning_rate": 0.00029760811917061607,
      "loss": 3.9329925537109376,
      "step": 550
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.0730508416891098,
      "learning_rate": 0.00029746092412746296,
      "loss": 3.9105804443359373,
      "step": 560
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.07522772252559662,
      "learning_rate": 0.000297309372762538,
      "loss": 3.8793365478515627,
      "step": 570
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.0628182664513588,
      "learning_rate": 0.0002971534695530037,
      "loss": 3.8207466125488283,
      "step": 580
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.06575705111026764,
      "learning_rate": 0.00029699321910458556,
      "loss": 3.7580352783203126,
      "step": 590
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07698246836662292,
      "learning_rate": 0.00029682862615143616,
      "loss": 3.741848373413086,
      "step": 600
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.06195211783051491,
      "learning_rate": 0.00029665969555599535,
      "loss": 3.8356746673583983,
      "step": 610
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.06386427581310272,
      "learning_rate": 0.0002964864323088464,
      "loss": 3.7516510009765627,
      "step": 620
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.06469837576150894,
      "learning_rate": 0.00029630884152856874,
      "loss": 3.7427322387695314,
      "step": 630
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.0628240630030632,
      "learning_rate": 0.00029612692846158676,
      "loss": 3.727589416503906,
      "step": 640
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.06488772481679916,
      "learning_rate": 0.00029594069848201476,
      "loss": 3.6941436767578124,
      "step": 650
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.06034167483448982,
      "learning_rate": 0.00029575015709149813,
      "loss": 3.621521759033203,
      "step": 660
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.06813275068998337,
      "learning_rate": 0.0002955553099190508,
      "loss": 3.5790252685546875,
      "step": 670
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.06076318025588989,
      "learning_rate": 0.0002953561627208891,
      "loss": 3.6731422424316404,
      "step": 680
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.05848376452922821,
      "learning_rate": 0.0002951527213802617,
      "loss": 3.594041442871094,
      "step": 690
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.05992190167307854,
      "learning_rate": 0.00029494499190727566,
      "loss": 3.5415718078613283,
      "step": 700
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 0.06422701478004456,
      "learning_rate": 0.000294732980438719,
      "loss": 3.462107849121094,
      "step": 710
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.06403794884681702,
      "learning_rate": 0.00029451669323787914,
      "loss": 3.475952911376953,
      "step": 720
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 0.06811420619487762,
      "learning_rate": 0.00029429613669435835,
      "loss": 3.537554931640625,
      "step": 730
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 0.06232806295156479,
      "learning_rate": 0.0002940713173238847,
      "loss": 3.438762664794922,
      "step": 740
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.06179925426840782,
      "learning_rate": 0.00029384224176811946,
      "loss": 3.506423568725586,
      "step": 750
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.06174364313483238,
      "learning_rate": 0.0002936089167944611,
      "loss": 3.457561492919922,
      "step": 760
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 0.06338968873023987,
      "learning_rate": 0.00029337134929584524,
      "loss": 3.4751319885253906,
      "step": 770
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.06177922338247299,
      "learning_rate": 0.00029312954629054117,
      "loss": 3.382034683227539,
      "step": 780
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 0.06135409325361252,
      "learning_rate": 0.00029288351492194435,
      "loss": 3.421039581298828,
      "step": 790
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.06828232109546661,
      "learning_rate": 0.00029263326245836536,
      "loss": 3.3520431518554688,
      "step": 800
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.06002147123217583,
      "learning_rate": 0.00029237879629281547,
      "loss": 3.397780990600586,
      "step": 810
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 0.058005087077617645,
      "learning_rate": 0.0002921201239427879,
      "loss": 3.3631446838378904,
      "step": 820
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 0.061771899461746216,
      "learning_rate": 0.0002918572530500357,
      "loss": 3.3797203063964845,
      "step": 830
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.057705093175172806,
      "learning_rate": 0.00029159019138034646,
      "loss": 3.2709060668945313,
      "step": 840
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 0.05799249932169914,
      "learning_rate": 0.0002913189468233124,
      "loss": 3.2947540283203125,
      "step": 850
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 0.059474553912878036,
      "learning_rate": 0.00029104352739209755,
      "loss": 3.4007835388183594,
      "step": 860
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.062213234603405,
      "learning_rate": 0.00029076394122320087,
      "loss": 3.344309997558594,
      "step": 870
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.05876784771680832,
      "learning_rate": 0.00029048019657621605,
      "loss": 3.2779945373535155,
      "step": 880
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 0.06091905012726784,
      "learning_rate": 0.00029019230183358746,
      "loss": 3.178348159790039,
      "step": 890
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.05918685719370842,
      "learning_rate": 0.0002899002655003623,
      "loss": 3.295793914794922,
      "step": 900
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 0.06123294681310654,
      "learning_rate": 0.00028960409620393967,
      "loss": 3.290731430053711,
      "step": 910
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.05882183462381363,
      "learning_rate": 0.00028930380269381553,
      "loss": 3.2458755493164064,
      "step": 920
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.06071766838431358,
      "learning_rate": 0.0002889993938413241,
      "loss": 3.172679138183594,
      "step": 930
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.05640798434615135,
      "learning_rate": 0.0002886908786393761,
      "loss": 3.147473907470703,
      "step": 940
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 0.06143854558467865,
      "learning_rate": 0.0002883782662021927,
      "loss": 3.0966817855834963,
      "step": 950
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.057186760008335114,
      "learning_rate": 0.00028806156576503665,
      "loss": 3.157902717590332,
      "step": 960
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 0.055310387164354324,
      "learning_rate": 0.0002877407866839391,
      "loss": 3.1260229110717774,
      "step": 970
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.05496911332011223,
      "learning_rate": 0.0002874159384354235,
      "loss": 3.158992576599121,
      "step": 980
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.059410616755485535,
      "learning_rate": 0.00028708703061622537,
      "loss": 3.154488182067871,
      "step": 990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.055123843252658844,
      "learning_rate": 0.00028675407294300907,
      "loss": 3.0926492691040037,
      "step": 1000
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 0.05329408124089241,
      "learning_rate": 0.0002864170752520804,
      "loss": 3.0617744445800783,
      "step": 1010
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.056044623255729675,
      "learning_rate": 0.0002860760474990964,
      "loss": 3.087516212463379,
      "step": 1020
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 0.05408351868391037,
      "learning_rate": 0.00028573099975877104,
      "loss": 3.1055776596069338,
      "step": 1030
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.05544357746839523,
      "learning_rate": 0.00028538194222457746,
      "loss": 3.1246124267578126,
      "step": 1040
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.05382883921265602,
      "learning_rate": 0.0002850288852084472,
      "loss": 3.090876007080078,
      "step": 1050
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.051369842141866684,
      "learning_rate": 0.000284671839140465,
      "loss": 3.0661289215087892,
      "step": 1060
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 0.13640367984771729,
      "learning_rate": 0.00028431081456856144,
      "loss": 3.02095947265625,
      "step": 1070
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.057216331362724304,
      "learning_rate": 0.0002839458221582006,
      "loss": 2.9973451614379885,
      "step": 1080
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 0.05637884512543678,
      "learning_rate": 0.0002835768726920654,
      "loss": 3.0164566040039062,
      "step": 1090
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.05454772338271141,
      "learning_rate": 0.00028320397706973886,
      "loss": 3.016462707519531,
      "step": 1100
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.057879574596881866,
      "learning_rate": 0.00028282714630738226,
      "loss": 3.0435638427734375,
      "step": 1110
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.05154268071055412,
      "learning_rate": 0.0002824463915374096,
      "loss": 3.0233779907226563,
      "step": 1120
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 0.056277673691511154,
      "learning_rate": 0.0002820617240081587,
      "loss": 2.926067924499512,
      "step": 1130
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.05215265601873398,
      "learning_rate": 0.00028167315508355903,
      "loss": 2.990224075317383,
      "step": 1140
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.054222747683525085,
      "learning_rate": 0.00028128069624279575,
      "loss": 2.9995689392089844,
      "step": 1150
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.05429333448410034,
      "learning_rate": 0.0002808843590799709,
      "loss": 2.9959491729736327,
      "step": 1160
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.05494142323732376,
      "learning_rate": 0.0002804841553037607,
      "loss": 3.0259002685546874,
      "step": 1170
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.0551028698682785,
      "learning_rate": 0.00028008009673706957,
      "loss": 2.992669677734375,
      "step": 1180
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 0.05398095026612282,
      "learning_rate": 0.00027967219531668114,
      "loss": 2.932081604003906,
      "step": 1190
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.05642660707235336,
      "learning_rate": 0.0002792604630929053,
      "loss": 2.9109691619873046,
      "step": 1200
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 0.05668719485402107,
      "learning_rate": 0.0002788449122292223,
      "loss": 2.938386154174805,
      "step": 1210
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 0.05754353851079941,
      "learning_rate": 0.0002784255550019237,
      "loss": 2.9342037200927735,
      "step": 1220
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.05338355898857117,
      "learning_rate": 0.0002780024037997492,
      "loss": 2.96917781829834,
      "step": 1230
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.051635079085826874,
      "learning_rate": 0.00027757547112352096,
      "loss": 2.86716365814209,
      "step": 1240
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.05334772914648056,
      "learning_rate": 0.00027714476958577445,
      "loss": 2.945565605163574,
      "step": 1250
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.052452776581048965,
      "learning_rate": 0.00027671031191038527,
      "loss": 2.941428375244141,
      "step": 1260
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 0.0512646809220314,
      "learning_rate": 0.00027627211093219403,
      "loss": 2.8494869232177735,
      "step": 1270
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.056696198880672455,
      "learning_rate": 0.00027583017959662655,
      "loss": 2.886400032043457,
      "step": 1280
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.05387052148580551,
      "learning_rate": 0.0002753845309593116,
      "loss": 2.9645118713378906,
      "step": 1290
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.05135899782180786,
      "learning_rate": 0.0002749351781856955,
      "loss": 2.9441659927368162,
      "step": 1300
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 0.056282345205545425,
      "learning_rate": 0.00027448213455065273,
      "loss": 2.8547969818115235,
      "step": 1310
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.05254548415541649,
      "learning_rate": 0.00027402541343809415,
      "loss": 2.847319412231445,
      "step": 1320
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 0.05182240530848503,
      "learning_rate": 0.0002735650283405713,
      "loss": 2.7736480712890623,
      "step": 1330
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.05136930197477341,
      "learning_rate": 0.000273100992858878,
      "loss": 2.7611309051513673,
      "step": 1340
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.052184589207172394,
      "learning_rate": 0.0002726333207016484,
      "loss": 2.841841125488281,
      "step": 1350
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.05014161020517349,
      "learning_rate": 0.0002721620256849522,
      "loss": 2.8447540283203123,
      "step": 1360
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 0.05224721133708954,
      "learning_rate": 0.00027168712173188646,
      "loss": 2.802615928649902,
      "step": 1370
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.052749648690223694,
      "learning_rate": 0.000271208622872164,
      "loss": 2.801313781738281,
      "step": 1380
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 0.04991906136274338,
      "learning_rate": 0.0002707265432416991,
      "loss": 2.7495779037475585,
      "step": 1390
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.050237707793712616,
      "learning_rate": 0.0002702408970821903,
      "loss": 2.8282100677490236,
      "step": 1400
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.05390395596623421,
      "learning_rate": 0.0002697516987406988,
      "loss": 2.7946498870849608,
      "step": 1410
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.0502890981733799,
      "learning_rate": 0.0002692589626692255,
      "loss": 2.825344467163086,
      "step": 1420
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 0.04883512109518051,
      "learning_rate": 0.0002687627034242834,
      "loss": 2.7205974578857424,
      "step": 1430
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.052392296493053436,
      "learning_rate": 0.00026826293566646804,
      "loss": 2.8439666748046877,
      "step": 1440
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 0.05233413726091385,
      "learning_rate": 0.00026775967416002404,
      "loss": 2.724414253234863,
      "step": 1450
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.050031282007694244,
      "learning_rate": 0.0002672529337724092,
      "loss": 2.7721183776855467,
      "step": 1460
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.050909098237752914,
      "learning_rate": 0.00026674272947385506,
      "loss": 2.732928466796875,
      "step": 1470
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.05034490302205086,
      "learning_rate": 0.00026622907633692483,
      "loss": 2.7958042144775392,
      "step": 1480
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 0.04935199022293091,
      "learning_rate": 0.0002657119895360679,
      "loss": 2.7595340728759767,
      "step": 1490
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.05351424962282181,
      "learning_rate": 0.0002651914843471718,
      "loss": 2.759909439086914,
      "step": 1500
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 0.05047458037734032,
      "learning_rate": 0.0002646675761471109,
      "loss": 2.7807662963867186,
      "step": 1510
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 0.05166192352771759,
      "learning_rate": 0.0002641402804132917,
      "loss": 2.7948539733886717,
      "step": 1520
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.05240360647439957,
      "learning_rate": 0.0002636096127231964,
      "loss": 2.758434295654297,
      "step": 1530
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 0.0527547188103199,
      "learning_rate": 0.00026307558875392185,
      "loss": 2.696501541137695,
      "step": 1540
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 0.04855458065867424,
      "learning_rate": 0.00026253822428171704,
      "loss": 2.7219696044921875,
      "step": 1550
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.050831303000450134,
      "learning_rate": 0.00026199753518151665,
      "loss": 2.6843378067016603,
      "step": 1560
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 0.04829718917608261,
      "learning_rate": 0.00026145353742647234,
      "loss": 2.7331058502197267,
      "step": 1570
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 0.05254271253943443,
      "learning_rate": 0.0002609062470874807,
      "loss": 2.697750473022461,
      "step": 1580
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.05015081539750099,
      "learning_rate": 0.0002603556803327086,
      "loss": 2.7325275421142576,
      "step": 1590
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.049517519772052765,
      "learning_rate": 0.00025980185342711537,
      "loss": 2.692926025390625,
      "step": 1600
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 0.04981537163257599,
      "learning_rate": 0.00025924478273197244,
      "loss": 2.696280860900879,
      "step": 1610
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.04821797460317612,
      "learning_rate": 0.00025868448470438,
      "loss": 2.742702102661133,
      "step": 1620
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 0.04918017238378525,
      "learning_rate": 0.0002581209758967807,
      "loss": 2.7045921325683593,
      "step": 1630
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 0.046356577426195145,
      "learning_rate": 0.0002575542729564708,
      "loss": 2.740824317932129,
      "step": 1640
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.05072147026658058,
      "learning_rate": 0.00025698439262510824,
      "loss": 2.6823020935058595,
      "step": 1650
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 0.04926977679133415,
      "learning_rate": 0.00025641135173821826,
      "loss": 2.684683609008789,
      "step": 1660
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 0.04812793433666229,
      "learning_rate": 0.0002558351672246957,
      "loss": 2.6484798431396483,
      "step": 1670
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.05095838010311127,
      "learning_rate": 0.00025525585610630517,
      "loss": 2.598258209228516,
      "step": 1680
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 0.04753347486257553,
      "learning_rate": 0.0002546734354971782,
      "loss": 2.7237998962402346,
      "step": 1690
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.04822186380624771,
      "learning_rate": 0.00025408792260330745,
      "loss": 2.6640552520751952,
      "step": 1700
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.04903876781463623,
      "learning_rate": 0.0002534993347220384,
      "loss": 2.6676206588745117,
      "step": 1710
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 0.05019659548997879,
      "learning_rate": 0.0002529076892415587,
      "loss": 2.702348327636719,
      "step": 1720
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 0.0495338961482048,
      "learning_rate": 0.0002523130036403841,
      "loss": 2.708498001098633,
      "step": 1730
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.0475877970457077,
      "learning_rate": 0.0002517152954868422,
      "loss": 2.687460517883301,
      "step": 1740
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.05122576653957367,
      "learning_rate": 0.0002511145824385536,
      "loss": 2.6367557525634764,
      "step": 1750
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.04755600541830063,
      "learning_rate": 0.00025051088224191,
      "loss": 2.6142791748046874,
      "step": 1760
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.04830149933695793,
      "learning_rate": 0.0002499042127315502,
      "loss": 2.6434532165527345,
      "step": 1770
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 0.05104847997426987,
      "learning_rate": 0.0002492945918298331,
      "loss": 2.651753044128418,
      "step": 1780
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 0.04865805059671402,
      "learning_rate": 0.00024868203754630804,
      "loss": 2.5990322113037108,
      "step": 1790
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.04887863248586655,
      "learning_rate": 0.00024806656797718316,
      "loss": 2.6493152618408202,
      "step": 1800
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 0.05229433625936508,
      "learning_rate": 0.0002474482013047904,
      "loss": 2.5940528869628907,
      "step": 1810
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 0.04907260835170746,
      "learning_rate": 0.00024682695579704867,
      "loss": 2.5858959197998046,
      "step": 1820
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.04654543846845627,
      "learning_rate": 0.00024620284980692394,
      "loss": 2.655795860290527,
      "step": 1830
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 0.04603976756334305,
      "learning_rate": 0.00024557590177188735,
      "loss": 2.6598703384399416,
      "step": 1840
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 0.04806356877088547,
      "learning_rate": 0.0002449461302133701,
      "loss": 2.5390226364135744,
      "step": 1850
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.05908679962158203,
      "learning_rate": 0.0002443135537362166,
      "loss": 2.6288856506347655,
      "step": 1860
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 0.04684751480817795,
      "learning_rate": 0.00024367819102813487,
      "loss": 2.5432594299316404,
      "step": 1870
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 0.04680655896663666,
      "learning_rate": 0.00024304006085914412,
      "loss": 2.5751720428466798,
      "step": 1880
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.050615034997463226,
      "learning_rate": 0.0002423991820810207,
      "loss": 2.5600002288818358,
      "step": 1890
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 0.047421351075172424,
      "learning_rate": 0.0002417555736267408,
      "loss": 2.557647705078125,
      "step": 1900
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 0.04778824374079704,
      "learning_rate": 0.00024110925450992137,
      "loss": 2.5525718688964845,
      "step": 1910
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.04954797402024269,
      "learning_rate": 0.0002404602438242583,
      "loss": 2.575938034057617,
      "step": 1920
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 0.050552625209093094,
      "learning_rate": 0.00023980856074296236,
      "loss": 2.5811349868774416,
      "step": 1930
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 0.048965174704790115,
      "learning_rate": 0.00023915422451819282,
      "loss": 2.631545639038086,
      "step": 1940
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.04841230437159538,
      "learning_rate": 0.00023849725448048863,
      "loss": 2.5535526275634766,
      "step": 1950
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 0.04769090935587883,
      "learning_rate": 0.00023783767003819747,
      "loss": 2.5577981948852537,
      "step": 1960
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 0.04834979772567749,
      "learning_rate": 0.00023717549067690225,
      "loss": 2.5483366012573243,
      "step": 1970
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.048443444073200226,
      "learning_rate": 0.0002365107359588455,
      "loss": 2.5292953491210937,
      "step": 1980
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 0.05136331170797348,
      "learning_rate": 0.00023584342552235163,
      "loss": 2.5718793869018555,
      "step": 1990
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.047627076506614685,
      "learning_rate": 0.0002351735790812465,
      "loss": 2.577315902709961,
      "step": 2000
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.04710236191749573,
      "learning_rate": 0.00023450121642427506,
      "loss": 2.5738367080688476,
      "step": 2010
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 0.04677637666463852,
      "learning_rate": 0.00023382635741451717,
      "loss": 2.5813961029052734,
      "step": 2020
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 0.04876928776502609,
      "learning_rate": 0.00023314902198880006,
      "loss": 2.543820381164551,
      "step": 2030
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.04665738344192505,
      "learning_rate": 0.00023246923015711005,
      "loss": 2.5952043533325195,
      "step": 2040
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 0.04646483436226845,
      "learning_rate": 0.00023178700200200109,
      "loss": 2.552678680419922,
      "step": 2050
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 0.05093228071928024,
      "learning_rate": 0.00023110235767800138,
      "loss": 2.550699806213379,
      "step": 2060
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.046919822692871094,
      "learning_rate": 0.00023041531741101816,
      "loss": 2.5460886001586913,
      "step": 2070
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.04563593491911888,
      "learning_rate": 0.00022972590149774021,
      "loss": 2.4875654220581054,
      "step": 2080
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 0.05062221735715866,
      "learning_rate": 0.00022903413030503806,
      "loss": 2.5220041275024414,
      "step": 2090
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.04856550693511963,
      "learning_rate": 0.00022834002426936237,
      "loss": 2.5281932830810545,
      "step": 2100
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 0.0449577234685421,
      "learning_rate": 0.00022764360389614034,
      "loss": 2.477060890197754,
      "step": 2110
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 0.04712613299489021,
      "learning_rate": 0.0002269448897591697,
      "loss": 2.478282356262207,
      "step": 2120
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.04585791751742363,
      "learning_rate": 0.0002262439025000111,
      "loss": 2.5013359069824217,
      "step": 2130
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 0.044884052127599716,
      "learning_rate": 0.0002255406628273783,
      "loss": 2.439927101135254,
      "step": 2140
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 0.04662775993347168,
      "learning_rate": 0.00022483519151652616,
      "loss": 2.55285530090332,
      "step": 2150
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.04903047904372215,
      "learning_rate": 0.00022412750940863725,
      "loss": 2.493204879760742,
      "step": 2160
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 0.04704448580741882,
      "learning_rate": 0.00022341763741020592,
      "loss": 2.4445751190185545,
      "step": 2170
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 0.04714423418045044,
      "learning_rate": 0.00022270559649242066,
      "loss": 2.5784980773925783,
      "step": 2180
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.04778430610895157,
      "learning_rate": 0.0002219914076905447,
      "loss": 2.5525665283203125,
      "step": 2190
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.04864959418773651,
      "learning_rate": 0.00022127509210329444,
      "loss": 2.5589746475219726,
      "step": 2200
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 0.0469190813601017,
      "learning_rate": 0.00022055667089221638,
      "loss": 2.5075405120849608,
      "step": 2210
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.04603331536054611,
      "learning_rate": 0.00021983616528106162,
      "loss": 2.5121870040893555,
      "step": 2220
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 0.049395956099033356,
      "learning_rate": 0.00021911359655515925,
      "loss": 2.4887548446655274,
      "step": 2230
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.04528217762708664,
      "learning_rate": 0.00021838898606078708,
      "loss": 2.546308135986328,
      "step": 2240
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.04689454659819603,
      "learning_rate": 0.00021766235520454146,
      "loss": 2.51337890625,
      "step": 2250
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 0.04646513611078262,
      "learning_rate": 0.00021693372545270465,
      "loss": 2.5064132690429686,
      "step": 2260
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 0.046086180955171585,
      "learning_rate": 0.00021620311833061073,
      "loss": 2.459269714355469,
      "step": 2270
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.04597856104373932,
      "learning_rate": 0.00021547055542200962,
      "loss": 2.4114471435546876,
      "step": 2280
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 0.04976482689380646,
      "learning_rate": 0.00021473605836842951,
      "loss": 2.517044448852539,
      "step": 2290
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.0472680926322937,
      "learning_rate": 0.00021399964886853752,
      "loss": 2.4628728866577148,
      "step": 2300
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.04661698266863823,
      "learning_rate": 0.00021326134867749865,
      "loss": 2.4527189254760744,
      "step": 2310
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 0.048806458711624146,
      "learning_rate": 0.00021252117960633316,
      "loss": 2.5331987380981444,
      "step": 2320
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 0.04546506330370903,
      "learning_rate": 0.0002117791635212721,
      "loss": 2.4684768676757813,
      "step": 2330
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.047199103981256485,
      "learning_rate": 0.00021103532234311137,
      "loss": 2.4765689849853514,
      "step": 2340
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 0.04428820312023163,
      "learning_rate": 0.00021028967804656416,
      "loss": 2.484756088256836,
      "step": 2350
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 0.04644942283630371,
      "learning_rate": 0.00020954225265961185,
      "loss": 2.4731876373291017,
      "step": 2360
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.07739172875881195,
      "learning_rate": 0.0002087930682628532,
      "loss": 2.5205495834350584,
      "step": 2370
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 0.04783055931329727,
      "learning_rate": 0.00020804214698885178,
      "loss": 2.419384002685547,
      "step": 2380
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 0.04736848548054695,
      "learning_rate": 0.0002072895110214826,
      "loss": 2.4492137908935545,
      "step": 2390
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.046206265687942505,
      "learning_rate": 0.0002065351825952763,
      "loss": 2.541931915283203,
      "step": 2400
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 0.04697568714618683,
      "learning_rate": 0.00020577918399476269,
      "loss": 2.4992557525634767,
      "step": 2410
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 0.047801993787288666,
      "learning_rate": 0.00020502153755381207,
      "loss": 2.5004581451416015,
      "step": 2420
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.044472649693489075,
      "learning_rate": 0.0002042622656549757,
      "loss": 2.412652587890625,
      "step": 2430
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 0.046403296291828156,
      "learning_rate": 0.00020350139072882446,
      "loss": 2.398054504394531,
      "step": 2440
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 0.043542440980672836,
      "learning_rate": 0.000202738935253286,
      "loss": 2.4214170455932615,
      "step": 2450
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.047896455973386765,
      "learning_rate": 0.00020197492175298115,
      "loss": 2.5215213775634764,
      "step": 2460
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 0.04632239043712616,
      "learning_rate": 0.00020120937279855815,
      "loss": 2.4218860626220704,
      "step": 2470
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 0.04408172145485878,
      "learning_rate": 0.00020044231100602595,
      "loss": 2.43825740814209,
      "step": 2480
    },
    {
      "epoch": 0.415,
      "grad_norm": 0.044197119772434235,
      "learning_rate": 0.00019967375903608595,
      "loss": 2.453116607666016,
      "step": 2490
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.04552914947271347,
      "learning_rate": 0.00019890373959346295,
      "loss": 2.4558712005615235,
      "step": 2500
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 0.04537361487746239,
      "learning_rate": 0.00019813227542623386,
      "loss": 2.410854148864746,
      "step": 2510
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.04683098942041397,
      "learning_rate": 0.00019735938932515613,
      "loss": 2.468762969970703,
      "step": 2520
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 0.04723796620965004,
      "learning_rate": 0.00019658510412299423,
      "loss": 2.4386947631835936,
      "step": 2530
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 0.04872257262468338,
      "learning_rate": 0.00019580944269384528,
      "loss": 2.446548843383789,
      "step": 2540
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.04530220106244087,
      "learning_rate": 0.0001950324279524629,
      "loss": 2.3962860107421875,
      "step": 2550
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.0464116670191288,
      "learning_rate": 0.0001942540828535808,
      "loss": 2.4241104125976562,
      "step": 2560
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 0.04835973307490349,
      "learning_rate": 0.00019347443039123433,
      "loss": 2.489682197570801,
      "step": 2570
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.04714079201221466,
      "learning_rate": 0.0001926934935980813,
      "loss": 2.4189998626708986,
      "step": 2580
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 0.0473017580807209,
      "learning_rate": 0.00019191129554472128,
      "loss": 2.450688934326172,
      "step": 2590
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.044971223920583725,
      "learning_rate": 0.0001911278593390145,
      "loss": 2.4232696533203124,
      "step": 2600
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.04822346568107605,
      "learning_rate": 0.00019034320812539885,
      "loss": 2.38757209777832,
      "step": 2610
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 0.04403518885374069,
      "learning_rate": 0.00018955736508420617,
      "loss": 2.400294876098633,
      "step": 2620
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 0.04422234743833542,
      "learning_rate": 0.00018877035343097765,
      "loss": 2.395349884033203,
      "step": 2630
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.05023488029837608,
      "learning_rate": 0.00018798219641577785,
      "loss": 2.4216394424438477,
      "step": 2640
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 0.04575344920158386,
      "learning_rate": 0.00018719291732250773,
      "loss": 2.4583833694458006,
      "step": 2650
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 0.044867198914289474,
      "learning_rate": 0.000186402539468217,
      "loss": 2.495341682434082,
      "step": 2660
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.04729311540722847,
      "learning_rate": 0.00018561108620241524,
      "loss": 2.3960248947143556,
      "step": 2670
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 0.044369276612997055,
      "learning_rate": 0.000184818580906382,
      "loss": 2.3665014266967774,
      "step": 2680
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 0.04449554532766342,
      "learning_rate": 0.00018402504699247625,
      "loss": 2.4309972763061523,
      "step": 2690
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.05088217183947563,
      "learning_rate": 0.0001832305079034443,
      "loss": 2.4841537475585938,
      "step": 2700
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 0.04597931355237961,
      "learning_rate": 0.00018243498711172803,
      "loss": 2.4378997802734377,
      "step": 2710
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.04585069790482521,
      "learning_rate": 0.00018163850811877047,
      "loss": 2.3535308837890625,
      "step": 2720
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.04481475055217743,
      "learning_rate": 0.00018084109445432245,
      "loss": 2.38321533203125,
      "step": 2730
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 0.045594822615385056,
      "learning_rate": 0.00018004276967574682,
      "loss": 2.357186126708984,
      "step": 2740
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 0.04671576991677284,
      "learning_rate": 0.00017924355736732294,
      "loss": 2.3952842712402345,
      "step": 2750
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.047669801861047745,
      "learning_rate": 0.0001784434811395495,
      "loss": 2.3996456146240233,
      "step": 2760
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 0.043536290526390076,
      "learning_rate": 0.00017764256462844756,
      "loss": 2.433817672729492,
      "step": 2770
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 0.04813670367002487,
      "learning_rate": 0.00017684083149486186,
      "loss": 2.4222438812255858,
      "step": 2780
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.04439646378159523,
      "learning_rate": 0.000176038305423762,
      "loss": 2.380870056152344,
      "step": 2790
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.04823291301727295,
      "learning_rate": 0.00017523501012354264,
      "loss": 2.3966320037841795,
      "step": 2800
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 0.047504037618637085,
      "learning_rate": 0.00017443096932532335,
      "loss": 2.3766799926757813,
      "step": 2810
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.046188633888959885,
      "learning_rate": 0.0001736262067822471,
      "loss": 2.3464776992797853,
      "step": 2820
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 0.045701149851083755,
      "learning_rate": 0.0001728207462687791,
      "loss": 2.410634994506836,
      "step": 2830
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 0.04649294540286064,
      "learning_rate": 0.00017201461158000394,
      "loss": 2.3622270584106446,
      "step": 2840
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.044418223202228546,
      "learning_rate": 0.00017120782653092282,
      "loss": 2.3322967529296874,
      "step": 2850
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 0.04588953033089638,
      "learning_rate": 0.0001704004149557502,
      "loss": 2.3850997924804687,
      "step": 2860
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 0.045951224863529205,
      "learning_rate": 0.00016959240070720931,
      "loss": 2.3232908248901367,
      "step": 2870
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.04799751937389374,
      "learning_rate": 0.0001687838076558278,
      "loss": 2.394255828857422,
      "step": 2880
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 0.04349227622151375,
      "learning_rate": 0.00016797465968923248,
      "loss": 2.3627696990966798,
      "step": 2890
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 0.04931052029132843,
      "learning_rate": 0.00016716498071144345,
      "loss": 2.2932670593261717,
      "step": 2900
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.046034786850214005,
      "learning_rate": 0.00016635479464216808,
      "loss": 2.3476810455322266,
      "step": 2910
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 0.04429607465863228,
      "learning_rate": 0.00016554412541609445,
      "loss": 2.372750473022461,
      "step": 2920
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 0.04294951632618904,
      "learning_rate": 0.00016473299698218405,
      "loss": 2.364425277709961,
      "step": 2930
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.04650357365608215,
      "learning_rate": 0.0001639214333029645,
      "loss": 2.416010093688965,
      "step": 2940
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 0.04426836222410202,
      "learning_rate": 0.00016310945835382133,
      "loss": 2.37786865234375,
      "step": 2950
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 0.04512490704655647,
      "learning_rate": 0.00016229709612229014,
      "loss": 2.278778839111328,
      "step": 2960
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.04730796068906784,
      "learning_rate": 0.00016148437060734753,
      "loss": 2.3443241119384766,
      "step": 2970
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 0.04488737881183624,
      "learning_rate": 0.00016067130581870232,
      "loss": 2.3536972045898437,
      "step": 2980
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 0.04450669884681702,
      "learning_rate": 0.00015985792577608628,
      "loss": 2.2811954498291014,
      "step": 2990
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.04698580875992775,
      "learning_rate": 0.00015904425450854453,
      "loss": 2.3730819702148436,
      "step": 3000
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 0.04636741429567337,
      "learning_rate": 0.0001582303160537254,
      "loss": 2.3249029159545898,
      "step": 3010
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 0.04602331295609474,
      "learning_rate": 0.00015741613445717078,
      "loss": 2.3067893981933594,
      "step": 3020
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.04617249593138695,
      "learning_rate": 0.00015660173377160538,
      "loss": 2.283009719848633,
      "step": 3030
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.04522259905934334,
      "learning_rate": 0.00015578713805622629,
      "loss": 2.3601354598999023,
      "step": 3040
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 0.046779610216617584,
      "learning_rate": 0.00015497237137599215,
      "loss": 2.3319862365722654,
      "step": 3050
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.04515037685632706,
      "learning_rate": 0.00015415745780091245,
      "loss": 2.3663728713989256,
      "step": 3060
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 0.04575490206480026,
      "learning_rate": 0.00015334242140533613,
      "loss": 2.3500614166259766,
      "step": 3070
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 0.04535854235291481,
      "learning_rate": 0.00015252728626724053,
      "loss": 2.393706512451172,
      "step": 3080
    },
    {
      "epoch": 0.515,
      "grad_norm": 0.045921266078948975,
      "learning_rate": 0.00015171207646752011,
      "loss": 2.3695343017578123,
      "step": 3090
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 0.04730748385190964,
      "learning_rate": 0.00015089681608927504,
      "loss": 2.3386932373046876,
      "step": 3100
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 0.04488634318113327,
      "learning_rate": 0.00015008152921709966,
      "loss": 2.341836166381836,
      "step": 3110
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.04656840115785599,
      "learning_rate": 0.0001492662399363709,
      "loss": 2.3573772430419924,
      "step": 3120
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 0.04529151692986488,
      "learning_rate": 0.0001484509723325369,
      "loss": 2.3019832611083983,
      "step": 3130
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 0.04620906710624695,
      "learning_rate": 0.0001476357504904055,
      "loss": 2.2781230926513674,
      "step": 3140
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.04393769055604935,
      "learning_rate": 0.00014682059849343255,
      "loss": 2.3518104553222656,
      "step": 3150
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 0.0452096126973629,
      "learning_rate": 0.00014600554042301065,
      "loss": 2.2971092224121095,
      "step": 3160
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 0.049306049942970276,
      "learning_rate": 0.00014519060035775733,
      "loss": 2.3017501831054688,
      "step": 3170
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.04568931460380554,
      "learning_rate": 0.0001443758023728042,
      "loss": 2.2911956787109373,
      "step": 3180
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 0.048901692032814026,
      "learning_rate": 0.00014356117053908552,
      "loss": 2.341995620727539,
      "step": 3190
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.04323117807507515,
      "learning_rate": 0.00014274672892262706,
      "loss": 2.363936996459961,
      "step": 3200
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.04628647118806839,
      "learning_rate": 0.00014193250158383493,
      "loss": 2.334271240234375,
      "step": 3210
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 0.04922735318541527,
      "learning_rate": 0.0001411185125767853,
      "loss": 2.305469512939453,
      "step": 3220
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 0.04770927503705025,
      "learning_rate": 0.00014030478594851336,
      "loss": 2.3782272338867188,
      "step": 3230
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.0444621704518795,
      "learning_rate": 0.00013949134573830308,
      "loss": 2.302769088745117,
      "step": 3240
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 0.04581739008426666,
      "learning_rate": 0.0001386782159769769,
      "loss": 2.2403369903564454,
      "step": 3250
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 0.04609629139304161,
      "learning_rate": 0.0001378654206861861,
      "loss": 2.365464782714844,
      "step": 3260
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.04579797014594078,
      "learning_rate": 0.00013705298387770083,
      "loss": 2.3029930114746096,
      "step": 3270
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 0.04666126146912575,
      "learning_rate": 0.0001362409295527009,
      "loss": 2.3250484466552734,
      "step": 3280
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 0.046123698353767395,
      "learning_rate": 0.00013542928170106675,
      "loss": 2.315472412109375,
      "step": 3290
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.04441944509744644,
      "learning_rate": 0.00013461806430067067,
      "loss": 2.2456735610961913,
      "step": 3300
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 0.04268110916018486,
      "learning_rate": 0.00013380730131666848,
      "loss": 2.2688373565673827,
      "step": 3310
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 0.043934620916843414,
      "learning_rate": 0.00013299701670079148,
      "loss": 2.2969030380249023,
      "step": 3320
    },
    {
      "epoch": 0.555,
      "grad_norm": 0.04863844811916351,
      "learning_rate": 0.00013218723439063906,
      "loss": 2.330823516845703,
      "step": 3330
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 0.044768016785383224,
      "learning_rate": 0.00013137797830897117,
      "loss": 2.2624046325683596,
      "step": 3340
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 0.04282069951295853,
      "learning_rate": 0.000130569272363002,
      "loss": 2.2892608642578125,
      "step": 3350
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.04653938114643097,
      "learning_rate": 0.00012976114044369348,
      "loss": 2.2605030059814455,
      "step": 3360
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 0.042660586535930634,
      "learning_rate": 0.00012895360642504948,
      "loss": 2.3623306274414064,
      "step": 3370
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 0.04504585638642311,
      "learning_rate": 0.0001281466941634105,
      "loss": 2.285787582397461,
      "step": 3380
    },
    {
      "epoch": 0.565,
      "grad_norm": 0.04642009362578392,
      "learning_rate": 0.00012734042749674903,
      "loss": 2.292758560180664,
      "step": 3390
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.04223250225186348,
      "learning_rate": 0.00012653483024396533,
      "loss": 2.320182991027832,
      "step": 3400
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 0.05031217634677887,
      "learning_rate": 0.00012572992620418368,
      "loss": 2.3236270904541017,
      "step": 3410
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.043384041637182236,
      "learning_rate": 0.00012492573915604913,
      "loss": 2.294050598144531,
      "step": 3420
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 0.04652535542845726,
      "learning_rate": 0.00012412229285702536,
      "loss": 2.2717113494873047,
      "step": 3430
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 0.04482412710785866,
      "learning_rate": 0.00012331961104269272,
      "loss": 2.2652692794799805,
      "step": 3440
    },
    {
      "epoch": 0.575,
      "grad_norm": 0.044176436960697174,
      "learning_rate": 0.00012251771742604695,
      "loss": 2.3280864715576173,
      "step": 3450
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 0.045799173414707184,
      "learning_rate": 0.0001217166356967986,
      "loss": 2.2347755432128906,
      "step": 3460
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 0.04302337020635605,
      "learning_rate": 0.00012091638952067339,
      "loss": 2.2540973663330077,
      "step": 3470
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.046573374420404434,
      "learning_rate": 0.00012011700253871287,
      "loss": 2.313714599609375,
      "step": 3480
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 0.045841339975595474,
      "learning_rate": 0.00011931849836657621,
      "loss": 2.279231643676758,
      "step": 3490
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.04207322746515274,
      "learning_rate": 0.0001185209005938423,
      "loss": 2.3070388793945313,
      "step": 3500
    },
    {
      "epoch": 0.585,
      "grad_norm": 0.04581030458211899,
      "learning_rate": 0.000117724232783313,
      "loss": 2.322564697265625,
      "step": 3510
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.04599674418568611,
      "learning_rate": 0.0001169285184703171,
      "loss": 2.2512928009033204,
      "step": 3520
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 0.04576753452420235,
      "learning_rate": 0.00011613378116201498,
      "loss": 2.2783023834228517,
      "step": 3530
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.04758539795875549,
      "learning_rate": 0.000115340044336704,
      "loss": 2.2361690521240236,
      "step": 3540
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 0.0449649915099144,
      "learning_rate": 0.0001145473314431252,
      "loss": 2.3314971923828125,
      "step": 3550
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 0.044728368520736694,
      "learning_rate": 0.00011375566589977027,
      "loss": 2.2693477630615235,
      "step": 3560
    },
    {
      "epoch": 0.595,
      "grad_norm": 0.04283273592591286,
      "learning_rate": 0.00011296507109419001,
      "loss": 2.2808258056640627,
      "step": 3570
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 0.04367575794458389,
      "learning_rate": 0.00011217557038230321,
      "loss": 2.2483858108520507,
      "step": 3580
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 0.0444260872900486,
      "learning_rate": 0.00011138718708770652,
      "loss": 2.314860534667969,
      "step": 3590
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.04368910938501358,
      "learning_rate": 0.00011059994450098592,
      "loss": 2.2928840637207033,
      "step": 3600
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 0.04608900472521782,
      "learning_rate": 0.00010981386587902815,
      "loss": 2.2551433563232424,
      "step": 3610
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 0.046781111508607864,
      "learning_rate": 0.00010902897444433402,
      "loss": 2.271870803833008,
      "step": 3620
    },
    {
      "epoch": 0.605,
      "grad_norm": 0.046633753925561905,
      "learning_rate": 0.00010824529338433196,
      "loss": 2.2948326110839843,
      "step": 3630
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 0.04348091781139374,
      "learning_rate": 0.00010746284585069346,
      "loss": 2.2265501022338867,
      "step": 3640
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 0.04466954246163368,
      "learning_rate": 0.00010668165495864886,
      "loss": 2.216339874267578,
      "step": 3650
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.04601574316620827,
      "learning_rate": 0.00010590174378630452,
      "loss": 2.222498893737793,
      "step": 3660
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 0.04669777676463127,
      "learning_rate": 0.00010512313537396103,
      "loss": 2.2816734313964844,
      "step": 3670
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 0.0460570827126503,
      "learning_rate": 0.00010434585272343259,
      "loss": 2.2401283264160154,
      "step": 3680
    },
    {
      "epoch": 0.615,
      "grad_norm": 0.046909622848033905,
      "learning_rate": 0.00010356991879736749,
      "loss": 2.266475296020508,
      "step": 3690
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 0.04723437875509262,
      "learning_rate": 0.00010279535651856969,
      "loss": 2.2393699645996095,
      "step": 3700
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 0.04490575194358826,
      "learning_rate": 0.00010202218876932163,
      "loss": 2.223342514038086,
      "step": 3710
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.04225336015224457,
      "learning_rate": 0.0001012504383907083,
      "loss": 2.1646907806396483,
      "step": 3720
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 0.046740125864744186,
      "learning_rate": 0.00010048012818194242,
      "loss": 2.3001195907592775,
      "step": 3730
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 0.04719153791666031,
      "learning_rate": 9.971128089969095e-05,
      "loss": 2.232859420776367,
      "step": 3740
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.04699334874749184,
      "learning_rate": 9.894391925740264e-05,
      "loss": 2.250790023803711,
      "step": 3750
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 0.04357234388589859,
      "learning_rate": 9.817806592463727e-05,
      "loss": 2.2239524841308596,
      "step": 3760
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 0.04547634348273277,
      "learning_rate": 9.741374352639579e-05,
      "loss": 2.290673828125,
      "step": 3770
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.04525672644376755,
      "learning_rate": 9.665097464245195e-05,
      "loss": 2.2089996337890625,
      "step": 3780
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 0.04538796842098236,
      "learning_rate": 9.588978180668531e-05,
      "loss": 2.321030044555664,
      "step": 3790
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 0.045243460685014725,
      "learning_rate": 9.513018750641531e-05,
      "loss": 2.2524177551269533,
      "step": 3800
    }
  ],
  "logging_steps": 10,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.346714148732928e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}