{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9993075751280986,
  "eval_steps": 50.0,
  "global_step": 2706,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.007385865300281586,
      "grad_norm": 56.16927719116211,
      "learning_rate": 6.666666666666667e-07,
      "loss": 2.2986,
      "step": 10
    },
    {
      "epoch": 0.014771730600563172,
      "grad_norm": 52.235191345214844,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 2.1946,
      "step": 20
    },
    {
      "epoch": 0.02215759590084476,
      "grad_norm": 14.341564178466797,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.9498,
      "step": 30
    },
    {
      "epoch": 0.029543461201126345,
      "grad_norm": 9.743363380432129,
      "learning_rate": 2.666666666666667e-06,
      "loss": 1.7599,
      "step": 40
    },
    {
      "epoch": 0.03692932650140793,
      "grad_norm": 10.694592475891113,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.77,
      "step": 50
    },
    {
      "epoch": 0.04431519180168952,
      "grad_norm": 6.704069137573242,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.5609,
      "step": 60
    },
    {
      "epoch": 0.0517010571019711,
      "grad_norm": 5.9378342628479,
      "learning_rate": 4.666666666666667e-06,
      "loss": 1.5134,
      "step": 70
    },
    {
      "epoch": 0.05908692240225269,
      "grad_norm": 5.821998119354248,
      "learning_rate": 5.333333333333334e-06,
      "loss": 1.4795,
      "step": 80
    },
    {
      "epoch": 0.06647278770253427,
      "grad_norm": 6.466773986816406,
      "learning_rate": 6e-06,
      "loss": 1.4666,
      "step": 90
    },
    {
      "epoch": 0.07385865300281585,
      "grad_norm": 5.7971625328063965,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.4187,
      "step": 100
    },
    {
      "epoch": 0.08124451830309745,
      "grad_norm": 19.75885581970215,
      "learning_rate": 7.333333333333333e-06,
      "loss": 1.4012,
      "step": 110
    },
    {
      "epoch": 0.08863038360337903,
      "grad_norm": 6.692321300506592,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.3932,
      "step": 120
    },
    {
      "epoch": 0.09601624890366062,
      "grad_norm": 8.816634178161621,
      "learning_rate": 8.666666666666668e-06,
      "loss": 1.3924,
      "step": 130
    },
    {
      "epoch": 0.1034021142039422,
      "grad_norm": 6.486945152282715,
      "learning_rate": 9.333333333333334e-06,
      "loss": 1.3117,
      "step": 140
    },
    {
      "epoch": 0.1107879795042238,
      "grad_norm": 8.362743377685547,
      "learning_rate": 1e-05,
      "loss": 1.2642,
      "step": 150
    },
    {
      "epoch": 0.11817384480450538,
      "grad_norm": 7.534619331359863,
      "learning_rate": 1.0666666666666667e-05,
      "loss": 1.2891,
      "step": 160
    },
    {
      "epoch": 0.12555971010478698,
      "grad_norm": 7.239850997924805,
      "learning_rate": 1.1333333333333334e-05,
      "loss": 1.2664,
      "step": 170
    },
    {
      "epoch": 0.13294557540506854,
      "grad_norm": 6.650047779083252,
      "learning_rate": 1.2e-05,
      "loss": 1.2494,
      "step": 180
    },
    {
      "epoch": 0.14033144070535014,
      "grad_norm": 5.859479904174805,
      "learning_rate": 1.2666666666666667e-05,
      "loss": 1.2844,
      "step": 190
    },
    {
      "epoch": 0.1477173060056317,
      "grad_norm": 7.5547027587890625,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.2898,
      "step": 200
    },
    {
      "epoch": 0.1551031713059133,
      "grad_norm": 8.316688537597656,
      "learning_rate": 1.4e-05,
      "loss": 1.1774,
      "step": 210
    },
    {
      "epoch": 0.1624890366061949,
      "grad_norm": 7.763572692871094,
      "learning_rate": 1.4666666666666666e-05,
      "loss": 1.2881,
      "step": 220
    },
    {
      "epoch": 0.16987490190647647,
      "grad_norm": 7.132694244384766,
      "learning_rate": 1.5333333333333334e-05,
      "loss": 1.2359,
      "step": 230
    },
    {
      "epoch": 0.17726076720675807,
      "grad_norm": 6.167331218719482,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.1939,
      "step": 240
    },
    {
      "epoch": 0.18464663250703967,
      "grad_norm": 7.399999141693115,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 1.2213,
      "step": 250
    },
    {
      "epoch": 0.19203249780732123,
      "grad_norm": 5.161776065826416,
      "learning_rate": 1.7333333333333336e-05,
      "loss": 1.1747,
      "step": 260
    },
    {
      "epoch": 0.19941836310760283,
      "grad_norm": 9.162799835205078,
      "learning_rate": 1.8e-05,
      "loss": 1.1751,
      "step": 270
    },
    {
      "epoch": 0.2068042284078844,
      "grad_norm": 6.043332576751709,
      "learning_rate": 1.866666666666667e-05,
      "loss": 1.181,
      "step": 280
    },
    {
      "epoch": 0.214190093708166,
      "grad_norm": 5.533137798309326,
      "learning_rate": 1.9333333333333333e-05,
      "loss": 1.1727,
      "step": 290
    },
    {
      "epoch": 0.2215759590084476,
      "grad_norm": 4.7085862159729,
      "learning_rate": 2e-05,
      "loss": 1.3127,
      "step": 300
    },
    {
      "epoch": 0.22896182430872916,
      "grad_norm": 5.2254815101623535,
      "learning_rate": 1.9999147543290536e-05,
      "loss": 1.1853,
      "step": 310
    },
    {
      "epoch": 0.23634768960901076,
      "grad_norm": 5.015223503112793,
      "learning_rate": 1.999659031849863e-05,
      "loss": 1.1846,
      "step": 320
    },
    {
      "epoch": 0.24373355490929235,
      "grad_norm": 6.505156993865967,
      "learning_rate": 1.9992328761608965e-05,
      "loss": 1.1572,
      "step": 330
    },
    {
      "epoch": 0.25111942020957395,
      "grad_norm": 4.331061840057373,
      "learning_rate": 1.99863635991801e-05,
      "loss": 1.0744,
      "step": 340
    },
    {
      "epoch": 0.2585052855098555,
      "grad_norm": 6.760496616363525,
      "learning_rate": 1.997869584822058e-05,
      "loss": 1.1019,
      "step": 350
    },
    {
      "epoch": 0.2658911508101371,
      "grad_norm": 6.3948235511779785,
      "learning_rate": 1.9969326816015556e-05,
      "loss": 1.1073,
      "step": 360
    },
    {
      "epoch": 0.2732770161104187,
      "grad_norm": 5.087249279022217,
      "learning_rate": 1.9958258099903894e-05,
      "loss": 1.0751,
      "step": 370
    },
    {
      "epoch": 0.2806628814107003,
      "grad_norm": 10.829612731933594,
      "learning_rate": 1.9945491587005867e-05,
      "loss": 1.083,
      "step": 380
    },
    {
      "epoch": 0.28804874671098185,
      "grad_norm": 5.7423176765441895,
      "learning_rate": 1.9931029453901384e-05,
      "loss": 1.0639,
      "step": 390
    },
    {
      "epoch": 0.2954346120112634,
      "grad_norm": 4.613246440887451,
      "learning_rate": 1.9914874166258927e-05,
      "loss": 1.0604,
      "step": 400
    },
    {
      "epoch": 0.30282047731154504,
      "grad_norm": 4.079463005065918,
      "learning_rate": 1.9897028478415165e-05,
      "loss": 1.0017,
      "step": 410
    },
    {
      "epoch": 0.3102063426118266,
      "grad_norm": 4.641962051391602,
      "learning_rate": 1.9877495432905363e-05,
      "loss": 1.0263,
      "step": 420
    },
    {
      "epoch": 0.3175922079121082,
      "grad_norm": 6.14805269241333,
      "learning_rate": 1.9856278359944664e-05,
      "loss": 1.0451,
      "step": 430
    },
    {
      "epoch": 0.3249780732123898,
      "grad_norm": 5.665846824645996,
      "learning_rate": 1.9833380876860305e-05,
      "loss": 1.0361,
      "step": 440
    },
    {
      "epoch": 0.3323639385126714,
      "grad_norm": 7.826813220977783,
      "learning_rate": 1.9808806887474907e-05,
      "loss": 0.9795,
      "step": 450
    },
    {
      "epoch": 0.33974980381295294,
      "grad_norm": 4.955426216125488,
      "learning_rate": 1.9782560581440894e-05,
      "loss": 1.0433,
      "step": 460
    },
    {
      "epoch": 0.34713566911323457,
      "grad_norm": 5.327470302581787,
      "learning_rate": 1.97546464335262e-05,
      "loss": 0.9605,
      "step": 470
    },
    {
      "epoch": 0.35452153441351614,
      "grad_norm": 4.838713645935059,
      "learning_rate": 1.972506920285136e-05,
      "loss": 0.9935,
      "step": 480
    },
    {
      "epoch": 0.3619073997137977,
      "grad_norm": 6.030056476593018,
      "learning_rate": 1.969383393207813e-05,
      "loss": 1.0043,
      "step": 490
    },
    {
      "epoch": 0.36929326501407933,
      "grad_norm": 5.917972087860107,
      "learning_rate": 1.9660945946549727e-05,
      "loss": 0.9701,
      "step": 500
    },
    {
      "epoch": 0.3766791303143609,
      "grad_norm": 4.341779708862305,
      "learning_rate": 1.962641085338294e-05,
      "loss": 0.9913,
      "step": 510
    },
    {
      "epoch": 0.38406499561464247,
      "grad_norm": 4.399661064147949,
      "learning_rate": 1.959023454051215e-05,
      "loss": 0.9196,
      "step": 520
    },
    {
      "epoch": 0.39145086091492404,
      "grad_norm": 4.028534412384033,
      "learning_rate": 1.9552423175685478e-05,
      "loss": 0.9369,
      "step": 530
    },
    {
      "epoch": 0.39883672621520566,
      "grad_norm": 4.389466285705566,
      "learning_rate": 1.9512983205413253e-05,
      "loss": 1.0191,
      "step": 540
    },
    {
      "epoch": 0.40622259151548723,
      "grad_norm": 5.277081489562988,
      "learning_rate": 1.9471921353868932e-05,
      "loss": 0.9399,
      "step": 550
    },
    {
      "epoch": 0.4136084568157688,
      "grad_norm": 4.73630428314209,
      "learning_rate": 1.9429244621742685e-05,
      "loss": 0.9588,
      "step": 560
    },
    {
      "epoch": 0.4209943221160504,
      "grad_norm": 3.3033573627471924,
      "learning_rate": 1.938496028504784e-05,
      "loss": 0.9038,
      "step": 570
    },
    {
      "epoch": 0.428380187416332,
      "grad_norm": 7.80294942855835,
      "learning_rate": 1.9339075893880382e-05,
      "loss": 0.9403,
      "step": 580
    },
    {
      "epoch": 0.43576605271661356,
      "grad_norm": 4.098162651062012,
      "learning_rate": 1.9291599271131737e-05,
      "loss": 0.9344,
      "step": 590
    },
    {
      "epoch": 0.4431519180168952,
      "grad_norm": 3.7808070182800293,
      "learning_rate": 1.9242538511155024e-05,
      "loss": 0.8939,
      "step": 600
    },
    {
      "epoch": 0.45053778331717675,
      "grad_norm": 4.160403728485107,
      "learning_rate": 1.9191901978385048e-05,
      "loss": 0.8786,
      "step": 610
    },
    {
      "epoch": 0.4579236486174583,
      "grad_norm": 3.7800965309143066,
      "learning_rate": 1.9139698305912227e-05,
      "loss": 0.8977,
      "step": 620
    },
    {
      "epoch": 0.46530951391773995,
      "grad_norm": 3.8200621604919434,
      "learning_rate": 1.9085936394010733e-05,
      "loss": 0.8793,
      "step": 630
    },
    {
      "epoch": 0.4726953792180215,
      "grad_norm": 4.453779220581055,
      "learning_rate": 1.903062540862107e-05,
      "loss": 0.8813,
      "step": 640
    },
    {
      "epoch": 0.4800812445183031,
      "grad_norm": 5.653434753417969,
      "learning_rate": 1.897377477978736e-05,
      "loss": 0.9544,
      "step": 650
    },
    {
      "epoch": 0.4874671098185847,
      "grad_norm": 4.868826389312744,
      "learning_rate": 1.8915394200049597e-05,
      "loss": 0.8858,
      "step": 660
    },
    {
      "epoch": 0.4948529751188663,
      "grad_norm": 4.187640190124512,
      "learning_rate": 1.8855493622791163e-05,
      "loss": 0.9077,
      "step": 670
    },
    {
      "epoch": 0.5022388404191479,
      "grad_norm": 4.503122806549072,
      "learning_rate": 1.8794083260541853e-05,
      "loss": 0.9278,
      "step": 680
    },
    {
      "epoch": 0.5096247057194294,
      "grad_norm": 4.902103900909424,
      "learning_rate": 1.8731173583236737e-05,
      "loss": 0.8281,
      "step": 690
    },
    {
      "epoch": 0.517010571019711,
      "grad_norm": 4.273303031921387,
      "learning_rate": 1.8666775316431113e-05,
      "loss": 0.8054,
      "step": 700
    },
    {
      "epoch": 0.5243964363199927,
      "grad_norm": 55.874359130859375,
      "learning_rate": 1.8600899439471902e-05,
      "loss": 0.8091,
      "step": 710
    },
    {
      "epoch": 0.5317823016202742,
      "grad_norm": 4.271385192871094,
      "learning_rate": 1.8533557183625773e-05,
      "loss": 0.788,
      "step": 720
    },
    {
      "epoch": 0.5391681669205558,
      "grad_norm": 5.59772253036499,
      "learning_rate": 1.8464760030164287e-05,
      "loss": 0.7942,
      "step": 730
    },
    {
      "epoch": 0.5465540322208374,
      "grad_norm": 3.724728584289551,
      "learning_rate": 1.8394519708406454e-05,
      "loss": 0.8234,
      "step": 740
    },
    {
      "epoch": 0.5539398975211189,
      "grad_norm": 5.2906036376953125,
      "learning_rate": 1.8322848193718984e-05,
      "loss": 0.8143,
      "step": 750
    },
    {
      "epoch": 0.5613257628214006,
      "grad_norm": 5.114410877227783,
      "learning_rate": 1.82497577054746e-05,
      "loss": 0.7946,
      "step": 760
    },
    {
      "epoch": 0.5687116281216821,
      "grad_norm": 4.730770587921143,
      "learning_rate": 1.8175260704968716e-05,
      "loss": 0.7771,
      "step": 770
    },
    {
      "epoch": 0.5760974934219637,
      "grad_norm": 3.0836727619171143,
      "learning_rate": 1.809936989329492e-05,
      "loss": 0.739,
      "step": 780
    },
    {
      "epoch": 0.5834833587222453,
      "grad_norm": 2.7664663791656494,
      "learning_rate": 1.802209820917952e-05,
      "loss": 0.731,
      "step": 790
    },
    {
      "epoch": 0.5908692240225268,
      "grad_norm": 3.5617446899414062,
      "learning_rate": 1.7943458826775646e-05,
      "loss": 0.6807,
      "step": 800
    },
    {
      "epoch": 0.5982550893228085,
      "grad_norm": 7.652963638305664,
      "learning_rate": 1.786346515341712e-05,
      "loss": 0.6883,
      "step": 810
    },
    {
      "epoch": 0.6056409546230901,
      "grad_norm": 3.5472395420074463,
      "learning_rate": 1.778213082733266e-05,
      "loss": 0.6822,
      "step": 820
    },
    {
      "epoch": 0.6130268199233716,
      "grad_norm": 4.652453899383545,
      "learning_rate": 1.7699469715320663e-05,
      "loss": 0.6508,
      "step": 830
    },
    {
      "epoch": 0.6204126852236532,
      "grad_norm": 3.976405620574951,
      "learning_rate": 1.7615495910385036e-05,
      "loss": 0.6007,
      "step": 840
    },
    {
      "epoch": 0.6277985505239349,
      "grad_norm": 3.0713090896606445,
      "learning_rate": 1.7530223729332464e-05,
      "loss": 0.6174,
      "step": 850
    },
    {
      "epoch": 0.6351844158242164,
      "grad_norm": 4.036540508270264,
      "learning_rate": 1.7443667710331523e-05,
      "loss": 0.617,
      "step": 860
    },
    {
      "epoch": 0.642570281124498,
      "grad_norm": 7.731866836547852,
      "learning_rate": 1.7355842610434045e-05,
      "loss": 0.6245,
      "step": 870
    },
    {
      "epoch": 0.6499561464247796,
      "grad_norm": 4.550940036773682,
      "learning_rate": 1.7266763403059162e-05,
      "loss": 0.593,
      "step": 880
    },
    {
      "epoch": 0.6573420117250611,
      "grad_norm": 2.5473084449768066,
      "learning_rate": 1.7176445275440468e-05,
      "loss": 0.5677,
      "step": 890
    },
    {
      "epoch": 0.6647278770253428,
      "grad_norm": 2.1716835498809814,
      "learning_rate": 1.7084903626036743e-05,
      "loss": 0.5452,
      "step": 900
    },
    {
      "epoch": 0.6721137423256244,
      "grad_norm": 4.398560523986816,
      "learning_rate": 1.6992154061906637e-05,
      "loss": 0.5599,
      "step": 910
    },
    {
      "epoch": 0.6794996076259059,
      "grad_norm": 2.8742692470550537,
      "learning_rate": 1.6898212396047788e-05,
      "loss": 0.5004,
      "step": 920
    },
    {
      "epoch": 0.6868854729261875,
      "grad_norm": 3.202517032623291,
      "learning_rate": 1.6803094644700878e-05,
      "loss": 0.5079,
      "step": 930
    },
    {
      "epoch": 0.6942713382264691,
      "grad_norm": 5.449188232421875,
      "learning_rate": 1.6706817024618966e-05,
      "loss": 0.5122,
      "step": 940
    },
    {
      "epoch": 0.7016572035267507,
      "grad_norm": 5.538541316986084,
      "learning_rate": 1.6609395950302693e-05,
      "loss": 0.5241,
      "step": 950
    },
    {
      "epoch": 0.7090430688270323,
      "grad_norm": 3.380526304244995,
      "learning_rate": 1.6510848031201755e-05,
      "loss": 0.4631,
      "step": 960
    },
    {
      "epoch": 0.7164289341273139,
      "grad_norm": 3.240527629852295,
      "learning_rate": 1.6411190068883114e-05,
      "loss": 0.5214,
      "step": 970
    },
    {
      "epoch": 0.7238147994275954,
      "grad_norm": 16.668127059936523,
      "learning_rate": 1.63104390541665e-05,
      "loss": 0.5373,
      "step": 980
    },
    {
      "epoch": 0.731200664727877,
      "grad_norm": 3.9278078079223633,
      "learning_rate": 1.6208612164227605e-05,
      "loss": 0.4789,
      "step": 990
    },
    {
      "epoch": 0.7385865300281587,
      "grad_norm": 3.5258326530456543,
      "learning_rate": 1.6105726759669534e-05,
      "loss": 0.465,
      "step": 1000
    },
    {
      "epoch": 0.7459723953284402,
      "grad_norm": 2.779311418533325,
      "learning_rate": 1.600180038156298e-05,
      "loss": 0.4501,
      "step": 1010
    },
    {
      "epoch": 0.7533582606287218,
      "grad_norm": 3.857485771179199,
      "learning_rate": 1.58968507484556e-05,
      "loss": 0.4519,
      "step": 1020
    },
    {
      "epoch": 0.7607441259290034,
      "grad_norm": 2.959052324295044,
      "learning_rate": 1.579089575335117e-05,
      "loss": 0.4357,
      "step": 1030
    },
    {
      "epoch": 0.7681299912292849,
      "grad_norm": 1.8662097454071045,
      "learning_rate": 1.568395346065899e-05,
      "loss": 0.3633,
      "step": 1040
    },
    {
      "epoch": 0.7755158565295666,
      "grad_norm": 5.543001174926758,
      "learning_rate": 1.5576042103114043e-05,
      "loss": 0.4111,
      "step": 1050
    },
    {
      "epoch": 0.7829017218298481,
      "grad_norm": 6.083206653594971,
      "learning_rate": 1.5467180078668485e-05,
      "loss": 0.3764,
      "step": 1060
    },
    {
      "epoch": 0.7902875871301297,
      "grad_norm": 2.5218305587768555,
      "learning_rate": 1.5357385947354945e-05,
      "loss": 0.374,
      "step": 1070
    },
    {
      "epoch": 0.7976734524304113,
      "grad_norm": 4.317601680755615,
      "learning_rate": 1.52466784281222e-05,
      "loss": 0.3571,
      "step": 1080
    },
    {
      "epoch": 0.8050593177306928,
      "grad_norm": 2.0782041549682617,
      "learning_rate": 1.5135076395643765e-05,
      "loss": 0.3739,
      "step": 1090
    },
    {
      "epoch": 0.8124451830309745,
      "grad_norm": 2.443953037261963,
      "learning_rate": 1.5022598877099913e-05,
      "loss": 0.3607,
      "step": 1100
    },
    {
      "epoch": 0.8198310483312561,
      "grad_norm": 2.276827573776245,
      "learning_rate": 1.4909265048933716e-05,
      "loss": 0.3607,
      "step": 1110
    },
    {
      "epoch": 0.8272169136315376,
      "grad_norm": 2.808431386947632,
      "learning_rate": 1.4795094233581616e-05,
      "loss": 0.3387,
      "step": 1120
    },
    {
      "epoch": 0.8346027789318192,
      "grad_norm": 2.5325915813446045,
      "learning_rate": 1.468010589617913e-05,
      "loss": 0.3172,
      "step": 1130
    },
    {
      "epoch": 0.8419886442321008,
      "grad_norm": 2.4943833351135254,
      "learning_rate": 1.4564319641242202e-05,
      "loss": 0.3193,
      "step": 1140
    },
    {
      "epoch": 0.8493745095323824,
      "grad_norm": 2.2182066440582275,
      "learning_rate": 1.4447755209324807e-05,
      "loss": 0.3118,
      "step": 1150
    },
    {
      "epoch": 0.856760374832664,
      "grad_norm": 1.920409083366394,
      "learning_rate": 1.4330432473653369e-05,
      "loss": 0.3246,
      "step": 1160
    },
    {
      "epoch": 0.8641462401329456,
      "grad_norm": 3.2863781452178955,
      "learning_rate": 1.4212371436738518e-05,
      "loss": 0.3065,
      "step": 1170
    },
    {
      "epoch": 0.8715321054332271,
      "grad_norm": 2.6266987323760986,
      "learning_rate": 1.4093592226964863e-05,
      "loss": 0.2813,
      "step": 1180
    },
    {
      "epoch": 0.8789179707335087,
      "grad_norm": 2.526742935180664,
      "learning_rate": 1.3974115095159273e-05,
      "loss": 0.284,
      "step": 1190
    },
    {
      "epoch": 0.8863038360337904,
      "grad_norm": 2.1190872192382812,
      "learning_rate": 1.3853960411138272e-05,
      "loss": 0.2865,
      "step": 1200
    },
    {
      "epoch": 0.8936897013340719,
      "grad_norm": 3.0260584354400635,
      "learning_rate": 1.373314866023517e-05,
      "loss": 0.3019,
      "step": 1210
    },
    {
      "epoch": 0.9010755666343535,
      "grad_norm": 4.537729740142822,
      "learning_rate": 1.3611700439807503e-05,
      "loss": 0.2946,
      "step": 1220
    },
    {
      "epoch": 0.9084614319346351,
      "grad_norm": 3.150209903717041,
      "learning_rate": 1.3489636455725337e-05,
      "loss": 0.2795,
      "step": 1230
    },
    {
      "epoch": 0.9158472972349166,
      "grad_norm": 1.6362818479537964,
      "learning_rate": 1.336697751884111e-05,
      "loss": 0.2815,
      "step": 1240
    },
    {
      "epoch": 0.9232331625351983,
      "grad_norm": 1.3282984495162964,
      "learning_rate": 1.3243744541441578e-05,
      "loss": 0.2679,
      "step": 1250
    },
    {
      "epoch": 0.9306190278354799,
      "grad_norm": 4.261312961578369,
      "learning_rate": 1.3119958533682417e-05,
      "loss": 0.2634,
      "step": 1260
    },
    {
      "epoch": 0.9380048931357614,
      "grad_norm": 2.1109001636505127,
      "learning_rate": 1.2995640600006196e-05,
      "loss": 0.2566,
      "step": 1270
    },
    {
      "epoch": 0.945390758436043,
      "grad_norm": 2.4117610454559326,
      "learning_rate": 1.2870811935544252e-05,
      "loss": 0.2502,
      "step": 1280
    },
    {
      "epoch": 0.9527766237363247,
      "grad_norm": 2.0748672485351562,
      "learning_rate": 1.2745493822503096e-05,
      "loss": 0.2422,
      "step": 1290
    },
    {
      "epoch": 0.9601624890366062,
      "grad_norm": 3.0310394763946533,
      "learning_rate": 1.261970762653598e-05,
      "loss": 0.2508,
      "step": 1300
    },
    {
      "epoch": 0.9675483543368878,
      "grad_norm": 2.0341477394104004,
      "learning_rate": 1.2493474793100249e-05,
      "loss": 0.2467,
      "step": 1310
    },
    {
      "epoch": 0.9749342196371694,
      "grad_norm": 1.4582960605621338,
      "learning_rate": 1.2366816843801066e-05,
      "loss": 0.2479,
      "step": 1320
    },
    {
      "epoch": 0.9823200849374509,
      "grad_norm": 3.3330225944519043,
      "learning_rate": 1.2239755372722169e-05,
      "loss": 0.2516,
      "step": 1330
    },
    {
      "epoch": 0.9897059502377326,
      "grad_norm": 1.4349642992019653,
      "learning_rate": 1.2112312042744263e-05,
      "loss": 0.2153,
      "step": 1340
    },
    {
      "epoch": 0.9970918155380141,
      "grad_norm": 2.073673725128174,
      "learning_rate": 1.1984508581851694e-05,
      "loss": 0.1858,
      "step": 1350
    },
    {
      "epoch": 1.0051701057101972,
      "grad_norm": 4.247702598571777,
      "learning_rate": 1.1856366779428008e-05,
      "loss": 0.2183,
      "step": 1360
    },
    {
      "epoch": 1.0125559710104788,
      "grad_norm": 4.242294788360596,
      "learning_rate": 1.1727908482541048e-05,
      "loss": 0.2059,
      "step": 1370
    },
    {
      "epoch": 1.0199418363107602,
      "grad_norm": 2.2901999950408936,
      "learning_rate": 1.1599155592218234e-05,
      "loss": 0.2207,
      "step": 1380
    },
    {
      "epoch": 1.0273277016110418,
      "grad_norm": 1.7798693180084229,
      "learning_rate": 1.1470130059712607e-05,
      "loss": 0.1898,
      "step": 1390
    },
    {
      "epoch": 1.0347135669113234,
      "grad_norm": 1.9651380777359009,
      "learning_rate": 1.1340853882760343e-05,
      "loss": 0.1958,
      "step": 1400
    },
    {
      "epoch": 1.042099432211605,
      "grad_norm": 1.8335607051849365,
      "learning_rate": 1.1211349101830323e-05,
      "loss": 0.2201,
      "step": 1410
    },
    {
      "epoch": 1.0494852975118867,
      "grad_norm": 2.270725965499878,
      "learning_rate": 1.1081637796366432e-05,
      "loss": 0.1881,
      "step": 1420
    },
    {
      "epoch": 1.0568711628121683,
      "grad_norm": 3.337350368499756,
      "learning_rate": 1.0951742081023196e-05,
      "loss": 0.2176,
      "step": 1430
    },
    {
      "epoch": 1.0642570281124497,
      "grad_norm": 3.7382607460021973,
      "learning_rate": 1.0821684101895429e-05,
      "loss": 0.2043,
      "step": 1440
    },
    {
      "epoch": 1.0716428934127313,
      "grad_norm": 1.3422726392745972,
      "learning_rate": 1.0691486032742522e-05,
      "loss": 0.1908,
      "step": 1450
    },
    {
      "epoch": 1.079028758713013,
      "grad_norm": 3.4625842571258545,
      "learning_rate": 1.0561170071207987e-05,
      "loss": 0.1747,
      "step": 1460
    },
    {
      "epoch": 1.0864146240132946,
      "grad_norm": 1.8566938638687134,
      "learning_rate": 1.0430758435034985e-05,
      "loss": 0.2003,
      "step": 1470
    },
    {
      "epoch": 1.0938004893135762,
      "grad_norm": 4.041960716247559,
      "learning_rate": 1.0300273358278362e-05,
      "loss": 0.1716,
      "step": 1480
    },
    {
      "epoch": 1.1011863546138578,
      "grad_norm": 1.5447806119918823,
      "learning_rate": 1.016973708751395e-05,
      "loss": 0.1911,
      "step": 1490
    },
    {
      "epoch": 1.1085722199141392,
      "grad_norm": 1.8091706037521362,
      "learning_rate": 1.003917187804572e-05,
      "loss": 0.1687,
      "step": 1500
    },
    {
      "epoch": 1.1159580852144209,
      "grad_norm": 1.5981247425079346,
      "learning_rate": 9.908599990111438e-06,
      "loss": 0.1706,
      "step": 1510
    },
    {
      "epoch": 1.1233439505147025,
      "grad_norm": 1.5762553215026855,
      "learning_rate": 9.778043685087488e-06,
      "loss": 0.1896,
      "step": 1520
    },
    {
      "epoch": 1.130729815814984,
      "grad_norm": 1.4694616794586182,
      "learning_rate": 9.64752522169351e-06,
      "loss": 0.1718,
      "step": 1530
    },
    {
      "epoch": 1.1381156811152657,
      "grad_norm": 1.4669324159622192,
      "learning_rate": 9.517066852197469e-06,
      "loss": 0.1481,
      "step": 1540
    },
    {
      "epoch": 1.1455015464155474,
      "grad_norm": 2.1808154582977295,
      "learning_rate": 9.386690818621845e-06,
      "loss": 0.1878,
      "step": 1550
    },
    {
      "epoch": 1.1528874117158288,
      "grad_norm": 1.0794235467910767,
      "learning_rate": 9.256419348951545e-06,
      "loss": 0.1809,
      "step": 1560
    },
    {
      "epoch": 1.1602732770161104,
      "grad_norm": 1.1634767055511475,
      "learning_rate": 9.126274653344249e-06,
      "loss": 0.1558,
      "step": 1570
    },
    {
      "epoch": 1.167659142316392,
      "grad_norm": 3.980741024017334,
      "learning_rate": 8.996278920343753e-06,
      "loss": 0.1714,
      "step": 1580
    },
    {
      "epoch": 1.1750450076166736,
      "grad_norm": 1.3018531799316406,
      "learning_rate": 8.866454313097011e-06,
      "loss": 0.1476,
      "step": 1590
    },
    {
      "epoch": 1.1824308729169553,
      "grad_norm": 1.6033530235290527,
      "learning_rate": 8.736822965575526e-06,
      "loss": 0.1702,
      "step": 1600
    },
    {
      "epoch": 1.1898167382172367,
      "grad_norm": 1.6837263107299805,
      "learning_rate": 8.607406978801692e-06,
      "loss": 0.1622,
      "step": 1610
    },
    {
      "epoch": 1.1972026035175183,
      "grad_norm": 4.44855260848999,
      "learning_rate": 8.478228417080749e-06,
      "loss": 0.2111,
      "step": 1620
    },
    {
      "epoch": 1.2045884688178,
      "grad_norm": 1.133955478668213,
      "learning_rate": 8.349309304239033e-06,
      "loss": 0.1407,
      "step": 1630
    },
    {
      "epoch": 1.2119743341180815,
      "grad_norm": 2.430974006652832,
      "learning_rate": 8.22067161986909e-06,
      "loss": 0.1502,
      "step": 1640
    },
    {
      "epoch": 1.2193601994183632,
      "grad_norm": 1.0593976974487305,
      "learning_rate": 8.092337295582342e-06,
      "loss": 0.1461,
      "step": 1650
    },
    {
      "epoch": 1.2267460647186448,
      "grad_norm": 1.5466171503067017,
      "learning_rate": 7.964328211269949e-06,
      "loss": 0.1257,
      "step": 1660
    },
    {
      "epoch": 1.2341319300189264,
      "grad_norm": 3.7850043773651123,
      "learning_rate": 7.83666619137247e-06,
      "loss": 0.1237,
      "step": 1670
    },
    {
      "epoch": 1.2415177953192078,
      "grad_norm": 2.987395763397217,
      "learning_rate": 7.709373001158989e-06,
      "loss": 0.135,
      "step": 1680
    },
    {
      "epoch": 1.2489036606194894,
      "grad_norm": 1.1026815176010132,
      "learning_rate": 7.582470343016315e-06,
      "loss": 0.1339,
      "step": 1690
    },
    {
      "epoch": 1.256289525919771,
      "grad_norm": 0.8675901293754578,
      "learning_rate": 7.455979852748926e-06,
      "loss": 0.1187,
      "step": 1700
    },
    {
      "epoch": 1.2636753912200527,
      "grad_norm": 1.0071134567260742,
      "learning_rate": 7.3299230958902455e-06,
      "loss": 0.1288,
      "step": 1710
    },
    {
      "epoch": 1.2710612565203343,
      "grad_norm": 1.257807731628418,
      "learning_rate": 7.2043215640259045e-06,
      "loss": 0.1219,
      "step": 1720
    },
    {
      "epoch": 1.2784471218206157,
      "grad_norm": 1.5844953060150146,
      "learning_rate": 7.079196671129613e-06,
      "loss": 0.1293,
      "step": 1730
    },
    {
      "epoch": 1.2858329871208973,
      "grad_norm": 1.242968201637268,
      "learning_rate": 6.954569749912268e-06,
      "loss": 0.1242,
      "step": 1740
    },
    {
      "epoch": 1.293218852421179,
      "grad_norm": 6.035883903503418,
      "learning_rate": 6.8304620481849e-06,
      "loss": 0.1324,
      "step": 1750
    },
    {
      "epoch": 1.3006047177214606,
      "grad_norm": 1.1064496040344238,
      "learning_rate": 6.706894725236118e-06,
      "loss": 0.113,
      "step": 1760
    },
    {
      "epoch": 1.3079905830217422,
      "grad_norm": 3.75222110748291,
      "learning_rate": 6.583888848224628e-06,
      "loss": 0.1402,
      "step": 1770
    },
    {
      "epoch": 1.3153764483220236,
      "grad_norm": 2.064958333969116,
      "learning_rate": 6.4614653885874564e-06,
      "loss": 0.1354,
      "step": 1780
    },
    {
      "epoch": 1.3227623136223052,
      "grad_norm": 1.2012087106704712,
      "learning_rate": 6.339645218464521e-06,
      "loss": 0.1162,
      "step": 1790
    },
    {
      "epoch": 1.3301481789225869,
      "grad_norm": 3.533600330352783,
      "learning_rate": 6.218449107140093e-06,
      "loss": 0.114,
      "step": 1800
    },
    {
      "epoch": 1.3375340442228685,
      "grad_norm": 1.0663248300552368,
      "learning_rate": 6.097897717501829e-06,
      "loss": 0.1102,
      "step": 1810
    },
    {
      "epoch": 1.34491990952315,
      "grad_norm": 2.6653411388397217,
      "learning_rate": 5.978011602517908e-06,
      "loss": 0.1115,
      "step": 1820
    },
    {
      "epoch": 1.3523057748234317,
      "grad_norm": 2.8922715187072754,
      "learning_rate": 5.858811201732952e-06,
      "loss": 0.1168,
      "step": 1830
    },
    {
      "epoch": 1.3596916401237134,
      "grad_norm": 0.7805532813072205,
      "learning_rate": 5.740316837783247e-06,
      "loss": 0.0985,
      "step": 1840
    },
    {
      "epoch": 1.3670775054239948,
      "grad_norm": 1.6969873905181885,
      "learning_rate": 5.622548712931907e-06,
      "loss": 0.115,
      "step": 1850
    },
    {
      "epoch": 1.3744633707242764,
      "grad_norm": 1.0871217250823975,
      "learning_rate": 5.50552690562457e-06,
      "loss": 0.1077,
      "step": 1860
    },
    {
      "epoch": 1.381849236024558,
      "grad_norm": 1.25892174243927,
      "learning_rate": 5.389271367066193e-06,
      "loss": 0.0974,
      "step": 1870
    },
    {
      "epoch": 1.3892351013248396,
      "grad_norm": 0.6338607668876648,
      "learning_rate": 5.273801917819552e-06,
      "loss": 0.098,
      "step": 1880
    },
    {
      "epoch": 1.3966209666251213,
      "grad_norm": 0.43911364674568176,
      "learning_rate": 5.159138244425996e-06,
      "loss": 0.0965,
      "step": 1890
    },
    {
      "epoch": 1.4040068319254027,
      "grad_norm": 0.7171842455863953,
      "learning_rate": 5.045299896049063e-06,
      "loss": 0.1043,
      "step": 1900
    },
    {
      "epoch": 1.4113926972256843,
      "grad_norm": 0.7495408058166504,
      "learning_rate": 4.932306281141531e-06,
      "loss": 0.1067,
      "step": 1910
    },
    {
      "epoch": 1.418778562525966,
      "grad_norm": 0.6386808753013611,
      "learning_rate": 4.82017666413643e-06,
      "loss": 0.095,
      "step": 1920
    },
    {
      "epoch": 1.4261644278262475,
      "grad_norm": 0.4710920751094818,
      "learning_rate": 4.7089301621626285e-06,
      "loss": 0.0946,
      "step": 1930
    },
    {
      "epoch": 1.4335502931265292,
      "grad_norm": 2.0037851333618164,
      "learning_rate": 4.598585741785529e-06,
      "loss": 0.1343,
      "step": 1940
    },
    {
      "epoch": 1.4409361584268106,
      "grad_norm": 0.731887936592102,
      "learning_rate": 4.489162215773437e-06,
      "loss": 0.1021,
      "step": 1950
    },
    {
      "epoch": 1.4483220237270924,
      "grad_norm": 1.012526035308838,
      "learning_rate": 4.380678239890128e-06,
      "loss": 0.0986,
      "step": 1960
    },
    {
      "epoch": 1.4557078890273738,
      "grad_norm": 1.7591279745101929,
      "learning_rate": 4.273152309714231e-06,
      "loss": 0.0921,
      "step": 1970
    },
    {
      "epoch": 1.4630937543276554,
      "grad_norm": 0.5881451964378357,
      "learning_rate": 4.166602757485865e-06,
      "loss": 0.0889,
      "step": 1980
    },
    {
      "epoch": 1.470479619627937,
      "grad_norm": 0.6772285103797913,
      "learning_rate": 4.061047748981171e-06,
      "loss": 0.0999,
      "step": 1990
    },
    {
      "epoch": 1.4778654849282187,
      "grad_norm": 1.0633774995803833,
      "learning_rate": 3.9565052804151925e-06,
      "loss": 0.0929,
      "step": 2000
    },
    {
      "epoch": 1.4852513502285003,
      "grad_norm": 0.5887898802757263,
      "learning_rate": 3.852993175373679e-06,
      "loss": 0.0929,
      "step": 2010
    },
    {
      "epoch": 1.4926372155287817,
      "grad_norm": 0.9685658812522888,
      "learning_rate": 3.7505290817743256e-06,
      "loss": 0.0932,
      "step": 2020
    },
    {
      "epoch": 1.5000230808290633,
      "grad_norm": 3.481058120727539,
      "learning_rate": 3.6491304688579376e-06,
      "loss": 0.1034,
      "step": 2030
    },
    {
      "epoch": 1.507408946129345,
      "grad_norm": 1.2913931608200073,
      "learning_rate": 3.5488146242101018e-06,
      "loss": 0.0914,
      "step": 2040
    },
    {
      "epoch": 1.5147948114296266,
      "grad_norm": 0.49071353673934937,
      "learning_rate": 3.4495986508137847e-06,
      "loss": 0.097,
      "step": 2050
    },
    {
      "epoch": 1.5221806767299082,
      "grad_norm": 0.7845070362091064,
      "learning_rate": 3.3514994641334274e-06,
      "loss": 0.0895,
      "step": 2060
    },
    {
      "epoch": 1.5295665420301896,
      "grad_norm": 0.7540778517723083,
      "learning_rate": 3.254533789231008e-06,
      "loss": 0.094,
      "step": 2070
    },
    {
      "epoch": 1.5369524073304714,
      "grad_norm": 0.8221713900566101,
      "learning_rate": 3.158718157914559e-06,
      "loss": 0.0857,
      "step": 2080
    },
    {
      "epoch": 1.5443382726307529,
      "grad_norm": 0.458886057138443,
      "learning_rate": 3.0640689059196328e-06,
      "loss": 0.0834,
      "step": 2090
    },
    {
      "epoch": 1.5517241379310345,
      "grad_norm": 5.687739372253418,
      "learning_rate": 2.9706021701242127e-06,
      "loss": 0.0944,
      "step": 2100
    },
    {
      "epoch": 1.559110003231316,
      "grad_norm": 0.609434962272644,
      "learning_rate": 2.8783338857975087e-06,
      "loss": 0.0926,
      "step": 2110
    },
    {
      "epoch": 1.5664958685315975,
      "grad_norm": 3.346607208251953,
      "learning_rate": 2.787279783883129e-06,
      "loss": 0.087,
      "step": 2120
    },
    {
      "epoch": 1.5738817338318793,
      "grad_norm": 2.047215700149536,
      "learning_rate": 2.697455388317094e-06,
      "loss": 0.0807,
      "step": 2130
    },
    {
      "epoch": 1.5812675991321608,
      "grad_norm": 1.0655306577682495,
      "learning_rate": 2.6088760133811418e-06,
      "loss": 0.0857,
      "step": 2140
    },
    {
      "epoch": 1.5886534644324424,
      "grad_norm": 1.1660749912261963,
      "learning_rate": 2.5215567610917623e-06,
      "loss": 0.08,
      "step": 2150
    },
    {
      "epoch": 1.596039329732724,
      "grad_norm": 0.45875102281570435,
      "learning_rate": 2.4355125186254547e-06,
      "loss": 0.0931,
      "step": 2160
    },
    {
      "epoch": 1.6034251950330056,
      "grad_norm": 1.5347977876663208,
      "learning_rate": 2.3507579557805803e-06,
      "loss": 0.083,
      "step": 2170
    },
    {
      "epoch": 1.6108110603332872,
      "grad_norm": 1.1268221139907837,
      "learning_rate": 2.26730752247629e-06,
      "loss": 0.0841,
      "step": 2180
    },
    {
      "epoch": 1.6181969256335687,
      "grad_norm": 0.4492045044898987,
      "learning_rate": 2.1851754462889373e-06,
      "loss": 0.0791,
      "step": 2190
    },
    {
      "epoch": 1.6255827909338505,
      "grad_norm": 0.9329794645309448,
      "learning_rate": 2.104375730026406e-06,
      "loss": 0.0827,
      "step": 2200
    },
    {
      "epoch": 1.632968656234132,
      "grad_norm": 0.4460253119468689,
      "learning_rate": 2.024922149340748e-06,
      "loss": 0.0812,
      "step": 2210
    },
    {
      "epoch": 1.6403545215344135,
      "grad_norm": 3.0073747634887695,
      "learning_rate": 1.9468282503795465e-06,
      "loss": 0.0836,
      "step": 2220
    },
    {
      "epoch": 1.6477403868346951,
      "grad_norm": 0.7037497758865356,
      "learning_rate": 1.8701073474764342e-06,
      "loss": 0.0757,
      "step": 2230
    },
    {
      "epoch": 1.6551262521349765,
      "grad_norm": 2.326693058013916,
      "learning_rate": 1.7947725208810962e-06,
      "loss": 0.0743,
      "step": 2240
    },
    {
      "epoch": 1.6625121174352584,
      "grad_norm": 0.2990873456001282,
      "learning_rate": 1.720836614529211e-06,
      "loss": 0.0799,
      "step": 2250
    },
    {
      "epoch": 1.6698979827355398,
      "grad_norm": 0.4213595688343048,
      "learning_rate": 1.648312233852666e-06,
      "loss": 0.0802,
      "step": 2260
    },
    {
      "epoch": 1.6772838480358214,
      "grad_norm": 0.5848265290260315,
      "learning_rate": 1.5772117436304446e-06,
      "loss": 0.0795,
      "step": 2270
    },
    {
      "epoch": 1.684669713336103,
      "grad_norm": 0.6411451697349548,
      "learning_rate": 1.5075472658805301e-06,
      "loss": 0.0739,
      "step": 2280
    },
    {
      "epoch": 1.6920555786363847,
      "grad_norm": 0.8654035925865173,
      "learning_rate": 1.4393306777932192e-06,
      "loss": 0.0796,
      "step": 2290
    },
    {
      "epoch": 1.6994414439366663,
      "grad_norm": 0.7043092250823975,
      "learning_rate": 1.3725736097061537e-06,
      "loss": 0.0811,
      "step": 2300
    },
    {
      "epoch": 1.7068273092369477,
      "grad_norm": 1.6693702936172485,
      "learning_rate": 1.307287443121452e-06,
      "loss": 0.094,
      "step": 2310
    },
    {
      "epoch": 1.7142131745372293,
      "grad_norm": 0.33761119842529297,
      "learning_rate": 1.2434833087652642e-06,
      "loss": 0.0759,
      "step": 2320
    },
    {
      "epoch": 1.721599039837511,
      "grad_norm": 0.9389520883560181,
      "learning_rate": 1.181172084690072e-06,
      "loss": 0.0727,
      "step": 2330
    },
    {
      "epoch": 1.7289849051377926,
      "grad_norm": 0.2903837263584137,
      "learning_rate": 1.120364394420087e-06,
      "loss": 0.0743,
      "step": 2340
    },
    {
      "epoch": 1.7363707704380742,
      "grad_norm": 0.325009822845459,
      "learning_rate": 1.0610706051400165e-06,
      "loss": 0.0801,
      "step": 2350
    },
    {
      "epoch": 1.7437566357383556,
      "grad_norm": 0.9325069785118103,
      "learning_rate": 1.0033008259275635e-06,
      "loss": 0.0759,
      "step": 2360
    },
    {
      "epoch": 1.7511425010386374,
      "grad_norm": 1.0802961587905884,
      "learning_rate": 9.470649060299041e-07,
      "loss": 0.0779,
      "step": 2370
    },
    {
      "epoch": 1.7585283663389188,
      "grad_norm": 0.4947347939014435,
      "learning_rate": 8.923724331844875e-07,
      "loss": 0.0786,
      "step": 2380
    },
    {
      "epoch": 1.7659142316392005,
      "grad_norm": 0.47125598788261414,
      "learning_rate": 8.392327319843985e-07,
      "loss": 0.0751,
      "step": 2390
    },
    {
      "epoch": 1.773300096939482,
      "grad_norm": 0.3219301402568817,
      "learning_rate": 7.876548622886038e-07,
      "loss": 0.0702,
      "step": 2400
    },
    {
      "epoch": 1.7806859622397635,
      "grad_norm": 0.602854311466217,
      "learning_rate": 7.376476176773184e-07,
      "loss": 0.0772,
      "step": 2410
    },
    {
      "epoch": 1.7880718275400453,
      "grad_norm": 0.48326513171195984,
      "learning_rate": 6.89219523952781e-07,
      "loss": 0.0797,
      "step": 2420
    },
    {
      "epoch": 1.7954576928403267,
      "grad_norm": 0.5595663189888,
      "learning_rate": 6.423788376856765e-07,
      "loss": 0.066,
      "step": 2430
    },
    {
      "epoch": 1.8028435581406084,
      "grad_norm": 1.7976887226104736,
      "learning_rate": 5.971335448074611e-07,
      "loss": 0.0732,
      "step": 2440
    },
    {
      "epoch": 1.81022942344089,
      "grad_norm": 1.282763957977295,
      "learning_rate": 5.534913592488322e-07,
      "loss": 0.0816,
      "step": 2450
    },
    {
      "epoch": 1.8176152887411716,
      "grad_norm": 0.9589461088180542,
      "learning_rate": 5.114597216245698e-07,
      "loss": 0.0798,
      "step": 2460
    },
    {
      "epoch": 1.8250011540414532,
      "grad_norm": 0.43628719449043274,
      "learning_rate": 4.7104579796497405e-07,
      "loss": 0.0835,
      "step": 2470
    },
    {
      "epoch": 1.8323870193417346,
      "grad_norm": 0.49431607127189636,
      "learning_rate": 4.3225647849411854e-07,
      "loss": 0.074,
      "step": 2480
    },
    {
      "epoch": 1.8397728846420165,
      "grad_norm": 0.9135465025901794,
      "learning_rate": 3.9509837645513306e-07,
      "loss": 0.0736,
      "step": 2490
    },
    {
      "epoch": 1.847158749942298,
      "grad_norm": 0.6499918103218079,
      "learning_rate": 3.595778269826966e-07,
      "loss": 0.0723,
      "step": 2500
    },
    {
      "epoch": 1.8545446152425795,
      "grad_norm": 1.299659013748169,
      "learning_rate": 3.257008860229527e-07,
      "loss": 0.0735,
      "step": 2510
    },
    {
      "epoch": 1.8619304805428611,
      "grad_norm": 0.7049327492713928,
      "learning_rate": 2.9347332930102503e-07,
      "loss": 0.0713,
      "step": 2520
    },
    {
      "epoch": 1.8693163458431425,
      "grad_norm": 0.29024580121040344,
      "learning_rate": 2.6290065133630637e-07,
      "loss": 0.0774,
      "step": 2530
    },
    {
      "epoch": 1.8767022111434244,
      "grad_norm": 0.7386340498924255,
      "learning_rate": 2.3398806450568577e-07,
      "loss": 0.0739,
      "step": 2540
    },
    {
      "epoch": 1.8840880764437058,
      "grad_norm": 0.5153611898422241,
      "learning_rate": 2.067404981548915e-07,
      "loss": 0.0702,
      "step": 2550
    },
    {
      "epoch": 1.8914739417439874,
      "grad_norm": 1.2201671600341797,
      "learning_rate": 1.811625977580722e-07,
      "loss": 0.082,
      "step": 2560
    },
    {
      "epoch": 1.898859807044269,
      "grad_norm": 0.7881399989128113,
      "learning_rate": 1.5725872412579058e-07,
      "loss": 0.0677,
      "step": 2570
    },
    {
      "epoch": 1.9062456723445507,
      "grad_norm": 0.3312283456325531,
      "learning_rate": 1.3503295266153903e-07,
      "loss": 0.0756,
      "step": 2580
    },
    {
      "epoch": 1.9136315376448323,
      "grad_norm": 0.4955926239490509,
      "learning_rate": 1.14489072666919e-07,
      "loss": 0.0692,
      "step": 2590
    },
    {
      "epoch": 1.9210174029451137,
      "grad_norm": 0.45805656909942627,
      "learning_rate": 9.563058669559755e-08,
      "loss": 0.0753,
      "step": 2600
    },
    {
      "epoch": 1.9284032682453955,
      "grad_norm": 0.5555469393730164,
      "learning_rate": 7.846070995615518e-08,
      "loss": 0.0716,
      "step": 2610
    },
    {
      "epoch": 1.935789133545677,
      "grad_norm": 0.5252045392990112,
      "learning_rate": 6.298236976391537e-08,
      "loss": 0.0772,
      "step": 2620
    },
    {
      "epoch": 1.9431749988459586,
      "grad_norm": 1.8346993923187256,
      "learning_rate": 4.919820504186934e-08,
      "loss": 0.0764,
      "step": 2630
    },
    {
      "epoch": 1.9505608641462402,
      "grad_norm": 0.4004700481891632,
      "learning_rate": 3.711056587075712e-08,
      "loss": 0.0739,
      "step": 2640
    },
    {
      "epoch": 1.9579467294465216,
      "grad_norm": 1.077645182609558,
      "learning_rate": 2.672151308840243e-08,
      "loss": 0.07,
      "step": 2650
    },
    {
      "epoch": 1.9653325947468034,
      "grad_norm": 0.6247801184654236,
      "learning_rate": 1.8032817938352653e-08,
      "loss": 0.0666,
      "step": 2660
    },
    {
      "epoch": 1.9727184600470848,
      "grad_norm": 0.4016879200935364,
      "learning_rate": 1.1045961767904844e-08,
      "loss": 0.0695,
      "step": 2670
    },
    {
      "epoch": 1.9801043253473665,
      "grad_norm": 0.5175566673278809,
      "learning_rate": 5.7621357755432984e-09,
      "loss": 0.0722,
      "step": 2680
    },
    {
      "epoch": 1.987490190647648,
      "grad_norm": 0.5656958222389221,
      "learning_rate": 2.1822408078508994e-09,
      "loss": 0.0728,
      "step": 2690
    },
    {
      "epoch": 1.9948760559479295,
      "grad_norm": 0.5182742476463318,
      "learning_rate": 3.068872059253103e-10,
      "loss": 0.0727,
      "step": 2700
    }
  ],
  "logging_steps": 10,
  "max_steps": 2706,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.22919470739456e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}