{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 6553,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0015260477271426664,
      "grad_norm": 36.718162536621094,
      "learning_rate": 1.3719512195121953e-07,
      "loss": 1.7945,
      "step": 10
    },
    {
      "epoch": 0.0030520954542853328,
      "grad_norm": 33.861351013183594,
      "learning_rate": 2.896341463414635e-07,
      "loss": 1.7388,
      "step": 20
    },
    {
      "epoch": 0.004578143181427999,
      "grad_norm": 32.35844802856445,
      "learning_rate": 4.4207317073170735e-07,
      "loss": 1.6264,
      "step": 30
    },
    {
      "epoch": 0.0061041909085706655,
      "grad_norm": 18.111286163330078,
      "learning_rate": 5.945121951219512e-07,
      "loss": 1.4267,
      "step": 40
    },
    {
      "epoch": 0.007630238635713332,
      "grad_norm": 12.056061744689941,
      "learning_rate": 7.469512195121952e-07,
      "loss": 1.1626,
      "step": 50
    },
    {
      "epoch": 0.009156286362855998,
      "grad_norm": 9.076939582824707,
      "learning_rate": 8.993902439024391e-07,
      "loss": 0.9372,
      "step": 60
    },
    {
      "epoch": 0.010682334089998665,
      "grad_norm": 8.621874809265137,
      "learning_rate": 1.051829268292683e-06,
      "loss": 0.8972,
      "step": 70
    },
    {
      "epoch": 0.012208381817141331,
      "grad_norm": 6.114352226257324,
      "learning_rate": 1.204268292682927e-06,
      "loss": 0.771,
      "step": 80
    },
    {
      "epoch": 0.013734429544283997,
      "grad_norm": 7.380756855010986,
      "learning_rate": 1.356707317073171e-06,
      "loss": 0.7386,
      "step": 90
    },
    {
      "epoch": 0.015260477271426664,
      "grad_norm": 6.799697399139404,
      "learning_rate": 1.5091463414634146e-06,
      "loss": 0.7209,
      "step": 100
    },
    {
      "epoch": 0.016786524998569332,
      "grad_norm": 7.576807975769043,
      "learning_rate": 1.6615853658536587e-06,
      "loss": 0.6985,
      "step": 110
    },
    {
      "epoch": 0.018312572725711997,
      "grad_norm": 7.400335788726807,
      "learning_rate": 1.8140243902439026e-06,
      "loss": 0.6846,
      "step": 120
    },
    {
      "epoch": 0.019838620452854665,
      "grad_norm": 6.237104892730713,
      "learning_rate": 1.9664634146341467e-06,
      "loss": 0.6377,
      "step": 130
    },
    {
      "epoch": 0.02136466817999733,
      "grad_norm": 6.404150485992432,
      "learning_rate": 2.1189024390243905e-06,
      "loss": 0.6354,
      "step": 140
    },
    {
      "epoch": 0.022890715907139998,
      "grad_norm": 7.284428596496582,
      "learning_rate": 2.2713414634146344e-06,
      "loss": 0.6543,
      "step": 150
    },
    {
      "epoch": 0.024416763634282662,
      "grad_norm": 5.5003156661987305,
      "learning_rate": 2.4237804878048783e-06,
      "loss": 0.6016,
      "step": 160
    },
    {
      "epoch": 0.02594281136142533,
      "grad_norm": 7.994759559631348,
      "learning_rate": 2.576219512195122e-06,
      "loss": 0.6073,
      "step": 170
    },
    {
      "epoch": 0.027468859088567995,
      "grad_norm": 7.063292980194092,
      "learning_rate": 2.7286585365853664e-06,
      "loss": 0.5698,
      "step": 180
    },
    {
      "epoch": 0.028994906815710663,
      "grad_norm": 5.892914295196533,
      "learning_rate": 2.88109756097561e-06,
      "loss": 0.5679,
      "step": 190
    },
    {
      "epoch": 0.030520954542853328,
      "grad_norm": 5.543047904968262,
      "learning_rate": 3.0335365853658537e-06,
      "loss": 0.5655,
      "step": 200
    },
    {
      "epoch": 0.032047002269995996,
      "grad_norm": 6.323866844177246,
      "learning_rate": 3.185975609756098e-06,
      "loss": 0.5619,
      "step": 210
    },
    {
      "epoch": 0.033573049997138664,
      "grad_norm": 6.957103729248047,
      "learning_rate": 3.338414634146342e-06,
      "loss": 0.553,
      "step": 220
    },
    {
      "epoch": 0.035099097724281325,
      "grad_norm": 5.986090183258057,
      "learning_rate": 3.4908536585365853e-06,
      "loss": 0.5503,
      "step": 230
    },
    {
      "epoch": 0.03662514545142399,
      "grad_norm": 5.522103786468506,
      "learning_rate": 3.6432926829268296e-06,
      "loss": 0.5493,
      "step": 240
    },
    {
      "epoch": 0.03815119317856666,
      "grad_norm": 5.235415935516357,
      "learning_rate": 3.7957317073170735e-06,
      "loss": 0.5534,
      "step": 250
    },
    {
      "epoch": 0.03967724090570933,
      "grad_norm": 5.9757819175720215,
      "learning_rate": 3.948170731707318e-06,
      "loss": 0.5368,
      "step": 260
    },
    {
      "epoch": 0.04120328863285199,
      "grad_norm": 5.101258754730225,
      "learning_rate": 4.100609756097561e-06,
      "loss": 0.5254,
      "step": 270
    },
    {
      "epoch": 0.04272933635999466,
      "grad_norm": 6.364596843719482,
      "learning_rate": 4.2530487804878055e-06,
      "loss": 0.5423,
      "step": 280
    },
    {
      "epoch": 0.04425538408713733,
      "grad_norm": 6.032998085021973,
      "learning_rate": 4.405487804878049e-06,
      "loss": 0.5257,
      "step": 290
    },
    {
      "epoch": 0.045781431814279995,
      "grad_norm": 5.804418563842773,
      "learning_rate": 4.557926829268293e-06,
      "loss": 0.5432,
      "step": 300
    },
    {
      "epoch": 0.047307479541422656,
      "grad_norm": 5.553419589996338,
      "learning_rate": 4.710365853658536e-06,
      "loss": 0.5413,
      "step": 310
    },
    {
      "epoch": 0.048833527268565324,
      "grad_norm": 7.154079914093018,
      "learning_rate": 4.862804878048781e-06,
      "loss": 0.5407,
      "step": 320
    },
    {
      "epoch": 0.05035957499570799,
      "grad_norm": 7.198996543884277,
      "learning_rate": 5.015243902439024e-06,
      "loss": 0.5432,
      "step": 330
    },
    {
      "epoch": 0.05188562272285066,
      "grad_norm": 5.0478434562683105,
      "learning_rate": 5.167682926829268e-06,
      "loss": 0.5125,
      "step": 340
    },
    {
      "epoch": 0.05341167044999332,
      "grad_norm": 6.1683573722839355,
      "learning_rate": 5.320121951219513e-06,
      "loss": 0.5321,
      "step": 350
    },
    {
      "epoch": 0.05493771817713599,
      "grad_norm": 7.884255409240723,
      "learning_rate": 5.4725609756097565e-06,
      "loss": 0.5399,
      "step": 360
    },
    {
      "epoch": 0.05646376590427866,
      "grad_norm": 5.224252700805664,
      "learning_rate": 5.625e-06,
      "loss": 0.5539,
      "step": 370
    },
    {
      "epoch": 0.057989813631421326,
      "grad_norm": 4.74583101272583,
      "learning_rate": 5.777439024390244e-06,
      "loss": 0.5503,
      "step": 380
    },
    {
      "epoch": 0.05951586135856399,
      "grad_norm": 5.914930820465088,
      "learning_rate": 5.929878048780489e-06,
      "loss": 0.5398,
      "step": 390
    },
    {
      "epoch": 0.061041909085706655,
      "grad_norm": 4.671189308166504,
      "learning_rate": 6.082317073170733e-06,
      "loss": 0.5481,
      "step": 400
    },
    {
      "epoch": 0.06256795681284932,
      "grad_norm": 4.802231788635254,
      "learning_rate": 6.234756097560977e-06,
      "loss": 0.568,
      "step": 410
    },
    {
      "epoch": 0.06409400453999199,
      "grad_norm": 4.851030349731445,
      "learning_rate": 6.38719512195122e-06,
      "loss": 0.5599,
      "step": 420
    },
    {
      "epoch": 0.06562005226713466,
      "grad_norm": 5.160627365112305,
      "learning_rate": 6.5396341463414636e-06,
      "loss": 0.5352,
      "step": 430
    },
    {
      "epoch": 0.06714609999427733,
      "grad_norm": 5.0278754234313965,
      "learning_rate": 6.6920731707317074e-06,
      "loss": 0.545,
      "step": 440
    },
    {
      "epoch": 0.06867214772141998,
      "grad_norm": 5.1211090087890625,
      "learning_rate": 6.844512195121952e-06,
      "loss": 0.5321,
      "step": 450
    },
    {
      "epoch": 0.07019819544856265,
      "grad_norm": 4.986229419708252,
      "learning_rate": 6.996951219512196e-06,
      "loss": 0.5584,
      "step": 460
    },
    {
      "epoch": 0.07172424317570532,
      "grad_norm": 4.192492485046387,
      "learning_rate": 7.14939024390244e-06,
      "loss": 0.5462,
      "step": 470
    },
    {
      "epoch": 0.07325029090284799,
      "grad_norm": 3.977277994155884,
      "learning_rate": 7.301829268292684e-06,
      "loss": 0.5366,
      "step": 480
    },
    {
      "epoch": 0.07477633862999065,
      "grad_norm": 4.757632732391357,
      "learning_rate": 7.454268292682928e-06,
      "loss": 0.5493,
      "step": 490
    },
    {
      "epoch": 0.07630238635713332,
      "grad_norm": 4.987619400024414,
      "learning_rate": 7.606707317073171e-06,
      "loss": 0.5282,
      "step": 500
    },
    {
      "epoch": 0.07630238635713332,
      "eval_loss": 0.5320242047309875,
      "eval_runtime": 100.1496,
      "eval_samples_per_second": 5.292,
      "eval_steps_per_second": 2.646,
      "step": 500
    },
    {
      "epoch": 0.07782843408427599,
      "grad_norm": 5.458449840545654,
      "learning_rate": 7.759146341463415e-06,
      "loss": 0.5464,
      "step": 510
    },
    {
      "epoch": 0.07935448181141866,
      "grad_norm": 5.1865081787109375,
      "learning_rate": 7.911585365853658e-06,
      "loss": 0.5456,
      "step": 520
    },
    {
      "epoch": 0.08088052953856131,
      "grad_norm": 4.639908313751221,
      "learning_rate": 8.064024390243903e-06,
      "loss": 0.5226,
      "step": 530
    },
    {
      "epoch": 0.08240657726570398,
      "grad_norm": 4.7745537757873535,
      "learning_rate": 8.216463414634148e-06,
      "loss": 0.5623,
      "step": 540
    },
    {
      "epoch": 0.08393262499284665,
      "grad_norm": 4.4498515129089355,
      "learning_rate": 8.36890243902439e-06,
      "loss": 0.5402,
      "step": 550
    },
    {
      "epoch": 0.08545867271998932,
      "grad_norm": 4.127673149108887,
      "learning_rate": 8.521341463414636e-06,
      "loss": 0.5526,
      "step": 560
    },
    {
      "epoch": 0.08698472044713199,
      "grad_norm": 5.61818790435791,
      "learning_rate": 8.673780487804879e-06,
      "loss": 0.5413,
      "step": 570
    },
    {
      "epoch": 0.08851076817427465,
      "grad_norm": 3.518537998199463,
      "learning_rate": 8.826219512195122e-06,
      "loss": 0.5536,
      "step": 580
    },
    {
      "epoch": 0.09003681590141732,
      "grad_norm": 4.232659339904785,
      "learning_rate": 8.978658536585366e-06,
      "loss": 0.5572,
      "step": 590
    },
    {
      "epoch": 0.09156286362855999,
      "grad_norm": 4.013524532318115,
      "learning_rate": 9.131097560975611e-06,
      "loss": 0.5236,
      "step": 600
    },
    {
      "epoch": 0.09308891135570264,
      "grad_norm": 3.9425785541534424,
      "learning_rate": 9.283536585365854e-06,
      "loss": 0.5643,
      "step": 610
    },
    {
      "epoch": 0.09461495908284531,
      "grad_norm": 4.538547515869141,
      "learning_rate": 9.435975609756099e-06,
      "loss": 0.5565,
      "step": 620
    },
    {
      "epoch": 0.09614100680998798,
      "grad_norm": 3.850074291229248,
      "learning_rate": 9.588414634146342e-06,
      "loss": 0.5319,
      "step": 630
    },
    {
      "epoch": 0.09766705453713065,
      "grad_norm": 5.455791473388672,
      "learning_rate": 9.740853658536586e-06,
      "loss": 0.5412,
      "step": 640
    },
    {
      "epoch": 0.09919310226427332,
      "grad_norm": 3.3886823654174805,
      "learning_rate": 9.893292682926831e-06,
      "loss": 0.566,
      "step": 650
    },
    {
      "epoch": 0.10071914999141598,
      "grad_norm": 3.8116540908813477,
      "learning_rate": 9.999993614132319e-06,
      "loss": 0.5627,
      "step": 660
    },
    {
      "epoch": 0.10224519771855865,
      "grad_norm": 3.609804630279541,
      "learning_rate": 9.99988008804953e-06,
      "loss": 0.5576,
      "step": 670
    },
    {
      "epoch": 0.10377124544570132,
      "grad_norm": 3.923624038696289,
      "learning_rate": 9.999624657504754e-06,
      "loss": 0.5728,
      "step": 680
    },
    {
      "epoch": 0.10529729317284398,
      "grad_norm": 4.188690185546875,
      "learning_rate": 9.99922732974751e-06,
      "loss": 0.5676,
      "step": 690
    },
    {
      "epoch": 0.10682334089998664,
      "grad_norm": 3.9573514461517334,
      "learning_rate": 9.998688116054583e-06,
      "loss": 0.5362,
      "step": 700
    },
    {
      "epoch": 0.10834938862712931,
      "grad_norm": 3.8924996852874756,
      "learning_rate": 9.99800703172971e-06,
      "loss": 0.557,
      "step": 710
    },
    {
      "epoch": 0.10987543635427198,
      "grad_norm": 4.514781475067139,
      "learning_rate": 9.997184096103133e-06,
      "loss": 0.5729,
      "step": 720
    },
    {
      "epoch": 0.11140148408141465,
      "grad_norm": 3.555657148361206,
      "learning_rate": 9.996219332531059e-06,
      "loss": 0.5735,
      "step": 730
    },
    {
      "epoch": 0.11292753180855732,
      "grad_norm": 3.8453004360198975,
      "learning_rate": 9.995112768394996e-06,
      "loss": 0.5492,
      "step": 740
    },
    {
      "epoch": 0.11445357953569998,
      "grad_norm": 4.1153435707092285,
      "learning_rate": 9.993864435100976e-06,
      "loss": 0.5273,
      "step": 750
    },
    {
      "epoch": 0.11597962726284265,
      "grad_norm": 3.793621063232422,
      "learning_rate": 9.992474368078664e-06,
      "loss": 0.5744,
      "step": 760
    },
    {
      "epoch": 0.1175056749899853,
      "grad_norm": 3.394721508026123,
      "learning_rate": 9.990942606780344e-06,
      "loss": 0.5554,
      "step": 770
    },
    {
      "epoch": 0.11903172271712797,
      "grad_norm": 4.319253444671631,
      "learning_rate": 9.989269194679814e-06,
      "loss": 0.5161,
      "step": 780
    },
    {
      "epoch": 0.12055777044427064,
      "grad_norm": 3.6960957050323486,
      "learning_rate": 9.987454179271138e-06,
      "loss": 0.5467,
      "step": 790
    },
    {
      "epoch": 0.12208381817141331,
      "grad_norm": 4.272833347320557,
      "learning_rate": 9.985497612067315e-06,
      "loss": 0.5764,
      "step": 800
    },
    {
      "epoch": 0.12360986589855598,
      "grad_norm": 3.716593027114868,
      "learning_rate": 9.983399548598795e-06,
      "loss": 0.5644,
      "step": 810
    },
    {
      "epoch": 0.12513591362569865,
      "grad_norm": 3.8028016090393066,
      "learning_rate": 9.981160048411922e-06,
      "loss": 0.5442,
      "step": 820
    },
    {
      "epoch": 0.1266619613528413,
      "grad_norm": 3.634533405303955,
      "learning_rate": 9.978779175067232e-06,
      "loss": 0.5642,
      "step": 830
    },
    {
      "epoch": 0.12818800907998398,
      "grad_norm": 4.484054088592529,
      "learning_rate": 9.976256996137657e-06,
      "loss": 0.5826,
      "step": 840
    },
    {
      "epoch": 0.12971405680712664,
      "grad_norm": 3.2868642807006836,
      "learning_rate": 9.973593583206602e-06,
      "loss": 0.5643,
      "step": 850
    },
    {
      "epoch": 0.13124010453426932,
      "grad_norm": 3.641526937484741,
      "learning_rate": 9.970789011865916e-06,
      "loss": 0.5577,
      "step": 860
    },
    {
      "epoch": 0.13276615226141197,
      "grad_norm": 3.82144832611084,
      "learning_rate": 9.967843361713747e-06,
      "loss": 0.5374,
      "step": 870
    },
    {
      "epoch": 0.13429219998855466,
      "grad_norm": 3.786513090133667,
      "learning_rate": 9.964756716352277e-06,
      "loss": 0.5523,
      "step": 880
    },
    {
      "epoch": 0.1358182477156973,
      "grad_norm": 3.7389333248138428,
      "learning_rate": 9.96152916338536e-06,
      "loss": 0.5708,
      "step": 890
    },
    {
      "epoch": 0.13734429544283996,
      "grad_norm": 3.5762176513671875,
      "learning_rate": 9.958160794416022e-06,
      "loss": 0.5481,
      "step": 900
    },
    {
      "epoch": 0.13887034316998265,
      "grad_norm": 3.7925140857696533,
      "learning_rate": 9.954651705043878e-06,
      "loss": 0.5814,
      "step": 910
    },
    {
      "epoch": 0.1403963908971253,
      "grad_norm": 4.10577917098999,
      "learning_rate": 9.951001994862402e-06,
      "loss": 0.5574,
      "step": 920
    },
    {
      "epoch": 0.14192243862426798,
      "grad_norm": 3.477315664291382,
      "learning_rate": 9.947211767456111e-06,
      "loss": 0.5472,
      "step": 930
    },
    {
      "epoch": 0.14344848635141064,
      "grad_norm": 3.1365439891815186,
      "learning_rate": 9.943281130397619e-06,
      "loss": 0.5759,
      "step": 940
    },
    {
      "epoch": 0.14497453407855332,
      "grad_norm": 4.209506988525391,
      "learning_rate": 9.93921019524459e-06,
      "loss": 0.5544,
      "step": 950
    },
    {
      "epoch": 0.14650058180569597,
      "grad_norm": 3.269994020462036,
      "learning_rate": 9.934999077536567e-06,
      "loss": 0.5577,
      "step": 960
    },
    {
      "epoch": 0.14802662953283863,
      "grad_norm": 3.4426379203796387,
      "learning_rate": 9.930647896791696e-06,
      "loss": 0.5498,
      "step": 970
    },
    {
      "epoch": 0.1495526772599813,
      "grad_norm": 3.949375629425049,
      "learning_rate": 9.92615677650333e-06,
      "loss": 0.5452,
      "step": 980
    },
    {
      "epoch": 0.15107872498712396,
      "grad_norm": 3.42270827293396,
      "learning_rate": 9.92152584413653e-06,
      "loss": 0.5393,
      "step": 990
    },
    {
      "epoch": 0.15260477271426665,
      "grad_norm": 4.055193901062012,
      "learning_rate": 9.916755231124437e-06,
      "loss": 0.5294,
      "step": 1000
    },
    {
      "epoch": 0.15260477271426665,
      "eval_loss": 0.5252559781074524,
      "eval_runtime": 99.9603,
      "eval_samples_per_second": 5.302,
      "eval_steps_per_second": 2.651,
      "step": 1000
    },
    {
      "epoch": 0.1541308204414093,
      "grad_norm": 3.2706804275512695,
      "learning_rate": 9.911845072864556e-06,
      "loss": 0.522,
      "step": 1010
    },
    {
      "epoch": 0.15565686816855198,
      "grad_norm": 3.859898090362549,
      "learning_rate": 9.906795508714901e-06,
      "loss": 0.5373,
      "step": 1020
    },
    {
      "epoch": 0.15718291589569464,
      "grad_norm": 3.1161351203918457,
      "learning_rate": 9.901606681990048e-06,
      "loss": 0.5471,
      "step": 1030
    },
    {
      "epoch": 0.15870896362283732,
      "grad_norm": 3.452761650085449,
      "learning_rate": 9.89627873995706e-06,
      "loss": 0.5532,
      "step": 1040
    },
    {
      "epoch": 0.16023501134997997,
      "grad_norm": 3.6008405685424805,
      "learning_rate": 9.890811833831312e-06,
      "loss": 0.5075,
      "step": 1050
    },
    {
      "epoch": 0.16176105907712263,
      "grad_norm": 4.958362579345703,
      "learning_rate": 9.885206118772201e-06,
      "loss": 0.5404,
      "step": 1060
    },
    {
      "epoch": 0.1632871068042653,
      "grad_norm": 3.1011452674865723,
      "learning_rate": 9.879461753878738e-06,
      "loss": 0.5456,
      "step": 1070
    },
    {
      "epoch": 0.16481315453140796,
      "grad_norm": 3.445542097091675,
      "learning_rate": 9.873578902185034e-06,
      "loss": 0.5299,
      "step": 1080
    },
    {
      "epoch": 0.16633920225855064,
      "grad_norm": 3.2124245166778564,
      "learning_rate": 9.867557730655676e-06,
      "loss": 0.5555,
      "step": 1090
    },
    {
      "epoch": 0.1678652499856933,
      "grad_norm": 3.3892674446105957,
      "learning_rate": 9.861398410180985e-06,
      "loss": 0.5429,
      "step": 1100
    },
    {
      "epoch": 0.16939129771283598,
      "grad_norm": 3.534641981124878,
      "learning_rate": 9.855101115572161e-06,
      "loss": 0.5564,
      "step": 1110
    },
    {
      "epoch": 0.17091734543997864,
      "grad_norm": 2.8586363792419434,
      "learning_rate": 9.848666025556332e-06,
      "loss": 0.5155,
      "step": 1120
    },
    {
      "epoch": 0.1724433931671213,
      "grad_norm": 4.134357452392578,
      "learning_rate": 9.842093322771479e-06,
      "loss": 0.5292,
      "step": 1130
    },
    {
      "epoch": 0.17396944089426397,
      "grad_norm": 2.917952060699463,
      "learning_rate": 9.83538319376124e-06,
      "loss": 0.5471,
      "step": 1140
    },
    {
      "epoch": 0.17549548862140663,
      "grad_norm": 3.148503065109253,
      "learning_rate": 9.82853582896964e-06,
      "loss": 0.5084,
      "step": 1150
    },
    {
      "epoch": 0.1770215363485493,
      "grad_norm": 2.9326202869415283,
      "learning_rate": 9.821551422735655e-06,
      "loss": 0.5303,
      "step": 1160
    },
    {
      "epoch": 0.17854758407569196,
      "grad_norm": 2.8527936935424805,
      "learning_rate": 9.814430173287724e-06,
      "loss": 0.5265,
      "step": 1170
    },
    {
      "epoch": 0.18007363180283464,
      "grad_norm": 3.373987913131714,
      "learning_rate": 9.807172282738109e-06,
      "loss": 0.5267,
      "step": 1180
    },
    {
      "epoch": 0.1815996795299773,
      "grad_norm": 3.886758804321289,
      "learning_rate": 9.799777957077161e-06,
      "loss": 0.5449,
      "step": 1190
    },
    {
      "epoch": 0.18312572725711998,
      "grad_norm": 2.8181774616241455,
      "learning_rate": 9.792247406167471e-06,
      "loss": 0.5477,
      "step": 1200
    },
    {
      "epoch": 0.18465177498426263,
      "grad_norm": 3.1215786933898926,
      "learning_rate": 9.784580843737924e-06,
      "loss": 0.5317,
      "step": 1210
    },
    {
      "epoch": 0.1861778227114053,
      "grad_norm": 3.4757418632507324,
      "learning_rate": 9.776778487377622e-06,
      "loss": 0.5312,
      "step": 1220
    },
    {
      "epoch": 0.18770387043854797,
      "grad_norm": 2.941584587097168,
      "learning_rate": 9.768840558529708e-06,
      "loss": 0.5372,
      "step": 1230
    },
    {
      "epoch": 0.18922991816569062,
      "grad_norm": 3.1221237182617188,
      "learning_rate": 9.760767282485091e-06,
      "loss": 0.5246,
      "step": 1240
    },
    {
      "epoch": 0.1907559658928333,
      "grad_norm": 2.970177173614502,
      "learning_rate": 9.752558888376045e-06,
      "loss": 0.5269,
      "step": 1250
    },
    {
      "epoch": 0.19228201361997596,
      "grad_norm": 3.686633348464966,
      "learning_rate": 9.744215609169709e-06,
      "loss": 0.5239,
      "step": 1260
    },
    {
      "epoch": 0.19380806134711864,
      "grad_norm": 2.774200439453125,
      "learning_rate": 9.735737681661467e-06,
      "loss": 0.5175,
      "step": 1270
    },
    {
      "epoch": 0.1953341090742613,
      "grad_norm": 3.612818717956543,
      "learning_rate": 9.727125346468243e-06,
      "loss": 0.5144,
      "step": 1280
    },
    {
      "epoch": 0.19686015680140395,
      "grad_norm": 2.7817158699035645,
      "learning_rate": 9.718378848021655e-06,
      "loss": 0.5417,
      "step": 1290
    },
    {
      "epoch": 0.19838620452854663,
      "grad_norm": 3.400517463684082,
      "learning_rate": 9.709498434561086e-06,
      "loss": 0.4989,
      "step": 1300
    },
    {
      "epoch": 0.1999122522556893,
      "grad_norm": 2.9461493492126465,
      "learning_rate": 9.70048435812664e-06,
      "loss": 0.5235,
      "step": 1310
    },
    {
      "epoch": 0.20143829998283197,
      "grad_norm": 3.0229151248931885,
      "learning_rate": 9.69133687455199e-06,
      "loss": 0.4988,
      "step": 1320
    },
    {
      "epoch": 0.20296434770997462,
      "grad_norm": 4.051263332366943,
      "learning_rate": 9.682056243457105e-06,
      "loss": 0.5394,
      "step": 1330
    },
    {
      "epoch": 0.2044903954371173,
      "grad_norm": 2.998913049697876,
      "learning_rate": 9.672642728240896e-06,
      "loss": 0.549,
      "step": 1340
    },
    {
      "epoch": 0.20601644316425996,
      "grad_norm": 3.4110162258148193,
      "learning_rate": 9.663096596073732e-06,
      "loss": 0.4888,
      "step": 1350
    },
    {
      "epoch": 0.20754249089140264,
      "grad_norm": 3.530796766281128,
      "learning_rate": 9.653418117889862e-06,
      "loss": 0.5272,
      "step": 1360
    },
    {
      "epoch": 0.2090685386185453,
      "grad_norm": 3.0355026721954346,
      "learning_rate": 9.64360756837972e-06,
      "loss": 0.5322,
      "step": 1370
    },
    {
      "epoch": 0.21059458634568795,
      "grad_norm": 2.8864426612854004,
      "learning_rate": 9.633665225982134e-06,
      "loss": 0.49,
      "step": 1380
    },
    {
      "epoch": 0.21212063407283063,
      "grad_norm": 4.0944132804870605,
      "learning_rate": 9.623591372876422e-06,
      "loss": 0.5502,
      "step": 1390
    },
    {
      "epoch": 0.2136466817999733,
      "grad_norm": 2.89972186088562,
      "learning_rate": 9.61338629497438e-06,
      "loss": 0.5178,
      "step": 1400
    },
    {
      "epoch": 0.21517272952711597,
      "grad_norm": 2.904897689819336,
      "learning_rate": 9.603050281912175e-06,
      "loss": 0.5471,
      "step": 1410
    },
    {
      "epoch": 0.21669877725425862,
      "grad_norm": 2.9118282794952393,
      "learning_rate": 9.592583627042115e-06,
      "loss": 0.5214,
      "step": 1420
    },
    {
      "epoch": 0.2182248249814013,
      "grad_norm": 3.003340244293213,
      "learning_rate": 9.581986627424329e-06,
      "loss": 0.5266,
      "step": 1430
    },
    {
      "epoch": 0.21975087270854396,
      "grad_norm": 2.8239073753356934,
      "learning_rate": 9.571259583818337e-06,
      "loss": 0.5305,
      "step": 1440
    },
    {
      "epoch": 0.2212769204356866,
      "grad_norm": 3.4803032875061035,
      "learning_rate": 9.56040280067451e-06,
      "loss": 0.5336,
      "step": 1450
    },
    {
      "epoch": 0.2228029681628293,
      "grad_norm": 2.8414413928985596,
      "learning_rate": 9.549416586125435e-06,
      "loss": 0.5341,
      "step": 1460
    },
    {
      "epoch": 0.22432901588997195,
      "grad_norm": 3.3560791015625,
      "learning_rate": 9.538301251977158e-06,
      "loss": 0.5175,
      "step": 1470
    },
    {
      "epoch": 0.22585506361711463,
      "grad_norm": 3.5832326412200928,
      "learning_rate": 9.52705711370035e-06,
      "loss": 0.5453,
      "step": 1480
    },
    {
      "epoch": 0.2273811113442573,
      "grad_norm": 2.907194137573242,
      "learning_rate": 9.515684490421342e-06,
      "loss": 0.5256,
      "step": 1490
    },
    {
      "epoch": 0.22890715907139997,
      "grad_norm": 3.446336269378662,
      "learning_rate": 9.504183704913075e-06,
      "loss": 0.5116,
      "step": 1500
    },
    {
      "epoch": 0.22890715907139997,
      "eval_loss": 0.5038516521453857,
      "eval_runtime": 99.9985,
      "eval_samples_per_second": 5.3,
      "eval_steps_per_second": 2.65,
      "step": 1500
    },
    {
      "epoch": 0.23043320679854262,
      "grad_norm": 3.575700044631958,
      "learning_rate": 9.492555083585928e-06,
      "loss": 0.5215,
      "step": 1510
    },
    {
      "epoch": 0.2319592545256853,
      "grad_norm": 2.7438437938690186,
      "learning_rate": 9.480798956478473e-06,
      "loss": 0.5381,
      "step": 1520
    },
    {
      "epoch": 0.23348530225282796,
      "grad_norm": 3.586581230163574,
      "learning_rate": 9.468915657248083e-06,
      "loss": 0.5361,
      "step": 1530
    },
    {
      "epoch": 0.2350113499799706,
      "grad_norm": 2.979966878890991,
      "learning_rate": 9.45690552316149e-06,
      "loss": 0.5385,
      "step": 1540
    },
    {
      "epoch": 0.2365373977071133,
      "grad_norm": 3.4089224338531494,
      "learning_rate": 9.44476889508519e-06,
      "loss": 0.5122,
      "step": 1550
    },
    {
      "epoch": 0.23806344543425595,
      "grad_norm": 3.400916337966919,
      "learning_rate": 9.432506117475777e-06,
      "loss": 0.4855,
      "step": 1560
    },
    {
      "epoch": 0.23958949316139863,
      "grad_norm": 3.0944440364837646,
      "learning_rate": 9.420117538370173e-06,
      "loss": 0.5314,
      "step": 1570
    },
    {
      "epoch": 0.24111554088854129,
      "grad_norm": 3.072086811065674,
      "learning_rate": 9.407603509375737e-06,
      "loss": 0.5487,
      "step": 1580
    },
    {
      "epoch": 0.24264158861568397,
      "grad_norm": 2.866974353790283,
      "learning_rate": 9.394964385660302e-06,
      "loss": 0.5199,
      "step": 1590
    },
    {
      "epoch": 0.24416763634282662,
      "grad_norm": 3.2548046112060547,
      "learning_rate": 9.382200525942076e-06,
      "loss": 0.536,
      "step": 1600
    },
    {
      "epoch": 0.24569368406996928,
      "grad_norm": 3.636455535888672,
      "learning_rate": 9.369312292479479e-06,
      "loss": 0.5102,
      "step": 1610
    },
    {
      "epoch": 0.24721973179711196,
      "grad_norm": 2.7913310527801514,
      "learning_rate": 9.35630005106085e-06,
      "loss": 0.5174,
      "step": 1620
    },
    {
      "epoch": 0.2487457795242546,
      "grad_norm": 3.905932903289795,
      "learning_rate": 9.34316417099407e-06,
      "loss": 0.5399,
      "step": 1630
    },
    {
      "epoch": 0.2502718272513973,
      "grad_norm": 2.9708142280578613,
      "learning_rate": 9.329905025096079e-06,
      "loss": 0.5139,
      "step": 1640
    },
    {
      "epoch": 0.25179787497853995,
      "grad_norm": 2.849421977996826,
      "learning_rate": 9.316522989682293e-06,
      "loss": 0.4887,
      "step": 1650
    },
    {
      "epoch": 0.2533239227056826,
      "grad_norm": 3.2548842430114746,
      "learning_rate": 9.30301844455593e-06,
      "loss": 0.5173,
      "step": 1660
    },
    {
      "epoch": 0.2548499704328253,
      "grad_norm": 3.9787535667419434,
      "learning_rate": 9.289391772997223e-06,
      "loss": 0.5295,
      "step": 1670
    },
    {
      "epoch": 0.25637601815996797,
      "grad_norm": 2.5555968284606934,
      "learning_rate": 9.275643361752546e-06,
      "loss": 0.5371,
      "step": 1680
    },
    {
      "epoch": 0.2579020658871106,
      "grad_norm": 3.158561944961548,
      "learning_rate": 9.261773601023439e-06,
      "loss": 0.5305,
      "step": 1690
    },
    {
      "epoch": 0.2594281136142533,
      "grad_norm": 3.1799142360687256,
      "learning_rate": 9.247782884455526e-06,
      "loss": 0.5293,
      "step": 1700
    },
    {
      "epoch": 0.26095416134139593,
      "grad_norm": 2.7630088329315186,
      "learning_rate": 9.233671609127352e-06,
      "loss": 0.5102,
      "step": 1710
    },
    {
      "epoch": 0.26248020906853864,
      "grad_norm": 3.3492443561553955,
      "learning_rate": 9.219440175539113e-06,
      "loss": 0.516,
      "step": 1720
    },
    {
      "epoch": 0.2640062567956813,
      "grad_norm": 3.2532637119293213,
      "learning_rate": 9.205088987601277e-06,
      "loss": 0.5063,
      "step": 1730
    },
    {
      "epoch": 0.26553230452282395,
      "grad_norm": 3.098576068878174,
      "learning_rate": 9.190618452623135e-06,
      "loss": 0.4973,
      "step": 1740
    },
    {
      "epoch": 0.2670583522499666,
      "grad_norm": 3.852489709854126,
      "learning_rate": 9.176028981301229e-06,
      "loss": 0.4778,
      "step": 1750
    },
    {
      "epoch": 0.2685843999771093,
      "grad_norm": 3.133566379547119,
      "learning_rate": 9.16132098770771e-06,
      "loss": 0.5031,
      "step": 1760
    },
    {
      "epoch": 0.27011044770425197,
      "grad_norm": 3.0958361625671387,
      "learning_rate": 9.146494889278568e-06,
      "loss": 0.4784,
      "step": 1770
    },
    {
      "epoch": 0.2716364954313946,
      "grad_norm": 3.499459743499756,
      "learning_rate": 9.131551106801803e-06,
      "loss": 0.5071,
      "step": 1780
    },
    {
      "epoch": 0.2731625431585373,
      "grad_norm": 2.8909738063812256,
      "learning_rate": 9.116490064405467e-06,
      "loss": 0.5116,
      "step": 1790
    },
    {
      "epoch": 0.27468859088567993,
      "grad_norm": 2.8877241611480713,
      "learning_rate": 9.101312189545636e-06,
      "loss": 0.4888,
      "step": 1800
    },
    {
      "epoch": 0.27621463861282264,
      "grad_norm": 2.978130578994751,
      "learning_rate": 9.086017912994272e-06,
      "loss": 0.5325,
      "step": 1810
    },
    {
      "epoch": 0.2777406863399653,
      "grad_norm": 3.5364253520965576,
      "learning_rate": 9.070607668827003e-06,
      "loss": 0.5285,
      "step": 1820
    },
    {
      "epoch": 0.27926673406710795,
      "grad_norm": 2.8093996047973633,
      "learning_rate": 9.055081894410802e-06,
      "loss": 0.4959,
      "step": 1830
    },
    {
      "epoch": 0.2807927817942506,
      "grad_norm": 2.98183274269104,
      "learning_rate": 9.03944103039157e-06,
      "loss": 0.501,
      "step": 1840
    },
    {
      "epoch": 0.28231882952139326,
      "grad_norm": 3.1950182914733887,
      "learning_rate": 9.023685520681626e-06,
      "loss": 0.5204,
      "step": 1850
    },
    {
      "epoch": 0.28384487724853597,
      "grad_norm": 2.9772353172302246,
      "learning_rate": 9.007815812447126e-06,
      "loss": 0.4989,
      "step": 1860
    },
    {
      "epoch": 0.2853709249756786,
      "grad_norm": 3.50301194190979,
      "learning_rate": 8.991832356095351e-06,
      "loss": 0.5032,
      "step": 1870
    },
    {
      "epoch": 0.2868969727028213,
      "grad_norm": 2.9427924156188965,
      "learning_rate": 8.975735605261936e-06,
      "loss": 0.5196,
      "step": 1880
    },
    {
      "epoch": 0.2884230204299639,
      "grad_norm": 2.9805080890655518,
      "learning_rate": 8.95952601679799e-06,
      "loss": 0.5092,
      "step": 1890
    },
    {
      "epoch": 0.28994906815710664,
      "grad_norm": 2.65608811378479,
      "learning_rate": 8.943204050757133e-06,
      "loss": 0.5106,
      "step": 1900
    },
    {
      "epoch": 0.2914751158842493,
      "grad_norm": 2.7500367164611816,
      "learning_rate": 8.926770170382434e-06,
      "loss": 0.4999,
      "step": 1910
    },
    {
      "epoch": 0.29300116361139195,
      "grad_norm": 3.063328266143799,
      "learning_rate": 8.910224842093275e-06,
      "loss": 0.5164,
      "step": 1920
    },
    {
      "epoch": 0.2945272113385346,
      "grad_norm": 3.1675572395324707,
      "learning_rate": 8.893568535472094e-06,
      "loss": 0.4857,
      "step": 1930
    },
    {
      "epoch": 0.29605325906567725,
      "grad_norm": 4.051036357879639,
      "learning_rate": 8.876801723251077e-06,
      "loss": 0.4995,
      "step": 1940
    },
    {
      "epoch": 0.29757930679281996,
      "grad_norm": 3.0843279361724854,
      "learning_rate": 8.859924881298729e-06,
      "loss": 0.4869,
      "step": 1950
    },
    {
      "epoch": 0.2991053545199626,
      "grad_norm": 3.1268937587738037,
      "learning_rate": 8.842938488606373e-06,
      "loss": 0.516,
      "step": 1960
    },
    {
      "epoch": 0.3006314022471053,
      "grad_norm": 2.659601926803589,
      "learning_rate": 8.825843027274554e-06,
      "loss": 0.4658,
      "step": 1970
    },
    {
      "epoch": 0.3021574499742479,
      "grad_norm": 2.756713628768921,
      "learning_rate": 8.80863898249936e-06,
      "loss": 0.5115,
      "step": 1980
    },
    {
      "epoch": 0.30368349770139064,
      "grad_norm": 2.470733404159546,
      "learning_rate": 8.79132684255864e-06,
      "loss": 0.5134,
      "step": 1990
    },
    {
      "epoch": 0.3052095454285333,
      "grad_norm": 3.007568597793579,
      "learning_rate": 8.773907098798158e-06,
      "loss": 0.5121,
      "step": 2000
    },
    {
      "epoch": 0.3052095454285333,
      "eval_loss": 0.48503902554512024,
      "eval_runtime": 99.9999,
      "eval_samples_per_second": 5.3,
      "eval_steps_per_second": 2.65,
      "step": 2000
    },
    {
      "epoch": 0.30673559315567595,
      "grad_norm": 3.3363804817199707,
      "learning_rate": 8.756380245617645e-06,
      "loss": 0.4861,
      "step": 2010
    },
    {
      "epoch": 0.3082616408828186,
      "grad_norm": 3.0314290523529053,
      "learning_rate": 8.73874678045677e-06,
      "loss": 0.4963,
      "step": 2020
    },
    {
      "epoch": 0.30978768860996125,
      "grad_norm": 2.7498457431793213,
      "learning_rate": 8.721007203781008e-06,
      "loss": 0.5125,
      "step": 2030
    },
    {
      "epoch": 0.31131373633710396,
      "grad_norm": 3.2180142402648926,
      "learning_rate": 8.703162019067451e-06,
      "loss": 0.5148,
      "step": 2040
    },
    {
      "epoch": 0.3128397840642466,
      "grad_norm": 3.160686492919922,
      "learning_rate": 8.685211732790513e-06,
      "loss": 0.4915,
      "step": 2050
    },
    {
      "epoch": 0.31436583179138927,
      "grad_norm": 2.880316972732544,
      "learning_rate": 8.667156854407555e-06,
      "loss": 0.5154,
      "step": 2060
    },
    {
      "epoch": 0.3158918795185319,
      "grad_norm": 3.6688642501831055,
      "learning_rate": 8.648997896344429e-06,
      "loss": 0.5257,
      "step": 2070
    },
    {
      "epoch": 0.31741792724567464,
      "grad_norm": 2.8660826683044434,
      "learning_rate": 8.630735373980926e-06,
      "loss": 0.5134,
      "step": 2080
    },
    {
      "epoch": 0.3189439749728173,
      "grad_norm": 2.69706392288208,
      "learning_rate": 8.612369805636161e-06,
      "loss": 0.4847,
      "step": 2090
    },
    {
      "epoch": 0.32047002269995994,
      "grad_norm": 2.907597064971924,
      "learning_rate": 8.593901712553853e-06,
      "loss": 0.5196,
      "step": 2100
    },
    {
      "epoch": 0.3219960704271026,
      "grad_norm": 3.240574836730957,
      "learning_rate": 8.575331618887537e-06,
      "loss": 0.5104,
      "step": 2110
    },
    {
      "epoch": 0.32352211815424525,
      "grad_norm": 3.215815782546997,
      "learning_rate": 8.556660051685679e-06,
      "loss": 0.4973,
      "step": 2120
    },
    {
      "epoch": 0.32504816588138796,
      "grad_norm": 2.7997822761535645,
      "learning_rate": 8.537887540876732e-06,
      "loss": 0.5099,
      "step": 2130
    },
    {
      "epoch": 0.3265742136085306,
      "grad_norm": 2.945455551147461,
      "learning_rate": 8.519014619254081e-06,
      "loss": 0.5112,
      "step": 2140
    },
    {
      "epoch": 0.32810026133567327,
      "grad_norm": 3.219611644744873,
      "learning_rate": 8.50004182246093e-06,
      "loss": 0.5086,
      "step": 2150
    },
    {
      "epoch": 0.3296263090628159,
      "grad_norm": 2.8295400142669678,
      "learning_rate": 8.480969688975094e-06,
      "loss": 0.4897,
      "step": 2160
    },
    {
      "epoch": 0.3311523567899586,
      "grad_norm": 2.7116832733154297,
      "learning_rate": 8.461798760093728e-06,
      "loss": 0.4751,
      "step": 2170
    },
    {
      "epoch": 0.3326784045171013,
      "grad_norm": 3.04294490814209,
      "learning_rate": 8.44252957991795e-06,
      "loss": 0.4784,
      "step": 2180
    },
    {
      "epoch": 0.33420445224424394,
      "grad_norm": 2.6779112815856934,
      "learning_rate": 8.423162695337402e-06,
      "loss": 0.5155,
      "step": 2190
    },
    {
      "epoch": 0.3357304999713866,
      "grad_norm": 3.5296261310577393,
      "learning_rate": 8.403698656014734e-06,
      "loss": 0.509,
      "step": 2200
    },
    {
      "epoch": 0.33725654769852925,
      "grad_norm": 3.0861217975616455,
      "learning_rate": 8.384138014370003e-06,
      "loss": 0.4961,
      "step": 2210
    },
    {
      "epoch": 0.33878259542567196,
      "grad_norm": 2.9720520973205566,
      "learning_rate": 8.364481325564983e-06,
      "loss": 0.4759,
      "step": 2220
    },
    {
      "epoch": 0.3403086431528146,
      "grad_norm": 2.8393325805664062,
      "learning_rate": 8.344729147487431e-06,
      "loss": 0.502,
      "step": 2230
    },
    {
      "epoch": 0.34183469087995727,
      "grad_norm": 2.930060386657715,
      "learning_rate": 8.324882040735227e-06,
      "loss": 0.4914,
      "step": 2240
    },
    {
      "epoch": 0.3433607386070999,
      "grad_norm": 3.05932879447937,
      "learning_rate": 8.304940568600482e-06,
      "loss": 0.5184,
      "step": 2250
    },
    {
      "epoch": 0.3448867863342426,
      "grad_norm": 3.455152750015259,
      "learning_rate": 8.284905297053544e-06,
      "loss": 0.4881,
      "step": 2260
    },
    {
      "epoch": 0.3464128340613853,
      "grad_norm": 3.1637487411499023,
      "learning_rate": 8.264776794726938e-06,
      "loss": 0.5001,
      "step": 2270
    },
    {
      "epoch": 0.34793888178852794,
      "grad_norm": 3.0358266830444336,
      "learning_rate": 8.244555632899223e-06,
      "loss": 0.4795,
      "step": 2280
    },
    {
      "epoch": 0.3494649295156706,
      "grad_norm": 2.930438756942749,
      "learning_rate": 8.224242385478778e-06,
      "loss": 0.4814,
      "step": 2290
    },
    {
      "epoch": 0.35099097724281325,
      "grad_norm": 2.8416764736175537,
      "learning_rate": 8.203837628987523e-06,
      "loss": 0.463,
      "step": 2300
    },
    {
      "epoch": 0.35251702496995596,
      "grad_norm": 2.61423921585083,
      "learning_rate": 8.18334194254454e-06,
      "loss": 0.4984,
      "step": 2310
    },
    {
      "epoch": 0.3540430726970986,
      "grad_norm": 2.8394827842712402,
      "learning_rate": 8.162755907849653e-06,
      "loss": 0.4884,
      "step": 2320
    },
    {
      "epoch": 0.35556912042424127,
      "grad_norm": 2.678520917892456,
      "learning_rate": 8.142080109166912e-06,
      "loss": 0.493,
      "step": 2330
    },
    {
      "epoch": 0.3570951681513839,
      "grad_norm": 3.0217721462249756,
      "learning_rate": 8.121315133308008e-06,
      "loss": 0.483,
      "step": 2340
    },
    {
      "epoch": 0.3586212158785266,
      "grad_norm": 2.741018533706665,
      "learning_rate": 8.100461569615615e-06,
      "loss": 0.5032,
      "step": 2350
    },
    {
      "epoch": 0.3601472636056693,
      "grad_norm": 3.2703857421875,
      "learning_rate": 8.079520009946678e-06,
      "loss": 0.4871,
      "step": 2360
    },
    {
      "epoch": 0.36167331133281194,
      "grad_norm": 2.5858423709869385,
      "learning_rate": 8.058491048655603e-06,
      "loss": 0.5108,
      "step": 2370
    },
    {
      "epoch": 0.3631993590599546,
      "grad_norm": 3.112304925918579,
      "learning_rate": 8.037375282577391e-06,
      "loss": 0.5019,
      "step": 2380
    },
    {
      "epoch": 0.36472540678709725,
      "grad_norm": 2.5532495975494385,
      "learning_rate": 8.016173311010697e-06,
      "loss": 0.4929,
      "step": 2390
    },
    {
      "epoch": 0.36625145451423996,
      "grad_norm": 2.342569589614868,
      "learning_rate": 7.994885735700832e-06,
      "loss": 0.4905,
      "step": 2400
    },
    {
      "epoch": 0.3677775022413826,
      "grad_norm": 3.1640357971191406,
      "learning_rate": 7.973513160822664e-06,
      "loss": 0.4745,
      "step": 2410
    },
    {
      "epoch": 0.36930354996852527,
      "grad_norm": 2.825571298599243,
      "learning_rate": 7.952056192963488e-06,
      "loss": 0.4843,
      "step": 2420
    },
    {
      "epoch": 0.3708295976956679,
      "grad_norm": 2.888791084289551,
      "learning_rate": 7.93051544110581e-06,
      "loss": 0.488,
      "step": 2430
    },
    {
      "epoch": 0.3723556454228106,
      "grad_norm": 2.8343687057495117,
      "learning_rate": 7.908891516610048e-06,
      "loss": 0.4568,
      "step": 2440
    },
    {
      "epoch": 0.3738816931499533,
      "grad_norm": 3.1001429557800293,
      "learning_rate": 7.887185033197198e-06,
      "loss": 0.4695,
      "step": 2450
    },
    {
      "epoch": 0.37540774087709594,
      "grad_norm": 2.368257761001587,
      "learning_rate": 7.8653966069314e-06,
      "loss": 0.5056,
      "step": 2460
    },
    {
      "epoch": 0.3769337886042386,
      "grad_norm": 2.99737286567688,
      "learning_rate": 7.843526856202472e-06,
      "loss": 0.4855,
      "step": 2470
    },
    {
      "epoch": 0.37845983633138125,
      "grad_norm": 3.0355498790740967,
      "learning_rate": 7.821576401708339e-06,
      "loss": 0.4784,
      "step": 2480
    },
    {
      "epoch": 0.3799858840585239,
      "grad_norm": 2.5011422634124756,
      "learning_rate": 7.799545866437429e-06,
      "loss": 0.518,
      "step": 2490
    },
    {
      "epoch": 0.3815119317856666,
      "grad_norm": 2.846738338470459,
      "learning_rate": 7.777435875650986e-06,
      "loss": 0.4778,
      "step": 2500
    },
    {
      "epoch": 0.3815119317856666,
      "eval_loss": 0.4665885865688324,
      "eval_runtime": 99.9829,
      "eval_samples_per_second": 5.301,
      "eval_steps_per_second": 2.65,
      "step": 2500
    },
    {
      "epoch": 0.38303797951280927,
      "grad_norm": 2.755929708480835,
      "learning_rate": 7.755247056865332e-06,
      "loss": 0.4726,
      "step": 2510
    },
    {
      "epoch": 0.3845640272399519,
      "grad_norm": 3.3097054958343506,
      "learning_rate": 7.732980039834048e-06,
      "loss": 0.4839,
      "step": 2520
    },
    {
      "epoch": 0.3860900749670946,
      "grad_norm": 2.85306978225708,
      "learning_rate": 7.710635456530102e-06,
      "loss": 0.4888,
      "step": 2530
    },
    {
      "epoch": 0.3876161226942373,
      "grad_norm": 3.0452582836151123,
      "learning_rate": 7.68821394112792e-06,
      "loss": 0.477,
      "step": 2540
    },
    {
      "epoch": 0.38914217042137994,
      "grad_norm": 2.805910348892212,
      "learning_rate": 7.665716129985379e-06,
      "loss": 0.5016,
      "step": 2550
    },
    {
      "epoch": 0.3906682181485226,
      "grad_norm": 3.086005687713623,
      "learning_rate": 7.64314266162575e-06,
      "loss": 0.4842,
      "step": 2560
    },
    {
      "epoch": 0.39219426587566525,
      "grad_norm": 2.4592947959899902,
      "learning_rate": 7.620494176719572e-06,
      "loss": 0.4977,
      "step": 2570
    },
    {
      "epoch": 0.3937203136028079,
      "grad_norm": 2.79803729057312,
      "learning_rate": 7.597771318066476e-06,
      "loss": 0.4974,
      "step": 2580
    },
    {
      "epoch": 0.3952463613299506,
      "grad_norm": 3.157926559448242,
      "learning_rate": 7.574974730576936e-06,
      "loss": 0.4815,
      "step": 2590
    },
    {
      "epoch": 0.39677240905709327,
      "grad_norm": 4.1300458908081055,
      "learning_rate": 7.552105061253962e-06,
      "loss": 0.4876,
      "step": 2600
    },
    {
      "epoch": 0.3982984567842359,
      "grad_norm": 3.6879398822784424,
      "learning_rate": 7.529162959174746e-06,
      "loss": 0.4905,
      "step": 2610
    },
    {
      "epoch": 0.3998245045113786,
      "grad_norm": 2.8170852661132812,
      "learning_rate": 7.5061490754722355e-06,
      "loss": 0.4849,
      "step": 2620
    },
    {
      "epoch": 0.4013505522385213,
      "grad_norm": 2.4680588245391846,
      "learning_rate": 7.4830640633166516e-06,
      "loss": 0.4541,
      "step": 2630
    },
    {
      "epoch": 0.40287659996566394,
      "grad_norm": 2.8768832683563232,
      "learning_rate": 7.4599085778969524e-06,
      "loss": 0.4773,
      "step": 2640
    },
    {
      "epoch": 0.4044026476928066,
      "grad_norm": 2.7005279064178467,
      "learning_rate": 7.436683276402239e-06,
      "loss": 0.47,
      "step": 2650
    },
    {
      "epoch": 0.40592869541994925,
      "grad_norm": 3.036959409713745,
      "learning_rate": 7.413388818003104e-06,
      "loss": 0.4992,
      "step": 2660
    },
    {
      "epoch": 0.4074547431470919,
      "grad_norm": 3.3453052043914795,
      "learning_rate": 7.3900258638329196e-06,
      "loss": 0.4713,
      "step": 2670
    },
    {
      "epoch": 0.4089807908742346,
      "grad_norm": 3.5486536026000977,
      "learning_rate": 7.366595076969073e-06,
      "loss": 0.4724,
      "step": 2680
    },
    {
      "epoch": 0.41050683860137727,
      "grad_norm": 2.4689748287200928,
      "learning_rate": 7.343097122414159e-06,
      "loss": 0.4972,
      "step": 2690
    },
    {
      "epoch": 0.4120328863285199,
      "grad_norm": 3.1132616996765137,
      "learning_rate": 7.319532667077088e-06,
      "loss": 0.4766,
      "step": 2700
    },
    {
      "epoch": 0.4135589340556626,
      "grad_norm": 2.663201332092285,
      "learning_rate": 7.295902379754172e-06,
      "loss": 0.4833,
      "step": 2710
    },
    {
      "epoch": 0.4150849817828053,
      "grad_norm": 3.298428773880005,
      "learning_rate": 7.272206931110135e-06,
      "loss": 0.4533,
      "step": 2720
    },
    {
      "epoch": 0.41661102950994794,
      "grad_norm": 2.6843929290771484,
      "learning_rate": 7.248446993659086e-06,
      "loss": 0.4337,
      "step": 2730
    },
    {
      "epoch": 0.4181370772370906,
      "grad_norm": 2.778803825378418,
      "learning_rate": 7.224623241745423e-06,
      "loss": 0.4992,
      "step": 2740
    },
    {
      "epoch": 0.41966312496423325,
      "grad_norm": 3.245333194732666,
      "learning_rate": 7.200736351524705e-06,
      "loss": 0.483,
      "step": 2750
    },
    {
      "epoch": 0.4211891726913759,
      "grad_norm": 3.0267553329467773,
      "learning_rate": 7.176787000944449e-06,
      "loss": 0.4927,
      "step": 2760
    },
    {
      "epoch": 0.4227152204185186,
      "grad_norm": 2.559861183166504,
      "learning_rate": 7.152775869724902e-06,
      "loss": 0.4803,
      "step": 2770
    },
    {
      "epoch": 0.42424126814566127,
      "grad_norm": 2.693279504776001,
      "learning_rate": 7.128703639339732e-06,
      "loss": 0.4622,
      "step": 2780
    },
    {
      "epoch": 0.4257673158728039,
      "grad_norm": 2.9602789878845215,
      "learning_rate": 7.104570992996711e-06,
      "loss": 0.5023,
      "step": 2790
    },
    {
      "epoch": 0.4272933635999466,
      "grad_norm": 3.0726730823516846,
      "learning_rate": 7.080378615618299e-06,
      "loss": 0.4737,
      "step": 2800
    },
    {
      "epoch": 0.42881941132708923,
      "grad_norm": 2.7500321865081787,
      "learning_rate": 7.0561271938222275e-06,
      "loss": 0.4669,
      "step": 2810
    },
    {
      "epoch": 0.43034545905423194,
      "grad_norm": 2.4754300117492676,
      "learning_rate": 7.031817415901991e-06,
      "loss": 0.4597,
      "step": 2820
    },
    {
      "epoch": 0.4318715067813746,
      "grad_norm": 2.9996578693389893,
      "learning_rate": 7.007449971807331e-06,
      "loss": 0.4693,
      "step": 2830
    },
    {
      "epoch": 0.43339755450851725,
      "grad_norm": 2.9249792098999023,
      "learning_rate": 6.983025553124638e-06,
      "loss": 0.4778,
      "step": 2840
    },
    {
      "epoch": 0.4349236022356599,
      "grad_norm": 3.4900503158569336,
      "learning_rate": 6.958544853057339e-06,
      "loss": 0.4768,
      "step": 2850
    },
    {
      "epoch": 0.4364496499628026,
      "grad_norm": 2.6894686222076416,
      "learning_rate": 6.934008566406211e-06,
      "loss": 0.4828,
      "step": 2860
    },
    {
      "epoch": 0.43797569768994526,
      "grad_norm": 2.501004934310913,
      "learning_rate": 6.909417389549664e-06,
      "loss": 0.4719,
      "step": 2870
    },
    {
      "epoch": 0.4395017454170879,
      "grad_norm": 2.8693606853485107,
      "learning_rate": 6.8847720204239835e-06,
      "loss": 0.4464,
      "step": 2880
    },
    {
      "epoch": 0.4410277931442306,
      "grad_norm": 3.2556777000427246,
      "learning_rate": 6.860073158503511e-06,
      "loss": 0.4667,
      "step": 2890
    },
    {
      "epoch": 0.4425538408713732,
      "grad_norm": 3.124281406402588,
      "learning_rate": 6.8353215047808006e-06,
      "loss": 0.4647,
      "step": 2900
    },
    {
      "epoch": 0.44407988859851594,
      "grad_norm": 3.2909648418426514,
      "learning_rate": 6.810517761746724e-06,
      "loss": 0.4543,
      "step": 2910
    },
    {
      "epoch": 0.4456059363256586,
      "grad_norm": 3.157102584838867,
      "learning_rate": 6.785662633370521e-06,
      "loss": 0.4802,
      "step": 2920
    },
    {
      "epoch": 0.44713198405280125,
      "grad_norm": 3.0583925247192383,
      "learning_rate": 6.760756825079838e-06,
      "loss": 0.4788,
      "step": 2930
    },
    {
      "epoch": 0.4486580317799439,
      "grad_norm": 3.167233943939209,
      "learning_rate": 6.735801043740691e-06,
      "loss": 0.4607,
      "step": 2940
    },
    {
      "epoch": 0.4501840795070866,
      "grad_norm": 2.5458922386169434,
      "learning_rate": 6.710795997637412e-06,
      "loss": 0.4574,
      "step": 2950
    },
    {
      "epoch": 0.45171012723422926,
      "grad_norm": 2.914799690246582,
      "learning_rate": 6.68574239645254e-06,
      "loss": 0.4686,
      "step": 2960
    },
    {
      "epoch": 0.4532361749613719,
      "grad_norm": 2.5135247707366943,
      "learning_rate": 6.660640951246691e-06,
      "loss": 0.4771,
      "step": 2970
    },
    {
      "epoch": 0.4547622226885146,
      "grad_norm": 2.9928719997406006,
      "learning_rate": 6.635492374438366e-06,
      "loss": 0.4602,
      "step": 2980
    },
    {
      "epoch": 0.4562882704156572,
      "grad_norm": 2.775026321411133,
      "learning_rate": 6.6102973797837324e-06,
      "loss": 0.4585,
      "step": 2990
    },
    {
      "epoch": 0.45781431814279994,
      "grad_norm": 2.5386760234832764,
      "learning_rate": 6.585056682356375e-06,
      "loss": 0.4823,
      "step": 3000
    },
    {
      "epoch": 0.45781431814279994,
      "eval_loss": 0.45332393050193787,
      "eval_runtime": 100.0205,
      "eval_samples_per_second": 5.299,
      "eval_steps_per_second": 2.649,
      "step": 3000
    },
    {
      "epoch": 0.4593403658699426,
      "grad_norm": 2.6468212604522705,
      "learning_rate": 6.5597709985269895e-06,
      "loss": 0.4769,
      "step": 3010
    },
    {
      "epoch": 0.46086641359708524,
      "grad_norm": 2.3556416034698486,
      "learning_rate": 6.534441045943059e-06,
      "loss": 0.4712,
      "step": 3020
    },
    {
      "epoch": 0.4623924613242279,
      "grad_norm": 2.7787866592407227,
      "learning_rate": 6.509067543508483e-06,
      "loss": 0.4574,
      "step": 3030
    },
    {
      "epoch": 0.4639185090513706,
      "grad_norm": 3.103032112121582,
      "learning_rate": 6.483651211363175e-06,
      "loss": 0.4505,
      "step": 3040
    },
    {
      "epoch": 0.46544455677851326,
      "grad_norm": 2.5027055740356445,
      "learning_rate": 6.4581927708626235e-06,
      "loss": 0.4669,
      "step": 3050
    },
    {
      "epoch": 0.4669706045056559,
      "grad_norm": 3.0449085235595703,
      "learning_rate": 6.432692944557416e-06,
      "loss": 0.4616,
      "step": 3060
    },
    {
      "epoch": 0.46849665223279857,
      "grad_norm": 2.4839391708374023,
      "learning_rate": 6.407152456172736e-06,
      "loss": 0.4435,
      "step": 3070
    },
    {
      "epoch": 0.4700226999599412,
      "grad_norm": 2.436234474182129,
      "learning_rate": 6.381572030587822e-06,
      "loss": 0.4635,
      "step": 3080
    },
    {
      "epoch": 0.47154874768708394,
      "grad_norm": 2.8912863731384277,
      "learning_rate": 6.355952393815388e-06,
      "loss": 0.4652,
      "step": 3090
    },
    {
      "epoch": 0.4730747954142266,
      "grad_norm": 2.5968050956726074,
      "learning_rate": 6.33029427298103e-06,
      "loss": 0.4729,
      "step": 3100
    },
    {
      "epoch": 0.47460084314136924,
      "grad_norm": 3.2073683738708496,
      "learning_rate": 6.304598396302578e-06,
      "loss": 0.4953,
      "step": 3110
    },
    {
      "epoch": 0.4761268908685119,
      "grad_norm": 3.0304925441741943,
      "learning_rate": 6.278865493069434e-06,
      "loss": 0.4474,
      "step": 3120
    },
    {
      "epoch": 0.47765293859565455,
      "grad_norm": 2.594212293624878,
      "learning_rate": 6.25309629362187e-06,
      "loss": 0.4613,
      "step": 3130
    },
    {
      "epoch": 0.47917898632279726,
      "grad_norm": 3.9076614379882812,
      "learning_rate": 6.227291529330302e-06,
      "loss": 0.4581,
      "step": 3140
    },
    {
      "epoch": 0.4807050340499399,
      "grad_norm": 3.236703634262085,
      "learning_rate": 6.201451932574533e-06,
      "loss": 0.491,
      "step": 3150
    },
    {
      "epoch": 0.48223108177708257,
      "grad_norm": 3.039473056793213,
      "learning_rate": 6.175578236722968e-06,
      "loss": 0.4632,
      "step": 3160
    },
    {
      "epoch": 0.4837571295042252,
      "grad_norm": 2.9076642990112305,
      "learning_rate": 6.149671176111793e-06,
      "loss": 0.4587,
      "step": 3170
    },
    {
      "epoch": 0.48528317723136793,
      "grad_norm": 2.884756565093994,
      "learning_rate": 6.123731486024146e-06,
      "loss": 0.4576,
      "step": 3180
    },
    {
      "epoch": 0.4868092249585106,
      "grad_norm": 2.9610495567321777,
      "learning_rate": 6.097759902669232e-06,
      "loss": 0.4562,
      "step": 3190
    },
    {
      "epoch": 0.48833527268565324,
      "grad_norm": 2.4013702869415283,
      "learning_rate": 6.071757163161443e-06,
      "loss": 0.4451,
      "step": 3200
    },
    {
      "epoch": 0.4898613204127959,
      "grad_norm": 2.82401180267334,
      "learning_rate": 6.045724005499429e-06,
      "loss": 0.4658,
      "step": 3210
    },
    {
      "epoch": 0.49138736813993855,
      "grad_norm": 3.196622133255005,
      "learning_rate": 6.019661168545159e-06,
      "loss": 0.4443,
      "step": 3220
    },
    {
      "epoch": 0.49291341586708126,
      "grad_norm": 2.9927377700805664,
      "learning_rate": 5.9935693920029405e-06,
      "loss": 0.4538,
      "step": 3230
    },
    {
      "epoch": 0.4944394635942239,
      "grad_norm": 2.5958001613616943,
      "learning_rate": 5.967449416398438e-06,
      "loss": 0.4481,
      "step": 3240
    },
    {
      "epoch": 0.49596551132136657,
      "grad_norm": 3.0835108757019043,
      "learning_rate": 5.941301983057646e-06,
      "loss": 0.4629,
      "step": 3250
    },
    {
      "epoch": 0.4974915590485092,
      "grad_norm": 2.6167795658111572,
      "learning_rate": 5.915127834085853e-06,
      "loss": 0.4626,
      "step": 3260
    },
    {
      "epoch": 0.49901760677565193,
      "grad_norm": 2.769148826599121,
      "learning_rate": 5.888927712346582e-06,
      "loss": 0.4574,
      "step": 3270
    },
    {
      "epoch": 0.5005436545027946,
      "grad_norm": 2.5669050216674805,
      "learning_rate": 5.862702361440502e-06,
      "loss": 0.4594,
      "step": 3280
    },
    {
      "epoch": 0.5020697022299372,
      "grad_norm": 3.04659104347229,
      "learning_rate": 5.836452525684326e-06,
      "loss": 0.4495,
      "step": 3290
    },
    {
      "epoch": 0.5035957499570799,
      "grad_norm": 2.9052836894989014,
      "learning_rate": 5.8101789500896855e-06,
      "loss": 0.4302,
      "step": 3300
    },
    {
      "epoch": 0.5051217976842226,
      "grad_norm": 2.720864772796631,
      "learning_rate": 5.783882380341985e-06,
      "loss": 0.4522,
      "step": 3310
    },
    {
      "epoch": 0.5066478454113652,
      "grad_norm": 2.5311403274536133,
      "learning_rate": 5.7575635627792384e-06,
      "loss": 0.4807,
      "step": 3320
    },
    {
      "epoch": 0.5081738931385079,
      "grad_norm": 3.34335994720459,
      "learning_rate": 5.731223244370891e-06,
      "loss": 0.4576,
      "step": 3330
    },
    {
      "epoch": 0.5096999408656506,
      "grad_norm": 3.448711633682251,
      "learning_rate": 5.704862172696612e-06,
      "loss": 0.4498,
      "step": 3340
    },
    {
      "epoch": 0.5112259885927932,
      "grad_norm": 3.406877279281616,
      "learning_rate": 5.678481095925087e-06,
      "loss": 0.4633,
      "step": 3350
    },
    {
      "epoch": 0.5127520363199359,
      "grad_norm": 2.611567974090576,
      "learning_rate": 5.65208076279277e-06,
      "loss": 0.4687,
      "step": 3360
    },
    {
      "epoch": 0.5142780840470785,
      "grad_norm": 2.893051862716675,
      "learning_rate": 5.625661922582646e-06,
      "loss": 0.4572,
      "step": 3370
    },
    {
      "epoch": 0.5158041317742212,
      "grad_norm": 2.572845935821533,
      "learning_rate": 5.599225325102957e-06,
      "loss": 0.461,
      "step": 3380
    },
    {
      "epoch": 0.517330179501364,
      "grad_norm": 2.917742967605591,
      "learning_rate": 5.572771720665928e-06,
      "loss": 0.4679,
      "step": 3390
    },
    {
      "epoch": 0.5188562272285066,
      "grad_norm": 2.3963794708251953,
      "learning_rate": 5.546301860066463e-06,
      "loss": 0.4423,
      "step": 3400
    },
    {
      "epoch": 0.5203822749556493,
      "grad_norm": 3.034247636795044,
      "learning_rate": 5.519816494560848e-06,
      "loss": 0.4689,
      "step": 3410
    },
    {
      "epoch": 0.5219083226827919,
      "grad_norm": 2.448772668838501,
      "learning_rate": 5.493316375845417e-06,
      "loss": 0.4295,
      "step": 3420
    },
    {
      "epoch": 0.5234343704099346,
      "grad_norm": 2.448565721511841,
      "learning_rate": 5.466802256035225e-06,
      "loss": 0.4405,
      "step": 3430
    },
    {
      "epoch": 0.5249604181370773,
      "grad_norm": 3.043869733810425,
      "learning_rate": 5.4402748876427e-06,
      "loss": 0.4114,
      "step": 3440
    },
    {
      "epoch": 0.5264864658642199,
      "grad_norm": 2.8036019802093506,
      "learning_rate": 5.413735023556288e-06,
      "loss": 0.4556,
      "step": 3450
    },
    {
      "epoch": 0.5280125135913626,
      "grad_norm": 2.72363018989563,
      "learning_rate": 5.387183417019079e-06,
      "loss": 0.458,
      "step": 3460
    },
    {
      "epoch": 0.5295385613185052,
      "grad_norm": 2.6680619716644287,
      "learning_rate": 5.360620821607433e-06,
      "loss": 0.4522,
      "step": 3470
    },
    {
      "epoch": 0.5310646090456479,
      "grad_norm": 3.0074567794799805,
      "learning_rate": 5.334047991209594e-06,
      "loss": 0.4683,
      "step": 3480
    },
    {
      "epoch": 0.5325906567727906,
      "grad_norm": 2.9890754222869873,
      "learning_rate": 5.307465680004289e-06,
      "loss": 0.4417,
      "step": 3490
    },
    {
      "epoch": 0.5341167044999332,
      "grad_norm": 2.6241977214813232,
      "learning_rate": 5.280874642439323e-06,
      "loss": 0.4292,
      "step": 3500
    },
    {
      "epoch": 0.5341167044999332,
      "eval_loss": 0.4343341290950775,
      "eval_runtime": 99.9521,
      "eval_samples_per_second": 5.303,
      "eval_steps_per_second": 2.651,
      "step": 3500
    },
    {
      "epoch": 0.5356427522270759,
      "grad_norm": 2.369849920272827,
      "learning_rate": 5.254275633210175e-06,
      "loss": 0.4566,
      "step": 3510
    },
    {
      "epoch": 0.5371687999542186,
      "grad_norm": 2.8073859214782715,
      "learning_rate": 5.227669407238565e-06,
      "loss": 0.4706,
      "step": 3520
    },
    {
      "epoch": 0.5386948476813612,
      "grad_norm": 2.9969775676727295,
      "learning_rate": 5.201056719651042e-06,
      "loss": 0.4656,
      "step": 3530
    },
    {
      "epoch": 0.5402208954085039,
      "grad_norm": 2.4478580951690674,
      "learning_rate": 5.174438325757542e-06,
      "loss": 0.4419,
      "step": 3540
    },
    {
      "epoch": 0.5417469431356465,
      "grad_norm": 2.7153167724609375,
      "learning_rate": 5.147814981029956e-06,
      "loss": 0.4913,
      "step": 3550
    },
    {
      "epoch": 0.5432729908627892,
      "grad_norm": 2.724480390548706,
      "learning_rate": 5.121187441080687e-06,
      "loss": 0.4523,
      "step": 3560
    },
    {
      "epoch": 0.544799038589932,
      "grad_norm": 2.984091281890869,
      "learning_rate": 5.094556461641205e-06,
      "loss": 0.4696,
      "step": 3570
    },
    {
      "epoch": 0.5463250863170745,
      "grad_norm": 2.665983200073242,
      "learning_rate": 5.0679227985406e-06,
      "loss": 0.4405,
      "step": 3580
    },
    {
      "epoch": 0.5478511340442173,
      "grad_norm": 2.8179776668548584,
      "learning_rate": 5.041287207684125e-06,
      "loss": 0.4503,
      "step": 3590
    },
    {
      "epoch": 0.5493771817713599,
      "grad_norm": 3.146925687789917,
      "learning_rate": 5.014650445031749e-06,
      "loss": 0.4908,
      "step": 3600
    },
    {
      "epoch": 0.5509032294985026,
      "grad_norm": 3.112048864364624,
      "learning_rate": 4.988013266576699e-06,
      "loss": 0.4404,
      "step": 3610
    },
    {
      "epoch": 0.5524292772256453,
      "grad_norm": 2.5898945331573486,
      "learning_rate": 4.961376428323997e-06,
      "loss": 0.4422,
      "step": 3620
    },
    {
      "epoch": 0.5539553249527879,
      "grad_norm": 2.4043118953704834,
      "learning_rate": 4.934740686269016e-06,
      "loss": 0.4688,
      "step": 3630
    },
    {
      "epoch": 0.5554813726799306,
      "grad_norm": 2.969442367553711,
      "learning_rate": 4.908106796376015e-06,
      "loss": 0.4497,
      "step": 3640
    },
    {
      "epoch": 0.5570074204070732,
      "grad_norm": 2.687509298324585,
      "learning_rate": 4.881475514556689e-06,
      "loss": 0.4356,
      "step": 3650
    },
    {
      "epoch": 0.5585334681342159,
      "grad_norm": 2.7803378105163574,
      "learning_rate": 4.854847596648704e-06,
      "loss": 0.468,
      "step": 3660
    },
    {
      "epoch": 0.5600595158613586,
      "grad_norm": 2.924004316329956,
      "learning_rate": 4.828223798394257e-06,
      "loss": 0.4478,
      "step": 3670
    },
    {
      "epoch": 0.5615855635885012,
      "grad_norm": 3.0467331409454346,
      "learning_rate": 4.8016048754186265e-06,
      "loss": 0.4515,
      "step": 3680
    },
    {
      "epoch": 0.5631116113156439,
      "grad_norm": 2.7318050861358643,
      "learning_rate": 4.77499158320872e-06,
      "loss": 0.4441,
      "step": 3690
    },
    {
      "epoch": 0.5646376590427865,
      "grad_norm": 2.8721094131469727,
      "learning_rate": 4.748384677091631e-06,
      "loss": 0.442,
      "step": 3700
    },
    {
      "epoch": 0.5661637067699292,
      "grad_norm": 2.5854904651641846,
      "learning_rate": 4.721784912213209e-06,
      "loss": 0.4523,
      "step": 3710
    },
    {
      "epoch": 0.5676897544970719,
      "grad_norm": 2.962846279144287,
      "learning_rate": 4.695193043516629e-06,
      "loss": 0.4208,
      "step": 3720
    },
    {
      "epoch": 0.5692158022242145,
      "grad_norm": 3.385815382003784,
      "learning_rate": 4.668609825720953e-06,
      "loss": 0.4212,
      "step": 3730
    },
    {
      "epoch": 0.5707418499513572,
      "grad_norm": 3.1869301795959473,
      "learning_rate": 4.642036013299716e-06,
      "loss": 0.4366,
      "step": 3740
    },
    {
      "epoch": 0.5722678976785,
      "grad_norm": 2.8463032245635986,
      "learning_rate": 4.615472360459519e-06,
      "loss": 0.4318,
      "step": 3750
    },
    {
      "epoch": 0.5737939454056425,
      "grad_norm": 2.9622936248779297,
      "learning_rate": 4.588919621118615e-06,
      "loss": 0.4352,
      "step": 3760
    },
    {
      "epoch": 0.5753199931327853,
      "grad_norm": 2.8792457580566406,
      "learning_rate": 4.562378548885519e-06,
      "loss": 0.4473,
      "step": 3770
    },
    {
      "epoch": 0.5768460408599279,
      "grad_norm": 2.265306234359741,
      "learning_rate": 4.535849897037607e-06,
      "loss": 0.4603,
      "step": 3780
    },
    {
      "epoch": 0.5783720885870706,
      "grad_norm": 2.707305431365967,
      "learning_rate": 4.50933441849975e-06,
      "loss": 0.4211,
      "step": 3790
    },
    {
      "epoch": 0.5798981363142133,
      "grad_norm": 2.334364891052246,
      "learning_rate": 4.4828328658229406e-06,
      "loss": 0.4478,
      "step": 3800
    },
    {
      "epoch": 0.5814241840413559,
      "grad_norm": 2.8786513805389404,
      "learning_rate": 4.456345991162933e-06,
      "loss": 0.4451,
      "step": 3810
    },
    {
      "epoch": 0.5829502317684986,
      "grad_norm": 2.4972634315490723,
      "learning_rate": 4.429874546258893e-06,
      "loss": 0.4675,
      "step": 3820
    },
    {
      "epoch": 0.5844762794956412,
      "grad_norm": 3.0034310817718506,
      "learning_rate": 4.40341928241207e-06,
      "loss": 0.4294,
      "step": 3830
    },
    {
      "epoch": 0.5860023272227839,
      "grad_norm": 3.1585464477539062,
      "learning_rate": 4.376980950464467e-06,
      "loss": 0.4143,
      "step": 3840
    },
    {
      "epoch": 0.5875283749499266,
      "grad_norm": 2.7901790142059326,
      "learning_rate": 4.350560300777533e-06,
      "loss": 0.459,
      "step": 3850
    },
    {
      "epoch": 0.5890544226770692,
      "grad_norm": 2.7392337322235107,
      "learning_rate": 4.324158083210867e-06,
      "loss": 0.4349,
      "step": 3860
    },
    {
      "epoch": 0.5905804704042119,
      "grad_norm": 2.9482500553131104,
      "learning_rate": 4.297775047100935e-06,
      "loss": 0.4362,
      "step": 3870
    },
    {
      "epoch": 0.5921065181313545,
      "grad_norm": 2.583388566970825,
      "learning_rate": 4.271411941239809e-06,
      "loss": 0.4702,
      "step": 3880
    },
    {
      "epoch": 0.5936325658584972,
      "grad_norm": 2.743952512741089,
      "learning_rate": 4.245069513853897e-06,
      "loss": 0.4401,
      "step": 3890
    },
    {
      "epoch": 0.5951586135856399,
      "grad_norm": 2.7953054904937744,
      "learning_rate": 4.218748512582732e-06,
      "loss": 0.4425,
      "step": 3900
    },
    {
      "epoch": 0.5966846613127825,
      "grad_norm": 2.898608684539795,
      "learning_rate": 4.19244968445773e-06,
      "loss": 0.4488,
      "step": 3910
    },
    {
      "epoch": 0.5982107090399252,
      "grad_norm": 2.4456114768981934,
      "learning_rate": 4.166173775881007e-06,
      "loss": 0.4226,
      "step": 3920
    },
    {
      "epoch": 0.5997367567670678,
      "grad_norm": 3.178201913833618,
      "learning_rate": 4.139921532604177e-06,
      "loss": 0.4267,
      "step": 3930
    },
    {
      "epoch": 0.6012628044942105,
      "grad_norm": 2.3235249519348145,
      "learning_rate": 4.113693699707203e-06,
      "loss": 0.4486,
      "step": 3940
    },
    {
      "epoch": 0.6027888522213533,
      "grad_norm": 2.7228195667266846,
      "learning_rate": 4.0874910215772426e-06,
      "loss": 0.4271,
      "step": 3950
    },
    {
      "epoch": 0.6043148999484959,
      "grad_norm": 2.8123674392700195,
      "learning_rate": 4.061314241887516e-06,
      "loss": 0.4111,
      "step": 3960
    },
    {
      "epoch": 0.6058409476756386,
      "grad_norm": 2.610856533050537,
      "learning_rate": 4.03516410357621e-06,
      "loss": 0.4229,
      "step": 3970
    },
    {
      "epoch": 0.6073669954027813,
      "grad_norm": 2.711467742919922,
      "learning_rate": 4.009041348825383e-06,
      "loss": 0.4265,
      "step": 3980
    },
    {
      "epoch": 0.6088930431299239,
      "grad_norm": 3.1023402214050293,
      "learning_rate": 3.982946719039911e-06,
      "loss": 0.4249,
      "step": 3990
    },
    {
      "epoch": 0.6104190908570666,
      "grad_norm": 2.8750693798065186,
      "learning_rate": 3.956880954826435e-06,
      "loss": 0.4333,
      "step": 4000
    },
    {
      "epoch": 0.6104190908570666,
      "eval_loss": 0.4167136251926422,
      "eval_runtime": 99.9809,
      "eval_samples_per_second": 5.301,
      "eval_steps_per_second": 2.651,
      "step": 4000
    },
    {
      "epoch": 0.6119451385842092,
      "grad_norm": 2.5793118476867676,
      "learning_rate": 3.930844795972344e-06,
      "loss": 0.4512,
      "step": 4010
    },
    {
      "epoch": 0.6134711863113519,
      "grad_norm": 3.219802141189575,
      "learning_rate": 3.904838981424785e-06,
      "loss": 0.4203,
      "step": 4020
    },
    {
      "epoch": 0.6149972340384946,
      "grad_norm": 3.2610111236572266,
      "learning_rate": 3.878864249269681e-06,
      "loss": 0.439,
      "step": 4030
    },
    {
      "epoch": 0.6165232817656372,
      "grad_norm": 2.9082117080688477,
      "learning_rate": 3.852921336710794e-06,
      "loss": 0.4365,
      "step": 4040
    },
    {
      "epoch": 0.6180493294927799,
      "grad_norm": 3.1823573112487793,
      "learning_rate": 3.827010980048787e-06,
      "loss": 0.4377,
      "step": 4050
    },
    {
      "epoch": 0.6195753772199225,
      "grad_norm": 2.5103094577789307,
      "learning_rate": 3.801133914660344e-06,
      "loss": 0.4389,
      "step": 4060
    },
    {
      "epoch": 0.6211014249470652,
      "grad_norm": 2.895665168762207,
      "learning_rate": 3.7752908749772865e-06,
      "loss": 0.4417,
      "step": 4070
    },
    {
      "epoch": 0.6226274726742079,
      "grad_norm": 3.2190115451812744,
      "learning_rate": 3.749482594465733e-06,
      "loss": 0.4232,
      "step": 4080
    },
    {
      "epoch": 0.6241535204013505,
      "grad_norm": 2.946439504623413,
      "learning_rate": 3.7237098056052816e-06,
      "loss": 0.4205,
      "step": 4090
    },
    {
      "epoch": 0.6256795681284932,
      "grad_norm": 2.475071907043457,
      "learning_rate": 3.6979732398682223e-06,
      "loss": 0.4627,
      "step": 4100
    },
    {
      "epoch": 0.6272056158556358,
      "grad_norm": 3.475555181503296,
      "learning_rate": 3.672273627698775e-06,
      "loss": 0.4135,
      "step": 4110
    },
    {
      "epoch": 0.6287316635827785,
      "grad_norm": 2.8138234615325928,
      "learning_rate": 3.646611698492364e-06,
      "loss": 0.4203,
      "step": 4120
    },
    {
      "epoch": 0.6302577113099213,
      "grad_norm": 3.4674346446990967,
      "learning_rate": 3.6209881805749025e-06,
      "loss": 0.4225,
      "step": 4130
    },
    {
      "epoch": 0.6317837590370639,
      "grad_norm": 2.8863394260406494,
      "learning_rate": 3.59540380118214e-06,
      "loss": 0.4256,
      "step": 4140
    },
    {
      "epoch": 0.6333098067642066,
      "grad_norm": 2.5023999214172363,
      "learning_rate": 3.5698592864390085e-06,
      "loss": 0.4494,
      "step": 4150
    },
    {
      "epoch": 0.6348358544913493,
      "grad_norm": 3.108616828918457,
      "learning_rate": 3.544355361339017e-06,
      "loss": 0.4278,
      "step": 4160
    },
    {
      "epoch": 0.6363619022184919,
      "grad_norm": 3.5009264945983887,
      "learning_rate": 3.51889274972368e-06,
      "loss": 0.4145,
      "step": 4170
    },
    {
      "epoch": 0.6378879499456346,
      "grad_norm": 4.06900691986084,
      "learning_rate": 3.4934721742619714e-06,
      "loss": 0.4327,
      "step": 4180
    },
    {
      "epoch": 0.6394139976727772,
      "grad_norm": 3.3994603157043457,
      "learning_rate": 3.46809435642981e-06,
      "loss": 0.4123,
      "step": 4190
    },
    {
      "epoch": 0.6409400453999199,
      "grad_norm": 2.9589715003967285,
      "learning_rate": 3.442760016489586e-06,
      "loss": 0.3977,
      "step": 4200
    },
    {
      "epoch": 0.6424660931270626,
      "grad_norm": 2.398531436920166,
      "learning_rate": 3.4174698734697177e-06,
      "loss": 0.4197,
      "step": 4210
    },
    {
      "epoch": 0.6439921408542052,
      "grad_norm": 3.2008326053619385,
      "learning_rate": 3.3922246451442474e-06,
      "loss": 0.4286,
      "step": 4220
    },
    {
      "epoch": 0.6455181885813479,
      "grad_norm": 3.441654920578003,
      "learning_rate": 3.3670250480124712e-06,
      "loss": 0.4568,
      "step": 4230
    },
    {
      "epoch": 0.6470442363084905,
      "grad_norm": 2.481886386871338,
      "learning_rate": 3.3418717972785906e-06,
      "loss": 0.403,
      "step": 4240
    },
    {
      "epoch": 0.6485702840356332,
      "grad_norm": 2.639709949493408,
      "learning_rate": 3.316765606831432e-06,
      "loss": 0.4567,
      "step": 4250
    },
    {
      "epoch": 0.6500963317627759,
      "grad_norm": 2.857813596725464,
      "learning_rate": 3.2917071892241714e-06,
      "loss": 0.4147,
      "step": 4260
    },
    {
      "epoch": 0.6516223794899185,
      "grad_norm": 2.872697353363037,
      "learning_rate": 3.266697255654123e-06,
      "loss": 0.4138,
      "step": 4270
    },
    {
      "epoch": 0.6531484272170612,
      "grad_norm": 3.090141773223877,
      "learning_rate": 3.2417365159425383e-06,
      "loss": 0.4238,
      "step": 4280
    },
    {
      "epoch": 0.6546744749442038,
      "grad_norm": 3.7141196727752686,
      "learning_rate": 3.216825678514478e-06,
      "loss": 0.4198,
      "step": 4290
    },
    {
      "epoch": 0.6562005226713465,
      "grad_norm": 2.859290838241577,
      "learning_rate": 3.1919654503786935e-06,
      "loss": 0.4159,
      "step": 4300
    },
    {
      "epoch": 0.6577265703984893,
      "grad_norm": 3.016757011413574,
      "learning_rate": 3.1671565371075687e-06,
      "loss": 0.4218,
      "step": 4310
    },
    {
      "epoch": 0.6592526181256319,
      "grad_norm": 2.7048025131225586,
      "learning_rate": 3.142399642817084e-06,
      "loss": 0.4327,
      "step": 4320
    },
    {
      "epoch": 0.6607786658527746,
      "grad_norm": 2.9763782024383545,
      "learning_rate": 3.117695470146844e-06,
      "loss": 0.4071,
      "step": 4330
    },
    {
      "epoch": 0.6623047135799172,
      "grad_norm": 2.885979652404785,
      "learning_rate": 3.0930447202401303e-06,
      "loss": 0.4279,
      "step": 4340
    },
    {
      "epoch": 0.6638307613070599,
      "grad_norm": 2.6588382720947266,
      "learning_rate": 3.0684480927240057e-06,
      "loss": 0.4199,
      "step": 4350
    },
    {
      "epoch": 0.6653568090342026,
      "grad_norm": 3.2519760131835938,
      "learning_rate": 3.0439062856894463e-06,
      "loss": 0.4067,
      "step": 4360
    },
    {
      "epoch": 0.6668828567613452,
      "grad_norm": 5.050004482269287,
      "learning_rate": 3.0194199956715443e-06,
      "loss": 0.4256,
      "step": 4370
    },
    {
      "epoch": 0.6684089044884879,
      "grad_norm": 2.7873661518096924,
      "learning_rate": 2.994989917629726e-06,
      "loss": 0.4203,
      "step": 4380
    },
    {
      "epoch": 0.6699349522156306,
      "grad_norm": 2.685523509979248,
      "learning_rate": 2.9706167449280404e-06,
      "loss": 0.4546,
      "step": 4390
    },
    {
      "epoch": 0.6714609999427732,
      "grad_norm": 2.6410155296325684,
      "learning_rate": 2.9463011693154643e-06,
      "loss": 0.4257,
      "step": 4400
    },
    {
      "epoch": 0.6729870476699159,
      "grad_norm": 2.6280877590179443,
      "learning_rate": 2.9220438809062855e-06,
      "loss": 0.4154,
      "step": 4410
    },
    {
      "epoch": 0.6745130953970585,
      "grad_norm": 2.6469454765319824,
      "learning_rate": 2.897845568160508e-06,
      "loss": 0.4245,
      "step": 4420
    },
    {
      "epoch": 0.6760391431242012,
      "grad_norm": 3.425985097885132,
      "learning_rate": 2.873706917864314e-06,
      "loss": 0.4173,
      "step": 4430
    },
    {
      "epoch": 0.6775651908513439,
      "grad_norm": 2.8293681144714355,
      "learning_rate": 2.8496286151105644e-06,
      "loss": 0.4337,
      "step": 4440
    },
    {
      "epoch": 0.6790912385784865,
      "grad_norm": 2.9185335636138916,
      "learning_rate": 2.825611343279374e-06,
      "loss": 0.4132,
      "step": 4450
    },
    {
      "epoch": 0.6806172863056292,
      "grad_norm": 2.4097468852996826,
      "learning_rate": 2.801655784018696e-06,
      "loss": 0.4206,
      "step": 4460
    },
    {
      "epoch": 0.6821433340327718,
      "grad_norm": 2.4502408504486084,
      "learning_rate": 2.777762617224985e-06,
      "loss": 0.4192,
      "step": 4470
    },
    {
      "epoch": 0.6836693817599145,
      "grad_norm": 2.847097873687744,
      "learning_rate": 2.7539325210239e-06,
      "loss": 0.4347,
      "step": 4480
    },
    {
      "epoch": 0.6851954294870573,
      "grad_norm": 3.346667766571045,
      "learning_rate": 2.730166171751056e-06,
      "loss": 0.4328,
      "step": 4490
    },
    {
      "epoch": 0.6867214772141998,
      "grad_norm": 2.8015189170837402,
      "learning_rate": 2.706464243932836e-06,
      "loss": 0.4153,
      "step": 4500
    },
    {
      "epoch": 0.6867214772141998,
      "eval_loss": 0.40170425176620483,
      "eval_runtime": 99.9566,
      "eval_samples_per_second": 5.302,
      "eval_steps_per_second": 2.651,
      "step": 4500
    },
    {
      "epoch": 0.6882475249413426,
      "grad_norm": 3.115753173828125,
      "learning_rate": 2.6828274102672292e-06,
      "loss": 0.4192,
      "step": 4510
    },
    {
      "epoch": 0.6897735726684852,
      "grad_norm": 3.2326269149780273,
      "learning_rate": 2.6592563416047616e-06,
      "loss": 0.4203,
      "step": 4520
    },
    {
      "epoch": 0.6912996203956279,
      "grad_norm": 2.6536991596221924,
      "learning_rate": 2.6357517069294397e-06,
      "loss": 0.4023,
      "step": 4530
    },
    {
      "epoch": 0.6928256681227706,
      "grad_norm": 3.132383346557617,
      "learning_rate": 2.6123141733397695e-06,
      "loss": 0.4251,
      "step": 4540
    },
    {
      "epoch": 0.6943517158499132,
      "grad_norm": 2.5857174396514893,
      "learning_rate": 2.5889444060298217e-06,
      "loss": 0.3893,
      "step": 4550
    },
    {
      "epoch": 0.6958777635770559,
      "grad_norm": 2.402454137802124,
      "learning_rate": 2.5656430682703547e-06,
      "loss": 0.3777,
      "step": 4560
    },
    {
      "epoch": 0.6974038113041985,
      "grad_norm": 3.208631992340088,
      "learning_rate": 2.5424108213899902e-06,
      "loss": 0.4077,
      "step": 4570
    },
    {
      "epoch": 0.6989298590313412,
      "grad_norm": 3.2448372840881348,
      "learning_rate": 2.5192483247564393e-06,
      "loss": 0.4218,
      "step": 4580
    },
    {
      "epoch": 0.7004559067584839,
      "grad_norm": 2.6008667945861816,
      "learning_rate": 2.496156235757792e-06,
      "loss": 0.4466,
      "step": 4590
    },
    {
      "epoch": 0.7019819544856265,
      "grad_norm": 2.548492431640625,
      "learning_rate": 2.47313520978386e-06,
      "loss": 0.3949,
      "step": 4600
    },
    {
      "epoch": 0.7035080022127692,
      "grad_norm": 2.979745626449585,
      "learning_rate": 2.4501859002075713e-06,
      "loss": 0.4244,
      "step": 4610
    },
    {
      "epoch": 0.7050340499399119,
      "grad_norm": 2.696276903152466,
      "learning_rate": 2.4273089583664376e-06,
      "loss": 0.4144,
      "step": 4620
    },
    {
      "epoch": 0.7065600976670545,
      "grad_norm": 2.8598382472991943,
      "learning_rate": 2.404505033544048e-06,
      "loss": 0.391,
      "step": 4630
    },
    {
      "epoch": 0.7080861453941972,
      "grad_norm": 3.1868958473205566,
      "learning_rate": 2.381774772951666e-06,
      "loss": 0.4227,
      "step": 4640
    },
    {
      "epoch": 0.7096121931213398,
      "grad_norm": 3.3258581161499023,
      "learning_rate": 2.359118821709842e-06,
      "loss": 0.4306,
      "step": 4650
    },
    {
      "epoch": 0.7111382408484825,
      "grad_norm": 2.390016794204712,
      "learning_rate": 2.3365378228301107e-06,
      "loss": 0.4245,
      "step": 4660
    },
    {
      "epoch": 0.7126642885756252,
      "grad_norm": 2.966630220413208,
      "learning_rate": 2.314032417196742e-06,
      "loss": 0.4135,
      "step": 4670
    },
    {
      "epoch": 0.7141903363027678,
      "grad_norm": 3.0981130599975586,
      "learning_rate": 2.2916032435485477e-06,
      "loss": 0.4195,
      "step": 4680
    },
    {
      "epoch": 0.7157163840299106,
      "grad_norm": 2.610236644744873,
      "learning_rate": 2.269250938460762e-06,
      "loss": 0.4101,
      "step": 4690
    },
    {
      "epoch": 0.7172424317570532,
      "grad_norm": 2.589944839477539,
      "learning_rate": 2.246976136326963e-06,
      "loss": 0.4167,
      "step": 4700
    },
    {
      "epoch": 0.7187684794841959,
      "grad_norm": 2.9684040546417236,
      "learning_rate": 2.2247794693410746e-06,
      "loss": 0.3946,
      "step": 4710
    },
    {
      "epoch": 0.7202945272113386,
      "grad_norm": 2.7830798625946045,
      "learning_rate": 2.202661567479423e-06,
      "loss": 0.4112,
      "step": 4720
    },
    {
      "epoch": 0.7218205749384812,
      "grad_norm": 3.1135716438293457,
      "learning_rate": 2.180623058482853e-06,
      "loss": 0.4371,
      "step": 4730
    },
    {
      "epoch": 0.7233466226656239,
      "grad_norm": 2.432995557785034,
      "learning_rate": 2.158664567838924e-06,
      "loss": 0.3921,
      "step": 4740
    },
    {
      "epoch": 0.7248726703927665,
      "grad_norm": 2.704394817352295,
      "learning_rate": 2.136786718764135e-06,
      "loss": 0.4117,
      "step": 4750
    },
    {
      "epoch": 0.7263987181199092,
      "grad_norm": 3.2139337062835693,
      "learning_rate": 2.1149901321862624e-06,
      "loss": 0.3888,
      "step": 4760
    },
    {
      "epoch": 0.7279247658470519,
      "grad_norm": 2.8158254623413086,
      "learning_rate": 2.093275426726722e-06,
      "loss": 0.3953,
      "step": 4770
    },
    {
      "epoch": 0.7294508135741945,
      "grad_norm": 2.6510894298553467,
      "learning_rate": 2.0716432186830064e-06,
      "loss": 0.4003,
      "step": 4780
    },
    {
      "epoch": 0.7309768613013372,
      "grad_norm": 3.2726964950561523,
      "learning_rate": 2.0500941220112153e-06,
      "loss": 0.4097,
      "step": 4790
    },
    {
      "epoch": 0.7325029090284799,
      "grad_norm": 2.590909242630005,
      "learning_rate": 2.0286287483086046e-06,
      "loss": 0.4016,
      "step": 4800
    },
    {
      "epoch": 0.7340289567556225,
      "grad_norm": 2.8233532905578613,
      "learning_rate": 2.007247706796254e-06,
      "loss": 0.4012,
      "step": 4810
    },
    {
      "epoch": 0.7355550044827652,
      "grad_norm": 2.646611452102661,
      "learning_rate": 1.985951604301746e-06,
      "loss": 0.402,
      "step": 4820
    },
    {
      "epoch": 0.7370810522099078,
      "grad_norm": 2.817006826400757,
      "learning_rate": 1.9647410452419763e-06,
      "loss": 0.4361,
      "step": 4830
    },
    {
      "epoch": 0.7386070999370505,
      "grad_norm": 2.7627429962158203,
      "learning_rate": 1.943616631605973e-06,
      "loss": 0.4032,
      "step": 4840
    },
    {
      "epoch": 0.7401331476641932,
      "grad_norm": 2.847055673599243,
      "learning_rate": 1.922578962937826e-06,
      "loss": 0.3871,
      "step": 4850
    },
    {
      "epoch": 0.7416591953913358,
      "grad_norm": 3.007472515106201,
      "learning_rate": 1.9016286363196656e-06,
      "loss": 0.3938,
      "step": 4860
    },
    {
      "epoch": 0.7431852431184786,
      "grad_norm": 3.840334177017212,
      "learning_rate": 1.8807662463547156e-06,
      "loss": 0.416,
      "step": 4870
    },
    {
      "epoch": 0.7447112908456212,
      "grad_norm": 2.870105504989624,
      "learning_rate": 1.8599923851504237e-06,
      "loss": 0.4244,
      "step": 4880
    },
    {
      "epoch": 0.7462373385727639,
      "grad_norm": 2.780932664871216,
      "learning_rate": 1.8393076423016493e-06,
      "loss": 0.4187,
      "step": 4890
    },
    {
      "epoch": 0.7477633862999066,
      "grad_norm": 3.142162561416626,
      "learning_rate": 1.8187126048739284e-06,
      "loss": 0.3896,
      "step": 4900
    },
    {
      "epoch": 0.7492894340270492,
      "grad_norm": 2.7128045558929443,
      "learning_rate": 1.7982078573868245e-06,
      "loss": 0.4062,
      "step": 4910
    },
    {
      "epoch": 0.7508154817541919,
      "grad_norm": 2.843827247619629,
      "learning_rate": 1.7777939817973238e-06,
      "loss": 0.4194,
      "step": 4920
    },
    {
      "epoch": 0.7523415294813345,
      "grad_norm": 2.7338247299194336,
      "learning_rate": 1.7574715574833324e-06,
      "loss": 0.4018,
      "step": 4930
    },
    {
      "epoch": 0.7538675772084772,
      "grad_norm": 2.4693098068237305,
      "learning_rate": 1.7372411612272149e-06,
      "loss": 0.4073,
      "step": 4940
    },
    {
      "epoch": 0.7553936249356199,
      "grad_norm": 2.3850250244140625,
      "learning_rate": 1.7171033671994418e-06,
      "loss": 0.3987,
      "step": 4950
    },
    {
      "epoch": 0.7569196726627625,
      "grad_norm": 2.474433183670044,
      "learning_rate": 1.6970587469422889e-06,
      "loss": 0.4142,
      "step": 4960
    },
    {
      "epoch": 0.7584457203899052,
      "grad_norm": 2.722198247909546,
      "learning_rate": 1.6771078693536075e-06,
      "loss": 0.3817,
      "step": 4970
    },
    {
      "epoch": 0.7599717681170478,
      "grad_norm": 2.9978530406951904,
      "learning_rate": 1.657251300670688e-06,
      "loss": 0.4322,
      "step": 4980
    },
    {
      "epoch": 0.7614978158441905,
      "grad_norm": 2.862351179122925,
      "learning_rate": 1.6374896044541854e-06,
      "loss": 0.4025,
      "step": 4990
    },
    {
      "epoch": 0.7630238635713332,
      "grad_norm": 3.3892769813537598,
      "learning_rate": 1.6178233415721228e-06,
      "loss": 0.3973,
      "step": 5000
    },
    {
      "epoch": 0.7630238635713332,
      "eval_loss": 0.39075401425361633,
      "eval_runtime": 99.9532,
      "eval_samples_per_second": 5.302,
      "eval_steps_per_second": 2.651,
      "step": 5000
    },
    {
      "epoch": 0.7645499112984758,
      "grad_norm": 3.2107391357421875,
      "learning_rate": 1.5982530701839815e-06,
      "loss": 0.4204,
      "step": 5010
    },
    {
      "epoch": 0.7660759590256185,
      "grad_norm": 2.611640691757202,
      "learning_rate": 1.5787793457248425e-06,
      "loss": 0.3878,
      "step": 5020
    },
    {
      "epoch": 0.7676020067527612,
      "grad_norm": 3.0495364665985107,
      "learning_rate": 1.5594027208896433e-06,
      "loss": 0.4075,
      "step": 5030
    },
    {
      "epoch": 0.7691280544799038,
      "grad_norm": 3.080049991607666,
      "learning_rate": 1.5401237456174755e-06,
      "loss": 0.4277,
      "step": 5040
    },
    {
      "epoch": 0.7706541022070466,
      "grad_norm": 2.9949750900268555,
      "learning_rate": 1.5209429670759874e-06,
      "loss": 0.4008,
      "step": 5050
    },
    {
      "epoch": 0.7721801499341892,
      "grad_norm": 2.866619348526001,
      "learning_rate": 1.5018609296458425e-06,
      "loss": 0.3935,
      "step": 5060
    },
    {
      "epoch": 0.7737061976613319,
      "grad_norm": 2.5663259029388428,
      "learning_rate": 1.4828781749052807e-06,
      "loss": 0.3999,
      "step": 5070
    },
    {
      "epoch": 0.7752322453884746,
      "grad_norm": 2.572970151901245,
      "learning_rate": 1.4639952416147457e-06,
      "loss": 0.4095,
      "step": 5080
    },
    {
      "epoch": 0.7767582931156172,
      "grad_norm": 2.68562650680542,
      "learning_rate": 1.445212665701583e-06,
      "loss": 0.419,
      "step": 5090
    },
    {
      "epoch": 0.7782843408427599,
      "grad_norm": 3.246164321899414,
      "learning_rate": 1.426530980244848e-06,
      "loss": 0.4138,
      "step": 5100
    },
    {
      "epoch": 0.7798103885699025,
      "grad_norm": 3.2083702087402344,
      "learning_rate": 1.407950715460159e-06,
      "loss": 0.4208,
      "step": 5110
    },
    {
      "epoch": 0.7813364362970452,
      "grad_norm": 3.3285470008850098,
      "learning_rate": 1.389472398684658e-06,
      "loss": 0.3787,
      "step": 5120
    },
    {
      "epoch": 0.7828624840241879,
      "grad_norm": 2.917363405227661,
      "learning_rate": 1.3710965543620442e-06,
      "loss": 0.4057,
      "step": 5130
    },
    {
      "epoch": 0.7843885317513305,
      "grad_norm": 4.440506935119629,
      "learning_rate": 1.3528237040276825e-06,
      "loss": 0.3901,
      "step": 5140
    },
    {
      "epoch": 0.7859145794784732,
      "grad_norm": 4.1051788330078125,
      "learning_rate": 1.3346543662938132e-06,
      "loss": 0.4323,
      "step": 5150
    },
    {
      "epoch": 0.7874406272056158,
      "grad_norm": 2.771667242050171,
      "learning_rate": 1.316589056834821e-06,
      "loss": 0.4127,
      "step": 5160
    },
    {
      "epoch": 0.7889666749327585,
      "grad_norm": 2.9452033042907715,
      "learning_rate": 1.2986282883726065e-06,
      "loss": 0.4235,
      "step": 5170
    },
    {
      "epoch": 0.7904927226599012,
      "grad_norm": 3.01763916015625,
      "learning_rate": 1.2807725706620317e-06,
      "loss": 0.4059,
      "step": 5180
    },
    {
      "epoch": 0.7920187703870438,
      "grad_norm": 3.0742299556732178,
      "learning_rate": 1.2630224104764516e-06,
      "loss": 0.416,
      "step": 5190
    },
    {
      "epoch": 0.7935448181141865,
      "grad_norm": 2.9382846355438232,
      "learning_rate": 1.2453783115933387e-06,
      "loss": 0.3976,
      "step": 5200
    },
    {
      "epoch": 0.7950708658413291,
      "grad_norm": 2.8469552993774414,
      "learning_rate": 1.2278407747799687e-06,
      "loss": 0.407,
      "step": 5210
    },
    {
      "epoch": 0.7965969135684718,
      "grad_norm": 2.8619937896728516,
      "learning_rate": 1.2104102977792282e-06,
      "loss": 0.3873,
      "step": 5220
    },
    {
      "epoch": 0.7981229612956146,
      "grad_norm": 3.257063388824463,
      "learning_rate": 1.1930873752954725e-06,
      "loss": 0.3868,
      "step": 5230
    },
    {
      "epoch": 0.7996490090227572,
      "grad_norm": 3.016730785369873,
      "learning_rate": 1.1758724989804908e-06,
      "loss": 0.4081,
      "step": 5240
    },
    {
      "epoch": 0.8011750567498999,
      "grad_norm": 3.1905858516693115,
      "learning_rate": 1.1587661574195536e-06,
      "loss": 0.3895,
      "step": 5250
    },
    {
      "epoch": 0.8027011044770426,
      "grad_norm": 2.977105140686035,
      "learning_rate": 1.1417688361175422e-06,
      "loss": 0.4028,
      "step": 5260
    },
    {
      "epoch": 0.8042271522041852,
      "grad_norm": 2.6317853927612305,
      "learning_rate": 1.1248810174851755e-06,
      "loss": 0.377,
      "step": 5270
    },
    {
      "epoch": 0.8057531999313279,
      "grad_norm": 3.0427422523498535,
      "learning_rate": 1.1081031808253096e-06,
      "loss": 0.3763,
      "step": 5280
    },
    {
      "epoch": 0.8072792476584705,
      "grad_norm": 3.044510841369629,
      "learning_rate": 1.0914358023193428e-06,
      "loss": 0.382,
      "step": 5290
    },
    {
      "epoch": 0.8088052953856132,
      "grad_norm": 2.3702402114868164,
      "learning_rate": 1.0748793550136949e-06,
      "loss": 0.4003,
      "step": 5300
    },
    {
      "epoch": 0.8103313431127559,
      "grad_norm": 2.994016647338867,
      "learning_rate": 1.0584343088063837e-06,
      "loss": 0.3966,
      "step": 5310
    },
    {
      "epoch": 0.8118573908398985,
      "grad_norm": 3.0523016452789307,
      "learning_rate": 1.0421011304336932e-06,
      "loss": 0.4129,
      "step": 5320
    },
    {
      "epoch": 0.8133834385670412,
      "grad_norm": 3.0171058177948,
      "learning_rate": 1.0258802834569137e-06,
      "loss": 0.3687,
      "step": 5330
    },
    {
      "epoch": 0.8149094862941838,
      "grad_norm": 2.748992681503296,
      "learning_rate": 1.0097722282492023e-06,
      "loss": 0.3936,
      "step": 5340
    },
    {
      "epoch": 0.8164355340213265,
      "grad_norm": 2.96637225151062,
      "learning_rate": 9.93777421982503e-07,
      "loss": 0.4234,
      "step": 5350
    },
    {
      "epoch": 0.8179615817484692,
      "grad_norm": 3.161268949508667,
      "learning_rate": 9.778963186145796e-07,
      "loss": 0.3938,
      "step": 5360
    },
    {
      "epoch": 0.8194876294756118,
      "grad_norm": 2.630280017852783,
      "learning_rate": 9.621293688761263e-07,
      "loss": 0.3739,
      "step": 5370
    },
    {
      "epoch": 0.8210136772027545,
      "grad_norm": 3.382284641265869,
      "learning_rate": 9.464770202579787e-07,
      "loss": 0.3918,
      "step": 5380
    },
    {
      "epoch": 0.8225397249298971,
      "grad_norm": 3.014678716659546,
      "learning_rate": 9.309397169984158e-07,
      "loss": 0.4185,
      "step": 5390
    },
    {
      "epoch": 0.8240657726570398,
      "grad_norm": 2.7957093715667725,
      "learning_rate": 9.155179000705399e-07,
      "loss": 0.3897,
      "step": 5400
    },
    {
      "epoch": 0.8255918203841826,
      "grad_norm": 3.4030938148498535,
      "learning_rate": 9.00212007169779e-07,
      "loss": 0.3989,
      "step": 5410
    },
    {
      "epoch": 0.8271178681113251,
      "grad_norm": 3.2532286643981934,
      "learning_rate": 8.850224727014489e-07,
      "loss": 0.4053,
      "step": 5420
    },
    {
      "epoch": 0.8286439158384679,
      "grad_norm": 3.2262065410614014,
      "learning_rate": 8.699497277684326e-07,
      "loss": 0.413,
      "step": 5430
    },
    {
      "epoch": 0.8301699635656106,
      "grad_norm": 3.0282540321350098,
      "learning_rate": 8.549942001589406e-07,
      "loss": 0.3965,
      "step": 5440
    },
    {
      "epoch": 0.8316960112927532,
      "grad_norm": 2.6417813301086426,
      "learning_rate": 8.401563143343721e-07,
      "loss": 0.4071,
      "step": 5450
    },
    {
      "epoch": 0.8332220590198959,
      "grad_norm": 3.082578182220459,
      "learning_rate": 8.254364914172697e-07,
      "loss": 0.3975,
      "step": 5460
    },
    {
      "epoch": 0.8347481067470385,
      "grad_norm": 3.2389848232269287,
      "learning_rate": 8.108351491793615e-07,
      "loss": 0.404,
      "step": 5470
    },
    {
      "epoch": 0.8362741544741812,
      "grad_norm": 3.0996053218841553,
      "learning_rate": 7.963527020297085e-07,
      "loss": 0.3817,
      "step": 5480
    },
    {
      "epoch": 0.8378002022013239,
      "grad_norm": 2.964110851287842,
      "learning_rate": 7.819895610029433e-07,
      "loss": 0.3821,
      "step": 5490
    },
    {
      "epoch": 0.8393262499284665,
      "grad_norm": 3.0734763145446777,
      "learning_rate": 7.677461337476005e-07,
      "loss": 0.4168,
      "step": 5500
    },
    {
      "epoch": 0.8393262499284665,
      "eval_loss": 0.3822996914386749,
      "eval_runtime": 99.942,
      "eval_samples_per_second": 5.303,
      "eval_steps_per_second": 2.652,
      "step": 5500
    },
    {
      "epoch": 0.8408522976556092,
      "grad_norm": 3.2727982997894287,
      "learning_rate": 7.536228245145554e-07,
      "loss": 0.3812,
      "step": 5510
    },
    {
      "epoch": 0.8423783453827518,
      "grad_norm": 2.7713711261749268,
      "learning_rate": 7.396200341455356e-07,
      "loss": 0.3969,
      "step": 5520
    },
    {
      "epoch": 0.8439043931098945,
      "grad_norm": 3.2900307178497314,
      "learning_rate": 7.25738160061763e-07,
      "loss": 0.4094,
      "step": 5530
    },
    {
      "epoch": 0.8454304408370372,
      "grad_norm": 2.305082321166992,
      "learning_rate": 7.119775962526593e-07,
      "loss": 0.4075,
      "step": 5540
    },
    {
      "epoch": 0.8469564885641798,
      "grad_norm": 2.9151320457458496,
      "learning_rate": 6.983387332646718e-07,
      "loss": 0.3881,
      "step": 5550
    },
    {
      "epoch": 0.8484825362913225,
      "grad_norm": 2.791234254837036,
      "learning_rate": 6.848219581901866e-07,
      "loss": 0.3946,
      "step": 5560
    },
    {
      "epoch": 0.8500085840184651,
      "grad_norm": 3.1531620025634766,
      "learning_rate": 6.714276546565423e-07,
      "loss": 0.4137,
      "step": 5570
    },
    {
      "epoch": 0.8515346317456078,
      "grad_norm": 2.58180570602417,
      "learning_rate": 6.581562028151451e-07,
      "loss": 0.4073,
      "step": 5580
    },
    {
      "epoch": 0.8530606794727505,
      "grad_norm": 2.863215208053589,
      "learning_rate": 6.450079793306735e-07,
      "loss": 0.4321,
      "step": 5590
    },
    {
      "epoch": 0.8545867271998931,
      "grad_norm": 2.909364700317383,
      "learning_rate": 6.319833573703938e-07,
      "loss": 0.3989,
      "step": 5600
    },
    {
      "epoch": 0.8561127749270359,
      "grad_norm": 2.7926652431488037,
      "learning_rate": 6.190827065935645e-07,
      "loss": 0.404,
      "step": 5610
    },
    {
      "epoch": 0.8576388226541785,
      "grad_norm": 2.7227327823638916,
      "learning_rate": 6.06306393140948e-07,
      "loss": 0.3815,
      "step": 5620
    },
    {
      "epoch": 0.8591648703813212,
      "grad_norm": 2.705726385116577,
      "learning_rate": 5.936547796244207e-07,
      "loss": 0.3741,
      "step": 5630
    },
    {
      "epoch": 0.8606909181084639,
      "grad_norm": 3.357189178466797,
      "learning_rate": 5.811282251166716e-07,
      "loss": 0.398,
      "step": 5640
    },
    {
      "epoch": 0.8622169658356065,
      "grad_norm": 2.5761477947235107,
      "learning_rate": 5.687270851410265e-07,
      "loss": 0.396,
      "step": 5650
    },
    {
      "epoch": 0.8637430135627492,
      "grad_norm": 4.029236316680908,
      "learning_rate": 5.564517116613433e-07,
      "loss": 0.4209,
      "step": 5660
    },
    {
      "epoch": 0.8652690612898919,
      "grad_norm": 3.4346041679382324,
      "learning_rate": 5.443024530720326e-07,
      "loss": 0.3933,
      "step": 5670
    },
    {
      "epoch": 0.8667951090170345,
      "grad_norm": 2.5683741569519043,
      "learning_rate": 5.32279654188163e-07,
      "loss": 0.3668,
      "step": 5680
    },
    {
      "epoch": 0.8683211567441772,
      "grad_norm": 2.6289405822753906,
      "learning_rate": 5.203836562356795e-07,
      "loss": 0.3781,
      "step": 5690
    },
    {
      "epoch": 0.8698472044713198,
      "grad_norm": 2.9439804553985596,
      "learning_rate": 5.086147968417199e-07,
      "loss": 0.4096,
      "step": 5700
    },
    {
      "epoch": 0.8713732521984625,
      "grad_norm": 2.9020564556121826,
      "learning_rate": 4.969734100250229e-07,
      "loss": 0.413,
      "step": 5710
    },
    {
      "epoch": 0.8728992999256052,
      "grad_norm": 3.4045605659484863,
      "learning_rate": 4.854598261864618e-07,
      "loss": 0.3765,
      "step": 5720
    },
    {
      "epoch": 0.8744253476527478,
      "grad_norm": 3.001821517944336,
      "learning_rate": 4.74074372099656e-07,
      "loss": 0.3817,
      "step": 5730
    },
    {
      "epoch": 0.8759513953798905,
      "grad_norm": 2.8464105129241943,
      "learning_rate": 4.628173709017031e-07,
      "loss": 0.3914,
      "step": 5740
    },
    {
      "epoch": 0.8774774431070331,
      "grad_norm": 3.0081145763397217,
      "learning_rate": 4.516891420840047e-07,
      "loss": 0.4129,
      "step": 5750
    },
    {
      "epoch": 0.8790034908341758,
      "grad_norm": 2.8356759548187256,
      "learning_rate": 4.4069000148319885e-07,
      "loss": 0.3986,
      "step": 5760
    },
    {
      "epoch": 0.8805295385613185,
      "grad_norm": 2.759951114654541,
      "learning_rate": 4.298202612722008e-07,
      "loss": 0.3763,
      "step": 5770
    },
    {
      "epoch": 0.8820555862884611,
      "grad_norm": 3.221383571624756,
      "learning_rate": 4.1908022995133526e-07,
      "loss": 0.3885,
      "step": 5780
    },
    {
      "epoch": 0.8835816340156039,
      "grad_norm": 2.8623874187469482,
      "learning_rate": 4.084702123395834e-07,
      "loss": 0.3748,
      "step": 5790
    },
    {
      "epoch": 0.8851076817427465,
      "grad_norm": 2.868194341659546,
      "learning_rate": 3.979905095659381e-07,
      "loss": 0.3913,
      "step": 5800
    },
    {
      "epoch": 0.8866337294698892,
      "grad_norm": 3.0048179626464844,
      "learning_rate": 3.8764141906084794e-07,
      "loss": 0.3843,
      "step": 5810
    },
    {
      "epoch": 0.8881597771970319,
      "grad_norm": 2.4534389972686768,
      "learning_rate": 3.7742323454778296e-07,
      "loss": 0.3878,
      "step": 5820
    },
    {
      "epoch": 0.8896858249241745,
      "grad_norm": 2.534501552581787,
      "learning_rate": 3.6733624603489e-07,
      "loss": 0.3899,
      "step": 5830
    },
    {
      "epoch": 0.8912118726513172,
      "grad_norm": 3.0121171474456787,
      "learning_rate": 3.5738073980677355e-07,
      "loss": 0.407,
      "step": 5840
    },
    {
      "epoch": 0.8927379203784598,
      "grad_norm": 2.708857774734497,
      "learning_rate": 3.475569984163596e-07,
      "loss": 0.4173,
      "step": 5850
    },
    {
      "epoch": 0.8942639681056025,
      "grad_norm": 3.2787721157073975,
      "learning_rate": 3.378653006768823e-07,
      "loss": 0.3978,
      "step": 5860
    },
    {
      "epoch": 0.8957900158327452,
      "grad_norm": 2.9193058013916016,
      "learning_rate": 3.2830592165396913e-07,
      "loss": 0.3986,
      "step": 5870
    },
    {
      "epoch": 0.8973160635598878,
      "grad_norm": 2.758446455001831,
      "learning_rate": 3.188791326578339e-07,
      "loss": 0.3574,
      "step": 5880
    },
    {
      "epoch": 0.8988421112870305,
      "grad_norm": 2.8080217838287354,
      "learning_rate": 3.0958520123557767e-07,
      "loss": 0.3749,
      "step": 5890
    },
    {
      "epoch": 0.9003681590141732,
      "grad_norm": 3.7036428451538086,
      "learning_rate": 3.0042439116359455e-07,
      "loss": 0.3887,
      "step": 5900
    },
    {
      "epoch": 0.9018942067413158,
      "grad_norm": 3.0411696434020996,
      "learning_rate": 2.9139696244008255e-07,
      "loss": 0.3961,
      "step": 5910
    },
    {
      "epoch": 0.9034202544684585,
      "grad_norm": 2.942746877670288,
      "learning_rate": 2.8250317127767213e-07,
      "loss": 0.3875,
      "step": 5920
    },
    {
      "epoch": 0.9049463021956011,
      "grad_norm": 3.230517864227295,
      "learning_rate": 2.7374327009614456e-07,
      "loss": 0.3981,
      "step": 5930
    },
    {
      "epoch": 0.9064723499227438,
      "grad_norm": 2.7047958374023438,
      "learning_rate": 2.651175075152784e-07,
      "loss": 0.3996,
      "step": 5940
    },
    {
      "epoch": 0.9079983976498865,
      "grad_norm": 3.278867244720459,
      "learning_rate": 2.5662612834778164e-07,
      "loss": 0.3625,
      "step": 5950
    },
    {
      "epoch": 0.9095244453770291,
      "grad_norm": 2.955040693283081,
      "learning_rate": 2.4826937359235305e-07,
      "loss": 0.3662,
      "step": 5960
    },
    {
      "epoch": 0.9110504931041719,
      "grad_norm": 2.9156110286712646,
      "learning_rate": 2.4004748042683933e-07,
      "loss": 0.405,
      "step": 5970
    },
    {
      "epoch": 0.9125765408313145,
      "grad_norm": 3.318800926208496,
      "learning_rate": 2.3196068220150025e-07,
      "loss": 0.4027,
      "step": 5980
    },
    {
      "epoch": 0.9141025885584572,
      "grad_norm": 4.083282470703125,
      "learning_rate": 2.2400920843239194e-07,
      "loss": 0.3634,
      "step": 5990
    },
    {
      "epoch": 0.9156286362855999,
      "grad_norm": 3.180896759033203,
      "learning_rate": 2.161932847948478e-07,
      "loss": 0.3918,
      "step": 6000
    },
    {
      "epoch": 0.9156286362855999,
      "eval_loss": 0.37766218185424805,
      "eval_runtime": 99.9689,
      "eval_samples_per_second": 5.302,
      "eval_steps_per_second": 2.651,
      "step": 6000
    },
    {
      "epoch": 0.9171546840127425,
      "grad_norm": 3.35513973236084,
      "learning_rate": 2.0851313311707532e-07,
      "loss": 0.3857,
      "step": 6010
    },
    {
      "epoch": 0.9186807317398852,
      "grad_norm": 2.6778345108032227,
      "learning_rate": 2.0096897137386052e-07,
      "loss": 0.3725,
      "step": 6020
    },
    {
      "epoch": 0.9202067794670278,
      "grad_norm": 2.9898831844329834,
      "learning_rate": 1.9356101368038005e-07,
      "loss": 0.4051,
      "step": 6030
    },
    {
      "epoch": 0.9217328271941705,
      "grad_norm": 2.924804449081421,
      "learning_rate": 1.8628947028612788e-07,
      "loss": 0.3742,
      "step": 6040
    },
    {
      "epoch": 0.9232588749213132,
      "grad_norm": 2.871389389038086,
      "learning_rate": 1.791545475689438e-07,
      "loss": 0.3881,
      "step": 6050
    },
    {
      "epoch": 0.9247849226484558,
      "grad_norm": 3.050419569015503,
      "learning_rate": 1.721564480291571e-07,
      "loss": 0.3972,
      "step": 6060
    },
    {
      "epoch": 0.9263109703755985,
      "grad_norm": 3.090453863143921,
      "learning_rate": 1.652953702838428e-07,
      "loss": 0.3852,
      "step": 6070
    },
    {
      "epoch": 0.9278370181027412,
      "grad_norm": 3.4830410480499268,
      "learning_rate": 1.585715090611778e-07,
      "loss": 0.3964,
      "step": 6080
    },
    {
      "epoch": 0.9293630658298838,
      "grad_norm": 3.4521846771240234,
      "learning_rate": 1.5198505519492368e-07,
      "loss": 0.4143,
      "step": 6090
    },
    {
      "epoch": 0.9308891135570265,
      "grad_norm": 3.032611131668091,
      "learning_rate": 1.4553619561899935e-07,
      "loss": 0.3881,
      "step": 6100
    },
    {
      "epoch": 0.9324151612841691,
      "grad_norm": 3.2053749561309814,
      "learning_rate": 1.3922511336218524e-07,
      "loss": 0.397,
      "step": 6110
    },
    {
      "epoch": 0.9339412090113118,
      "grad_norm": 3.1718320846557617,
      "learning_rate": 1.330519875429237e-07,
      "loss": 0.4042,
      "step": 6120
    },
    {
      "epoch": 0.9354672567384545,
      "grad_norm": 2.4236302375793457,
      "learning_rate": 1.2701699336423513e-07,
      "loss": 0.3791,
      "step": 6130
    },
    {
      "epoch": 0.9369933044655971,
      "grad_norm": 2.4723575115203857,
      "learning_rate": 1.211203021087487e-07,
      "loss": 0.4056,
      "step": 6140
    },
    {
      "epoch": 0.9385193521927399,
      "grad_norm": 3.279250383377075,
      "learning_rate": 1.1536208113383684e-07,
      "loss": 0.4043,
      "step": 6150
    },
    {
      "epoch": 0.9400453999198825,
      "grad_norm": 2.6275689601898193,
      "learning_rate": 1.0974249386687064e-07,
      "loss": 0.3986,
      "step": 6160
    },
    {
      "epoch": 0.9415714476470252,
      "grad_norm": 2.8793821334838867,
      "learning_rate": 1.042616998005752e-07,
      "loss": 0.3891,
      "step": 6170
    },
    {
      "epoch": 0.9430974953741679,
      "grad_norm": 3.2804644107818604,
      "learning_rate": 9.891985448850839e-08,
      "loss": 0.3963,
      "step": 6180
    },
    {
      "epoch": 0.9446235431013105,
      "grad_norm": 2.7859580516815186,
      "learning_rate": 9.37171095406425e-08,
      "loss": 0.3832,
      "step": 6190
    },
    {
      "epoch": 0.9461495908284532,
      "grad_norm": 2.705620288848877,
      "learning_rate": 8.865361261906402e-08,
      "loss": 0.3851,
      "step": 6200
    },
    {
      "epoch": 0.9476756385555958,
      "grad_norm": 2.792065382003784,
      "learning_rate": 8.372950743378128e-08,
      "loss": 0.403,
      "step": 6210
    },
    {
      "epoch": 0.9492016862827385,
      "grad_norm": 3.0607993602752686,
      "learning_rate": 7.894493373864332e-08,
      "loss": 0.4104,
      "step": 6220
    },
    {
      "epoch": 0.9507277340098812,
      "grad_norm": 3.5412745475769043,
      "learning_rate": 7.430002732737973e-08,
      "loss": 0.3937,
      "step": 6230
    },
    {
      "epoch": 0.9522537817370238,
      "grad_norm": 3.418365955352783,
      "learning_rate": 6.979492002974098e-08,
      "loss": 0.3954,
      "step": 6240
    },
    {
      "epoch": 0.9537798294641665,
      "grad_norm": 2.9009461402893066,
      "learning_rate": 6.542973970775912e-08,
      "loss": 0.3904,
      "step": 6250
    },
    {
      "epoch": 0.9553058771913091,
      "grad_norm": 2.7992494106292725,
      "learning_rate": 6.120461025211744e-08,
      "loss": 0.3897,
      "step": 6260
    },
    {
      "epoch": 0.9568319249184518,
      "grad_norm": 2.860257625579834,
      "learning_rate": 5.711965157863597e-08,
      "loss": 0.3673,
      "step": 6270
    },
    {
      "epoch": 0.9583579726455945,
      "grad_norm": 2.605058431625366,
      "learning_rate": 5.317497962486984e-08,
      "loss": 0.3961,
      "step": 6280
    },
    {
      "epoch": 0.9598840203727371,
      "grad_norm": 3.152754545211792,
      "learning_rate": 4.937070634681185e-08,
      "loss": 0.3884,
      "step": 6290
    },
    {
      "epoch": 0.9614100680998798,
      "grad_norm": 2.6811258792877197,
      "learning_rate": 4.570693971572393e-08,
      "loss": 0.3968,
      "step": 6300
    },
    {
      "epoch": 0.9629361158270225,
      "grad_norm": 3.2074809074401855,
      "learning_rate": 4.218378371506515e-08,
      "loss": 0.4024,
      "step": 6310
    },
    {
      "epoch": 0.9644621635541651,
      "grad_norm": 3.393841028213501,
      "learning_rate": 3.880133833754518e-08,
      "loss": 0.3852,
      "step": 6320
    },
    {
      "epoch": 0.9659882112813079,
      "grad_norm": 3.0189993381500244,
      "learning_rate": 3.555969958228489e-08,
      "loss": 0.3804,
      "step": 6330
    },
    {
      "epoch": 0.9675142590084505,
      "grad_norm": 2.8455655574798584,
      "learning_rate": 3.245895945209132e-08,
      "loss": 0.4228,
      "step": 6340
    },
    {
      "epoch": 0.9690403067355932,
      "grad_norm": 3.668877601623535,
      "learning_rate": 2.949920595084643e-08,
      "loss": 0.369,
      "step": 6350
    },
    {
      "epoch": 0.9705663544627359,
      "grad_norm": 3.0246024131774902,
      "learning_rate": 2.6680523081011878e-08,
      "loss": 0.3899,
      "step": 6360
    },
    {
      "epoch": 0.9720924021898785,
      "grad_norm": 2.8767731189727783,
      "learning_rate": 2.4002990841239804e-08,
      "loss": 0.393,
      "step": 6370
    },
    {
      "epoch": 0.9736184499170212,
      "grad_norm": 3.3473153114318848,
      "learning_rate": 2.1466685224107995e-08,
      "loss": 0.3722,
      "step": 6380
    },
    {
      "epoch": 0.9751444976441638,
      "grad_norm": 2.7829878330230713,
      "learning_rate": 1.9071678213959388e-08,
      "loss": 0.3788,
      "step": 6390
    },
    {
      "epoch": 0.9766705453713065,
      "grad_norm": 2.5925357341766357,
      "learning_rate": 1.6818037784860908e-08,
      "loss": 0.3862,
      "step": 6400
    },
    {
      "epoch": 0.9781965930984492,
      "grad_norm": 3.0968399047851562,
      "learning_rate": 1.4705827898672254e-08,
      "loss": 0.3738,
      "step": 6410
    },
    {
      "epoch": 0.9797226408255918,
      "grad_norm": 3.40238881111145,
      "learning_rate": 1.2735108503232896e-08,
      "loss": 0.4121,
      "step": 6420
    },
    {
      "epoch": 0.9812486885527345,
      "grad_norm": 2.9040355682373047,
      "learning_rate": 1.0905935530658996e-08,
      "loss": 0.4003,
      "step": 6430
    },
    {
      "epoch": 0.9827747362798771,
      "grad_norm": 2.6801180839538574,
      "learning_rate": 9.218360895758006e-09,
      "loss": 0.3973,
      "step": 6440
    },
    {
      "epoch": 0.9843007840070198,
      "grad_norm": 2.591391086578369,
      "learning_rate": 7.672432494551518e-09,
      "loss": 0.3936,
      "step": 6450
    },
    {
      "epoch": 0.9858268317341625,
      "grad_norm": 2.7946035861968994,
      "learning_rate": 6.268194202920241e-09,
      "loss": 0.3641,
      "step": 6460
    },
    {
      "epoch": 0.9873528794613051,
      "grad_norm": 4.159729480743408,
      "learning_rate": 5.005685875354993e-09,
      "loss": 0.3685,
      "step": 6470
    },
    {
      "epoch": 0.9888789271884478,
      "grad_norm": 2.7406532764434814,
      "learning_rate": 3.884943343829273e-09,
      "loss": 0.4149,
      "step": 6480
    },
    {
      "epoch": 0.9904049749155904,
      "grad_norm": 3.1383161544799805,
      "learning_rate": 2.9059984167778553e-09,
      "loss": 0.3814,
      "step": 6490
    },
    {
      "epoch": 0.9919310226427331,
      "grad_norm": 2.687572956085205,
      "learning_rate": 2.0688788781980664e-09,
      "loss": 0.3942,
      "step": 6500
    },
    {
      "epoch": 0.9919310226427331,
      "eval_loss": 0.377034068107605,
      "eval_runtime": 100.214,
      "eval_samples_per_second": 5.289,
      "eval_steps_per_second": 2.644,
      "step": 6500
    },
    {
      "epoch": 0.9934570703698758,
      "grad_norm": 2.9962236881256104,
      "learning_rate": 1.3736084868598564e-09,
      "loss": 0.3747,
      "step": 6510
    },
    {
      "epoch": 0.9949831180970184,
      "grad_norm": 2.946183204650879,
      "learning_rate": 8.202069756302333e-10,
      "loss": 0.3763,
      "step": 6520
    },
    {
      "epoch": 0.9965091658241612,
      "grad_norm": 3.0049428939819336,
      "learning_rate": 4.0869005091481727e-10,
      "loss": 0.4033,
      "step": 6530
    },
    {
      "epoch": 0.9980352135513039,
      "grad_norm": 3.199441432952881,
      "learning_rate": 1.3906939221042247e-10,
      "loss": 0.3847,
      "step": 6540
    },
    {
      "epoch": 0.9995612612784465,
      "grad_norm": 2.7879321575164795,
      "learning_rate": 1.1352651776985746e-11,
      "loss": 0.4005,
      "step": 6550
    },
    {
      "epoch": 1.0,
      "step": 6553,
      "total_flos": 2.1597904813481902e+18,
      "train_loss": 0.4742196609496197,
      "train_runtime": 41833.5481,
      "train_samples_per_second": 1.253,
      "train_steps_per_second": 0.157
    }
  ],
  "logging_steps": 10,
  "max_steps": 6553,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.1597904813481902e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}